Công cụ lưu trữ trang web chuyên nghiệp

Tính toán dung lượng, thời gian và phương pháp tối ưu để lưu trữ toàn bộ trang web về máy tính

Số lượng trang cần lưu

Dung lượng trung bình mỗi trang (MB)

Tỷ lệ nội dung đa phương tiện

Phương pháp tải về

Bao gồm tài nguyên ngoài (CSS, JS, fonts)

Giữ nguyên cấu trúc thư mục gốc

Tốc độ internet (Mbps)

Tổng dung lượng ước tính: 0 MB

Thời gian tải về ước tính: 0 phút

Phương pháp được đề xuất: Chưa xác định

Mức độ phức tạp: Chưa xác định

Hướng dẫn toàn diện: Cách lưu trữ cả trang web về máy tính (2024)

Việc lưu trữ toàn bộ trang web về máy tính cá nhân không chỉ giúp bạn truy cập nội dung offline mà còn là giải pháp bảo tồn thông tin quan trọng, nghiên cứu cạnh tranh, hoặc tạo bản sao lưu cho dự án phát triển web. Bài viết này sẽ cung cấp hướng dẫn chi tiết từ cơ bản đến nâng cao, kèm theo phân tích so sánh các phương pháp và công cụ hiện đại.

1. Tại sao cần lưu trữ trang web về máy tính?

Truy cập offline: Duyệt nội dung mà không cần kết nối internet, đặc biệt hữu ích cho các khu vực có mạng không ổn định.
Bảo tồn thông tin: Tránh mất mát dữ liệu khi trang web gốc bị xóa hoặc thay đổi (theo thống kê từ Internet Archive, 38% trang web bị thay đổi hoặc mất sau 1 năm).
Phân tích cạnh tranh: Nghiên cứu cấu trúc, nội dung và mã nguồn của đối thủ mà không để lại dấu vết truy cập.
Phát triển web: Tạo môi trường thử nghiệm local để sửa đổi mà không ảnh hưởng đến trang web trực tuyến.
Tuân thủ pháp lý: Lưu trữ bằng chứng số cho các vụ kiện hoặc yêu cầu pháp lý (xem hướng dẫn từ U.S. Courts về bằng chứng điện tử).

2. Các phương pháp lưu trữ trang web phổ biến

Mỗi phương pháp có ưu nhược điểm riêng, phù hợp với các nhu cầu khác nhau:

Phương pháp	Độ chính xác	Độ phức tạp	Thời gian	Dung lượng	Chi phí
Lưu thủ công (Copy/paste)	Thấp (30-50%)	Thấp	Cao	Thấp	Miễn phí
Công cụ dòng lệnh (wget)	Trung bình (60-80%)	Trung bình	Thấp	Trung bình	Miễn phí
Phần mềm chuyên dụng (HTTrack)	Cao (80-95%)	Cao	Thấp	Cao	Miễn phí
Tiện ích trình duyệt	Trung bình (50-70%)	Thấp	Trung bình	Thấp	Miễn phí
Dịch vụ đám mây (ArchiveBox)	Rất cao (90-99%)	Rất cao	Thấp	Rất cao	$5-$50/tháng

3. Hướng dẫn chi tiết từng phương pháp

3.1. Phương pháp thủ công (Phù hợp cho <50 trang)

Bước 1: Chuẩn bị
- Tạo thư mục chủ trên máy tính (ví dụ: C:\Web Archives\ProjectX)
- Chuẩn bị trình duyệt (Chrome/Firefox) và công cụ ghi chú
Bước 2: Lưu từng trang
- Mở trang cần lưu → Nhấn Ctrl+S (Windows) hoặc Cmd+S (Mac)
- Chọn “Trang web hoàn chỉnh (*.html, *.htm)” → Lưu vào thư mục đã tạo
- Đổi tên file theo cấu trúc: ten-trang_ngay-thang-nam.html
Bước 3: Lưu tài nguyên phụ
- Click chuột phải vào hình ảnh → “Lưu hình ảnh thành…”
- Đối với CSS/JS: Mở DevTools (F12) → Tab “Sources” → Tìm file → Click chuột phải → “Save as”
Bước 4: Kiểm tra tính toàn vẹn
- Mở file HTML đã lưu bằng trình duyệt
- Kiểm tra các liên kết nội bộ, hình ảnh, và chức năng
- Sửa đường dẫn tương đối nếu cần trong mã HTML

Lưu ý: Phương pháp này chỉ phù hợp với các trang tĩnh đơn giản. Đối với trang động (PHP, JavaScript nặng), bạn cần sử dụng công cụ chuyên dụng.

3.2. Sử dụng công cụ dòng lệnh (wget – Phù hợp cho 50-500 trang)

Wget là công cụ mạnh mẽ có sẵn trên Linux/macOS và có thể cài đặt trên Windows qua Cygwin hoặc Git Bash.

Cài đặt wget
- Windows: choco install wget (qua Chocolatey)
- macOS: brew install wget (qua Homebrew)
- Linux: sudo apt install wget (Debian/Ubuntu)

Cú pháp cơ bản

wget \
     --recursive \          # Tải đệ quy
     --no-clobber \         # Không ghi đè file hiện có
     --page-requisites \    # Tải tất cả tài nguyên (CSS, JS, hình ảnh)
     --html-extension \     # Lưu file HTML với phần mở rộng .html
     --convert-links \      # Chuyển đổi liên kết cho xem offline
     --restrict-file-names=windows \  # Tương thích tên file với Windows
     --domains website.com \          # Chỉ tải từ domain chỉ định
     --no-parent \          # Không tải từ thư mục cha
     www.website.com/path    # URL mục tiêu

Ví dụ thực tế

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains example.com \
     --no-parent \
     --user-agent="Mozilla/5.0" \
     --wait=2 \
     --random-wait \
     -P "C:/Web Archives/Example" \
     https://example.com/blog

Tham số nâng cao

Tham số	Mô tả	Ví dụ
`--limit-rate=200k`	Giới hạn tốc độ tải (KB/s)	`--limit-rate=500k`
`--mirror`	Chế độ sao chép gương (tương đương –recursive + –timestamping)	`wget --mirror URL`
`--exclude-directories`	Loại trừ thư mục cụ thể	`--exclude-directories=/forums,/ads`
`--accept`	Chỉ tải các loại file cụ thể	`--accept=pdf,docx`
`--reject`	Loại trừ các loại file	`--reject=gif,jpg`

3.3. Phần mềm chuyên dụng (HTTrack – Phù hợp cho 500+ trang)

HTTrack (HTML Track) là công cụ mã nguồn mở mạnh mẽ, hỗ trợ tải về toàn bộ trang web với giao diện đồ họa thân thiện. Theo thống kê từ trang chính thức, HTTrack được sử dụng bởi hơn 5 triệu người dùng trên toàn cầu.

Tải và cài đặt
- Tải từ trang download chính thức
- Cài đặt với quyền admin (Windows) hoặc qua terminal (macOS/Linux)
Cấu hình dự án mới
- Đặt tên dự án (ví dụ: “Backup_Example_2024”)
- Chọn thư mục lưu trữ (đảm bảo dung lượng trống > 20GB cho trang web lớn)
- Nhập URL trang web (ví dụ: https://example.com/)
Tùy chọn nâng cao
- Độ sâu tải: 5-10 level cho trang web trung bình
- Bật “Tải tất cả file” và “Ghi lại liên kết ngoài”
- Thiết lập giới hạn tốc độ: 100-300 KB/s để tránh quá tải server
- Chọn “Cập nhật trang web hiện có” nếu bạn đã tải trước đó
Bắt đầu tải về
- Nhấn “Finish” → “Start” để bắt đầu quá trình
- Thời gian ước tính: 1-10 giờ tùy thuộc vào kích thước trang web
- HTTrack sẽ tạo báo cáo chi tiết khi hoàn thành
Xử lý sau khi tải
- Mở file index.html trong thư mục dự án
- Kiểm tra lỗi tải trong file httrack-log.txt
- Sửa đường dẫn tuyệt đối thành tương đối nếu cần

Mẹo chuyên gia: Đối với trang web động (WordPress, Joomla), hãy bật tùy chọn “Parse JavaScript” và “Execute JavaScript” trong thiết lập nâng cao để tải nội dung được render bởi JS.

3.4. Tiện ích trình duyệt (Phù hợp cho người dùng không chuyên)

Các tiện ích như SingleFile (Chrome/Firefox) hoặc Save Page WE cho phép lưu trang web với một cú click chuột, bao gồm tất cả tài nguyên trong một file HTML duy nhất.

Cài đặt tiện ích
- Chrome: Truy cập Chrome Web Store
- Firefox: Truy cập Firefox Add-ons
Cấu hình tiện ích
- Mở tùy chọn tiện ích → Chọn “Save complete page (MHTML, HTML)”
- Bật “Save to” và chọn thư mục mặc định
- Đối với SingleFile: Bật “Remove hidden elements” để giảm dung lượng
Lưu trang web
- Mở trang cần lưu → Click vào biểu tượng tiện ích trên thanh công cụ
- Chờ quá trình hoàn tất (thường < 30 giây cho trang trung bình)
- File sẽ được lưu với định dạng .html hoặc .mht
Quản lý file đã lưu
- Mở file đã lưu bằng bất kỳ trình duyệt nào
- Đối với SingleFile: Sử dụng tính năng “ZIP archive” để nén nhiều trang
- Tạo danh sách các trang đã lưu trong file Excel để quản lý

4. Xử lý các thách thức phổ biến

4.1. Vấn đề với nội dung động (JavaScript, AJAX)

Các trang web hiện đại thường sử dụng JavaScript để tải nội dung động. Đối với các trường hợp này:

Sử dụng công cụ render JS:
- Puppeteer (Node.js): npm install puppeteer
- Playwright: Hỗ trợ đa trình duyệt và ngôn ngữ lập trình

Cấu hình đặc biệt cho wget:

wget \
     --execute="javascript=on" \  # Bật hỗ trợ JavaScript (yêu cầu wget2)
     --domains example.com \
     --span-hosts \              # Cho phép tải từ các domain khác
     --adjust-extension \
     https://example.com

Kết hợp với trình duyệt headless:
- Sử dụng Selenium để điều khiển trình duyệt tự động
- Lưu trang sau khi JavaScript đã thực thi xong

4.2. Quản lý dung lượng lưu trữ lớn

Đối với trang web có dung lượng > 10GB:

Nén dữ liệu:
- Sử dụng 7-Zip với thuật toán LZMA2: 7z a -t7z -m0=lzma2 -mx=9 archive.7z folder/
- Tỷ lệ nén có thể đạt 70-90% cho file văn bản và HTML
Lưu trữ phân tán:
- Chia nhỏ thành các phần 4.7GB để lưu trên DVD
- Sử dụng dịch vụ đám mây (Google Drive, Backblaze B2)

Loại bỏ tài nguyên không cần thiết:

Xóa cache, file log, và tài nguyên lỗi bằng script:

Ví dụ với Python:

import os
import re

def clean_archive(directory):
    deleted_size = 0
    for root, dirs, files in os.walk(directory):
        for file in files:
            if re.search(r'\.(log|tmp|cache|bak)$', file, re.IGNORECASE):
                file_path = os.path.join(root, file)
                deleted_size += os.path.getsize(file_path)
                os.remove(file_path)
    return deleted_size

cleaned = clean_archive("/path/to/archive")
print(f"Đã giải phóng {cleaned/1024/1024:.2f} MB")

4.3. Vấn đề pháp lý và đạo đức

Trước khi lưu trữ trang web, cần xem xét các khía cạnh pháp lý:

Bản quyền nội dung:
- Kiểm tra file robots.txt (ví dụ: https://example.com/robots.txt)
- Tôn trọng thông tin trong robots.txt về các trang không được phép tải
- Đối với nội dung có bản quyền, chỉ sử dụng cho mục đích cá nhân hoặc nghiên cứu
Điều khoản dịch vụ:
- Kiểm tra Terms of Service của trang web
- Một số trang cấm tải về tự động (ví dụ: mạng xã hội)
Tốc độ tải:
- Giới hạn tốc độ tải để không làm quá tải server (khuyến nghị: < 100 KB/s)
- Thêm delay giữa các request: --random-wait trong wget
Thông báo cho chủ sở hữu:
- Đối với việc lưu trữ quy mô lớn, cân nhắc thông báo cho admin trang web
- Sử dụng địa chỉ email công khai (thường có trong WHOIS hoặc trang liên hệ)

Theo hướng dẫn từ U.S. Copyright Office, việc sao chép nội dung cho mục đích cá nhân thường được coi là “fair use”, nhưng phân phối lại có thể vi phạm luật bản quyền.

5. Công cụ và tài nguyên bổ sung

Công cụ	Mô tả	Đường link	Mức độ
ArchiveBox	Công cụ lưu trữ web tự động với nhiều phương thức (wget, Chrome, git, etc.)	GitHub	Nâng cao
SiteSucker	Phần mềm macOS chuyên nghiệp để tải về trang web	Trang chủ	Trung bình
WebScrapBook	Tiện ích trình duyệt mã nguồn mở để lưu trang web	GitHub	Cơ bản
Scrapy	Framework Python mạnh mẽ cho việc thu thập dữ liệu web	Trang chủ	Nâng cao
Wayback Machine	Dịch vụ lưu trữ lịch sử trang web của Internet Archive	Archive.org	Cơ bản

6. Kỹ thuật nâng cao cho nhà phát triển

6.1. Tự động hóa với Python và Selenium

Đối với các trang web phức tạp yêu cầu tương tác:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

# Cấu hình trình duyệt headless
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--window-size=1920x1080")

# Khởi tạo driver
driver = webdriver.Chrome(options=chrome_options)

try:
    # Mở trang và chờ JavaScript thực thi
    driver.get("https://example.com/dynamic-content")
    time.sleep(5)  # Chờ nội động tải xong

    # Lưu trang hoàn chỉnh
    with open("dynamic_page.html", "w", encoding="utf-8") as f:
        f.write(driver.page_source)

    # Lưu screenshot
    driver.save_screenshot("dynamic_page.png")

finally:
    driver.quit()

6.2. Sử dụng Docker để tạo môi trường lưu trữ

Docker container giúp tạo môi trường nhất quán cho việc lưu trữ web:

# Dockerfile cho môi trường lưu trữ web
FROM ubuntu:22.04

# Cài đặt công cụ cần thiết
RUN apt-get update && apt-get install -y \
    wget \
    curl \
    git \
    python3 \
    python3-pip \
    chromium-browser \
    && rm -rf /var/lib/apt/lists/*

# Cài đặt công cụ bổ sung
RUN pip3 install selenium beautifulsoup4

# Sao chép script lưu trữ
COPY archive_script.py /app/archive_script.py

# Thiết lập thư mục làm việc
WORKDIR /app

# Chạy script khi container khởi động
CMD ["python3", "archive_script.py"]

Build và chạy container:

# Build image
docker build -t web-archiver .

# Chạy container với volume để lưu dữ liệu
docker run -v $(pwd)/archive:/app/archive web-archiver

6.3. Tích hợp với hệ thống quản lý nội dung

Đối với các trang web sử dụng CMS như WordPress:

Plugin chuyên dụng:
- All-in-One WP Migration: Xuất toàn bộ trang web thành file .wpress
- Duplicator: Tạo bản sao hoàn chỉnh với database

Công cụ dòng lệnh WP-CLI:

# Xuất database
wp db export backup.sql

# Xuất tài nguyên media
wp media export --dir=/path/to/save

# Tạo archive hoàn chỉnh
tar -czvf wordpress_backup.tar.gz /var/www/html wp-content/uploads backup.sql

Script tự động hóa:
- Kết hợp wp-cli với cron job để sao lưu định kỳ
- Tải về qua SFTP/SCP để lưu trữ local

7. Bảo quản và sử dụng dữ liệu đã lưu trữ

7.1. Tổ chức hệ thống file

Cấu trúc thư mục đề xuất:

📁 Web Archives
├── 📁 2024
│   ├── 📁 example.com
│   │   ├── 📁 2024-05-15
│   │   │   ├── 📁 html
│   │   │   ├── 📁 assets
│   │   │   │   ├── 📁 css
│   │   │   │   ├── 📁 js
│   │   │   │   └── 📁 images
│   │   │   ├── index.html
│   │   │   ├── archive_log.txt
│   │   │   └── README.md
│   │   └── ...
│   ├── 📁 another-site.org
│   └── ...
├── 📁 2023
└── 📁 tools
    ├── 📁 scripts
    └── 📁 configs

7.2. Tạo index tìm kiếm

Sử dụng công cụ như Recoll hoặc DocFetcher để tạo index tìm kiếm toàn văn:

Cài đặt DocFetcher từ trang chủ
Thêm thư mục chứa archive vào index
Chọn định dạng file cần index (HTML, PDF, DOCX)
Bắt đầu quá trình index (có thể mất vài giờ cho dữ liệu lớn)
Sử dụng giao diện tìm kiếm với cú pháp nâng cao:
- title:"web archive" – Tìm trong tiêu đề
- filetype:pdf – Lọc theo loại file
- date:2023-01-01..2023-12-31 – Lọc theo ngày

7.3. Chuyển đổi định dạng

Các công cụ chuyển đổi hữu ích:

Nhu cầu	Công cụ	Cú pháp ví dụ
HTML → PDF	wkhtmltopdf	`wkhtmltopdf input.html output.pdf`
HTML → MARKDOWN	pandoc	`pandoc -f html -t markdown input.html -o output.md`
Trích xuất văn bản	lynx	`lynx --dump input.html > text_output.txt`
Nén hình ảnh	ImageMagick	`mogrifiy -quality 80 *.jpg`
Trích xuất liên kết	Python (BeautifulSoup)	from bs4 import BeautifulSoup with open("page.html") as f: soup = BeautifulSoup(f, "html.parser") for link in soup.find_all("a"): print(link.get("href"))

7.4. Sao lưu và phục hồi

Chiến lược sao lưu 3-2-1:

3 bản sao: Giữ ít nhất 3 bản sao dữ liệu
2 phương tiện khác nhau: Ví dụ: ổ cứng và đám mây
1 bản sao ngoại tuyến: Lưu trữ tại địa điểm vật lý khác

Script sao lưu tự động với rsync:

#!/bin/bash

# Thư mục nguồn và đích
SOURCE="/path/to/web_archives"
DESTINATION="/mnt/backup_drive/web_archives"
CLOUD_DEST="user@cloud-server:/backups/web_archives"

# Sao lưu local
rsync -av --delete "$SOURCE" "$DESTINATION"

# Sao lưu đám mây (qua SSH)
rsync -avz -e ssh --delete "$SOURCE" "$CLOUD_DEST"

# Kiểm tra tính toàn vẹn
diff -r "$SOURCE" "$DESTINATION" || echo "Cảnh báo: Sao lưu local không khớp!" | mail -s "Sao lưu lỗi" admin@example.com

# Xóa file cũ hơn 1 năm
find "$DESTINATION" -type f -mtime +365 -delete

8. Case Study: Lưu trữ trang web tin tức quy mô lớn

Dự án: Lưu trữ 5 năm nội dung từ một trang tin tức với 12,000 bài viết, 50,000 hình ảnh, và 2,000 video.

8.1. Phân tích yêu cầu

Dung lượng ước tính: 180GB (text: 12GB, images: 150GB, video: 18GB)
Thời gian dự kiến: 48 giờ với băng thông 100Mbps
Yêu cầu đặc biệt:
- Giữ nguyên cấu trúc URL gốc
- Loại bỏ quảng cáo và tracker
- Chuyển đổi video sang định dạng MP4 với bitrate thấp hơn

8.2. Giải pháp kỹ thuật

Giai đoạn 1: Thu thập dữ liệu
- Sử dụng HTTrack với 10 luồng song song
- Thiết lập giới hạn tốc độ: 50Mbps để tránh bị chặn
- Chạy trên máy chủ VPS (8CPU, 16GB RAM, 500GB SSD)
Giai đoạn 2: Xử lý sau tải về
- Script Python để:
  - Loại bỏ các element quảng cáo (dựa trên class/id)
  - Chuyển đổi video sang MP4 với FFmpeg
  - Tối ưu hóa hình ảnh với ImageMagick
- Tạo sitemap.xml cho archive
Giai đoạn 3: Lưu trữ và phân phối
- Nén thành các phần 4.7GB để lưu trên Blu-ray
- Tải lên dịch vụ đám mây (Backblaze B2) với lifecycle rule:
  - Chuyển sang lưu trữ lạnh (Cold Storage) sau 30 ngày
  - Xóa tự động sau 5 năm
- Triển khai bản demo trên localhost với XAMPP

8.3. Kết quả và bài học

Thành công:
- Lưu trữ hoàn chỉnh 98% nội dung (2% bị mất do nội dung động)
- Giảm dung lượng xuống còn 110GB sau tối ưu
- Tạo được hệ thống tìm kiếm nội bộ với Elasticsearch
Thách thức:
- Nội dung tải bởi JavaScript yêu cầu giải pháp Selenium
- Một số video DRM-protected không thể tải về
- Cần 3 lần chạy HTTrack để lấy hết nội dung
Bài học:
- Luôn kiểm tra robots.txt trước khi bắt đầu
- Sử dụng proxy rotating để tránh bị chặn IP
- Lập kế hoạch dung lượng lưu trữ gấp 2-3 lần ước tính ban đầu

9. Xu hướng tương lai trong lưu trữ web

Công nghệ lưu trữ web đang phát triển với những xu hướng mới:

Web 3.0 và IPFS:
- Sử dụng InterPlanetary File System (IPFS) để lưu trữ phi tập trung
- Công cụ như Web3.Storage cho phép lưu trữ vĩnh viễn với chi phí thấp
Trí tuệ nhân tạo:
- AI có thể tự động phân loại và gắn thẻ nội dung đã lưu trữ
- Công cụ như Open Assistant có thể trích xuất và tóm tắt nội dung
Lưu trữ chọn lọc:
- Thay vì tải toàn bộ trang web, chỉ lưu nội dung quan trọng dựa trên phân tích semantic
- Công cụ như Diffbot có thể trích xuất cấu trúc dữ liệu
Tích hợp với blockchain:
- Xác minh tính toàn vẹn của nội dung đã lưu trữ qua hash blockchain
- Dự án như Arweave cung cấp lưu trữ vĩnh viễn
Tự động hóa với RPA:
- Robotic Process Automation (RPA) có thể tự động hóa quy trình lưu trữ định kỳ
- Công cụ như UiPath hoặc Automation Anywhere có thể tích hợp với các công cụ lưu trữ

10. Kết luận và khuyến nghị

Việc lưu trữ toàn bộ trang web về máy tính là một quá trình phức tạp đòi hỏi sự kết hợp giữa kỹ thuật và quản lý dự án. Dựa trên kinh nghiệm thực tế và phân tích các case study, chúng tôi đưa ra những khuyến nghị sau:

Đối với người dùng cá nhân (1-50 trang):
- Sử dụng tiện ích trình duyệt (SingleFile) hoặc wget cơ bản
- Lưu trữ trên ổ cứng ngoài hoặc dịch vụ đám mây cá nhân
- Kiểm tra tính toàn vẹn thủ công
Đối với dự án trung bình (50-1000 trang):
- Sử dụng HTTrack hoặc SiteSucker
- Áp dụng script tối ưu hóa sau khi tải về
- Tạo hệ thống index tìm kiếm cơ bản
Đối với dự án quy mô lớn (1000+ trang):
- Triển khai trên máy chủ chuyên dụng hoặc VPS
- Sử dụng kết hợp nhiều công cụ (wget + Selenium + custom scripts)
- Áp dụng chiến lược sao lưu 3-2-1
- Xem xét giải pháp lưu trữ phân tán (IPFS, Arweave)
Đối với nội dung động phức tạp:
- Ưu tiên sử dụng công cụ render JavaScript (Puppeteer, Playwright)
- Kết hợp với proxy rotating để tránh bị chặn
- Lập kế hoạch xử lý dữ liệu sau khi tải về

Cuối cùng, luôn nhớ tuân thủ các nguyên tắc đạo đức và pháp lý khi lưu trữ nội dung từ internet. Sử dụng các công cụ và kỹ thuật một cách có trách nhiệm, tôn trọng quyền sở hữu trí tuệ và quyền riêng tư của người dùng khác.

Với sự phát triển không ngừng của công nghệ web, việc cập nhật kiến thức và công cụ mới là vô cùng quan trọng. Theo dõi các nguồn thông tin uy tín như W3C và MDN Web Docs để nắm bắt các xu hướng mới nhất trong lĩnh vực lưu trữ và bảo tồn nội dung web.