A) Giới thiệu
Một trong những vấn đề mà doanh nghiệp quan tâm hàng đầu là dữ liệu, dữ liệu của họ luôn gia tăng từng ngày. Việc cần có các giải pháp mở rộng cũng như tối ưu hệ thống lưu trữ dữ liệu là điều cần thiết. Data deduplication (chống trùng lắp dữ liệu) là một tính năng mới của Microsoft, cho phép quét và tìm kiếm những dữ liệu bị trùng nhau trên ổ đĩa. Giúp tiết kiệm dung lượng ổ đĩa đáng kể, và hoàn toàn không ảnh hưởng đến dữ liệu hoặc khả năng truy xuất dữ liệu.
Tham gia kênh Telegram của AnonyViet 👉 Link 👈 |
- Capacity optimization: Lọc và tìm kiếm những dữ liệu trùng lắp trên ổ đĩa, xử lý chúng và thu hồi tài nguyên lãng phí về, giúp cho ổ đĩa luôn được tối ưu và tiết kiệm dung lượng. Hiệu quả hơn các giải pháp khác như Single Instance Storage hoặc NTFS Compression.
- Scale and performance: Xử lý 50MB/1giây dữ liệu và cho phép xử lý nhiều ổ đĩa cùng một lúc. Việc xử lý không ảnh hưởng đến các công việc truy xuất dữ liệu trên server. Tiêu thụ ít tài nguyên CPU và RAM cho việc này, nếu Server đang hoạt động cao thì việc xử lý có thể dừng lại. Hỗ trợ việc lập lịch (schedule) và các chính sách xử lý dữ liệu (File Policies).
- Reliability and data integrity: luôn kiểm tra và xác minh dữ liệu, để đảm bảo tính toàn vẹn. Đồng thời thực hiện truy vấn và kiểm tra cấu trúc của file và thường xuyên tham chiếu tới các khối dữ liệu.
- Optimization management with familiar tools: cấu hình qua giao diện Server Manager hoặc Windows PowerShell.
Data deduplication tương thích với các tính năng như : Failover Cluster, BranchCache, DFS Replication và File Service Resource Management (FSRM).
Bảng đánh giá quá trình Data Deduplication sau khi quét :
Nội dung | Tiết kiệm | |
User documents | Documents, photos, music, videos | 30-50% |
Deployment shares | Software binaries, cab files, symbols files | 70-80% |
Virtualization libraries | Virtual hard disk files | 80-95% |
General file share | All of the above | 50-60% |
B) Nguyên tắc hoạt động
Ví dụ, nếu Data deduplication phát hiện có 2 file giống nhau về kích thước và nội dung, nó sẽ xóa bớt 1 file. Chúng hoạt động bằng cách tách dữ liệu ra thành nhiều khối (32-128Kb cho một khối), sau đó chúng đem các khối này so sánh với nhau và lọc ra những khối nào bị trùng. Nếu các khối nào bị trùng thì nó sẽ xóa bớt và chỉ lưu duy nhất 1 bản cho khối đó trên ổ đĩa. Các khối này được lưu trên thư mục System Volume Information của ổ đĩa đó.
Sau khi tính năng Data Deduplication được kích hoạt trên ổ đĩa, chúng bắt đầu lọc và xử lý việc trùng lắp dữ liệu. Trong hình, file abc và file def có khối dữ liệu 3MB giống nhau (A, B, C). Chúng sẽ đưa khối dữ liệu này vào một nơi gọi là Chunk Store (kho chứa dữ liệu trùng lắp), đồng thời trong cấu trúc của file abc và file def, hệ thống sẽ tạo một trường gọi là reparse data chứa con trỏ và trỏ về khối dữ liệu chung này. Quá trình chống trùng lắp dữ liệu này không ảnh hưởng việc truy xuất dữ liệu của người dùng.
Khi một ổ đĩa kích hoạt tính năng chống trùng lắp dữ liệu, trong ổ đĩa đó sẽ có các thành phần như :
- Unoptimized File : file không được xử lý, chẳng hạn như những file nhỏ hơn 32KB, file mã hóa, file có thuộc tính mở rộng, file trạng thái hệ thống (system state), SQL Database và Exchange database, những file được ứng dụng xử lý và thay đổi thường xuyên.
- Optimized file: file được xử lý, là những file document, file máy ảo (VHD), file cài đặt Software và những file ít bị thay đổi nội dụng. Trong cấu trúc của chúng sẽ có một trường reparse data (chứa con trỏ)
- Chunk store : là kho chứa các dữ liệu trùng lắp
C) Các công việc chính của Data Deduplication
1. Optimization job
Thực hiện quét và đưa các dữ liệu trùng lặp vào chunk store (kho chứa dữ liệu trùng lặp). Đồng thời nén các dữ liệu chunk này, Những dữ liệu nào đã được quét qua thì chúng được gắn nhãn “policy”, tức đã được kiểm tra và xét duyệt.
2. Data Scrubbing Job
Thực hiện quét và kiểm tra các metadata (cấu trúc) của dữ liệu. Đảm bảo cấu trúc dữ liệu được toàn vẹn và không bị thay đổi. Đồng thời quét và phát hiện những dữ liệu nào bị lỗi (corrupt), ghi nhận lại vào một file log. Dựa trên file log đó để thực hiện phân tích và sửa lỗi các dữ liệu này. Với các tính năng như:
- Nếu dữ liệu nào được thường xuyên truy cập và hơn 100 lần, các dữ liệu đó sẽ được ưu tiên backup. Nếu dữ liệu có bị lỗi (corrupt) thì sẽ lấy bản backup ra để sử dụng.
- Nếu bạn triển khai tính năng Storage Space để ánh xạ dữ liệu (mirror), thì Data Deduplication sẽ dùng dữ liệu bên ổ đĩa ánh xạ để phục vụ việc truy xuất cũng như thực hiện phục hồi cho những trường hợp dữ liệu bị lỗi.
- Nếu dữ liệu bị hỏng một đoạn nào đó khi đang được xử lý để đưa vào chunk store, đoạn dữ liệu đó sẽ được bỏ đi và tái tạo lại đoạn khác.
3. Garbage collection jobs
Đôi khi những dữ liệu được người dùng xóa hoặc chỉnh sửa, và chúng không còn trùng lặp trên ổ đĩa. Tính năng này giúp quét và xóa những dữ liệu không còn bị trùng lặp trong chunk store. Khi bạn thực hiện lại tính năng optimization job, thì tất cả dữ liệu cũ trong chunk store tự động bị xóa.
D) Lab Data Deduplication
Mô hình triển khai:
- Máy AD : địa chỉ IP 172.1.1.1/24, domain huypd.com
- Máy FS1 : địa chỉ IP 172.1.1.2/24, domain huypd.com, cài tính năng Data Deduplication
Thực hiện:
- Trên FS1, thực hiện cài tính năng Data Deduplication. Server Manager –> Add roles and features
- Chọn role “File and Storage Services –> File and iSCSI Services –> Data Deduplication
- Bài lab này, tôi chép đầy dữ liệu cho ổ E, dữ liệu ở đây là nhạc. Tôi copy 2 lần các dữ liệu này để tạo sự trùng lặp
- Mở Windows PowerShell –> gõ “cd e:” và “Get-ChildItem –Recurse” để xem tất cả các file trong dữ liệu E
- Sau khi đã cài xong tính năng Data Deduplication, bước tiếp theo là kích hoạt tính năng này cho ổ đĩa E –> Vào Server Manager –> chọn “File and Storage services” –> chọn Volumes –> chọn ổ E và chuột phải chọn “ Configure Data Deduplication”
- Deduplicate files older than: thời gian cho là dữ liệu hết hiệu lực và phải thực hiện quét và kiểm tra trùng lặp lại
- Custom file extensions to exclude: những loại dữ liệu trong ổ E mà bạn muốn bỏ qua việc chống trùng lặp (vd : ở đây tôi thử là GHO, loại trừ những dữ liệu ghost). Sau đó nhấn Add
- Set deduplication schedule: chọn thời gian thực hiện việc phân loại và chống trùng lặp.
- Chọn thời gian cho việc quét và chống trùng lặp
- Mở Windows Powershell –> gõ “cd e:” và “get-dedupvolume” để kiểm tra xem ổ đĩa này có được thực hiện Data Deduplication chưa.
- Do là lần đầu tiên cấu hình, nên tối thực hiện kích hoạt cơ chế phân loại và chống trùng lặp bằng tay –> Gõ “Start-Dedupjob –Full –Path E: –Type Optmization”
- Sau khi hệ thống tiến hành quét, ta thực hiện lệnh “Get-dedupstatus | fl” để xem kết quả.
- Lúc này trong Server Manager cũng đã hiện các thông số và kết quả quét.
- Thực hiện tính năng Scrubbing bằng lệnh “Start-Dedupjob –Full –Path E: –Type Scrubbing”
- Thực hiện tính năng Garbage Collection bằng lệnh “Start-Dedupjob –Full –Path E: –Type Garbage Collection”