重復數(shù)據(jù)刪除技術的發(fā)展及應用

作者：時間：2012-08-08 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

標簽：消冗 散列識別

本文引用地址：http://m.butianyuan.cn/article/154180.htm

重復 數(shù)據(jù)刪除也稱為智能壓縮或單一實例存儲，是一種可自動搜索重復 數(shù)據(jù)，將相同數(shù)據(jù)只保留唯一的一個副本，并使用指向單一副本的指針替換掉其他重復副本，以達到消除冗余數(shù)據(jù)、降低存儲容量需求的存儲技術。

本文首先從不同角度介紹重復數(shù)據(jù)刪除技術的分類，然后分別介紹相同數(shù)據(jù)重復數(shù)據(jù)刪除技術和相似數(shù)據(jù)重復數(shù)據(jù)刪除技術，并介紹重復數(shù)據(jù)消除的性能提升方法，最后分析重復數(shù)據(jù)技術的應用場景。

1 重復數(shù)據(jù)刪除技術的分類

1.1 基于重復內容識別方法的分類

(1)基于散列識別

該方法通過數(shù)據(jù)的散列值來判斷是否是重復數(shù)據(jù)。對于每個新數(shù)據(jù)塊都生成一個散列，如果數(shù)據(jù)塊的散列與存儲設備上散列索引中的一個散列匹配，就表明該數(shù)據(jù)塊是一個重復的數(shù)據(jù)塊。Data Domain、飛康、昆騰的DXi系列設備都是采用SHA-1、MD-5等類似的散列算法來進行重復數(shù)據(jù)刪除。

基于散列的方法存在內置的可擴展性問題。為了快速識別一個數(shù)據(jù)塊是否已經(jīng)被存儲，這種基于散列的方法會在內存中擁有散列索引。隨著數(shù)據(jù)塊數(shù)量增加，該索引也隨之增長。一旦索引增長超過了設備在內存中保存它所支持的容量，性能會急速下降，同時磁盤搜索會比內存搜索更慢。因此，目前大部分基于散列的系統(tǒng)都是獨立的，可以保持存儲數(shù)據(jù)所需的內存量與磁盤空間量的平衡。這樣的設計使得散列表就永遠不會變得太大。

(2)基于內容識別

該方法采用內嵌在數(shù)據(jù)中的文件系統(tǒng)的元數(shù)據(jù)識別文件，與其數(shù)據(jù)存儲庫中的其他版本進行逐字節(jié)地比較，找到該版本與第一個已存儲版本的不同之處并為這些不同的數(shù)據(jù)創(chuàng)建一個增量文件。這種方法可以避免散列沖突，但是需要使用支持該功能的應用設備以便設備可以提取元數(shù)據(jù)。

(3)基于ProtecTier VTL的技術

這種方法像基于散列的方法產(chǎn)品那樣將數(shù)據(jù)分成塊，并且采用自有算法決定給定的數(shù)據(jù)塊是否與其他數(shù)據(jù)塊的相似，然后與相似塊中的數(shù)據(jù)進行逐字節(jié)的比較，以判斷該數(shù)據(jù)塊是否已經(jīng)被存儲。

1.2 基于去重粒度的分類

(1)全文件層次的重復數(shù)據(jù)刪除

以整個文件為單位來檢測和刪除重復數(shù)據(jù)，計算整個文件的哈希值，然后根據(jù)文件哈希值查找存儲系統(tǒng)中是否存在相同的文件。這種方法的好處是在普通硬件條件下計算速度非?？?這種方法的缺點是即使不同文件存在很多相同的數(shù)據(jù)，也無法刪除文件中的重復數(shù)據(jù)。

(2)文件塊消冗

將一個文件按不同的方式劃分成數(shù)據(jù)塊，以數(shù)據(jù)塊為單位進行檢測。該方法的優(yōu)點是計算速度快、對數(shù)據(jù)變化較敏感。

(3)字節(jié)級消冗

從字節(jié)層次查找和刪除重復的內容，一般通過差異壓縮策略生成差異部分內容。字節(jié)級消冗的優(yōu)點是去重率比較高，缺點就是去重速度比較慢。

1.3 基于消冗執(zhí)行次序的分類

(1)在線式消冗

在線處理的重復數(shù)據(jù)刪除是指在數(shù)據(jù)寫入磁盤之前執(zhí)行重復數(shù)據(jù)刪除。其最大的優(yōu)點是經(jīng)濟高效，可以降低對存儲容量的需求，并且不需要用于保存還未進行重復數(shù)據(jù)刪除的數(shù)據(jù)集。在線處理的重復數(shù)據(jù)刪除減少了數(shù)據(jù)量，但同時也存在一個問題，處理本身會減慢數(shù)據(jù)吞吐速度。正是因為重復數(shù)據(jù)刪除是在寫入到磁盤之前進行的，因此重復數(shù)據(jù)刪除處理本身就是一個單點故障。

(2)后處理式消冗

后處理的重復數(shù)據(jù)刪除，也被稱為離線重復數(shù)據(jù)刪除，是在數(shù)據(jù)寫到磁盤后再執(zhí)行重復數(shù)據(jù)刪除。數(shù)據(jù)先被寫入到臨時的磁盤空間，之后再開始重復數(shù)據(jù)刪除，最后將經(jīng)過重復數(shù)據(jù)刪除的數(shù)據(jù)拷貝到末端磁盤。由于重復數(shù)據(jù)刪除是數(shù)據(jù)寫入磁盤后再在單獨的存儲設備上執(zhí)行的，因此不會對正常業(yè)務處理造成影響。管理員可以隨意制訂重復數(shù)據(jù)刪除的進程。通常先將備份數(shù)據(jù)保留在磁盤上再進行重復數(shù)據(jù)刪除，企業(yè)在需要時可以更快速地訪問最近存儲的文件和數(shù)據(jù)。而后處理方式的最大問題在于它需要額外的磁盤空間來保存全部還未刪除的重復數(shù)據(jù)集。

1.4 基于實現(xiàn)層次的分類

(1)基于軟件的重復數(shù)據(jù)刪除

在軟件層次，重復數(shù)據(jù)刪除可以有兩種集成方式，即可以將軟件產(chǎn)品安裝在專用的服務器上實現(xiàn)，也可以將其集成到備份/歸檔軟件中?；谲浖闹貜蛿?shù)據(jù)刪除的部署成本比較低;但是基于軟件的重復數(shù)據(jù)刪除在安裝中容易中斷運行，維護也更加困難。

基于軟件的重復數(shù)據(jù)刪除產(chǎn)品有EMC公司的Avamar軟件產(chǎn)品、Symantec公司的Veritas NetBackup產(chǎn)品以及Sepaton公司的DeltaStor存儲軟件等。

(2)基于硬件的重復數(shù)據(jù)刪除

基于硬件的重復數(shù)據(jù)刪除主要由存儲系統(tǒng)自己完成數(shù)據(jù)的刪減，例如：在虛擬磁帶庫系統(tǒng)、備份平臺或者網(wǎng)絡附加存儲(NAS)等一般目的的存儲系統(tǒng)中融入重復數(shù)據(jù)刪除機制，由這些系統(tǒng)自身完成重復數(shù)據(jù)刪除功能。

基于硬件的重復數(shù)據(jù)刪除的優(yōu)點是高性能、可擴展性和相對無中斷部署，并且重復數(shù)據(jù)刪除操作對上層的應用都是透明的。這種設備的缺點就是部署成本比較高，要高于基于軟件的重復數(shù)據(jù)刪除。

新聞中心

重復數(shù)據(jù)刪除技術的發(fā)展及應用

評論

相關推薦

技術專區(qū)