重復數據刪除的八大評估標準
由于二級存儲卷的不斷增加,企業(yè)需要一種方法可以極大地減少數據卷。而很多法律法規(guī)的變化,也使得企業(yè)面臨更大的挑戰(zhàn),被迫不得不改變他們原有的數據保護方式。通過重復數據刪除,使數據歸檔時盡可能緊湊、簡潔,不僅極大地削減企業(yè)成本,同時企業(yè)還可以將更多的數據在線保留更長時間。很多企業(yè)都希望將數據存儲環(huán)境的成本效益和性能發(fā)揮到最優(yōu),而重復數據刪除正是這樣一種技術,因此很快吸引了企業(yè)IT主管的眼球。
人們對物理搬運磁帶的方式所面臨的風險(損壞、被竊、丟失等)早已非常明了,而企業(yè)在進行遠程存儲時又特別重視關鍵信息的保護和風險最小化的問題,電子化傳輸無疑成為遠程傳送的最佳選擇。在將備份數據以電子傳輸方式傳送到遠程站點進行歸檔時,重復數據刪除能夠使所需的帶寬需求最小化。
當用戶在評估重復數據刪除解決方案時,可以將下面的八條標準作為主要評估標準。
能解決關鍵性問題:有效刪除重復數據
重復數據刪除解決方案是否能夠真正解決關鍵問題所在:有效的刪除二級存儲上的重復數據,是我們首先要考慮的問題。重復的備份數據會造成多次儲存需求,只要重復數據不被刪除,儲存需求就會繼續(xù)。
ESG集團2007年發(fā)布的報告用圖表方式說明了備份向新技術發(fā)展的必要性。相對于一次全備份來說,增量和差異數據備份也可以減少備份的數據量。
然而,即使是增量備份,在保護基于文件級變化的數據時,還是會備份很多重復的數據。當需要跨越多個站點的多臺服務器進行備份時,通過部署重復數據刪除解決方案減少存儲才是更好的選擇。
能夠與當前環(huán)境相整合
一個高效的重復數據刪除解決方案應該對當前IT環(huán)境的影響/中斷越小越好。許多企業(yè)都選擇利用VTL備份來避免影響/中斷,以在不改變企業(yè)當前備份策略、處理或軟件的情況下提升備份質量。因此,基于VTL的重復數據刪除技術在部署時對環(huán)境影響也應該是最小的。它將更多的注意力集中在了備份這個巨大的重復數據存儲池上。
基于VTL的重復數據刪除解決方案通常要求使用專用設備,但這并不影響部署的靈活性。一個充分靈活的重復數據刪除解決方案應該是既可以以軟件包形式提供給用戶,也可以提供給用戶整體的解決方案(Turnkey Appliance),從而最大限度地使用戶的現(xiàn)有資源得以利用。
VTL容量
如果重復數據刪除技術的部署是圍繞著VTL進行的,那么VTL自身的容量就必須作為評估的一部分來考慮。重復數據刪除節(jié)省下的容量是不能解決由于使用不夠規(guī)格的VTL所引發(fā)的問題的。因此,既要全面考慮VTL的功能性、性能、穩(wěn)定性以及支持能力也要充分考慮重復數據刪除的擴展能力。
重復數據刪除對備份性能的影響
在哪里、什么時候進行重復數據刪除是關系到備份處理性能的非常重要的問題。有些解決方案試圖在數據進行備份時刪除重復數據,這會使VTL的性能降低多達60%以上,直接造成備份過程太慢和備份窗口太大的嚴重性能影響。
相比之下,在備份任務完成之后進行重復數據刪除的解決方案則不會出現(xiàn)這些問題,而且不會對備份性能帶來任何影響。另外,為了最大限度的發(fā)揮易管理性,解決方案允許用戶依照多種不同的因素,如資源利用、生產進度、創(chuàng)建時間等進行精細(磁帶級或磁帶組級)的基于策略的重復數據刪除。這使得存儲經濟性輕松實現(xiàn),同時,也將系統(tǒng)資源的利用發(fā)揮到最大。
具備可擴展能力
由于重復數據刪除解決方案是用于長期的數據儲存的,在容量和性能方面的可擴展能力也是非常重要的考慮因素,而且至少要考慮未來五年甚至更長時間的增長計劃。那么,在保證快速訪問的前提下,你希望有多少數據保存在磁帶上?你需要怎樣的數據索引系統(tǒng)呢?
優(yōu)秀的重復數據刪除解決方案提供的架構,無論是在初始部署時,還是面對未來系統(tǒng)的長期增長,都應該能保證最優(yōu)化(Right-sizing)、最經濟的架構規(guī)模。集群可以幫助用戶滿足不斷增長的容量需求——即使是N多Petabyte數據增長的環(huán)境——而且不會降低重復數據刪除的效率或系統(tǒng)的性能。
這個架構還為存儲庫保護的部分提供了故障切換(Failover)功能。
支持分布式應用
重復數據刪除技術,不只是能為單個數據中心帶來利益,對于具有多個分支機構或多個站點的大型企業(yè)來說,它可以讓整個企業(yè)的分布式應用受益無窮。一個包含復制和多級重復數據刪除的解決方案可以將這一技術的優(yōu)勢發(fā)揮到極致。
舉例來說,一個企業(yè)由1個總部和3個區(qū)域代表機構構成,可以在區(qū)域代表機構部署一臺具備重復數據刪除功能的容災設備,使本地存儲及向遠程中央站點的復制更為高效。這種解決方案使數據復制到中央站點的帶寬需求降到最低,它只不過是用來確定遠程的數據是否已經包括在中央的存儲庫中。所有站點中,只有唯一的數據會被復制到中央站點或是容災站點,否則所需的帶寬就會增大。
能夠對存儲庫提供實時保護
保證對刪除重復數據的存儲庫的訪問是非常關鍵的,因此它不能允許有單點故障發(fā)生。一個優(yōu)秀的重復數據刪除解決方案應該包括可以在本地存儲故障發(fā)生時提供保護的鏡像功能,同時也應該具備復制功能以在災難發(fā)生時提供保護。這種解決方案還應該在出現(xiàn)節(jié)點故障時具備故障切換能力,即使是一個集群中的多個節(jié)點出現(xiàn)故障,企業(yè)也必須能夠及時恢復數據,同時還要保證業(yè)務持續(xù)運營。
效率及有效性
與基于文件的重復數據刪除方式相比,在SUBFILE或數據塊級分析數據的方式刪除的冗余數據會更多。比如,一個4MB大小的文件被修改了一行內容,如果是文件級解決方案,整個4MB的文件都必須再被保存,而存儲上就需要保存兩遍。如果這個文件被發(fā)送給多個人(這種情況非常普遍),這種負面的效應也會隨之倍增。
大多數SUBFILE重復數據刪除處理是通過將大量的數據分割成“塊”,就像虛擬磁帶匣一樣,在相對小尺寸的數據塊中搜索重復數據。分割成大塊的數據處理速度更快,但發(fā)現(xiàn)的重復數據也比較少;而分割成小塊的數據可以更輕松地發(fā)現(xiàn)更多重復數據,但它在掃描數據時所需的開銷也會更高。
如果數據在磁帶(或其他應用的數據流)的時候就被分割成“塊”,重復數據刪除處理在備份軟件創(chuàng)建的元數據上就能進行。優(yōu)秀的解決方案可以分離元數據,從而在分割成“塊”的實際數據文件中發(fā)現(xiàn)重復數據,這種方式使找到重復數據的機率更高。有些重復數據刪除解決方案甚至可以按照所掌握的數據格式來調節(jié)分割的“塊”的大小。如果能將這些技術結合應用,將使發(fā)現(xiàn)的重復數據數量大幅增加。這在重復數據刪除解決方案的經濟效益標準方面影響重大。
評論