重復數據刪除技術能夠識別并消除冗余的數據段,從而使得備份消耗的存儲空間大幅減少。這使得企業可以存儲數月的備份數據以確保快速地恢復(更好的恢復時間目標RTO),以及更頻繁地備份,創建更多恢復點(更多的恢復點目標RPO)。企業同時還可以通過減少磁盤容量和優化網絡帶寬節省更多經費。
重復數據刪除技術首次被企業采用是應用于縮短備份窗口并減少磁帶的使用。其中用戶最主要的顧慮在于是否可以和現有的備份技術和流程無縫銜接,并能夠簡易地進行部署。
在下一波應用中,關注點轉變為擴展容量并改善性能。供應商在磁盤容量、性能、網絡連接和系統結構方面進行強化,并同時改善了重復數據刪除技術的流程。恢復方面則通過應用優化的復制技術進行改善。
在數據持續增長以及高度分布式的環境中,企業和重復數據刪除供應商通過其它途徑優化數據的重復刪除,包括新體系架構、分包技術以及重復數據刪除技術。
頗具吸引力的重復數據刪除技術
基于ESG的一項調查顯示,重復數據刪除技術的應用正在不斷增加。2010年,38%的調查反饋表示已經采用了重復數據刪除技術,而在2008年這個數字為13%。到2012年,另外40%的調查反饋計劃采用這一技術。(ESG 2008年1月和2010年4月發布的題為數據保護趨勢的調查報告)
此外,根據ESG 2011年IT開銷用途的調查報告,1/3的大型企業(超過1,000名員工)將降低數據量列為第一位的存儲技術關注點。
當仍有諸多有關重復數據刪除技術細節上的爭論,比如在文件上還是虛擬磁帶庫接口上、從數據源還是在目標,硬件方式還是軟件方式,聯機還是后處理,數據塊大小是固定的還是非固定的,重要的是確保所有的重復數據刪除技術都以降低整體數據量為目的。
目標重復數據刪除系統
在備份數據路徑中最后端進行重復數據刪除的產品稱之為目標重復數據刪除系統。他們通常是存儲上的一項應用或是可以和任何磁盤配對的網關。
目標重復數據刪除技術的供應商有EMC、ExaGrid、FalconStor、Fujitsu、GreenBytes、HP、IBM、NEC、Quantum、Sepaton和Symantec。通常通過其底層體系架構來區別各自產品。撇開是應用還是網關的方式(EMC,FalconStor和IBM提供網關方式),其提供單節點還是多節點配置是另一項關鍵因素。
在單節點的體系,性能和容量的擴展受限于配置的最大閾值。雖然其中的一些產品可以配置來處理大規模系統所需的擴展性,但你在初期就必須采購過量的配置以滿足未來的需要。而當系統達到最大擴展性時,必須將原有系統全部“鏟”掉或增加額外的重復數據刪除單元,以升級至更高的性能或容量。而后一種方式會導致重復數據刪除之間的“孤島效應”因為備份數據在系統冗余中無法交互。
采用單節點體系架構的供應商有EMC、Fujitsu、GreenBytes和Quantum。EMC提供Data Domain Global Deduplication Array (GDA),一個包含兩個DD880設備的復合系統,作為一個備份應用的單節點系統。EMC可能會說GDA可以滿足多節點配置的條件并具備全局重復數據刪除功能,其包含2個控制器,2個重復數據刪除目錄以及2個存儲池。不過該設備并不具備高可用性配置,事實上,假設一臺DD880發生故障,另一臺也無法正常運作。EMC同時將一部分重復數據刪除功能分布在備份媒介服務器,不過只能用于支持Symantec OST (OpenStorage Technology)的備份應用程序。在媒介服務器,EMC進行預先處理,創建1MB的數據塊用于和重復數據刪除目錄比較。當數據塊中涵蓋的內容有冗余時,數據會被分解為更通常的8KB的數據塊,壓縮后傳輸至DD880或其它控制器用于之后的處理,這取決于在哪里更容易消除冗余數據。
而在一個多節點的體系架構中,這類產品可以統一管理多個重復數據刪除系統。這種方式同樣提供了吞吐量和容量線性的擴展方式,高可用性和負載均衡。這可以降低管理成本,并且更重要的是其通常提供全局化的重復數據刪除。ExaGrid 的EX系列, FalconStor的File-interface Deduplication System (FDS),HP的Virtual Library Systems (VLS),IBM的ProtecTier,NEC 的Hydrastor,Sepaton的DeltaStor以及Symantec的NetBackup 5000系統都有多節點的配置并提供全局重復數據刪除。這些產品模塊化的體系架構提供了很強的整體性能并使你的系統可以無縫升級。
Symantec通過和華為合作,創新地推出其在目標端的重復數據刪除系統方案。Symantec在數據保護市場占據重要的地位,并且是唯一的在自有軟件和硬件備份產品中提供整合的重復數據刪除的供應商,也是其通過OST接口在目錄級別整合了第三方供應商的備份目標設備。
備份軟件中的重復數據刪除技術
雖然原來只有在稱為“下一代”備份軟件,比如EMC的Avamar中才包含重復數據刪除功能,但這在目前的備份軟件中已經非常普遍了。帶有重復數據刪除功能的備份軟件產品包括Arkeia 的Network Backup,Asigra的Cloud Backup,Atempo的Time Navigator,CA的ARCserve,Cofio的Software AIMstor,CommVault的Simpana,Druva 的InSync和Phoenix,EMC的Avamar,i365的EVault,IBM的Tivoli Storage Manager (TSM),Quest Software的NetVault Backup,Symantec的Backup Exec和NetBackup,以及 Veeam Backup 和Replication。
用軟件方式時,客戶端軟件運行在應程序服務器中,其識別并將唯一性的數據傳輸至備份媒介服務器和目標存儲設備上,這樣降低了網絡傳輸。另一類軟件解決方式在備份服務器上對備份流進行重復數據刪除,以消除生產應用服務器端潛在的性能影響。重復數據刪除域僅限于通過備份應用程序來進行數據保護;同一環境中的多備份應用程序創建了重復數據刪除池。
全局重復數據刪除技術無法通過軟件方式實現。首先,并非所有供應商都采用同一識別重復數據的技術。一些重復數據刪除產品采用德爾塔差分(比如Asigra),其比較同一備份數據段的設置。德爾塔識別從當前集合和以往備份的集合中比較,選取唯一性的數據塊并僅僅傳輸這部分數據。但其不能夠跨不同的數據集進行比較。(比如,不支持全局重復數據刪除)
另一種方式是采用哈希算法。一些供應商將備份數據流分為固定大小的數據塊(從8KB到256KB),產生一個哈希值并將其在之前數據塊哈希計算目錄中比較。唯一的哈希表示唯一的數據應當進行存儲,而一個重復的哈希值表示冗余數據,因此只有指向唯一數據的指針會被存儲。另外的供應商通過變化大小的數據塊提高文件修改后通常字段被檢測到的概率。這種方式找到文件中可能產生的自然模式或中斷點并以此分配數據。即使數據塊隨著文件變更而遷移,這種方式更易于找到重復的部分。交替數據段長度變化的方式較每個字段唯一編號,需要供應商更多的跟蹤比較工作,而這也會影響目錄的大小和計算所需的時間。
Arkeia Software使用另一種其稱為高級重復數據刪除技術的方式。通過滑動窗口數據塊大小和一種分兩步的高級匹配技術優化其重復數據刪除技術。文件并分割成固定的數據塊,不過數據塊會有重疊,這樣當文件修改后,這些數據邊界容納了插入的字節。Arkeia基于文件類型,通過自動分配固定數據塊大小(1KB到32KB)增加了另一層優化。該技術同時使用滑動窗口來判定重復數據塊位于文件中每個字節的具體位置。高級重復數據刪除技術可以實現高比率的刪除率并在加速流程的過程中最小化錯誤發生。