重復數(shù)據(jù)刪除技術發(fā)展的痛點
隨著重復數(shù)據(jù)刪除技術的日趨成熟,用戶已經逐步經歷了不少應用中的痛點。數(shù)據(jù)量的不斷增長使備份和恢復對性能和擴展性有越來越高的要求,這進而使得重復數(shù)據(jù)刪除技術的橫向擴展解決方案越受關注。而在遠端或分支機構中取代磁帶設備的應用方式形成了優(yōu)化站點之間的復制,以及在備份目錄中跟蹤這些復制卷的要求。
在ESG最近一次數(shù)據(jù)保護趨勢調查報告中,其調查了最終用戶在采購重復數(shù)據(jù)刪除技術時最為關注的標準和成本。一些會影響成本的因素列舉如下:
一些備份軟件供應商在其產品中免費添加重復數(shù)據(jù)刪除功能(比如CA和IBM的TSM),而其它的則要收費。
有一些隱性成本,比如在重復數(shù)據(jù)刪除系統(tǒng)之間激活復制功能可能會額外收費。以及備份站點需要和生產站點一樣(或至少近似)建立這一系統(tǒng),這使得成本翻倍。當然也有例外,比如Symantec 5000系列產品,其免費包含了設備到設備之間的復制功能。Symantec同時給予前端被保護的數(shù)據(jù)容量收取許可證費用,而非根據(jù)后端數(shù)據(jù)存儲的容量進行收費,因此對復制拷貝并不產生額外成本。
目標重復數(shù)據(jù)刪除系統(tǒng)供應商將軟件捆綁在其存儲硬件上,因此當更新硬件平臺時你就重復購買了軟件部分。同樣,Symantec采用一種不同的方式,對軟件和硬件分別收費。
用戶驅動的新去重技術的發(fā)展
Arkeia的高級重復數(shù)據(jù)刪除方式只是一個例子而已,其他公司都在推動重復數(shù)據(jù)刪除技術。CommVault在物理磁帶媒介上進行重復數(shù)據(jù)刪除可以作為另一個例子。盡管目前的宣傳都集中在基于磁盤的數(shù)據(jù)保護并暗示磁帶可能走向消亡,對于很多企業(yè)而言,事實是對于數(shù)據(jù)的長期保存,磁帶仍是一種低成本的方式。重復數(shù)據(jù)刪除技術被認為是針對磁盤的技術,因為需要重復數(shù)據(jù)刪除的目錄,以及所有的唯一性數(shù)據(jù)在其存儲媒介上可以重新組成并被訪問。這意味著將重復刪除后的數(shù)據(jù)從磁盤拷貝或移動至磁帶時,必須被重新構建,這和數(shù)據(jù)降低這一最終目的相抵觸。不過CommVault Simpana軟件能夠使得重復刪除后的數(shù)據(jù)拷貝出來歸檔,而不需重新構建,從而降低了磁帶媒介的容量要求。更重要的是,數(shù)據(jù)可以從磁帶媒介上進行恢復而無需先將整盤磁帶恢復到磁盤上。
源端的重復數(shù)據(jù)刪除方式正在逐步流行起來,其最大優(yōu)勢在于端到端的高效備份更接近于數(shù)據(jù)源(提供內容無關,網絡帶寬節(jié)省以及更快速地備份),以及將重復數(shù)據(jù)刪除的處理流程分布在整個環(huán)境中(而和目標端重復數(shù)據(jù)刪除系統(tǒng)那樣容易產生瓶頸)。以上兩種優(yōu)勢在HP的StoreOnce和EMC的Data Domain重復刪除產品中充分體現(xiàn)。
雖然HP的Data Protector備份體系架構中在今天還沒有內置重復數(shù)據(jù)刪除功能,但用戶可以通過StoreOnce重復數(shù)據(jù)刪除產品獲取該項功能。StoreOnce是一個模塊化的部件,可以在文件系統(tǒng)中作為一項服務運行。其可以和HP的Data Protector備份軟件和HP橫向擴展文件系統(tǒng)集成,或植入HP的體系架構組件之中。StoreOnce的運算包含兩個步驟:采集大量數(shù)據(jù)序列(約10MB)來判定數(shù)據(jù)重復的可能性,將其排序成重復數(shù)據(jù)刪除的最佳節(jié)點,然后通過一次哈希算法來比較更小的數(shù)據(jù)塊。HP的重復數(shù)據(jù)刪除策略比較特別,其可移植,可擴展并且是全局化的。這也意味著重復數(shù)據(jù)刪除的部署可以通過局域網或城域網擴展到整個存儲系統(tǒng)中,而無需在重復數(shù)據(jù)刪除層之前轉化數(shù)據(jù)。
EMC的Data Domain Boost選項可以激活Data Domain在NetBackup和Backup Exec OST環(huán)境的媒介服務器以及和EMC NetWorker站點中實現(xiàn)重復數(shù)據(jù)刪除的預處理操作。Data Domain軟件組件安裝在媒介服務器上。通過將重復數(shù)據(jù)刪除工作負載分布式進行,這項操作可以改善性能并提升媒介服務器和Data Domain目標重復數(shù)據(jù)刪除系統(tǒng)之間的網絡效率。
重復數(shù)據(jù)刪除技術的未來
基于磁盤的數(shù)據(jù)保護解決了備份窗口的問題,而重復數(shù)據(jù)刪除技術解決了備份配置中硬盤的成本問題。不過最新的一些技術,比如基于陣列的快照技術,正逐步融合在現(xiàn)有技術中以滿足那些要求零備份窗口或很短下線時間要求的企業(yè)的高性能需求。在許多情況下,數(shù)據(jù)塊級別增量備份技術和重復數(shù)據(jù)刪除組合在新的快照產品之中。NetApp的Integrated Data Protection產品(SnapVault、SnapMirror和SnapProtect),配合NetApp基于FAS產品線的重復數(shù)據(jù)刪除技術,可以消除在備份軟件中重復刪除或目標重復數(shù)據(jù)刪除的需要。
類似的,Actifio VirtualData Pipeline (VDP)可以進行全鏡像級別的備份和之后持續(xù)的數(shù)據(jù)塊級別的增量備份,并通過重復數(shù)據(jù)刪除和壓縮技術,因此無需為降低數(shù)據(jù)量購置額外的第三方產品。Nimble Storage公司也采用類似的方式。其在單一解決方案中組合了主存儲和次存儲,利用快照和復制類型的數(shù)據(jù)保護,并采用容量優(yōu)化來降低所需備份的數(shù)據(jù)。這種方式正在逐步取代傳統(tǒng)的備份方式,以及傳統(tǒng)的重復數(shù)據(jù)刪除技術。
相關鏈接1:應用程序接口和開放標準
Symantec公司的OpenStorage Technology (OST)是用于NetBackup(6.5及以上版本)和Backup Exec 2010的應用程序接口。目標重復數(shù)據(jù)刪除系統(tǒng)供應商利用該應用程序接口將軟件插件模塊寫入,安裝在備份媒介服務器上來和存儲設備溝通,這在備份軟件和目標存儲之間創(chuàng)建了更緊密的集成。這樣就可以使用諸如智能容量管理,媒介服務器負載均衡,報告和生命周期策略等功能。這同時提供更優(yōu)化的復制——更高效的網絡復制和直接磁盤到磁帶的復制,在此過程中可以被備份軟件監(jiān)控和記錄。EMC公司在其NetWorker中提供類似的功能;不過到目前為止,該功能只能適用于EMC Data Domain重復刪除系統(tǒng)。
應用程序接口促進了互操作性,不過業(yè)內是否可以此進一步促進重復刪除技術的標準?就像是現(xiàn)在的壓縮技術,重復刪除技術是否也會出現(xiàn)標準算法,或許開源軟件將會是驅動其發(fā)展的動力。促成這種標準的動力還包括無縫、高效并快速在磁盤和磁帶間遷移數(shù)據(jù)的需要(除了那些不需要重復刪除技術或數(shù)據(jù)重組的部分),以及對于改善恢復的操作。任何添加在開源備份應用上的重復刪除技術,比如Bacula和Amanda,以及開源的ZFS和SDFS文件系統(tǒng)在某天可能成為標準。
相關鏈接2:全局重復數(shù)據(jù)刪除技術
全局化是相對重復刪除中比較的區(qū)域而言的。識別重復有兩種方式。在單區(qū)域中,備份數(shù)據(jù)通過一個單個系統(tǒng)時會和之前通過該系統(tǒng)的數(shù)據(jù)進行比較。在跨區(qū)域的重復刪除技術中,備份數(shù)據(jù)通過單個系統(tǒng)時和之前通過該系統(tǒng)以及區(qū)域內其它系統(tǒng)的數(shù)據(jù)進行比較。全局重復數(shù)據(jù)刪除可以實現(xiàn)更高的重復刪除率因為其比較了更多的對象,從而發(fā)現(xiàn)更多重復數(shù)據(jù)。
相關鏈接3:線性磁帶文件系統(tǒng)
IBM所引入的線性磁帶文件系統(tǒng)(LTFS)提供了一種數(shù)據(jù)格式,可以提供存儲在LTO 5磁帶媒介上的數(shù)據(jù)一個文件系統(tǒng)接口,磁帶從而可以和外部磁盤設備這樣使用。通過LTFS,數(shù)據(jù)不在必須用磁帶的格式進行寫入,因此數(shù)據(jù)的寫操作對應用程序來說更為獨立。對于非壓縮的數(shù)據(jù)類型,這更適合于數(shù)據(jù)的長期存儲,比如醫(yī)療影像和影音文件。LTFS對于重復刪除廠商而言是否也是一個機會,將磁帶作為長期數(shù)據(jù)存儲層并進行重復數(shù)據(jù)刪除。目前還尚無定論,就看是否會有廠商這樣做了。