過去20年,自共享存儲引入以來,數據的指數式增長對企業是一個重大管理挑戰。人們對于存儲的需求難以得到滿足,每年對數據增長速度的預測都從50%-100%不等。為了有效管理數據增長,存儲供應商們實施了一些能夠優化物理存儲容量使用的軟件功能。這些功能讓數據存儲變得更加智慧,而企業存儲技術名詞對于一般用戶而言更多比較“高端”,讓我們一起去了解一下這些“高富帥”。
精簡配置,這是一種空間節省技術,可以僅存儲主機在磁盤上寫入的數據。通過僅存儲實際寫入每個卷的數據,而不是像“厚”配置實施中儲備整個卷容量,從而實現空間的節省。雖然精簡配置解決方案可以節省 35%-75%的物理磁盤容量(具體取決于數據配置文件),但需要持續不斷的清理工作,才能保持效率并達到最優的性能水平。
零頁回收,這種空間節省技術可以識別空頁或“為零的”數據,并從物理磁盤中將它們刪除,保留元數據信息以識別卷中的邏輯頁是否為空。大多數解決方案使用后處理零頁回收 (ZPR),因為以實時方式識別空頁的消耗會影響 I/O 性能。
數據壓縮,這種空間節省技術可以識別重復樣式或冗余數據并將其刪除,保留允許重新創建原始信息的元數據。雖然壓縮可以實現大幅空間節省,但對處理器消耗的要求意味著很多供應商都不會選擇實施這種技術。
空間高效快照和克隆,并不是一種空間節省技術,但對主數據的快照和克隆可以通過節省空間的方式進行,使用元數據跟蹤主卷和快照之間的不同。在一些架構中,使用快照有一些性能隱憂;一些架構還要求保留空間來用于快照池,但一些平臺中并沒有限制。
在企業存儲技術中,除了上面提到的技術名詞,最多的應該是—重復數據刪除技術。它可以識別物理存儲中冗余或重復的數據,刪除冗余副本,在磁盤上僅保留一份數據副本。元數據(在內存中保存為查找表)用于將邏輯卷映射到數據的單個實例副本。在包含很多類似或重復數據的系統中,例如虛擬服務器和虛擬桌面環境中,可實現物理磁盤容量的大幅節省。截至目前,重復數據刪除已經在磁盤備份系統中廣泛使用,實現物理容量節省幅度達到90%-95%或20:1以上。
重復數據刪除的一些技術特性包括:
內聯/后處理,重復數據刪除可在向磁盤傳輸數據時進行(稱為內聯),也可以在數據已位于磁盤上時進行(稱為后處理)。內聯處理要求使用快速高效的算法,將對性能的影響降至最低,從而立即增加空間節省的收益。后處理雖然可以消除任何直接的性能影響,但對物理磁盤空間的使用將有所不同,因為在數據寫入磁盤后,重復數據刪除僅作為后臺任務運行。
固定/可變塊大小,重復數據刪除技術可識別使用固定或可變數據塊技術生成的潛在重復數據。可變塊算法通常比固定塊解決方案的重復數據刪除率更高,但要求的處理消耗也更大。而更小的固定塊則傾向于產生更為高效的結果,但在額外元數據查找方面對處理器消耗和系統內存要求的成本也更高。
數據哈希,哈希指通過數據塊生成唯一校驗和值的過程。每個塊的哈希值用作在元數據表中引用該數據且將新數據與重復數據刪除相比較的特征。哈希技術在可靠性上有所不同,一些算法可為不同數據生成相同的哈希值,稱為“哈希沖突”。哈希算法的復雜性與對性能的影響之間應保持平衡,一些實施方案使用少量哈希,并會在確認重復數據刪除前驗證所有數據。
數據配置文件,對于訪問單個卷的重復數據刪除結果更為隨機,因為邏輯卷布局尚未決定數據塊的原始物理位置。隨機數據訪問對基于HDD的存儲陣列而言更為困難,因為機械磁盤頭的轉動會使隨機I/O結果發生大量延遲。另一方面,閃存存儲就不會有這類問題,這使此技術非常適用于管理因重復而被刪除的數據。
對于企業存儲技術有了概念上的認知,在陸續應用內容上可以進一步結合名詞來深入了解企業方案中這些技術所帶來的真正效果。