重復數據刪除經過長時間的發展,這里我發表一下個人理解,下面就這就來講術重復數據刪除。最近這段時間,在存儲管理者所面臨的眾多優先考慮的部分中,有兩個部分看起來似乎是互相排斥的:磁盤到磁盤(D2D)備份似乎和節約電能相矛盾。
存儲專家們在2008年部署磁盤到磁盤備份,或者擴大其這方面的投資,以提高數據保護性能和獲得可靠的數據恢復。和傳統的基于磁帶的數據保護比起來,磁盤到磁盤已證明能夠縮短備份窗口,提高恢復速度,并提高一些麻煩的備份流程的可靠性。
同時,存儲專家們面臨著電能使用方面的危機。這不僅是因為綠色顧慮,而且是因為日益增長的電能需求。一位首席技術官最近告訴我:"我不關心是否綠色。我只是得不到足夠的電能來支持我的數據中心".
不幸的是,雖然有種種缺點,磁帶還是在這方面勝過磁盤解決方案,它非常節省能源。我們來看:裝滿一個硬紙板箱的磁帶也消耗不了多少電能。即使這些磁帶因為需要一些存儲耗材、需要讓卡車來搬運、以及相關的溫度控制設施,而消耗相關資源并產生一定的環境影響,磁帶還是比D2D解決方案要節省能源。
問題是:我們可以添加或擴大磁盤到磁盤備份而無需面臨電能問題嗎?幸運的是,答案很可能是"是".我們來更仔細的觀察這個問題,并系統地總結D2D所使用的技術,以及有那些方法可以提高其能源效率。
基本考慮在我們進入問題的中心之前,需要回顧一下兩個基本原則:第一,更有效的空間利用(在更小的空間內存儲更多的數據)。對于能源效率問題,它是最實際的解決方法。第二,變得更加綠色需要更多的能夠提高能源效率的技術。
就實際情況而言,在2008年,服務器虛擬化和存儲虛擬化的道路代表了能夠用更少的物理空間以及更少的能耗來存儲數據的方式。在存儲上,重復數據刪除是另一種能夠更有效利用電能的技術。更少的物理服務器或物理存儲意味著更少的能源需求。
但是諸如虛擬化和重復數據刪除這樣的技術并不能憑空存在。要想切實提高磁盤到磁盤的能源效率,就需要檢查每個產品類別的能源消耗以及如何提高其效率。
下文中所使用的各種比較數據都是基于各廠商的公開能耗規格。雖然每個數據中心的部署都是獨一無二的,但是從百分比來看,其不同技術之間的差異是類似的。
D2D產品類型:虛擬磁帶庫(VTL)
電能消耗:每可用TB大約消耗80瓦
解釋:虛擬磁帶庫并不直接產生綠色效果。如果正確部署虛擬磁帶庫,它可能可以成為其他能耗節約方案——比如MAID(大規模非活動磁盤陣列)或重復數據刪除——的推動者, 但是現在,傳統的虛擬磁帶庫只是一堆未受優化的SATA磁盤架的前端機架罷了。這些磁盤架是數據中心中的耗能大戶和熱量產生大戶。
如果你決定通過廣域網連接到災難恢復站點,并復制你的磁盤備份,那么情況就更糟了。由于虛擬磁帶庫解決方案缺乏空間效率,因此你必須在災難恢復站點重復投資于同樣的容量。當然,結果就是雙倍的電能、冷卻和成本開支。平均來看,大部分標準虛擬磁帶庫解決方案所每使用一可用TB容量,就需要消耗大約80瓦電能。此外,由于沒有容量優化,必須重復整個備份,因此災難恢復站點必須通過一個非常高帶寬的網絡進行連接,而且站點距離也不能太大。
將傳統的虛擬磁帶庫進行優化的第一步就是壓縮磁盤中的數據,類似于壓縮磁帶中的數據。雖然這樣可以將電能消耗降低到每可用TB 50瓦,但是這樣做也會帶來問題。
第一,大部分的虛擬磁帶庫解決方案在使用壓縮的時候都會損失超過60%的性能,而且在備份流程中接收進入數據的能力也會受到嚴重影響。這和備份流程中加入磁盤的主要目的之一相違背——縮短備份窗口。
磁盤上的壓縮同時也復雜化了磁帶的情勢。如果你使用磁帶——在大部分虛擬磁帶庫解決方案的情況下你都會這么做——那么你一般不可能傳送那些已經壓縮到磁帶的數據,并用磁帶驅動器來壓縮這些數據。你將需要關閉磁帶驅動器上的磁帶壓縮。
另一個可能的解決方案是將虛擬磁帶庫中的磁盤部分變小,并將從磁盤到磁帶的備份速度加快。通過這個策略,你在數據恢復上對磁帶的依賴程度就和你剛開始D2D行動的時候一樣。
對于大部分客戶來說,他們的目標就是希望磁盤上的備份能夠保持足夠長的時間,以滿足大部分恢復請求。而且有越來越多的這種客戶希望在整個數據保留窗口內都能夠保持磁盤上的備份,完全排除磁帶。
結論:如果考慮綠色IT或能源消耗,那么那些不能夠提供某種形式的優化能源效率的功能或技術的虛擬磁帶庫廠商不在D2D討論之列。
D2D產品類型:大規模非活動磁盤陣列(MAID)
電能消耗:每TB大約消耗7到28瓦
解釋:MAID是一種替代措施。MAID本身只是針對磁盤,可以降低磁盤旋轉速度,減少閑置磁盤或被訪問磁盤在一段時間內的電能消耗。對于MAID來說,一個明顯的市場就是磁盤到磁盤備份,特別是那些對能源敏感的數據中心。
為了構建一個D2D解決方案,大部分MAID廠商和虛擬磁帶庫制造商合作。檢驗MAID解決方案的第一步就是了解虛擬磁帶庫組件提供商的優勢和劣勢。MAID是通過降低磁盤電能消耗的技術來解決能源問題的,而不是通過容量優化。因此要想充分利用這種技術,需要和虛擬磁帶庫解決方案密切結合,以確保新數據不會被寫入包含舊數據的同一個磁盤。
簡而言之,你不能自己搭配和組合MAID和虛擬磁帶庫解決方案。你必須使用你的MAID廠商所選擇的虛擬磁帶庫。如果VTL-MAID組合可以被接受,而且MAID技術運行良好,那么你就可以將電能消耗降低到每TB 7到28瓦這個區間。和標準的虛擬磁帶庫解決方案比起來,這種方式明顯降低了電能消耗。
一個告誡:開啟和關閉磁盤驅動器電源通常會給IT專家帶來一定程度的困擾。當你啟動某種技術的時候,我們中的大部分人都會經歷一定的令人不安的時間,特別是真的關系到電源開啟的時候。為了解決這個問題,MAID廠商提供了兩種替選方案。你可以設置例行任務以確保當你需要磁盤的時候這些磁盤將會啟動。你同時也可以延長磁盤降速的時間間隔,以減少不能及時啟動磁盤的風險。這兩種方式都能帶來一定影響,并可能將電能消耗推高到每TB 7到28瓦區間的上限。
一些MAID廠商計劃采用重復數據刪除技術,有些已經在發布這項技術了。他們很可能采用后處理的重復數據刪除技術,當然這樣他們也將面對所有后處理解決方案所遇到的問題。除了這些問題以外,我們還不確定MAID廠商如何部署重復數據刪除技術,部署這項技術有可能會加重磁盤負擔,如何平衡其中關系以保持其能效優勢也是個問題。
結論:當考慮MAID的時候,需要在最優能耗和最優空間利用上做出抉擇。
D2D產品類型:具備重復數據刪除技術的產品
電能消耗:每可用TB大約消耗1.3瓦到2.8瓦
解釋:重復數據刪除是一種數據刪減技術。它將正在寫入磁盤的數據部分和已經存在該磁盤上的數據部分相比較,如果發現重復數據,那么將在原始數據上添加一個標志符,而不是存儲重復數據。這種技術能夠對冗余部分進行"重復數據刪除",或將冗余部分移除出存儲系統。
重復數據刪除技術很容易使用,而且能很快奏效,并且還比較具有經濟性。如果重復數據刪除的效率為10X到20X,那么在單個重復數據刪除設備上的每可用TB的電能消耗將為1.3到2.8瓦。
對于D2D備份來說,重復數據刪除系統并不僅僅意味著能耗節省。它們還可以對數據進行一致性檢驗,最重要的是,能夠用最小的帶寬根據遠程站點的存儲和電能的需求來復制數據。
特別是,重復數據刪除和虛擬磁帶庫可以組合,而重復數據刪除和MAID則不能,起碼是不能達到最優效果。MAID需要停止一些磁盤;而重復數據刪除需要對卷之間的數據部分進行交叉參照,因此也意味著所有的磁盤都必須可用。
雖然許多虛擬磁帶庫廠商在他們的解決方案中增加了重復數據刪除功能,但是一般只是作為插件,甚至只是一種OEM關系。因此對那些剛剛接觸重復數據刪除的廠商,他們還不能做到無縫整合并排除整合中的問題。
結論:在所有這些優化D2D的方法中,內線(In Line)重復數據刪除系統是"最佳"的技術,它能夠改善備份流程和能源利用率。重復數據刪除通過優化磁盤容量,并且在更少的空間中存儲更多的數據,能夠解決電能、冷卻以及空間消耗問題。