重復數據刪除技術在今天的備份領域已經非常普遍了,它被認為是理所當然的。然而在選擇重復數據刪除之前,有很多重要的事情需要考慮。
在過去的幾年中,重復數據刪除已經從一個“錦上添花”的功能變成了備份產品的一個必備清單項目。事實上,重復數據刪除已經變得司空見慣,以至于出現了組織機構竟然沒有意識到他們已經使用重復數據刪除技術的情況。
鑒于重復數據刪除司空見慣的時代已經來臨,以下問題仍然是值得考慮的,那就是是否有正當的理由來避免使用重復數據刪除技術。為了回答這個問題,我們有必要先來看看重復數據刪除是如何工作的。
重復數據刪除架構
關于重復數據刪除,首先要了解的是它有許多不同的類型。重復數據刪除能夠在硬件層面或軟件層面上來實現,或者兩者結合實現。同樣,重復數據刪除可以在數據源端進行,在備份目標端進行或者兩者兼而有之。
源端重復數據刪除在數據傳輸鏈路較慢的應用場景中會有幫助。在源端進行重復數據刪除的數據使得數據可以在傳輸之前被壓縮,從而能夠更快速地傳輸數據。
目標重復數據刪除是在備份目標或遠程存儲設備上進行操作的。它的主要目的是降低存儲成本。目標重復數據刪除通過刪除重復數據,使實際使用的存儲空間遠低于原本的使用情況。
有 時候,源端和目標端重刪需要同時使用。這一方法背后的想法是,正在傳送至目標端的數據可以通過源端重復數據刪除而減少。然而如果多個數據源同時存在,那么 在這些數據源中間,可能會存在一定的冗余度。目標重復數據刪除過程消除了所有的跨數據源的冗余,從而進一步的降低備份存儲的成本。
同樣需要了解的是重復數據刪除可以在線處理或者后處理。在線重復數據刪除是實時進行的。數據在傳輸或存儲的過程中就會進行重刪操作。后處理重復數據刪除是在 存儲層面上實現的,它需要將數據以一種未壓縮的形式進行初始的存儲。后處理重復數據刪除可以將重復數據刪除進程推遲運行,從而在用戶使用系統的高峰期不占 用額外的系統資源。
重復數據刪除潛在的缺點
多數情況下,重復數據刪除并沒有實際的缺點。一些已經干了數十年IT的管理員表示了對重復數據刪除技術的反感,因為它讓人想起了一種叫做交叉連接文件的常見文件格式。因此,他們質疑重復數據刪除進程的可靠性。
一些組織不愿意使用重復數據刪除的一個更重要的原因是,他們擔心重刪進程可能會在某些情況下對性能產生不良的影響。以源端重復數據刪除為例。如果重刪是在軟件層面上進行的,則重刪進程不但會消耗內存和CPU資源,同時也會導致額外的磁盤I/O消耗。
盡管重復數據刪除造成的系統開銷不可否認,但這種影響也可以忽略不計。假設你的硬件資源對于這些指定的工作負載(以及任何可能發生的負載峰值)能夠很好支持,這會是一個很好的機會,硬件能夠很好的處理重復數據刪除進程而不會產生明顯的性能降低。
此外,重復數據刪除對性能的影響可能也是值得的。如果源端重復數據刪除導致系統性能下降5%,但傳送數據快了50倍,那這些性能影響相對于效率的提高是不是值得的?也許吧。如果5%的性能損失會導致系統變得明顯遲緩,那么可能是服務器超載了。
有些組織避免使用重復數據刪除的另一個原因是因為對于某些數據類型它可能是無效的。只有當數據中存在冗余數據,重復數據刪除才能起到很好的效果。但是如果數據是非常獨特的,或者是已經被壓縮過的(如ZIP文件或流媒體文件),那么重復數據刪除將不會發揮什么作用。
雖然一些組織不選擇重復數據刪除技術事出有因,但還是有更多組織抱著極大的興趣去部署它。重復數據刪除技術足夠成熟,并且是穩定和可靠的。此外,重復數據刪 除技術可以減少存儲成本,同時提升帶寬使用效率。當然,要有效利用重復數據刪除技術的關鍵是找到適合您特定需求的最佳方法。