本系列文章的第一部分我們介紹了什么時(shí)候應(yīng)該使用重復(fù)數(shù)據(jù)刪除技術(shù),第二部分我們繼續(xù)介紹如何使用重復(fù)數(shù)據(jù)刪除技術(shù)節(jié)約存儲(chǔ)空間。
在主存儲(chǔ)上應(yīng)用的特殊要求
因此,雖然后處理重復(fù)數(shù)據(jù)刪除有它的優(yōu)勢(shì),但其需要拋開(kāi)所謂的著陸區(qū)——在數(shù)據(jù)去重前需要額外的空間寫(xiě)入數(shù)據(jù)。“要使用后處理技術(shù),就必須配置滿(mǎn)足正常使用所需的磁盤(pán)空間,” Russell說(shuō)。這樣可能與使用數(shù)據(jù)去重有所相悖,尤其是面對(duì)高價(jià)位的存儲(chǔ)容量,特別是閃存時(shí)。
這并不奇怪,主要存儲(chǔ)供應(yīng)商,特別是全閃存陣列產(chǎn)商,一直都是推動(dòng)在線重復(fù)數(shù)據(jù)刪除的第一集團(tuán)軍。
對(duì)在線重復(fù)數(shù)據(jù)的支持正逐漸成為全閃存和混合閃存陣列市場(chǎng)的入門(mén)指南。所以考慮每GB閃存成本是十分有意義的,Storage Switzerland的Crump說(shuō)。“如果硬盤(pán)驅(qū)動(dòng)器的成本低于1美元/GB,那么數(shù)據(jù)去重技術(shù)的價(jià)值相對(duì)較低,” Crump說(shuō),“但是,閃存成本在8-9美元/GB,遠(yuǎn)高出重復(fù)數(shù)據(jù)刪除5到10倍,這時(shí)候數(shù)據(jù)去重相當(dāng)有意義。”
重復(fù)數(shù)據(jù)刪除的相關(guān)數(shù)據(jù)
<5%:目前市面支持在線數(shù)據(jù)去重的磁盤(pán)陣列份額
75%:預(yù)測(cè)未來(lái)三年市面上將支持?jǐn)?shù)據(jù)去重和壓縮的磁盤(pán)陣列份額
6:1:重復(fù)數(shù)據(jù)刪除的平均比例
40:1:重復(fù)數(shù)據(jù)刪除在VDI和文本文件環(huán)境下的刪除率
10:1:處理圖片去重是的刪除率
$ 1:普通硬盤(pán)的每GB成本
$8~$9:閃存驅(qū)動(dòng)器的每GB成本
新一代提供在線重復(fù)數(shù)據(jù)刪除閃存陣列的廠商被Crump稱(chēng)做“ankle-biters”,緊跟在第一級(jí)存儲(chǔ)供應(yīng)商的后面。它們包括Pure Storage、Nimble和Tegile等等。
目前還不支持在線數(shù)據(jù)去重的閃存供應(yīng)商也很快采納此功能。 同時(shí),Violin Memory預(yù)計(jì)今年晚些時(shí)候在其Concerto 7000全閃存陣列中提供在線數(shù)據(jù)去重與壓縮功能。
重復(fù)數(shù)據(jù)刪除技術(shù)不僅能夠更好地利用昂貴的閃存資源,而且也比較容易實(shí)現(xiàn)。與大多數(shù)存儲(chǔ)供應(yīng)商相比,“數(shù)據(jù)去重技術(shù)在閃存上的表現(xiàn)更好,因?yàn)槊棵氲妮斎?輸出操作對(duì)閃存來(lái)說(shuō)幾乎無(wú)須任何代價(jià),”超級(jí)融合基礎(chǔ)設(shè)施提供商SimpliVity公司的產(chǎn)品戰(zhàn)略副總裁Jesse St. Laurent說(shuō)。
SimpliVity基于其產(chǎn)品定制的嵌入式芯片提供重復(fù)數(shù)據(jù)刪除與壓縮技術(shù)。City of Arvada, Colo.是SimpliVity的一名用戶(hù), CIO Ron Czarnecki表示其存儲(chǔ)效率率為13.5:1,而性能和Cisco UCS服務(wù)器或Dell Compellent存儲(chǔ)不相仲伯,甚至還更好。
最后的前線
傳統(tǒng)存儲(chǔ)供應(yīng)商已經(jīng)開(kāi)始添加在線數(shù)據(jù)去重功能。NetAPP于2007年針對(duì)其FAS陣列推出了在線數(shù)據(jù)刪除ASIS標(biāo)準(zhǔn)。盡管如此,NetAPP陣列的主存儲(chǔ)數(shù)據(jù)刪除附帶非常重要的注意事項(xiàng),Taneja說(shuō),使用在線去重“將嚴(yán)重降低存儲(chǔ)性能到最低點(diǎn)” ,而且只支持后處理模式。NetAPP的16位數(shù)據(jù)去重算法同樣“沒(méi)有辦法達(dá)到非常低的碰撞概率,”同樣還是可能出現(xiàn)兩個(gè)不同組塊出現(xiàn)相同哈希值的情況。
NetApp的競(jìng)爭(zhēng)者正迎頭趕上。EMC在其VNX系列產(chǎn)品上提供塊數(shù)據(jù)去重,并在其Isilon橫向擴(kuò)展存儲(chǔ)提供后處理去重功能。Dell Compellent與EqualLogic陣列都支持主存儲(chǔ)去重功能,同樣還有HP 3PAR StoreServ 陣列。 Hitachi Data Systems的網(wǎng)絡(luò)訪問(wèn)服務(wù)器(NAS)和Permabit設(shè)備制造商的統(tǒng)一存儲(chǔ)陣列都支持去重功能,IBM在其Storwize陣列與SAN卷組控制器上都提供了去重功能。
但是這些產(chǎn)品并沒(méi)令人滿(mǎn)意,無(wú)法讓數(shù)據(jù)去重技術(shù)去支持現(xiàn)有的存儲(chǔ)陣列。Gartner的Russell說(shuō)。理論上,推廣這項(xiàng)技術(shù)可以延長(zhǎng)已經(jīng)在用的存儲(chǔ)的服務(wù)周期,他說(shuō)。“有人會(huì)倘然接受”,這取決于他們?nèi)绾伍_(kāi)放這項(xiàng)新技術(shù)。
Permabit的新款SANblox,是基于Albireo Index Engine技術(shù)的在線數(shù)據(jù)刪除設(shè)備,可以配置在用戶(hù)的傳統(tǒng)光纖SAN陣列前。SANblox為需要在線數(shù)據(jù)去重功能的傳統(tǒng)存儲(chǔ)陣列帶來(lái)了新的選項(xiàng)。
SANblox為第一級(jí)存儲(chǔ)陣列用戶(hù)提供了一種在現(xiàn)有存儲(chǔ)設(shè)備上實(shí)現(xiàn)在線數(shù)據(jù)去重的快速方法,Storage Switzerland的Crump說(shuō)。
“有趣的是,閃存產(chǎn)商正在從這些傳統(tǒng)存儲(chǔ)大戶(hù)手里爭(zhēng)搶市場(chǎng)份額。要解決這個(gè)問(wèn)題,只靠贈(zèng)送存儲(chǔ)是遠(yuǎn)遠(yuǎn)不夠的,”他說(shuō)。
不僅如此,Intel芯片也即將在軟件中提供在線數(shù)據(jù)去重所需的馬力,Taneja預(yù)測(cè),而且無(wú)須專(zhuān)有的設(shè)備或芯片。
“下階段,Intel芯片不僅有足夠的能力支持?jǐn)?shù)據(jù)去重,” Taneja說(shuō),而且其還將“集成在每個(gè)主存儲(chǔ)陣列與融合系統(tǒng)中的功能。”換句話(huà)說(shuō),“從現(xiàn)在開(kāi)始的三年后,我們就不需要再討論這個(gè)問(wèn)題了。”