根據(jù)日立數(shù)據(jù)系統(tǒng)(HDS)首席技術(shù)官Hu Yoshida表示,該公司已經(jīng)將主存儲(chǔ)重復(fù)數(shù)據(jù)刪除加入到他們的網(wǎng)絡(luò)附加存儲(chǔ)(HNAS)和日立統(tǒng)一存儲(chǔ)(HUS)中端陣列。
HNAS是HDS從收購BlueArc獲得的硬件加速文件存儲(chǔ),該系統(tǒng)依賴于可編程芯片(FPGA)來加速操作。HUS陣列的文件控制器使用了BlueArc硬件引擎和軟件。Hu Yoshida說這種重復(fù)數(shù)據(jù)刪除功能可以:
實(shí)現(xiàn)自動(dòng)化
適時(shí)去重?cái)?shù)據(jù),而不是只在字節(jié)寫入時(shí)
一旦文件工作負(fù)載達(dá)到閾值就會(huì)減慢(去重處理)速度
使用密碼散列算法,確保數(shù)據(jù)完整性
重復(fù)數(shù)據(jù)刪除一臺(tái)文件設(shè)備的整個(gè)可用空間,也就是256TB。
“一旦系統(tǒng)空閑,一個(gè)智能重復(fù)數(shù)據(jù)刪除進(jìn)程得知新的數(shù)據(jù)寫入,并自動(dòng)啟動(dòng)重復(fù)數(shù)據(jù)刪除引擎。”這位CTO在他公司的網(wǎng)站上寫道。如果系統(tǒng)反應(yīng)文件讀寫請求繁忙,那么它會(huì)減慢去重的速度。重復(fù)數(shù)據(jù)刪除利用文件并使用一個(gè)哈希表(hash)數(shù)據(jù)庫來識(shí)別數(shù)據(jù)中重復(fù)的塊。然后它們會(huì)被刪除,騰出空間給其它數(shù)據(jù)使用。
重復(fù)數(shù)據(jù)刪除在其FPGA硬件中加速散列算法和分塊,而不是在通用CPU上單純的軟件。Hu Yoshida在本周的博客中提到:“一個(gè)基礎(chǔ)的散列/分塊引擎許可是免費(fèi)的。三個(gè)額外的散列/分塊引擎可以(付費(fèi)獲得)許可,重復(fù)數(shù)據(jù)刪除的性能提升將近四倍(利用四個(gè)引擎)。”
我們解釋下,這個(gè)的意思是指HUS文件和對(duì)象(嚴(yán)格說應(yīng)該是基于對(duì)象的文件系統(tǒng),譯者注)可以被重復(fù)數(shù)據(jù)刪除,而不是HUS塊(存儲(chǔ))。
Hu Yoshida說,一位HDS的客戶在16分鐘內(nèi)重復(fù)數(shù)據(jù)刪除了120萬個(gè)文件,但沒有透凈容量上的獲益。關(guān)于重復(fù)數(shù)據(jù)刪除效率的說法是,“可與其他重復(fù)數(shù)據(jù)刪除算法較量”和“去重效率取決于數(shù)據(jù)集和文件系統(tǒng)塊大小”。