海量數據集合(又稱“大數據”)保存給你的存儲環境帶來的問題之一是如何對這些數據進行有效地保護。
PB級別的數據存儲在備份窗口方面可能會引發混亂,而傳統的備份設計無法針對數以百萬的小文件處理。好消息是并非所有的大數據信息都需要通過傳統的方式進行備份。
Nick Kirsch是EMC橫向擴展NAS平臺Isilon的產品總監,他表示該產品能夠在備份大數據的過程中更智能地處理數據。他的建議是,在你考慮如何保護數據之前,你應該仔細辨別你所要保護的數據。設備生成的數據——比如數據庫中的報告文件——可以比備份和恢復更容易重新獲取。
在你嘗試保護大數據存儲時,或許會需要容量更大的二級存儲系統、額外的帶寬以及容納更多數據備份的窗口。
對比保護數據和重新生成數據的成本。Kirsch說,在許多情況下,源端數據應該被保護,不過對于各種程序生成的數據,重新運行程序生成或許比對這些數據進行保護的成本更低。
數據保護
對于防護用戶或應用程序故障,Ashar Baig,Taneja集團的資深分析師和咨詢師表示快照技術可以用于大數據的備份。
Baig同時推薦使用本地磁盤系統用于快速和簡單的第一層數據保護。“要找到一種可以在本地進行數據拷貝的方案,這樣你可以在本地進行快速的恢復”他說,“做一份本地拷貝,并且使用鏡像技術來快速完成,基于鏡像的快照和復制技術確實可以在提升速度的同時照顧到性能。”
如果你想要為大數據定制一套全新的備份系統,Baig建議你考慮使用目前的備份設備和軟件。
“任何你為大數據所采購的設備必須和現有的系統融合”Baig 提醒。
備份軟件供應商CommVault的資深產品和解決方案市場總監Jeff Echols表示他的大數據客戶正在或者計劃使用磁帶系統和云供應商來保護離線數據。保留這些遺留下的磁帶系統是出于對成本和現有的基礎架構考慮,不過要將其遷移到歸檔應用而非主備份系統。
所需的快速掃描
大數據備份系統所面臨的問題之一是每次在備份和歸檔方案啟動時的掃描工作。遺留的數據保護系統會在每次備份和歸檔工作運行時掃描文件系統。對于大數據環境中的文件系統,這確實相當耗費時間。
“備份人員經常要做的是在每次計劃運行備份之前掃描文件系統”Commvault的Echols說,“即便是一次全備份,或者一次增量備份,都要完成一遍掃描程序。而掃描所需的時間對于整個操作而言花銷甚大。”
Commvault在其Simpana數據保護軟件中的OnePass特性,可以解決掃描問題。根據Commvault的說法,OnePass是一個整合了對象級別的程序,用以收集備份、歸檔和報告數據。數據收集后從主系統中移出到ContentStore虛擬空間來完成保護操作。
一旦完整的掃描完成之后,Commvault軟件會在文件系統中部署一個腳本來記錄所有增量備份,這使得整個流程更為高效。
Echols表示他也從客戶那里了解到快照和復制技術,但他認為在某些時候你不得不將數據從主系統中移除。你必須將數據歸檔或刪除,以減少主系統中所需加載和保護的數據。
賓州州立大學的計算及網絡基礎架構研究組織(RCC)找到了另一種加速掃描的方式。根據PSU系統管理員Michael Fennel的說法,該組織通過固態存儲陣列來加速對數以億計的文件的掃描。
PSU的RCC使用IBM的通用并行文件系統(GPFS)連接到一臺Dell的PowerVault MD2000存儲陣列上。GPFS會將數據從每一對特定的LUN和元數據中分離開。
Fenn說掃描所有這些文件使得備份變得極為緩慢,因此他將元數據的備份遷移到一臺Texas Memory系統的RamSan-810閃存存儲陣列上。在此之前,他整晚地使用過量的大約200塊15,000轉SAS驅動器來備份元數據。這一方式將大約需要12至24小時的備份窗口縮短至6小時。而使用閃存系統則更進一步將備份縮短至一小時左右。
RCC使用IBM的Tivoli Storage Manager備份到磁帶。
“GPFS會深入調查每個元數據,找出數據塊位置,并檢查文件系統中每一個單獨的文件來判斷自上次備份后其是否變更過,”Fenn說,“我們備份以往需要12至24小時,主要原因就是需要掃描所有文件。”
他指出單臺的RamSan-810可以達到150,000的IOPS。這樣同時運行兩臺可以將IOPS提升至300,000.“我們大致需要20,000到300,000 IOPS”Fenn說,“這就是說對于元數據的掃描不再是我們整個備份過程中的限制性因素了。”
Fenn說RCC備份了大約1.5億的用戶文件,而這只是設備生成或用戶產生的所有數據中很小的一部分。
“有太多的文件需要掃描,”他說,“有一些數據可以重新生成。用戶知道這個文件系統會被備份,而另外的則不會。我們有一個非保護的文件系統,上面有幾百萬份我們不會保護的文件。用戶將數據放到上面的時候就知道有可能丟失。”
Fenn同時在會被備份的文件系統上分配限額,這樣“用戶必須考慮這些文件是否真的需要備份。”
Casino并不愿在備份上冒風險
加利福尼亞州蒂梅丘拉的Pechanga 俱樂部酒店在今年二月部署了一套由50個EMC Isilon X200節點組成的集群,來備份其監控視頻中的數據。該俱樂部的Isilon有著1.4 PB的可用存儲來保存數據,對于業務運營至關重要,因為如果其監控系統出現中斷,俱樂部將不得不中斷所有的游戲運營。
“在游戲過程中,我們受托進行監控,”Pechanga Technology Solution集團的系統總監,Michael Grimsley說,“如果監控出現故障,所有的游戲都不得不暫停。”
如果安全事故發生,IT部門會將視頻從X200節點中取出并遷移至支持WORM的存儲中,同時通過NetWorker軟件備份至EMC的Data Domain DD860目標重復數據刪除設備中。俱樂部并不需要磁帶來實現WORM,因為這是Isilon的SmartLock軟件功能的一部分。
“我們強制性地要求存儲系統支持WORM功能,”Grimsley說,“任何時候只要發生故障,我們就有相應的視頻。同時我們有相關策略確保數據不會被刪除。”
該俱樂部會在視頻生成后,在Isilon上保留21天。
Grimsley說他想要延長對整個監控視頻數據的備份。他考慮增加一臺更大的Data Domain設備來進行每天的數據備份。“我們目前并沒有每天備份,但我們確實想這樣做。”他說。
另一種可能的方式是復制到容災站點,這樣俱樂部可以在監控系統宕機時快速的恢復。
橫向擴展系統
另一種解決性能和容量問題的途徑是使用橫向擴展備份系統。這和橫向擴展NAS類似,不過是針對數據保護的。你可以隨著所要保護的數據的增長,通過增加節點的方式來提升性能和容量。
“任何備份體系架構,尤其是針對大數據的,都必須能夠合理地平衡性能和容量之間的關系,”Sepaton公司的首席技術官Jeff Tofano說,“否則到最后,它并不能成為一種好的解決方案,并且可能會比用戶預想的要昂貴許多。”
Sepaton的S2100-ES2模塊化虛擬磁帶庫(VTL)定位于高密度數據的大型企業應用。根據公司的說法,其64位處理器節點能夠以每小時43.2TB的速度備份各種類型的數據,并且能夠存儲最高1.6PB的數據。你可以根據需要,在每個集群中擴展至八個性能節點,并且通過增加擴展柜來提升容量。
S2100-DS3則可用于分公司的數據保護,并且可以將數據復制到企業級系統或災難恢復站點中。其還具備高達每小時5.4TB的備份性能,以及遠程備份、重復數據刪除、復制和恢復管理功能。這兩款Sepaton系統還同時包含安全擦除技術,能夠隨著數據保存要求到期,用于可審計的VTL磁帶損壞來釋放磁盤容量。
保護大數據環境需要重新考慮如何利用已有的工具,并且借鑒新的技術來滿足數據增長的需要。找到一些方法來減少你需要保護的數據,并且擴展你的保護環境,是確保關鍵數據能從災難性的系統故障中得以保存的關鍵。