你知道什么是FLAPE?如果不知道,你可能已經跟不上最新的歸檔技術發展。請看存儲專家Jon Toigo對于歸檔以及如何避免無意將垃圾信息歸檔保存是怎么說的。
數據歸檔的想法——將其放置在一個安全節能,合理組織的信息庫里,以備將來某一天的突然需要——聽起來夠直白了吧。然而即使是這樣一個簡單的想法也是充滿了問題,需要提前做好深思熟慮的。本文討論的一些決策可能會影響到你的歸檔項目的成敗。
在大多數關于歸檔的討論中的一個典型問題就是,數據的組織方式和格式是否經得起時間的考驗。如果數據歸類的方式在以后需要發生改變,那怎么辦——例如,對某些類型數據管控和保留的規則發生了變化?;蛘哂糜趧摻撤N數據的應用程序不再被新的操作系統或硬件平臺支持,比方說10年后?難道在可預見的未來你都必須保留一份現有應用程序和處理器的副本嗎?這些實際問題都需要簡單而有效的解決對策。
從數據歸檔方法的發展上思考這些問題的答案是有助益的。在過去,數據歸類并放入存檔是根據元數據(metadata),或數據的數據。一個數據集或文件,根據其元數據,如果在30、,60、,90天或更長時間內沒有被訪問到或修改,就會被簡單地遷移出生產系統的存儲空間,轉入歸檔存儲。然而,這種方法沒有任何粒度的區別。它完全不顧數據的重要性,與特定業務流程的相關性,或者與任何數據保留的法規法律的關聯性。所以這個過程有可能保存下來的有可能是垃圾文件,互聯網cookies和瀏覽器殘余,甚至是很久以前測試/、開發過程中創建的臨時虛擬機的鏡像文件。
最起碼的一點是,除非你有一個“數據清潔”的程序到位,并幫助清除掉那些雜物,否則你的存檔系統注定會像你的主存儲系統一樣,在經過一段時間后充滿了各種垃圾。這使得將來在存檔系統中搜索和使用有用信息更具挑戰。
對于無顆粒數據選擇的一種可選方案是基于誰創建它來進行分類。如果甲喬在會計部門工作,從喬甲的工作站中出來的所有數據都可以被作為“會計類數據”,并經由為該類數據所制定的存檔策略進行處理。然而,這種做法也為以后留下了麻煩,例如,當甲喬的職位發生變化,從會計部門到銷售部門(對數據歸檔的策略完全不同),或者當甲喬喜歡上社交媒體,他在推特和博客中分享關于他的孩子和愛好的信息開始和他的合法工作文件一起存檔。你不得不再次面對存檔系統滿是垃圾,數據搜索使用很難的結果。
根據部門工作流程的數據分類
數據分類的最佳方式是把概念作為最大的粒度:按部門的工作流程創建數據分類,而不是按用戶角色來分類數據。然后在元數據中設置像“數據上次訪問時間”和“數據最后修改時間”這樣的觸發器,以確定何時將相關文件轉移到存檔系統。一些新興的分層存儲架構,如FLAPE(flash plus tape,閃存加磁帶),可以使你在把數據寫入主存儲系統(閃存,硬盤或兩者的組合)的同時就把數據也保存到歸檔系統,這樣,你無需以后再次把數據移到歸檔系統,而是保存在主存儲系統中的文件在達到其歸檔點后會被簡單地刪除。
作為一項規則,今天的歸檔管理員會盡量規避那些可能有“時限”的數據格式。文件系統看起來相當穩定,但是用于存儲數據位的“容器”,要使得它們在離開了最初創建它們的原軟件后,依然能夠被使用 -- ——例如,有些商業文件格式,如Adobe PDF,或部分仍然處于試驗階段的“標準”XML容器 – ——這依然是個問題。一家重要的國家檔案館幾年前選擇了Adobe PDF作為他們的數據容器,卻對此決定后悔不迭。因為Adobe在他們決定后的兩年就改變了PDF格式,他們為此不得不對每一個數據進行“解”攝取,重新格式化,然后重新攝取的工作,花費了比以前多出30多倍的時間和工作量。
另一個挑戰則可能來自于早期對文件系統的穩定性和永久性的假設。實際上,文件系統也一直在改變,新的文件系統,被每一個今天流行的操作系統引入并利用,伴隨著新的功能特性,例如作為存儲方法一部分的重復數據刪除和壓縮,或作為數據保護方法的糾刪編碼。文件系統扁平化趨勢隨著網絡的發展有可能預示著傳統的分層或基于樹的文件系統模型將會在較短的時間內被新的范式所取代,那時所有數據都以對象進行保存,在一個類數據庫的結構中自描述或自索引。
對象存儲的歸檔
新的商業技術,如Caringo Software的SWARM或Spectra Logic的Black Pearl,說明作為傳統存儲歸檔方法替代品的對象存儲市場正在孕育出真正成熟的解決方案。盡管如此,截止本文寫作之時市場上依然沒有占主導地位的架構模式,而標準化的工作也還處于起步階段。假以時日,對象存儲和歸檔將會有很大的交疊。
將所有數據集作為對象對待的雙重優點:
1.待存儲的數據集可以有大量豐富的元數據,可以對數據對象進行更精確地識別和分類,進而可以把非常精細的策略應用于數據的保持和維護。
2.整個存儲基礎設施和其上的數據可以被完整地進行管理,無需任何特殊軟件或設備提供數據保護或保存。這是因為數據保護的規則已經被寫進了特定類型的所有數據對象的元數據中。
例如,Caringo的SWARM技術,可以通過糾刪編碼將存儲數據的復制對象的各部分分散到整個存儲基礎設施中,并在其元數據中加入檢索標示。這樣,當某一存儲設備發生故障時,存儲對象依然能夠通過那些正常設備上存儲的部分來進行重建。而對于其他不需要這種保護功能的數據類型,可以把存儲對象的元數據句柄中簡單地設置成鏡像策略。這樣,數據的保障策略可以很容易地分配,使得存儲基礎設施成為歸檔和主存儲的一個通用平臺。
出現這種“歸檔就位”的策略,其中一個原因是可以推動大數據分析。另一個原因是存儲服務的成本被包含其中。而對于歸檔管理員,簡化日后數據歸類和保存的方法是其意義所在。