近日看到一篇博客,談及是否要“停止使用”磁帶歸檔。作者認為,對企業而言,他們收集的所有數據(包括歸檔數據)都會潛藏著價值,因此應當將其部署到隨機存取介質,即磁盤或閃存,而非磁帶當中。作者引述了幾個匿名用例來論證他對磁帶的認識,在這些用例中,測試開發人員需要快速訪問歸檔數據,或者是要創建個性化的動作視頻。
這些用例的引起了眾人的質疑。人們就是否需要如此頻繁引用數據爭論不已。從技術上講,情況的確有變,引用IBM的術語,數據已經從靜態變為動態,甚至成為熱點數據。換而言之,歸檔平臺(不論是否基于磁帶)都不再是這些經常受訪問的工作負載最適當的數據平臺。
問題不在于我們是否應該取消磁帶歸檔,而是如何剛好地定義、分類哪些數據需要歸檔,而哪些是活躍的數據。
活動的歸檔數據?
我們先從那篇博客本身,作者介紹了使用磁盤的所謂二級存儲,以及三級存儲,即使用磁盤或光盤等存儲媒介。備份存儲市場的供應商在二十一世紀早期開始模糊二、三級存儲之間的差異,其中最主要的在于引入了磁盤陣列,用磁盤來取代磁帶。主動歸檔基于同樣的邏輯——引入另一種類型的磁盤或閃存平臺,在某種程度上其介于主存儲與二級存儲之間,而磁帶存儲亦不完全等同于歸檔文件或離線存儲應用。
你或許和我一樣,難以看清其中的含義。以支持重復數據刪除的虛擬磁帶庫為例,這種主動歸檔平臺不使用任何磁帶產品,但我確實無法理解其填補了哪一片空白的市場,或是以一種更具成本效益的方案來比成本更低的磁帶存儲歸檔數據。
作者說Hadoop、Spark和Splunk是面向大數據的。其使用對象接口來訪問數據,不論是數據塊還是結構化文件。這是其論據的基礎:隨著磁帶,以及大多數基于磁盤的NAS產品變得不適合作為分析數據庫訪問的存儲平臺,我們必須擁有基于磁盤或閃存的對象存儲,從而實現主動歸檔。
還有一點可以佐證的是,云端使用的數據訪問協議,如Amazon Simple Storage Service(S3),也會針對對象存儲進行優化。專業人士一致的觀點是,云計算是不可阻擋的。那么,假如企業最終使用基于云的對象存儲來實現歸檔,那么有什么原因會讓他們想將數據存放在基于文件的磁帶存儲歸檔之中呢?
云計算同樣使用磁帶
最近我發現,云計算環境的搭建者們大量使用磁帶,主要原因在于,2025年數據總量預計會超過100 ZB,而磁帶是容納數據洪水的唯一方式,另一個原因在于帶寬的限制,需要在適合的時間內在云端實現數據存取。磁帶是一種非常不錯的“云端播種”方式,數據被轉儲到磁帶,容納后運送到云存儲服務提供商,包含在一個龐大的歸檔磁帶庫中。
至于認為磁帶不是適合的托管對象,這也并非是絕對的。磁帶與線性磁帶文件系統(LTFS)的結合應用使其成為最佳存儲候選對象。LTFS是記錄諸如視頻、人類基因組數據、石油天然氣勘探遙測的大塊文件的最佳實踐,較小的文件則非其所擅長。如Spectra Logic和其他技術所展示的,對象存儲提供了一種在LTFS磁帶上儲存大量小型對象的方式。
另一種用例是即時視頻編輯。諸如StorageDNA這類公司在未來的創新技術有希望使得磁帶的數據訪問效率比當前大幅提升——在加載磁帶盒后,尋求文件啟動的最快速度為45毫秒,對現有的歸檔媒介(LTO)而言只有不到一半的時間。
磁帶仍在
磁帶已死的想法由來已久,最早可追溯自上世紀80年代之后。首先是磁盤的出現,然后是RAID陣列,再后來是SAN,以及云計算。但磁帶依然存在,在可以預見的未來仍有市場。
就這種觀點,不如聽下StarWind Software是怎么說的。這家企業圍繞著軟件定義存儲和虛擬SAN,推動技術大潮的發展。同時,他們完全承認其虛擬磁帶庫(VTL)正迅速引起市場的關注。這是一款軟件定義的存儲設備,使用閃存讀取和磁盤陣列,不論硬件還是虛擬機(VM)都可以模擬磁帶庫的作用。事實上,VTL本質上也支持磁帶。換句話說,假如客戶想要將數據寫入磁帶庫,可以直接將內容發送到位于Azure或Amazon Web Service的云端。StarWind還提供其用于公有云的VM,用于從你的本地與服務供應商的VTL到VTL傳輸。
StarWind和其他VTL供應商,如CA Technologies、Cristalink以及QUADStor Systems都認識到當數據發送到云端之后,其便會變得無所不在。所以讓我們接受這個事實,即“磁帶未死”,并且清醒地認識到上述的各項策略將是未來數年中我們面對數據海嘯所必需準備好的。