企業存儲環境主要是圍繞記錄系統構建起來的,側重于這些問題:為數據記錄長度固定的文件購買哪些類型的存儲介質和管理系統,所存儲數據的性質是實時數據、準實時數據,還是只是偶爾需要訪問或完全可以用數據歸檔保存起來的批量填充的數據等。
自從大數據進入企業數據中心和業務部門,一切改變了――單個的大數據文件可以用數TB、甚至數PB來衡量。Hadoop等分析平臺上的大數據并行處理與事務數據的按順序處理有著明顯區別。不出所料,存儲方面要考慮的因素隨之變化。
這種變化在數據分析和高性能計算領域體現得最為明顯。這個領域以Hadoop應用程序為主,它們借助算法分析方法并行處理數PB級數據,用于數據科學及其他復雜查詢。就高性能應用程序而言,很難考慮像虛擬化存儲或基于云的存儲這些概念,因為你只有通過數據中心的物理處理器和存儲平臺,才能直接處理并存儲數據和查詢結果。
因此,這種工作具有的計算密集性和存儲密集性使數據中心管理人員(包括存儲專業人員)不再像過去十年那樣,迫切尋求的虛擬化或云計算。作為大數據對象存儲特點的單一數據集的龐大性也是如此,它們使用元數據標簽來描述非傳統數據圖像,比如照片、視頻、音頻記錄和文檔圖像等。
鑒于這些發展動向,云計算在大數據領域可以扮演什么角色呢?
答案是冷存儲(cold storage),這個領域仍沒有得到企業界的充分利用。冷存儲是極其便宜、速度很慢、駐留在磁盤的數據,存儲起來放到歸檔上,妥善保存起來。在日常的IT中,這些數據很少有機會需要用到,所以如果你把它轉移到異地數據存儲庫很方便,不必讓它在你的數據中心或運營系統中占用空間。如果該數據存儲庫在云端,你就能夠從數據中心遠程訪問它,沒必要大老遠跑到異地拿起磁盤或磁帶。
云計算和虛擬存儲在數據集市也存在發展前景。現在許多公司使用數據集市為不同的部門運行批量查詢。數據集市中所用的數據大多是批量創建,基本是過去用來查詢的傳統數據。不同之處在于,用戶現在擁有比過去更多的分析報告創建工具和選項用于查詢,而且數據管理員更能夠生成從不同來源聚合的數據。在這種批量環境下,磁盤存儲解決方案用起來就跟過去一樣有效。
存儲管理員需要應對大數據帶來的變化,尤其是如何應對眾多極其龐大的大數據文件。這就需要專門的磁盤和處理,在大多數情況下,還需要與云計算和虛擬化項目背道而馳的本地存儲。在另一方面,商用冷存儲解決方案可能會最終消除這個困境:很少使用的數據駐留在機房的過時磁盤和磁帶驅動器上,無人照管。