多年以來,存儲行業已經給企業IT部門留下一個深刻的印象:存儲需要通過分層來降低成本,獲取成本效率。
然而,自從2008年1月EMC公司推出了第一款企業級閃存盤(EFD)之后,人們不禁要質疑存儲分層的持續需求。有粗略的統計表明,一個活動的數據集中只有大約3-10%的數據是“熱的”(具體數字依賴于行業以及企業規模)。
許多公司已經彌補了磁性機械旋轉硬盤驅動器(HDDs)的相對較低的性能問題——與非易失性存儲相比——利用硬盤驅動器陣列和跨硬盤條帶化數據(使用一種被稱為“短擊”的做法)。但是這種做法在很多方面都帶來了昂貴的成本,不單是因為造成的容量使用浪費,也包括硬盤驅動器耗電時產生的熱量。
硬盤驅動器走了,SATA驅動器來了
企業級閃存盤或者叫固態硬盤(SSDs)能實現單位性能成本降低高達100倍。所以,引入少量固態硬盤能讓企業重獲由于“短擊”造成的容量使用損失。
但更重要的是,CIO應該考慮完全放棄購買高性能驅動器。
這個想法并沒有多激進,參考前面提出的意見——3-10%的活動數據是“熱的”——邏輯上講,剩余的數據(至少)不是熱的。對于那些絕大部分,這種“不熱”的數據(盡管不必一定是冷數據),在應用中是以參照的方式進行使用。換句話說,對這些數據的讀取明顯比寫操作要多。
此外,應用通常要在這些“不熱”的大塊數據組中讀取數據。一個典型的例子就是報告應用程序,該應用從一整天的交易的數據庫中讀取數據,生成當天的報告。今天絕大多數磁盤驅動器都具備了超級的預讀取能力,RAID算法通常把數據放在磁盤驅動器上,這些讀取多數看起來很可能是連續的。
所以,大量的連續讀取,少量的寫操作導致走向了低成本的SATA驅動器。這就再次帶回到我們的論點,如果我有少量的“熱”數據能夠用最少量的固態硬盤處理(一個中等規模的固態硬盤能夠實現每IOPS最低成本),剩余的數據用SATA驅動器處理(一個中等規模的SATA能實現每G比特最低成本),向前進一步,我們理所當然得出一個結論:一個企業只需要擁有兩層存儲。
聚焦在服務水平上,而不是具體的存儲技術
今天正在考慮存儲分層或者已經正在做存儲分層的用戶,絕大多數是以人工方式在做。但自動化分層更有意義。根據上面的分析,只有非常小的比例的數據是真正適合用企業級閃盤或者固態硬盤,雖然有非常有效的理由“寄希望”或堅持在閃存(或者主要是隨機存儲)中保存一個完整的數據集,所有存儲行業的領導廠商都提供某種形式的自動化分層
歸根到底,企業IT部門需要聚焦在他們正在交付的服務水平上,而不是任何具體的技術。IT部門也需要認識到他們今天部署的不管是什么分層策略,明天很可能還是要更改。
考慮到移動、社交、云計算和大數據的影響,遠程訪問文件數據是否會扭曲分層算法?整合的云數據(無論是社交數據還是大數據)是否會被分層影響?
在每一個案例中,KISS(保持簡單,傻瓜!)原則都是你最好的朋友。就像大多數的技術一樣,分層增加了復雜的程度。最根本的問題是你的企業是否需要這種復雜,這種復雜將帶來什么收益?如果只是有點邊際收益,可能不值得為此付出努力。