大多數企業都同時擁有多種類型的數據,每種數據在容量和應用程序訪問性能等方面的需求優先級各不相同。由于需要服務于不同的數據存儲需求,大多數大型數據中心都會同時使用多種類型的存儲設施。
鑒于成本問題,很少有企業能夠(不計成本地)將全部數據都放在市場上能買到的最快但也最昂貴的閃存存儲中,因此混合使用閃存和硬盤驅動器的混合陣列將是許多數據中心的主要存儲構成。 混合存儲陣列整合了多種類型的存儲元素,能在滿足對應多種數據優先級需求的同時實現成本控制。
隨著混合存儲的不斷發展,能整合的存儲類型范圍已經不僅限于閃存和硬盤,還擴大到包括多層閃存、多層硬盤、磁帶、對象和基于云的存儲,這些存儲都被鏈接到單一和透明的虛擬存儲基礎架構中,整套架構可以針對每種類型的數據和應用程序優先級自動提供最佳的性能。
本篇文章提供的使用場景剖析可幫助您更好地了解混合存儲陣列的優勢,以及最適合混合存儲的各種數據類型。這些信息可以讓您更好地設定使用場景,從而明確采購選型需求。
混合存儲陣列適合那些數據類型?
實時的事務處理大數據。實時數據通常具備活躍和持久的特性;當用戶執行搜索、銷售分析或其它動作時,數據庫或其他使用實時數據的應用程序也會同時驅動數據流轉。自動化分層軟件通常會盡量將所有活躍數據保留在盡可能高的層,但是管理員可能希望單獨指定一些數據庫、分區或數據卷,讓這些數據集中保存在一個特定的層,以確保某些應用獲得低延遲。如果某些數據在一段時間內不再活躍,這些數據將向較低級的存儲層遷移。
對于大數據、數據湖或其他大型數據集,將數據保存在云中的舉措值得嘗試,分層體系就可根據需要在熱、溫、冷云存儲之間移動數據。
典型的文件服務器數據。存儲在文件服務器上的常見數據類型,包括文本、文字處理數據、電子表格和演示幻燈片,這些數據很少需要閃存的速度。文檔或文件被加載到用戶終端后,用戶輸入數據的帶寬通常只是每秒幾個字符的數量級別,根本不需要亞微秒的響應時間。即使正在渲染的特效或光線追蹤圖形、或正在編譯的大型程序的性能都受到CPU或圖形處理能力的限制,數據訪問的速度并不是瓶頸。例外情況即使存在也不會太多,完全可以由管理員單獨處理。
數據流。數據流的關鍵定義是:可預測和連續性,因此數據流不需要閃存的低延遲和隨機存取能力。即使是被大量用戶同時訪問的流式傳輸數據也非常容易對付,無需使用大量Flash就能獲得最優化的性能。另外,數據流通常意味著文件尺寸和數量都很大,因此數據流會大量占用和消耗存儲空間,并成為低層存儲的理想負載類型。
虛擬系統數據。與流式數據相比,閃存存儲的最適合的負載應該是虛擬服務器和虛擬桌面基礎架構(VDI)。這些數據類型可以充分利用閃存的低延遲特性,并提供重復數據刪除功能,因為許多虛擬機(VM)與其他虛擬機之間具備極高的數據重復比例。例如,一個擁有100個Windows虛擬機的VDI系統中,每個客戶機可能和其它虛擬機有99%的相同數據,可實現的重復數據刪除率接近100:1,因此100個虛擬機只需占用比1個虛擬機略多一點的存儲空間。閃存存儲速度足以支持重復數據刪除并輕松處理典型的VDI部署的峰值負載,例如,用戶在上午8點登錄,在中午注銷午餐,下午1點重新登錄,并在下午5點重新登錄。
在不同層之間遷移數據
自動分層軟件對用戶和管理員來說是透明的。出現在同一目錄中的兩個文件實際上可能位于存儲系統的不同層,甚至可能位于不同的系存儲統或數據中心。存儲虛擬化軟件能識別很少使用的文件并將其移動到速度較慢、較便宜的存儲設備上,同時保留占位符以告知系統文件保存的位置。如果用戶打開該文件,則系統會自動從較慢的存儲中提取文件,并將其移回更快的層。
一些最早的自動化分層系統完全基于數據的活躍程度執行分層動作。例如,在設定的時間區間內,如果文件未被打開或更改,則該文件被移動到較低層;如果用戶在此期間打開過該文件,則該文件被移動到較高層。如今有些存儲系統仍在以這種方式工作。有些系統會增加預測算法來遷移關聯數據,例如,打開文件夾中的一個文件的用戶很可能會需要獲取同一目錄中的其余數據。還有些系統在數據塊層級而不是文件級移動數據,這種方式適合常見的對大文件執行少部分操作的場景,在數據塊級執行分層處理可以使文件不需要讀寫的部分繼續保存在較慢的存儲空間中。只有修改頻繁的塊才會保留在更快的層上。
許多指標可以被用于確定數據應該存放的數據層,包括服務等級協議、僅在本季度末搜索的數據、應具有最大冗余的關鍵數據以及需要極高吞吐量的數據。自動分層軟件可能無法正確處理這些數據,因此可以考慮手動指派特定的層。
無論是通過閃存陣列自帶的功能,還是單獨購買的軟件來實現,存儲管理軟件適應復雜場景的能力決定了管理員處理各類特殊分層要求的操作方式。一些混合存儲陣列可以讓管理員設定針對特定文件或目錄樹的響應時間、吞吐量和延遲的最低限制,并自動確保分層處理滿足這些最低要求,其他系統則無法提供這種承諾。同樣,某些系統可以按特定的時間間隔遷移數據,以便在季末結算工作開展之前先將數據遷移到更高層,或者將某些文件或目錄永久保存在指定的層。
混合存儲陣列能同時提供閃存的速度和低延遲,以及HDD,磁帶或云的經濟性。它們必然比全閃存或全HDD系統復雜,但靈活性和低成本的優勢使其值得納入選型評估。從起價低于1000美元的NAS盒子到100萬美元的企業級系統,大多數供應商都開始提供某種形式的混合存儲。管理員應該熟悉這些系統的工作方式,選擇有潛力的技術為IT組織節省大量資金。
分層軟件是如何運作的
分層軟件是混合存儲系統的核心,它可以自動將最常訪問的數據放在最快的層,甚至包含更復雜的系統邏輯,這些系統可以主動預判和抓取相關數據,并根據需要將數據在不同層之間移動。雖然也可以用手動操作的方式將數據分層到不同類型存儲的容器,但是移動數據會占用管理員的大量工作時間,從長遠來看,人力成本的耗費可能會超出分層軟件的價錢。
管理員也可以單獨購買分層軟件創建自己的混合存儲系統。但是,考慮到管理員學習軟件和部署組合軟件和硬件的時間,購買散件自己組裝仍然不具備成本優勢。除非已經擁有了可用于某些分層的存儲設施,這種情況下利用現有資源搭建分層存儲就是更經濟有效的選擇。
除了最常見的具有一層閃存和一層硬盤存儲的兩層系統之外,管理員可能還要考慮更多分層。例如,即使在閃存的范圍內,也存在存儲器總線閃存,非易失性存儲器快速閃存(NVMe),寫入優化的閃存和讀取優化的閃存,以上每種閃存都比前一種閃存更便宜,但性能也更有限。還有多層HDD存儲——不僅包括15,000 RPM、10,000 RPM和7,200 RPM驅動器,還可以選擇在不使用驅動器的時候關閉驅動器,甚至在HDD上運行對象存儲。不要忘記更下游還有磁帶和云存儲,每GB的成本更低,當然響應時間也更慢。
雖然實際的統計數據可能會有所不同,但是80/20規則對于考慮層級是很有效的:寫入存儲系統的新數據中的80%大約有30天的活躍周期,然后就很少被訪問。活躍數據中的20%會長期保持活躍,應該固定在最快的存儲空間上,其余的可以在30天后遷移到較便宜的存儲空間,在必要時才存回更快速的存儲層。