稀缺是由什么引起的?許多人會回答說,生產力的匱乏是稀缺性產生的關鍵因素;那么我們來看一個例子,60年前,許多著名的科學家和思想家認為一旦有高速計算機出現,全球的計算能力問題便可以由三臺計算機解決;但是今天,全球的計算機數量已經超過了幾十億臺,而人們的計算能力卻遠遠沒有得到完全滿足。生產力的提升會促進人們對更多資源的需求,稀缺性是永恒的難解難題與進步的動力。
同樣在今天,磁盤從1962年IBM實驗室中誕生時所擁有的28MB已經發展至TB級的存儲容量,但是數據存儲仍然是信息生產力跟上需求增長過程中的一項瓶頸。泛在化移動終端、數字傳感器與全新的信息存儲模式在存儲信息化技術出現之前是無法想象和預見的,而這些因素促使著數據在近年來不斷呈現指數級的增長模式,無論從海量數據存儲,或是數據訪問角度看,現有的存儲體系架構是難以支撐起這種海量非結構化數據的上層應用的。
所謂彈性存儲就是為了應對這種全新數據模型而產生的存儲體系架構方式,當然你也能將其稱為云存儲、大數據、軟件定義存儲、軟件定義數據中心……這些頻繁地出現在各種IT相關的報刊雜志上的術語對于每個IT經理人而言都不會陌生。
彈性存儲最早出現在1998年,為了給當時全球最快速的超級計算機集群(代號米拉)提供可靠而高效的基礎架構帶寬。米拉超算集群當時位于阿爾貢國家實驗室,由768,000顆IBM藍色基因內核集群構成。其中彈性存儲架構支持各類科學研究、氣象分析、地震預測和計算化學。當時的彈性存儲就具備了存儲虛擬化、高可用性、自動存儲分層和高效管理大規模超大尺寸文件的能力。
彈性存儲使得大量計算機并發通過存儲區域網絡(SAN)、IP網或混合網絡訪問同一組文件數據。計算機可以運行AIX這樣的專屬操作系統,或是Linux、Microsoft Windows等開放式操作系統。彈性存儲的額外功能包括存儲管理、信息生命周期管理、集中化監控以及全局化命名空間內的共享文件系統。在設計之初,彈性存儲支持高性能工作負載環境。而在今天,其普遍安裝運用于大規模并發計算,支持包括氣象模型到颶風仿真、非關系型數據庫中的大數據商業智能分析、基因排序、數字媒體與可擴展性文檔服務等領域。這些高性能運算應用普遍服務于科研、金融、零售、數字媒體與政府管理等行業。
在擴展性方面,彈性存儲沒有任何限制,其可以跨越地域限制,連接起一個日不落的存儲帝國。當然彈性存儲也可以是只有單個存儲節點的分層存儲解決方案;兩個節點所組成的數據庫高可用性存儲平臺;抑或是上千節點構成的大規模計算應用,例如天氣預測模型。迄今為止最大的彈性存儲配置仍是米拉超算集群,由百萬計的計算內核和存儲節點構成。
日不落帝國的基礎:文件系統與應用程序接口
彈性存儲的文件系統構筑在包含文件系統與元數據的存儲設備之上。文件系統可以基于單塊磁盤或者存儲PB級數據的數千塊磁盤上。每個文件系統可以被集群內的所有節點存取訪問,因此從理論角度看,每一種文件系統都是沒有容量限制的。
應用程序則通過標準化的文件系統,例如POSIX接口存取文件。由于所有的存儲節點可以訪問所有的數據文件,集群內的任意節點可以并發讀取或更新同一組文件——從而使得應用程序可以便捷地快速擴展。彈性存儲使用字節范圍鎖、分布鎖以及日志方式確保文件系統的數據一致性。這意味著支持標準化文件系統的應用程序不需修改就可以直接運行在彈性存儲的體系架構內。除了標準化接口,彈性存儲提供的擴展接口可以提供額外的應用程序功能,例如判斷文件在存儲池中的具體位置、創建文件克隆并管理空間分配。
無可比擬的性能、擴展性與管理控制
彈性存儲在性能方面的最大優勢在于其給非結構化數據帶來了空前的I/O提升。這其中包括
(1)信息的條帶化處理,將數據分布于不同節點的不同磁盤上;
(2)不同文件系統中的數據塊大小來匹配I/O性能所需;
(3)利用特定算法與緩存來改善預讀與延后寫入操作;
在創建彈性文件系統過程中,原始存儲設備被預分配諸如NSD之類的文件系統,然后所有彈性存儲體系架構內的節點都可以通過TCP/IP或Infiniband存取該磁盤,進行數據遷移。彈性存儲中的智能軟件可以進一步提升存儲架構的整體性能,其功能通常包括I/O優化、自動識別順序、逆序以及隨機I/O的存取模式。
彈性存儲的管理控制模式需要易于使用并和標準的文件系統管理方式一致,這樣才能對存儲體系架構的管理擴展至整個集群網絡。除了主要的集群監控外,管理控制還需要包括標準文件系統、使用量、快照等管理控制。
彈性存儲的管理工具能夠簡化集群的工作任務。通過任意節點中發出一條簡單指令便可在整個集群范圍內執行相應的文件系統操作。或者在更常見的方式下,客戶可以指定單獨的管理控制節點群,甚至單一授權登陸來對整個集群環境進行管理控制,從而提升整體存儲環境的安全性,防止產生誤操作。
同樣重要的是集群環境中的單臺節點在升級時需要保證整個文件系統在線狀態。目前的彈性存儲大多可以支持滾動升級,舉例來說,你可以在新的彈性存儲軟件版本發布時進行在線升級。
容量管理可以幫助管理員控制每個用戶或用戶組對集群文件系統的用量,并通過通常會附帶其中的報告系統產生用量報告,這對于需要計算單個用戶運營成本的應用環境會十分重要。而在更細顆粒度的單一文件系統中,管理員往往可以定義用戶或用戶組的文件系統樹形結構。
最后,簡單網絡管理協議(SNMP)接口可以使得整個系統通過網絡管理工具進行監控。SNMP協議提供了彈性存儲架構中每個節點狀態信息,并且在意外事件發生后采取相應策略。例如當有新的文件系統裝載、節點發生故障或者某個文件系統的可用容量低于閾值。SNMP插件可以運行在跨平臺環境下,并且監控整個異構環境。
永恒的數據存儲
彈性存儲體系架構能夠交付最苛刻環境對存儲可用性的要求。集群特性以及支持同步異步數據復制使得彈性存儲擁有無與倫比的容錯特性,在某個集群節點,甚至某個區域的存儲系統出現物理故障時,仍能夠保證持續數據訪問。
在彈性存儲集群內部,所有的節點都能夠訪問所有數據;在沒有限定數據私密性的前提下,所有集群的所有類型操作均可以經由集群內的任意節點完成;當然也可以通過策略、集群配置與許可證方式控制某些特定節點的操作類型。同時,集群存儲會持續監控文件系統組件的健康程度,例如自動化監測并釋放死鎖、對網絡狀況的監控,以及修復元文件、保證數據一致性等。
對于人為錯誤,彈性存儲通過快照方式保護文件系統中的內容。快照可以用于在線備份,防止例如錯誤文件刪除、病毒侵入等所造成的文件丟失。并且在快照中,新的數據塊只有在文件系統數據被刪除或修改時才會被創建,這樣可以節省大量的存儲空間。最后,快照會自動進行,數據會被直接存儲于現有的存儲池中,進一步簡化管理員的工作,并優化存儲利用率。
海納百川,數據存儲的未來
自1998年發展至今,彈性存儲已經被運用于全球3,000多家企業,包括金融交易、生命科學、研究設計等各個領域。
彈性存儲的宗旨在于跨越傳統存儲廠商在存儲系統架構領域的限制,通過快速、自動且智能地擴展其存儲需求,支持完全異構的存儲系統,允許跨多個位置的企業存儲系統訪問任何類型的數據。相信在未來,存儲市場將不再是那些傳統廠商在封閉的系統控制器上的角逐,因為彈性存儲將如同海納百川那樣,聯接匯聚獨立的存儲系統,形成數據存儲的“大一統”。