從大數據元年到“互聯網+”,可以看到在每一天每一分鐘里,數據都在被大量的創造出來。根據2014年的統計數據,一分鐘EMAIL用戶發送204,000,000封電子郵件、Google收到4,000,000搜索請求、FACEBOOK用戶分享2,460,000條內容……類似的例子可以列出很多,用幾個簡單的詞可以概括海量數據的特點,就是超大規模、快速、多樣。
應對海量數據存儲需求,目前國內外存儲廠商大多采用分布式存儲技術,技術比較過硬同時業界口碑比較好的有EMC的Isilon、浪潮的AS13000和華為的OceanStor 9000。今天,小編就來為大家扒一扒,分布式存儲技術是如何發展起來的?作為廣電總局、華強文化等單位都青睞的海量存儲產品AS13000,在分布式存儲技術上又有何優勝之處,在非線編、影像處理等應用上做了哪些優化?
架構之爭,集中式還是分布式,業務需求是道“分水嶺”
所謂集中式存儲,是基于網絡的存儲系統,主要包括DAS存儲(直接附加存儲)、NAS(網絡附加存儲,提供文件級的數據訪問和共享服務)、SAN(存儲區域網絡,針對海量的面向數據塊的數據傳輸)這3種存儲組網形式,其中SAN和NAS在實際應用中比較常用。
所謂分布式存儲,就是將數據分散存儲在多臺獨立的設備上。
現在問題來了,既然集中存儲已經能夠滿足一定規模的企業數據訪問和存儲需求,為什么還會出現分布式存儲呢?
這個問題也不是一個“既生瑜,何生亮”的矛盾話題,應該說業務是采用不同架構的“分水嶺”,業務規模不同,適用的存儲模式也不同。
傳統的網絡存儲系統采用集中的存儲存放所有數據,比較適合業務應用相對固定、對數據一致性要求高、存儲空間一般在幾十TB~百TB容量以下且可預測范圍內增長不大的業務場景。
而對于業務超大規模部署(如PB級)、數據量幾何級增長的場景,集中存儲成為系統性能的瓶頸,也是可靠性和安全性的“瓶頸”,不能滿足大規模存儲應用的需要。分布式網絡存儲系統采用可擴展的系統結構,利用多臺存儲設備分擔數據并發訪問負荷,利用一臺控制設備進行統一調度和管理,這樣一來不但提高了系統的可靠性、可用性和存取效率,還便于管理。
簡單來看,在“互聯網+”趨勢下,云計算、大數據、移動化、社交網絡為代表的第三平臺興起,業務對存儲架構的需求更加靈活,對擴展性、存儲性能有了更高要求,數據類型也更加豐富。這都給了分布式存儲更多的發展空間。
同時,各個區域建立集中式還是分布式存儲基礎設施,很多時候和一個城市的空間布局有關。就拿北京一些政府部門來說吧,各個區域受限于地理位置、網絡條件、機房承重、空調設計等問題,建立集中式的存儲基礎設施,就不如在各個區先建立分布式存儲系統,再匯總到總中心。
大有不同,分布式存儲不僅要看“顏值”更要看“細節”
前文提到業界多家廠商都在分布式存儲上推出了自家的產品,這些產品單看“顏值”,功能上有很多共性,比如一般都能支持SAN、NAS、Object任一種數據類型,容量、性能線性提升,支持統一管理,降低TCO等等。但細看之下還是各有獨特之處的,下面我們就拿浪潮分布式存儲AS13000做個示例,看看這款產品有何特點吧。
浪潮分布式存儲系統AS13000
NO.1可跨節點存放元數據或副本,提升可靠性
AS13000可將多份文件/對象/塊數據分別或者一份文件/對象/塊數據打散存儲在多臺獨立的設備上,通過集群不同節點提供文件/對象/塊數據級別的結構化或非結構化數據的存放與訪問。
分布式存儲是將文件/對象/塊數據并行分布在多個節點上的存儲系統,分布式存儲能將SAN 連結到IP或FC網絡,除塊數據通過FC網絡訪問外,使IP 網絡用戶能通過NAS存儲協議直接訪問SAN 中的存儲空間。
值得一提的是,在容災能力方面,浪潮分布式存儲可以跨機架存放副本,提升系統可靠性。這點在業內還是比較領先的,很多其他品牌的分布式存儲只能在本機架內存放副本,一旦出現整機架故障,數據就可能損壞或丟失。
副本方式數據冗余,可跨節點部署副本
相比于傳統的RAID技術,節點間的數據冗余具有以下優勢:
l 更強的容災能力:相對于RAID,副本機制具備更強的容災能力,能夠容忍任意形式的單點故障,包括斷電、斷網、磁盤損壞、系統崩潰等
l 更快的數據恢復速度:當單一節點出現異常時,系統的剩余節點會重新進行數據分布和復制以恢復容災能力。該過程在所有存儲節點間并行進行,數據恢復速度是RAID的10以上。
l 更低的成本:不需要通過陣列的方式實現數據的冗余,而使用存儲服務器,具有更低的成本和更高的性價比
NO.2糾刪碼和集群間的數據重刪,節約空間
分布式存儲多用來存儲大規模的數據,并且為了保障數據的高可用采用了多副本技術,為保障數據萬無一失,副本當然是越多越好,就像AS13000能支持2-8個副本。然而可以想象,當數據規模是PB級以上時,每個副本也將消耗大量的存儲空間,由此所帶來的容量購置成本和系統運行成本的增長,實在讓數據中心有些吃不消。
在副本技術外,浪潮分布式存儲還支持糾刪碼,可以通過糾刪碼保障數據高可用,從而減少副本的需求量,給企業節約了成本。
這還不算,浪潮分布式存儲還支持集群存儲層級的數據重刪,通過制定靈活的重刪規則,顯著提高存儲空間的利用效率,進一步降低容量成本開支。
浪潮分布式存儲可根據文件類型、大小、創建時間設定相關的重刪規則
NO.3改進傳輸協議,獲得更好的性能
對于非線編、視頻制作等應用場景,經常是很多人一起參與同一個視頻的加工,帶寬成了影響工作效率的一個關鍵點。
傳統NFS協議中,一個客戶端只能對應一臺服務器(但一個服務器可以給多個客戶端提供服務),也就是一個NAS機頭提供帶寬服務,造成了客戶端的帶寬瓶頸。
浪潮對此進行了優化,在NFS協議基礎上疊加了多路徑技術,可以在一個客戶端上插入多個網卡,根據內部負載調度算法,實現一個客戶端使用多個NFS服務端的聚合帶寬,給非線編和視頻制作提供了強大的帶寬支持。
此外,AS13000支持Windows和Linux等多種客戶端,方便在不同的業務場景下部署。
同時,在IOPS優化方面,浪潮分布式存儲技術有兩種加速方式。其一是在全SATA盤的情況下,采用寫數據直接落盤技術,可提升數據寫入速度;其二是在SSD+HDD混合的情況下,對讀寫進行優化設計,數據先寫入SSD,進行數據整合排列后,再把相對順序且規整的數據寫入HDD,在數據讀取時,數據仍然是順序的,減少了磁盤的尋址時間。這樣一來,數據寫和讀過程中都提升磁頭的工作效率,延遲也可大幅降低。
AS13000,技術上有更多精彩
剛才跟大家分享了浪潮分布式技術的幾個小細節,比如跨節點副本存放、重刪、糾刪碼、改進的協議等等。雖然說了很多,感到還是意猶未盡,像集群虛擬化、統一管理等和軟件定義存儲相關的技術還沒來得及展開,不如放到專門的一篇軟件定義存儲技術稿里,下次再說個痛快吧。