隨著大數據、云計算、物聯網等新技術的發展,電信、互聯網、政企等行業應用日新月異,數據呈爆炸式增長并成為戰略性資源。據思科VNI預測,全球數據量每年約30%的速度遞增,2020年達到驚人的40ZB。
傳統存儲面臨的挑戰
面對海量數據,傳統存儲面臨諸多挑戰,主要體現在以下方面。
成本高:傳統存儲硬件使用專有設備,通用性差,設備投資加上后期維護、升級擴容的成本非常高。
性能低:單節點I/O性能瓶頸無法逾越,容量和性能都不易擴展,難以支撐海量數據的高并發低時延場景。
可擴展性差:無法實現快速部署和彈性擴展。
此外,信息安全問題觸及到國家和企業的安全命脈,信息安全已經上升為國家戰略,IT系統核心技術自主研發的需求十分迫切。
中興海量云存儲平臺及其優勢
針對傳統存儲和業界現有存儲技術的短板,依托中興通訊30多年的技術積累,我們研制了分布式海量云存儲平臺ZXDFS,滿足大數據時代的數據存儲需求和業務發展需要。總體架構如圖1所示,在架構上分為三個層次:硬件節點層、服務端和客戶端,其中,服務端和客戶端屬于軟件平臺層。
圖1 海量云存儲平臺架構圖
中興ZXDFS在架構、功能和性能等方面進行了大量創新,形成了獨特的優勢。
去中心化設計,大容量高可靠架構
元數據是分布式文件系統的核心,可靠性和一致性是基本要求,性能和容量是核心的競爭力。業界大部分分布式文件系統都要配置單獨的元數據服務器,這樣就造成了元數據的瓶頸和可支持文件數量的限制。如圖2所示,ZXDFS采用全Active的Share nothing方式去中心化設計,元數據和數據分布在各個節點,每個節點都是元數據服務器同時也是數據服務器。訪問文件數據時首先通過一致性Hash算法找到文件所歸屬的元數據服務器,然后通過元數據服務器獲取文件的數據分布情況,再去訪問數據塊所在的節點完成數據操作。
這樣,ZXDFS就提供了靈活強大的擴展能力,單域可支持256個節點,單節點可支持100億文件。同時有效地消除了元數據訪問熱點,避免了系統資源爭用。
在出現節點故障時,系統能夠自動識別故障節點,自動恢復故障節點涉及的數據和元數據,使得單節點的故障不會影響到系統整體的對外服務,完全不影響業務的連續性。
圖2 高可靠高擴展的元數據架構
橫向伸縮,在線動態擴容
云存儲作為后端的數據集中存儲平臺,必須具備動態伸縮的能力,這樣才能滿足前端應用系統不斷擴展對存儲伸縮的需求。ZXDFS采用分域架構實現磁盤/節點/域三個層級的容量和性能的橫向(SCALE-OUT)線性擴展,克服單個節點元數據及數據服務造成的訪問熱點、性能瓶頸以及擴展性受限問題,提升系統整體IO并發性能。
采用全局統一命名空間保證每個存儲服務節點具有相同的數據存儲能力和系統管理能力,提供海量大并發的讀寫服務能力。ZXDFS的動態擴展能力體現在性能上的動態擴展和存儲空間上的動態擴展兩方面,并且這種動態擴展不影響前端應用系統的正常運行,也不增加整個存儲云在管理、監控和使用上的復雜性。
高性能,高效數據冗余技術
ZXDFS可根據用戶業務需求,自定義熱點識別和熱點遷移策略,實現冷、熱數據在多級存儲池之間的雙向自動遷移。采用創新的分級收益算法,定期統計文件的訪問收益,通過文件大小、文件平均訪問間隔、文件訪問次數以及文件訪問字節數,計算出升級成本和收益的比值,對比值小于升級閾值的文件加入到升級隊列中并進行排序。
遷移周期內,根據文件的歷史訪問收益以及當前訪問收益計算文件分級收益,實現數據自動分級遷移。通過配置分級收益算法系數 和收益周期T,使得分級存儲或緩存系統的一級存儲池命中率保持在80%以上,一級存儲池利用率保持在70%以下,內部數據遷移流量與外部數據讀寫流量比例不超過20%。
ZXDFS采用優化的刪碼算法和基于Intel CPU SSE指令集,減少CPU占用并大幅提升計算性能。通過無縫融合用戶態NFS服務,簡化了傳統NFS訪問模式中的VFS層和FUSE層,單次數據訪問減少了兩次用戶態和內核態的切換開銷,大幅提升了NFS接口數據讀寫效率。利用 DMA 引擎進行數據加速,減少了4次上下文切換所帶來的內存拷貝和CPU開銷,當傳輸大量視頻數據時,使用該加速技術后性能提升非常顯著。
ZXDFS云存儲平臺支持副本和EC兩種數據冗余方式。副本模式下,分布式海量云存儲平臺以一定大小對文件進行切分并將切分的文件塊以多個完全副本方式跨磁盤、跨節點存儲。EC模式支持N+M<=16范圍內任意的EC比例配置,支持磁盤和存儲節點兩個不同層次的EC編解碼冗余顆粒度。兩種冗余方式可根據不同應用場景下對存儲可靠性、性能和成本的需要進行靈活配置。
創新的海量小文件存儲優化技術
ZXDFS采用在元數據層聚合、數據存儲層聚合技術,成功攻克海量小文件模型(LOSF)下存儲空間利用率低及訪問性能低下的痛點。典型的文件大小和分布模型下,應用本創新后IOPS性能比原來提升了4倍,數據存儲空間利用率提升近2倍。
根據局部相關性原理,將業務上處在同一路徑下的多個的邏輯文件進行聚合,減少文件句柄的占用,降低了磁盤的碎片化且提升空間利用率;同時針對海量小文件模型(LOSF)的數據和元數據采用創新的讀寫緩存優化技術,將原來產生大量耗時的文件打開、磁盤隨機IO、元數據讀取與加載等操作轉換為對緩存中聚合后的文件數據和元數據的偏移操作,大幅提升了小文件訪問效率以及磁盤空間利用率。
快速部署,維護便捷
支持一鍵式自動化批量安裝、升級和巡檢,大大縮短安裝、升級、巡檢周期,提升系統可維護性。支持磁盤故障數據自動快速重構恢復,不需人工干預,只需定期更換壞盤,大大降低磁盤維護工作量。
應用實踐
中興分布式海量云存儲平臺在全球各地承載著大量的電信及政企業務應用,包括中國電信、中國移動、中國聯通、央視的IPTV CDN系統,以及視頻監控、媒資存儲、信令檢測、彩信、WAP、139郵箱、云盤、統一存儲資源池等,其中中國移動南方基地存儲資源池達到13.6PB容量、存儲上百億文件,實現了大規模成熟商用。
總結
中興分布式海量云存儲平臺使用通用X86架構硬件,具有大容量、高性能、高擴展性和易管理等方面的突出優勢,為大數據時代的社會、經濟、生活提供基礎技術平臺支撐,實現了無所不在的數據存儲服務。