大數據與云計算之間有著千絲萬縷、相互推動的關系。當前大數據時代已經來臨,海量數據應用的背后是云計算在做支撐,二者之間實現高效銜接能夠為海量數據的價值釋放奠定良好基礎,賦能業務創新。
“云原生大數據”便是以上形式的技術投影。云原生首次由 Pivotal 公司的 Matt Stine 在2013年提出。云原生(CloudNative)是一個組合詞,Cloud+Native。Cloud 表示應用程序位于云中,而不是傳統的數據中心;Native 表示應用程序從設計之初即考慮到云的環境,原生為云而設計,充分利用和發揮云平臺的彈性+分布式優勢。云原生大數據即是大數據在設計之初,就充分考慮如何利用云的優勢,最大限度釋放數據價值。
品高股份早在 2008 年開始自主研發,2010 年 2 月就獲得了私有云操作系統商用版本著作權,是一家具有深厚云基因的公司。2015 年,品高股份在面臨某省級公安多警種、省市區多層級的復雜數據生態問題時,對大數據平臺的研發有了一定的思考。結合多年的云計算自主研發經驗、實踐經驗和敏銳的技術趨勢研判,品高股份認為,大數據要有效釋放價值,需要解決跨層級跨行業跨領域的數據互聯互通問題,構筑成熟的數據管理能力,同時結合云計算的優勢,為數據管理和運用提供支撐。2016 年,品高云數據湖從云中應運而生。
品高云數據湖管理平臺的云原生主要體現在以下幾個方面:采用存算分離架構,通過云原生的存儲加速數據訪問,通過云原生的計算智能調度資源,通過云原生的網絡保障數據安全。
*品高云數據湖管理平臺(BingoInsight)是國內首批企業級的私有云數據湖之一,是新一代的數據匯聚、共享、交換、開放平臺。
云原生大數據,加速釋放數據價值
從share Nothing到share Storage
品高云數據湖采用存算分離架構,使用基于 S3 標準協議的云原生對象存儲承載大規模數據存儲,計算層無狀態。相較基于 Hadoop 架構的數據湖,品高云數據湖存儲計算分別可按需擴展,具有無縫對接 Hadoop/Spark/MPP 等異構計算引擎、計算資源可回收、彈性計算、更低成本等優勢。
借助云技術加速數據存儲訪問
- 數據路由加速
基于 SDN 軟件定義網絡技術在網絡層解決數據智能路由,數據訪問時可就近落盤訪問,縮短 I/O 路徑,減少上行的數據復制包,解決了存算分離架構下的 I/O 延時及性能損耗等問題。
- 分布式內存加速
通過分布式內存技術,自動緩存訪問熱點數據,大幅提高訪問速度。
- 高性能并發加速
基于底層云平臺 DPDK + SDN 架構,將計算節點的數據轉發層進行多核并行的架構改造,提升整體云數據湖大數據計算集群網絡轉發性能,同時提供兼容 POSIX 標準封裝 Socket 網絡開發組件,對負載均衡、數據緩存等服務進行優化改造,實現關鍵網絡服務的性能提升,在云中提供的純軟件負載均衡服務每秒請求數可達 150 萬,最大并發連接數可達 500 萬。
云技術助力開放性、輕量級數據計算
- 多范式開放性計算
品高云數據湖存儲使用標準 S3 協議,可無縫對接離線計算、實時流計算、交互式分析、AI 計算等多范式計算引擎,支持外部表直連訪問,外部表支持映射不同的分區文件,靈活滿足不同數據處理需求,提升數據共享的使用效率,構建“一份數據,多種計算”,跨部門、跨層級復雜生態的異構計算引擎可快速對接,同時在新計算技術引進或者更替時無需遷移數據。
- 輕量級函數計算
品高云數據湖基于輕量級、多編程語言上下文環境保證的容器沙盒,實現兼容 AWS 標準的多租戶 Lambda 云函數,以數據湖多維感知的全鏈路事件驅動,構建云數據湖的內生數據計算處理引擎。支持數據定義 DDL 、數據管理 DML 等事件,如數據寫入事件、數據更新事件、數據刪除事件等,用戶可根據業務場景訂閱并設置規則觸發云函數,數據湖內置常見圖像識別、OCR 識別、實體提取等函數,同時支持用戶上傳自定義函數,支持 java、c/c++、python 等編程語言,實現敏捷化、輕量級數據處理。
云原生混合調度,屏蔽底層資源差異,合理化分配資源
- 異構資源統一管理調度,以最佳資源配置提供服務
針對大數據異構計算資源調度高效能交付場景,根據大數據異構計算引擎的資源需求差異化特性,品高云研究異構資源的統一管控與調度技術,根據物理區域、業務區域、安全區域劃分數據計算可用區,在同一可用區內,服務支持運行在虛擬機、容器、裸金屬等不同資源形態,支持 GPU、NPU、FPGA 等加速設備資源化交付。在預設的異構大數據計算引擎場景中,可優先提供最佳的資源配置。
- 多芯協同調度
國內各芯片廠商發展百花齊放,各芯片所擅長領域亦各有千秋。在此背景下,各集團型企業和單位可能存在多種芯片同時提供服務,甚至可能存在集團企業和其下屬子公司所使用的芯片不同的情況。品高云數據湖通過屏蔽底層異構計算引擎差異,根據客戶使用場景調度合適的芯片提供計算服務,不同廠商芯片協同向上支撐應用,避免了技術鎖定和產能不足等潛在業務風險。
- 彈性伸縮以高效利用資源
借助存算分離架構,計算實現無狀態,數據計算可根據用戶自定義業務規則自動伸縮,支持多租戶計算資源隔離和動態調度。
通過SDN保障數據安全
品高云數據湖引入數據沙箱機制,將代碼與代碼運行所需要的數據和環境變量解耦,根據代碼的運行環境,自動關聯所需要的數據和環境變量。并通過 SDN 隔離敏感數據,在云網絡層面判斷訪問的客戶端 IP、訪問協議、訪問端口是否有可訪問權限;對于高敏感度數據,可用子網絡再次進行隔離,多方面多層級保障數據安全。
新技術協同共融共生
通過云計算與大數據的融合,可以發揮出指數增長的價值優勢。未來,各技術交叉融合必然是大勢所趨,我們將始終保持開放中立的態度,以推動產業發展為目標,積極探索創新融合,為行業客戶發展賦能。