與此同時,亞馬遜、微軟等大廠商憑借靈敏的市場嗅覺,在2016年紛紛順應市場訴求推出了基于公有云的的數據湖解決方案,幫助企業構建大數據平臺。基于對用戶需求的理解與對行業趨勢的前瞻,品高在2017年初推出了基于私有云的數據湖整體解決方(BingoInsight),幫助企業和組織全面應用大數據,構建可持續發展的數據生態。
一、數據湖是什么?
品高云數據湖通過深度融合云計算和大數據技術,可實現全數據形態的共享存儲,提供包括數據資源發布、數據存儲、數據編目、數據使用即數據評價等全生命周期的數據開放支撐,并可通過聯邦數據湖解決跨組織邊界的數據主權和數據信任問題。
基于品高云數據湖解決方案,用戶可有效實現跨部門、跨組織、甚至跨行業的數據匯聚、共享、交換和開放,構建可持續交付的數據生態鏈,從而通過數據關聯進一步挖掘數據價值,推動數據創新,激活數據資源的價值,提升數據應用能力。
品高云數據湖產品功能示意圖
二、數據湖能解決什么問題?
品高數據湖的包括5個解決方案,分別是數據湖存儲、數據集成、數據處理、數據管理以及數據分析和消費。值得一提的是,Gartner的《數據湖最佳設計實踐》報告指出,保障數據湖成功落地需要重點考慮數據集成、數據探索和開發、數據治理、數據消費等四個方面,可以說,品高數據湖解決方案與Gartner觀點不謀而合。以下是對這5個部分的介紹:
● 數據湖存儲基于品高云對象存儲技術實現,能夠存儲全數據類型(結構化數據、文本、圖片、音視頻等)的存儲,可與Hadoop、Spark、Greenplum等主流大數據計算技術無縫集成,可以實現多個租戶的數據隔離和共享,支持大文件切片、多節點并發傳輸。
● 數據集成是將數據提取、轉換和加載的過程,以自動化的形式從源系統中提取數據,轉換成一致的格式,并加載到數據湖中。品高數據湖提供數據湖集成工具,保障異構數據源能夠快速、鮮活的流入數據湖。
● 數據處理是通過數據集成完成數據湖的數據集中后,品高提供內置的Hadoop套件,幫助用戶快速探索、分析和處理數據湖的數據。
● 數據管理是通過元數據管理、數據目錄、數據監控統計、數據質量等手段,實現數據湖數據的可讀、可檢索、可管理和可用性。
● 數據分析和消費是指當大量數據被采集到數據湖中,經過開發處理,再將處理后的可用數據存入回數據湖,為各類大數據分析應用提供數據支撐。品高數據湖方案中提供大數據分析平臺,幫助用戶解決數據可視化問題,提供儀表盤、報表、數據地圖、自助分析等多種分析工具。除此之外,我們還可以支持第三方的數據分析工具、以及用戶自己開發的分析工具等。
三、數據湖如何應用?
基于品高云數據湖解決方案的功能特性和創新點,我們在此列舉了3個適合應用數據湖方案的典型應用場景。
場景一:跨組織邊界的數據共享
跨部門間數據共享示意圖
需求和挑戰
跨組織邊界的技術融合和共享權限問題、數據共享問題、缺乏數據運營體系問題。
應對和解決
品高數據湖方案通過深度融合云計算和大數據技術,通過本文所述的數據集成、數據開發、數據管理、數據消費等四個方面的創新能力,解決跨部門、跨組織、跨行業的數據共享和開放,幫助組織構建可持續、健康的數據生態鏈,通過數據關聯進一步挖掘數據價值。
場景二:促進基于數據的產學研合作
產學研合作示意圖
需求和挑戰
政府機構、大型企業擁有大量生產數據,但技術儲備和算法模型較弱,而高校、科研機構有技術、有算法模型,苦于沒數據。
應對和解決
利用數據湖建立生產和科研的橋梁,通過數據湖將行業生產數據脫敏后存儲到數據湖,開放給科研機構、高校進行研究性探索,同時,研究成果可應用回企業,能夠有效促進基于數據的產學研合作。
場景三:聯邦數據湖
跨組織聯邦數據湖示意圖
需求和挑戰
跨組織部門數據湖建設如果通過統一的數據湖來集中管理所有數據,可能會存在組織間的數據互信、數據主權、數據安全等一些列問題。
應對和解決
品高數據湖提供去中心化的聯邦數據湖,平臺基于聯邦數據湖實現跨部門、跨組織的數據共享,并通過數據開放平臺,將數據相關的目錄、工具、服務、模型開放出來,各組織和數據模型相關軟件開發商均可在上面進行數據協作,幫助企業、政府構建可持續發展的數據生態鏈。