《企業網D1Net》10月15日訊
數據是企業最重要的資產。對數據價值的挖掘,一直以來都是企業應用、技術、架構、服務等創新的源泉。經過十數年技術發展,企業的核心數據處理逐漸分為兩大模塊: 以關系型數據庫(RDBMS)為主,主要用于解決交易型事務處理的問題;以分析型數據倉庫為主,主要解決數據整合分析的問題,并且當需要對幾TB或十幾TB的數據進行分析時,企業大多采用MPP數據庫架構。這在傳統應用領域是合適的。但是近年來,隨著互聯網的快速發展,特別是移動互聯網、物聯網的發展,企業的數據比以往任何時候產生的都要多都要快,面對動輒幾十TB、上百TB、甚至PB級別的數據進行分析時,傳統架構已近乎“疲于奔命”,難以招架。Hadoop在企業級市場隨之受到關注,逐漸被認為是新形勢下最佳乃至唯一的選擇 。
這使得在企業的數據中心里,為了應對不同量級的數據、不同性能的計算要求、不同計算模式的需要,不得不采用混合架構,即:關系型數據庫+內存數據庫+MPP數據庫+Hadoop平臺。
然而,客戶采用這樣的混合架構,經常面臨如下問題:
1. 大量數據需要頻繁地從一個平臺遷移至另外一個、甚至是另外幾個平臺,網絡開銷巨大。
2. MPP架構在升級或擴容時,對外提供的服務會受到影響。
3. 混合架構的上線、后期運維、升級成本居高不下。
4. 多套平臺需要多套運維人馬,掌握多套平臺技能。
5. 每套平臺的容錯、備份、災備等方案及實施,都需要單獨考慮。
面對以上眾多問題,對Hadoop有經驗的客戶進行了大膽思考,并逐步實施了一個創新的架構:讓Hadoop統一數據分析平臺的混合架構。這樣的想法僅在一年前還被認為是不切實際的。當時普遍認同的是,Hadoop在處理上百TB或是PB級別數據時具有優勢,但是讓MapReduce在Hadoop之上去處理GB或是幾TB數據,則顯得過于笨重。
星環信息科技(上海)有限公司(以下簡稱星環科技)通過在大數據領域敏銳的判斷力、極強的執行力與研發能力,在Hadoop/MapReduce之外獨辟蹊徑,通過引入Spark,完滿解決了Hadoop原有缺陷。 星環科技發布的一站式大數據綜合平臺 -- Transwarp Data Hub(以下簡稱TDH),不僅提供對海量數據超強的分析能力,在中小數據量的分析中,性能也優于MPP架構,甚至可比擬專業的內存數據庫平臺。TDH因此使企業能統一混合架構,形成完整的數據分析平臺。
TDH產品系列中的內存分析引擎Inceptor將Spark作為核心的計算引擎,彌補了采用MapReduce計算引擎的缺點。Spark內存計算技術通過把任務描繪成DAG、把分布式數據抽象成彈性分布式數據集(RDD)、中間結果存于內存、減少Shuffle過程的磁盤IO等關鍵技術,性能大幅領先于MapReduce 。星環科技經過多個成功案例的積累與豐富實踐經驗的總結,已經將Inceptor打造成成熟、穩定、高性能的分析平臺,解決了開源Spark不穩定,例如:運行24小時自動死掉、運行SQL時快時慢、有時比MapReduce還慢、大內存計算時經常沒有響應等問題。
Inceptor針對數據倉庫復雜分析的特點,對Spark進行了較多的技術改進、創新與性能優化。單獨開發了列式混合存儲層Holodesk,使得數據能夠在內存與SSD中混合裝載,滿足更大的內存計算緩存需求,極大地擴展了對TB級別數據進行分析時內存的限制。Inceptor在內存計算上做了較多的性能優化,例如:完成了基于代價的優化器,能夠更精準地自動選擇最優的執行計劃;在多表之間通過鍵值進行關聯時,通過數據分區、分桶、查詢過濾、條件下放等方式減小數據掃描IO,極大提高查詢速度等等。Inceptor在對多張10億條記錄的大表進行關聯查詢時,相比MPP數據庫,性能提升2-10倍。
Inceptor另一個使其能夠進入數據倉庫領域,統一企業數據分析平臺,提供對ANSI SQL1999標準的完整支持。Inceptor支持常用的數據類型、各種表連接查詢、各種子查詢、操作符、窗口聚合函數、甚至單條數據的DML操作等等。通過SQL實現的,運行在現有內存數據庫、MPP數據庫等平臺統計分析、經營分析等綜合性企業報表,幾乎無需任何修改,便可以平滑遷移至TDH平臺。TDH在某運營商的經分系統中,成功運行300多張報表,幾乎沒有做任何修改。TDH在某電網公司成功運行21萬行SQL代碼,而僅僅做了十幾處的代碼修改。在其他的一些案例中,對于在Teradata等MPP數據庫平臺運行的SQL也直接遷移至TDH平臺運行,性能有很大提升。
Inceptor解決了一直以來MapReduce被詬病的在處理復雜數據分析、即席查詢、自助式分析、迭代式數據分析與機器學習時,無法提供快速的響應時間的問題,使得大量一線業務人員可以通過大數據可視化工具靈活地進行交互式數據分析與探索。Inceptor中整合了R語言的統計分析、數據挖掘與機器學習算法,數據分析人員可以快速地通過并行化的R語言算法對TDH平臺的TB、甚至PB級別的數據進行快速的數據分析。如此強大的數據分析能力,已經遠遠超過了現有MPP平臺的相關實現手段。
由此可見,對于業界呼聲比較高的、將Hadoop與MPP數據庫的進行整合的方案,已經顯得沒有很強的必要性。通過TDH平臺,可以完全替代MPP平臺 :第一,TDH平臺對ANSI SQL1999標準的完整支持,已經可以滿足企業對大規模數據倉庫進行復雜數據分析的需求;第二,集成Spark內存計算技術,在數據倉庫所支撐的數量級上(GB->TB->PB),能夠提供比傳統MPP平臺更好的性能;第三,TDH平臺提供比MPP平臺更強的擴展性,更強的計算與分析結構化、半結構化、非結構化的能力。第四,TDH平臺提供給客戶一個統一的數據平臺,不同數據量級的數據計算與分析都能夠很快得到滿足。第五,TDH平臺提供統一的數據容錯、備份與災備,對企業提供更方便的措施和安全保障。
更多信息,請訪問 http://www.transwarp.io/