剛剛宣布放寬計算及內存限制,Aster提供R語言分析能力之后,Teradata迅速出手,宣布由Teradata實驗室收購了Revelytix和Hadapt。前者主要致力于Hadoop上的數據管理,而Hadapt則是一家專注SQL-on-Hadoop的公司。顯然,Teradata構建統一數據架構方面正在加速奔跑。
構建統一數據架構
事實上,結構化數據和非結構化數據通過傳統的SQL分析和新的分析算法(時間序列、路徑、圖和文字)正在產生新的價值。為了最高效率、最優存儲、分析和應用的成本,大數據的技術鏈條正在分層。在Teradata天睿公司大中華區大數據事業部總監孔宇華的分析中,統一數據架構可以分為三層:Teradata整合數據倉庫、以Aster為主的探索分析平臺,以及以Hadoop為主的數據平臺 。
Teradata天睿公司大中華區大數據事業部總監 孔宇華
Hadoop自然是為了實現快速數據加載和獲取,數據過濾和預處理以及在線歸檔;Aster則是數據發現、快速假設校驗和試錯、模式監測,實現路徑、圖、時間序列分析;Teradata數據倉庫是實現戰略智能、預測分析和操作型智能。
這也是業內比較認可的技術分層模式。通過三個平臺的整合,來滿足更多行業深入的數據分析需求。
以醫療行業為例,要實現對病人住院情況進行分析,需要在數據平臺上復查住院治療數據,并通過運用Aster中的時間序列路徑函數,聚集函數以及Sigma值函數,識別一個病人從住院到出院的所有治療程序以及為其提供醫療服務的醫生,進而在Teradata中生成時間、地域、交叉、醫療效果等可視化分析圖譜。而通過對美國一家醫院肺炎患者的相關分析并指導業務改進,“降低了10%的住院時間,節省了5000萬美元”。孔宇華表示。
同樣可分享的案例還有運營商、銀行、零售、電商、高科技制造等。而回到技術上,整合數據倉庫,無論是在共享相關性、一致性和整合數據,還是快速部署新應用,形成業務視圖等方面都較為成熟。與之相對應的是,最有技術挑戰的是數據平臺和探索平臺。
在Hadoop基礎上發揮Aster優勢
這兩者在技術發展上有重疊,也各有側重。對Teradata而言,就是如何有效利用Hadoop,并在其上通過Aster實現挖掘和分析。
在孔宇華看來,Aster和Hadoop同樣是MPP架構,但在存儲,運算引擎以及界面方面都有較多的差異,這決定兩者所擅長任務的差別(如圖)。
Aster和Hadoop的區別(點擊看大圖)
在Hadoop基礎上進行創新并不鮮見。但能夠在企業級市場擁有如此多引擎的并不多。Aster的優勢就在于此。以Aster SQL-Graph引擎為例,相比Hadoop Giraph或者Google相關產品,Aster SQL-Graph的優勢在于:
圖并行架構
通用目標的BSP 框架
無內存綁定,高可擴展
易于開發使用的APIs
面向頂點編程的API
構建用戶自定義圖函數的SDK 和 IDE
預定義的圖函數
開箱即用的函數,適合圖并行執行
和現有平臺集成能力
和Aster關系存儲、文件存儲、外部數據源的
數據一起工作
和其它分析引擎集成 (SQL, SQL-MR)
其它企業服務
突破開源R語言的限制
不止如此,Aster對R的支持已經進入企業級標準。這與趨勢相符。Rexer Analytics咨詢公司調查顯示,70%的調查對象稱他們正在使用R語言。數據顯示,從2010年開始到2013年,使用R的人群是陡然劇增的。
但R也有不得不面對的挑戰。如R分散于各節點或各服務器,各節點或各服務器單獨運行,盡管有利于行的獨立分析處理,例如模型評分,但并不利于分析功能所需要的所有數據,例如模型搭建等。要突破開源R語言的限制,整合Aster和R,實現企業級分析需求,需要更多技術優化:
通過Aster MPP架構運行開源R語言,實現高效并行分析
放寬內存及數據處理限制,保證大規模并發
利用Aster Discovery Portfolio功能增強R語言分析能力
通過整合超過100項 Aster Discovery Portfolio分析功能和 5000多種R工具包
孔宇華表示:“Teradata Aster R以軟件數據包形式,實現開源R語言的大規模并發,這對數據分析人員而言,更具優勢。”
從Hadoop中讀取數據,在Teradata數據倉庫或Teradata Aster數據庫中智能地運用多種異構處理引擎的功能進行數據分析,形成可視化報告,進而帶動業務洞察和創新。這個技術架構已經極為流暢,對Teradata而言,更重要的挑戰是如何盡快在更多行業落地,驅動數據分析變革。