【2014年10月,上海】近日,星環信息科技(上海)有限公司(以下簡稱星環科技)在紐約召開的Strata Conference + HadoopWorld大會上發布了Transwarp Data Hub 3.4新版本Hadoop發行版軟件。
今年的Strata Conference是近年來規模最大的大數據盛會,有5500多人參加這次大會,130多家廠商參展,門票在開會前就售罄。這么大規模的盛會標志著hadoop已經真正成為大數據處理技術的主流地位。這也是星環首次在美國-大數據的大本營-發布大數據最新產品。
Transwarp Data Hub (簡稱TDH) 3.4新版本大幅增強了Inceptor交互式分析引擎、Hyperbase實時數據庫和Stream流計算引擎的功能和性能。
Inceptor 3.4 -更強、更快、更穩定
更完整的SQL支持:
• Inceptor 3.4比美國友商提供了更全的SQL支持,繼支持SQL’99后,開始兼容SQL2003語法。最新版本已經包括了對常用數據類型DECIMAL,NUMERIC,VARCHAR的支持,支持WITH-AS定義子表, 以及支持在任意FROM/WHERE/SELECT/HAVING語句中嵌套子查詢和相關子查詢(Correlated Sub-query),支持窗口聚合函數, CUBE, ROLLUP等功能。
• Inceptor3.4支持SQL2003語法額外要求的功能,包括支持SQL2003要求的各種predicate(BETWEEN, LIKE, EXISTS等),并且支持在predicate中嵌套子查詢(sub-query in comparison predicate, sub-query in IN predicates, correlated sub-query,etc),支持在子查詢中嵌套table operator等。
• 支持部分PL/SQL語法,包括變量、函數、控制流、部分存儲過程。
支持SQL的完整程度已經遠超過美國友商的同類產品,包括Cloudera在StrataConference上發布的Impala2.0的SQL支持程度。
更快的性能:
Inceptor 3.4實現了更多的優化規則,并且自己研發了基于代價的優化器,性能比之前的版本有顯著提高。在Cloudera最近公布的TPC-DS性能數據中,Impala 1.4比所有的其他產品(包括SparkSQL)快5倍以上。作為回應,在Strata Conference上,星環公布的TPC-DS的性能評測結果以及Inceptor 3.4與Impala 1.4的對比。
下圖是所有TPC-DS測試集合的性能對比圖. 圖中縱坐標小于1表示測試案例的性能Impala超過Inceptor,而大于1表示Inceptor有更好的性能表現。對于Impala不能支持的SQL,我們就標記這個性能比為100。
從這個圖中可以看到,在Impala目前支持的19個SQL中,有11個SQL在Inceptor上比Impala表現的更好, 只有8個SQL的Impala表現超過Inceptor。
另外,在和開源的Hive執行效率相比中,Inceptor 3.4能夠帶來10x~100x的性能提升。下圖是TPC-DS的部分query在Inceptor和CDH Hive的性能提升倍數,其中最大的提升倍數竟可達到123倍。需要說明的是,這里用的Query跟Impala運行的相同。
更多詳細的性能比較以及TPC-DS的測試配置和細節可以參考星環發布的性能白皮書。
更全的機器學習算法支持:
• Inceptor 3.4新版本提供了更多的統計和機器學習算法,在MLlib已有的算法(CF, SVM等)上也做了穩定性和精度的改進。下表是TDH3.4支持的算法列表:
其中一些算法已經成功運用在電商和網絡電視的推薦系統中。
• Inceptor3.4提供了更完善的R語言支持,現在使用R語言進行數據挖掘的用戶,可以在R語言中執行SQL語句,并把SQL的結果傳給機器學習算法。多個機器學習算法的結果也可以繼續傳遞給后續算法,可以組成一個pipeline,方便用戶對數據進行多輪分析和挖掘。
更穩定可靠的Spark計算引擎,可處理GB到PB級別的大數據量:
• Inceptor 3.4的重大改進是提高了Spark引擎處理大數據的能力以及性能的穩定性,通過設計全新的內存換出機制并改造多個Spark操作原語,可以在大數據量上穩定地運行復雜的SQL,并且在大數據量上的運行性能全面超越Hive和Map/Reduce。
• 星環已經實現了大數據量復雜SQL算法的高性能和穩定性,并且已經成功替換Oracle/DB2和小型機的組合,運用在上海移動和廣東移動的復雜經營分析場合。
Hyperbase3.4 - 更全的SQL支持和索引支持
Hyperbase 3.4的新功能主要包括了對Inceptor SQL的更好支持上,Hyperbase從3.4開始同步支持Inceptor的SQL語法,可通過SQL對Hyperbase進行單條記錄的增刪查改。
新版本提供了星環科技開發的一個新的專有ODBC驅動程序(windows版本),可以通過ETL 工具支持從現有關系數據庫實時同步更新數據到Hyperbase,這個功能對實時數據倉庫或者ODS來說是必不可少的,目前美國友商的相應Hadoop產品還只能支持批處理,不能和關系數據庫進行實時同步。
Hyperbase 3.4提供了更好的索引支持,并且Inceptor SQL引擎可以充分利用Hyperbase的內建索引來加快查詢速度。在有索引的情況下,查詢的延時降到了百毫秒級別。為了支持更復雜的索引,Hyperbase 3.4充分利用了新設計的代價優化器,可以自動根據訪問索引的代價選擇最佳索引。
Stream 3.4 - 更快、更穩定、更安全
Stream 3.4流處理引擎進一步提高了讀取Kafka分布式隊列中數據的吞吐性能,并且為Kafka提供了安全認證和訪問控制功能。Kafka的安全控制功能目前在開源版本或者友商的發行版中都不具備,也側面說明了友商的Kafka或者流處理引擎目前沒有實際部署。對跨地域分級部署的流處理集群而言,缺乏安全機制是致命弱點,特別是跟公共安全相關的應用,將導致系統由于安全原因無法實施。此外,Transwarp Stream 的穩定性也得到驗證,最近在某省的全省交通指揮監控系統中上線并且能夠7x24運行,端到端延時控制在了2秒以內,是目前國內在線運行的大規模流處理集群的少見案例。
總結
此次星環科技在美國紐約發布的新版本,在多項核心功能和性能指標中已經領先于美國友商,也吸引了多家金融客戶的關注。