近日,從國外數據庫初創公司Citus Data方面了解,實現了Hadoop數據上的快速SQL查詢,同時超越Postgres將其高速、分析數據庫CitusDB擴展到Hadoop上,未來將擴展到MongoDB及其它數據庫產品,特別是關系型數據庫、Hadoop、MongoDB、Amazon S3等產品平臺。
Citus Hadoop架構(來源gigaom.com)
如今,可以說大數據打開企業數據分析以及選擇性數據存儲的應用領域。有效地將兩項結合需要學習新的語言,使用多工具處理,甚至在分析平臺上或許要犧牲一部分性能。
據了解,CitusDB是Citus Data公司的旗艦數據庫產品,建立在PostgreSQL之上,目的就是為關系型數據設計像谷歌Dremel規模和性能的數據庫。特別是名為 “foreign data wrappers”功能,它能夠在多種數據類型(像CSV, log以及JSON files)上運行SQL。
另外特點就是,CitusDB不僅具有良好的靈活性而且性能很快。相比較甲骨文Exadata machine上TPC-H基準測試中數據直接存儲在硬盤有明顯優勢,而之前在亞馬遜EC2云上的Postgres-Hadoop查詢幾秒鐘內實現。
以Hadoop舉例,MapReduce提供數據集的計算,但是每一個Job需要對整個數據集進行掃描,導致Hadoop上的SQL查詢工具Hive性能慢的原因。CitusDB比Hive查詢數據類型的速度快3~20倍。
但是CitusDB市場上競爭對手是SQL-On-Hadoop的項目,相比Aster Data,Platfora,Cloudera (Impala)等公司在Hadoop上的產品,CitusDB除了查詢多個數據源之外,Citus絕非一個查詢執行引擎產品,而是具有企業級數據庫的特點。