EMC完成了一項出色的異種融合工作,將Hadoop與Greenplum整合在一起,得到了支持SQL語言的數據庫Hawq。
Hadoop一直與事務處理和數據倉儲系統中所用的關系數據庫配套使用,但是它其實也可以支持其他的語言。當然,你也可以在類似于Hive SQL的數據倉儲系統中使用Hadoop分布式文件系統(HDFS),但是查詢的速度就不一定能夠保證了。 如果你想要保證查詢的快速,你可以用Cloudera在去年10月份發布的Project Impala分布式查詢引擎來加快;類似于Hive SQL的查詢。
但是你真正想要的是讓Hadoop能夠識別和支持SQL語言。 你希望享受到HDFS所具備的所有內在可測量性和復制優勢,讓它能夠支持標準SQL查詢或支持SQL的其他任何工具,當然那些工具大部分指的是各種商業分析語言。
簡而言之,那就是EMC的Greenplum開發團隊在Project Hawq項目上取得的成果。據Greenplum聯合創始人兼高級產品主管Scott Yara稱,EMC的數據倉儲和Hadoop部門經過十多年的基礎性研發,為Greenplum開發出大量并聯關系數據庫,并且讓它能夠與Teradata、IBM、甲骨文和其他廠商推出的同類產品進行競爭。
Project Hawq項目這個SQL數據庫層位于HDFS頂部,而不是想利用一個非SQL數據庫來替代它。Project Hawq將成為EMC的Pivotal Hadoop Distribution或簡稱為Pivotal HD的最新Hadoop產品的一部分。
那個名稱很重要。Greenplum是Pivotal Initiative計劃的一部分,EMC在去年12月時說過,Pivotal Initiative計劃的目的是將其并聯數據庫、Hadoop、應用框架和其他一些資產整合到一個部門之中。
Pivotal這個名稱來自于靈活的編程設備,Greenplum習慣利用那些編程設備用來協助完成其管理軟件的部分編程工作,EMC在去年3月面向Greenplum數據庫和Hadoop推出Chorus管理工具并將它轉為開源項目時決定收購它。
Pivotal HD已于本周一在舊金山召開的發布會上正式發布,但是Pivotal部門卻還未正式成立。成立Pivotal部門是EMC首席戰略官Paul Maritz自2012年7月辭去VMware首席執行官職務后著手的第一項重要工作。
乘坐著大象的Hawq重重地踏在一只黑斑羚上
EMC發布Pivotal HD是建立在開源阿帕奇Hadoop 2.0基礎之上的,當然Greenplum并聯數據庫和相關工具還會提供更多的好處。
目前還不清楚EMC是否將把所有這些技術都開源,這也是El Reg目前正在關注的問題之一。現在很難預測EMC下一步會怎么做,但是考慮到現在已經有一個社區版本的Pivotal HD和不支持SQL-on-HDFS數據庫功能但具備付費企業級支持功能的企業版本的Pivotal HD以及企業版本基礎上的插件Pivotal Advanced Database Services可以給HDFS中存儲的數據提供SQL查詢功能,似乎EMC不太可能將Greenplum的所有技術都開源。
原因是雖然Yara在發布會展示中將它稱為“王冠”,但是Project Hawq其實是整個Greenplum中的最有價值的瑰寶;Yara稱,公司成立了一個由300多人組成的工程技術團隊,在過去2年里一直在開發指向HDFS的數據庫擴展項目。Yara稱,這是全球最大的Hadoop開發團隊,并且他還多次強調EMC正全力以赴地開發Hadoop,因為公司相信Hadoop將會成為一種新的數據結構的基礎。
Hawq并不是任何特定事物的首字母縮寫詞,而是工程師們偶然想到的一種鳥的名字,就象Hadoop項目中使用其他動物做產品的名字一樣。為了營銷上的便利,工程師們將名稱中的字母k換成了字母q。
EMC的Pivotal HD系列產品的產品經理Josh Klahr解釋說,Hadoop向HDFS的Hawq擴展將它變成了一個數據庫。他說:“Hawq實際上就是一個大規模并行處理工程或MPP,數據庫運行 在Hadoop中,位于HDFS的頂部。作為一個單一的系統,它將一整套聚合基礎設施嵌入系統,那套聚合基礎設施可以運行和提供Hadoop和HDFS必 須提供的所有功能以及你能從MPP數據庫中獲得的規模、性能和可查詢功能。”
如果你不相信Klahr,就給他發郵件吧。我個人認為,這里要么是Hawq存在一些限制,要么是關系數據庫存在一些限制。
Klahr進一步解釋說:“它其實就是一種SQL語言兼容性,我沒有輕易去使用那些字眼。它與SQL并不相似。 你可以利用Hawq編寫任何SQL查詢命令,然后將它放到Hadoop頂部運行。SQL-99、SQL-92、SQL-2011、SQL-2003,我相信還有其他年份的SQL存在。”
運行在Hadoop和HDFS頂部的SQL引擎可以由數百個服務器結點擴展到數千個服務器結點的規模,它源自于Greenplum數據庫的優化產品,因此,為什么我們不會看到它們被開源呢?
它內嵌了現成的安全和報告功能,使用標準的Hadoop格式。你可以在一個文本文件、一個序列文件或是Avro輸出中制定它,你可以閱讀HBase 柱形圖表(如果你已經對HBase進行過投資的話)并且以一種天生支持Hawq的優化形式(這樣可以提高性能)來寫入數據庫信息。
據EMC稱,與面向批處理的查詢相比,HDFS和Hawq的結合可以將性能提高10倍到600倍。那會將間歇式系統轉變成互動式系統。 這是上個世紀六七十年代的主機的優勢,那也是將Hadoop變成其工具箱的一部分所需完成的任務。
Pivotal HD產品包包括Hadoop 2.0以及它的MapReduce并行執行編程環境和HDFS。你可以利用Hive數據倉儲、HBase關鍵價值商店、Pig開發語言、Yarn資源管理、Mahout并聯分析工具和Zookeeper進程管理工具。
Pivotal Hadoopery還包括被EMC稱為Hardware Virtual Extensions的組件,它可以讓Hadoop群集知道自己是建立在虛擬機還是物理服務器的基礎上,并且很可能會是VMware的Project Serengeti項目商業化之后的成果。
這款產品還包括一個安裝和配置管理工具、一個名為指揮中心的任務追蹤機制、一個來自于Greenplum數據庫的并行數據加載工具。Spring Batch功能是從Cloud Foundry項目中提取出來并針對Hadoop優化后的Java框架。
Pivotal HD將在今年第一季度開始銷售,El Reg證實核心企業版和Hawq Advanced Database Services插件都將在第一季度末之前上市銷售。
這套軟件運行在EMC的Data Computing Appliances平臺之上,后者是EMC在2010年10月收購了Greenplum之后發布的。它還將運行在2011年9月宣布推出的switch-hitting DCA上,后者可以在工作負載發生變化時啟動Greenplum數據庫或Hadoop結點,但是不會象Pivotal HD那樣將兩種工作負載合并在一起。
如果你想在自己的設備上運行它,你也可以購買軟件版的Pivotal HD。但EMC沒有透露該產品的定價信息。