繼廣泛的部署Hadoop分布后,Cloudera公司最近在紐約市舉行的Strata + Hadoop World做了一件令人驚訝的事情。沒有召喚“老派”的數據庫和BI專業人員(即大部分的企業開發人員和DBA人員)轉移到Hadoop,而是它公布了一個新產品的測試版Impala。Impala是包括Apache Hadoop在內的Cloudera分布(CDH)4.1的一部分,是一個在Hadoop集群上運行的本地SQL查詢引擎,提供原始HDFS數據和HBase數據庫的簡單查詢訪問。
以批量化為中心的假設已經破滅,MapReduce的處理必須使用大數據查詢的公司,可以說是Hadoop的最堅定倡導者。 企業技能集的概念已經過時,而且已經一去不復返了,現在命令行是主流。SQL、BI工具和報告是現在的主要大數據技術應用。Cloudera僅僅只是沖擊了你的想法嗎?
似曾相識?
也許你對此持懷疑態度。畢竟,隨著Hadoop發展的一陣時間,Hive提供了一個SQL查詢的抽象概念和BI工具的兼容性,那么,為什么Impala有重要的意義呢?事實上,這也是Cloudera的困擾。
Cloudera公司的CEO Mike Olson ,告訴了我關于Impala的技術細節。以下是詳細內容:雖然Impal實際上是Hive和ODBC驅動程序的API兼容,但它仍然是一個完全不同的“野獸”。就像其它的Hadoop任務一樣,Hive僅僅將SQL查詢轉換/編譯轉換為基于Java的MapReduce代碼,然后在批處理模式下運行,并在MapReduce里增加了一個步驟,就是用Impala取代 MapReduce。
純粹的SQL
Impala是一種在Hadoop集群上運行的本地、分布式SQL查詢引擎,并取代了Hadoop的MapReduce引擎。你仍然可以得到Hadoop的分布式文件系統。 你仍然可以得到其物理的分布式體系結構。 你仍然有可能獲得局域數據,因為分布在各節點的數據并沒有改變,唯一改變的是查詢方式。
BI工具來襲
不管Impala的創新程度如何,其生態系統已經建立了。近日,我采訪了Pentaho公司共同創始人Rich Daley,和它的業務發展EVP Eddie White。他們告訴我,Pentaho已經與Cloudera緊密合作,以確保Pentaho的商業智能工具可以利用Impala完美地工作。
Pentaho公司向我展示了他們運行在Impala上的工具,并與Hive進行了并行比較。 在演示中,通過一個Pentaho的報告工具,同時在Hive命令行和在Impala上運行一個特定的SQL查詢。總裁為我演示了如何從Impala獲得數據,進行了一系列的報告和數據可視化任務,并給我創建了一份完整的報告。當他完成時,Hive版本的查詢(運行在同一個集群的相同的數據)仍在運行。