国产精品日韩欧美在线,精品女同一区二区三区在线观看,91香蕉国产观看免费人人

大數據新選擇 Impala取代MapReduce

責任編輯：vivian

2012-11-08 09:33:40

摘自：ZDNet

繼廣泛的部署Hadoop分布后，Cloudera公司最近在紐約市舉行的Strata + Hadoop World做了一件令人驚訝的事情。沒有召喚“老派”的數據庫和BI專業人員（即大部分的企業開發人員和DBA人員）轉移到……

繼廣泛的部署Hadoop分布后，Cloudera公司最近在紐約市舉行的Strata + Hadoop World做了一件令人驚訝的事情。沒有召喚“老派”的數據庫和BI專業人員（即大部分的企業開發人員和DBA人員）轉移到Hadoop，而是它公布了一個新產品的測試版Impala。Impala是包括Apache Hadoop在內的Cloudera分布（CDH）4.1的一部分，是一個在Hadoop集群上運行的本地SQL查詢引擎，提供原始HDFS數據和HBase數據庫的簡單查詢訪問。

以批量化為中心的假設已經破滅，MapReduce的處理必須使用大數據查詢的公司，可以說是Hadoop的最堅定倡導者。企業技能集的概念已經過時，而且已經一去不復返了，現在命令行是主流。SQL、BI工具和報告是現在的主要大數據技術應用。Cloudera僅僅只是沖擊了你的想法嗎？

似曾相識？

也許你對此持懷疑態度。畢竟，隨著Hadoop發展的一陣時間，Hive提供了一個SQL查詢的抽象概念和BI工具的兼容性，那么，為什么Impala有重要的意義呢？事實上,這也是Cloudera的困擾。

Cloudera公司的CEO Mike Olson ，告訴了我關于Impala的技術細節。以下是詳細內容：雖然Impal實際上是Hive和ODBC驅動程序的API兼容，但它仍然是一個完全不同的“野獸”。就像其它的Hadoop任務一樣，Hive僅僅將SQL查詢轉換/編譯轉換為基于Java的MapReduce代碼，然后在批處理模式下運行，并在MapReduce里增加了一個步驟，就是用Impala取代 MapReduce。

純粹的SQL

Impala是一種在Hadoop集群上運行的本地、分布式SQL查詢引擎，并取代了Hadoop的MapReduce引擎。你仍然可以得到Hadoop的分布式文件系統。你仍然可以得到其物理的分布式體系結構。你仍然有可能獲得局域數據，因為分布在各節點的數據并沒有改變，唯一改變的是查詢方式。

BI工具來襲

不管Impala的創新程度如何，其生態系統已經建立了。近日，我采訪了Pentaho公司共同創始人Rich Daley，和它的業務發展EVP Eddie White。他們告訴我，Pentaho已經與Cloudera緊密合作，以確保Pentaho的商業智能工具可以利用Impala完美地工作。

Pentaho公司向我展示了他們運行在Impala上的工具，并與Hive進行了并行比較。在演示中，通過一個Pentaho的報告工具，同時在Hive命令行和在Impala上運行一個特定的SQL查詢。總裁為我演示了如何從Impala獲得數據，進行了一系列的報告和數據可視化任務，并給我創建了一份完整的報告。當他完成時，Hive版本的查詢（運行在同一個集群的相同的數據）仍在運行。