Hadoop作為大數據時代的“標配”技術,不僅受到了終端用戶的廣泛關注,IT提供商與服務商也紛紛希望借助這一開源技術獲得更多利益。就如同當年的Linux一樣,如今市場中存在著許多商用Hadoop發行版,這些平臺依托于Apache Hadoop的開源代碼,通過打包整合等方式為企業級用戶提供大數據解決方案。
然而,平臺的兼容性必將成為橫亙在各個商用發行版面前的一道坎,而通過一套標準來幫助用戶解決這一難題也就成了Hadoop生態系統中每一個成員需要積極去做的一件事。就在不久前,由IBM、Pivotal以及Hortonworks等主導的“開放數據平臺(ODP)”聯盟正式成立了,旨在進一步推動Hadoop的標準化,并讓這一開源技術向更有利于用戶的方向發展。如果對ODP這個項目還不太了解的朋友,可以先閱讀這篇文章《“開放數據平臺”聯盟成立 將推動Hadoop技術發展》
在ODP上線的官方網站上羅列出了項目的贊助廠商,無論是產品、解決方案還是服務,幾乎涵蓋了大數據生態系統中的所有“巨頭”。但細心的用戶可能會發現,成員名單里缺少了Hadoop明星公司Cloudera。如果說要制定Hadoop標準,Cloudera無論從代碼貢獻量還是生態系統的建設方面都無疑是最具話語權的。但面對開放數據平臺聯盟,Cloudera似乎有些別的話要說。
ODP聯盟成員一覽
剛剛在中國成立分公司,正式進軍中國市場的Cloudera公司拒絕了ODP聯盟的邀請。公司CEO Mike Olson在博客中解釋了個中緣由。他認為,每一家廠商的發行版都為Hadoop的發展做出了貢獻,無論從API、數據格式還是語義角度來看,Hadoop都已經是非常成熟的了。Hadoop項目在Apache社區成立已經有十幾年的時間,全球的社區都承擔起了治理Hadoop的義務。從兼容性角度來看,各個廠商的發行版以及開源Hadoop等都不存在根本性的兼容性問題。
當然,Cloudera選擇不加入是有他的原因的。正如Mike Olson所說,Hadoop不存在特別巨大的不兼容問題,但一些小問題的確是存在的,這些問題也的確在阻礙Hadoop的快速發展。比如對版本的不統一問題,現在Hadoop已經發展到2.0版本,但有不少廠商的發行版還是基于之前的版本,IBM的Hadoop就不支持YARN和Spark。解決方案提供商需要對很多版本進行測試,無形中增加了許多工作量,再考慮兼容性問題時也只能選擇支持更低的版本。
現在許多Hadoop發行版的核心功能都是不開放源代碼的,比如一些SQL-on-Hadoop的功能,這也是這些廠商所宣傳的價值所在。像Cloudera的Impala工具是不能運行在PivotalHD上的,而Pivotal的HAWQ也無法運行在其他發行版上。而開放數據平臺聯盟的成立,就是要解決這樣的問題,各種發行版的混搭讓用戶能夠有更多的選擇,同時避免單一廠商的鎖定。
那是不是就沒有別的問題可擔心了呢?當然不是。首先,上面所說的只是理想狀態。如果真能夠起到如此積極的推動作用,ODP的價值將不可限量。但如果只是IT廠商的市場行為,為了更好地推廣自己的產品,那么用戶就可以先“洗洗睡了”。另外,如果Cloudera這樣的巨頭抵制ODP,那么它還真是要想想如何應對了,因為不少成員都與Cloudera有合作。而且在企業級Hadoop市場,Cloudera還是絕對的No.1。更不要說還有MapR這樣的“文藝范兒”公司與Cloudera站在了同一條戰線上。注意,ODP不是Apache軟件基金會主導的組織。商場如戰場,商業環境下的殘酷競爭也許會讓ODP的愿景難以實現。