Hadoop的發行版除了社區的Apache hadoop外,cloudera,hortonworks,mapR,EMC,IBM,INTEL,華為等等都提供了自己的商業版本。商業版主要是提供了專業的技術支持,這對一些大型企業尤其重要。每個發行版都有自己的一些特點,本文就各發行版做簡單介紹。
2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop 的商用解決方案,主要是包括支持,咨詢服務,培訓。2009年hadoop的創始人 Doug Cutting也任職于 Cloudera 公司。Cloudera產品主要為CDH,Cloudera Manager,Cloudera Support。CDH是Cloudera的hadoop發行版,完全開源,比Apache hadoop在兼容性,安全性,穩定性上有增強。Cloudera Manager是集群的軟件分發及管理監控平臺,可以在幾個小時內部署好一個hadoop集群,并對集群的節點及服務進行實時監控。Cloudera Support即是對hadoop的技術支持。cloudera的標價為每年每個節點4000美元。
2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協助雅虎開發Hadoop,這些工程師貢獻了hadoop 80%的代碼。。雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的首席執行官。Hortonworks 的主打產品是Hortonworks Data Platform (HDP),也同樣是100%開源的產品,HDP除了常見的項目外還包含了Ambari,一款開源的安裝和管理系統。HCatalog,一個元數據管理系統。
HDP的Datasheet中描述的版本特點是
集成和測試封裝 – HDP包括穩定版本的Apache Hadoop的所有關鍵組件,集成和測試封裝。
安裝方便– HDP包括一個現代化的,直觀的用戶界面的安裝和配置工具。
管理和監控服務 – HDP包括直觀的儀表板,為監測集群和建立警示。
數據集成服務 – HDP包括Talend大數據平臺,領先的開源整合工具,輕松連接Hadoop集群,而無需編寫Hadoop代碼的數據系統集成工具。
元數據服務 – HDP包括的Apache HCatalog,從而簡化了Hadoop的應用程序之間和Hadoop和其他數據系統之間的數據共享。
高可用性– HDP與成熟的高可用性解決方案的無縫集成。
定價以集群為基礎,每10個節點每年為12500美元。
cloudera和hortonworks均是在不斷的提交代碼完善Apache hadoop,而2009年成立的MapR公司在Hadoop領域顯得有點特立獨行,它提供了一款獨特的發行版 。Hadoop在性能(在當前Hadoop的設計中,所有的meta data操作都要通過集中式的Namenode來進行,Namenode有可能是性能的瓶頸;M/R 應用程序需要通過DataNode來訪問HDFS, 這就涉及到格外的進程切換和網絡傳輸開銷),可靠性與擴展性(namenode,jobtracker單點問題),企業級應用上的弱點(比如完全可讀寫的文件系統,snapshot,mirror等等)各大廠商均知,MapR則認為,Hadoop的這些缺陷來自于其架構設計本身,小修小補不能解決問題。他們選擇了一條艱難得多的路: 用新架構重寫HDFS,同時在API級別,和目前的Hadoop 發行版保持兼容。這家2009年成立的創業公司,在蟄伏了兩年之后,終于一鳴驚人,大放異彩。他們成功的“構建一個HDFS的私有替代品,這個替代品比當前的開源版本快三倍,自帶快照功能,而且支持無Namenode單點故障(SPOF),并且在API上和兼容,所以可以考慮將其作為替代方案。” mapR版本不再需要單獨的namenode機器,元數據分散在集群中,也類似數據默認存儲三份。也不再需要用NAS來協助namenode做元數據備份,提供了機器使用率。還有個重要的特點的可以使用nfs直接訪問hdfs,提供了與舊有應用的兼容性。鏡像功能也很適合做數據備份,而且支持跨數據中心的鏡像,快照功能對于數據的恢復作用明顯。據報道mapR標價也為每年每個節點4000美元。
mapR有免費和商業兩個版本,免費版本在功能上有所縮減。
EMC的Greenplum HD是基于mapR版本二次開發改造而成,特點同mapR。
IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包括Apache Hadoop發行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數據庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數據。IBM在平臺管理,安全認證,作業調度算法,與DB2及netezza的集成上做了增強。從IBM中國開發中心信息管理總經理朱輝下面這句話就可以看出IBM對于biginsights的定位:BigInsights并沒有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)應用程序,但它可以整合其中,用于“過濾大量原始數據并合并結果,將結果以結構化數據的形式保存在DBMS或數據倉庫中”。
傳統的硬件廠商,華為,Intel也提供hadoop的版本
Intel 的商業版本,主要是強調其能提供全面的軟硬件解決方案設計,針對硬件具有更好的性能優化,以及提供集群管理工具和安裝工具簡化了 Hadoop 的安裝和配置,能夠提供項目規劃到實施各階段專業的咨詢服務,實際中采購Intel版本貌似動力不足。
華為在硬件上具有天然的優勢,在網絡,虛擬化,PC機等都有很強的硬件實力。華為的hadoop版本基于自研的Hadoop HA平臺,構建NameNode、JobTracker、HiveServer的HA功能,進程故障后系統自動Failover,無需人工干預,這個也是對hadoop的小修補,遠不如mapR解決的徹底。華為在hadoop社區中的Contributor和committer也是國內最多的,算是國內技術實力較強的公司。