【IT168 評論】如果大家手中握有大量數據,那么接下來要做的就是選擇一款理想的Hadoop發行版了。
作為曾經僅僅為谷歌及雅虎等互聯網帝國服務的舊日稀罕兒,如今這款大數據管理系統已經積累起極高的知名度與平民人氣、并開始逐步走入尋常企業環境。促成這一現狀的原因有二:其一、企業需要管理的數據規模愈發龐大,而Hadoop正是完成這項任務的絕佳平臺——特別是在傳統陳舊數據與新型非結構化數據交相混雜的情況下;其二、已經有眾多供應商加入到Hadoop相關支持與服務項目的開發中來,他們的努力也讓此類方案變得更為親民、容易被普通企業所接受。
根據大部分企業的估算,其掌握的數據總量中只有12%能夠被加以分析,八下的88%則僅僅占據著存儲空間而無法實現價值。
—根據Forrester公司2013年第四季度軟件調查報告
“Hadoop已經成為一股不可阻扼的開源力量,其根系廣泛而深入地蔓延到各類企業數據管理架構當中,”Forrester公司分析師Mike Gualtieri與Noel Yuhanna在最近發布的Hadoop市場Wave報告中寫道。“Forrester認為Hadoop已經成為大型企業必須具備的數據平臺,并扮演著任何未來數據管理平臺的基石這一重要角色。如果大家擁有大量結構化、非結構化以及/或者二進制數據,那么Hadoop將成為您著手進行數據管理的絕佳起點。”
那么我們首先需要做些什么?Forrester指出,起步階段可以選擇的方向很多,而目前市場上有九家Hadoop服務供應商值得各位認真考量與比較。他們的方案各自擁有不同的優勢與缺點,Forrester通過論證表示當前尚未出來一位地位明確的市場統治者,各大技術巨頭與眾多相對年輕的廠商都拿出了自己值得稱道的服務方案。
我們首先要介紹一點背景知識:Hadoop屬于開源Apache項目,任何用戶都可以免費下載其核心組件——其中包括Hadoop Common、Hadoop分布式文件系統(簡稱HDFS)、Hadoop YARN以及Hadoop MapReduce等。IBM、Amazon Web Services、微軟以及Teradata等企業都試圖將Hadoop通過打包發行成更易于使用的發行版或者服務項目。每一家企業在戰略取向方面都略有不同,但這些方案的核心區別在于,Hadoop擁有將工作負載分布至成千上萬臺服務器設備中的能力、而這正是將大數據轉化為可管理數據的關鍵所在。
備注:這份名單以Forrester Wave報告中所列出的供應商為基礎,并未涵蓋全部Hadoop以及大數據管理平臺。先后順序以首字母排序。
Amazon Web Services
對于希望尋找一套由Hadoop平臺負責托管的公有云方案的客戶來說,Forrester口中的“云計算之王”就是你的終極目標——沒錯,有了Amazon Web Services,這類客戶根本沒必要再去關注其它產品。Amazon公司的Hadoop產品被稱為Elastic Map Reduce(簡稱EMR)。根據AWS方面的說法,該產品是一款利用Hadoop構建起來的大數據管理服務。不過它并不屬于純開源Hadoop,而是經過調整與修改以專門運行在AWS的云環境當中。
Forrester指出,EMR是目前市場上普及程度最高的Hadoop平臺。它已經擁有廣泛而規模龐大的合作伙伴群體,并努力以EMR為基礎提供各類服務,其中包括查詢、建模、集成以及管理等等。AWS在創新領域也沒有松懈;根據Forrester的調查,其在路線圖方面希望為EMR賦予根據工作負載需求而自動調整規模的能力。該公司未來計劃逐步通過其它產品與服務為EMR提供更多堅實的支持,其中包括RedShift數據倉庫以及最近剛剛公布的Kenesis實時處理引擎。除此之外,AWS還有意提供面向其它NoSQL數據庫以及商務智能工具的支持機制。說到缺點方面,AWS最大的總量在于不允許用戶在內部環境下運行這套Hadoop發行版;不過大家別急,接下來要提到的兩家企業最為擅長的就是這類需求。
Cloudera
Cloudera打造出了一款開源Hadoop發行版,其中借用到了Apache項目的眾多成果,不過在此基礎之上也作出了大量改進。Cloudera為自家產品開發出數量可觀的功能,其中包括名為Cloudera管理器的管理與監控工具外加用于在Hadoop上運行傳統數據的SQL引擎Impala。Cloudera利用開源Hadoop作為其發行版的構建基礎,但最終成果并不屬于純粹的開源產品。如果Cloudera的客戶們需要某些開源Hadoop所不具備的功能特性,他們可以選擇自行開發或者尋找一家擁有此類解決方案的合作伙伴。“Cloudera的創新方案一方面緊緊圍繞在以Hadoop為核心的技術體系周圍,但同時也開展積極創新以快速滿足客戶需求,從而構建起與其它廠商有所區別的差異化解決方案,”Forrester解釋道。結果就是,Cloudera平臺的普及范圍一直穩步增加、目前已經擁有超過兩百家付費用戶,其中一部分所管理的節點規模已經超過一千個、數據總量突破1PB,Forrester總結稱。
Hortonworks
與Cloudera類似,Hortonworks也是一家專門開發Hadoop產品的技術企業。與Cloudera不同,Hortonworks對于開源Hadoop代碼的開發熱情幾乎是所有廠商當中最高的。Hortonworks的目標是在建立起Hadoop生態系統與用戶基礎的同時,對開源代碼作出改進。其平臺方案也始終堅持最大程度與開源代碼保持一致。Hortonworks公司管理層表示這樣的路線對于用戶非常有利,因為這避免了供應商對用戶的鎖定效應(如果某位Hortonworks客戶希望或者需要轉而選擇其它平臺,那么他們可以輕松將現有應用程序移植到開源代碼平臺之上)。當然,這并不是說Hortonworks公司放棄了在開源代碼基礎之上的創新嘗試。相反,該公司將全部研發力量都投入到了該平臺的開源社區當中。舉例來說,Hortonworks曾經開發出一款名為Ambari的工具,旨在填補該項目在集群管理領域的空白。Hortonworks的產品方案幫助其在供應商群體中積累起堅實的合作伙伴基礎,其中包括Teradata、微軟、紅帽以及SAP。
IBM
當企業用戶想到大型IT項目時,我們腦海中首先出現的很可能正是IBM的名號。正因為如此,IBM也不出意料地成為Hadoop項目領域的主要參與者之一。Forrester指出,IBM打造的Hadoop方案目前已經部署到一百多家客戶的業務環境當中,其中不少客戶所處理的數據規模都達到了PB級別。該公司利用其豐富的網格計算、全球數據中心以及企業級方案實施經驗打造出自己的大數據項目。“IBM的路線圖當中包括進一步將BigInsights Hadoop解決方案與IBM相關IT資產加以整合,例如SPSS高級分析、高性能計算工作負載管理、商務智能工具以及數據管理與建模工具等等,”Forrester解釋道。
[page]
英特爾
與Amazon Web Services相似,英特爾也對自家的Hadoop版本進行了優化并使其運行在自己的硬件架構、特別是至強芯片之上。對于那些希望盡可能發揮Hadoop系統潛力、并且在軟件與硬件之間找到最佳契合效果的客戶來說,英特爾推出的Hadoop發行版很可能就是最理想的選擇。Forrester指出,由于英特爾最近才剛剛推出此類產品,因此該公司希望能在市場上同類現有方案的基礎上作出更多創新努力。英特爾與微軟在Hadoop市場上雙雙獲得了“強勁表現者”的評價,而其它七家參與較早的廠商則被稱為“市場領導者”。
MapR技術公司
也許很多朋友從來沒聽說過這樣一家企業,不過MapR技術公司卻幾乎稱得上當前最為出色的Hadoop發行版廠商。在Forrester Wave報告針對Hadoop用戶所作出的調查當中,MapR在現有產品當中獲得的評價最高,其中在發行版架構與數據處理能力兩個單項評比中同樣拔得頭籌。該公司的秘密武器在于,MapR在自己的Hadoop版本中添加了眾多只此一家、別無分號的獨特功能。舉例來說,MapR的發行版支持網絡文件系統(簡稱NFS);MapR還在發行版中提供災難恢復與高可用性功能。Forrester指出,MapR最大的問題僅僅是沒能在市場上建立起與Cloudera以及Hortonworks相似的品牌知名度。根據這家咨詢企業的建議,只要加強合作伙伴關系并進一步推動營銷努力,MapR完全有能夠成為一家主流Hadoop供應商。
微軟
從歷史角度看,微軟肯定不算是一家樂于擁抱開源軟件的企業;但面對大數據浪潮洶涌襲來的趨勢,微軟邁開大步,不僅允許Hadoop在Windows環境下運行、更通過代碼貢獻等方式將Hadoop生態系統推向更為廣泛的發展空間。此番辛勞也結出了豐碩的果實,微軟公有云Windows Azure當中的HDInsight產品就是最好的證明。這是一款基于Hortonworks發行版平臺的Hadoop即服務產品,只不過特別針對Azure進行設計。
微軟也推出過不少振奮人心的項目,其中就包括已經準備好投付使用的Polybase功能、旨在允許用戶通過Hadoop查詢搜索到SQL Server當中的數據信息。“微軟在數據庫、數據倉庫、云、OLAP、商務智能、電子表格(PowerPivot)、協作以及開發工具市場都推出過杰出的方案,而這些寶貴積累使其能夠為微軟客戶帶來更具優勢且發展迅猛的Hadoop產品堆棧,”Forrester表示。與英特爾類似,微軟也被列為“強勁表現者”而非“市場領導者”。
Pivotal軟件
去年,EMC與VMware集合雙方資產精華、共同創建了Pivotal公司——這是一家基本依靠分拆與重組建立起來的年輕企業。Pivotal的主要工作方向之一正在于開發Hadoop發行版——另一大方向則是Cloud Foundry PaaS。為了拿出屬于自己的卓越產品,Pivotal在開源代碼基礎之上加入了一系列工具,特別是名為HAWQ的SQL引擎以及用于運行這套大數據平臺的Hadoop應用程序。Forrester表示,Pivotal Hadoop平臺的領先優勢在于這套發行版能夠與Pivotal、EMC以及VMware的龐大產品線進行整合。來自EMC與VMware的強大技術支持也成為Pivotal闖蕩市場的主要后盾。不過就目前來看,該公司的產品客戶群體尚不足一百家、其中大部分也只是中小型企業,Forrester指出。
Teradata
對于Teradata這樣的公司來說,Hadoop既可能成為致命威脅、也可能轉化成寶貴機遇。該公司過去專門從事數據管理工作,特別是面向SQL以及關系型數據庫。因此,Hadoop等NoSQL平臺的迅速發展自然應該成為最令該公司頭痛的難題。然而實際情況恰恰相反,Teradata對Hadoop采取了積極的包容態度。通過與Hortonworks建立合作伙伴關系,Teradata如今已經允許客戶將Hadoop平臺與其SQL產品相集成。由其提供的插件與現成Hadoop平臺還幫助現有Teradata客戶以無縫化方式使用保存在Teradata數據倉庫當中的數據。