通過檢查頂級的Hadoop發行版的關鍵特征,你可以決定哪些訂閱適合你的組織。
雖然軟件組件構成的Hadoop生態系統堆棧是開源技術,但是采用付費訂閱使用其供應商的商業Hadoop平臺會為企業帶來許多好處。例如,訂閱可以提供技術支持和培訓,以及訪問那些不提供給開源社區的企業功能。而供應商的Hadoop的企業版提供了Hadoop生態系統協議堆棧的核心部件,主要區別是這些廠商提供超越公開訪問的功能。
最近市場的變化已經使Hadoop廠商行列減少。就在本月,例如,PivotalSoftware公司終止了自己的Hadoop產品分布,并表示將開始代理銷售Hortonworks公司的產品。但仍有一些不同的供應商來考慮,包括獨立的Hadoop專家,云計算提供商,以及兩家最大的IT供應商。
為了幫助你確定哪些Hadoop產品適合你的組織,本文根據幾個關鍵特性區分Hadoop發行版,這其中包括部署模式,企業級功能,安全性和數據保護功能和支持服務。
注意,雖然Hadoop大數據管理的生態系統被設計成為支持可擴展的數據存儲和高性能分布式計算,其實際的性能可能有幾個原因,其包括軟件實現。但許多性能問題依賴于計劃應用程序本身。為了解決這個問題,我們將進一步研究Hadoop的產品分布將如何有針對性地滿足用戶組織的業務需求。
1.Hadoop的部署模型
大多數Hadoop廠商支持混合部署的方法,但是只有來自微軟和亞馬遜網絡服務公司(AWS)的Hadoop產品在云環境完全部署。微軟公司運行在Azure云基礎設施的Hadoop產品名為HDInsight,是一個基于Hortonworks數據平臺(HDP)托管服務,這與Pivotal公司代理銷售Hadoop版本相同。AWS公司使用亞馬遜彈性云計算平臺,支持AmazonElasticMapReduce(EMR)的S3數據存儲,其Hadoop發布版捆綁了其他各種工具和技術。此外,亞馬遜EMR還提供使用MAPR的Hadoop發行版,這并不是亞馬遜公司自己的產品。
云部署模型提供了一個快速而省力的方式來配置Hadoop集群,微軟和AWS都使用戶能夠調整需求他們的環境來處理動態計算和存儲能力的需求。這種彈性可以滿足理想的組織對計算和存儲的需求,可能會隨時間變化。
而其他主要的Hadoop廠商,例如Cloudera,Hortonworks,IBM和MAPR都提供了基于云的部署,他們并不局限于這一模式。它們允許用戶下載,可以在本地或私有云部署在各種服務器,包括Linux和Windows系統的版本。此外,Cloudera公司和MAPR公司還提供了可以運行在虛擬環境中的沙箱版本,例如VMware。
底線:考慮你的組織是否更傾向于管理其內部的大數據環境或使用托管服務。在內部管理監督意味著軟件環境的維護和系統的連續監測,即環境是否對處所的物理平臺或使用基于云的服務安置。如果你有經驗豐富的工作人員,并知道適當的系統大小特征,或者如果安全問題權證管理一個可信的防火墻背后的系統,其內部部署選項可能是可取的。
另一種方法是使用一個供應商提供的服務平臺,這將有助于配置,啟動,管理和監控你的操作。如果你不知道你需要什么規模的系統,或期望系統規模將增長基礎上的需求不斷增加,這可能是可取的。而使用云計算和托管服務工作的好處是,它會為存儲和處理資源提供必要的彈性。
2.頂端的Hadoop發行版的企業級功能
三個獨立的Hadoop供應商的開發方法有一些明顯的差異。Cloudera公司往往增強了Hadoop的核心與內部開發的插件技術,例如,基于Hadoop的ImpalaSQL查詢引擎;Cloudera的Manager管理工具;以及Kudu,這是在Hadoop分布式文件系統(HDFS)運行的另一個用于實時分析數據存儲應用。通常,企業在進行初步開發工作后會開放源代碼等技術。另一方面,Hortonworks公司促進其在ApacheHadoop社區軟件的100%創新,并沒有專有擴展。
再加上其附加技術,如從開源項目一開始推出的Ambari配置和管理軟件。另外,Hortonworks公司已經與IBM等公司聯合起來,形成開放式數據平臺計劃(ODPi),致力于建立一個共同的核心技術規范的Hadoop平臺的組織。ODPi成員聲稱,這將提高互操作性,并減少供應商的鎖定。
MAPR公司開發了自己的文件系統MAPR-FS,而沒有使用HDFS,另外也開發了自己的NoSQL數據庫MAPR-DB和其它基礎技術,為了支持大型集群部署企業級的性能等基礎技術的需求,MapR也越來越注重實時流處理應用。該公司在2015年底將其產品為MAPR融合數據平臺,其結合了MAPRHadoop文件系統和數據庫和ApacheSpark處理引擎,以及實施批處理和實時任務的稱之為MAPR流的新事件流的技術。
與此同時,IBM公司對ApacheHadoop發布版BigInsights采用分析型戰略,以保持其廣泛的銷售商業智能和先進的分析工具一致。IBM公司提供不同的附加價值與企業級功能模塊,這是BigInsights的一部分,其中包括獨立的分析師和數據科學家模塊。其分析模塊提供了聯合SQL訪問Hadoop和其他大數據源的SQL。BigSheets是分析師模塊的一部分,允許用戶瀏覽,轉換和存儲在Hadoop的大數據集,使用直觀的電子表格的界面實現可視化。BigInsights數據科學家模塊包括一個R語言版本,文本分析,SystemML機器學習庫。
而其云平臺是亞馬遜AWS的主要電子名片,它也提供了用于監控和管理集群工具,使其成為應用和集群互操作性Hadoop的服務的一部分。
亞馬遜電子病歷收集用于跟蹤進度和衡量集群的健康指標。集群健康指標可以通過命令行界面,軟件開發工具包或API來訪問,并且可以通過電子病歷的管理控制臺來查看。此外,亞馬遜的CloudWatch的監控服務可以一起使用,其實施了Apache神經節性能監控組件的檢查集群,并設置了這些指標觸發的事件警報。
底線:選擇一個供應商,提供作為其企業訂閱的一部分增值組件可能意味著致力于一個長期的合作關系。尤其是這些組件是與其標準協議棧緊密集成的。如果你擔心廠商鎖定,請考慮參與OPDi的廠商。
3.Hadoop供應商產品的安全和保護
盡管擴大了使用開源軟件的企業級應用,但人們對其生產使用的安全和保護方面仍然存在著懷疑,Hadoop的一些廠商已經采取措施來減輕一些這方面的焦慮。
例如,Hortonworks已經與其他供應商和客戶聯手推出針對Hadoop的數據治理計劃,最初的重點是阿特拉斯管理共享元數據的新的Apache項目、數據分類、審計、安全和策略管理數據保護。它還致力于整合阿特拉斯與Ranger,一個用于執行數據訪問策略的開放源碼的安全工具Cloudera提供工具,讓用戶能夠管理數據安全和CDH平臺治理,支持一個組織的需要,滿足法律和法規要求。
此外,Cloudera,Hortonworks,MAPR和IBM都提供數據加密的功能。其中Hortonworks和Cloudera支持靜止數據加密。MAPR提供集群內部的數據傳輸加密功能,IBM公司提供的InfoSphereGuardium產品,可以執行數據隱私以及提供加密和保密數據屏蔽。
底線:Hadoop供應商提供不同的身份驗證方法,其中包括基于角色的訪問控制、安全策略管理、數據加密。仔細指定你的安全和保護要求,以及審查每個供應商如何解決這些需求的辦法。
4.為頂級的Hadoop發行版支持訂閱
開源軟件模型的基本價值主張是系統部署的捆綁和簡化,支持和服務。部署Hadoop需要下載的一種替代源代碼來自開放源代碼庫中的每個組件,然后構建和所有部件集成在一起。這需要技巧和努力,而且很可能是一個反復的過程。開源廠商已經進行了很大的改進,提供預先配置的發布版,并維護了最新的整合堆棧。
Hadoop發行版產品哪個最能滿足組織的需求?
供應商的區別在很大程度上是他們的支持模式。Hortonworks公司提供幾種模式,其企業版提供全天候支持和更短的響應時間,這取決于問題的嚴重程度。Cloudera的提供與企業許可證持有者一小時和全天候支持選項的支持訂閱。它還提供了Flex或數據中心版的許可證,其中包括一個為組織提供關鍵問題的高級支持的15分鐘的響應時間。
所有AWS賬戶包括基本的支持,提供全天候的客戶服務,獲得了社區論壇和文檔,以及訪問AWS值得信賴的顧問應用。開發者支持包括對于嚴重的問題的一小時響應,對于大多數問題,則提供12或24小時的響應時間。企業級支持提供全天候電子郵件訪問云支持工程師,以及根據嚴重程度縮短響應時間。企業級對于關鍵問題的支持增加了不到15分鐘的響應時間,以及專門的技術客戶經理服務,再加上額外的啟動和運行支持的好處。
MAPR提供高級支持服務,增加了Web和電子郵件支持,自定義門戶,培訓,緊急的缺陷修復,后續的太陽支持和全天候電話支持的優先問題。該公司的高級支持增加了門票和接觸支持單點的優先級隊列,并提供現場或遠程專用支持選項IBM提供支持的組織購買授權的組件,也被稱為價值添加模塊,擴展其開放平臺的ApacheHadoop。
底線:如果支持服務是來自供應商的附加價值的來源,則不同支持訂閱的成本應與顧客期望相一致。訂閱提供一小時甚至15分鐘的響應時間,而在基于網絡的界面的業務時間方面,專門的支持人員將花費了超過24小時的響應時間。
在過去10年里,Hadoop已經改變了商業智能和分析行業。但是,專家所研究的開源Hadoop框架就是這些,需要更強大的性能和功能,以及維護和支持公司正在轉向商用的Hadoop軟件發行版。專家希望,這些信息將幫助用戶在購買Hadoop發行版時做出更明智的選擇。