對于數(shù)據(jù)平臺供應(yīng)商,亞馬遜是終極對手。如果你想在云計(jì)算市場中獲得存在感,亞馬遜的云就幾乎是無法繞開的。因此,越來越多地Hadoop供應(yīng)商與亞馬遜的AWS以及微軟的Azure合作就不是什么奇怪的事了。
對于Hortonworks來說,大約有四分之一的客戶在云中部署了部分或者是全部的工作負(fù)載。到目前為止,其在云中主要的存在形式一直是Azure的HDInsight大數(shù)據(jù)服務(wù)的Hadoop引擎。
Hortonworks是最新加入與Amazon的競爭的,該公司宣布將通過AWS市場提供一項(xiàng)新服務(wù),同時在本地運(yùn)行S3存儲和EC2計(jì)算。這項(xiàng)服務(wù)——針對AWS的Hortonworks Data Cloud (HDCloud)——是專門針對處理最流行的Hadoop工作負(fù)載:Spark和Hive的一項(xiàng)服務(wù)。
在AWS云中,Hadoop提供商面臨的挑戰(zhàn)是Amazon的EMR服務(wù)提供最原生的無縫體驗(yàn)。它是一種托管服務(wù),意味著在您選擇EC2節(jié)點(diǎn)的類型和數(shù)量后,EMR就開始提供了。相比之下,在Amazon云中使用作為原始基礎(chǔ)架構(gòu)即服務(wù)(IaaS)運(yùn)行Hortonworks(或Cloudera)需要客戶自己承擔(dān)配置云基礎(chǔ)架構(gòu)和管理工作負(fù)載的負(fù)擔(dān)。即使使用了有助于自動化配置的Hortonworks Cloudbreak或Cloudera Director,在易用性方面也難與 EMR抗衡,它使用的是HDFS而不是AWS的標(biāo)準(zhǔn)S3存儲。
這正是HDCloud的立足點(diǎn)。通過AWS市場,你會得到和EMR更為類似的托管云計(jì)算體驗(yàn),而且和EMR一樣,你向亞馬遜付款,而不是向Hortonworks付款(Hortonworks顯然會從亞馬遜獲得版稅)。它使用S3,所以它看起來像一個標(biāo)準(zhǔn)的AWS服務(wù)。
新的Hortonworks AWS產(chǎn)品不是完整的Hortonworks數(shù)據(jù)平臺(HDP),因?yàn)樵摲?wù)僅適用于最流行的工作負(fù)載:用于分析和機(jī)器學(xué)習(xí)的Spark,以及用于交互式SQL的Hive(使用新的LLAP加速)。
因此,HDCloud不是針對AWS的HDInsight的仿冒品。相比之下,HDInsight是一個更廣泛的服務(wù),提供了一個更完整的版本的Hortonworks Data Platform。除了Spark和Hive,HDInsight還運(yùn)行Storm和HBase。此外,HDInsight的管理比新的Hortonworks AWS產(chǎn)品更全面;例如,Azure處理所有升級,而在AWS上,則需要更多的手動干預(yù)。
所有這一切的背后故事是,越來越多的云客戶要求符合目標(biāo)的替代品,而不是訪問一個完整的平臺。因此,今天,您將看到專業(yè)的機(jī)器學(xué)習(xí)服務(wù),它提供了來自所有主要云提供商的一些建模算法,您可以看到來自Databricks等提供商的只針對Spark的服務(wù),或Qubole提供的只針對Spark或者完整Hadoop的選項(xiàng)。這也為Spark和Hadoop的對決火上澆油。盡管HDP和HDInsight已經(jīng)全面支持Spark,但是對于短暫工作負(fù)載的定制云服務(wù)的需求已經(jīng)使Hortonworks縮小了其新亞馬遜產(chǎn)品的側(cè)重。
回到AWS,一個顯而易見的問題是為什么使用HDCloud而不是默認(rèn)為EMR?Hortonworks通過利用從Ambari借用的優(yōu)化配置計(jì)算節(jié)點(diǎn)的功能優(yōu)化了Hive和Spark工作負(fù)載,從而形成了差異。 Hortonworks還為Hive提供了更細(xì)粒度的安全性,針對行和列進(jìn)行安全管理,這是一種提升。
EMR長期以來在自己的專有數(shù)據(jù)訪問優(yōu)化方面一直有優(yōu)勢。HDCloud利用Apache Hadoop 2.7附帶的最新增強(qiáng)功能,針對S3實(shí)現(xiàn)了等同于EMR的性能。
一開始,HDCloud將通過年度合同或按小時收費(fèi)。由于其現(xiàn)有的Cloudbreak技術(shù)(其中一些與新的AWS產(chǎn)品一起使用)已經(jīng)支持現(xiàn)場實(shí)例,我們預(yù)計(jì),HDCloud最終還將添加現(xiàn)場費(fèi)用。請注意“針對AWS”這個品牌。如果HDCloud最終也通過其他公共云提供,我們不會感到驚訝。
請注意:此帖子的早期版本暗示Qubole只提供Spark服務(wù)。事實(shí)上,Spark只是更廣泛的基于云的大數(shù)據(jù)分析產(chǎn)品組合中的一部分,包括完全與Hadoop相關(guān)的工作負(fù)載。