Hadoop是數據分析中越來越流行的一種工具,但是管理一個Hadoop集群的系統管理費用卻令人怯步。為了幫助期望使用Hadoop的企業免去這部分費用,亞馬遜率先實現了Hadoop即服務部署,稱之為Elastic MapReduce (EMR)。Elastic MapReduce對于亞馬遜Web服務的客戶是一種很好的選擇,但是對于Windows Azure和OpenStack的用戶也有了類似的選擇,當然也有自身的優點和缺點。
HDInsight通過使用微軟和Apache工具讓Windows Azure用戶可以訪問Hadoop。OpenStack的Savanna項目為開源提供商提供了一個選擇,但是作為一個不斷發展的項目,用戶還無法期望得到一個完整的交鑰匙解決方案。
Windows Azure HDInsight
微軟同Hadoop企業開商Hortonworks公司合作,提供了針對Windows Azure用戶的Hortonworks Data Platform (HDP)訪問。HDP可以讓用戶在Windows和Linux服務器上部署Hadoop集群。雖然對于系統管理員來說,底層操作系統的一個選擇很重要,但是對于開發者而言,可能對于包含HDP的工具更讓人感興趣。
微軟能夠整合自身的產品,Windows Azure的Apache Hadoop實現,即HDInsight,這一點上我們毫不意外。系統管理員可以利用PowerShell和.NET管理Hadoop工作。HDInsight也能夠讓用戶用Excel使用微軟BI工具,比如PowerPivot、Power View和Power Query。
除了微軟工具和應用,HDInsight包括大量Apache項目工具,從而促進數據管理和分析。Pig是一種高級數據分析語言,可用于替代編寫MapReduce代碼,而且對于用Java編碼的分析師格外有價值。Hive是另一個Apache項目,這是一個管理大型數據集的數據倉庫系統,通過類SQL語言HiveQL進行查詢。這些都可以同Hadoop和關系型數據庫合作,Apache Sqoop對于Hadoop和關系型數據庫之間的批量數據傳輸很有效。
Hadoop即服務同微軟和Apache工具的混合的結合可以讓Hadoop集成到現有的數據管理基礎架構時變得更加順暢。
Hadoop用戶在使用HDFS或者Windows Azure Blob存儲上可以進行選擇。這一點類似于亞馬遜EMR中使用HDFS或者亞馬遜簡單對象存儲服務(S3)。HDFS是一種針對Hadoop的內置存儲格式,但是由于HDInsight集群并非持久的,來自HDFS的數據必須復制到Blob存儲或者其他持久的存儲,從而為其他Hadoop工作進行保持。
HDInsight價格基于集群中所使用的服務器數量和付款方式類型。所有的HDInsight集群都包括頭節點、安全網關節點和一個或者多個計算節點。在按需付費計劃下,頭節點為每小時0.64美元,計算節點為每小時每一個大型實例(S3)0.32美元。兩個計劃中安全網關節點都不收費。在半年和按年的計劃中,頭節點的費用范圍為:每小時0.44美元到0.51美元,計算節點的范圍為:每小時0.22美元到0.26美元。精確的價格由其他因素決定,比如承諾的時間以及客戶是否預先支付或者按月支付。
OpenStack Savanna項目
OpenStack是一個開源云計算系統,用于私有云和公有基礎架構即服務實現,比如Rackspace。就像其他的Hadoop即服務產品一樣,Savanna項目的目標就是自動化在云端部署Hadoop集群。Savanna是一個模塊化組件,旨在能在OpenStack環境內工作,同時整合了關鍵OpenStack組件,包括針對管理的Horizon、用于用戶認證的Keystone、虛擬機分配的Nova、鏡像存儲的Glance和數據存儲的Swift。Savanna也支持整合其他廠商的工具,比如Cloudera Manager Admin Console。
盡管亞馬遜EMR和Windows AzureHDInsight用戶可以相當輕松的開始Hadoop集群,但是Savanna用戶期望同系統管理員的工作要類似于Hadoop配置,這就可能減少了一些優勢。Savanna使用模板來指定服務器配置、文件系統參數和Hadoop分布式具體參數。
Savanna還處于活躍開發階段;0.3版本最近發布了。目前可用的功能包括基礎的集群分配、集群配置模板,管理應用程序接口和用Pig和Hive進行特殊查詢。2014年第二季度支持Hadoop第二版。