由Hortonworks、Mirantis、RedHat聯合發起的開源項目Sahara3月19日正式從OpenStack孵化項目中畢業,成為其核心項目。該項目旨在為OpenStack用戶提供一種簡單、快捷地部署以及管理Hadoop集群的方案,作為云計算和大數據的橋梁之一,Sahara將會推動OpenStack云平臺和Hadoop的整合,下面看OpenStack中國社區王后明的這篇文章給我們帶來詳細介紹。
以下為原文:
OpenStack Sahara(舊稱:Savanna)項目的負責人Sergey Lukjanov昨天正式宣布,Sahara從OpenStack孵化項目順利畢業,將從OpenStack下一版本Juno開始作為OpenStack核心項目之一。Sahara是在2013年由領先的Apache Hadoop貢獻方Hortonworks公司,最大的OpenStack 系統集成商Mirantis公司,以及全球領先的開源解決方案及最新版OpenStack的最大貢獻方紅帽公司聯合發起的,致力于共同在 OpenStack上實現Apache Hadoop,使OpenStack用戶能夠輕松供應和管理彈性Hadoop集群,加快Hadoop在OpenStack上的開發和部署進程。
Apache Hadoop是MapReduce技術的一種實現,目前被各行業廣泛采用,已成為大數據處理的行業標準。Sahara項目旨在為OpenStack用戶提供一種簡單、快捷地部署以及管理Hadoop集群的方案,類似于亞馬遜Elastic MapReduce (EMR) 服務。
Sahara項目的架構圖如下:
Horizon——提供GUI以使用所有Sahara的特性。
Keystone——認證用戶并提供安全令牌,用以與OpenStack通信,用以給用戶分配特定的OpenStack權限。
Nova——為Hadoop集群配置虛擬機。
Glance——用于儲存Hadoop虛擬機鏡像,每個鏡像都包含了已安裝的OS和Hadoop;預安裝的Hadoop應該給予我們在節點布置上的便利。
Swift——可以作為需要進行Hadoop作業的預存儲。
用戶需要給Sahara提供一些信息來建立集群,比如Hadoop版本、集群拓撲、節點硬件詳情以及一些其它的信息。在用戶提供這些參數之后,Sahara將幫助用戶在幾分鐘之內建立起集群,同樣還可以幫助用戶根據需求對集群進行擴展(增加或者刪除工作節點)。
云計算提供基礎架構平臺,大數據應用在這個平臺上運行,這是目前公認非常高效的處理大數據的方法之一。使用Sahara方案可有效滿足如下使用場景:
1. 在OpenStack云環境中快速部署Hadoop集群;
2. 更充分地利用通用OpenStack IaaS云環境中未被利用的計算資源;
3. 與亞馬遜EMR類似,為臨時的或突發的數據分析任務,提供數據分析即服務(Analytics as a Service)
OpenStack和Hadoop的融合,既最大限度提高了服務器的資源利用率,又大大降低了大數據處理的準入門檻。可以預見,作為云計算和大數據的橋梁之一,Sahara將會推動OpenStack云平臺和Hadoop的整合,逐步進入大數據處理市場,更快速地借助云計算平臺和大數據處理技術把數據轉換為商業價值。