近日,第八屆全球Hadoop技術峰會在美國加州硅谷召開。作為全球規模最大的Hadoop盛會,本次會議吸引了大量的數據服務技術提供商和使用數據產品的企業的參加。在會議上,多家企業進行了Hadoop技術相關的報告。其中,很多企業談到了開源容器引擎Docker對Hadoop的影響。接下來,本文就針對這些企業的報告及相關討論內容進行摘要介紹。
BlueData公司產品部的副總裁Anant Chintamaneni給出了“利用Apache Ambari進行自助配置和Hadoop管理”的報告。該公司由VMware公司的資深元老Kumar Sreekant 和 Tom Phelan在2012年創建。作為一家大數據框架軟件的供應商,BlueData之前推出了EPIC軟件平臺。EPIC平臺可以在任何硬件、任何服務器和任何存儲環境下工作,簡化大數據框架的部署工作。其目標在于實現Hadoop在任何私有數據中心中的直接部署。這樣,用戶利用EPIC就可以解決I/O性能瓶頸問題,并實現在虛擬化框架中多用戶和多租戶的便捷管理。在EPIC平臺的免費版EPIC Lite中,BlueData加入了對Docker容器的支持。它允許用戶在筆記本電腦的Docker容器中啟動虛擬Hadoop或者Spark集群。
Anant在報告中指出,EPIC選擇支持Docker的主要原因在于,這種做法可以在保持容器簡單性以及系統性能的同時,享受大數據應用程序虛擬化所帶來的好處。BlueData公司試圖讓開發人員和數據專家可以非常容易的創建所需要的集群,從而獲得類似于Cloudera或Hortonworks的功能。只要用戶通過筆記本電腦訪問Hadoop,享受了這其中所帶來的好處,自然會申請使用支持多用戶和多租戶的企業版。MapR公司的產品管理部副總裁Tomer Shiran表示,隨著越來越多的人喜歡Docker容器,像BlueData這樣的公司把Docker加入到所支持的hypervisor中也越來越有意義。幾天前,BlueData公司剛剛公布了EPIC 的夏季發布版——1.5版本。該版本集成了Apache Ambari和Cloudera Manager,能夠支持新版本的Hadoop和Spark。
此外,作為一家Hadoop初創公司,Hortonworks共進行了十幾場報告。其中,該公司軟件工程師Sidharta Seethana與Altiscale公司的高級軟件工程師Abin Shahab聯合展示了一些把Docker融入到Apache Hadoop YARN的方案。作為一家“Hadoop即服務”(Hadoop-as-a-Service)方案的提供商,Altiscale之前已經決定在Docker容器中運行Hadoop。盡管這種做法需要在沒有YARN支持的情況下直接管理Docker容器,該公司卻發現這種方法具有可重復性和可自動化這兩種優點。
Hortonworks則采用了兩種方法來利用Docker容器運行Hadoop。第一種方法是用Docker來直接運行Hadoop。目前,這種做法需要用到Cloudbreak和Hortonworks Data Platform(HDP)。通過使用Docker鏡像,它可在微軟Azure、亞馬遜AWS、谷歌云平臺等任何主流云平臺上啟動HDP。第二種方法是通過YARN來使用Docker容器進行應用部署。HDP2.2版本的技術預覽中已經提到了該特性。
Hortonworks的產品管理部副總裁Tim Hall表示,Docker提供了一種完美隔離和打包Hadoop相關的應用程序的方法。該公司也在觀察Slider框架和Docker如何能夠一起合作來簡化此類的部署工作。目前,Hortonworks的一個客戶已經在考慮他們自己的數據平臺利用HDP支持Docker的方法。他們利用Cloudbreak在云中的Docker容器中部署Hadoop,并計劃把他們自己的數據應用程序制作成Docker鏡像以便在YARN上運行。此外,很多用戶也因為這種方式的敏捷性和兼容性,利用其進行未知環境的部署。
Hall指出,與傳統的在虛擬機或者OpenStack中使用Hadoop相比較,在Docker中運行Hadoop的好處包括了安裝迅速、開發和產品采用同樣的流程和鏡像、單節點和多節點相同的流程等。而在YARN中運行Docker化的應用程序的好處包括更好的軟件隔離性、開發和產品采用同樣的流程和鏡像以及應用程序更好的分發和版本控制。此外,Hall透露,大數據應用的開發人員越來越傾向于利用Docker來運行其應用程序。而且,直接在裸機上運行Docker的趨勢也越來越明顯。
感謝郭蕾對本文的審校。