VMware近日宣布,將允許用vSphere來管理Hadoop集群。這樣一來,成千上萬的VMware企業客戶將能夠使用他們已經熟悉的軟件來控制Hadoop部署。從技術方面說,這提高了該公司在虛擬化基礎設施運行Hadoop節點的水平,同時將虛擬化的優勢帶到了大數據平臺。
VMware日前推出了VMware vSphere Big Data Extensions(大數據擴展),這將允許該公司廣受歡迎的基礎設施管理軟件來控制企業客戶建立的Hadoop集群。該擴展仍然需要一個基礎Hadoop平臺,HortonWorks、MapR、Cloudera或者VMware的合作伙伴Pivotal都基于這個開源Apache代碼來分配。這個大數據擴展允許這些分配任務通過vSphere來管理。Taneja Group高級分析師Michael Matchett表示:“VMware讓企業能夠托管他們自己的大數據即服務。”
VMware通過其Serengeti項目這些功能,該項目的目標是優化Hadoop集群以在虛擬化基礎設施上運行。Matchett表示,這是該項目邁出的非常重要的一步。在虛擬機上運行Hadoop節點,而不是在裸機上運行,帶來了與虛擬化計算服務器相同的優勢:更有效地使用硬件資源以及更靈活地管理系統。Matchett表示:“你可以在虛擬環境中托管Hadoop,因為這將讓你能夠混合其他工作負載,并且跨多個客戶端利用基礎設施的優勢。”
其他公司也在試圖虛擬化Hadoop集群。亞馬遜云計算服務提供的Elastic Map Reduce(EMR)產品,基本上是類似Hadoop的公共云服務。而VMware主要是針對私有云和客戶端部署。
為vSphere增加支持也可能預示著VMware的其他舉措。例如,VMware可能擴展該平臺以允許使用該公司即將推出的公共云產品(預計今年晚些時候推出)來輕松地遷移vSphere管理的Hadoop工作負載。其他公司(特別是微軟)也將允許通過自己的管理軟件來控制Hadoop發行版。
VMware推出的這些新功能是公開測試版的一部分,客戶本周可以使用vSphere 5.1來報名參加公測,預計這些功能將在年底正式推出。除了宣布這個擴展外,VMware表示Serengeti項目支持Apache Hadoop的最新開源代碼,包括新的YARN功能,Hadoop社區的一些人認為這個資源管理器可能帶來更多基于Hadoop平臺的新的應用程序。