到目前為止,大多數CIO已經注意到大數據技術的發展前景以及將給企業業務帶來的全面變革。但殘酷的現實無法回避,Hadoop集群在創建、維護及維護等各個方面都難于打理,由此帶來的資金及時間壓力令企業疲于應對。基于這些理由,Hadoop的全面推廣似乎必定會胎死腹中。然而VMware公司此番攜宏偉構想而來,意欲將Hadoop集群納入虛擬化技術的覆蓋范疇之中。技術烽火的連城燃起令步入云時代的設想不再只是空談。
“Hadoop從客觀角度來說已經成為大數據處理的統一標準,”VMware公司云應用程序平臺產品管理高級主管Fausto Ibarra認為。“但要讓Hadoop真正為企業效力,最大的挑戰在于如何說服財務部門為Hadoop的部署及維護劃撥如此龐大的前期經費。而我們目前所做的努力正是圍繞這一難題,旨在最大程度簡化Hadoop集群在部署、配置及管理方面的需求,讓大數據‘走入尋常百姓家’。”
開源項目Serengeti :虛擬對象直指Hadoop
VMware公司日前高調公布名為Serengeti的全新開源項目,其設計目的旨在打造一套“一鍵式”部署工具包,借以將Hadoop集群及通用Hadoop組件轉化成與VMware 平臺上的Apache Pig及Apache Hive相類似的高可用性功能。VMware公司作為項目帶頭人,還努力與Cloudera、Greenplum、Hortonworks、IBM以及MapR等多家Hadoop發行版供應商聯手,希望能讓Serengeti項目獲得顛覆性使用效能及一鳴驚人的市場反響。
目前,Hadoop的主要部署環境仍然局限于物理基礎設施。這類部署工作往往需要耗時數天、數周乃至數月,而且一旦基礎設施規模需求過大,IT部門將不得不為獲取必要的硬件及在節點上安裝發行版而勞神費力;再加上配置過程的繁瑣及Hadoop組件的復雜性,整個處理周期將很難加以準確規劃。另外,一旦群體規模與企業需求有所偏差,那么整套工作必須要原樣再來一遍,幾乎沒人愿意承受這種二次投入帶來的巨大風險。
“在Serengeti的幫助下,我們能夠在十分鐘以內快速部署Hadoop集群,而且不用學習任何額外的新知識,”Ibarra解釋稱。“大家完全可以隨意選擇適合自己的Hadoop發行版,而且不必購置任何新增硬件——只要能運行vSphere的設備都可以滿足Serengeti的需要。與此同時,新項目也不會對管理員提出更多新要求,只要能在vSphere上實現的操作,都可以通過同樣的技能及方式在Serengeti中完成。”
“Hadoop要想成為企業IT領域廣泛認同且全民使用的主流基礎設施,首先必須要在技術需求及操作技能方面做到徹底親民,”研究機構OVUM公司首席分析師Tony Baer告訴我們。“大規模大數據集群天然擁有資源密集屬性,因此虛擬化技術的介入只是時間問題,在這一點上Hadoop別無選擇。VMware公司所參與的Apache Hadoop項目以及最新的Serengeti Apache項目是兩項關鍵性舉措,發展戰略比較靈活的云供應商必須以此為契機,嘗試以實驗或正式啟用的角度進軍Hadoop。”
讓Hadoop準備好迎接虛擬化
除了Serengeti項目,Ibarra還宣稱VMware公司已經在與Apache Hadoop社區共同協作,希望對Hadoop分布式文件系統(簡稱HDFS)以及Hadoop MapReduce項目做出調整,以使其進一步“準備好迎接虛擬化”。這些改動會使橫跨多套虛擬基礎設施之間的數據及計算工作得到大幅優化,并使企業用戶獲得更具彈性、安全性及高可用性的Hadoop集群處理能力。
VMware公司同時也在對于今年二月推出的開源項目Spring進行調整,希望能為Apache Hadoop帶來更多提升空間。在內置了Spring Java應用程序框架之后,Spring for Hadoop將允許企業開發人員輕松創建分布式處理解決方案。Ibarra指出,此次更新將賦予Spring開發人員更強的應用程序開發能力,并能使應用開發成果與Hbase數據庫、Cascading庫以及Hadoop安全性相協調。
“在一系列更新工作的輔助下,Hadoop已經準備好登上歷史舞臺了,它注定會成為下一場表演的核心角色,”Ibarra總結道。“Hadoop集群的整備工作將史無前例地簡單:只需配置一套新的數據庫或服務器,你就邁進了大數據時代的門檻。”