高速增長的數據量和日益增加的競爭壓力,讓越來越多的企業開始思考如何挖掘這些數據的價值。傳統的BI系統、數據倉庫和數據庫系統都不能很好地處理這些數據,原因包括:1)數據量太大,傳統數據庫不能有效存儲并維持可以接受的性能;2)新產生的數據往往是非結構化的,而傳統方式都是為處理結構化數據而設計的;3)傳統數據處理所需的硬件往往相對昂貴,隨著數據量增加而繼續用傳統方式處理的成本讓很多企業不能承受。為此,倍受互聯網界推崇的Apache Hadoop這朵奇葩日益吸引了企業界的目光,大量企業都在思考如何把Hadoop這個美麗的新娘娶回自己的數據中心。
不過,傳統的企業數據中心要想娶回這個妖艷新娘可不是那么簡單。Hadoop的部署、運維都需要很多極客才能完全掌控,完全超出了傳統企業數據中心的技術能力;另外,Hadoop不僅需要專門硬件,而且安全和服務等級確保也是挑戰。如何能享受美麗新娘的溫柔夢鄉而不帶來其他的后患成為企業選擇Hadoop的現實挑戰。
從服務器虛擬化到整個數據中心虛擬化,今天我們已經充分感受到了虛擬化這個小子的力量!如果虛擬化能和Hadoop來場戀愛,企業數據中心選擇Hadoop的羈絆是不是都會一掃而光呢?答案是肯定的。虛擬化能讓Hadoop和底層物理硬件分離,真正步入云端翩躚起舞,Hadoop從而輕松步入快速部署、高可用、資源彈性調度和安全多租戶的云端殿堂,企業數據中心大數據分析和利用的美夢才能真正成為現實。
讓我們一起來揭開虛擬化這小子的戀愛秘籍吧,以便更好地利用Hadoop來應對大數據的挑戰。1)快速部署Hadoop:我們已經熟悉虛擬化的密碼,包括虛擬機、快照、模板、資源動態分配等,這些特性能很好地降服了大量應用部署的難題,Hadoop當然也不在話下,可以大幅度提高Hadoop節點的部署速度。同時,可以按需快速啟動和關閉Hadoop節點,從而實現資源的高效利用,比如VMware發布的Serengeti開源項目,助推了虛擬化和Hadoop之戀的進程;2)為Hadoop提供高可用和容錯能力:盡管Hadoop通過數據分布復制提高了系統可靠性,但仍然有很多部件存在單點故障,這種結構在互聯網企業中可能不是問題,但對傳統數據中心來說絕對是個挑戰。比如:Namenode和jobtracker以及某些支持模塊都存在單點故障,通過虛擬小子的平臺高可用可以為這些模組輕松賦予高可靠的特性,讓Hadoop走進企業數據中心后,您仍然能高枕無憂;3)擁抱Hadoop的高效數據中心:通過虛擬小子動態調度能力,可以將各種不同的負載混搭在企業數據中心云端平臺,Hadoop當然也可以與其他負載同床共枕,通過嚴格的安全隔離,確保不會發生任何沖突。甚至你可以在同一云平臺運行不同版本的Hadoop,相互之間和平共處,資源共享,在確保可用性、性能的前提下,降低了傳統部署Hadoop的總體成本,輕松實現了高效數據中心的目標;4)大幅提升Hadoop環境資源利用率:將Hadoop和其他負載部署在同一主機上,通過資源控制策略來實現資源的高效分配和調度,實現Hadoop在云端的完美漫步,是虛擬化小子贏得這場戀愛的關鍵一環;5)Hadoop云端多租戶:通過虛擬化的隔離能力,Hadoop確保本身多租戶的完美體驗,不同的租戶可以將Hadoop和其他負載混合運行在云端資源池,多租戶順利部署實現;6)安全隔離:虛擬小子的安全隔離能力,讓不同組織、用戶的Hadoop可以無憂運行,輕松達成數據和環境完全隔離的目標,同時共享底層的物理資源;7)易于維護和遷移:虛擬化讓Hadoop節點易于復制、遷移,方便了同數據中心不同集群之間、一個數據中心到另一個數據中心跨云遷移等瞬間實現,Hadoop再也不是一個行動不便的媚娘。
虛擬小子通過7板斧順利贏得了Hadoop的芳心,不僅僅讓Hadoop沒給傳統的企業數據中心添亂, 而且Hadoop在虛擬平臺上的魅力未減,因為大量的事實已經印證了虛擬化的Hadoop節點運行性能依然堪比物理環境,同時還帶來了大量的成本節約。Hadoop和虛擬化門當戶對,他們的戀愛之果值得我們共同期待和祝愿:祝Hadoop和虛擬化白頭偕老,永結同心,百年好合!