面對快速攀升的高達PB級海量業務數據,人們自然想到了很多疑問,大數據如何能幫助我的業務,云和大數據到底有什么關系,云能落地嗎?Hadoop是不是大數據的萬能藥?虛擬化在大數據中將扮演什么角色?帶著這些問題,我們來走近大數據。
根據IDC的一份名為“數字宇宙”的報告,預計到2020年全球數據使用量將會達到35.2ZB。在如此海量的數據面前,處理數據的效率就是企業的生命。
大數據的來源
海量數據到大數據的發展過程是一個從量變到質變的過程。數據發展已有多年,每年都以翻倍的速度在增長。過去增長以往的技術能夠對它比較好的管理,但一旦到達一個臨界點以后就產生了一個質變,過去的技術已經符合不了當前的發展趨勢,需要新的技術來滿足新的數量級的需求。于是大數據的概念應運而生。
大數據有以下幾個涵義: 第一、規模大。市場上企業的業務迅速增長,客戶量不斷增加,數據量的產生越來越多, 根據IDC調查顯示,未來十年全球的數據量會增長4倍;第二、來源廣。現在大數據的概念,數據不單單是從企業內部應用引發出來的數據,也包括了外部。作為一個企業,可以包括供應商、客戶等數據來源。第三、數據類型多,數據包含交易型的結構性數據、半結構性數據和非結構性數據。
當前市場競爭激烈,客戶的需求變化多端,市場形勢瞬息萬變,使得這些數據必須隨著業務不斷變化。所以在大數據時代,作為企業,人們開始思考如何能夠有效掌握并管理大數據。如何能夠從眾多數據里面抽取出對公司業務發展有用的信息,幫助增強運營效率,如何讓大數據產生大價值。
VMware大數據落地版
大數據有太多的聲音和討論。可是如何落地,如何具體幫助業務呢。現舉一個實際例子,在中信銀行信用卡部,在2011年全年大概有1500多個宣傳活動。以前推廣一個宣傳活動需要兩周時間,用了大數據解決方案只需要2-3天;承諾客戶在刷滿一定額度后贈送禮物,以前這種動作需要幾天時間處理,現在只要達到規定金額,就可以將贈品實時送到客戶手里。
在中信銀行的風險評估中心,利用大數據去實時評估每一個客戶每日的刷卡行為和信用度。以前要調整一個客戶的信用額度可能需要在每個月,甚至每一季才能做到,現在每天都能去調整。中信銀行采用了大數據解決方案后,進行了4000萬次的客戶信用額度調整。這在沒采用大數據解決方案前是絕對做不到的。這個案例的背后就是VMware的大數據解決方案。
現實版的另一個大數據的使用者是Google。Google每天產生海量數據,它本身有一套很完整的分析體系和解決方案來處理這些數據,可以做進一步處理和使用。對于很多其他機構,比如政府和企事業單位,他們也想做同樣的事情。但是必須使用特定廠商的硬件、軟件和解決方案才能實現。 VMware希望在云時代去幫助這些企事業單位,不再被物理環境所限制,可以用更彈性、有效、低成本的方式去實現。未來將會看到銀行業可以利用大數據來分析客戶信用度和進行風險管理,零售行業可以通過大數據來分析他們的信息量,讓供應鏈和資金鏈運作更通暢。
大數據是高速跑車 云計算是高速公路
如果說大數據是高速跑車,那么云計算就是高速公路。 有人說云計算和大數據是雙胞胎,兩個是不同的個體,互相依賴又相輔相成。首先在概念上兩者有所不同,云計算改變了IT,而大數據則改變了業務。然而大數據必須有云作為基礎架構,才能得以順暢運營。沒有云計算這樣的高速公路,大數據這樣的超級跑車就跑不起來。當市場對大數據這個超級跑車需求很高時,云計算這個高速公路就會往縱橫各個方向發展,形成良性互動。
其次,大數據和云計算的目標受眾不同,云計算是賣給CIO的技術和產品,是一個進階的IT解決方案。而大數據是賣給CEO、賣給業務層的產品,大數據的決策者是業務層。由于他們能直接感受到來自市場競爭的壓力,必須在業務上以更有競爭力的方式戰勝對手。比如電信運營商可以用大數據分析手機用戶流失的原因是什么。某家領先的手機運營商,他們采用大數據解決方案一個星期,就發現了原因,并使公司獲得了1億美元的高回報。
VMware是業界領先的云基礎架構廠商,在IaaS、PaaS和SaaS領域都有很強的技術、產品和解決方案。在管理Hadoop平臺時,VMware有相對應的產品,如vFabric Data Director和Serengeti。這兩項技術都能對Hadoop平臺進行有效管理,起到快速部署、一鍵式管理等功能。
VMware最近收購了一家公司Nicira,即進行線上服務分析的云服務公司。它可以使大量的數據,無論是預置數據,還是其他應用數據,都能輕松上傳到它的服務中去,進行快速分析,并以圖表進行展示結果。無論是大公司還是小公司,抑或某個部門,都很容易應用大數據技術。VMware致力于為高速跑車建造高速公路,讓大數據和云進行有效結合。
虛擬化提高Hadoop的安全性、靈活性和易管理性
Hadoop是Apache基金會發起和研發的,是目前業界公認的開放平臺之一。授權公司可以發布自己相應的Hadoop版本。以Hadoop為代表的分布式系統,是大數據系統必要但不充分的組成部分。必要性是因為現在的大數據中很多數據是機器產生的數據,或者是物聯網各種各樣的探測器、電腦產生的日志,這些是人為產生的,而且數量巨大,不適合把它直接放到數據庫中去。而Hadoop就提供了全新的方式,可以輕松進行平面擴展,把這些數據放在庫里進行任意的數據分析。Hadoop成功的建立了這個環境,使得圍繞Hadoop的軟件能夠提供各種各樣的功能,完成智能分析工作。
說它是不充分的理由是因為我們需要對數據進行分析,客戶可以把數據放池子里,Hadoop則把這些數據分成幾百個、幾千個節點,這是在特定的某些應用場景必須進行的部分。但是更多的應用場景是需要實時的反應,互動的反應,這時候就需要其他技術,包括內存類檢索技術,甚至在數據產生時要進行實時反應的技術。這些技術都結合在一起,才是一個完整的大數據處理系統。所以VMware及其合作伙伴一直在實時反應、互動和內容檢索等方面不斷努力。
VMware的戰略方向是和業界領先的不同版本都進行合作,以開放的態度建立一個生態圈,支持所有版本的Hadoop都能在VMware的虛擬化平臺上運行。在這個指導方向下,VMware做了如下幾方面的工作。一方面是和社區緊密合作,VMware開發者和和社區的開發者一起,輸入Apache源代碼庫。Hadoop在它產生的時候,并沒有考慮到虛擬環境,它是一個物理環境的技術,比如機器和機架的物理概念,但沒有虛擬機的概念,VMware加進去的代碼就加進了虛擬機的概念,虛擬機的概念和其他概念有一些不一樣,需要特殊處理,在源代碼里就知道它在虛擬環境中運行,進行優化。通過VMware的努力,使得現在的Hadoop開源技術,能夠在虛擬化環境里運行。能夠讓它十分鐘甚至更短的時間之內,從無到有,產生新集群。VMware的目標就是為超級跑車創造一條寬敞大道,使得大數據跑車能夠快速跑起來。
另外, VMware虛擬化對Hadoop的作用,就是使它更接地氣,并從現實角度適用于云計算環境,使它更易于管理并且安全。
第一、讓Hadoop適用于多租戶環境,很多時候公司里需要Hadoop或者大數據系統,往往不只是一個部門,不同部門在私有云里有可能都需要自己的Hadoop集群。在公有云上就有更多類似的需求,虛擬化就提供了一個很好的架構,可以使得多個集群之間非常靈活的同時運行,不互相影響。
第二、提高Hadoop的安全性。現在業界的基本方案都是在一個Hadoop平臺上運行,信息保護非常不安全,相互能看到各自的數據。VMware的虛擬化在不同集群之間產生強隔離。
第三、提高Hadoop的可伸縮性。因為Hadoop集群,物理環境一旦產生了,要加節點,尤其是減節點是很不容易的。Hadoop需要觀察每個部門,或隨著時間推移上下的波動的需求。在虛擬化情況里,就會使得它很容易進行這樣伸縮加減節點。
最后一點是增加CPU的利用率。 根據Hadoop社區的普遍反應,4萬個節點集群,平均CPU利用率只有20-30%,虛擬化則大大提高了這種利用率。
軟件主導的數據中心 開放才是硬道理
VMware對數據中心架構有深遠的影響。近年來整個數據中心從一個硬件主導逐漸往一個軟件主導的世界轉變。數據中心以往大都以計算為主導的,而現在越來越多的應用是以數據為主導。 VMware提供統一的基礎架構,希望既能夠滿足以計算為主導的應用,也能滿足以數據為主導的應用。
開放是VMware的精髓,在數據管理的發展道路上也印證了分久必合、合久必分的趨勢。在四十年前數據管理是群雄混戰的年代,有很多數據公司有他們一統江山的解決方案;現在的大數據則是顛覆性的、百家齊放的年代,一家獨大的技術已經不能滿足所有數據需求了。在這樣的時候, VMware希望提供好的土壤,通過比較靈活的基礎架構,使得客戶非常容易,并以非常低的門檻即可嘗試各種各樣新的技術,不用很大的投入即可嘗試Hadoop。
VMware大中華區總裁宋家瑜說:“云時代廠商沒法固步自封,是完全市場為導向的時代。市場告訴我們,客戶有各式各樣的過去、現在和未來的選擇。我們堅持去了解客戶的需求,采用開放態度與廠商來合作。我們常常看到一個成功廠商的成功的過去,但這種成功也常常成了包袱,VMware非常清楚這一點并時刻保持開放的態度和策略,這是也是我們為什么一直保持創新并領跑于市場的秘訣所在。”
大數據 中國心
隨著云計算和大數據策略在中國的展開,VMware的研發事業在中國也大有進展。繼去年北京研發團隊擴張以來,在今年9月份,上海研發也宣布進行擴容并增加研發投入。整體的發展表明VMware公司對中國研發團隊卓越創新能力的信心和肯定,以及公司對進一步發展和支持中國云計算市場的決心。
中國團隊也不負眾望,在很多項目里都有杰出的表現。VMware 全球高級副總裁范承工說:“我們非常高興看到中國研發團隊在參與全球主流技術的研發過程中取得了優秀的成績。Hadoop相關技術是在中國誕生的,第一個工程師在中國自主研發Hadoop技術,得到了總部的認可,然后才把這個項目做大。目前該項目工程師有一半在中國。這樣領先的技術,是由中國研發隊伍來領導的。”