面對快速攀升的高達PB級海量業(yè)務(wù)數(shù)據(jù),人們自然想到了很多疑問,大數(shù)據(jù)如何能幫助我的業(yè)務(wù),云和大數(shù)據(jù)到底有什么關(guān)系,云能落地嗎?Hadoop是不是大數(shù)據(jù)的萬能藥?虛擬化在大數(shù)據(jù)中將扮演什么角色?帶著這些問題,我們來走近大數(shù)據(jù)。
根據(jù)IDC的一份名為“數(shù)字宇宙”的報告,預(yù)計到2020年全球數(shù)據(jù)使用量將會達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
大數(shù)據(jù)的來源
海量數(shù)據(jù)到大數(shù)據(jù)的發(fā)展過程是一個從量變到質(zhì)變的過程。數(shù)據(jù)發(fā)展已有多年,每年都以翻倍的速度在增長。過去增長以往的技術(shù)能夠?qū)λ容^好的管理,但一旦到達一個臨界點以后就產(chǎn)生了一個質(zhì)變,過去的技術(shù)已經(jīng)符合不了當(dāng)前的發(fā)展趨勢,需要新的技術(shù)來滿足新的數(shù)量級的需求。于是大數(shù)據(jù)的概念應(yīng)運而生。
大數(shù)據(jù)有以下幾個涵義: 第一、規(guī)模大。市場上企業(yè)的業(yè)務(wù)迅速增長,客戶量不斷增加,數(shù)據(jù)量的產(chǎn)生越來越多, 根據(jù)IDC調(diào)查顯示,未來十年全球的數(shù)據(jù)量會增長4倍;第二、來源廣?,F(xiàn)在大數(shù)據(jù)的概念,數(shù)據(jù)不單單是從企業(yè)內(nèi)部應(yīng)用引發(fā)出來的數(shù)據(jù),也包括了外部。作為一個企業(yè),可以包括供應(yīng)商、客戶等數(shù)據(jù)來源。第三、數(shù)據(jù)類型多,數(shù)據(jù)包含交易型的結(jié)構(gòu)性數(shù)據(jù)、半結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù)。
當(dāng)前市場競爭激烈,客戶的需求變化多端,市場形勢瞬息萬變,使得這些數(shù)據(jù)必須隨著業(yè)務(wù)不斷變化。所以在大數(shù)據(jù)時代,作為企業(yè),人們開始思考如何能夠有效掌握并管理大數(shù)據(jù)。如何能夠從眾多數(shù)據(jù)里面抽取出對公司業(yè)務(wù)發(fā)展有用的信息,幫助增強運營效率,如何讓大數(shù)據(jù)產(chǎn)生大價值。
VMware大數(shù)據(jù)落地版
大數(shù)據(jù)有太多的聲音和討論??墒侨绾温涞?,如何具體幫助業(yè)務(wù)呢?,F(xiàn)舉一個實際例子,在中信銀行信用卡部,在2011年全年大概有1500多個宣傳活動。以前推廣一個宣傳活動需要兩周時間,用了大數(shù)據(jù)解決方案只需要2-3天;承諾客戶在刷滿一定額度后贈送禮物,以前這種動作需要幾天時間處理,現(xiàn)在只要達到規(guī)定金額,就可以將贈品實時送到客戶手里。
在中信銀行的風(fēng)險評估中心,利用大數(shù)據(jù)去實時評估每一個客戶每日的刷卡行為和信用度。以前要調(diào)整一個客戶的信用額度可能需要在每個月,甚至每一季才能做到,現(xiàn)在每天都能去調(diào)整。中信銀行采用了大數(shù)據(jù)解決方案后,進行了4000萬次的客戶信用額度調(diào)整。這在沒采用大數(shù)據(jù)解決方案前是絕對做不到的。這個案例的背后就是VMware的大數(shù)據(jù)解決方案。
現(xiàn)實版的另一個大數(shù)據(jù)的使用者是Google。Google每天產(chǎn)生海量數(shù)據(jù),它本身有一套很完整的分析體系和解決方案來處理這些數(shù)據(jù),可以做進一步處理和使用。對于很多其他機構(gòu),比如政府和企事業(yè)單位,他們也想做同樣的事情。但是必須使用特定廠商的硬件、軟件和解決方案才能實現(xiàn)。 VMware希望在云時代去幫助這些企事業(yè)單位,不再被物理環(huán)境所限制,可以用更彈性、有效、低成本的方式去實現(xiàn)。未來將會看到銀行業(yè)可以利用大數(shù)據(jù)來分析客戶信用度和進行風(fēng)險管理,零售行業(yè)可以通過大數(shù)據(jù)來分析他們的信息量,讓供應(yīng)鏈和資金鏈運作更通暢。
大數(shù)據(jù)是高速跑車 云計算是高速公路
如果說大數(shù)據(jù)是高速跑車,那么云計算就是高速公路。 有人說云計算和大數(shù)據(jù)是雙胞胎,兩個是不同的個體,互相依賴又相輔相成。首先在概念上兩者有所不同,云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)。然而大數(shù)據(jù)必須有云作為基礎(chǔ)架構(gòu),才能得以順暢運營。沒有云計算這樣的高速公路,大數(shù)據(jù)這樣的超級跑車就跑不起來。當(dāng)市場對大數(shù)據(jù)這個超級跑車需求很高時,云計算這個高速公路就會往縱橫各個方向發(fā)展,形成良性互動。
其次,大數(shù)據(jù)和云計算的目標(biāo)受眾不同,云計算是賣給CIO的技術(shù)和產(chǎn)品,是一個進階的IT解決方案。而大數(shù)據(jù)是賣給CEO、賣給業(yè)務(wù)層的產(chǎn)品,大數(shù)據(jù)的決策者是業(yè)務(wù)層。由于他們能直接感受到來自市場競爭的壓力,必須在業(yè)務(wù)上以更有競爭力的方式戰(zhàn)勝對手。比如電信運營商可以用大數(shù)據(jù)分析手機用戶流失的原因是什么。某家領(lǐng)先的手機運營商,他們采用大數(shù)據(jù)解決方案一個星期,就發(fā)現(xiàn)了原因,并使公司獲得了1億美元的高回報。
VMware是業(yè)界領(lǐng)先的云基礎(chǔ)架構(gòu)廠商,在IaaS、PaaS和SaaS領(lǐng)域都有很強的技術(shù)、產(chǎn)品和解決方案。在管理Hadoop平臺時,VMware有相對應(yīng)的產(chǎn)品,如vFabric Data Director和Serengeti。這兩項技術(shù)都能對Hadoop平臺進行有效管理,起到快速部署、一鍵式管理等功能。
VMware最近收購了一家公司Nicira,即進行線上服務(wù)分析的云服務(wù)公司。它可以使大量的數(shù)據(jù),無論是預(yù)置數(shù)據(jù),還是其他應(yīng)用數(shù)據(jù),都能輕松上傳到它的服務(wù)中去,進行快速分析,并以圖表進行展示結(jié)果。無論是大公司還是小公司,抑或某個部門,都很容易應(yīng)用大數(shù)據(jù)技術(shù)。VMware致力于為高速跑車建造高速公路,讓大數(shù)據(jù)和云進行有效結(jié)合。
虛擬化提高Hadoop的安全性、靈活性和易管理性
Hadoop是Apache基金會發(fā)起和研發(fā)的,是目前業(yè)界公認(rèn)的開放平臺之一。授權(quán)公司可以發(fā)布自己相應(yīng)的Hadoop版本。以Hadoop為代表的分布式系統(tǒng),是大數(shù)據(jù)系統(tǒng)必要但不充分的組成部分。必要性是因為現(xiàn)在的大數(shù)據(jù)中很多數(shù)據(jù)是機器產(chǎn)生的數(shù)據(jù),或者是物聯(lián)網(wǎng)各種各樣的探測器、電腦產(chǎn)生的日志,這些是人為產(chǎn)生的,而且數(shù)量巨大,不適合把它直接放到數(shù)據(jù)庫中去。而Hadoop就提供了全新的方式,可以輕松進行平面擴展,把這些數(shù)據(jù)放在庫里進行任意的數(shù)據(jù)分析。Hadoop成功的建立了這個環(huán)境,使得圍繞Hadoop的軟件能夠提供各種各樣的功能,完成智能分析工作。
說它是不充分的理由是因為我們需要對數(shù)據(jù)進行分析,客戶可以把數(shù)據(jù)放池子里,Hadoop則把這些數(shù)據(jù)分成幾百個、幾千個節(jié)點,這是在特定的某些應(yīng)用場景必須進行的部分。但是更多的應(yīng)用場景是需要實時的反應(yīng),互動的反應(yīng),這時候就需要其他技術(shù),包括內(nèi)存類檢索技術(shù),甚至在數(shù)據(jù)產(chǎn)生時要進行實時反應(yīng)的技術(shù)。這些技術(shù)都結(jié)合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。所以VMware及其合作伙伴一直在實時反應(yīng)、互動和內(nèi)容檢索等方面不斷努力。
VMware的戰(zhàn)略方向是和業(yè)界領(lǐng)先的不同版本都進行合作,以開放的態(tài)度建立一個生態(tài)圈,支持所有版本的Hadoop都能在VMware的虛擬化平臺上運行。在這個指導(dǎo)方向下,VMware做了如下幾方面的工作。一方面是和社區(qū)緊密合作,VMware開發(fā)者和和社區(qū)的開發(fā)者一起,輸入Apache源代碼庫。Hadoop在它產(chǎn)生的時候,并沒有考慮到虛擬環(huán)境,它是一個物理環(huán)境的技術(shù),比如機器和機架的物理概念,但沒有虛擬機的概念,VMware加進去的代碼就加進了虛擬機的概念,虛擬機的概念和其他概念有一些不一樣,需要特殊處理,在源代碼里就知道它在虛擬環(huán)境中運行,進行優(yōu)化。通過VMware的努力,使得現(xiàn)在的Hadoop開源技術(shù),能夠在虛擬化環(huán)境里運行。能夠讓它十分鐘甚至更短的時間之內(nèi),從無到有,產(chǎn)生新集群。VMware的目標(biāo)就是為超級跑車創(chuàng)造一條寬敞大道,使得大數(shù)據(jù)跑車能夠快速跑起來。
另外, VMware虛擬化對Hadoop的作用,就是使它更接地氣,并從現(xiàn)實角度適用于云計算環(huán)境,使它更易于管理并且安全。
第一、讓Hadoop適用于多租戶環(huán)境,很多時候公司里需要Hadoop或者大數(shù)據(jù)系統(tǒng),往往不只是一個部門,不同部門在私有云里有可能都需要自己的Hadoop集群。在公有云上就有更多類似的需求,虛擬化就提供了一個很好的架構(gòu),可以使得多個集群之間非常靈活的同時運行,不互相影響。
第二、提高Hadoop的安全性。現(xiàn)在業(yè)界的基本方案都是在一個Hadoop平臺上運行,信息保護非常不安全,相互能看到各自的數(shù)據(jù)。VMware的虛擬化在不同集群之間產(chǎn)生強隔離。
第三、提高Hadoop的可伸縮性。因為Hadoop集群,物理環(huán)境一旦產(chǎn)生了,要加節(jié)點,尤其是減節(jié)點是很不容易的。Hadoop需要觀察每個部門,或隨著時間推移上下的波動的需求。在虛擬化情況里,就會使得它很容易進行這樣伸縮加減節(jié)點。
最后一點是增加CPU的利用率。 根據(jù)Hadoop社區(qū)的普遍反應(yīng),4萬個節(jié)點集群,平均CPU利用率只有20-30%,虛擬化則大大提高了這種利用率。
軟件主導(dǎo)的數(shù)據(jù)中心 開放才是硬道理
VMware對數(shù)據(jù)中心架構(gòu)有深遠(yuǎn)的影響。近年來整個數(shù)據(jù)中心從一個硬件主導(dǎo)逐漸往一個軟件主導(dǎo)的世界轉(zhuǎn)變。數(shù)據(jù)中心以往大都以計算為主導(dǎo)的,而現(xiàn)在越來越多的應(yīng)用是以數(shù)據(jù)為主導(dǎo)。 VMware提供統(tǒng)一的基礎(chǔ)架構(gòu),希望既能夠滿足以計算為主導(dǎo)的應(yīng)用,也能滿足以數(shù)據(jù)為主導(dǎo)的應(yīng)用。
開放是VMware的精髓,在數(shù)據(jù)管理的發(fā)展道路上也印證了分久必合、合久必分的趨勢。在四十年前數(shù)據(jù)管理是群雄混戰(zhàn)的年代,有很多數(shù)據(jù)公司有他們一統(tǒng)江山的解決方案;現(xiàn)在的大數(shù)據(jù)則是顛覆性的、百家齊放的年代,一家獨大的技術(shù)已經(jīng)不能滿足所有數(shù)據(jù)需求了。在這樣的時候, VMware希望提供好的土壤,通過比較靈活的基礎(chǔ)架構(gòu),使得客戶非常容易,并以非常低的門檻即可嘗試各種各樣新的技術(shù),不用很大的投入即可嘗試Hadoop。
VMware大中華區(qū)總裁宋家瑜說:“云時代廠商沒法固步自封,是完全市場為導(dǎo)向的時代。市場告訴我們,客戶有各式各樣的過去、現(xiàn)在和未來的選擇。我們堅持去了解客戶的需求,采用開放態(tài)度與廠商來合作。我們常??吹揭粋€成功廠商的成功的過去,但這種成功也常常成了包袱,VMware非常清楚這一點并時刻保持開放的態(tài)度和策略,這是也是我們?yōu)槭裁匆恢北3謩?chuàng)新并領(lǐng)跑于市場的秘訣所在。”
大數(shù)據(jù) 中國心
隨著云計算和大數(shù)據(jù)策略在中國的展開,VMware的研發(fā)事業(yè)在中國也大有進展。繼去年北京研發(fā)團隊擴張以來,在今年9月份,上海研發(fā)也宣布進行擴容并增加研發(fā)投入。整體的發(fā)展表明VMware公司對中國研發(fā)團隊卓越創(chuàng)新能力的信心和肯定,以及公司對進一步發(fā)展和支持中國云計算市場的決心。
中國團隊也不負(fù)眾望,在很多項目里都有杰出的表現(xiàn)。VMware 全球高級副總裁范承工說:“我們非常高興看到中國研發(fā)團隊在參與全球主流技術(shù)的研發(fā)過程中取得了優(yōu)秀的成績。Hadoop相關(guān)技術(shù)是在中國誕生的,第一個工程師在中國自主研發(fā)Hadoop技術(shù),得到了總部的認(rèn)可,然后才把這個項目做大。目前該項目工程師有一半在中國。這樣領(lǐng)先的技術(shù),是由中國研發(fā)隊伍來領(lǐng)導(dǎo)的。”