移動互聯(lián)時代,數(shù)以百億計的機器、企業(yè)、個人隨時隨地都會獲取和產(chǎn)生新的數(shù)據(jù)
即便是在“摩爾定律”――每18個月芯片性能將提高1倍――的支撐下,硬件性能進(jìn)化的速度也早已趕不上數(shù)據(jù)增長的速度,并且差距越來越巨大。
1分鐘之內(nèi),新浪微博發(fā)送數(shù)萬條微博,蘋果應(yīng)用商店下載次數(shù)以萬計,淘寶賣出了幾萬件商品,百度產(chǎn)生了百萬次搜索查詢……所有這些行為都由海量的數(shù)據(jù)來呈現(xiàn)。
在去年12月12日電商的促銷期,淘寶網(wǎng)推出“時光機”――一個根據(jù)淘寶買家?guī)啄陙淼馁徺I商品記錄、瀏覽點擊次數(shù)、收貨地址等數(shù)據(jù)編輯制作的“個人網(wǎng)購志”,從而記錄和勾勒出讓人感懷的生活記憶。背后,是基于對4.7億淘寶注冊用戶網(wǎng)購數(shù)據(jù)的分析處理,這正是大數(shù)據(jù)的典型應(yīng)用。
隨著傳統(tǒng)互聯(lián)網(wǎng)向移動互聯(lián)發(fā)展,全球范圍內(nèi),除了個人電腦、平板電腦、智能手機、游戲主機等常見的計算終端之外,更廣闊的、泛在互連的智能設(shè)備,比如智能汽車、智能電視、工業(yè)設(shè)備和手持設(shè)備等都連接到網(wǎng)絡(luò)之中。基于社會化網(wǎng)絡(luò)的平臺和應(yīng)用,讓數(shù)以百億計的機器、企業(yè)、個人隨時隨地都會獲取和產(chǎn)生新的數(shù)據(jù)。
互聯(lián)網(wǎng)搜索引擎是大數(shù)據(jù)最為典型的應(yīng)用之一。百度日處理數(shù)據(jù)量達(dá)到數(shù)十PB,并呈現(xiàn)高速增長的態(tài)勢。如果一張光盤容量為1GB,這相當(dāng)于壘在一起的幾千萬張光盤。微軟Bing(在中國為必應(yīng))搜索引擎,一周需要響應(yīng)100億次量級的搜索請求。通過和Facebook的合作,每天有超過10億次的社交網(wǎng)絡(luò)搜索請求通過Bing來處理。
短短的18個月,中國移動互聯(lián)網(wǎng)流量增加了10倍。中國工程院院士鄔賀銓說,隨著社交網(wǎng)絡(luò)的逐漸成熟、移動帶寬迅速提升,更多的傳感設(shè)備、移動終端接入網(wǎng)絡(luò),產(chǎn)生的數(shù)據(jù)及其增長速度比歷史上任何時期都要多,互聯(lián)網(wǎng)上的數(shù)據(jù)流量正在迅猛增長。鄔賀銓認(rèn)為,在云計算、物聯(lián)網(wǎng)等技術(shù)的帶動下,中國的移動互聯(lián)網(wǎng)已經(jīng)步入“大數(shù)據(jù)”時代。
而根據(jù)市場調(diào)研公司IDC的報告,全球信息總量每過兩年就會增長一倍,2011年全球產(chǎn)生的數(shù)據(jù)總量為1.8ZB(1ZB約為百萬PB),相比2010年增長了1ZB,相當(dāng)于全球歷史數(shù)據(jù)總和。
繼云計算后,大數(shù)據(jù)(big data)成為信息技術(shù)領(lǐng)域最為熱門的概念之一。
大數(shù)據(jù)有四個特征,最重要的是獲得洞察力和價值
在IT業(yè)界,有人把大數(shù)據(jù)產(chǎn)業(yè)定義為:“建立在對互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等渠道廣泛大量數(shù)據(jù)資源收集基礎(chǔ)上的數(shù)據(jù)存儲、價值提煉、智能處理和分發(fā)的信息服務(wù)業(yè)”,或者如IT巨頭概括大數(shù)據(jù)戰(zhàn)略為:“致力于讓所有用戶能夠從幾乎任何數(shù)據(jù)中獲得可轉(zhuǎn)換為業(yè)務(wù)執(zhí)行的洞察力,包括之前隱藏在非結(jié)構(gòu)化數(shù)據(jù)中的洞察力”。
“總之是對大量、動態(tài)、能持續(xù)的數(shù)據(jù),通過運用新系統(tǒng)、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。”微軟公司全球資深副總裁、微軟亞太研發(fā)集團(tuán)主席張亞勤博士接受記者采訪時說。
雖然有多種解讀,但業(yè)界一般認(rèn)為,大數(shù)據(jù)有四個“V”字開頭的特征:Volume(容量), Variety(種類), Velocity(速度)和最重要的Value(價值)。Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。張亞勤說,IT業(yè)界所指的數(shù)據(jù),誕生不過60多年。而一直到個人電腦普及前,由于存儲、計算和分析工具的技術(shù)和成本限制,許多自然界和人類社會值得記錄的信號,并未形成數(shù)據(jù)。幾十年前,氣象、地質(zhì)、石油物探、出版業(yè)、媒體業(yè)和影視業(yè)是大量、持續(xù)產(chǎn)出信號的行業(yè),但那時90%以上采用的是存儲模擬信號,難以通過計算設(shè)備和軟件進(jìn)行直接分析。擁有大量資金和人才的政府和企業(yè),也只能把少量最關(guān)鍵的信號,進(jìn)行抽取、轉(zhuǎn)換、裝載到數(shù)據(jù)庫中。
張亞勤認(rèn)為,盡管業(yè)界對達(dá)到怎樣的數(shù)量級才算是大數(shù)據(jù)并無定論,但在很多行業(yè)的應(yīng)用場景里,數(shù)據(jù)集本身的大小并不是最重要的,是否完整才最重要。
Variety則意味著要在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián)。互聯(lián)網(wǎng)時代,各種設(shè)備通過網(wǎng)絡(luò)連成了一個整體。進(jìn)入以互動為特征的Web2.0時代,個人計算機用戶不僅可以通過網(wǎng)絡(luò)獲取信息,還成為了信息的制造者和傳播者。這個階段,不僅是數(shù)據(jù)量開始了爆炸式增長,數(shù)據(jù)種類也開始變得繁多。
“這必然促使我們對海量數(shù)據(jù)進(jìn)行分析、處理和集成,找出原本看來毫無關(guān)系的那些數(shù)據(jù)的‘關(guān)聯(lián)性’,把似乎沒有用的數(shù)據(jù)變成有用的信息,以支持我們做出的判斷。”張亞勤說。
Velocity可以理解為更快地滿足實時性需求。數(shù)據(jù)的實時化需求正越來越清晰。對普通人而言,開車去吃飯,會先用移動終端中的地圖查詢餐廳的位置,預(yù)計行車路線的擁堵情況,了解停車場信息甚至是其他用戶對餐廳的評論。吃飯時,會用手機拍攝食物的照片,編輯簡短評論發(fā)布到微博或者微信上,還可以用LBS(基于位置的服務(wù))應(yīng)用查找在同一間餐廳吃飯的人,看有沒有好友在附近……
張亞勤說,如今,通過各種有線和無線網(wǎng)絡(luò),人和人、人和各種機器、機器和機器之間產(chǎn)生無處不在的連接,這些連接不可避免地帶來數(shù)據(jù)交換。而數(shù)據(jù)交換的關(guān)鍵是降低延遲,以近乎實時――這意味著小于250毫秒――的方式呈獻(xiàn)給用戶。
“但比前面3個‘V’更重要的,就是Value,它是大數(shù)據(jù)的最終意義――獲得洞察力和價值。”張亞勤說,大數(shù)據(jù)的崛起,正是在人工智能、機器學(xué)習(xí)和數(shù)據(jù)挖掘等技術(shù)的迅速發(fā)展驅(qū)動下,呈現(xiàn)這么一個過程:將信號轉(zhuǎn)化為數(shù)據(jù),將數(shù)據(jù)分析為信息,將信息提煉為知識,以知識促成決策和行動。
百度相關(guān)專家認(rèn)為,就大數(shù)據(jù)的價值而言,就像沙子淘金,大數(shù)據(jù)規(guī)模越大,真正有價值的數(shù)據(jù)相對越少。
“所以真正好的大數(shù)據(jù)系統(tǒng),重要的不是越多越好,其實越少越好。”張亞勤說,開始數(shù)據(jù)要多,最好還是要少,把ZB、PB最終變成一個比特,也就是最后的決策。這才是最關(guān)鍵的。
云計算和大數(shù)據(jù)是一個硬幣的兩面,大數(shù)據(jù)正在引發(fā)全球范圍內(nèi)深刻的技術(shù)和商業(yè)變革
如同云計算的出現(xiàn),大數(shù)據(jù)也不是一個突然而至的新概念。
“云計算和大數(shù)據(jù)是一個硬幣的兩面,云計算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計算的一個殺手級應(yīng)用。”張亞勤說。云計算是大數(shù)據(jù)成長的驅(qū)動力,而另一方面,由于數(shù)據(jù)越來越多、越來越復(fù)雜、越來越實時,這就更加需要云計算去處理,所以二者之間是相輔相成的。
30年前,存儲1TB也就是約1000GB數(shù)據(jù)的成本大約是16億美元,如今存儲到云上只需不到100美元;但存儲下來的數(shù)據(jù),如果不以云計算進(jìn)行挖掘和分析,就只是僵死的數(shù)據(jù),沒有太大價值。
目前,云計算已經(jīng)普及并成為IT行業(yè)主流技術(shù),其實質(zhì)是在計算量越來越大、數(shù)據(jù)越來越多、越來越動態(tài)、越來越實時的需求背景下被催生出來的一種基礎(chǔ)架構(gòu)和商業(yè)模式。個人用戶將文檔、照片、視頻、游戲存檔記錄上傳至“云”中永久保存,企業(yè)客戶根據(jù)自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT資源與服務(wù),這些都已不是新鮮事。可以說,云是一棵掛滿了大數(shù)據(jù)的蘋果樹。
大數(shù)據(jù)的出現(xiàn),正在引發(fā)全球范圍內(nèi)深刻的技術(shù)與商業(yè)變革。在技術(shù)上,大數(shù)據(jù)使從數(shù)據(jù)當(dāng)中提取信息的常規(guī)方式發(fā)生了變化。“在技術(shù)領(lǐng)域,以往更多是依靠模型的方法,現(xiàn)在我們可以借用規(guī)模龐大的數(shù)據(jù),用基于統(tǒng)計的方法,有望使語音識別、機器翻譯這些技術(shù)領(lǐng)域在大數(shù)據(jù)時代取得新的進(jìn)展。”張亞勤說。
在搜索引擎和在線廣告中發(fā)揮重要作用的機器學(xué)習(xí),被認(rèn)為是大數(shù)據(jù)發(fā)揮真正價值的領(lǐng)域。在海量的數(shù)據(jù)中統(tǒng)計分析出人的行為、習(xí)慣等方式,計算機可以更好地學(xué)習(xí)模擬人類智能。隨著包括語音、視覺、手勢和多點觸控等在內(nèi)的自然用戶界面越來越普及,計算系統(tǒng)正在具備與人類相仿的感知能力,其看見、聽懂和理解人類用戶的能力不斷提高。這種計算系統(tǒng)不斷增強的感知能力,與大數(shù)據(jù)以及機器學(xué)習(xí)領(lǐng)域的進(jìn)展相結(jié)合,已使得目前的計算系統(tǒng)開始能夠理解人類用戶的意圖和語境。“這使得計算機能夠真正幫助我們,甚至代表我們?nèi)スぷ?rdquo;。
在商業(yè)模式上,張亞勤認(rèn)為,對商業(yè)競爭的參與者來說,大數(shù)據(jù)意味著激動人心的業(yè)務(wù)與服務(wù)創(chuàng)新機會。零售連鎖企業(yè)、電商業(yè)巨頭都已在大數(shù)據(jù)挖掘與營銷創(chuàng)新方面有著很多的成功案例,它們都是商業(yè)嗅覺極其敏銳、敢于投資未來的公司,也因此獲得了豐厚的回報。
IT產(chǎn)業(yè)鏈分工、主導(dǎo)權(quán)也因為大數(shù)據(jù)產(chǎn)生了巨大影響。以往,移動運營商和互聯(lián)網(wǎng)服務(wù)運營商等擁有著大量的用戶行為習(xí)慣的各種數(shù)據(jù),在IT產(chǎn)業(yè)鏈中具有舉足輕重的地位。而在大數(shù)據(jù)時代,移動運營商如果不能挖掘出數(shù)據(jù)的價值,可能徹徹底底被管道化。運營商和更懂用戶需求的第三方開發(fā)者互利共贏的模式,已取得一定共識。