近 10 年來(lái),政府和企業(yè)在世界范圍內(nèi)收集了大量互聯(lián)網(wǎng)用戶(hù)的數(shù)據(jù),不僅僅是姓名和數(shù)字,而是一連串?dāng)?shù)據(jù)---大數(shù)據(jù)。國(guó)際數(shù)據(jù)公司(International Data Corporation) 最近預(yù)測(cè)大數(shù)據(jù)行業(yè)復(fù)合年增長(zhǎng)率將達(dá)到 26.4%,在 2018 年達(dá)到 415 億美元。這意味著越來(lái)越多的企業(yè)和組織將花費(fèi)巨資研究分析大數(shù)據(jù)并獲得有價(jià)值的信息。負(fù)責(zé)美國(guó)宇航局在加州帕薩迪納市的噴氣推進(jìn)實(shí)驗(yàn)室大數(shù)據(jù)的 Chris Mattmann 表示,NASA 總共管理著幾百 PB 容量的數(shù)據(jù),幾乎達(dá)到 1EB。
1 EB(Exabyte,艾可薩字節(jié)或艾字節(jié)) 是多少容量?這意味著 10 億 GB,像這樣:1000000000 GB。
這些巨大的數(shù)據(jù)擴(kuò)散的速度如此之快以至于傳統(tǒng)的數(shù)據(jù)技術(shù)跟不上它們的節(jié)奏。TNS 市場(chǎng)研究公司 (Taylor Nelson Sofres)亞太地區(qū)首席執(zhí)行官 Chris Riquier 告訴我大數(shù)據(jù)對(duì)市場(chǎng)研究有非常大的影響。Riquier 表示,市場(chǎng)研究是建立在調(diào)研和問(wèn)卷調(diào)查之上的。他講道,在過(guò)去,調(diào)研的過(guò)程或花費(fèi)數(shù)周的時(shí)間,最終用呈現(xiàn)的數(shù)據(jù)來(lái)分析企業(yè)規(guī)模和相關(guān)信息,通過(guò)整合社交媒體數(shù)據(jù)、搜索數(shù)據(jù)以及其他形式的大數(shù)據(jù)來(lái)做成報(bào)告,而現(xiàn)在我們有機(jī)會(huì)來(lái)「重新思考研究是如何完成的。」Riquier 表示,由于大數(shù)據(jù),我們對(duì)「市場(chǎng)和決策力的反應(yīng)已經(jīng)發(fā)生了很大的變化。」
在今天的數(shù)字世界里,大數(shù)據(jù)通過(guò)跨行業(yè)、政府、科學(xué)、公共健康和學(xué)術(shù)界來(lái)發(fā)現(xiàn)相關(guān)性。在過(guò)去,從信息里的海洋里獲得有用的數(shù)據(jù)信息對(duì)大多數(shù)人來(lái)說(shuō)一直是可望而不可即的事情。直到去年,哈佛雜志在 2014 年刊登的一篇文章,標(biāo)題為「為什么大數(shù)據(jù)是一樁大買(mǎi)賣(mài)?」(Why「Big Data」is a Big Deal),文中表示通過(guò)改進(jìn)的統(tǒng)計(jì)和計(jì)算方法, 包括關(guān)聯(lián)數(shù)據(jù)集、可視化數(shù)據(jù)以及創(chuàng)建「大算法」等這些關(guān)鍵的創(chuàng)新,能使我們快速處理這些數(shù)據(jù)并為我們所用。從物理學(xué)家到文天學(xué)家,他們長(zhǎng)期與大數(shù)據(jù)打交道,數(shù)據(jù)科學(xué)家和社會(huì)學(xué)家通過(guò)結(jié)合定量與定性的方法來(lái)從大數(shù)據(jù)中獲得有用的信息。實(shí)際上,大數(shù)據(jù)正在創(chuàng)造一個(gè)新領(lǐng)域,哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院為此開(kāi)設(shè)數(shù)據(jù)科學(xué)碩士學(xué)位。
在《大數(shù)據(jù)-一場(chǎng)改變我們生活、工作和思考的革命》一書(shū)中,Viktor Mayer-Schonberger 和 Kenneth Cukier 談到企業(yè)是如何改變方式來(lái)做出決策---基于對(duì)大數(shù)據(jù)的分析。例如,谷歌通過(guò)其收集的大數(shù)據(jù)來(lái)預(yù)測(cè)預(yù)測(cè)禽流感的散布,其反應(yīng)速度比美國(guó)疾病控制中心還要迅速。
據(jù)華爾街日?qǐng)?bào)最近的一篇文章,加拿大銀行使用由開(kāi)源軟件開(kāi)發(fā)商 Apache 開(kāi)發(fā)的 Hadoop 來(lái)儲(chǔ)存和處理大數(shù)據(jù),并能識(shí)別洗錢(qián)和欺詐等犯罪行為。
大數(shù)據(jù)之于普通人
哈佛、NASA、谷歌和 Apache 利用大數(shù)據(jù)的分析能力在世界范圍內(nèi)帶來(lái)先進(jìn)的技術(shù),但就像我之前提到的,這并不意味著科學(xué)家們能很快從大數(shù)據(jù)中受益。讓我們來(lái)看一看一些企業(yè)和公司在收集和管理大數(shù)據(jù)的幾個(gè)方面。
其中大數(shù)據(jù)最主要的一個(gè)用途就是在市場(chǎng)中的搜索引擎優(yōu)化(SEO)。公司和企業(yè)能利用搜索引擎公司如谷歌和必應(yīng)提供的工具,結(jié)合不同的社交媒體數(shù)據(jù),收集有用的信息來(lái)進(jìn)行網(wǎng)絡(luò)營(yíng)銷(xiāo)。咨詢(xún)公司 Hall Analysis 的研究員 Joe Hall 主要研究搜索引擎優(yōu)化和大數(shù)據(jù),他表示有兩種方法能使用大數(shù)據(jù)來(lái)處理搜索引擎優(yōu)化。
他說(shuō):「第一種是處理與大數(shù)據(jù)集有關(guān)聯(lián)的業(yè)務(wù)。在大多數(shù)情況下這意昧著大品牌和大企業(yè)能獲得非常多的數(shù)據(jù)。」Hall 引用一個(gè)例子,一個(gè)客戶(hù)有 1600 萬(wàn)個(gè)反向鏈接,或者從其他網(wǎng)站鏈接指向客戶(hù)的網(wǎng)站。這些鏈接對(duì)谷歌和其他搜索引擎來(lái)說(shuō)是一個(gè)非常重要的排名因素。他解釋說(shuō),數(shù)據(jù)集的大小需要像模式分析那樣有強(qiáng)大的處理各種任務(wù)的能力,并在這種水準(zhǔn)下為反向鏈接分析改變規(guī)則。
Hall 表示,第二種方法是公司能利用大數(shù)據(jù)使搜索引擎優(yōu)化變得更具態(tài)勢(shì)感知能力。這表明使用相關(guān)性研究能更好了解排名因素以及用戶(hù)點(diǎn)擊率、排名結(jié)果頁(yè)面等用戶(hù)行為分析。這兩種分析類(lèi)型都需要大數(shù)據(jù)分析來(lái)達(dá)到最終的目的,并能有效幫助 SEO 專(zhuān)家開(kāi)闊一個(gè)「更大的局面」。
另一方面是大數(shù)據(jù)在商業(yè)活動(dòng)中能獲得用戶(hù)的忠誠(chéng)度。舉個(gè)例子,比如我是一個(gè)創(chuàng)業(yè)公司的創(chuàng)始人,在我成功運(yùn)作公司的第一年后,公司業(yè)績(jī)蒸蒸日上,于是我給自己放個(gè)大假,去夏威夷度假。但在機(jī)場(chǎng)安檢的時(shí)候,檢票員告知我由于我的箱子超重,我需要付額外的費(fèi)用。但是檢票員可能不知道,作為一個(gè)成功創(chuàng)業(yè)公司的創(chuàng)始人和 CEO,我和我的員工將會(huì)在全世界各大城市奔波,為航空公司貢獻(xiàn)更多的里程。如果航空公司使用大數(shù)據(jù)整合來(lái)自信用卡公司、社交媒體源、博客、酒店等相關(guān)信息,他們會(huì)可能取消這樣的額外收費(fèi)還能獲得一個(gè)忠誠(chéng)的客戶(hù)。
無(wú)論是大公司的 CEO 或是研究癌癥的醫(yī)生,或是一個(gè)淘寶店老板,使用大數(shù)據(jù)分析都將會(huì)為他們帶來(lái)有價(jià)值的信息。如今,在日常工作中我們可以利用大數(shù)據(jù)來(lái)獲得有價(jià)值的信息。當(dāng)我們進(jìn)入到這樣一個(gè)時(shí)代:基于大數(shù)據(jù)分析來(lái)作出決策,這將不可避免地改變我們思考世界的方式。
今天這一代人出生在數(shù)字化時(shí)代。而下一代人將進(jìn)入大數(shù)據(jù)時(shí)代。