幾年前,曾有人想在一家知名網(wǎng)站的百科平臺上為 “大數(shù)據(jù)”編寫詞條,但被拒絕了,這家網(wǎng)站認為這條短語沒有任何特別之處——只不過是“大”和“數(shù)據(jù)”二詞的簡單結(jié)合。時至今日,這家網(wǎng)站一定會為當年的短視感到羞愧,因為如今大數(shù)據(jù)幾乎無處不在,它正在深刻地改變著人們的生活。
的確,從字面上理解,“大數(shù)據(jù)”就是海量數(shù)據(jù)。但實際上,人們?nèi)粘K務(wù)摰?ldquo;大數(shù)據(jù)”并非數(shù)據(jù)本身,而是大數(shù)據(jù)挖掘。
單純談?wù)摂?shù)據(jù)是毫無意義的。據(jù)公開數(shù)據(jù)顯示,2013 年中國產(chǎn)生的數(shù)據(jù)總量超過0.8ZB,相當于裝滿8億個容量為1TB的移動硬盤。如果不具備大數(shù)據(jù)挖掘能力,如此海量的數(shù)據(jù)非但無法成為資源,還會占用大量存儲空間。
有人將大數(shù)據(jù)比作“原油”。大數(shù)據(jù)挖掘才是大數(shù)據(jù)的核心。它通過計算機將人腦無法記住的海量數(shù)據(jù)進行歸納、建模、分析,找到數(shù)據(jù)中的關(guān)聯(lián)關(guān)系。大數(shù)據(jù)挖掘利用的不再是抽樣的小部分數(shù)據(jù),單臺計算機已經(jīng)無法滿足存儲和處理數(shù)據(jù)的需求,需要眾多高性能計算機同時承擔數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)挖掘的工作,這便是云計算。如今,大數(shù)據(jù)挖掘必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
大數(shù)據(jù)能帶來什么?答案是預(yù)測。大數(shù)據(jù)運用特定算法分析海量數(shù)據(jù),從而得出事情發(fā)生的可能性。不過,它告訴人們的不是事物的因果關(guān)系,而是相關(guān)關(guān)系。換句話說,大數(shù)據(jù)能解決“是什么”的問題,但不會告訴人們“為什么”。這會讓人們注意到很多以前從沒有意識到的關(guān)聯(lián)關(guān)系。打個比方,大數(shù)據(jù)會告訴商家客戶喜歡什么,甚至可以精確到每一位客戶的喜好,但它不會告訴你“客戶為什么喜歡”。不過,對于商家而言,知道客戶喜歡什么已經(jīng)足夠。
大數(shù)據(jù)其實無處不在。我們刷微博時,系統(tǒng)會自動將事件聚在一起形成熱點事件的脈絡(luò);單身大齡“剩男剩女”登錄交友網(wǎng)站時,網(wǎng)站會自動彈出一些精心挑選的單身異性資料;工作之余在購書網(wǎng)上挑選書籍,推薦欄里常常會有我們感興趣的書籍,可以輕松下單購買;駕車時,智能手機會發(fā)送我們的位置信息以及車速,然后結(jié)合實時交通信息為我們提供最佳路線;大數(shù)據(jù)還能幫助我們了解自己,手腕上的一只智能手環(huán)或智能手表,實時記錄我們的心率、睡眠質(zhì)量等各項身體指標,通過后臺數(shù)據(jù)分析,可以讓我們了解自己身體的健康狀況和改進方向……
大數(shù)據(jù)改變著我們的生活,改變著人們的工作方式。想要參加競選嗎?召集一幫電腦怪才,讓他們用大數(shù)據(jù)幫你找出那些傾向投票給你的人群,然后用量身定做的競選短信吸引這些人——美國總統(tǒng)奧巴馬曾在 2012年競選時這樣做過。想要解決貧困問題?運用大數(shù)據(jù),找出失業(yè)、瘟疫等問題的早期征兆——聯(lián)合國正在這樣努力。企業(yè)可以利用大數(shù)據(jù)更準確地了解市場行情,醫(yī)院利用它提供精確的醫(yī)療服務(wù),餐飲業(yè)利用它針對不同人群制作不同菜品,高校可以利用它為學生提供量體裁衣式的就業(yè)指導,租房客可以通過它在合適的地理位置找到價格相對低廉的房子……
大數(shù)據(jù)還可以改變媒體。隨著大數(shù)據(jù)技術(shù)的不斷成熟和普及,各大媒體的內(nèi)容發(fā)布將逐漸從以新聞為核心轉(zhuǎn)向以用戶為核心。以新聞客戶端的推送為例,以往編輯根據(jù)自身經(jīng)驗確定推送內(nèi)容,但借助大數(shù)據(jù)的精確分析,客戶端能夠針對不同用戶瀏覽新聞的偏好提供個性化的精準推送。每個人的興趣點和關(guān)注點不同,收到的推送內(nèi)容也將不同。