幾年前,曾有人想在一家知名網站的百科平臺上為“大數據”編寫詞條,但被拒絕了,這家網站認為這條短語沒有任何特別之處——只不過是“大”和“數據”二詞的簡單結合。時至今日,這家網站一定會為當年的短視感到羞愧,因為如今大數據幾乎無處不在,它正在深刻地改變著人們的生活。
的確,從字面上理解,“大數據”就是海量數據。但實際上,人們日常所談論的“大數據”并非數據本身,而是大數據挖掘。
單純談論數據是毫無意義的。據公開數據顯示,2013 年中國產生的數據總量超過0.8ZB,相當于裝滿8億個容量為1TB的移動硬盤。如果不具備大數據挖掘能力,如此海量的數據非但無法成為資源,還會占用大量存儲空間。
有人將大數據比作“原油”。大數據挖掘才是大數據的核心。它通過計算機將人腦無法記住的海量數據進行歸納、建模、分析,找到數據中的關聯關系。大數據挖掘利用的不再是抽樣的小部分數據,單臺計算機已經無法滿足存儲和處理數據的需求,需要眾多高性能計算機同時承擔數據存儲、數據處理、數據挖掘的工作,這便是云計算。如今,大數據挖掘必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
大數據能帶來什么?答案是預測。大數據運用特定算法分析海量數據,從而得出事情發生的可能性。不過,它告訴人們的不是事物的因果關系,而是相關關系。換句話說,大數據能解決“是什么”的問題,但不會告訴人們“為什么”。這會讓人們注意到很多以前從沒有意識到的關聯關系。打個比方,大數據會告訴商家客戶喜歡什么,甚至可以精確到每一位客戶的喜好,但它不會告訴你“客戶為什么喜歡”。不過,對于商家而言,知道客戶喜歡什么已經足夠。
大數據其實無處不在。我們刷微博時,系統會自動將事件聚在一起形成熱點事件的脈絡;單身大齡“剩男剩女”登錄交友網站時,網站會自動彈出一些精心挑選的單身異性資料;工作之余在購書網上挑選書籍,推薦欄里常常會有我們感興趣的書籍,可以輕松下單購買;駕車時,智能手機會發送我們的位置信息以及車速,然后結合實時交通信息為我們提供最佳路線;大數據還能幫助我們了解自己,手腕上的一只智能手環或智能手表,實時記錄我們的心率、睡眠質量等各項身體指標,通過后臺數據分析,可以讓我們了解自己身體的健康狀況和改進方向……
大數據改變著我們的生活,改變著人們的工作方式。想要參加競選嗎?召集一幫電腦怪才,讓他們用大數據幫你找出那些傾向投票給你的人群,然后用量身定做的競選短信吸引這些人——美國總統奧巴馬曾在2012年競選時這樣做過。想要解決貧困問題?運用大數據,找出失業、瘟疫等問題的早期征兆——聯合國正在這樣努力。企業可以利用大數據更準確地了解市場行情,醫院利用它提供精確的醫療服務,餐飲業利用它針對不同人群制作不同菜品,高校可以利用它為學生提供量體裁衣式的就業指導,租房客可以通過它在合適的地理位置找到價格相對低廉的房子……
大數據還可以改變媒體。隨著大數據技術的不斷成熟和普及,各大媒體的內容發布將逐漸從以新聞為核心轉向以用戶為核心。以新聞客戶端的推送為例,以往編輯根據自身經驗確定推送內容,但借助大數據的精確分析,客戶端能夠針對不同用戶瀏覽新聞的偏好提供個性化的精準推送。每個人的興趣點和關注點不同,收到的推送內容也將不同。