“大數據”是當今信息時代一個非常熱的概念,但對普通人來講又覺得云里霧里,實際上,大數據就發生在你我身邊,雖然你看不到它,但它卻時時影響著我們的生活。
可能你不了解“大數據”,但很有可能聽說過這么一個故事:美國的Target百貨公司上線了一套客戶分析工具,可以對顧客的購買記錄進行分析,并向顧客進行產品推薦。一次他們根據一個女孩在Target連鎖店中的購物記錄,推斷出這個女孩懷孕了,然后開始通過購物手冊的形式向女孩推薦了一系列孕婦產品。這一做法讓女孩的家長勃然大怒,事實真相是女孩隱瞞了自己的懷孕消息。
從一個人雜亂無章的購買清單中,經過對比發現了其中的規律和不符合常規的數據,并就此得出一些真實的結論,這就是大數據應用的一個案例。
全球零售業的巨頭沃爾瑪也通過大數據獲益,公司在對消費者購物行為進行分析時發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是推出了將啤酒和尿布捆綁銷售的促銷手段,如今這一“啤酒+尿布”的數據分析成果也成了大數據技術應用的經典案例。
大數據分析技術在電影行業同樣獲得了有效應用,隨著互聯網的發展,人們越來越習慣于在網上搜索電影信息,谷歌發現,電影相關的搜索量與票房收入之間存在很強的關聯。于是不久前谷歌公布了一項重要研究成果電影票房預測模型。該模型能夠提前一個月預測電影上映首周的票房收入,準確度高達94%。這在業內引起強烈討論,不少業內人士認為可借此來預測票房并及時調整電影營銷戰略。
當消費者在亞馬遜等網站上有過瀏覽網頁或購物經歷后,會發現頁面上經常出現一些商品推送信息,原來這是電商針對每個消費者量身定做的商品推薦,他們能從消費習慣的記錄里推斷出最為精準的商品信息并及時推薦給客戶。
在當今時代,大數據越來越成為一種商業資本,微軟必應搜索通過集成以往的飛機票價畫出未來票價走勢;谷歌利用用戶搜索記錄判斷出美國流感疫情的現狀,并比疾控中心快一兩周;對沖基金通過剖析社交網絡推特的數據信息來預測股市的表現……大數據掀起的風暴已席卷到各個角落,一個有趣的案例被津津樂道:微軟公司通過大數據分析處理,對新一屆奧斯卡金像獎作出“預言”,結果除“最佳導演”外,其余13項大獎全部命中。
人口普查是大數據鼻祖
“大數據其實早就出現了!”在中國科協近日舉辦的“科學家與媒體面對面”活動上,工業和信息化部電信研究院互聯網中心主任何寶宏介紹起了大數據的前世,幾乎每個朝代都要做的人口普查就是一個海量的數據,如何處理這些數據一直是考驗統治者智慧的問題。國外也面臨同樣的情況,美國憲法規定,美國的人口普查要求十年做一次,1880年人口普查的數據用了8年才處理完,1890年馬上就來了,預計這次的數據處理大概需要13年的時間。那下一次人口普查根本沒法進行了,這時有人發明了穿孔卡片制表機,使得這次人口普查只用了一年時間,因此可以說,正是人口普查帶來的大數據催生了現代信息產業的誕生。
看完“前世”再看“今生”,何寶宏表示,當今WEB2.0、微博、微信時代隨時隨地都可能產生海量數據,甚至人的關系都可以用數據來表示,即使是對普通百姓,數據的重要性也日益凸顯,以前若丟了電腦、手機會非常心疼,現在更關心的是里面的數據,硬盤、通訊錄丟失了才是更大的損失,數據的重要性已超過了技術和產品。
家庭一年數據=半個國家圖書館
大數據時代下,每個人都是數據的貢獻者,中國聯通網絡技術研究院首席專家唐雄燕表示,利用互聯網搜索信息,用微信、QQ維護社交關系,上購物網站買商品,這些行為都產生大量數據,一個普通家庭產生的數據量也非常驚人,預計2020年一個中國的普通家庭一年產生的數據相當于半個國家圖書館的信息儲量。從全球矚目的美國斯諾登事件中,人們知道美國國防安全機關每天搜集到的手機位置信息就有近50億條。
目前的中國誰掌握著大數據資源?唐雄燕表示,一個人的通話記錄、上網記錄會留在三個電信運營商那里;一個人的身份、家庭房產信息會通過刷信用卡而被銀行知曉;人們去了哪里,現在哪里又會通過手機定位系統而泄露,因此互聯網企業掌握有大數據,美國的三大大數據公司:谷歌、Facebook、亞馬遜,中國的三大互聯網企業:百度、騰訊、阿里,他們是目前大數據的主導擁有者和使用者,此外電信運營商也擁有大量的數據,而金融機構、政府也有相應的數據。通過這些數據都勾勒出一個人的基本面貌。“20年前我們剛做互聯網時有一句話,在互聯網上沒有人知道你是一條狗,但今天你是不是一條狗,網絡比你更清楚。”
電信運營商
掌握大數據
身為中國聯通的網絡專家,唐雄燕透露,目前聯通的移動用戶不到3億人,每個人每個月貢獻幾千條的上網記錄,每月就超過2萬億條,為什么會有這么多,一個人每次瀏覽的網頁會產生幾十條甚至上百條記錄,過去沒能利用這些數據,但現在建立了一個系統,能對上網記錄進行相應存儲,“你如果是聯通用戶,你的手機可以自動查詢上網的記錄詳單,過去是無法提供的,而現在可以查詢你到底上了哪些網站,我們都有記錄,你也自己可以查詢,這就是一個非常典型的大數據應用實例。”
不過在唐雄燕看來,大數據的利用目前還處于非常初步的階段。以電信運營商掌握的大數據資源來看,一個城市到底多少人,有可能政府搞不清楚,但是可能通過運營商來看有多少手機在使用,就可以大致算出這個城市的人口,再詳細分析這些人口的地理位置、出行規律等內容,就可以在提供有針對性的商業化服務、更科學地規劃城市交通等方面有所作為,而目前這些還遠遠做不到。
全人類信息量
百度掌握近1%
畢業于清華大學計算機科學與技術學院的率鵬雖然很年輕,但已是百度公司發展研究中心負責人,他非常認可“大數據時代已經到來”這一判斷,“在過去兩年中,全球產生的信息占到人類整體掌握信息總量的90%,現在每天全球產生的數據相當于國家圖書館整個館藏總量的1500倍,這也是為什么一夜之間大數據的概念興起的原因。”
作為中國最著名的互聯網企業之一,百度現在擁有什么樣的大數據資源?率鵬透露,百度的大數據體量在EB級別,EB下面是PB,1個EB是1000個PB,PB下面是TB,也就是1個PB是1000個TB,“如果你家里的電腦里面安裝有一個TB的硬盤,那么百度現在掌握的數據大概是這塊硬盤裝滿后容量的10倍。我換另外一個說法,整個人類社會現在掌握的整體的信息量大概在100個EB到1000個EB之間,就是百度現在掌握的信息量大約是全人類掌握信息量的不足百分之一,但高于千分之一的水平。”
率鵬介紹,百度公司吸納了世界上最頂尖的學者做數據智能研究,研究成果已應用于多款產品,如百度上線了一款能翻譯24種語言的翻譯工具,這24種語言中有12種是整個百度翻譯團隊中沒有人懂得的,但大數據技術使開發團隊在完全不了解、不懂得、不能夠理解這種語言的情況下,僅僅靠技術本身就開發出一款非常好的翻譯工具,這在以往的時代是難以想象的。
大數據還能實現對社會熱點的實時監控與預警,率鵬介紹,比如可以提前預測到華山會成為十一黃金周的旅游熱點,一些公共和群體聚集性事件,在百度上可以第一時間發現,百度還利用大數據技術對國內的艾滋病流行趨勢進行預測,預測結果是比較準確的。