作為一個生活平淡的人,你是否設想過在完成了某一天的無聊工作后,會在自家的廚房里聽到警察的敲門聲,然后被告知你可能跟一周后即將發生的一起兇殺案件相關?
在湯姆·克魯斯主演的電影《少數派報告》(MinorityReport)中,神秘的“先知”計算機系統能夠預知犯罪活動,甚至可以精確到時間、地點及卷入其中的人物,讓警方能夠提前行動加以阻止。
而在現實中,這并非小說家的憑空想象。美國洛杉磯因警員比例過低,一直是全美犯罪率最高的地區之一。2012年,該警察局開始進行了一項嘗試,由加州大學人類學與數學系聯合組成的一個實驗室,為該局提供了一套類似“先知”的計算器系統。這套系統把洛杉磯市發案最高的福德希爾地區劃分為幾個區域,通過分析過去的1300多萬起案件,找到了發案與日期、天氣、交通狀況以及其他相關事件之間的某種關系,進而能夠預測出哪個區域在未來數小時內可能發生案件。
現在,洛杉磯警察局有一組專門的警員每天會駕駛著警車按照計算器發出的巡邏指令前往不同的區域。盡管這些熟練的經驗豐富的警員仍然不適應被一堆二進制的代碼所指揮,但是在不增加警員的前提下,“先知”已經使該地區財產犯罪下降了12%,盜竊案件下降了26%。
美國的另外一所大學——麻省理工學院正在進行另外一項研究,他們與當地一家婦女醫院合作,把該醫院所有心臟病患者的病例和心電圖錄入計算機,從而創建了一個計算器程序。當有病人來這里看病時,這個程序可利用心臟病患者的心電圖,預測在未來一年內患者心臟病發作的機率。美國咨詢界的翹楚麥肯錫咨詢公司將這些現象總結為一個概念——大數據(BigData),并預言這項技術將成為人類未來生產力的指向標。隨后,英國牛津大學教授維克托·邁爾-舍恩伯(ViktorMayer-Schonberger)的著作《大數據時代》在全球暢銷,讓大數據這個概念開始深入人心。
“很難準確地描述什么是大數據。”維克托教授說:“它應該是一種思維方式,這也是一個新的改變,從因果性到相關性的轉變,也就是不問原因,而是直接由數據得出結果。”
他說,在過去我們問的更多的是“為什么”,對人類來說,這其實是一個很大的挑戰。比如心臟病發作這項研究,盡管醫學界已經研究了幾十年,但是仍然很難找出發病的具體因果關系,但是現在,只需要建立一個足夠大的心電圖數據庫,并且找到數據與心臟病發作的對應關系,就可以作出準確的預測。
“搜集和分析數據,從表面上看,這就是大數據的開發者們正在做的工作,這并不是什么新的技術。”北京締元信公司CEO秦雯說:“但是互聯網的發展使我們在過去的數年內制造的數據超過了人類歷史上的數據總量,更重要的是,隨著全息攝影技術、傳感技術以及谷歌眼鏡這樣的新技術的誕生,我們收集數據的能力變得前所未有地強大,數據的爆炸性增長為更全面和精確的分析工作提供了可能性,這正是這個時代的價值。”
整合無序的資源
6300多年以前,古埃及人通過太陽升起和下落之間的時間規律制做了太陽歷,預測太陽在某一天何時會升起,將單向前進的時間劃分為365天為一個周期。2200多年以前,中國人通過觀察候鳥遷徙和植物發芽制作了二十四節氣,大致預測了一年之中的天氣變化情況,讓農業的播種和收割時間變得有規律可循。
北京締元信數據公司CEO秦雯認為,從廣義上看,這些都是根據過去的數據進行的預測,但是與現在大數據的含義相比,這些預測顯得過于廣泛,而且規律更容易掌握。現在的大數據更多的是分析由人類行為所構成的現象,比如華爾街的股票走勢、洛杉磯的犯罪發生情況、淘寶網上即將熱銷的商品,而在過去這些都是不可預測的。
1966年,美國交通事故死亡人數高達5萬人,達到了歷史的峰值。美國國會要求聯邦政府立即建立一套有效的交通事故記錄系統,分析確定交通事故及其造成死亡的原因,以期望找到最能夠避免事故的交通規劃方式。
這在當時看起來僅僅是一種前途未知的嘗試,因為一起交通事故的數據可能是完全獨立且無序的,一年的數據、一個地區的數據也看不出太多章法。然而隨著跨年度、跨地區的數據越來越多,群體的行為特點就會在數據上呈現一種“秩序、關聯、穩定”,更多規律就會浮出水面。現在,美國的汽車保有量是中國的3倍,而交通事故死亡人數僅僅是中國的一半。
這種做法最符合現在的大數據含義,而且也是人類最早在大數據方面獲得的甜頭。
英特爾中國研究院首席工程師吳甘沙說,大數據并不僅僅是大量的數據,而是在看似無序和不關聯的數據之間找到某種關聯,發掘這些形態各異、快慢不一的數據流之間的相關性,是大數據做前人之未做、前人所不能的機會,也正是大數據最主要的特點。
“比如,你如果知道人們在晨洗之后多長時間會走出家門,再從供水系統的數據中找到用水的高峰時間,就能準確地預測到今天早晨哪個區域哪個時間路上的交通最擁擠,同樣可以從電網數據中統計出傍晚辦公樓集中關燈的時間,加上偏移量來估計出堵車時點。”他說。
“數”中自有黃金屋
締元信是一家網絡監測公司,其主要業務是為互聯網站的站長提供訪問量統計報告。自2008年開始,他們致力于開發一套數據分析系統,希望通過關鍵詞設置分析人們在互聯網上瀏覽的內容,以獲知他們的審美取向和使用偏好,進而知道他們正在成為哪種商品的潛在購買者。
“這項工作并不像它看起來那樣容易。”秦雯說,“因為你并非要刻意地監視某一個人,全中國有5億多網民,每天他們要在網頁上點擊上百億次鼠標,每一次鼠目標點擊對你的監測服務器來說都是一樣的,它并不知道這是坐在高檔寫字樓里的公司白領還是書房里的中學生操作了這一次點擊。”
這項服務現在正變得炙手可熱,無論是在淘寶、京東還是亞馬遜,你都會在打開網頁的的同時,看到那些你似乎很需要的廣告,而并非過去那樣毫無指向的信息。
“盡管如此,無論是締元信還是淘寶或者美國的亞馬遜,現在對于大數據的開發都非常初級,大數據的開發遠遠不是為了做廣告。”秦雯說:“大數據是人類剛剛獲得的一個富礦,而我們目前只開發了它表面的一小層。”
的確有更多的人在利用這一思路淘金。保羅?霍廷是英國的一名80后外匯交易員,他從三位信息學教授那里獲得靈感,認為Twitter上每天兩億多條信息能直接反映人們的情緒,而這種情緒將是宏觀經濟走向的晴雨表。
霍廷依據分析結果決定如何處理手中數以百萬美元計的股票。原則很簡單:如果所有人似乎都高興,買入;如果大家的焦慮情緒上升,拋售。隨后他推出了一款利用Twitter關鍵詞檢索來預測公眾情緒進而判斷股票走勢的對沖基金DerwentCapital,并大膽承諾,公司推出的交易策略可以獲得的年回報率高達15~20%。結果表明,人們在網上的情緒變化會在2~6天后影響到指數的變化,霍廷的公司今年第一季度獲得7%的收益率。
在國家層面,2012年,尚在經濟危機陰影下的英國政府就撥款10萬英鎊,并邀請英國股市排名前100的大企業共同出資,建立一個國家級的公開數據研究組織。英國內閣部長弗朗西斯?莫德證實說,其實英國政府早有意帶頭建立“英國數據銀行”,政府想算清楚究竟這個國家或政府創造了什么。他表示,英國不只是要成為世界首個完全公布政府數據的國家,英國還應該成為一個國際榜樣,去探索那些公開數據在商業創新和刺激經濟增長方面的潛力。
被忽視的個人價值
數據的產生變得更加個人化,無論是亞馬遜、谷歌還是那些尚隱藏在大學里的實驗室,他們研究的數據組都是由個人創造的。每當我們打電話、發短信,在互聯網上使用搜索工具或者旅行、購物,這些行為都在為這個世界提供著新的數據。這些內容使得這個世界上的數據正在以每天250萬TB的速度增加。
互聯網特別是移動互聯網的發展,加快了信息化向社會經濟各方面、大眾日常生活的滲透。有資料顯示,1998年全球網民平均每月使用流量是1MB(兆字節),2003年是100MB,2008年是1GB(1GB等于1024MB),2014年將是10GB。
你使用餐具是用左手還是右手?吃飯的時候習慣喝湯嗎?在加油站等待時是否會下車?你在早晨洗臉之后多久會走出家門?這些看起來毫無意義的問題正在變成一種有形的價值。因為當千萬個甚至更多的如“你”一樣的人被制作成為統計數字和圖表之后,這些數學符號就有可能被其他的個人、企業甚至是政府有效使用。
正如吳甘沙所說,普通人早晨的洗漱習慣很有可能成為那些導航地圖生產者所需要的數據,而這些產品則會反過來讓每個人的生活變得更便捷、更可支配。
來自麥肯錫的報告顯示:互聯網產生的數據量將伴隨著安裝在汽車、零售、物流、安全、應用工具領域傳感器數量的增加而增長。此外,報告還指出,在今后的五年里,全世界互聯網傳感器的部署將以30%的速度增加。到2020年,在美國,基于地理位置服務LBS將催生8000億美元的市場空間,其中,個人的位置應用服務將產生7000億美元的市場,基于位置的移動游戲、方位共享及出于社交網絡安全考慮的定位跟蹤是個人市場的主要應用。另一方面,企業將擁有1000億美元的市場,主要應用聚焦于移動端的廣告推送、基于手機位置的自動收費及基于位置的商業智能服務。
秦雯堅信,未來的數據會像現在的石油或者其他金屬那樣成為一種商品,在世界各地會誕生數據交易所。
“你會看到這樣的場景,一個小公司的經營者拿著信用卡走進交易所說,我想要購買香港地區所有人刷牙習慣的數據。”秦雯說。