大數據,即將成為石油、礦產類的新能源、新生產要素和巨大的經濟資產,開啟一次重大的時代轉型,預示著新一波生產率增長和消費者贏余浪潮的到來。它是管理國家的手段、商務經營的法寶、未來就職的熱門,可能還是發達國家下一輪全球化競爭中的利器。
2013被稱為大數據元年。
關于大數據的圖書市面上就有20多種,其中最突出的是維克托·邁爾-舍恩伯格的《大數據時代——生活、工作與思維的大變革》(浙江人民出版社出版)。
舍恩伯格是最早洞見大數據時代發展趨勢的數據科學家之一,早在2010年就在《經濟學人》上發布了對大數據應用的前瞻性研究,他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業,被譽為“大數據商業應用第一人”。
下面,我們循著舍恩伯格《大數據時代》的脈絡,了解一下大數據究竟意味著什么。
世界的本質是數據
2009年,甲型H1N1流感爆發的前幾周,谷歌的工程師在《自然》雜志上預測大型流感傳播即將到來。不需分發口腔試紙或調查醫生,他們建立了一個系統,在每天收到的數十億條搜索指令中關注特定檢索詞條(如“哪些是治療咳嗽和發熱的藥物”等)的頻繁使用與流感傳播之間的聯系,及時判斷流感從哪里傳出。而疾控中心要到流感爆發一兩周后才能確定。
谷歌的判斷就建立在大數據基礎上:即以一種特定方式,對海量數據進行分析,獲得有巨大價值的產品和服務或深刻的洞見。
傳統經濟統計原則是以抽樣表征總體,人類對世界的認識,很像打著手電筒,清晰地看到腳下的某一塊石頭;而大數據時代的信息統計包含的樣本量是如此之大,如同一盞燈籠,可能細部不夠準確,但能照出整個環境和道路通向哪里。那些不很準確的最原始、看似平凡無用的信息,經過恰當的分析,讓我們越來越接近正確——
中英人壽通過分析愛好、常瀏覽的網頁、常看的節目、收入估計等好幾百種生活方式數據,找出更有可能患高血壓、糖尿病和抑郁癥的人。申請者不必提供血液和尿樣,這個純數據分析法只需5美元,可使保險公司在每人身上節省125美元;
網站內容設置依賴于數據而不是編輯的新聞敏感度,數據比有經驗的記者更能揭示哪些是符合大眾口味的新聞;
網上教育公司深度研究它收集的所有數據,比如學生重放講座視頻的哪個片斷,從而找出不明晰或很吸引人的地方反饋給設計課程的團隊……
這很像一場尋寶游戲,通過數據科學家的巧手,這些數據的潛在價值被挖掘出來,遠超其最基本的用途。數據發出了自己的聲音,帶給我們驚喜。有了大數據的幫助,我們會意識到本質上世界是由信息構成的。
挖掘處理數據是“大數據”的真諦
一個男人沖進塔吉特商店,氣憤地對經理說:“我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,你們是在鼓勵她懷孕嗎?”幾天后,當經理打電話致歉時,男人語氣變平和了:“我女兒的預產期是8月份,是我完全沒有意識到這個事件的發生,該說抱歉的是我。”原來,塔吉特的分析團隊發現,懷孕3個月的女性會買無香乳液,之后會買鎂、鈣、鋅等營養品,有20多種關聯物能使零售商較準確地預測預產期,寄出相應的優惠券招徠顧客。
在大數據時代我們可以預測未來。古代能夠預言天氣的人,往往被視為通神,而今需要的只是海量信息的占有和分析。
大數據不僅僅在于數據之大,挖掘處理才是大數據關鍵所在。一要有收集及開發數據的特定工具,二要有集黑客和定量分析員優長于一身的數據科學家。
隨著相關技術的成熟,公共部門和私人企業過去積累的大量“垃圾”數據有可能重煥光彩。比如用微觀居民和企業用電量數據指導智能電網建設、用交通事故和犯罪數據指導警力布局、用消費和稅收數據指導收入分配、用客流量數據指導鐵路和民航調配、用互聯網關鍵詞傳播數據進行流行病預防等等。
沃爾瑪可謂是大數據的玩家。在對每個顧客購物籃中的物品、具體購買時間甚至購買日的天氣分析后,研究人員發現,跟尿布一起搭配購買最多的竟是啤酒,而季節性颶風到來之前,POP-Tarts蛋撻被大量買走。于是沃爾瑪把啤酒和尿布捆綁銷售;在颶風警報發出后,將蛋撻和手電筒等放在一起。過去,總部人員需要先有想法,再收集數據來驗證;如今,他們可以預測到當A出現,B即將出現,這已經足夠珍貴。他們不再探求難以捉摸的因果關系,轉而關注事物的相關關系。
搜集數據是否涉及隱私
一天早晨,警察沖進霍華德·馬科斯的家,后者正打算用剪刀刺殺他的妻子,因為他發現妻子給他戴了綠帽子。警察開始控制霍華德,霍華德大喊冤枉:“我什么都沒做啊!”這是電影《少數派報告》中的場景。不受限制的大數據分析可能也會導致這樣的場景:罪責的判定是基于對個人未來行為的預測。
這場即將到來的數據革命,將給企業、國家的發展模式帶來前所未有的革新與挑戰,必須從戰略高度來認識。美國總統科學技術顧問委員會主席霍爾德倫說,像美國歷史上對超級計算和互聯網的投資一樣,大數據計劃將對美國的創新、科研、教育和國防產生深遠的影響。美國的每一項立法和計劃,都有一個數據庫和信息管理系統與之對應。2012年3月,美國宣布將投入2億美元啟動“大數據發展研究計劃”,以推動大數據的提取、存儲、分析、共享和可視化。通用電氣也將投資15億美元在舊金山建立一個全球軟件和分析中心,擬雇傭科學家400名。如同工業革命要開放物質交易、流通一樣,開放、流通的數據是時代趨勢的需要。
但濫用大數據也會帶來危險,當零星存在的數據被匯總,危機就出現了——不僅僅是隱私的泄露,還包括了被預知的可能性——這些能預測我們可能生病、拖欠還款和犯罪的算法會使我們無法購買醫療保險、無法貸款,甚至在實施犯罪前被預先逮捕。過于依賴數據,我們同樣會受到局限:因為數據量過于龐大,做出決策的將是機器而不是人類。
《大數據時代》一書的譯者、電子科技大學教授周濤提醒說,大數據也不是能解決所有問題的萬能法寶。哈佛大學訪問學者馮煦明指出:大數據之于傳統經濟統計,是補充,而非替代。基于抽樣、調查、匯總等程序獲得的數據仍將在經濟分析和政策制定中發揮重要的作用。橫向來看,傳統統計方法在經濟增長、稅收、貿易、收入分配等領域的統計上具有主導優勢,而大數據在物價、通貨膨脹、失業率、消費等方面的統計上更具有優勢。
總之,這本書以豐富的事例生動展現了大數據的光芒如何照亮整個世界,而嚴謹平實的敘述框架又令人了解到大數據各個技術性方面。對大數據的了解令我們對未來增添了憧憬和信心,難怪寬帶資本董事長田溯寧稱它是“我看到的最好的大數據著作”。