“大數據是土壤,開放的數據即為土地上的河流,河流流過之處,就會孕育起發達。
當前對大數據的討論還局限在概念和技術層面
解放周末:《數據之巔》是您繼《大數據》后的第二本著作,仍然聚焦大數據。您是什么時候開始關注大數據的?為何會關注這個話題?
涂子沛:這和我的個人經歷有關。我學的是計算機專業,畢業后一直和數據打交道。十幾年前,我在中國的第一份工作是數據庫程序員,后來到美國從事數據倉庫的開發和設計工作,為美國的一些政府部門提供數據管理、分析方面的解決方案。隨著“數據庫”的說法變成“數據倉庫”,數據的容量和重要性在不斷變大。出于職業敏感,我意識到并開始思考這個問題。2012年開始,“大數據”現象引起了全球性的關注和討論。
解放周末:2012年,您的《大數據》一書出版不到半年就加印了7次。此后,被譽為“大數據商業應用第一人”的舍恩伯格等外國專家的相關著作相繼在國內翻譯出版。經過幾年熱議,大數據已經成為一個人盡皆知的概念,在各種場合不斷被提及,以至于讓人有些厭倦了。
涂子沛:之所以讓人厭倦,是因為人們對大數據的討論還局限于概念和技術層面。我想是時候更進一步,從文化和理念的層面來思考我們為何會在數據治國方面落后于人了。
以全新視角發掘美國歷史上的“數據總統”、“數據將軍”和“數據英雄”
解放周末:您在這本新書里作了很有趣的嘗試,從數據的角度重新挖掘、解讀美國200多年的歷史。以這樣的方式梳理美國歷史,似乎沒有先例。
涂子沛:確實沒有人這樣寫過美國歷史。在寫這本書時,我把美國的人口普查史、經濟統計史、農業統計史、工業統計史都看了一遍,從數據的角度重新梳理美國歷史,試圖在歷史的大畫面下展現數據文化是如何形成的,數據治國的理念是如何深入人心的。
解放周末:書中展示了數據文化在美國政治、經濟乃至軍事發展上起到的關鍵作用。
涂子沛:美國的崛起與數據文化息息相關。比如美國第20任總統加菲爾德堪稱 “數據總統”,他在1869年對美國人口普查進行了現代化改造,并從中發現,數據不僅蘊藏著社會發展的規律,還提供了一種更為客觀、廣闊的歷史書寫方式。“數據將軍”謝爾曼在美國內戰時以數據為航標,成功策劃了6萬大軍35天內行軍300多公里且不自帶任何補給的遠征路線,創造了軍事上的奇跡。
在商業領域,美國電影《亂世佳人》是歷史上第一部由數據驅動拍攝、發行的電影,創造了票房奇跡,并為未來的文化產品營銷模式樹立了基準。
美國民間還涌現過一些“數據英雄”。他們發現政府提供的數據不正確,耗費數年到處去追蹤、訪問,最終找到數據出錯的原因,這種深入血液的數據精神非常值得我們思考和學習。
真正應該探究的,是“尺子”設計得是否合理
解放周末:對美國數據文化的深入探究,最終是為了關照我們自身。您在題記中開門見山地講道:數據文化匱乏,是中國落后的一個重要原因。那么,數據文化究竟指的是什么?
涂子沛:我對數據文化有個定義,它主要有三個要素:第一,它是一種尊重事實的文化。數據是對客觀事實的記錄,如果不尊重數據,就會把數據當作“可以任意打扮的小姑娘”;第二,它是一種追求精確的文化。我們可以用圖案、聲音、文字來描繪事實,而用數據描述的事實,是最精準、最銳利的;第三,它是一種推崇理性和邏輯的文化。有了數據就要計算,計算與邏輯、理性密切相關。
解放周末:這三點恰恰是我們傳統文化中較為薄弱的方面。
涂子沛:嚴復先生說過一句話:“華風之弊,始于作偽。”說的是國人風氣的一大弊端,即熱衷造假、不尊重事實。胡適先生寫過一則《差不多先生傳》,對國人甘于“差不多”、拒絕精準的習慣和作風深感憂慮。
當然,我國傳統文化里中庸、寫意的特點也有其美好的一面,但文化也要與時俱進。今天我們已經來到了一個講求精確的大數據時代,為了適應新時代的發展,我們必須要給我們的文化基因注入數據文化這個新的因子。
解放周末:近些年來,隨著“大數據”的廣為人知,國人對數據越來越重視,越來越追求精確。但類似“中華民族復興完成了62.74%”這種提法似乎讓人難以接受。
涂子沛:我個人認為,大眾對這件事的哄笑和批評并沒有打到點子上,大多數人質疑的是民族復興這件事怎么可以量化。事實上,世界各國的學者都在嘗試對社會現象進行量化。社會研究之所以是科學,就是因為它能夠量化。量化就是通過設計一把尺子,去丈量社會現象。我們真正應該探究的,是這把“尺子”設計得是否合理。在這本新書里,我對這個問題作了具體的闡述和批評。
人類新的文明將在大數據的土壤上生長起來
解放周末:在序言中,神州數碼董事局主席郭為提到,我國已經是數據大國,但還不是數據強國。您怎么看?
涂子沛:數據大國將來肯定是,但數據強國現在肯定不是。目前我們的數據分析、整合能力還很薄弱。不過,我們仍然有后發優勢。
很多人說大數據是黃金,是礦藏,我說,大數據是土壤,人類新的文明將在大數據的土壤上生長起來。而開放、活躍的數據就如同土壤上的河流,河流流過之處,就會孕育起發達的數據文明。這也正是我再次耗費精力向國人講述大數據的根本原因。