7月9日,美國《連線》雜志近日刊登了一篇關于大數據的評論文章。作者認為,如果缺乏對人們現實生活的實地調查,大數據沒有什么意義。
在短短的幾十年里,“技術天才”與社會的關系已經改變:他們從關在屋里的孤獨者變成救世主,從反社會者變成社會的最大希望。許多人現在似乎相信,理解我們這個世界的最佳方式,就是坐在電腦屏幕前分析我們稱之為“大數據”的海量信息。
關于這一點,我們只要看看 “谷歌流感趨勢(Google Flu Trends)”。2008年,當谷歌推出這項服務時,硅谷的許多人將它鼓吹為表明大數據將很快淘汰傳統分析方式的一個標志性產品。
但他們錯了。
“谷歌流感趨勢”不僅沒有提供流感傳播的精確描述,也無法實現大數據鼓吹者的美夢。這是因為,如果沒有“厚數據”(豐富的、具有前后關聯性的數據,它們只能通過丟開電腦、深入實際生活才能獲得),大數據就沒有意義。電腦極客們曾經因為不能適應社會生活而被嘲笑,他們被告知應該“多出去走走”。實際上,如果大數據的信徒們希望理解這個他們也在參與塑造的世界,他們真的需要多出去走走。
谷歌的失敗與算法無關
“谷歌流感趨勢”的目的是:找出人們在流感季節常用的搜索詞,然后實時跟蹤這些搜索詞的使用高峰期。這樣,谷歌就可以在新流感爆發之前發出警報,而且預警時間要比官方疾病防治中心的預警時間早大約兩周。
對很多人來說,“谷歌流感趨勢”已經成為大數據的一個典型代表,它表現了大數據的巨大力量。在暢銷書《大數據:一場改變生活、工作和思考方式的革命》(A Revolution That Will Transform How We Live, Work and Think)中,作者維克托 邁爾 舍恩柏格(Viktor Mayer-Sch nberger)和肯尼斯 庫克耶(Kenneth Cukier)宣稱,與政府滯后的數據相比,“谷歌流感趨勢”是更有用、更及時的流感指示器。
然而,著名的《科學》雜志本月刊登一篇文章告訴我們,自2011年8月以來,“谷歌流感趨勢”幾乎每周都會高估流感的盛行率。
而在2009年,就在“谷歌流感趨勢”推出后不久,它竟然完全沒有察覺豬流感的爆發。事實上,人們在流感季節的許多常用搜索詞與流感無關,而與流感的通常爆發季節——冬季——密切相關。
許多人爭論道,“谷歌流感趨勢”的失敗緣于大數據的不成熟。這種觀點沒有切中要害。當然,調整算法、提高數據收集技術將會讓下一代大數據工具變得更有效。然而,大數據鼓吹者真正的狂妄之處不在于對一套不成熟的算法過于自信,而在于盲目地相信坐在電腦屏幕前搗鼓一些數字就可以充分理解世界。
為什么需要厚數據
大數據僅僅是大量的“薄數據”,它們是通過對人們的活動和行為進行跟蹤而獲得的。我們最常去的地方,我們在網上搜索的東西,我們每天睡了多久,我們有多少聯系人,我們所聽的音樂類型等等。這些數據是通過你瀏覽器中的“cookies”、你戴在手上的FitBit腕帶或你手機上的GPS來收集的。這些信息無疑是重要的,但我們不能通過它們來獲得對人的完整理解。
為了真正地了解人,我們不久需要大數據,而且需要厚數據。厚數據不僅包括事實,而且包括事實的前后聯系。比如說,美國有86%的家庭每周會喝掉6夸脫以上的牛奶,但是她們為什么喝牛奶?他們是怎么喝的?一塊包含三種顏色、繡著星星和條紋圖案的布,這是薄數據;一面在風中飄揚的美國國旗,這是厚數據。
基于“我們做了什么”,大數據對我們進行簡單化的理解;厚數據則試圖通過我們與周圍世界的聯系來理解我們。只有理解人與周圍世界的聯系,人們才能從整體上認識這個世界,這恰恰也是谷歌、facebook等公司想要做的。
理解我們這個世界
想想硅谷的那些宏偉宣言。谷歌的宗旨是“組織全球信息,使人人皆可訪問它們并從中獲益。”馬克·扎克伯格(Mark Zuckerberg)最近對投資者表示,在全球化和知識經濟日益受到重視的當今世界,Facebook致力于一個新的使命:“理解這個世界”。他說:“人們每天在Facebook上發布數十億條內容和鏈接。在他們的幫助下,我們通過專門的算法機制為世界上所有事物建立最清晰的模型。”甚至有一些小公司也參與了“理解這個世界”。去年,Jawbone公司的副總裁耶利米 羅賓遜(Jeremiah Robison)說,他們的健康跟蹤設備Jawbone UP的目標是“理解(人的)行為變化的科學。”
這些目標的確很大。企業渴望更好地理解社會,這不足為怪。畢竟,了解與客戶行為及社會文化相關的信息,這對企業經營來說是必不可少的。而且,在知識經濟時代,這些信息本身已經成為一種通貨,它們可以換來點擊率、瀏覽量和廣告收入?;蛘吒唵蔚卣f,它們可以換來權力。在這個過程中,如果谷歌、facebook等公司能不斷幫助我們增進對自身的集體知識,它們獲得更多權力也是正當的。問題在于,如果它們聲稱計算機能夠組織我們的所有數據,或能夠向我們提供關于流感、健康或社會關系等各方面的完整理解,那么,它們從根本上小看了“數據”和“理解”的意義。
如果硅谷的大數據鼓吹者真想“了解世界”,那么他們不僅需要掌握大數據,也需要掌握厚數據。不幸的是,要獲得后者,他們需要丟開電腦去實地體驗這個世界,而不是僅僅通過谷歌眼鏡(或通過facebook的虛擬現實設備)來觀察世界。
人們的行為情境
如果你對一個領域高度熟悉,有能力填補信息空白并想象人們的行為原因,那么“薄數據”將是有用的。換句話說,如果你能夠想象并重建人們的行為的發生情境,你所觀察到的行為才是有意義的。如果缺乏對行為情境的了解,就不可能推出任何因果關系,也不可能理解人們的行為原因。
這就是為什么研究人員在科學實驗中要竭盡全力控制實驗室的環境,以創造一個各種影響因素都被考慮在內、徹底的人工場所。不過,真實世界并不是一個實驗室。要確保你對陌生世界的情境有所了解,唯一的途徑是實地觀察并內化和解釋正在發生的每一件事。
人們的背景知識
如果說大數據擅長觀察人們的行為,那么它不擅長的就是理解人們對每樣事物的背景知識。我是怎么知道每次刷牙時該用多少牙膏的?我是怎么知道何時該進入另一個交通通道的?眨眼是表示“真有趣”還是“我的眼睛進了東西”?這些都涉及人們的內在能力、無意識和背景知識,它們控制著人們的大多數行為。跟周圍的事物一樣,這些不可見的背景知識只有在觀察者主動去看的情況下才能被發現。不過,它們卻對每個人的行為有著重要影響。它能夠解釋事物與人的聯系,以及事物對人的意義。
人類學及社會科學中有大量觀察和解釋人類行為的方法。研究人員不但觀察人的行為,而且考查他們所處的情境和他們擁有的背景知識。這些方法有一個共同的特點:它們要求研究者深入混亂而真實的人類生活。
沒有哪一個單獨的工具能夠成為理解人類的超級武器。盡管硅谷有許多出色的發明,不過我們對任何數字技術的期望都應該有個限度。“谷歌流感趨勢”真正教給我們的是:不能僅僅問這些數據有多“大”,還要問這些數據有多“厚”。
有時,走進真實的生活會得到更好的結果。有時,我們必須要丟下電腦。