谷歌一個研究小組5年前曾在《自然》雜志上宣布了一個令人矚目的成果。該小組可以追蹤美國境內(nèi)流感的傳播趨勢,而這一結(jié)果不依賴于任何醫(yī)療檢查。他們的追蹤速度甚至比疾控中心要快的多:谷歌的追蹤結(jié)果只有一天的延時,而CDC則需要匯總大量醫(yī)師的診斷結(jié)果才能得到一張傳播趨勢圖,延時超過一周。谷歌能算得這么快,是因?yàn)樗麄儼l(fā)現(xiàn)當(dāng)人們出現(xiàn)流感癥狀的時候,往往會跑到網(wǎng)絡(luò)上搜索一些相關(guān)的內(nèi)容。
“谷歌流感趨勢”不僅快捷、準(zhǔn)確、成本低廉,而且沒有使用什么理論。谷歌的工程師們不用費(fèi)勁的去假設(shè)那些搜索關(guān)鍵字(比如“流感癥狀”或者“我身邊的藥店”)跟感冒傳染有相關(guān)性。他們只需要拿出來自己網(wǎng)站上5000萬個最熱門的搜索字,然后讓算法來做選擇就行了。
谷歌流感趨勢的成功,很快就成為了商業(yè)、技術(shù)和科學(xué)領(lǐng)域中最新趨勢的象征。興奮的媒體記者們不停的在問,谷歌給我們帶來了什么新的科技?
在這諸多流行語中,“大數(shù)據(jù)”是一個含糊的詞語,常常出現(xiàn)于各種營銷人員的口中。一些人用這個詞來強(qiáng)調(diào)現(xiàn)有數(shù)據(jù)量的驚人規(guī)模——大型粒子對撞機(jī)每年會產(chǎn)生15PB的數(shù)據(jù),相當(dāng)于你最喜歡的一首歌曲重復(fù)演奏15000年的文件大小。
然而在“大數(shù)據(jù)”里,大多數(shù)公司感興趣的是所謂的“現(xiàn)實(shí)數(shù)據(jù)”,諸如網(wǎng)頁搜索記錄、信用卡消費(fèi)記錄和移動電話與附近基站的通信記錄等等。谷歌流感趨勢就是基于這樣的現(xiàn)實(shí)數(shù)據(jù),這也就是本文所討論的一類數(shù)據(jù)。這類數(shù)據(jù)集甚至比對撞機(jī)的數(shù)據(jù)規(guī)模還要大(例如facebook),更重要的是雖然這類數(shù)據(jù)的規(guī)模很大,但卻相對容易采集。它們往往是由于不同的用途被搜集起來并雜亂地堆積在一起,而且可以實(shí)時的更新。我們的通信、娛樂以及商務(wù)活動都已經(jīng)轉(zhuǎn)移到互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)也已經(jīng)進(jìn)入我們的手機(jī)、汽車甚至是眼鏡。因此我們的整個生活都可以被記錄和數(shù)字化,這些在十年前都是無法想象的。
大數(shù)據(jù)的鼓吹者們提出了四個令人興奮的論斷,每一個都能從谷歌流感趨勢的成功中印證: 1) 數(shù)據(jù)分析可以生成驚人準(zhǔn)確的結(jié)果; 2) 因?yàn)槊恳粋€數(shù)據(jù)點(diǎn)都可以被捕捉到, 所以可以徹底淘汰過去那種抽樣統(tǒng)計(jì)的方法; 3) 不用再尋找現(xiàn)象背后的原因,我們只需要知道兩者之間有統(tǒng)計(jì)相關(guān)性就行了; 4) 不再需要科學(xué)的或者統(tǒng)計(jì)的模型,“理論被終結(jié)了”。《連線》雜志2008年的一篇文章里豪情萬丈地寫道:“數(shù)據(jù)已經(jīng)大到可以自己說出結(jié)論了”。
不幸的是,說得好聽一些,上述信條都是極端樂觀和過于簡化了。如果說得難聽一點(diǎn),就像劍橋大學(xué)公共風(fēng)險認(rèn)知課的Winton教授(類似于國內(nèi)的長江學(xué)者——譯者注)David Spiegelhalter評論的那樣,這四條都是“徹頭徹尾的胡說八道”。
雖然大數(shù)據(jù)在科學(xué)家、企業(yè)家和政府眼里看起來充滿希望,但如果忽略了一些我們以前所熟知的統(tǒng)計(jì)學(xué)中的教訓(xùn),大數(shù)據(jù)可能注定會讓我們失望。
Spiegelhalter教授曾說道:“大數(shù)據(jù)中有大量的小數(shù)據(jù)問題。這些問題不會隨著數(shù)據(jù)量的增大而消失,它們只會更加突出。”
在那篇關(guān)于谷歌流感趨勢預(yù)測的文章發(fā)表4年以后,新的一期《自然雜志消息》報(bào)道了一則壞消息:在最近的一次流感爆發(fā)中谷歌流感趨勢不起作用了。這個工具曾經(jīng)可靠地運(yùn)作了十幾個冬天,谷歌的模型顯示這一次的流感爆發(fā)非常嚴(yán)重,然而疾控中心在慢慢匯總各地?cái)?shù)據(jù)以后,發(fā)現(xiàn)谷歌的預(yù)測結(jié)果比實(shí)際情況要夸大了幾乎一倍。
問題的根源在于谷歌不知道(一開始也沒法知道)搜索關(guān)鍵詞和流感傳播之間到底有什么關(guān)聯(lián)。谷歌的工程師們沒有試圖去搞清楚關(guān)聯(lián)背后的原因,他們只是在數(shù)據(jù)中找到了一些統(tǒng)計(jì)特征。他們更關(guān)注相關(guān)性本身而不是相關(guān)的原因,這種做法在大數(shù)據(jù)分析中很常見。要找出到底是什么原因?qū)е铝四撤N結(jié)果是很困難的,或許根本不可能,而發(fā)現(xiàn)兩件事物之間的相關(guān)性則要簡單和快速的多,就像《大數(shù)據(jù)時代》這本書中形容的那樣:“因果關(guān)系不能被忽略,然而曾作為所有結(jié)論出發(fā)點(diǎn)的它已經(jīng)被請下寶座了。”
這種不需要任何理論的純粹的相關(guān)性分析方法,其結(jié)果難免是脆弱的。如果你不知道相關(guān)性背后的原因,你就無法得知這種相關(guān)性在什么情況下會消失。
谷歌的流感趨勢出錯的一種解釋是,2012年12月份的媒體上充斥著各種關(guān)于流感的駭人故事,看到這些報(bào)道之后,即使是健康的人也會跑到互聯(lián)網(wǎng)上搜索相關(guān)的詞語。還有另外一種解釋,就是谷歌自己的搜索算法,在人們輸入病癥的時候會自動推薦一些診斷結(jié)果進(jìn)而影響到了用戶的搜索和瀏覽行為,這就好像在足球比賽里挪動了門柱一樣,球飛進(jìn)了錯誤的大門。
統(tǒng)計(jì)學(xué)家們過去花了200多年,總結(jié)出了在認(rèn)知數(shù)據(jù)的過程中存在的種種陷阱。如今數(shù)據(jù)的規(guī)模更大了,更新更快了,采集的成本也更低了,但我們不能掩耳盜鈴,假裝這些陷阱都已經(jīng)被填平了,事實(shí)上它們還在那里。
在1936年,民主黨人Alfred Landon與當(dāng)時的總統(tǒng)富蘭克林·羅斯福競選下屆總統(tǒng)。《讀者文摘》這家頗有聲望的雜志承擔(dān)了選情預(yù)測的任務(wù)。當(dāng)時采用的是郵寄問卷調(diào)查表的辦法,計(jì)劃寄出1000萬份調(diào)查問卷,覆蓋四分之一的選民。最終《讀者文摘》在兩個多月里收到了驚人的240萬份回執(zhí),在統(tǒng)計(jì)計(jì)算完成以后,雜志社宣布Landon將會以55比41的優(yōu)勢擊敗羅斯福贏得大選,另外4%的選民則會投給第三候選人。
然而真實(shí)選舉結(jié)果與之大相徑庭:羅斯福以61比37的壓倒性優(yōu)勢獲勝。讓《讀者文摘》更沒面子的是,民意調(diào)查的創(chuàng)始人喬治·蓋洛普通過一場規(guī)模小得多的問卷,得出了準(zhǔn)確得多的預(yù)測結(jié)果:蓋洛普預(yù)計(jì)羅斯福將穩(wěn)操勝券。顯然,蓋洛普有他獨(dú)到的辦法,而從數(shù)據(jù)的角度來看,規(guī)模并不能決定一切。
民意調(diào)查是基于對投票人的大范圍采樣。這意味著調(diào)查者需要處理兩個難題:樣本誤差和樣本偏差。
樣本誤差是指一組隨機(jī)選擇的樣本觀點(diǎn)可能無法真實(shí)地反映全部人群的看法。而誤差的幅度,則會隨著樣本數(shù)量的增加而減小。對于大部分的調(diào)查來說,1000次的訪談已經(jīng)是足夠大的樣本了。而據(jù)報(bào)道蓋洛普總共進(jìn)行了3000次的訪談。
就算3000次的訪談已經(jīng)很好了,那240萬次不是會更好嗎?答案是否定的。樣本誤差有個更為危險的朋友:樣本偏差。樣本誤差是指一個隨機(jī)選擇的樣本可能無法代表所有其他的人;而樣本偏差則意味著這個樣本可能根本就不是隨機(jī)選擇的。George Gallup費(fèi)了很大氣力去尋找一個沒有偏差的樣本集合,因?yàn)樗肋@遠(yuǎn)比增加樣本數(shù)量要重要的多。而《讀者文摘》為了尋求一個更大的數(shù)據(jù)集,結(jié)果中了偏差樣本的圈套。他們從車輛注冊信息和電話號碼簿里選擇需要郵寄問卷的對象。在1936年那個時代,這個樣本群體是偏富裕階層的。而且Landon的支持者似乎更樂于寄回問卷結(jié)果,這使得錯誤更進(jìn)了一步。這兩種偏差的結(jié)合,決定了《讀者文摘》調(diào)查的失敗。
如今對大數(shù)據(jù)的狂熱似乎又讓人想起了《讀者文摘》的故事。現(xiàn)實(shí)數(shù)據(jù)的集合是如此混亂,很難找出來這里面是否存在樣本偏差。而且由于數(shù)據(jù)量這么大,一些分析者們似乎認(rèn)定采樣相關(guān)的問題已經(jīng)不需要考慮了。而事實(shí)上,問題依然存在。
《大數(shù)據(jù)時代》這本書的聯(lián)合作者,牛津大學(xué)互聯(lián)網(wǎng)中心的維克托·邁爾·舍恩伯格教授,曾告訴我他最喜歡的對于大數(shù)據(jù)集合的定義是“N=所有”,在這里不再需要采樣,因?yàn)槲覀冇姓麄€人群的數(shù)據(jù)。就好比選舉監(jiān)察人不會找?guī)讖堄写硇缘倪x票來估計(jì)選舉的結(jié)果,他們會記點(diǎn)每一張選票。當(dāng)“N=所有”的時候確實(shí)不再有采樣偏差的問題,因?yàn)椴蓸右呀?jīng)包含了所有人。但“N=所有”這個公式對大多數(shù)我們所使用的現(xiàn)實(shí)數(shù)據(jù)集合都是成立的嗎?恐怕不是。推特(Twitter)就是一個例子。理論上說你可以存儲和分析推特上的每一條記錄,然后用來推導(dǎo)出公共情緒方面的一些結(jié)論(實(shí)際上,大多數(shù)的研究者使用的都是推特提供的一個名為“消防水龍帶”的數(shù)據(jù)子集)。
然而即使我們可以讀取所有的推特記錄,推特的用戶本身也并不能代表世界上的所有人。(根據(jù)Pew互聯(lián)網(wǎng)研究項(xiàng)目的結(jié)果,在2013年,美國的推特中年輕的,居住在大城市或者城鎮(zhèn)的,黑色皮膚的用戶比例偏高。)就像微軟的研究者Kate Crawford指出的那樣,現(xiàn)實(shí)數(shù)據(jù)含有系統(tǒng)偏差,人們需要很仔細(xì)的考量才可能找到和糾正這些偏差。大數(shù)據(jù)集合看起來包羅萬象,但“N=所有”往往只是一個頗有誘惑力的假象而已。
毫無疑問,更新、更大、更廉價的數(shù)據(jù)集合以及強(qiáng)大的分析工具終將產(chǎn)生價值。也確實(shí)已經(jīng)出現(xiàn)了一些大數(shù)據(jù)分析的成功實(shí)例,比如谷歌翻譯。谷歌翻譯是計(jì)算機(jī)學(xué)家們所謂的“機(jī)器學(xué)習(xí)”的一個應(yīng)用,機(jī)器學(xué)習(xí)可以在沒有預(yù)先設(shè)定編程邏輯的條件下計(jì)算出驚人的結(jié)果。谷歌翻譯是目前所知的最為接近“無需理論模型、純數(shù)據(jù)驅(qū)動的算法黑盒子”這一目標(biāo)的產(chǎn)品。然而大數(shù)據(jù)并沒有解決統(tǒng)計(jì)學(xué)家和科學(xué)家們數(shù)百年來所致力的一些難題:對因果關(guān)系的理解,對未來的推演,以及如何對一個系統(tǒng)進(jìn)行干預(yù)和優(yōu)化。
倫敦皇家學(xué)院的David Hand教授講過一句話,“現(xiàn)在我們有了一些新的數(shù)據(jù)來源,但是沒有人想要數(shù)據(jù),人們要的是答案”。大數(shù)據(jù)已經(jīng)到來,但它并沒有帶來新的真理。現(xiàn)在的挑戰(zhàn)是要吸取統(tǒng)計(jì)學(xué)中老的教訓(xùn),在比以前大得多的數(shù)據(jù)規(guī)模下去解決新的問題、獲取新的答案。