這幾年, 大數據的 “出鏡率” 頗高。 連帶著, “數據科學家” 成為了新的高薪一族。 人氣、 財氣的提升也帶動了士氣, 有人開始高估大數據的神通, 仿佛只要積累了足夠多數據, 請 “數據科學家” 們坐在電腦前——就像福爾摩斯坐在太師椅上——敲一通鍵盤, 各種問題就都能迎刃而解。
大數據真有如此神通嗎? 回顧一段小歷史對我們也許不無啟示。
那是在 1936 年, 美國共和黨人艾爾弗·蘭登與民主黨人富蘭克林·羅斯福競選總統。 當時很有影響力的《文摘》雜志 決定搞一次超大規模的民意調查, 調查人數高達 1,000 萬, 約為當時選民總數的 1/4, 最終收到的回復約有 240 萬份, 對于民意調查來說可謂是 “大數據”——事實上, 哪怕在今天, 一些全國性民意調查的調查對象也只有幾千。 通過對這組 “大數據” 的分析,《文摘》雜志預測蘭登將以 55% 比 41% 的顯著優勢獲勝。 但不久后揭曉的真正結果卻是羅斯福以 61% 比 37% 的優勢大勝。《文摘》雜志的 “大數據” 遭到了慘敗。
當然, 那是陳年舊事了。 區區 240 萬份回復作為民意調查是超大規模的, 從數據角度講, 以今天的標準來衡量卻實在小得可憐。 不過, 今天的 “大” 在幾十年后也未必不會如昔日的 “小” 一樣可憐。 那段小歷史的真正啟示在于: 數據已大到了統計誤差可以忽略的地步, 結果卻錯得離譜。 這種類型的錯誤對于大數據是一種警示。
現在讓我們回到當代。 2008 年 8 月, 大數據 “成功偶像” 之一的谷歌公司領銜在《自然》(Nature) 雜志上發表論文, 推介了一個如今被稱為 “谷歌流感趨勢” 的系統。 這一系統能利用互聯網上有關流感的搜索的數量和分布來估計各地區流感類疾病的患者數目。 谷歌表示, 這一系統給出的估計不僅比美國疾病控制與預防中心 (Centers for Disease Control and Prevention——簡稱 CDC) 的數據更快速, 而且還有 “不依賴于理論” 的特點。
但是, 這個一度引起轟動的系統經過幾年的運行后, 卻引人注目地演示了大數據可能帶來的陷阱。
2013 年 2 月,《自然》雜志資深記者巴特勒 (Declan Butler) 發表了一篇題為 “當谷歌弄錯了流感” 的文章, 指出 “谷歌流感趨勢” 對 2012 年底美國流感類疾病患者數目的估計比美國疾病控制與預防中心給出的數據高了約一倍。 不僅如此, “谷歌流感趨勢” 在 2008-2009 年間對瑞士、 德國、 比利時等國的流感類疾病患者數目的估計也都失過準。
大數據在這些例子中為什么會失敗呢? 人們很快找到了原因。 比如《文摘》雜志對 1936 美國總統競選預測的失敗, 是因為該雜志的調查對象是從汽車注冊資料及電話簿中選取的, 而汽車及電話在當時的美國尚未普及, 使得由此選出的調查對象缺乏代表性。 而谷歌對 2012 年底美國流感類疾病患者數目的估計失敗, 則是因為媒體對那段時間的美國流感類疾病作了渲染, 使得很多非患者也進行了有關流感的搜索, 從而干擾了 “谷歌流感趨勢” 的估計。 在統計學中, 這被稱為系統誤差 , 只要存在這種誤差, 數據量再大也無濟于事。
當然, 原因一旦找到, 對結果進行修正也就不無可能了。 比如在有關流感的搜索中, 來自患者的搜索往往隨疫情的爆發而迅速增加, 隨疫情的緩慢結束而緩慢降低, 呈現出前后的不對稱, 而媒體渲染引來的非患者的搜索則前后比較對稱。 利用這一區別, 原則上可對結果進行校正。
但另一方面, 原因之所以很快找到, 是因為失敗已成事實, 從而有了明確的分析對象, 在千變萬化的大數據分析中要想每次都 “先發制人” 地避免失敗卻是極其困難的。 比如大數據分析對數據間的相關性情有獨鐘, 其所津津樂道的 “不依賴于理論” 的特點卻在很大程度上排斥了對相關性的價值進行甄別——就如知名技術類刊物《連線》(Wired) 雜志的主編安德森 ) 曾經宣稱的: “只要有足夠多數據, 數字自己就能說話” (。 數字也許是能說話, 但說出的未必都是有價值的話。 事實上, 未經甄別的相關性可謂處處是陷阱。 比如 2006-2011 年間, 美國的犯罪率和微軟 IE 瀏覽器的市場占有率就明顯相關 (同步下降), 但卻是毫無價值的相關性——這是紐約大學計算機教授戴維斯 舉出的例子。 在統計學中, 這是所謂 “相關性不蘊含因果性” (的一個例子。
無論是系統誤差還是 “相關性不蘊含因果性”, 大數據的這些陷阱其實都是統計學家們熟知的。 只不過, 太急于趕路時, 人們有時會忘掉曾經走過的路。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13750.html