舍恩伯格那種放棄因果關系而只考察相關性的思路,與其說是一種進步,倒不如說是一種思維紊亂。因為它不利于我們的下一步預測,也無法采取行動
為什么我們知道的多,困惑卻更多?
我們時時刻刻都在預測:太陽會不會照常升起?廣州恒大能不能奪得冠軍?A股明天會不會大漲?朋友創辦的這家公司能不能獲得風險投資?……我們也無時無刻不在驗證過往的預測,而且往往帶有成本和收益,比如賭球、炒股或者創業,結果都會帶來正負收益。
在預測和證實(證偽)之間,是我們無意識的信念或精心建構的理論。從笛卡爾到康德,從卡爾·波普到索羅斯,關于我們如何發現規律并作出預測,有無數的研究和哲學探討。而今天,隨著大數據時代的來臨,又有很多專家開始反思這個經典的認識論問題,并為之添加談資和養料。
舍恩伯格是"大數據"概念的著名吹鼓手,其著作《大數據時代》認為,隨著人們看待數據的方式的變化—從局部變為全部以及從純凈變為凌亂,思維方式也應該轉型,即從因果關系轉向相關性。或者說,只要知道"是什么",而不需要知道"為什么"。
他在書中提到這樣一個例子:統計學家們用二手車數據建立了一個算法系統,來預測哪些車更可能出現質量問題。相關性分析表明,橙色車出現質量問題的可能性只有其他車的一半。
這是為什么呢?因為橙色車的車主更愛車?橙色車在制造方面更精良?還是因為橙色車更顯眼、出車禍的概率更小?不知道,舍恩伯格也認為無須知道。
不過,這種看重相關性而不追究因果關系的思路,其實是不利于預測和下一步行動的。比如,我們是不是應該建議車主把車漆成橙色呢?這樣會使車輛減少質量問題嗎?不知道。因為橙色和車輛出現質量問題之間的內部關系,我們不清楚。
有個經典的社會學考題是這樣的:冰淇淋的銷量和強奸案的發生率存在線性關系,即一個增長,另一個也增長。不過,兩者之間顯然沒有因果關系,而只有相關關系。另一個變量,即天氣變暖,才是兩者之間的真正橋梁。
所以,舍恩伯格這種放棄因果關系而只考察相關性的思路,與其說是一種進步,倒不如說是一種思維紊亂。因為它不利于我們的下一步預測,也無法采取行動。
而新書《信號與噪聲》恰好是一針清醒劑。作者納特·西爾弗認為,在任何一個數據豐富的領域,尋找預測模式都很容易。關鍵是要分辨出這些模式到底是噪聲還是信號。而關于概率運算的貝葉斯定理,仍然是西爾弗推崇的一種預測思路。
他舉了天氣預報、政治選舉預測、地震預測、棋牌游戲、股市、恐怖襲擊等多個領域的例子,認為我們對未來的預測,應該基于可能性,以概率的方法思考問題,在不斷試錯中進步。像天氣預報就是這樣的典型,比如氣象小姐會說,明日降水概率為60%。而且,西爾弗指出,在過去25年里,颶風中心的預測準確率提高了350%,這是其他領域根本無法企及的進步。
試錯法,是哲學家卡爾·波普推崇的科學研究方法。而西爾弗發現,一個成功的NBA球賽賭徒也是如此:大膽預測,不斷犯錯,不斷嘗試。只要獲得新信息,就應該更新自己的預測。
這是一種更加進取的思維方式,又何嘗不是一種嶄新的生活理念呢?
黃锫堅
文|納特·西爾弗
1440年,約翰內斯·古騰堡發明了印刷機,這項發明使普通民眾能方便地了解信息,由此產生的思想洪流帶來了前所未有的結果和影響。印刷機的發明點燃了1775年的工業革命之火。這一發明促成了一些歷史事件,這些事件開啟了歐洲啟蒙運動,也加速了美利堅合眾國的建立。
印刷機問世的第一個世紀里,書籍的生產規模呈指數型增長,數量增長了近30倍。人類知識旋即進入快速積累期。
信息的增長速度遠遠超過了人們處理信息和分辨信息的速度。共享信息的不斷增長反而加速了民族和宗教的孤立進程。
印刷機的早期使用者中,最狂熱的要數那些傳播福音的人了。馬丁·路德的《九十五條論綱》被古騰堡的印刷機復印了30多萬次。路德的新教改革所導致的教會分裂,很快使歐洲陷入了戰爭。單單一個三十年戰爭,德國人口就減少了1/3。這堪稱人類歷史上最血腥的時代。
但就是在這樣一個充滿戰亂的時代,印刷機卻悄然推動著科學與文學的進步。
大數據的承諾和陷阱
到了時下,最流行的要數"大數據"了。根據IBM的估計數據,現在我們每天生成的數據高達250兆億個字節,超過過去兩年里生成的數據總量的90%。
信息的指數型增長有時被人們視為萬靈藥,就好比20世紀70年代出現的計算機一樣。《連線》雜志的前主編克里斯·安德森曾經在2008年的一篇文章中說:"數量龐大的數據會使人們不再需要理論,甚至不再需要科學的方法。"
我認為其內容是積極樂觀的,卻被嚴重曲解了。雖然那些數字不能為自己辯護,但我們卻可以作為數字的發言人,賦予它們意義。我們可能會以對自己有利的方式對這些數據進行分析和解釋,而這些方式很可能與這些數據(所代表)的客觀現實不相吻合。數據驅動預測機制可能會成功,也可能會失敗。一旦我們否認數據處理過程中存在著主觀因素,失敗的概率就會增加。
在4年時間里,我對十多個行業和領域中的數據驅動預測機制進行了調查,我也曾與十幾個領域中的100多位專家交流過,讀過數百篇期刊文章和論文,為了實地調查,我跑遍了從拉斯韋加斯到哥本哈根的許多地方,卻發現"大數據"時代的預測活動發展得并不順利。
新千年給美國人帶來的是噩夢般的開始。我們沒有預測到"9·11"恐怖襲擊事件,而這一慘劇的出現并非因為我們的信息匱乏。正如60年前的"珍珠港事件"一樣,其實所有的信號都在那里,只是我們沒能將它們聯系起來。因為對恐怖分子可能會有的舉動不夠了解,所以我們對那些數據視而不見,不知道大難將至。
近期,對全球金融危機的預測也總是失敗。我們天真地相信各種(預測)模式,卻沒有認識到這些模式在我們進行假設選擇時根本不堪一擊,因此總會帶來慘痛的后果。在日常生活中,我發現盡管人們也在努力嘗試,卻仍然無法提早預測出經濟衰退。幸好在控制通脹方面,我們已經取得長足進步,否則那些經濟決策者就只能"盲目飛行"了。
與20世紀70年代一樣,近來人們十分熱衷于對地震進行預測,其中大部分高度依賴數學方法和數據處理技術。但是,這些預測只是假想一些從未發生過的地震,對真正發生的那些地震卻沒有預測到。
錯誤地預測整個學科的發展常會危及整個社會。以生物醫藥學的研究為例。2005年,一位土生土長的雅典人,醫學研究者約翰·P·埃尼迪斯,發表了一篇頗具爭議性的論文—《為什么大多數發表的研究成果都是騙人的》。
這些大數據終將推動社會進步,至于這種進步的速度有多快,或者進步的同時是否還會倒退,這些都取決于我們自己。
人類并沒有多少天生的防御能力,人類的速度沒有多么快,身體也沒有多么強壯;人類沒有利爪和尖牙,也沒有護身的硬殼;人類不能噴出毒液,不能偽裝自己,也不能飛翔。我們之所以能生存下來,是因為我們運用了智慧。
在1970年出版的《未來的沖擊》一書中,未來學大師阿爾文·托夫勒對他所說的"信息超負荷"的一些后果進行了預測。他認為,盡管世界本身正走向分化,變得更加復雜,但人類仍會以堅持自身看法的方式使這個世界變得簡單,這便是我們的防御機制。
正是出于這個原因,我將預測視為人們共同的事業。雖然預測很難,但解決方法還是有的。
在任何一個數據豐富的領域,尋找模式很容易,一般的預測者也都是這么做的。關鍵是要分辨出這些模式到底是噪聲還是信號。雖然還沒有找到關鍵點,但是有一種思維過程可以幫助我們作決定,這就是貝葉斯定理。
預測和貝葉斯定理
托馬斯·貝葉斯,大概于1701年出生。盡管貝葉斯所著圖書的種類并不算多,但還是被選為英國皇家學會會員。在英國皇家學會,他擔任內部評論家或者智力辯論的裁判員。
貝葉斯的作品《機會的學說概論》,又稱《論有關機遇問題的求解》,直到他1763年去世之后,由他的朋友理查德·普萊斯引介到英國皇家學會,引起了學會的注意,隨后才得以出版。這部作品主要研究的是,當我們遇到新數據時,該如何使用概率的方法進行推理。
今天公認的貝葉斯定理就是一個普通的不能再普通的數學表達式,是由法國數學家、天文學家拉普拉斯推導出來的:
然而,就是這樣一個簡單的運算,卻可以推導出重大的預測。
貝葉斯定理涉及條件概率,也就是說,一旦發生了某個事件,這一定理就可以告訴我們一種理論或假設是否正確。
假設你和伴侶同住,某天出差回家后發現自己的衣櫥里多出一件陌生的內衣。你可能會奇怪:自己的伴侶是不是出軌了?不論你相信與否,對于這樣的問題,貝葉斯定理總能給出答案—假如你知道(或愿意預估)下列3個量。
第一,你需要預測出自己的伴侶在出軌的情況下,這件內衣出現的概率。為了解決這個問題,我們暫且假設你是一位女性,而你的伴侶是一位男性,那么,此時我們所說的內衣就是一件女式內衣。如果你的伴侶出軌了,那么很容易想象這件內衣是如何進入你的衣櫥的。那么,即使他確實要做對不起你的事,你也希望他能夠小心行事。在他確實背叛了你的情況下,我們認為,這件內衣出現的概率是50%。
第二,你需要預測出自己的伴侶在沒有出軌的情況下,這件內衣出現的概率。如果他沒有出軌,有什么理由證明那件內衣的清白呢?當然有些理由會令人不快(比如這件內衣也有可能是他自己的)。或許,他把衣服搞混了;或者你的伴侶有一位紅顏知己,兩人之間只存在純友誼,而你對此也深信不疑,她寄宿一晚忘了帶走內衣;或者這就是你的伴侶給你準備的一件禮物,只不過忘了把它包起來。盡管這些理由有些荒謬,但也能說得通。你將這種情況出現的概率定為5%。
第三,這點最為重要,你需要預測貝葉斯定理中所說的先驗概率(或者簡稱先驗)。在發現內衣之前,你認為自己的伴侶出軌的概率有多大?當然,現在很難完全客觀地考慮這個問題,因為你已經發現了內衣。(在理想狀態下,在開始查驗證據之前,你就已經算出了先驗概率。)但有時我們可以依據經驗推斷某事件發生的概率。比如,研究發現,已婚夫婦任何一年的出軌概率都在4%左右,所以,我們可以將這個概率視為先驗概率。
如果我們算出了以上3個概率值,就可以依據貝葉斯定理得出后驗概率:只有29%,這個結果也許看似仍有悖常理—那件內衣果真是清白的嗎?但這一概率之所以較低,是因為你把伴侶出軌的先驗概率設定得很低。盡管一個清白的男人不能像出過軌的男人那樣,能為一件陌生內衣的出現找出很多看似合理的解釋,但你一開始就把他當作清白的人,這一點對方程式影響很大。
這里,我還要提到一個比較沉重的例子:"9·11"恐怖襲擊事件。2001年9月11日清晨,當我們從夢中醒來時,大部分人都想不到恐怖分子的飛機會撞向曼哈頓世貿中心大樓。但是,世貿中心第一次遭遇襲擊之后,我們才意識到這也許是一次恐怖襲擊。直到第二座高樓被襲擊之后,我們才相信確實遭遇了恐怖襲擊。
貝葉斯定理可以復制這個結果。比如,在第一架飛機撞擊大樓之前,我們預測曼哈頓的高樓遭遇恐怖襲擊的概率只有1∶20000或0.005%。當然,我們還是會認為世貿中心意外遭遇飛機撞擊的概率是非常低的。人們靠經驗也能準確地預測出0.005%這個數字。9月11日之前的25000天,一直有飛機盤旋在曼哈頓的上空,而期間只發生了兩次這樣的意外事故:一次是1945年的美國帝國大廈事件,另一次是1946年的川普大廈事件。這樣看來,此類意外事故的日發生概率只有1∶12500。在第一架飛機撞上世貿中心大樓的那一刻,如果用貝葉斯定理計算這些數據,發生恐怖襲擊的概率便會從0.005%劇增至38%。
然而,貝葉斯定理暗含的意思并不是說,我們對概率的預測只可以作一次更新,相反的,鑒于新證據的不斷涌現,我們需要不斷地更新自己的預測結果。于是,第一次恐怖襲擊的后驗概率38%,在第二次襲擊之前就會變成先驗概率。這時再來進行世貿中心遭遇第二次恐怖襲擊的概率運算,遭遇襲擊的概率就變成了99.999%,這就表示恐怖襲擊必會出現。在陽光燦爛的紐約出現意外事故的概率很低,而就像我們推斷出來的可怕結果一樣,第二次恐怖襲擊很有可能會發生。
不斷犯錯,不斷嘗試,這或許是貝葉斯定理應用起來最容易的一個原則。或者說,一旦獲得新信息,我們就應該更新自己的預測。