精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據的承諾和陷阱

責任編輯:editor004 |來源:企業網D1Net  2013-11-28 17:16:58 本文摘自:投資時報

舍恩伯格那種放棄因果關系而只考察相關性的思路,與其說是一種進步,倒不如說是一種思維紊亂。因為它不利于我們的下一步預測,也無法采取行動

為什么我們知道的多,困惑卻更多?

我們時時刻刻都在預測:太陽會不會照常升起?廣州恒大能不能奪得冠軍?A股明天會不會大漲?朋友創辦的這家公司能不能獲得風險投資?……我們也無時無刻不在驗證過往的預測,而且往往帶有成本和收益,比如賭球、炒股或者創業,結果都會帶來正負收益。

在預測和證實(證偽)之間,是我們無意識的信念或精心建構的理論。從笛卡爾到康德,從卡爾·波普到索羅斯,關于我們如何發現規律并作出預測,有無數的研究和哲學探討。而今天,隨著大數據時代的來臨,又有很多專家開始反思這個經典的認識論問題,并為之添加談資和養料。

舍恩伯格是"大數據"概念的著名吹鼓手,其著作《大數據時代》認為,隨著人們看待數據的方式的變化—從局部變為全部以及從純凈變為凌亂,思維方式也應該轉型,即從因果關系轉向相關性。或者說,只要知道"是什么",而不需要知道"為什么"。

他在書中提到這樣一個例子:統計學家們用二手車數據建立了一個算法系統,來預測哪些車更可能出現質量問題。相關性分析表明,橙色車出現質量問題的可能性只有其他車的一半。

這是為什么呢?因為橙色車的車主更愛車?橙色車在制造方面更精良?還是因為橙色車更顯眼、出車禍的概率更小?不知道,舍恩伯格也認為無須知道。

不過,這種看重相關性而不追究因果關系的思路,其實是不利于預測和下一步行動的。比如,我們是不是應該建議車主把車漆成橙色呢?這樣會使車輛減少質量問題嗎?不知道。因為橙色和車輛出現質量問題之間的內部關系,我們不清楚。

有個經典的社會學考題是這樣的:冰淇淋的銷量和強奸案的發生率存在線性關系,即一個增長,另一個也增長。不過,兩者之間顯然沒有因果關系,而只有相關關系。另一個變量,即天氣變暖,才是兩者之間的真正橋梁。

所以,舍恩伯格這種放棄因果關系而只考察相關性的思路,與其說是一種進步,倒不如說是一種思維紊亂。因為它不利于我們的下一步預測,也無法采取行動。

而新書《信號與噪聲》恰好是一針清醒劑。作者納特·西爾弗認為,在任何一個數據豐富的領域,尋找預測模式都很容易。關鍵是要分辨出這些模式到底是噪聲還是信號。而關于概率運算的貝葉斯定理,仍然是西爾弗推崇的一種預測思路。

他舉了天氣預報、政治選舉預測、地震預測、棋牌游戲、股市、恐怖襲擊等多個領域的例子,認為我們對未來的預測,應該基于可能性,以概率的方法思考問題,在不斷試錯中進步。像天氣預報就是這樣的典型,比如氣象小姐會說,明日降水概率為60%。而且,西爾弗指出,在過去25年里,颶風中心的預測準確率提高了350%,這是其他領域根本無法企及的進步。

試錯法,是哲學家卡爾·波普推崇的科學研究方法。而西爾弗發現,一個成功的NBA球賽賭徒也是如此:大膽預測,不斷犯錯,不斷嘗試。只要獲得新信息,就應該更新自己的預測。

這是一種更加進取的思維方式,又何嘗不是一種嶄新的生活理念呢?

黃锫堅

文|納特·西爾弗

1440年,約翰內斯·古騰堡發明了印刷機,這項發明使普通民眾能方便地了解信息,由此產生的思想洪流帶來了前所未有的結果和影響。印刷機的發明點燃了1775年的工業革命之火。這一發明促成了一些歷史事件,這些事件開啟了歐洲啟蒙運動,也加速了美利堅合眾國的建立。

印刷機問世的第一個世紀里,書籍的生產規模呈指數型增長,數量增長了近30倍。人類知識旋即進入快速積累期。

信息的增長速度遠遠超過了人們處理信息和分辨信息的速度。共享信息的不斷增長反而加速了民族和宗教的孤立進程。

印刷機的早期使用者中,最狂熱的要數那些傳播福音的人了。馬丁·路德的《九十五條論綱》被古騰堡的印刷機復印了30多萬次。路德的新教改革所導致的教會分裂,很快使歐洲陷入了戰爭。單單一個三十年戰爭,德國人口就減少了1/3。這堪稱人類歷史上最血腥的時代。

但就是在這樣一個充滿戰亂的時代,印刷機卻悄然推動著科學與文學的進步。

大數據的承諾和陷阱

到了時下,最流行的要數"大數據"了。根據IBM的估計數據,現在我們每天生成的數據高達250兆億個字節,超過過去兩年里生成的數據總量的90%。

信息的指數型增長有時被人們視為萬靈藥,就好比20世紀70年代出現的計算機一樣。《連線》雜志的前主編克里斯·安德森曾經在2008年的一篇文章中說:"數量龐大的數據會使人們不再需要理論,甚至不再需要科學的方法。"

我認為其內容是積極樂觀的,卻被嚴重曲解了。雖然那些數字不能為自己辯護,但我們卻可以作為數字的發言人,賦予它們意義。我們可能會以對自己有利的方式對這些數據進行分析和解釋,而這些方式很可能與這些數據(所代表)的客觀現實不相吻合。數據驅動預測機制可能會成功,也可能會失敗。一旦我們否認數據處理過程中存在著主觀因素,失敗的概率就會增加。

在4年時間里,我對十多個行業和領域中的數據驅動預測機制進行了調查,我也曾與十幾個領域中的100多位專家交流過,讀過數百篇期刊文章和論文,為了實地調查,我跑遍了從拉斯韋加斯到哥本哈根的許多地方,卻發現"大數據"時代的預測活動發展得并不順利。

新千年給美國人帶來的是噩夢般的開始。我們沒有預測到"9·11"恐怖襲擊事件,而這一慘劇的出現并非因為我們的信息匱乏。正如60年前的"珍珠港事件"一樣,其實所有的信號都在那里,只是我們沒能將它們聯系起來。因為對恐怖分子可能會有的舉動不夠了解,所以我們對那些數據視而不見,不知道大難將至。

近期,對全球金融危機的預測也總是失敗。我們天真地相信各種(預測)模式,卻沒有認識到這些模式在我們進行假設選擇時根本不堪一擊,因此總會帶來慘痛的后果。在日常生活中,我發現盡管人們也在努力嘗試,卻仍然無法提早預測出經濟衰退。幸好在控制通脹方面,我們已經取得長足進步,否則那些經濟決策者就只能"盲目飛行"了。

與20世紀70年代一樣,近來人們十分熱衷于對地震進行預測,其中大部分高度依賴數學方法和數據處理技術。但是,這些預測只是假想一些從未發生過的地震,對真正發生的那些地震卻沒有預測到。

錯誤地預測整個學科的發展常會危及整個社會。以生物醫藥學的研究為例。2005年,一位土生土長的雅典人,醫學研究者約翰·P·埃尼迪斯,發表了一篇頗具爭議性的論文—《為什么大多數發表的研究成果都是騙人的》。

這些大數據終將推動社會進步,至于這種進步的速度有多快,或者進步的同時是否還會倒退,這些都取決于我們自己。

人類并沒有多少天生的防御能力,人類的速度沒有多么快,身體也沒有多么強壯;人類沒有利爪和尖牙,也沒有護身的硬殼;人類不能噴出毒液,不能偽裝自己,也不能飛翔。我們之所以能生存下來,是因為我們運用了智慧。

在1970年出版的《未來的沖擊》一書中,未來學大師阿爾文·托夫勒對他所說的"信息超負荷"的一些后果進行了預測。他認為,盡管世界本身正走向分化,變得更加復雜,但人類仍會以堅持自身看法的方式使這個世界變得簡單,這便是我們的防御機制。

正是出于這個原因,我將預測視為人們共同的事業。雖然預測很難,但解決方法還是有的。

在任何一個數據豐富的領域,尋找模式很容易,一般的預測者也都是這么做的。關鍵是要分辨出這些模式到底是噪聲還是信號。雖然還沒有找到關鍵點,但是有一種思維過程可以幫助我們作決定,這就是貝葉斯定理。

預測和貝葉斯定理

托馬斯·貝葉斯,大概于1701年出生。盡管貝葉斯所著圖書的種類并不算多,但還是被選為英國皇家學會會員。在英國皇家學會,他擔任內部評論家或者智力辯論的裁判員。

貝葉斯的作品《機會的學說概論》,又稱《論有關機遇問題的求解》,直到他1763年去世之后,由他的朋友理查德·普萊斯引介到英國皇家學會,引起了學會的注意,隨后才得以出版。這部作品主要研究的是,當我們遇到新數據時,該如何使用概率的方法進行推理。

今天公認的貝葉斯定理就是一個普通的不能再普通的數學表達式,是由法國數學家、天文學家拉普拉斯推導出來的:

然而,就是這樣一個簡單的運算,卻可以推導出重大的預測。

貝葉斯定理涉及條件概率,也就是說,一旦發生了某個事件,這一定理就可以告訴我們一種理論或假設是否正確。

假設你和伴侶同住,某天出差回家后發現自己的衣櫥里多出一件陌生的內衣。你可能會奇怪:自己的伴侶是不是出軌了?不論你相信與否,對于這樣的問題,貝葉斯定理總能給出答案—假如你知道(或愿意預估)下列3個量。

第一,你需要預測出自己的伴侶在出軌的情況下,這件內衣出現的概率。為了解決這個問題,我們暫且假設你是一位女性,而你的伴侶是一位男性,那么,此時我們所說的內衣就是一件女式內衣。如果你的伴侶出軌了,那么很容易想象這件內衣是如何進入你的衣櫥的。那么,即使他確實要做對不起你的事,你也希望他能夠小心行事。在他確實背叛了你的情況下,我們認為,這件內衣出現的概率是50%。

第二,你需要預測出自己的伴侶在沒有出軌的情況下,這件內衣出現的概率。如果他沒有出軌,有什么理由證明那件內衣的清白呢?當然有些理由會令人不快(比如這件內衣也有可能是他自己的)。或許,他把衣服搞混了;或者你的伴侶有一位紅顏知己,兩人之間只存在純友誼,而你對此也深信不疑,她寄宿一晚忘了帶走內衣;或者這就是你的伴侶給你準備的一件禮物,只不過忘了把它包起來。盡管這些理由有些荒謬,但也能說得通。你將這種情況出現的概率定為5%。

第三,這點最為重要,你需要預測貝葉斯定理中所說的先驗概率(或者簡稱先驗)。在發現內衣之前,你認為自己的伴侶出軌的概率有多大?當然,現在很難完全客觀地考慮這個問題,因為你已經發現了內衣。(在理想狀態下,在開始查驗證據之前,你就已經算出了先驗概率。)但有時我們可以依據經驗推斷某事件發生的概率。比如,研究發現,已婚夫婦任何一年的出軌概率都在4%左右,所以,我們可以將這個概率視為先驗概率。

如果我們算出了以上3個概率值,就可以依據貝葉斯定理得出后驗概率:只有29%,這個結果也許看似仍有悖常理—那件內衣果真是清白的嗎?但這一概率之所以較低,是因為你把伴侶出軌的先驗概率設定得很低。盡管一個清白的男人不能像出過軌的男人那樣,能為一件陌生內衣的出現找出很多看似合理的解釋,但你一開始就把他當作清白的人,這一點對方程式影響很大。

這里,我還要提到一個比較沉重的例子:"9·11"恐怖襲擊事件。2001年9月11日清晨,當我們從夢中醒來時,大部分人都想不到恐怖分子的飛機會撞向曼哈頓世貿中心大樓。但是,世貿中心第一次遭遇襲擊之后,我們才意識到這也許是一次恐怖襲擊。直到第二座高樓被襲擊之后,我們才相信確實遭遇了恐怖襲擊。

貝葉斯定理可以復制這個結果。比如,在第一架飛機撞擊大樓之前,我們預測曼哈頓的高樓遭遇恐怖襲擊的概率只有1∶20000或0.005%。當然,我們還是會認為世貿中心意外遭遇飛機撞擊的概率是非常低的。人們靠經驗也能準確地預測出0.005%這個數字。9月11日之前的25000天,一直有飛機盤旋在曼哈頓的上空,而期間只發生了兩次這樣的意外事故:一次是1945年的美國帝國大廈事件,另一次是1946年的川普大廈事件。這樣看來,此類意外事故的日發生概率只有1∶12500。在第一架飛機撞上世貿中心大樓的那一刻,如果用貝葉斯定理計算這些數據,發生恐怖襲擊的概率便會從0.005%劇增至38%。

然而,貝葉斯定理暗含的意思并不是說,我們對概率的預測只可以作一次更新,相反的,鑒于新證據的不斷涌現,我們需要不斷地更新自己的預測結果。于是,第一次恐怖襲擊的后驗概率38%,在第二次襲擊之前就會變成先驗概率。這時再來進行世貿中心遭遇第二次恐怖襲擊的概率運算,遭遇襲擊的概率就變成了99.999%,這就表示恐怖襲擊必會出現。在陽光燦爛的紐約出現意外事故的概率很低,而就像我們推斷出來的可怕結果一樣,第二次恐怖襲擊很有可能會發生。

不斷犯錯,不斷嘗試,這或許是貝葉斯定理應用起來最容易的一個原則。或者說,一旦獲得新信息,我們就應該更新自己的預測。

關鍵字:大數據

本文摘自:投資時報

x 大數據的承諾和陷阱 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據的承諾和陷阱

責任編輯:editor004 |來源:企業網D1Net  2013-11-28 17:16:58 本文摘自:投資時報

舍恩伯格那種放棄因果關系而只考察相關性的思路,與其說是一種進步,倒不如說是一種思維紊亂。因為它不利于我們的下一步預測,也無法采取行動

為什么我們知道的多,困惑卻更多?

我們時時刻刻都在預測:太陽會不會照常升起?廣州恒大能不能奪得冠軍?A股明天會不會大漲?朋友創辦的這家公司能不能獲得風險投資?……我們也無時無刻不在驗證過往的預測,而且往往帶有成本和收益,比如賭球、炒股或者創業,結果都會帶來正負收益。

在預測和證實(證偽)之間,是我們無意識的信念或精心建構的理論。從笛卡爾到康德,從卡爾·波普到索羅斯,關于我們如何發現規律并作出預測,有無數的研究和哲學探討。而今天,隨著大數據時代的來臨,又有很多專家開始反思這個經典的認識論問題,并為之添加談資和養料。

舍恩伯格是"大數據"概念的著名吹鼓手,其著作《大數據時代》認為,隨著人們看待數據的方式的變化—從局部變為全部以及從純凈變為凌亂,思維方式也應該轉型,即從因果關系轉向相關性。或者說,只要知道"是什么",而不需要知道"為什么"。

他在書中提到這樣一個例子:統計學家們用二手車數據建立了一個算法系統,來預測哪些車更可能出現質量問題。相關性分析表明,橙色車出現質量問題的可能性只有其他車的一半。

這是為什么呢?因為橙色車的車主更愛車?橙色車在制造方面更精良?還是因為橙色車更顯眼、出車禍的概率更小?不知道,舍恩伯格也認為無須知道。

不過,這種看重相關性而不追究因果關系的思路,其實是不利于預測和下一步行動的。比如,我們是不是應該建議車主把車漆成橙色呢?這樣會使車輛減少質量問題嗎?不知道。因為橙色和車輛出現質量問題之間的內部關系,我們不清楚。

有個經典的社會學考題是這樣的:冰淇淋的銷量和強奸案的發生率存在線性關系,即一個增長,另一個也增長。不過,兩者之間顯然沒有因果關系,而只有相關關系。另一個變量,即天氣變暖,才是兩者之間的真正橋梁。

所以,舍恩伯格這種放棄因果關系而只考察相關性的思路,與其說是一種進步,倒不如說是一種思維紊亂。因為它不利于我們的下一步預測,也無法采取行動。

而新書《信號與噪聲》恰好是一針清醒劑。作者納特·西爾弗認為,在任何一個數據豐富的領域,尋找預測模式都很容易。關鍵是要分辨出這些模式到底是噪聲還是信號。而關于概率運算的貝葉斯定理,仍然是西爾弗推崇的一種預測思路。

他舉了天氣預報、政治選舉預測、地震預測、棋牌游戲、股市、恐怖襲擊等多個領域的例子,認為我們對未來的預測,應該基于可能性,以概率的方法思考問題,在不斷試錯中進步。像天氣預報就是這樣的典型,比如氣象小姐會說,明日降水概率為60%。而且,西爾弗指出,在過去25年里,颶風中心的預測準確率提高了350%,這是其他領域根本無法企及的進步。

試錯法,是哲學家卡爾·波普推崇的科學研究方法。而西爾弗發現,一個成功的NBA球賽賭徒也是如此:大膽預測,不斷犯錯,不斷嘗試。只要獲得新信息,就應該更新自己的預測。

這是一種更加進取的思維方式,又何嘗不是一種嶄新的生活理念呢?

黃锫堅

文|納特·西爾弗

1440年,約翰內斯·古騰堡發明了印刷機,這項發明使普通民眾能方便地了解信息,由此產生的思想洪流帶來了前所未有的結果和影響。印刷機的發明點燃了1775年的工業革命之火。這一發明促成了一些歷史事件,這些事件開啟了歐洲啟蒙運動,也加速了美利堅合眾國的建立。

印刷機問世的第一個世紀里,書籍的生產規模呈指數型增長,數量增長了近30倍。人類知識旋即進入快速積累期。

信息的增長速度遠遠超過了人們處理信息和分辨信息的速度。共享信息的不斷增長反而加速了民族和宗教的孤立進程。

印刷機的早期使用者中,最狂熱的要數那些傳播福音的人了。馬丁·路德的《九十五條論綱》被古騰堡的印刷機復印了30多萬次。路德的新教改革所導致的教會分裂,很快使歐洲陷入了戰爭。單單一個三十年戰爭,德國人口就減少了1/3。這堪稱人類歷史上最血腥的時代。

但就是在這樣一個充滿戰亂的時代,印刷機卻悄然推動著科學與文學的進步。

大數據的承諾和陷阱

到了時下,最流行的要數"大數據"了。根據IBM的估計數據,現在我們每天生成的數據高達250兆億個字節,超過過去兩年里生成的數據總量的90%。

信息的指數型增長有時被人們視為萬靈藥,就好比20世紀70年代出現的計算機一樣。《連線》雜志的前主編克里斯·安德森曾經在2008年的一篇文章中說:"數量龐大的數據會使人們不再需要理論,甚至不再需要科學的方法。"

我認為其內容是積極樂觀的,卻被嚴重曲解了。雖然那些數字不能為自己辯護,但我們卻可以作為數字的發言人,賦予它們意義。我們可能會以對自己有利的方式對這些數據進行分析和解釋,而這些方式很可能與這些數據(所代表)的客觀現實不相吻合。數據驅動預測機制可能會成功,也可能會失敗。一旦我們否認數據處理過程中存在著主觀因素,失敗的概率就會增加。

在4年時間里,我對十多個行業和領域中的數據驅動預測機制進行了調查,我也曾與十幾個領域中的100多位專家交流過,讀過數百篇期刊文章和論文,為了實地調查,我跑遍了從拉斯韋加斯到哥本哈根的許多地方,卻發現"大數據"時代的預測活動發展得并不順利。

新千年給美國人帶來的是噩夢般的開始。我們沒有預測到"9·11"恐怖襲擊事件,而這一慘劇的出現并非因為我們的信息匱乏。正如60年前的"珍珠港事件"一樣,其實所有的信號都在那里,只是我們沒能將它們聯系起來。因為對恐怖分子可能會有的舉動不夠了解,所以我們對那些數據視而不見,不知道大難將至。

近期,對全球金融危機的預測也總是失敗。我們天真地相信各種(預測)模式,卻沒有認識到這些模式在我們進行假設選擇時根本不堪一擊,因此總會帶來慘痛的后果。在日常生活中,我發現盡管人們也在努力嘗試,卻仍然無法提早預測出經濟衰退。幸好在控制通脹方面,我們已經取得長足進步,否則那些經濟決策者就只能"盲目飛行"了。

與20世紀70年代一樣,近來人們十分熱衷于對地震進行預測,其中大部分高度依賴數學方法和數據處理技術。但是,這些預測只是假想一些從未發生過的地震,對真正發生的那些地震卻沒有預測到。

錯誤地預測整個學科的發展常會危及整個社會。以生物醫藥學的研究為例。2005年,一位土生土長的雅典人,醫學研究者約翰·P·埃尼迪斯,發表了一篇頗具爭議性的論文—《為什么大多數發表的研究成果都是騙人的》。

這些大數據終將推動社會進步,至于這種進步的速度有多快,或者進步的同時是否還會倒退,這些都取決于我們自己。

人類并沒有多少天生的防御能力,人類的速度沒有多么快,身體也沒有多么強壯;人類沒有利爪和尖牙,也沒有護身的硬殼;人類不能噴出毒液,不能偽裝自己,也不能飛翔。我們之所以能生存下來,是因為我們運用了智慧。

在1970年出版的《未來的沖擊》一書中,未來學大師阿爾文·托夫勒對他所說的"信息超負荷"的一些后果進行了預測。他認為,盡管世界本身正走向分化,變得更加復雜,但人類仍會以堅持自身看法的方式使這個世界變得簡單,這便是我們的防御機制。

正是出于這個原因,我將預測視為人們共同的事業。雖然預測很難,但解決方法還是有的。

在任何一個數據豐富的領域,尋找模式很容易,一般的預測者也都是這么做的。關鍵是要分辨出這些模式到底是噪聲還是信號。雖然還沒有找到關鍵點,但是有一種思維過程可以幫助我們作決定,這就是貝葉斯定理。

預測和貝葉斯定理

托馬斯·貝葉斯,大概于1701年出生。盡管貝葉斯所著圖書的種類并不算多,但還是被選為英國皇家學會會員。在英國皇家學會,他擔任內部評論家或者智力辯論的裁判員。

貝葉斯的作品《機會的學說概論》,又稱《論有關機遇問題的求解》,直到他1763年去世之后,由他的朋友理查德·普萊斯引介到英國皇家學會,引起了學會的注意,隨后才得以出版。這部作品主要研究的是,當我們遇到新數據時,該如何使用概率的方法進行推理。

今天公認的貝葉斯定理就是一個普通的不能再普通的數學表達式,是由法國數學家、天文學家拉普拉斯推導出來的:

然而,就是這樣一個簡單的運算,卻可以推導出重大的預測。

貝葉斯定理涉及條件概率,也就是說,一旦發生了某個事件,這一定理就可以告訴我們一種理論或假設是否正確。

假設你和伴侶同住,某天出差回家后發現自己的衣櫥里多出一件陌生的內衣。你可能會奇怪:自己的伴侶是不是出軌了?不論你相信與否,對于這樣的問題,貝葉斯定理總能給出答案—假如你知道(或愿意預估)下列3個量。

第一,你需要預測出自己的伴侶在出軌的情況下,這件內衣出現的概率。為了解決這個問題,我們暫且假設你是一位女性,而你的伴侶是一位男性,那么,此時我們所說的內衣就是一件女式內衣。如果你的伴侶出軌了,那么很容易想象這件內衣是如何進入你的衣櫥的。那么,即使他確實要做對不起你的事,你也希望他能夠小心行事。在他確實背叛了你的情況下,我們認為,這件內衣出現的概率是50%。

第二,你需要預測出自己的伴侶在沒有出軌的情況下,這件內衣出現的概率。如果他沒有出軌,有什么理由證明那件內衣的清白呢?當然有些理由會令人不快(比如這件內衣也有可能是他自己的)。或許,他把衣服搞混了;或者你的伴侶有一位紅顏知己,兩人之間只存在純友誼,而你對此也深信不疑,她寄宿一晚忘了帶走內衣;或者這就是你的伴侶給你準備的一件禮物,只不過忘了把它包起來。盡管這些理由有些荒謬,但也能說得通。你將這種情況出現的概率定為5%。

第三,這點最為重要,你需要預測貝葉斯定理中所說的先驗概率(或者簡稱先驗)。在發現內衣之前,你認為自己的伴侶出軌的概率有多大?當然,現在很難完全客觀地考慮這個問題,因為你已經發現了內衣。(在理想狀態下,在開始查驗證據之前,你就已經算出了先驗概率。)但有時我們可以依據經驗推斷某事件發生的概率。比如,研究發現,已婚夫婦任何一年的出軌概率都在4%左右,所以,我們可以將這個概率視為先驗概率。

如果我們算出了以上3個概率值,就可以依據貝葉斯定理得出后驗概率:只有29%,這個結果也許看似仍有悖常理—那件內衣果真是清白的嗎?但這一概率之所以較低,是因為你把伴侶出軌的先驗概率設定得很低。盡管一個清白的男人不能像出過軌的男人那樣,能為一件陌生內衣的出現找出很多看似合理的解釋,但你一開始就把他當作清白的人,這一點對方程式影響很大。

這里,我還要提到一個比較沉重的例子:"9·11"恐怖襲擊事件。2001年9月11日清晨,當我們從夢中醒來時,大部分人都想不到恐怖分子的飛機會撞向曼哈頓世貿中心大樓。但是,世貿中心第一次遭遇襲擊之后,我們才意識到這也許是一次恐怖襲擊。直到第二座高樓被襲擊之后,我們才相信確實遭遇了恐怖襲擊。

貝葉斯定理可以復制這個結果。比如,在第一架飛機撞擊大樓之前,我們預測曼哈頓的高樓遭遇恐怖襲擊的概率只有1∶20000或0.005%。當然,我們還是會認為世貿中心意外遭遇飛機撞擊的概率是非常低的。人們靠經驗也能準確地預測出0.005%這個數字。9月11日之前的25000天,一直有飛機盤旋在曼哈頓的上空,而期間只發生了兩次這樣的意外事故:一次是1945年的美國帝國大廈事件,另一次是1946年的川普大廈事件。這樣看來,此類意外事故的日發生概率只有1∶12500。在第一架飛機撞上世貿中心大樓的那一刻,如果用貝葉斯定理計算這些數據,發生恐怖襲擊的概率便會從0.005%劇增至38%。

然而,貝葉斯定理暗含的意思并不是說,我們對概率的預測只可以作一次更新,相反的,鑒于新證據的不斷涌現,我們需要不斷地更新自己的預測結果。于是,第一次恐怖襲擊的后驗概率38%,在第二次襲擊之前就會變成先驗概率。這時再來進行世貿中心遭遇第二次恐怖襲擊的概率運算,遭遇襲擊的概率就變成了99.999%,這就表示恐怖襲擊必會出現。在陽光燦爛的紐約出現意外事故的概率很低,而就像我們推斷出來的可怕結果一樣,第二次恐怖襲擊很有可能會發生。

不斷犯錯,不斷嘗試,這或許是貝葉斯定理應用起來最容易的一個原則。或者說,一旦獲得新信息,我們就應該更新自己的預測。

關鍵字:大數據

本文摘自:投資時報

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 彭山县| 浙江省| 西林县| 务川| 桂东县| 英吉沙县| 枝江市| 宾川县| 木兰县| 武川县| 景东| 会泽县| 剑阁县| 吉水县| 寻甸| 舞钢市| 新疆| 定西市| 红桥区| 武定县| 克什克腾旗| 清水河县| 黄冈市| 马关县| 西宁市| 二连浩特市| 米易县| 科尔| 景宁| 金平| 永寿县| 毕节市| 鹤峰县| 南岸区| 开封县| 襄垣县| 安溪县| 罗田县| 会东县| 留坝县| 西乡县|