精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

運用大數據尋覓真相 是否可靠

責任編輯:editor004

2014-01-21 10:30:02

摘自:中文網

科技進步最大的悖論在于,科技進步既讓我們邁入能更準確預測未來的大數據時代,但科技的進步也成為我們預測未來的最大變數。科技進步最大的悖論在于,科技進步既讓我們邁入能更準確預測未來的大數據時代,但科技的進步也成為我們預測未來的最大變數

“信息越多,越靠近真相”——真是這樣嗎?

科技進步最大的悖論在于,科技進步既讓我們邁入能更準確預測未來的大數據時代,但科技的進步也成為我們預測未來的最大變數。

“信息越多,越靠近真相”——真是這樣嗎?

納特 西爾弗(Nate Silver)在《信號與噪聲》一書對這句話提出了疑問。人們普遍認同的邏輯一般是:信息越多,信息流動速度越快,人們對未來的預測越準確,從而越能做出更合理的決策。但是且慢,你怎么知道你 Google 到的“信息”是有用的“信號”(有用的信息),還是干擾你的“噪聲”(無關/無用的信息)呢?我的意思是,如果你在時間充裕,方法/模型適當的條件下,你可以辨別出信號,做出合理決策。但現實往往是,你基本上總是不會擁有充裕的時間,甚至使用的方法/模型也不合適。在信息增長越來越快的現在,我們面臨這樣的困境會越來越多。

《自然》雜志曾刊登過一項研究,研究發現:美國幾大政黨對全球變暖的問題了解越多,他們之間達成共識的可能性就越小。 我們現在(這里的“現在”得比《信號與噪聲》出版時間的2012年9月更早)每天產生250兆億字節,如果信息每天以這個速度增長,其中有用的信息肯定接近于零。其中大部分信息都只是噪聲而已,而且噪聲的增長速度要比信號快得多。其中有太多假設需要驗證,有太多數據需要發掘,但客觀事實的數量卻是個相對恒量。人腦能力非凡,但根據IBM的分析,人腦的存儲量不過是全球每天所產生信息量的百萬分之一而已。我們對自己記憶的信息一定需要精心挑選才行。

以美國經濟預測為例。美國政府每年公布的數據,與經濟指標直接相關的有4.5萬個,而私人數據提供者要追蹤高達400萬個統計數據。一些經濟學家忍不住想要把所有數據都混合在一起,并給一般的數據穿上優質的“外衣”。第二次世界大戰之后只出現了11次經濟衰退的情況,如果一個統計模型試圖解釋這11次衰退帶來的后果,就必須從400萬個數據中選擇數據,由此得出的許多相關性都將會帶有欺騙性。大數據專家熱愛相關性,但如果我們不能分析出因果,我們永遠無法確定該采用哪些指標去判斷下一次經濟衰退的跡象。

人們將噪聲誤認為信號的行為,在統計學上被稱為“過度擬合”(overfit)。人類大腦的工作方式是捕捉規律,并且預測。一般來講,智商高的人的神經網絡學習能力更強,這意味著他捕捉規律的能力也越強。捕捉規律能力強意味著,對于很少的樣本中隱含的不明顯的“規律”他們也能捕捉出來。

但從很少的樣本或噪聲過多的樣本中總結出“規律”來是極為危險的事——自然界的運行很多時候并沒有確定的規律,我們帶著一雙為了發現規律的眼睛去挖掘總結,結果卻聰明反被聰明誤了。關于過度擬合的解釋,馮 諾伊曼曾有一個形象的描述:給我4個參數,我就能擬合出一頭大象,如果再加1個參數,我就可以讓這頭大象甩動它的鼻子。除了人類大腦,現在的機器學習也容易發生這樣過度擬合的現象。

過度擬合在現實中往往是被鼓勵的。無論汶川地震還是雅安地震之后,地震云或豬亂跳、羊亂叫之類的怪現象總會在微博、貼吧或論壇上流行。比如百度貼吧還有人整理了一份地震前兆大全,如果僅靠這些所謂前兆就能預測地震,那每年也不至于死傷那么多人、損失無數財產了。這是最為糟糕和最為淺顯的過度擬合例子——把毫無關系的噪聲當成了信號,從而認為噪聲與事實相關。過度擬合現象在學術上也經常發生,邏輯非常好理解:提煉出模型總是引人關注,引人關注則更容易在學術期刊得到推介,也更容易被人引用,從而將其它可靠但可能沒有模型化的理論排擠出市場。

預測失敗,除了與我們將噪聲當成信號以外,還跟我們對科技的發展無法預判有關。比如在19世紀末,一位《倫敦時報》的作家在研究倫敦街道上的馬糞問題時說到:大約到20世紀40年代,倫敦每條街道會被厚達2.7米的馬糞覆蓋。但他所沒預料到的是,大約十年后,亨利 福特開始生產 T型汽車。

倫敦不僅避免了馬糞危機,與馬和汽車周邊的產業都發生了變革——鐵匠工人失業,馬場關門,油田工人、制造工人與裝配工人卻成為市場稀缺資源。舉個更近的例子吧,在iPhone發布之前的2006年,誰又能知道諾基亞會在僅僅七年后以72億美元的價格出售?

科技進步最大的悖論在于,科技進步既讓我們邁入能更準確預測未來的大數據時代,但科技的進步也成為我們預測未來的最大變數。

文章僅代表作者觀點,并不代表網站觀點和對其真實性負責,目的在于傳遞信息。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 灵宝市| 彰化县| 湖口县| 本溪| 安阳市| 永济市| 巢湖市| 罗山县| 福鼎市| 淳安县| 罗甸县| 新沂市| 柏乡县| 疏附县| 监利县| 宕昌县| 龙井市| 赫章县| 巨鹿县| 侯马市| 延寿县| 射阳县| 宜兴市| 汪清县| 康保县| 哈密市| 阆中市| 分宜县| 娄烦县| 任丘市| 惠水县| 广丰县| 体育| 确山县| 油尖旺区| 阆中市| 西吉县| 聂荣县| 长武县| 马龙县| 增城市|