特朗普“意外”勝選并不是大數據出了錯
北京時間11月15日消息,據外媒報道,希拉里在大選投票開始前曾一路領先,在各種統計數據上她都力壓特朗普,大多數人堅信她會成為美國首任女總統。不過結果大家也知道,希拉里輸了。于是人們開始怪罪數據,覺得它們并非萬能。
不過,其實希拉里的敗選并非數據之錯,真正出問題的是預測和分析,而這兩項任務是人類來主導的。數據還是那個數據,但分析的人卻缺乏深度。
大數據之辯
關于這次大選預測和分析失誤的爭論一般都集中在兩點:1.民調方式是否出錯;2.民調數據未能反映社會真實狀況。
確實,許多民調都低估了特朗普支持者的實力。上周二的大選也成了民調行業的又一個黑歷史,此前它們就因為預測錯誤而廣遭質疑,同時,它們還面臨著數個結構性難題。不過,民調的本意并非用來預測,它們只是盛滿數據點眾多籃子中的一個。
本次大選結果跌破眼鏡的主要原因是我們未能跳出民調的牢籠并找出提升政治預測準確度的數據集,而這將成為情緒波動時代預測大選的關鍵。
數據的準確度并未降低,只是我們必須以創新的眼光看待它。
就拿數據分析公司Predata來說,它們就換了個方式來理解數據。鑒于路邊采訪的民調逐漸向互聯網轉變,該公司專門開發了采集網民民意變化信號的方法,為了收集這些信號,該公司每天都要分析成千上萬個數據點。
人類的失誤,非大數據之過
在希拉里必勝新聞的刺激下,分析師錯估了形勢,忽視了特朗普在佛羅里達和其他搖擺州的巨大領先優勢。這不是數據之錯,而是人之失誤。
所有的數據集和數據預測模型,即使是那些依靠人工智能來分析的預測,從一定程度上來說,都會帶有它們創造者的偏見。因此,無論是民調還是預測,都帶有極強的主觀性。收集數據、處理數據、解析數據的過程是大數據分析的必由之路,我們需要懂得的是這些數據到底能告訴我們什么,懂得它的潛力和極限并學會在不同背景下如何精確的對其進行分析。
彌合極客與詩人間的鴻溝
在大選上,極客(即數據科學家)與詩人(新聞報道者)之間存在巨大的文化差異,上周二的大選結果也顯示,兩者都無法獨占真理。如果想在紛繁的數據中去偽存真,就必須將兩者的觀點結合起來。
也就是說,想要正確預測大選,我們不但要掌握第一手數據,還得重視各種觀點犀利的報道,這樣才能將數據與現實相結合,得出兩者之間的交集。
在大數據的海洋中,人類依然是一葉扁舟,大選預測的偏差并不是我們放棄這一科學方法的理由。相反,這次挫折是讓我們時刻保持謙虛,在失敗中成長的催化劑。只有借助靈活的思想和對極限的認識,我們才能讓大數據分析重回正軌。