Donald Trump意外贏得總統大選,讓媒體,民意測驗專家反思數據的預測能力。
在美國總統選舉的前一天,大量的頭條新聞中,有一條是驚人的:“Man Nostalgic For Simpler Era Of 20 Hours Ago.”
一個原因:這很有趣;來自諷刺新聞,洋蔥新聞(The Onion)。另外:隱含在其中的是信念——直到大約60個小時前,幾乎全世界——都認為共和黨候選人、企業家和真人秀明星Donald J. Trump,不會,也不可能贏。
周二晚上,投票之前,總統大選預測都支持這一信念。The New York Times認為民主黨候選人Hillary Clinton獲勝的幾率為85%; The Huffington Post認為是98%。FiveThirtyEight網站的 Nate Silver,預測大神,認為勝率為71%。
Trump獲勝的機會,大約為30%,麻省理工學院斯隆管理學院教授Erik Brynjolfsson說。
“并不是0%,”Brynjolfsson在一封電子郵件中寫道。“只有30%可能發生的事情,是會發生的。”
幾率更低的事情,也發生過。比如,在2016年世界大賽,四場比賽之后,Chicago Cubs贏得冠軍的幾率只有15%,根據FiveThirtyEight。但是,在11月2日的第七場比賽,他們獲得了冠軍,在時隔108年后。
雖然結果在科學上,并不是令人震驚的——Brynjolfsson說,數據科學家使用的是概率,而不是確定性——但是這也為任何依賴數據的人,那些對政治或商業環境做出預測的人,敲響了警鐘。
猶在鏡中
但,為什么使用先進的分析工具和數據建模,沒有能夠預測出最后Trump贏得勝利呢?
對于那些負責報道美國總統競選的記者,這是一個失敗,Jim Rutenberg寫道,他是The New York Times的媒體專欄作家。他們沒有準確地反映那些在大蕭條結束7年后,感到被剝奪權利的選民的憤怒,就像英國媒體在今年早些時候,對于英國脫離歐盟,在投票前,也錯過了信號。
“很明顯, 新聞體系中有些東西徹底破碎了,已經無法跟上這一讓世界顛倒的反政府情緒,”Rutenberg寫道。
很多民意調查專家,都責備自己。The Huffington Post的高級調查編輯,Natalie Jackson說,她對于調查的堅定信任,使她誤入歧途。
“我沒有任何理由,質疑調查是準確的。所以我維護,站在數字這邊——就像任何信任他們工作的人一樣,” Jackson寫道。“這讓我很羞愧。”
HuffPost使用的數據建模,僅僅依賴民意調查, Jackson寫道。它沒有考慮經濟指標,或者很少有政黨可以連續三屆贏得總統選舉。
“隱性成本”
分析可以非常強大, John Elder說,預測分析機構Elder Research的創始人,但它在政治這一領域,可能很脆弱,因為人類情感和價值觀占很大比重。還有所謂的“隱性成本。”他是這樣解釋的:Trump的支持者認為,媒體對于自由主義,有根深蒂固的偏見,而競爭對手,民主黨候選人,可能不想被他們或任何人批判。所以他們沒有做出回應。
“如果你是Trump的支持者,你知道媒體會怎么看你,”Elder說。“如果你在大學或在職業環境中,明確自己是Trump支持者,有著很高的社會成本。”
Robin Young,National Public Radio節目Here and Now的主持人,談到在總統選舉預測中,說謊是否是個因素:選民對于他們的投票,是否給了虛假信息?她跟共和黨民意調查專家,Whit Ayres,North Star Research的主席,在波士頓NPR電臺,WBUR-FM中對話。
“我不相信有一個說謊的統一模式,但我相信,我們中的許多人——包括我本人,都認為民意調查顯示,最后Clinton會獲得勝利。”
Trump,Ayres說,在正確的地方獲得了正確的投票——搖擺州,佛羅里達,密歇根,賓夕法尼亞,和威斯康星——為他贏得了選舉票,而Clinton贏得了大眾選票。
優良數據,優良解讀
Brynjolfsson認為主要教訓是:數據很重要,但數據質量更重要。
“你需要認真思考,你輸入到模型中的數據是否是準確的,完整的,并且沒有系統的缺陷,”他寫道。
在未來的選舉中,更好的數據模型可以幫助發現難以探測的信號,Elder說。例如,獲得關于選民更特定的信息——比如他們是否喜歡納斯卡車賽或芭蕾舞,或他們的愛好是什么,來判斷他們會如何投票,來增加準確性。但這并不容易,尤其是在一個更喜歡使用手機而不是固定電話的時代,而選民在應答電話前,會查詢來電信息。
“選民能覺察到民意調查,”他說。“在我小時候,電話響了,你接起來,你就回答問題。”