本文作者加里·史密斯是美國波莫納學院經濟學教授,耶魯大學經濟學博士。主要從事金融市場效率,統計謬誤和數據濫用方面的研究。累計發表學術論文80余篇,專著12本。他的評論文章曾發表于福布斯雜志、紐約時報、華爾街日報、商業周刊等。史密斯是牛津大學出版社即將出版的新書《The AI Delusion》的作者。
2008年的民主黨總統初選本該是希拉里·克林頓的加冕典禮。她是當時勝算最大的總統候選人,黨內支持率最高且競選資金雄厚。
然而希拉里并未如愿以償。一位名不見經傳的黑人男子——貝拉克•奧巴馬最終贏得民主黨總統候選人提名。奧巴馬在隨后的總統選舉中一舉擊敗共和黨候選人約翰·麥凱恩。讓人難以抗拒的個人魅力和一流的演講口才是奧巴馬的制勝秘訣,而大數據在競選中扮演的角色似乎更為重要。
奧巴馬的競選團隊收集了每位潛在選民的個人信息并錄入數據庫,包括:年齡、性別、婚姻狀況、種族、宗教信仰、地址、職業、收入、車輛信息、房屋價值、捐贈歷史、雜志訂閱、休閑活動、臉書好友以及能找到的任何其它相關的信息。
競選團隊每周對潛在選民進行電話調查,試圖測算出每個人投票的可能性及將票投給奧巴馬的概率。在統計學上,選民的投票傾向與某些個人特性緊密相關,利用大數據建模就能推斷出潛在選民的投票傾向。因此,奧巴馬競選團隊能夠利用數據庫中的選民信息,建模分析并預測每位選民的投票可能性及支持奧巴馬的概率。
這種數據驅動的分析模式使得奧巴馬的競選團隊能精準地定位到每位選民,并采取有針對性的措施(電子郵件、普通郵件、面對面拜訪或電視廣告)來影響他們,從而獲得政治捐款或是鼓動投票。2008年1月是總統大選的關鍵時期,這時奧巴馬就已籌集到3600萬美元捐款,創下候選人籌款紀錄,這一數額幾乎是希拉里籌款額的3倍。在奧巴馬獲得提名后,籌款仍在繼續。2008年全年,奧巴馬共籌集到7.8億美元捐款,是其競選對手約翰·麥凱恩募集金額的兩倍多。單就籌款金額而言,麥凱恩已毫無勝算,最終奧巴馬以365票對173票戰勝麥凱恩贏得大選。
8年后,希拉里·克林頓再次參加總統大選,并利用大數據助陣。
希拉里的競選團隊聘請了60位數學家和統計學家,其中幾位曾為奧巴馬服務過,他們開發了一款名為“阿達”(Ada,為紀念19世紀的女數學家阿達·洛芙萊斯)的軟件程序。若成功當選美國歷史上首位女總統,希拉里將向世人炫耀“阿達”就是其成功的秘訣。多么棒的故事!
希拉里競選團隊
希拉里的競選團隊將70%的競選資金用于電視廣告,而這些廣告上花費的每一美元都由“阿達”來決定。團隊并沒有征求有經驗的媒體顧問的建議。
沒有人知道“阿達”是如何作出這些決策的,但人們深信,分析了海量數據的她功能非常強大。所以,人們覺得她就像一個無所不知的女神。無需置疑,只需聽從。
我們都知道,在“阿達”的程序設計中,藍領選民是民主黨穩定的票倉,因為一直以來他們都支持民主黨,上一次投給了奧巴馬,所以這次也會一如既往地支持希拉里。有了藍領選民的絕對支持,希拉里只要說服少數派和自由派精英為其投票就能勝選。
民主黨數據分析公司官網
然而這一次,大數據失敗了。
“阿達”只是一個計算機程序,和所有計算機程序一樣,它們都缺乏常識,或者說并沒有智慧。任何一個關注總統選舉的人都注意到希拉里在與伯尼·桑德斯的對決中險些敗下陣來,而伯尼·桑德斯只是一位來自佛蒙特州的籍籍無名的74歲參議員,而且他還是一名社會主義者。在他決心挑戰希拉里之前,甚至還不是民主黨人。對于這樣一匹黑馬,人們肯定會試著弄清楚為什么桑德斯能做得這么好,然而“阿達”忽略了這些。
當希拉里在密歇根州初選中被桑德斯擊敗時,那些經驗豐富的政治專家和競選工作人員們顯然知道原因。他們實地與選民溝通過后,就能感受到桑德斯的民粹主義傾向所擁有的巨大的吸引力,并且知道不能想當然地認為藍領選民一定會支持民主黨,然而“阿達”卻沒有注意到這些。
“阿達”的分析數據只覆蓋了希拉里的擁躉,并沒有考量更大規模人群情緒的變化。因此,首先是桑德斯被忽略,后來則是唐納德·特朗普。因為“阿達”的分析模型中沒有衡量熱情的參數,即使是大數據也無法識別出選民的能量和激情。這就意味著希拉里數據驅動的競選策略缺失了對選民能量和激情的考量。對于一臺計算機而言,如果某些參數無法測量,就不會納入分析范圍。
比爾·克林頓可能是我們見過最好的總統競選者,然而令人費解的是,希拉里競選團隊里的數據呆子們偏偏對他的意見充耳不聞。比爾在1992年競選中挑戰尋求連任的喬治·H·W·布什總統,當時他提出的競選口號就是:“笨蛋,根本問題是經濟”。比爾本能地知道選民的重要性,并知道如何說服這些群體將票投給他。
在2016年美國總統選舉中,比爾·克林頓看到了伯尼·桑德斯和唐納德·特朗普在工薪階層選民中所激發出的熱情,他及時提議將經濟作為希拉里競選團隊的核心議題,特別是面對中西部“銹帶”州的選民時。俄亥俄州、賓夕法尼亞州、密歇根州和威斯康星州,即所謂的“藍墻”——民主黨最忠實的票倉,阿達認為這些州將是希拉里戰勝特朗普的基礎。
“阿達”的分析結果認為,相比選民對自己工作問題的擔憂,他們顯然更擔心特朗普的舉止“不夠總統”。所以希拉里將其競選活動的焦點放在丑化特朗普上,試圖傳遞一個信息:“嘿,我可能不完美,但特朗普更糟。”
希拉里在密歇根和威斯康星兩個州落敗于桑德斯時就應該警惕,然而她的競選團隊卻完全忽視了這些。相反,希拉里團隊浪費了大量時間和資源在亞利桑那州等地,她在這些地方的勝算并不高(事實也并沒有贏)。之所以采取這樣的競選策略,很大程度上是因為希拉里的競選團隊過度依賴于“阿達”的分析結果。
在此之后,有一位民主黨民意測驗專家說:“希拉里忽視選舉人票和冷落密歇根和威斯康星等州是大選中的重大決策失誤。 ”
在特朗普獲勝之后,比爾·克林頓遷怒于競選團隊中的那群數據呆子,他們只關注計算機程序,卻忽視了數百萬失業或擔心失業的工人們。據報道,在與希拉里的一次通話中,比爾非常生氣,以至于他將手機從阿肯色州頂層公寓的窗戶扔了出去。
大數據并不是靈丹妙藥。特別是當大數據隱藏在計算機內部時,人們雖然對現實世界了如指掌,但是對于計算機對數據做了什么卻一無所知。
計算機在解決某些問題上的確能力超群,并且每天都在為我們賦能。然而過度迷信大數據的失敗案例中,希拉里·克林頓不是唯一一個,也肯定不會是最后一個。