歷史驚人的相似,一次大選,傳統的市場調查出現了嚴重的差錯,這一次,統計調查理論很可能會發生明顯的變化。
在此之前,還有很多人在堅持通過傳統統計的方式來進行市場調查,準確性絕對會符合科學理論,也比大數據的“蘿卜快了不洗泥”要精確。事實可能是這樣的,但大數據給了我們更新的一個時代的最佳選擇。
很多人把自己掌握的數據就成為大數據,因為自己的數據比較大,擁有數十百千萬P的數據,可是,大并不是大數據的本質,大數據要看重的是跨界與全部。
特朗普當選美國總統被稱為“黑天鵝”事件,而有關這次大選的民意調查也讓人大跌眼鏡,選前的各種民調幾乎都認定希拉里大幅領先將輕松獲勝,可結果是大相徑庭??梢哉f,2016年的美國大選日成為了市場調查行業的又一黑暗的一天。
在1936年的美國總統選舉中,美國的《文學摘要》雜志社為了預測兩名總統候選人誰能當選,通過電話薄和車輛注冊系統上的地址發出了1000萬封調查信件,并且根據200萬封回信得出了蘭登將以57%對43%的比例勝出的結論,但最終結果卻是另一名候選人富蘭克林.羅斯福以62%對38%的壓倒性優勢勝出。那次預測的嚴重失誤,葬送了一家著名雜志,但是卻誕生了那家至今依然是世界上最著名的調查公司。
經過后來的復盤分析,《文學摘要》雜志當年所犯的錯誤,首先它的采樣方法就帶來了樣本偏差,當時能用得上電話和汽車的,往往都是比較富裕的階層,同時愿意回信的也大都是表達意愿比較強的人們,所以這個調查實際上針對的是比較富裕的和比較愿意表達的人群,而那些貧困的或者沒那么愿意表達自己觀點的人,并沒有放棄自己投票的權利。
正是在1936年,統計學家喬治.蓋洛普開啟了科學抽樣的總統民意調查。蓋洛普的民意調查只有大約5萬個樣本,但在精心規劃的樣本中,黑人與白人、窮人與富人的比例都接近美國人的總體比例,最終,蓋洛普準確預測了羅斯福的當選,并且奠定了自己民意調查權威的地位。
這樣的經典調查方法持續了八十年了,在2016年再次面臨拐點。在人們分析這次大選調查普遍失敗的原因時,越來越看到,隨著互聯網的發展,沉默的大多數成為了影響調查結果的主導因素。也許,詢問的方式已經真的要過時了。
直到今天,蓋洛普等這些調查公司,仍然通過電話訪談來進行調查,每次大約訪談上千名擁有投票資格的公民。電話如今也不再是什么稀罕的東西了,調查公司還會通過電腦程序來隨機選擇受訪對象,以確保每個人都會有同等機會被選到,他們還會在訪談之后根據美國人口調查數據來進行對比,調整權重以消除樣本偏差。如此的調查看起來非??茖W,符合統計學的規律,可是,在現實面前還是敗下陣來。
據說,與大部分看好希拉里的主流媒體不同,印度新創公司Genic.ai 開發的名為 MogIA 的人工智能系統一直就預測特朗普將最終勝出。跟其他調查公司主要依靠訪談和問卷不同,MogIA的判斷依據是收集自 Google、Facebook、Twitter 和YouTube等網站的超過 2000 萬個數據點,盡管希拉里的競選經費是特朗普的5倍,在付費媒體上的投入是特朗普的6倍,但在社交媒體上希拉里卻始終處于全面劣勢。雖然有人認為MogIA不能有效識別人們在這些網站留言評論中的“諷刺”、“反話”、“腦殘粉”、“高級黑”、“似黑實粉”等細微之處,但這反而可能成為了MogIA的優勢,很多時候,點贊、轉發甚至只是閱讀,關注,就足以代表了那些“沉默的大多數”的真實想法。
當然,2016年的美國大選,再次讓大數據成為了熱點,因為來自中國加工制造的特朗普與希拉里的面具數量早已透露了玄機。中國的社交網絡上有這樣一條消息:早在今年5月,浙江金華一家橡膠工藝美術廠,就接到了特朗普和希拉里的面具訂單,隨著競選熱度的提高,特朗普面具的訂單已超過50萬張,遙遙領先希拉里。
事實上,這一現象早就被阿里巴巴的數據分析師注意到了。從2月1日(初選開始)到特朗普成為共和黨唯一候選人,在阿里巴巴全球速賣通網頁上搜索“Donald Trump T-shirt”,就會出現各式印有特朗普的T恤衫。特別,這些買家普遍表現得很熱情,曬買家秀,發表留言的,比比皆是,而且留言絕大多數都表示支持特朗普,反觀有關希拉里的T恤衫就比特朗普樸實許多。整個競選期間,特朗普在全球速賣通上的搜索次數還有周邊產品的銷量都已經甩了希拉里幾條街。在相關產品頁,特朗普遙遙領先,與特朗普相關的產品有11頁,而與希拉里相關的產品只有短短3頁。
因此,有人說,在大型體育賽事中,類似的數據結果也多次靈驗。在2014年的巴西世界杯中,國旗訂單量最大的就是德國的國旗,而德國果然最終奪冠。當然,我們并不應該將世界杯奪冠與美國大選并列,因為,對于美國大選來說,選民的選擇是決定結果的充分因素,而在世界杯中,國旗的偏好只是代表了關注度和意愿,且并非決定性因素,最終的結果要靠球員的當場比賽的表現。
阿里巴巴國際站解釋稱,這是因為類似面具這樣的大宗采購商基本都直接來自國外大的貿易商、批發商。廠方則介紹說,這些貿易商的采購需求大多直接來自于當地政府、黨派和財團,也有一些有組織的粉絲團。所以從某種程度看,訂單數量體現了當地人對不同候選人的支持力度。
不過,大數據的預測精準與否還取決于數據的全面性。如果候選人面具不是全部在中國生產,獲得生產廠家無法得到全面的訂單數據,預測就會出現偏差。即便數據全面,下一次的預測也很可能不生效。在這樣的訂單結果會影響最終成敗的情況下,下一次肯定會有大量的摻水訂單來實現數據擾動。
其實,美國的總統候選人或者調查機構也并不是沒有看到大數據的價值。總統候選人們在進行分析的時候,所依賴的數據來源也不僅僅是民意調查結果,還涵蓋了諸多的如facebook這類的社交網站和公開及私有的數據庫。將美國超過2億的選民資料,與大型網站與社交網絡上的個人賬號相互匹配起來,將網絡行為對應到具體的個體,再和已經構成的、龐大的用戶個人數據相結合,最終完全由準確數據來驅動競選策略。以上這些,使得大數據分析技術成了兩黨候選人的重要武器,只是,在原來思維狀態的影響下,還是犯了錯誤
不管怎樣,2016年的美國總統大選都成為了新時代統計調查的分水嶺,忽視大數據的力量而頑固保守的堅持傳統科學的統計方式,將被證明已經落伍。當然,大數據的結果也并非完美,傳統的統計科技并不會過時。美利堅大學著名歷史教授艾倫.里奇曼評價說,“這是現代民意調查的誕生,也是老式民意調查的終結——直到互聯網出現之前”。里奇曼認為互聯網時代的民意調查又回到了1936年之前的狀況:“沒有科學采樣,依靠選擇性回復,這和我們今天所看到的網絡民意調查如出一轍。”統計調查的方法將產生深遠的變革,我們都還在探索的路上。