1 紙牌屋案例
提到大數據在互聯網視頻領域的商業應用,業界曾經流傳著這樣一個謊言——通過分析3000萬北美用戶觀看視頻的行為數據,發現凱文.斯派西、大衛.芬奇和英劇《紙牌屋》3個關鍵詞的受眾存在交集,由此預測將三種元素結合在一起的片子將會大火特火,因此成功推出這部劇集。
事實上,翻拍英劇《紙牌屋》的創意來自制片方MRC公司。當時這家電影公司正準備轉型拍攝電視劇,并打算用自己手里積攢的電影資源大干一場,碰巧公司的一位實習生在飛機上看了這部英國舊劇集。也就是說,促使《紙牌屋》誕生的決定性因素根本就不是“大數據”,而是影視圈里永恒的關鍵詞——“資金”和“人脈”。
2 啤酒尿布案例
“啤酒與尿布”案例是大數據營銷的一個神話,據媒體稱是發生在美國沃爾瑪連鎖店超市的真實案例。根據大數據發現的相關性,沃爾瑪決定把尿布和啤酒擺在一起出售,這個奇怪的舉措使尿布和啤酒的銷量雙雙增加。按理說,這個了不起的發現應該給所有超市帶來啟示,大家都應紛紛效仿才對,可實際上,如果我們到超市去認真觀察一下,就會發現根本沒有類似的物品擺放,相近的都很少。追溯這宗噱頭十足的新聞的根源,調查者已經證明,這個江湖傳說只是數據分析公司的經理人虛構出來的故事。
3 懷孕的女高中生案例
一個更為聳動的大數據案例是“懷孕的女高中生”。據說Target百貨公司通過大數據模型建立“懷孕預測指數”,通過這個指數,Target能夠在很小的誤差范圍內預測到顧客的懷孕情況,因此Target就能早早地把孕婦優惠產品的廣告寄發給顧客。《紐約時報》甚至報道了Target的這種優惠廣告間接地令一個蒙在鼓里的父親意外發現他的高中生女兒懷孕了。但在這個成功的營銷事件的背后,是這些優惠廣告只是隨機的發送給用戶,其中大量收到優惠廣告的婦女并非孕婦,當然她們只是把廣告扔進垃圾桶,不會為此鬧上門找Target公司理論。
檢視另外一些著名的大數據案例案例,我們已經知道波士頓市“顛簸的街道”項目失敗了,谷歌流感趨勢預測也失敗了。其他很多宣稱成功運用大數據分析、發現前所未見的規律、取得重大商業成就的案例也都似是而非。
今天,宣告成功應用了大數據的案例還在不斷誕生,人們對此已經開始冷靜思考。我們要問的是:這些項目中采用了什么樣的判別標準?吹噓大數據神話的人憑什么認定,運用這種又全又大的定量統計新方法更好,而用傳統的抽樣量化方法或定性方法做研究肯定不如它?
大數據的謬誤
1 “數據”概念謬誤
對數據概念理解的錯誤反映了大數據專家們思維的混亂。數據概念有兩種含義。一種含義的數據在歷史上早就在使用,這是人們拿來比較、衡量大小、多少的概念——即量值、數值、數目字。圍繞無知地把這個老概念和另一個數據的新概念混淆。
新的比特數據的概念到了20世紀才誕生。這個基于比特的數據概念是信息科技的獨特產物——即數據是比特的集合,數據是結構化的比特團、組。這是對我們當今社會真正重要的一種數據的含義。
如果把比特看作原子,數據就對應著分子,比特和數據是賽博空間里的基本單元,就像原子和分子是實體空間里的基本單元那樣。比特形態數量有限,只有兩種,具體的數據對象則千姿百態,是比特的無窮無盡的排列組合。與之相對應,原子的數量只有180來種,而原子所可能組成的分子種類則是無限的。
2 “量化”謬誤
從舊概念出發,基于量值統計的大數據成為紅得發紫的顯學。大數據把“量化”研究方法拔高到了無以復加的地位。這種以“數”服人的惡劣風氣發端于北美,是從美國向世界各地蔓延的一種傳染病——數目字崇拜癥。
尼爾.波茨曼早在上世紀六十年代就指出,單純用量化方法對人進行界定存在嚴重缺陷。當時在美國用IQ值來測定人的智商曾經非常流行。把活生生的、有豐富側面的、不斷變化著的人簡單地用數目字評價會導致認識的異化。今天的大數據雖然描述人的參數很多,其數量種類遠遠超過當年單一的IQ值,仍然只是對某一時刻、少數側面的個人屬性的抽象概括。以為通過最大限度地量化就能洞悉關于個人和人群的一切,這是一種理性的譫妄。
癡迷于極致的量化將導致我們走向“還原主義”的歧途。就算我們能夠用盡當前科技的所有手段,用所有傳感器收集人的所有方面的所有數據,那又如何?拿到數據越多的人就越正確嗎?拿到了這些全面的數據就能自動掌握真理嗎?就像把一個活人分解成同樣重量、種類的一堆原子,把這堆原子交給你,你能管這堆東西叫一個人嗎?
3 “歷史”謬誤
過去積攢的統計數據是歷史、是浮云,記錄下來的舊數字再多、花樣再豐富,對未來趨勢的預測能力也非常有限,不能太當真。那個著名的關于豬的寓言,就是用來說明這個道理的:
一頭生活在豬圈里的豬注意到每天都有飼養員喂它食物,它收集了99天的完備數據,基于大數據統計作出預測:未來每天都有免費的食物提供給自己。在第100天,它的預測得到了證實,一個光彩奪目的大數據成功案例誕生了!但在第101天,它被送進了屠宰場。
大數據許諾通過收集歷史數據預測未來。很多自我膨脹的量化統計專家迷信,收集越多越全的數據,就越能保證發現重大的規律,對未來的預測就越準確,越能創造爆炸性的商業成功,越能讓企業立于不敗之地。
但是這些頭腦熱到發昏的專家們忘記了,歷史都是人的歷史。他們沒有理解索羅斯根據卡爾.波普爾對歷史主義的批判提出的反身性原理——人都是有主觀能動性的、易變的。無論是個人還是大范圍的群體,一旦他們了解了你作出的預言,他們行動的轉向往往會讓你的預言破產。谷歌流感趨勢預測失敗的一個可能原因就在于此。
從那些失敗案例人們已經開始認識到,大數據的膚淺預測的作用是可疑的,它根本無法應對黑天鵝事件。就像全世界頂尖的數學天才聚集的華爾街金融機構那樣——他們曾經根據各種統計數據成功預測市場走勢,并持續掙錢盈利。但時間拉到足夠長,一旦發生一個房貸債券市場崩盤這樣的小概率事件,數據統計專家們就落得滿盤皆輸,一次就把之前多年掙到的錢賠光,甚至陷入負債、破產的境地。
4 “大”謬誤
“大”方向的錯誤影響更為深遠,也更加致命。大數據反復強調數據量大、數據全,上帝視角的敘事在召喚一種集體潛意識:即只有有權有錢的超級機構才有能力、有資格匯聚一切信息。很顯然,大數據所隱喻的,仍然是僵化腐朽的金字塔式的、封建層級化的社會結構。
想想現在,別人許諾在互聯網時代提供給你的人人平等的地球村、對等網絡和扁平的世界哪去了?想想當年,前蘇聯的計劃經濟委員會里的少數精英掌握著每種商品的全部信息,小到火柴和肥皂的產量、庫存、運輸、成本和售價、銷量等等,結果怎么樣呢?我們要問,大數據是不是催生了棱鏡計劃?為什么個人不能保存電纜門(Cablegate)的全部資料?為什么黑客不能獲取麥迪遜網站所有用戶的郵箱?為什么網民不能隨時查閱汽車牌照信息數據庫?
量化統計大數據的“大”和“統”背后隱含的觀念,是數據必須向一個中心全面集中,是壁壘森嚴的超級關系數據庫、數據中心,是歡欣鼓舞地打造一座賽博世界的全景式監獄,是信息為少數頂尖精英嚴格控制以保障“隱私和安全”,是排斥隨便哪個阿貓阿狗染指數據庫的任何副本,以防其圖謀不軌——網絡草根們存在的意義,只是向大核心貢獻自己的所有信息數據。一盤散沙的個人既不該被允許查閱別人的任何信息,甚至也不能了解自己的那些數據被收集和記錄。因此不要過于迷信大數據尤其是感念不清,以及只停留在自己嘴巴或這是別人嘴巴上的大數據。真真的要沉下心研究以下大數據究竟有什么組成,怎樣適當的應用。避免在神話下被愚化。