當前位置：大數據 → 數據分析 → 正文

別被數據分析師騙了！用數據說謊的三種辦法

責任編輯：editor007 作者：三川 |來源：企業網D1Net 2017-04-18 21:15:10 本文摘自：雷鋒網

日前，亞馬遜歐洲商業智能部門負責人、資深數據科學家 Karolis Urbonas，在發表了題為《用數據說謊》的博文。文章總結了用數據誤導人最常見的三種方法。這三種做法，或許大家在潛意識里都知道，但未必會把它們與“用數據說謊”聯系起來。

當然，作者的目的，是希望數據科學、機器學習從業者引以為戒。全文由雷鋒網編譯，做了不改變原意的刪改。

Karolis Urbonas

“用數據說話”，這句話常被大家掛在口邊。

自大學起，那些希望我們養成批判、邏輯思維的老師，就一遍遍向我們灌輸“觀點”、“經驗主義”與“客觀事實”的區別，引導學生如何正確看待“嚴師出高徒”、“原湯化原食”、“君子坦蕩蕩，小人長戚戚”、“天將降大任于斯人也，必先……”等等古代“智慧”結晶。

因此在潛意識里，會有人認為，高質量數據代表的就是事實，而基于可靠數據的分析與結論，也應當是客觀、理性的。

但往往并不如此。

舉個例子，數據分析師會有意無意地有所傾向、偏頗，這很難避免;還會受到來自周圍同僚、上司的壓力或是期望，又或是項目趕時間。除此之外，數據分析和解讀的過程也存在天然的風險，導致最后的“說謊”行為。即便數據科學家的初衷十足高尚，最后的結果也未必能保證真實、客觀。

閑話少說，一起來看看用數據說謊的三種方法。

總是用平均數

平均數是有史以來被濫用最嚴重的參數，到處都有人利用它來創造謊言。

當平均數被提供，請注意：除非數據是標準分布(基本上從來都不是)，否則它不能代表任何反映真實情況的有價值信息。這背后的原因很簡單，用通俗的話來講，就是大家常說的“我上司收入 100 萬，我收入 20 萬，兩人的平均收入是 60 萬”。在理論上講，平均數根本無法反映數據的結構分布，而該信息至關重要。平均值并不是一個非常可靠的度量參數，它對邊緣數值以及任何偏離標準分布的樣本都非常敏感。

統計學家弄明白這一點已經有幾十年，但企業、各類機構、政府仍然把平均數作為核心統計參數，并基于它來對涉及十億、百億、千億規模的問題做決策，并且掩蓋真實問題。

解決方案是什么呢?

不要用平均數!從今兒起不再用它，并有意識地考慮數據分布，不要弄出來一個只對個別情形有參考意義的統計報告。第一步，可以從使用中位數開始，并且用 top 99%、bottom 1% 數值來對數據進行概括。

平均數作為各門學科的權威參數已經太久，它有太多不加質疑的盲目追隨者，我們幾乎已經可以把它看做是宗教。這事兒到底是怎么發生的呢?很久很久以前，自然科學的標準分布假設(雷鋒網注：使用平均數的前提)蔓延到了其他領域，比如商務分析以及其他商業數據應用。這毒害了好幾代的數據分析師。

證實性偏見(ConfirmationBias)

這又是一個很經典的誤導途徑，與心理學緊密相連。它發生于你搞清楚將解決的問題之前，當然，這一步也會影響該效應。數據分析師看待需要解決的問題的方式或角度，能在根本上改變原本的客觀立場。一旦牽涉到情感(不論是表達出來的，還是潛在的)，顯而易見的，該效應會大幅加強。對于該效應，一般很難甄別，這也是區別普通數據分析師和大師級分析師的主要分水嶺。

一個十分典型的場景，是在時間不足的情形下被要求完成數據分析。這會產生盡快下結論的壓力——通常會有重要決策要根據分析結果來制定。這時會有許多偏見、偏差一股腦兒地涌入項目中，證實性偏見卻是數據分析師最心甘情愿上鉤的一種。數據分析師隨后根據心里已有的假設，忙著在最短時間內回答或解決研究問題。這意味著第一個出現的偽相關就有可能被當做是答案。該情況下，分析師會主動尋找能證實原先假設的證據，而可能對其它證據視而不見。這便是“用數據來配合假設”。

這發生于數據分析師先入為主，認定該問題有一個“正確”的時候。當分析師有意尋找符合該假設的證據，該偏見便成功地把分析過程引到歧路。隨后，分析師對數據的壓縮、調整，僅是為了貼合與假設一致的結論。這里，非常重要的措施，是在一開始就定義嚴格的研究要求，并收集支持正反兩面結論的數據和證據。

數據科學家對于在數據中找出某種模式、合理解釋，常常會心癢難耐。這時，他們很可能會忽視一個事實：并沒有足夠的數據來下結論、或回答問題。后者是完全正常的。這時候，也可能問題本身需要重新定義。

并不存在的模式

人腦是如此善于在混亂中發現模式或圖案——有時，它們開始發現并不存在的模式。對于數據科學家而言，這是非常致命的。許多公司雇傭數據分析師就是為了發現模式，因而，發現的模式越多，證明該分析師的水平越高、洞察力非同一般，因為他看到了別人都看不到的東西。這類建立在謬誤之上的成功，導致許多工作被聚焦于發現模式、分段以及“非同尋常的東西”。當然，許多時候這些都是正常存在的，真實數據中也會有許多噪音。

這就導致了很尷尬的局面——數據分析師“發現”了原本并不存在的模式，企業根據該結論做決策，然后這一決策影響了現實人群，竟然迫使該模式真的出現。簡直是神奇。舉個非常簡單的例子：尋找消費者細分市場，然后試圖把他們從一個市場區間“轉”到另一個。當某細分市場被企業營銷部門瞄準，想要把他們推向一個其實并不存在的區間，該神奇的現象就會發生，發揮現實影響。但是，這種事的風險很大，并且容易導向一系列昂貴的錯誤決策。

小結

這當然不是一個完整的“用數據說謊”列表。如要徹底學習，你應該學習心理學理論中其它能影響你的主觀判斷以及洞察力的認知偏差。以上是最常見的數據分析陷阱，我看到許多分析師不小心掉進去，并非故意的制造出數據“謊言”而不是尋找真實情況。客觀并不是一個容易實現的目標，它需要許多自律。

最成功的數據科學家，會把非常非常多的注意力放在提防這些偏見、偏差上，并對它們所能導致的這些謊言保持高度警覺。

關鍵字：數據數據分析