錯把相關性當成因果性 correlation vs. causation
經典的冰淇凌銷量和游泳溺水人數成正比的數據,這并不能說明冰淇凌銷量的增加會導致更多的人溺水,而只能說明二者相關,比如因為天熱所以二者數量都增加了。這個例子比較明顯,說起來可能會有人覺得怎么會有人犯這樣的錯誤,然而在實際生活、學習、工作中,時不時的就會有人犯這樣的錯誤。
舉個栗子
數據顯示,當科比出手 10-19 次時,湖人的勝率是 71.5%;當科比出手 20-29 次時,湖人的勝率驟降到 60.8%;而當科比出手 30 次或者更多時,湖人的勝率只有 41.7%。
圖片來源: statisticshowto.com
幸存者偏差 survivorship bias
數據分析中看到的樣本是“幸存了某些經歷”才被觀察到的,進而導致結論不正確。
比如比爾蓋茨、喬布斯、扎克伯格都沒有念完大學,所以大家都應該退學去創業。這一結論的最大問題在于那些退學而又沒有成功的例子,很多時候我們是看不到的。另一方面,他們是因為牛逼才退學,而不是退學才牛逼的,看,相關性 / 因果性真是限魂不散。
再比如某打車軟件發現新用戶有 10 塊錢優惠券,但是平均評價卻只有 3 星。相反,第二次再用的時候沒有優惠券了,評價卻高達 4 星半。這說明,不給優惠券用戶評價會更高,果然用戶雖然愛用優惠券,但內心還是覺得便宜沒好東西的?很明顯,幸存者偏差在這個例子里體現在那些打一星二星評價的用戶,之后可能就沒有第二次了。更明顯的,這個例子是我瞎扯的。
圖片來源: Tumblr
樣本跟整體存在著本質的不同
以知乎為例,會有種錯覺人人年薪百萬,985/211 起,各種 GFSBFM,中國收入水平直逼灣區碼工。然而一方面這是幸存者偏差,知乎大 V 們的發聲更容易被看到(看,幸存者偏差也是陰魂不散)。另一方面,不要小瞧知乎跟中國網民的差別,以及中國網民跟中國老百姓的差別——樣本跟整體的差別。
類似的例子有水木的工作版塊、步行街的收入和華人網站的貧困線。
圖片來源: http://i.stack.imgur.com/yZQgZ.gif
過于追逐統計上的顯著性 statistical significance
統計 101 告訴我們,要比較兩組數是否不同,最基本的一點可以看它們的區別是不是統計上顯著。
比如 LinkedIn 又要改版了(我為什么要說又呢),有兩個版本 A 和 B. 灰度測試發現,跟現有版本比起來,A 的日活比現有版本高 20%,但是統計不顯著。而 B 的日活跟現有版本雖然只高了 3%,但是統計顯著。于是 PM 拿出統計 101 翻到第二頁說,來,咱們把統計顯著的版本 B 上線吧。苦逼的數據科學家 DS 說,等一下!并不是所有時候都選統計顯著的那一個,咱們再看看版本 A 的數據吧(具體分析略過一萬字)。
很顯然,這個例子也是我瞎扯的。
圖片來源: pinimg.com
不做數據可視化,以及更可怕的:做出錯誤或者帶誤導性的數據可視化
比如 @謝科 這個回答里提到的
「數據會說謊」的真實例子有哪些? - 謝科的回答
在趨勢圖中,為了說明增長趨勢多明顯,把 Y 調成不從 0 開始。這樣差距會看起來很大,增長很大,但是如果把 Y 軸從 0 開始看的話,會顯得基本沒有差距。
圖片來源: amazonaws.com
(一下步就是要編排一個 Twitter 的例子了 23333,因為數據分析表明,有 Twitter 公司這樣的例子讀起來會更有趣)
數據分析提供的結果和建議不具有可行性
Twitter 通過分析文本數據發現……
算了,我編不出來,由此可見,不具有可行性的結果雖然是“理論正確‘的分析結果,然并卵……
圖片來源: twimg.com
不做數據分析
別笑,據某公司 PM 說,這是真的。
最后的大招:如何解釋 p-value
具體我就不講了, 講錯了我明天還怎么面對老板和同事啊。
有興趣解釋 p-value 的歡迎留言。
圖片來源: blogspot.com
扣小米, 經濟學博士生,在德國
不少容易出現的錯誤在這個問題里都已經介紹過: 「數據會說謊」的真實例子有哪些? - 數據
我只補充一個,就是要保證研究的 可重復性(reproducibility) ,也就是說別人用同樣的數據和同樣的方法,能夠得出同樣的結果。這樣的好處是能夠保證分析結果的客觀,沒有人為篡改數據,而且能夠很容易的發現哪里出現了問題。
為了保證可重復性,應該堅持對數據每一步的處理都有記錄。如果你使用的是寫代碼的軟件,當然就不存在這個問題。不過如果使用的是點擊操作的軟件,比如 Excel(非 VBA),那就要小心。Excel 雖然方便,但是處理完數據后,很快就會忘了之前對數據做了些什么,如果之后出現什么問題就很難再查找了。
還有原始數據要保存好,我一般都會把原始數據(網上收集的、下載的、別人傳過來的等等)都備份一下,這樣之后如果要追根溯源也可以找到數據最開始的出處。
重要代碼多保存幾份,不管是放到云上還是本地硬盤。或者用 GitHub。
“可重復性”對數據科學方面的專業人士來說可能是常識,但在其他領域的學術研究中,不少人會忽視這一點。
因此,在 Coursera 上開數據分析課程的幾位統計學教授,專門在課上強調了這個問題,并在這篇文章中對可重復性研究的方法做了簡單介紹:
Instead of research on reproducibility, just do reproducible research · Simply Statistics
客官,這篇文章有意思嗎?
原文鏈接:http://daily.zhihu.com/story/8539004?utm_source=tuicool&utm_medium=referral