精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據數據分析 → 正文

有些數據分析中常踩的坑,當心別掉進去

責任編輯:editor005 作者:鄒昕 |來源:企業網D1Net  2016-07-08 14:16:38 本文摘自:知乎日報

錯把相關性當成因果性 correlation vs. causation

經典的冰淇凌銷量和游泳溺水人數成正比的數據,這并不能說明冰淇凌銷量的增加會導致更多的人溺水,而只能說明二者相關,比如因為天熱所以二者數量都增加了。這個例子比較明顯,說起來可能會有人覺得怎么會有人犯這樣的錯誤,然而在實際生活、學習、工作中,時不時的就會有人犯這樣的錯誤。

舉個栗子

數據顯示,當科比出手 10-19 次時,湖人的勝率是 71.5%;當科比出手 20-29 次時,湖人的勝率驟降到 60.8%;而當科比出手 30 次或者更多時,湖人的勝率只有 41.7%。

數據分析

  圖片來源: statisticshowto.com

幸存者偏差 survivorship bias

數據分析中看到的樣本是“幸存了某些經歷”才被觀察到的,進而導致結論不正確。

比如比爾蓋茨、喬布斯、扎克伯格都沒有念完大學,所以大家都應該退學去創業。這一結論的最大問題在于那些退學而又沒有成功的例子,很多時候我們是看不到的。另一方面,他們是因為牛逼才退學,而不是退學才牛逼的,看,相關性 / 因果性真是限魂不散。

再比如某打車軟件發現新用戶有 10 塊錢優惠券,但是平均評價卻只有 3 星。相反,第二次再用的時候沒有優惠券了,評價卻高達 4 星半。這說明,不給優惠券用戶評價會更高,果然用戶雖然愛用優惠券,但內心還是覺得便宜沒好東西的?很明顯,幸存者偏差在這個例子里體現在那些打一星二星評價的用戶,之后可能就沒有第二次了。更明顯的,這個例子是我瞎扯的。

  圖片來源: Tumblr

樣本跟整體存在著本質的不同

以知乎為例,會有種錯覺人人年薪百萬,985/211 起,各種 GFSBFM,中國收入水平直逼灣區碼工。然而一方面這是幸存者偏差,知乎大 V 們的發聲更容易被看到(看,幸存者偏差也是陰魂不散)。另一方面,不要小瞧知乎跟中國網民的差別,以及中國網民跟中國老百姓的差別——樣本跟整體的差別。

類似的例子有水木的工作版塊、步行街的收入和華人網站的貧困線。

  圖片來源: http://i.stack.imgur.com/yZQgZ.gif

過于追逐統計上的顯著性 statistical significance

統計 101 告訴我們,要比較兩組數是否不同,最基本的一點可以看它們的區別是不是統計上顯著。

比如 LinkedIn 又要改版了(我為什么要說又呢),有兩個版本 A 和 B. 灰度測試發現,跟現有版本比起來,A 的日活比現有版本高 20%,但是統計不顯著。而 B 的日活跟現有版本雖然只高了 3%,但是統計顯著。于是 PM 拿出統計 101 翻到第二頁說,來,咱們把統計顯著的版本 B 上線吧。苦逼的數據科學家 DS 說,等一下!并不是所有時候都選統計顯著的那一個,咱們再看看版本 A 的數據吧(具體分析略過一萬字)。

很顯然,這個例子也是我瞎扯的。

  圖片來源: pinimg.com

不做數據可視化,以及更可怕的:做出錯誤或者帶誤導性的數據可視化

比如 @謝科 這個回答里提到的

「數據會說謊」的真實例子有哪些? - 謝科的回答

在趨勢圖中,為了說明增長趨勢多明顯,把 Y 調成不從 0 開始。這樣差距會看起來很大,增長很大,但是如果把 Y 軸從 0 開始看的話,會顯得基本沒有差距。

  圖片來源: amazonaws.com

(一下步就是要編排一個 Twitter 的例子了 23333,因為數據分析表明,有 Twitter 公司這樣的例子讀起來會更有趣)

數據分析提供的結果和建議不具有可行性

Twitter 通過分析文本數據發現……

算了,我編不出來,由此可見,不具有可行性的結果雖然是“理論正確‘的分析結果,然并卵……

  圖片來源: twimg.com

不做數據分析

別笑,據某公司 PM 說,這是真的。

最后的大招:如何解釋 p-value

具體我就不講了, 講錯了我明天還怎么面對老板和同事啊。

有興趣解釋 p-value 的歡迎留言。

  圖片來源: blogspot.com

  扣小米, 經濟學博士生,在德國

不少容易出現的錯誤在這個問題里都已經介紹過: 「數據會說謊」的真實例子有哪些? - 數據

我只補充一個,就是要保證研究的 可重復性(reproducibility) ,也就是說別人用同樣的數據和同樣的方法,能夠得出同樣的結果。這樣的好處是能夠保證分析結果的客觀,沒有人為篡改數據,而且能夠很容易的發現哪里出現了問題。

為了保證可重復性,應該堅持對數據每一步的處理都有記錄。如果你使用的是寫代碼的軟件,當然就不存在這個問題。不過如果使用的是點擊操作的軟件,比如 Excel(非 VBA),那就要小心。Excel 雖然方便,但是處理完數據后,很快就會忘了之前對數據做了些什么,如果之后出現什么問題就很難再查找了。

還有原始數據要保存好,我一般都會把原始數據(網上收集的、下載的、別人傳過來的等等)都備份一下,這樣之后如果要追根溯源也可以找到數據最開始的出處。

重要代碼多保存幾份,不管是放到云上還是本地硬盤。或者用 GitHub。

“可重復性”對數據科學方面的專業人士來說可能是常識,但在其他領域的學術研究中,不少人會忽視這一點。

因此,在 Coursera 上開數據分析課程的幾位統計學教授,專門在課上強調了這個問題,并在這篇文章中對可重復性研究的方法做了簡單介紹:

Instead of research on reproducibility, just do reproducible research · Simply Statistics

客官,這篇文章有意思嗎?

原文鏈接:http://daily.zhihu.com/story/8539004?utm_source=tuicool&utm_medium=referral

關鍵字:謝科數據可視化

本文摘自:知乎日報

x 有些數據分析中常踩的坑,當心別掉進去 掃一掃
分享本文到朋友圈
當前位置:大數據數據分析 → 正文

有些數據分析中常踩的坑,當心別掉進去

責任編輯:editor005 作者:鄒昕 |來源:企業網D1Net  2016-07-08 14:16:38 本文摘自:知乎日報

錯把相關性當成因果性 correlation vs. causation

經典的冰淇凌銷量和游泳溺水人數成正比的數據,這并不能說明冰淇凌銷量的增加會導致更多的人溺水,而只能說明二者相關,比如因為天熱所以二者數量都增加了。這個例子比較明顯,說起來可能會有人覺得怎么會有人犯這樣的錯誤,然而在實際生活、學習、工作中,時不時的就會有人犯這樣的錯誤。

舉個栗子

數據顯示,當科比出手 10-19 次時,湖人的勝率是 71.5%;當科比出手 20-29 次時,湖人的勝率驟降到 60.8%;而當科比出手 30 次或者更多時,湖人的勝率只有 41.7%。

數據分析

  圖片來源: statisticshowto.com

幸存者偏差 survivorship bias

數據分析中看到的樣本是“幸存了某些經歷”才被觀察到的,進而導致結論不正確。

比如比爾蓋茨、喬布斯、扎克伯格都沒有念完大學,所以大家都應該退學去創業。這一結論的最大問題在于那些退學而又沒有成功的例子,很多時候我們是看不到的。另一方面,他們是因為牛逼才退學,而不是退學才牛逼的,看,相關性 / 因果性真是限魂不散。

再比如某打車軟件發現新用戶有 10 塊錢優惠券,但是平均評價卻只有 3 星。相反,第二次再用的時候沒有優惠券了,評價卻高達 4 星半。這說明,不給優惠券用戶評價會更高,果然用戶雖然愛用優惠券,但內心還是覺得便宜沒好東西的?很明顯,幸存者偏差在這個例子里體現在那些打一星二星評價的用戶,之后可能就沒有第二次了。更明顯的,這個例子是我瞎扯的。

  圖片來源: Tumblr

樣本跟整體存在著本質的不同

以知乎為例,會有種錯覺人人年薪百萬,985/211 起,各種 GFSBFM,中國收入水平直逼灣區碼工。然而一方面這是幸存者偏差,知乎大 V 們的發聲更容易被看到(看,幸存者偏差也是陰魂不散)。另一方面,不要小瞧知乎跟中國網民的差別,以及中國網民跟中國老百姓的差別——樣本跟整體的差別。

類似的例子有水木的工作版塊、步行街的收入和華人網站的貧困線。

  圖片來源: http://i.stack.imgur.com/yZQgZ.gif

過于追逐統計上的顯著性 statistical significance

統計 101 告訴我們,要比較兩組數是否不同,最基本的一點可以看它們的區別是不是統計上顯著。

比如 LinkedIn 又要改版了(我為什么要說又呢),有兩個版本 A 和 B. 灰度測試發現,跟現有版本比起來,A 的日活比現有版本高 20%,但是統計不顯著。而 B 的日活跟現有版本雖然只高了 3%,但是統計顯著。于是 PM 拿出統計 101 翻到第二頁說,來,咱們把統計顯著的版本 B 上線吧。苦逼的數據科學家 DS 說,等一下!并不是所有時候都選統計顯著的那一個,咱們再看看版本 A 的數據吧(具體分析略過一萬字)。

很顯然,這個例子也是我瞎扯的。

  圖片來源: pinimg.com

不做數據可視化,以及更可怕的:做出錯誤或者帶誤導性的數據可視化

比如 @謝科 這個回答里提到的

「數據會說謊」的真實例子有哪些? - 謝科的回答

在趨勢圖中,為了說明增長趨勢多明顯,把 Y 調成不從 0 開始。這樣差距會看起來很大,增長很大,但是如果把 Y 軸從 0 開始看的話,會顯得基本沒有差距。

  圖片來源: amazonaws.com

(一下步就是要編排一個 Twitter 的例子了 23333,因為數據分析表明,有 Twitter 公司這樣的例子讀起來會更有趣)

數據分析提供的結果和建議不具有可行性

Twitter 通過分析文本數據發現……

算了,我編不出來,由此可見,不具有可行性的結果雖然是“理論正確‘的分析結果,然并卵……

  圖片來源: twimg.com

不做數據分析

別笑,據某公司 PM 說,這是真的。

最后的大招:如何解釋 p-value

具體我就不講了, 講錯了我明天還怎么面對老板和同事啊。

有興趣解釋 p-value 的歡迎留言。

  圖片來源: blogspot.com

  扣小米, 經濟學博士生,在德國

不少容易出現的錯誤在這個問題里都已經介紹過: 「數據會說謊」的真實例子有哪些? - 數據

我只補充一個,就是要保證研究的 可重復性(reproducibility) ,也就是說別人用同樣的數據和同樣的方法,能夠得出同樣的結果。這樣的好處是能夠保證分析結果的客觀,沒有人為篡改數據,而且能夠很容易的發現哪里出現了問題。

為了保證可重復性,應該堅持對數據每一步的處理都有記錄。如果你使用的是寫代碼的軟件,當然就不存在這個問題。不過如果使用的是點擊操作的軟件,比如 Excel(非 VBA),那就要小心。Excel 雖然方便,但是處理完數據后,很快就會忘了之前對數據做了些什么,如果之后出現什么問題就很難再查找了。

還有原始數據要保存好,我一般都會把原始數據(網上收集的、下載的、別人傳過來的等等)都備份一下,這樣之后如果要追根溯源也可以找到數據最開始的出處。

重要代碼多保存幾份,不管是放到云上還是本地硬盤。或者用 GitHub。

“可重復性”對數據科學方面的專業人士來說可能是常識,但在其他領域的學術研究中,不少人會忽視這一點。

因此,在 Coursera 上開數據分析課程的幾位統計學教授,專門在課上強調了這個問題,并在這篇文章中對可重復性研究的方法做了簡單介紹:

Instead of research on reproducibility, just do reproducible research · Simply Statistics

客官,這篇文章有意思嗎?

原文鏈接:http://daily.zhihu.com/story/8539004?utm_source=tuicool&utm_medium=referral

關鍵字:謝科數據可視化

本文摘自:知乎日報

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 太湖县| 辽阳市| 黔东| 巫溪县| 桃园市| 永新县| 靖边县| 曲麻莱县| 香河县| 涞水县| 库车县| 海丰县| 得荣县| 任丘市| 麻阳| 丰原市| 土默特左旗| 常熟市| 嘉峪关市| 新余市| 河北省| 广水市| 晴隆县| 平乡县| 普定县| 南投县| 嫩江县| 和龙市| 贞丰县| 丘北县| 延安市| 子长县| 广河县| 景泰县| 乌拉特前旗| 钟祥市| 屏东县| 肥东县| 湖南省| 紫金县| 涿州市|