精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

你真的看懂數據新聞了嗎?

責任編輯:editor006

作者:姚佳靈編譯

2015-07-07 21:09:20

摘自:大數據文摘

3 無論如何,如果隨機從精英商學院中選取學生,這個分析將會在建立因果性上更具有結論性。下面是個Y(收入)的回歸方程,以精英商學院(下標T)和不可觀測到的維度(下標U)為變量  2

大數據文摘作品,歡迎個人轉發朋友圈;其他機構、自媒體轉載,務必后臺留言,申請授權。

前言

在分析領域中,因果性和相關性的使用是不精確的。人們傾向于互換使用這兩個詞,但并不知道隱藏其中的基本邏輯。顯然,人們被這兩個詞的(英文)發音所迷惑,最終將它們用在錯誤的地方。但我要提醒注意的是,除了發音相似,這兩個詞并沒有很多相同之處。事實上,它們的基本含義可謂相去甚遠!

讓我們通過以下的一些例子,來理解因果性和相關性之間的區別。分析下面這些場景,請回答在兩個事件X和Y之間是否有因果性。答案在后面。

例1:X( 學生被錄取的學院的級別)=> Y (畢業后的收入)

假設:精英商學院學生的收入比平均水平高。這些商學院是獲得更好工作的原因嗎?

例2: X (抽煙)=> Y(精神壓力水平)

假設:抽煙的人被發現精神壓力更大。抽煙是導致壓力的原因嗎?

例3:X(有孩子)=> Y (成熟度)

假設:人們在有了孩子后更成熟?有孩子是成熟度更高的原因嗎?

例4: X (海拔)=> Y(溫度)

假設:我們觀測到海拔較高時,溫度較低。這意味著,海拔越高就越冷。那么,更高的海拔是導致更低溫度的原因?

希望上面的例子會觸發你的學習欲望,并且讓你興奮地想多學一點。盡管這不是一個剛被發現的話題,但是人們仍沒有切實掌握使用這些術語。因此,我試圖用最簡單的方式來解釋因果性和相關性的各個方面。

本文中,我將解釋因果性和相關性之間的區別,接著學習只有相關性還是有因果關系。如果你想在分析行業有扎實的基礎,理解這個概念是非常必要的,而目前分析就像在一些黑匣子上工作。這些技術(因果性和相關性)不只是局限于分析行業,它們的應用遍及所有的行業。

一起來看看答案:

例1:不存在因果性。比如,只有那些從精英商學院中被選中的雄心勃勃且聰明的人,后來才獲得比平均水平高的收入。因此,就算這些學生沒有在那些精英商學院學習,他們仍舊可能得到比平均水平高的收入。于是,在這種情況下,我們有可替代的推理。

例2:不存在因果性。我們可以基于逆因果性來推翻假設。比如,較大的精神壓力事實上能讓一個人去抽煙。

例3:不存在因果性。再一次地,我們可以基于逆因果性來推翻假設。比如,只有成熟的人可能準備好了要生孩子。我們也可以用年齡作為潛在的原因來替代。更大的年齡導致想生孩子和更成熟。

例4:不存在因果性 。我們當然知道,逆因果性是不可能存在的。可替代的原因或相互獨立的關系也是不存在的。

結論:如果你能正確地回答這所有的4個問題,你可以進入下一個概念了。假如你做錯了任何一題,你也許需要在因果性問題上多加練習。

什么是建立因果關系的關鍵點?

建立因果關系的關鍵點對(X = > Y)是:

1、可替換推理:若存在一個可替換的原因(Z),Z確實對X和Y都有影響,即Z => X和Z => Y為真,就那么可以推翻假設X => Y。

2、逆因果性:如果可以用Y影響X來替換X影響Y,那么可以根據逆因果性來推翻假設X => Y。

3、相互獨立:有時候X和Y也許是“被相關”,而再無其它聯系。在這樣的情況下,根據相互獨立性可以推翻假設。

我們如何能確定得到因果性?

在類似制藥領域中,建立因果對是非常重要的。這正是制藥領域要完成足夠多的研究來找到因果對的原因。在開始數學推導前,要理解下面的一些定義。

1、隨機實驗數據:一種實驗通常被定義成在不同條件下隨機分配觀測單元,條件隨著對觀測單元的處理而不同。“處理”(treatment)是一個通用的術語,在醫療應用中最容易翻譯(例如,不同情況對病患得到不同的治療),但是它也適用于其它領域。

2、觀測數據:如果沒有太多的錢做隨機測試,就不得不在已有數據資源上下功夫。在不受控的情況下,這樣的事件已經發生了。因此,選擇不是隨機的。

由觀測數據推導出因果關系是非常困難的,且不具有結論性。在因果關系上要獲得具有結論性的結果,需要做隨機測試。

為什么觀測數據不具有結論性?

觀測數據不具有結論性,是因為觀測數據不是隨機選擇的。我們永遠無法從單個的因果對上得出結論。

2. 例如,如果大量從精英商學院畢業的學生獲得更高收入;這不能推出因果性,因為選擇是基于最初的表現。

3.無論如何,如果隨機從精英商學院中選取學生,這個分析將會在建立因果性上更具有結論性。

為什么不是每一次都進行隨機測試來建立因果性?

你將會因為多種原因被要求利用觀測數據而不是測試數據工作。

第一個原因是,做測試需要資金。例如,如果你的假設是給消費者免費的iPhone,這個活動會對蘋果公司的銷售帶來增量收益。在不知道任何因果關系時,做這個測試當然是個耗資巨大的提議。

第二個原因是,不是所有的測試在道德上都是被允許的。例如,如果想知道抽煙是否對精神壓力產生影響,需要讓正常人抽煙,而這從道德上來說是不被允許的。

在那種情況下,如何利用觀測數據建立因果性?

在這一具體問題上,已經完成了大量的研究。這些方法的整體目標,是消除任何未觀測到變量的影響。下面,將介紹一些眾所周知的技術:

一、面板模型(普通回歸):若至少在一個維度上,不可觀測到的維度是不變的,那么用這個方法就非常方便。例如,如果在時間上,不可觀測到的維度是不變的,就可以試著建立一個面板模型,從不可觀測到的維度上分離出偏差。比如,以商學院=>高收入為例子,假設不可觀測到的維度不隨著時間而改變。

來試試這個方法。

下面是個Y(收入)的回歸方程,以精英商學院(下標T)和不可觀測到的維度(下標U)為變量

2. 但是,因為不可觀測到的維度不隨著時間而改變,可以將方程簡化如下:

3. 現在,可以通過隨著時間產生的差別來消除不可觀測到因素

現在,問題是在商學院和收入之間找到因果性的確切系數。

二、模擬控制:觀測數據最大的問題是在同一個數據點,無法同時獲取得到處理和未經處理的數據。比如,在前面提到的抽煙例子里, 一個人不能同時既是抽煙者又是不抽煙者。

但是,如果可以為得到處理的數據在未經處理組找到看起來很像的數據,然后在相似數據中比較得到處理的反應結果。這是在如今的行業中應用最普遍的方法。

這種相似性可以在近鄰算法、k-d樹或其它算法中找到。打個比方,兩個人,他們年齡一樣,性別一樣,收入一樣等等。其中一人開始抽煙,另一人則不抽煙。現在,如果其它條件沒有變化,那么可以在一段時間內比較他們的壓力水平。

從理論上講,這個方法聽起來讓人非常興奮,它通常是難以創建純模擬或虛擬控制,有時它能產生也許不正確的結論。這事實上是將來另外一篇不同文章的主題。

三、輔助變量(IV):這或許是最難實施的。下面是實施這技術的步驟:

找到因果對。

2.找到跟原因有關的屬性,但是這跟通過回歸因果對獲得的誤差無關。這個變量就是已知的輔助變量(IV)。

3.現在利用輔助變量(IV)估計原因變量。

4.試試回歸估計因果對來找到因果性的實際參數。

到目前為止,我們完成了什么?

利用觀測數據,在因果對中使用任何回歸技術都有偏差系數。用這種方式,可以得到無偏差的估計。比如,在抽煙——精神壓力對中,我們也許認為會被逆因果性所影響。

現在,如果可以找到和卷煙消費量而不是和精神壓力有關的信息,也許能找到真正的關系。通常,輔助變量(IV)是基于調整的變量。例如,我們發現稅收管理只提高了卷煙的價格,導致整個模型里的卷煙消費量下降。現在可以試試按上面提到的4個步驟來找找精神壓力因果性。

4. 回歸不連續性設計:這是我最喜愛的選擇。它使得觀測數據真正接近實驗設計。

在下圖中,我們發現一個維度,其上有一個峰值,該峰值位于得到處理和未經處理的群體比例上。假設,我們想測試在課程結束時,獎學金對大學生成績的影響。注意,獎學金是提供給在入學考試中得分在80分以上的學生。發生扭轉的地方就在這里:因為這些學生已經很聰明,未來他們也許繼續保持頂尖水平。因此,這是一個難以破解的因果性。

但是,如果把成績剛剛在80分以下(比如說79.9分)的學生和成績剛剛在80分之上(比如說80.1分)的學生在學期結束時的成績做一比較。假設那些得分為79.9的學生和得分為80.1的學生不會有很大的差別,只有獎學金的作用可以改變。這就是所謂的準隨機選擇。

因此,得到的結果會很接近完美的因果性結論。使用這種方式的唯一挑戰,在于得到這樣一個維度是非常難的,而它能在得到處理和未經處理的群體之間進行很好的劃分。

結束語

在分析領域中,建立因果性也許是最難的任務。得到錯誤因果性的概率異常高。本文章討論的關鍵概念將較好地幫助你解決因果性問題。

就以這些幽默的話題結束這篇文章吧。這里有些圖片顯示了相關性和因果性的不同。

虛假的相關性:

文章來源:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/

大數據文摘編譯者簡介

姚佳靈家庭主婦,對數據分析和數據處理方面的知識很感興趣,正在努力學習中。康小欣博士,多年從事圖像及數據處理和分析、計算機視覺、模式識別、機器學習、增強現實等領域的技術研究和創新應用,現為西門子中國研究院高級研究員。希望借此平臺,與大數據分析愛好者以及專家學者交流、合作。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 克什克腾旗| 吴堡县| 咸宁市| 东城区| 曲靖市| 桦川县| 伊吾县| 安图县| 济宁市| 伊吾县| 眉山市| 全南县| 长顺县| 长汀县| 门头沟区| 鹤庆县| 溆浦县| 连云港市| 东兴市| 青海省| 龙岩市| 安西县| 云林县| 凌海市| 松原市| 漳平市| 嘉兴市| 丰城市| 五河县| 芦溪县| 广水市| 肇源县| 巍山| 梁平县| 兴化市| 蒙自县| 武清区| 仪征市| 吉水县| 金门县| 界首市|