天天爽夜爽免费精品视频,精品一区二区在线欧美日韩,久久婷婷国产综合精品

數據分析不得不知的七種回歸分析技術

責任編輯：editor005

作者：掃地僧

2016-09-19 14:11:18

摘自：數據人

回歸分析技術是一種非常重要的數據分析方法，有著廣泛的應用，能夠解決目標變量為連續的預測分析問題。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關系。

回歸分析技術是一種非常重要的數據分析方法，有著廣泛的應用，能夠解決目標變量為連續的預測分析問題。

什么是回歸分析?

回歸分析是一種預測性的建模技術，它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于預測分析，時間序列模型以及發現變量之間的因果關系。例如，司機的魯莽駕駛與道路交通事故數量之間的關系，最好的研究方法就是回歸。

回歸分析是建模和分析數據的重要工具。在這里，我們使用曲線/線來擬合這些數據點，在這種方式下，從曲線或線到數據點的距離差異最小。我會在接下來的部分詳細解釋這一點。

數據分析

　　我們為什么使用回歸分析?

如上所述，回歸分析估計了兩個或多個變量之間的關系。下面，讓我們舉一個簡單的例子來理解它：

比如說，在當前的經濟條件下，你要估計一家公司的銷售額增長情況。現在，你有公司最新的數據，這些數據顯示出銷售額增長大約是經濟增長的2.5倍。那么使用回歸分析，我們就可以根據當前和過去的信息來預測未來公司的銷售情況。

使用回歸分析的好處良多。具體如下：

它表明自變量和因變量之間的顯著關系;

它表明多個自變量對一個因變量的影響強度。

回歸分析也允許我們去比較那些衡量不同尺度的變量之間的相互影響，如價格變動與促銷活動數量之間聯系。這些有利于幫助市場研究人員，數據分析人員以及數據科學家排除并估計出一組最佳的變量，用來構建預測模型。

我們有多少種回歸技術?

有各種各樣的回歸技術用于預測。這些技術主要有三個度量(自變量的個數，因變量的類型以及回歸線的形狀)。我們將在下面的部分詳細討論它們。

對于那些有創意的人，如果你覺得有必要使用上面這些參數的一個組合，你甚至可以創造出一個沒有被使用過的回歸模型。但在你開始之前，先了解如下最常用的回歸方法：

1.Linear Regression線性回歸

它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中，因變量是連續的，自變量可以是連續的也可以是離散的，回歸線的性質是線性的。

線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關系。

用一個方程式來表示它，即Y=a+b*X+e，其中a表示截距，b表示直線的斜率，e是誤差項。這個方程可以根據給定的預測變量(X)來預測目標變量的值。

一元線性回歸和多元線性回歸的區別在于，多元線性回歸有(>1)個自變量，而一元線性回歸通常只有1個自變量。現在的問題是“我們如何得到一個最佳的擬合線呢?”。

如何獲得最佳擬合線(a和b的值)?

這個問題可以使用最小二乘法輕松地完成。最小二乘法也是用于擬合回歸線最常用的方法。對于觀測數據，它通過最小化每個數據點到線的垂直偏差平方和來計算最佳擬合線。因為在相加時，偏差先平方，所以正值和負值沒有抵消。

我們可以使用R-square指標來評估模型性能。想了解這些指標的詳細信息，可以閱讀：模型性能指標Part 1,Part 2.

要點：1.自變量與因變量之間必須有線性關系 2.多元回歸存在多重共線性，自相關性和異方差性。 3.線性回歸對異常值非常敏感。它會嚴重影響回歸線，最終影響預測值。 4.多重共線性會增加系數估計值的方差，使得在模型輕微變化下，估計非常敏感。結果就是系數估計值不穩定 5.在多個自變量的情況下，我們可以使用向前選擇法，向后剔除法和逐步篩選法來選擇最重要的自變量。

2.Logistic Regression邏輯回歸

邏輯回歸是用來計算“事件=Success”和“事件=Failure”的概率。當因變量的類型屬于二元(1 / 0，真/假，是/否)變量時，我們就應該使用邏輯回歸。這里，Y的值從0到1，它可以用下方程表示。 odds= p/ (1-p) = probability of event occurrence / probability of not event occurrenceln(odds) = ln(p/(1-p))logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

上述式子中，p表述具有某個特征的概率。你應該會問這樣一個問題：“我們為什么要在公式中使用對數log呢?”。

因為在這里我們使用的是的二項分布(因變量)，我們需要選擇一個對于這個分布最佳的連結函數。它就是Logit函數。在上述方程中，通過觀測樣本的極大似然估計值來選擇參數，而不是最小化平方和誤差(如在普通回歸使用的)。

要點：1.它廣泛的用于分類問題。 2.邏輯回歸不要求自變量和因變量是線性關系。它可以處理各種類型的關系，因為它對預測的相對風險指數OR使用了一個非線性的log轉換。 3.為了避免過擬合和欠擬合，我們應該包括所有重要的變量。有一個很好的方法來確保這種情況，就是使用逐步篩選方法來估計邏輯回歸。 4.它需要大的樣本量，因為在樣本數量較少的情況下，極大似然估計的效果比普通的最小二乘法差。 5.自變量不應該相互關聯的，即不具有多重共線性。然而，在分析和建模中，我們可以選擇包含分類變量相互作用的影響。 6.如果因變量的值是定序變量，則稱它為序邏輯回歸。 7.如果因變量是多類的話，則稱它為多元邏輯回歸。

3.Polynomial Regression多項式回歸

對于一個回歸方程，如果自變量的指數大于1，那么它就是多項式回歸方程。如下方程所示：y=a+b*x^2

在這種回歸技術中，最佳擬合線不是直線。而是一個用于擬合數據點的曲線。

重點：雖然會有一個誘導可以擬合一個高次多項式并得到較低的錯誤，但這可能會導致過擬合。你需要經常畫出關系圖來查看擬合情況，并且專注于保證擬合合理，既沒有過擬合又沒有欠擬合。

下面是一個圖例，可以幫助理解：

明顯地向兩端尋找曲線點，看看這些形狀和趨勢是否有意義。更高次的多項式最后可能產生怪異的推斷結果。

4.Stepwise Regression逐步回歸

在處理多個自變量時，我們可以使用這種形式的回歸。在這種技術中，自變量的選擇是在一個自動的過程中完成的，其中包括非人為操作。

這一壯舉是通過觀察統計的值，如R-square，t-stats和AIC指標，來識別重要的變量。逐步回歸通過同時添加/刪除基于指定標準的協變量來擬合模型。

下面列出了一些最常用的逐步回歸方法： - 標準逐步回歸法做兩件事情。即增加和刪除每個步驟所需的預測。 - 向前選擇法從模型中最顯著的預測開始，然后為每一步添加變量。 - 向后剔除法與模型的所有預測同時開始，然后在每一步消除最小顯著性的變量。

這種建模技術的目的是使用最少的預測變量數來最大化預測能力。這也是處理高維數據集的方法之一。

5.Ridge Regression嶺回歸

嶺回歸分析是一種用于存在多重共線性(自變量高度相關)數據的技術。在多重共線性情況下，盡管最小二乘法(OLS)對每個變量很公平，但它們的差異很大，使得觀測值偏移并遠離真實值。嶺回歸通過給回歸估計上增加一個偏差度，來降低標準誤差。

上面，我們看到了線性回歸方程。還記得嗎?它可以表示為： y=a+b x這個方程也有一個誤差項。完整的方程是： y=a+b x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value] => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.

在一個線性方程中，預測誤差可以分解為2個子分量。一個是偏差，一個是方差。預測錯誤可能會由這兩個分量或者這兩個中的任何一個造成。在這里，我們將討論由方差所造成的有關誤差。

嶺回歸通過收縮參數λ(lambda)解決多重共線性問題。看下面的公式