91大神精品网站在线观看,亚洲美女视频一区二区三区,国产成人免费影片在线观看

如何利用一批去年的數(shù)據(jù)，來預測未來三年的數(shù)據(jù)？

責任編輯：editor005

作者：鄒日佳

2015-01-28 14:04:38

摘自：知乎

好吧，這個問題真的是看得我都想用咆哮體寫了，作為統(tǒng)計系的學生，針對你的要求我只能做到用樣本的均值來估計之后三年的數(shù)據(jù)。由于樣本量過小，對于多參數(shù)來講本身估計的參數(shù)值就不正確了，這就是為什么我不同意趙昕所說的估測之后的1個月還好。

　　1、這批去年的數(shù)據(jù)是按月份的，本身肯定會有波動，但相對穩(wěn)定。

2、預測未來三年的數(shù)據(jù)是需要具體到月份。

3、請問有什么統(tǒng)計方法可以做到么?

好吧，這個問題真的是看得我都想用咆哮體寫了，作為統(tǒng)計系的學生，針對你的要求我只能做到用樣本的均值來估計之后三年的數(shù)據(jù)。

以下長文，對數(shù)學恨之入骨的人慎入。

說真的，我可能是大言不慚了，但是我要說，你們真的不懂統(tǒng)計。

做一個模型大致思路是這樣的：

1、分析數(shù)據(jù)特征

2、由數(shù)據(jù)特征來尋找較為符合的數(shù)據(jù)模型

3、以合適的方法估計出模型的參數(shù)值

4、檢驗估計出來的模型的優(yōu)劣以及對未來值進行估計。

期間的每一步都要經過嚴格的思考，不要隨意跳步。

你的樣本量真的是太小了。不同意只是給出一個模型有什么意義，你的目的是要最好的估計出來以后的數(shù)據(jù)，模型并不重要，重要的是估計值準不準確。部分同意@趙昕的答案，但僅推測一個月一樣是不合適的。

問題是出在第2步。

本身的數(shù)據(jù)太少，特征沒有什么代表性。我們在做模型的時候，往往都對數(shù)據(jù)量的多少有欠考慮。其實數(shù)據(jù)量的需求是根據(jù)你所要估計模型的參數(shù)個數(shù)來確定的。對于均值，哪個不是用樣本期望來估計的，但為什么可以這樣，為什么不是拿中位數(shù)，這樣的估計效果如何，偏差大不大，又考慮過么。基本上要對一個參數(shù)進行合適的估計，我們至少要有10個數(shù)據(jù)。對于多個參數(shù)的情況下，每個參數(shù)不能低于對應5個數(shù)據(jù)，如果要低于這個數(shù)據(jù)量，那么這個模型完全是沒有意義的。

對以前的數(shù)據(jù)擬合的好，說明不了什么問題。現(xiàn)在許多人太計較R方了，R方從來不是挑選一個模型的標準，只能作為剔除一個模型的參考!你想要模型擬合的好，不如去做CRD好了，12個數(shù)據(jù)，12個參數(shù)，每個都是準的，但沒有任何的意義。為什么在時間序列分析里面，人們都傾向于用簡單的模型，而不是復雜的，不是因為麻煩，是因為預測的不準。再說t檢驗，我們在模型里做t檢驗其實都是對參數(shù)的均值進行檢驗并在最后以參數(shù)的均值作為對參數(shù)的估計(許多人都有這個誤區(qū)，以為一開始檢驗的就是參數(shù))，我們的原假設是參數(shù)的均值是0，并認為它服從正態(tài)分布。為什么能認為服從正太分布?因為中心極限定理告訴我們，當樣本量足夠大時，不論什么分布的均值都服從正太分布。12個數(shù)據(jù)的樣本?可惡啊，我這個學統(tǒng)計的辦不到。

另外參數(shù)越多，你估計的每個參數(shù)的精度就越差。為什么這么說，其實每次在估計參數(shù)時，咱們都是在做解多元方程的游戲，參數(shù)個數(shù)就是這些多元方程的變量，你的每一個數(shù)據(jù)其實就是在列一個與這些參數(shù)有關的式子。不論是OLS還是MLE還是Conditional MLE都是如此，你的數(shù)據(jù)越多，對這些參數(shù)的構造就越多，你的參數(shù)也就估計的越準確。本身由小量數(shù)據(jù)來估計的參數(shù)不準確，就算你用的是個無偏有效的估計方法，又有什么意義呢?(一直有人問自由度是什么，為什么說參數(shù)的個數(shù)就是自由度，或者是樣本個數(shù)-自由度，聯(lián)想到多元方程,是不是有點“自由”與“限制” 的感覺了?)

對于使用什么模型，其實都是要估計參數(shù)的，馬爾可夫不是一樣要估計轉移矩陣么。其實估測方法的思想很簡單，要不就是把可能的偏差最小化，要不就是把已發(fā)生的現(xiàn)象的可能性最大化，在這些都做不到的情況下，以最小損失去使上述變?yōu)榭赡堋５窃谀銛?shù)據(jù)不足的情況下，這些都沒有任何意義，做出來的東西也是偏的。

由于樣本量過小，對于多參數(shù)來講本身估計的參數(shù)值就不正確了，這就是為什么我不同意趙昕所說的估測之后的1個月還好。在這個角度上來講，一樣的，也不可以。

好吧，那么我們只能用簡單一元線性回歸了，參數(shù)勉強達到標準。(每個參數(shù)對應6個數(shù)據(jù)，參數(shù)分別是μ和β。)

那么在前三步來講還是沒有問題的，但是等到了第4步，情況就又出現(xiàn)了。

學過統(tǒng)計學的人應該知道置信區(qū)間這么一個概念吧，但是知不知道預測區(qū)間?

預測區(qū)間是指當你估計未來值時，這個區(qū)間以一定的概率包含你對未來值的正確估計。我們一般把一定的概率取為0.95.

實在是不想列公式，不過預測區(qū)間有這么一個性質，當你估測的x是所有x的均值時，它的區(qū)間最窄，可信度最高。當你越偏離x的均值時，你的區(qū)間越寬(因為有(xi-mean(x))^2項)。你只有12個月的數(shù)據(jù)，把x取為1，2，...，12，那么均值就是6.5。在這種情況下預測之后的一個月是可以的，但是想要較為準確地預測3年的數(shù)據(jù)?可惡啊，我這個學統(tǒng)計的還是辦不到。

于是乎我只能說用均值來作為估計了，因為Null model只有1個參數(shù)(μ)可以較為準確的估計，也沒有一元線性回歸那么惡劣的估計性質。

數(shù)據(jù)擬合馬爾可夫