1、這批去年的數(shù)據(jù)是按月份的,本身肯定會有波動,但相對穩(wěn)定。
2、預測未來三年的數(shù)據(jù)是需要具體到月份。
3、請問有什么統(tǒng)計方法可以做到么?
好吧,這個問題真的是看得我都想用咆哮體寫了,作為統(tǒng)計系的學生,針對你的要求我只能做到用樣本的均值來估計之后三年的數(shù)據(jù)。
以下長文,對數(shù)學恨之入骨的人慎入。
說真的,我可能是大言不慚了,但是我要說,你們真的不懂統(tǒng)計。
做一個模型大致思路是這樣的:
1、分析數(shù)據(jù)特征
2、由數(shù)據(jù)特征來尋找較為符合的數(shù)據(jù)模型
3、以合適的方法估計出模型的參數(shù)值
4、檢驗估計出來的模型的優(yōu)劣以及對未來值進行估計。
期間的每一步都要經過嚴格的思考,不要隨意跳步。
你的樣本量真的是太小了。不同意 只是給出一個模型有什么意義,你的目的是要最好的估計出來以后的數(shù)據(jù),模型并不重要,重要的是估計值準不準確。部分同意@趙昕 的答案,但僅推測一個月一樣是不合適的。
問題是出在第2步。
本身的數(shù)據(jù)太少,特征沒有什么代表性。我們在做模型的時候,往往都對數(shù)據(jù)量的多少有欠考慮。其實數(shù)據(jù)量的需求是根據(jù)你所要估計模型的參數(shù)個數(shù)來確定的。對于均值,哪個不是用樣本期望來估計的,但為什么可以這樣,為什么不是拿中位數(shù),這樣的估計效果如何,偏差大不大,又考慮過么。基本上要對一個參數(shù)進行合適的估計,我們至少要有10個數(shù)據(jù)。對于多個參數(shù)的情況下,每個參數(shù)不能低于對應5個數(shù)據(jù),如果要低于這個數(shù)據(jù)量,那么這個模型完全是沒有意義的。
對以前的數(shù)據(jù)擬合的好,說明不了什么問題。現(xiàn)在許多人太計較R方了,R方從來不是挑選一個模型的標準,只能作為剔除一個模型的參考!你想要模型擬合的好,不如去做CRD好了,12個數(shù)據(jù),12個參數(shù),每個都是準的,但沒有任何的意義。為什么在時間序列分析里面,人們都傾向于用簡單的模型,而不是復雜的,不是因為麻煩,是因為預測的不準。再說t檢驗,我們在模型里做t檢驗其實都是對參數(shù)的均值進行檢驗并在最后以參數(shù)的均值作為對參數(shù)的估計(許多人都有這個誤區(qū),以為一開始檢驗的就是參數(shù)),我們的原假設是參數(shù)的均值是0,并認為它服從正態(tài)分布。為什么能認為服從正太分布?因為中心極限定理告訴我們,當樣本量足夠大時,不論什么分布的均值都服從正太分布。12個數(shù)據(jù)的樣本?可惡啊,我這個學統(tǒng)計的辦不到。
另外參數(shù)越多,你估計的每個參數(shù)的精度就越差。為什么這么說,其實每次在估計參數(shù)時,咱們都是在做解多元方程的游戲,參數(shù)個數(shù)就是這些多元方程的變量,你的每一個數(shù)據(jù)其實就是在列一個與這些參數(shù)有關的式子。不論是OLS還是MLE還是Conditional MLE都是如此,你的數(shù)據(jù)越多,對這些參數(shù)的構造就越多,你的參數(shù)也就估計的越準確。本身由小量數(shù)據(jù)來估計的參數(shù)不準確,就算你用的是個無偏有效的估計方法,又有什么意義呢?(一直有人問自由度是什么,為什么說參數(shù)的個數(shù)就是自由度,或者是樣本個數(shù)-自由度,聯(lián)想到多元方程,是不是有點“自由”與“限制” 的感覺了?)
對于使用什么模型,其實都是要估計參數(shù)的,馬爾可夫不是一樣要估計轉移矩陣么。其實估測方法的思想很簡單,要不就是把可能的偏差最小化,要不就是把已發(fā)生的現(xiàn)象的可能性最大化,在這些都做不到的情況下,以最小損失去使上述變?yōu)榭赡堋5窃谀銛?shù)據(jù)不足的情況下,這些都沒有任何意義,做出來的東西也是偏的。
由于樣本量過小,對于多參數(shù)來講本身估計的參數(shù)值就不正確了,這就是為什么我不同意趙昕所說的估測之后的1個月還好。在這個角度上來講,一樣的,也不可以。
好吧,那么我們只能用簡單一元線性回歸了,參數(shù)勉強達到標準。(每個參數(shù)對應6個數(shù)據(jù),參數(shù)分別是μ和β。)
那么在前三步來講還是沒有問題的,但是等到了第4步,情況就又出現(xiàn)了。
學過統(tǒng)計學的人應該知道置信區(qū)間這么一個概念吧,但是知不知道預測區(qū)間?
預測區(qū)間是指當你估計未來值時,這個區(qū)間以一定的概率包含你對未來值的正確估計。我們一般把一定的概率取為0.95.
實在是不想列公式,不過預測區(qū)間有這么一個性質,當你估測的x是所有x的均值時,它的區(qū)間最窄,可信度最高。當你越偏離x的均值時,你的區(qū)間越寬(因為有(xi-mean(x))^2項)。你只有12個月的數(shù)據(jù),把x取為1,2,...,12,那么均值就是6.5。在這種情況下預測之后的一個月是可以的,但是想要較為準確地預測3年的數(shù)據(jù)?可惡啊,我這個學統(tǒng)計的還是辦不到。
于是乎我只能說用均值來作為估計了,因為Null model只有1個參數(shù)(μ)可以較為準確的估計,也沒有一元線性回歸那么惡劣的估計性質。