張國發
(遵義醫學院 醫學信息工程學院,貴州 遵義 563006)
若時間序列yt為它的前期值和其當期與前期隨機誤差項的線性函數,即

則稱序列yt為自回歸移動平均序列,該模型為(p,q)階自回歸移動平均模型,記為ARMA(p,q)。參數φ1,φ2,…,φp為自回歸系數,參數θ1,θ2,…,θp為移動平均參數,均是模型的待估參數,隨機項ut為服從零均值、方差為δu2的正態分布,且互相獨立的白噪聲序列,成為隨機誤差項。而且ut與yt-1,yt-2,…,yt-p不相關;若沒有θ1,θ2,…,θq部分,則稱序列yt為自回歸序列,該模型為p階自回歸模型,記為AR(p);若沒有φ1、φ2、…φp部分,則稱序列yt為移動平均序列,該模型為q階移動平均模型,記為MA(q)。
若時間序列yt經過d次差分后可以使用ARMA模型來描述,則稱該時間序列服從ARIMA(p,d,q),其模型為:

由于建立時間序列模型的數據要滿足平穩性條件,所以對數據進行擬合預測前要對數據進行平穩化處理,可以通過時間序列的散點圖或者折線圖對數據序列進行初步的平穩性判斷,再者可以通過自相關圖的特性判斷,最后再構建統計量進行輔助判斷。對于非平穩的數據,我們可以采用差分的方法使其化為平穩的時間序列,但其差分的次數不宜過多,因為這樣會導致模型中信息的大量丟失[1]。
模型識別包含模型的類型以及相應階數p,d,q的確定。差分階數d的識別:如果時間序列的樣本自相關系數和偏自相關系數出現衰減非常緩慢的情況,很可能是自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model,ARIMA)過程。通常的識別是,首先計算一階差分序列的樣本自相關系數和偏自系數,對結果符合自回歸滑動平均(Auto-Regressive and Moving Average,ARMA )模型的特征,則說明時間序列對于某一ARIMA(p,1,q)過程。否則,必須嘗試進行高階差分,直到產生穩定的統計特性為止。p,q確定:拖尾,p階截尾,模型定階為AR(p)模型;q階截尾,拖尾,模型定階為MA(q)模型;拖尾,拖尾,模型定階為ARMA(p,q)模型。估計方面:本文采用ML進行估計,其優點是充分應用了每一個觀察值所提供的信息,因而它的估計精度高,同時,還具有估計的一致性、漸進正態性和漸進有效性等許多優良的統計性質[2]。
(1)為了判斷所得到的模型是否適當,還必須進行診斷檢驗,常用數理統計方法進行統計檢驗,設殘差序列為e1,e2…en,H0:e1,e2…en是白噪聲序列,構建統計量Q:最后利用χ2分布對時間序列模型進行診斷檢驗。(2)參數的檢驗就是要檢驗每個參數是否顯著非零,通常應剔除不顯著參數所對應的自變量并重新擬合,以構造出更精煉的擬合模型[3]。
當一個擬合模型通過了檢驗,說明在一定的置信水平下,該模型能有效地擬合觀察值序列的波動,但這種模型并不是唯一的,對于這種情況,我們通常采用最小信息準則(Akaike Information Criterion,AIC)和貝葉斯信息規則(Best In Class,BIC),這兩個準則可以彌補根據自相關圖和偏自相關圖定階的主觀性,在有限的范圍內,幫助我們尋找相對最優擬合模型。在經過模型識別、參數估計、模型優化后可以獲得一個較為滿意的時間序列預測模型。
首先繪制原始GDP散點圖,數據選取1952—2005年期間部分GDP數據,散點圖顯示1990年之前增長趨勢較慢,較為平穩,1990年之后數據呈現陡增趨勢,與指數增長方式相似,又由于一次和二次指數平滑得到的預測值都要明顯滯后于實際值,這樣就會產生較大的誤差。綜上分析,我們選用三次平滑法比較具有合理性。
指數平滑法的預測模型為Ft+1=ayt+(1-a)Ft,其中:yt—第t期的實際值;Ft—第t的預測值;a—平滑系數,在Excel中,它稱為阻尼系數。由于我們采用三次指數平滑法,則用二次曲線預測模型Ft+m=at+btm+ctm2。

原數列波動較大a宜取大值,即0.6~0.8,這樣可以加重近期觀察值的權重,使各期觀察值的權重由近到遠較快地變小,分別取a=0.8,a=0.7,a=0.6做指數平滑,取a=0.6,標準誤差比較小,所以我們選擇a=0.6作為模型預測的標準,2005年的=154 783.6,=131 248.3=112 389.4,經計算:

預測方程為:

當T=1時,2006年的預測值為:F2006=191 509.6
當T=2時,2007年的預測值為:F2007=200 316.2
當T=3時,2008年的預測值為:F2008=209 415
GDP預測數據比較如表1所示。

表1 GDP預測數據比較
經圖形法檢驗,1952—2005年歷年GDP數據具有明顯的上升趨勢,因此此時間序列是非平穩序列,同時,經自相關系數圖檢驗,自相關系數緩慢衰減,同樣說明序列存在一定的非平穩性;如果序列是平穩的,也不一定都值得建模,只有那些序列值之間具有密切的相依性,歷史數據對未來的發展有一定的影響,才值得我們花時間去挖掘歷史數據中的有效信息,以便用來預測序列未來發展,經自相關函數懸針圖檢驗,顯示沒有一個樣本自相關系數嚴格等于零,但這些自相關系數比較大,都以一定的幅度做著波動,由此可知不是白噪聲序列,同樣,由白噪聲檢驗可知,可知LB(6)=154.93,LB(12)=179.30,LB(18)=179.97,LB(24)=186.40,其p值都小于0.05;顯著表明該序列不是白噪聲序列,這完全符合事實。
(1)觀察圖形后,發現圖形成指數上升形式,變化浮動比較大,表明其數據存在異方差,故作對數變換;經對數變換后可以看出它有明顯的線性增長趨勢,對序列做初步識別。
(2)觀察取對數后的樣本自相關系數,呈現緩慢下降的趨勢,判斷該序列是非平穩的。
(3)結合觀察,我們知道要對序列作差分運算,作一階差分,再觀察差分后樣本自相關系數和偏自相關系數圖;經檢驗在顯著性水平為0.01的條件下,由于各階延遲下χ2檢驗統計量的p值顯著小于0.01,我們有很大把握(置信水平>99%)斷定序列屬于非白噪聲序列。
(4)對對數差分后的平穩非白噪聲序列進行擬合ARMA模型。可以得到對數差分后序列的自相關系數很快衰減到0,具有1階不截尾的性質,而偏自相關也顯示出1階不截尾的性質,分別到6階才出現截尾,初步確定為ARMA(6,6),為了檢驗所選擇的模型是否合適,對模型進行最優識別,經計算可知p=2,q=0時BIC(2,0)=-6.006 74最小,因此模型ARMA(2,0)最優,故我們選擇ARIMA(2,1,0)模型。
(5)模型估計和顯著性檢驗:經模型擬合優度檢驗,所有系數估計全部通過檢驗,模型可以表示為:化簡為y-y=0.112 25+0.594 3tt-1(yt-1-yt-2)+εt,則最終擬合模型為:yt=0.112 25+1.594 3yt-1-0.594 3yt-2+εt,對該模型進行殘差檢驗,殘差是白噪聲序列,該模型適應。
(6)進行預測,預測大陸地區未來3年的每年國民生產總值。GDP預測數據比較如表2所示。
由比較結果可以看出第二種方法的預測值與實際值最為接近,即該種方法最好,故最后選取第二種方法對未來3年的GDP做出預測。從文中分別采取確定性分析和隨機性分析的方法對時間序列做出分析和預測的結果可以看出,隨機性ARIMA模型的分析結果要好于確定性分析的指數模型,由于對于非平穩的數據可以采用差分處理,但差分的次數不宜過多[4-5]。本文采用一次差分較為合理,同時又采用對數相結合的方法,取得了較為滿意的預測結果,為進行類似數據的預報提供了一個參考依據。