劉 源,尹慧萍,朱建平,2(.太原理工大學 數學學院,太原 030024;2.廈門大學 管理學院,福建 廈門 36005)
基于隨機抽取的AR模型定階和參數評估
劉 源1,尹慧萍1,朱建平1,2
(1.太原理工大學 數學學院,太原 030024;2.廈門大學 管理學院,福建 廈門 361005)
文章基于對平穩時間序列數據的隨機抽取,選用AR模型研究其模型定階方法和參數評估準則。根據數據有序性的特點,提出利用交叉驗證的方法確定自回歸模型階數,并通過對原數據的無放回抽取實現對系數參數估計的評估。實例分析結果表明,交叉驗證的定階與AIC準則定階結果保持較高一致性,新的參數評估在一定的模型誤差范圍內可以得到更為簡單有效的系數估計區間。
隨機抽取;AR模型;模型定階;參數評估
時間序列分析的時域方法研究一般是分析樣本的自相關函數,并建立參數模型來描述序列的動態依賴關系。常用的模型有自回歸模型(Auto-regressive,AR)、移動平均模型(Moving Average,MA)和混合模型(Auto-regressive Moving Average,ARMA)。由Wold分解定理[1]可知,任何一個具有有限方差的ARMA過程和MA過程都可以表示成AR過程,而且對AR模型參數估計得到的是線性方程,計算簡便,所以基于AR模型的研究是最常見的。
在AR的建模過程中,對于階數的確定和模型參數的估計是建模中很重要的步驟。從自相關函數出發的模型定階與參數估計一直是時間序列分析的主要研究方向之一。在時域中多數學者采用構造統計量的方法來確定模型的階數,確定有效階數后對AR模型的參數進行求解估計。在頻域中,平穩時間序列的自相關函數是功率譜密度函數,人們根據計算時間和精確度提出適用不同應用場合的多種算法,例如L-D遞推算法、Gram-Schmidt正à法等[2]。信息準則法在時間序列模型選擇中也起著很重要的作用,AIC準則是Akaika(1973)基于對數化的似然函數設計的一個方法來近似K-L距離,該準則既考慮擬合模型對數據的接近程度,也考慮模型中所含待定參數的個數。與使用R2作為標準一樣,AIC有著良好的理論依據[3],Akaika在1976年改進的BIC方法避免了大樣本情況下AIC準則在選擇階數時收斂性不好的缺點。
本文主要從時域方法角度對時間序列進行探討,對于模型階數的確定,借鑒PCR、PLS回歸建模中常用的à叉驗證方法,通過double-foldà叉驗證,用兩次所得的均方預測誤差和來確定模型階數的選取。在模型參數估計的評估中,使用隨機多次抽取原時間序列部分數據進行參數估計,從預測精度和模型穩健性兩方面來評價自回歸方程。
一般來說,以時間序列數據為依據的實證研究分析都必須假定有關的時間序列是平穩的,否則會導致謬誤回歸的出現。本文中模型階數確定和參數估計中進行隨機抽取也需要所研究序列的平穩性這一假設,這樣使得自回歸模型的假設條件滿足經典線性回歸模型。所以首先對原始序列進行檢驗判別平穩性,若序列不平穩則通過差分使數據達到平穩。
1.1 AR模型簡介
設平穩時間序列{yt}是一個AR(p)過程,則序列{yt}滿足:

其中,{εt}是隨機誤差序列,對于任意的t,滿足假設條件E(εt)=0,Var(εt)=σ2>0,Cov(εi,εj)=0,i≠j。?1,…,?p稱為自回歸系數。
記Bk為k步滯后算子,則AR(p)平穩的條件是滯后算子多項式?(B)=1-?1B-…-?pBp的根均在單位圓外。對AR(p)進行參數估計常用的方法是最小二乘估計和極大似然估計,本文采用極大似然法估計參數,并計算中不同階數下的AIC值變化。
1.2 階數確定
PCR、PLS回歸建模中的à叉驗證是為了選取多個主成分來做回歸分析,校驗每個主成分下的PRESS值,選擇PRESS值小的主成分數,這樣可以得到可靠穩定的模型[3]。
利用double-foldà叉驗證來確定模型的階數p,將原始數據集{yt}均分為兩份樣本:一份樣本被保留作為測試集,另一樣本用來做訓練,用測試集去驗證;之后再將訓練集作為測試集,測試集作為訓練集進行迭代一次,將兩次所得的誤差和作為預測誤差[4]。
本文定義:

其中,V表示均勻分割的兩個不相à數據集,記作ν1、ν2,??(-ν)是基于ν數據集的數據進行的參數估計,Q(ν)是在ν數據集上定義的函數,用均方預測誤差來衡量擬合的優劣,其定義為:

使得CVscore最小的p為最佳模型階數[5,6]。
當原序列數據的個數n很大的情況下,可以隨機抽取部分數據做à叉驗證,具體操作是:從原始數據集{yt}中隨機抽取一段數據作為測試集,再從中抽取與測試集不相à的一段數據作為訓練集,之后進行double-foldà叉驗證計算CVscore值。在平穩時間序列的假設條件下,隨機抽取部分數據作為研究集可以避免數據量龐大帶來的復雜計算過程。
在評價回歸方程的標準當中,殘差平方和RSS從數據與模型擬合優劣的角度出發,反映了實際數據與理論模型的偏離程度;也可以從預測精度出發導出選取自回歸的變量集,看預報值與真實值偏離程度,而CVscore的計算兼有兩者,使得模型在階數的選取上更為穩定可靠。
1.3 評估
對于時間序列數據的建模分析,大多關注于兩個方面:一是預測性能,是否確定階數后的自回歸變量和其對應的回歸方程可以對沒有參與模型參數估計的數據進行合理的預測;二是回歸自變量的穩定性,時間序列相鄰的數據之間的依賴關系是有變化的,不同數據集下模型的自變量系數參數估計是會略有不同的。另外,評價模型需要基于獨立的數據集。
本文提出基于隨機抽取的模型預測評估,如下所示:
(1)在原始序列數據中隨機選取n1長度的數據集作為訓練集,剩余的數據集n2作為測試集,其中n1+n2=n。本文使用
(2)利用訓練集中的時間序列數據進行AR模型的參數估計,本文使用double-foldà叉驗證確定的階數p。
(3)用訓練集得出的回歸方程預測測試集中的數據,計算均方預測誤差MSEP。
(4)為了避免選取數據集時的偶然性,重復步驟(1)至步驟(3)300次,每一次都有新的隨機抽取訓練集和MSEP的計算。
對于以上的預測評估方法,可以評估出自回歸當中穩定的自變量參數估計的范圍。其基本原理是,如果自回歸中的自變量是重要的或者穩定的,那么它的估計系數就會為不同數據集建立的模型變量而多次出現在一定的數值范圍內。由于時間序列數據的有序性以及無法獲得多個獨立的數據集,采取了隨機抽取的辦法。在一定的誤差范圍內,記錄自回歸模型中某一自變量系數參數多次估計得到的數值,得到穩定的合理估值范圍。
AR模型作為回歸模型,系數參數的估計是可以通過Bootstrap的模擬重抽樣來估計系數的分布[7]。本文把原始數據集{yt}當做總體,從中有放回的重新抽樣,重抽樣樣本大小仍為n,可以構造得到系數參數估計的置信區間。本文通過預測評估方法得到系數參數的估計區間是在對序列{yt}無放回的部分數據隨機抽樣并進行參數估計,在大致確定的模型預測誤差范圍內得到簡單有效的多次系數估計分布圖。
本文選用小木蟲網站上公開的數據集:氧的同位素水平,該數據是在3000年時間里反向時間的180對160的同位素比率,相鄰數據之間的時間間隔為3年,這對于研究氣候模式和氣候變化,以及地球軌道的動力學研究有很大的參考價值。
本文把原始數據轉變成正向時間序列數據后,對其進行平穩性檢驗,通過調用R軟件包fUnitRoots中的urdfTest (x)函數,分析結果為F統計量5.171,p值為0.005854,則拒絕原假設,認為同位素比率序列數據是平穩的[8]。
利用前文中提到的double-foldà叉驗證來確定模型的階數,計算p取不同值時的CVscore值,找到使之最小的p為最佳模型階數;并且通過與不同階數下的AIC值進行對比,考察定階方法的有效性(對CVscore值和MSEP值進行同倍放大減去同數的處理,使其和AIC值隨階數的變化可以在同一個圖中觀察)。

圖1 CVscore和AIC定階曲線圖
從圖1中可以看出,AIC的曲線在階數p到達3以后變化呈現出穩定的態勢,在12處取得最小值,得到最優自回歸變量集(AIC值為R軟件中arima0(x)函數計算所得);CVscore曲線和兩個訓練集下的MSEP曲線都是隨著 p的增大而逐漸上升,CVscore值分別在3、5和12處最小或變化最小,與AIC準則的判別結果保持一致。這表明利用à叉驗證確定最優集的階數是可行的。
根據本文所提出的基于隨機抽取的模型預測評估操作實現,得到了在階數p為3時,300次隨機抽取的訓練數據的參數估計及其預測方差。

圖2 300次估計參數和預測誤差分布圖
圖2分別為一次隨機300次自回歸變量的第一至第三的系數估計與預測誤差的直方圖和密度估計曲線,MSEP值的分布顯示,300次隨機抽取模型估計的預測誤差90%以上是在數值16~18的范圍內的,模型的多次估計是穩定有效的。在參數的估計方面,?1系數估計有30%以上在(1.05,0.1)中,?2的估計值有將近一半在(- 0.15,-0.1)的范圍,?3的估計40%以上落在了(- 0.14,-0.12)內;分布范圍中,?2的取值范圍遠大于其他系數范圍,表明自回歸變量yt-2在自回歸模型建模中并沒有yt-1和yt-3穩定。

表1 系數參數的Bootstrap
本文做出模擬500次的自回歸模型的Bootstrap,得到回歸系數參數估計的95%的置信區間。通過對比可以發現,表1中得到的yt-1、yt-2和yt-3系數的置信區間與圖2中隨機抽取得到的各個系數估計分布圖的數值上下限相一致;自回歸變量yt-2系數估計顯著性檢驗(p值>0.05)表明該變量在模型中的不穩定性,參數置信區間的估計范圍也相對較大。另外,新提出的參數評估方法可以更為方便準確地找到模型系數參數穩定的估計區間,同時也避免了由回歸變量不穩定引起的系數參數估計未通過顯著性檢驗而沒有統計學意義的問題。
本文以AR模型為研究模型,針對平穩的時間序列數據,提出了基于隨機抽取的模型定階方法和參數評估。通過氧同位素比率的數據進行實例分析,結果表明double-foldà叉驗證來確定模型的階數是可行有效的,以原始數據為樣本的隨機抽取可以得到一定模型誤差范圍內穩定合理的系數估計區間。
由于時間序列數據有序性的特征,à叉驗證并不是真正的;在序列長度n很大的情況下,隨機抽取部分數據進行à叉驗證更為簡便可行。本文提出的參數評估,較之回歸模型Bootstrap的參數估計置信區間,估計區間更為簡單有效,并且避免了數據量很大時統計檢驗失效的情況。
[1]Kay S M,Marple S L.Spectrum Analysis——A Modern Perspective [J].Proceedings of IEEE,1981,69(11).
[2]衡思坤,郭昊坤,吳軍基,應展烽.離散序列AR模型定階方法研究[J].微計算機信息,2012,28(9).
[3]Xu Q S,Liang Y Z.Monte Carlo Cross Validation[J].Chemometrics and Intelligent Laboratory Systems,2001,(56).
[4]Burnham K P,Anderson D R.Model Selection and Multimodel Infer?ence:A Practical Information-Theoretic Approach[M].New York: Springer,2002.
[5]Huang J,Ma S G.Variable Selection in the Accelerated Failure Time Model via the Bridge Method[J].Lifetime Data Anal,2010,16(2).
[6]Jiang P,Wu H N.RF-DYMHC:Detecting the Yeast Meiotic Recom?bination Hotspots and Coldspots by Random Forest Model Using Gapped Dinucleotide Composition Features[J].Nucleic Acids Re?search,2007,(35).
[7]Kohavi R.A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection[J].Computer Science Department, 1995.
[8]薛毅,陳立萍.R統計建模與R軟件[M].北京:清華大學出版社,2007.
(責任編輯/易永生)
O211.61
A
1002-6487(2016)24-0016-03
劉 源(1991—),男,山西五臺人,碩士研究生,研究方向:數據挖掘。
尹慧萍(1990—),女,山西太原人,碩士研究生,研究方向:數據挖掘。
(通訊作者)朱建平(1962—),男,山西太原人,教授,博士生導師,研究方向:數理統計、計量經濟。