999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機抽取的AR模型定階和參數評估

2017-01-09 02:44:28尹慧萍朱建平太原理工大學數學學院太原030024廈門大學管理學院福建廈門36005
統計與決策 2016年24期
關鍵詞:模型

劉 源,尹慧萍,朱建平,2(.太原理工大學 數學學院,太原 030024;2.廈門大學 管理學院,福建 廈門 36005)

基于隨機抽取的AR模型定階和參數評估

劉 源1,尹慧萍1,朱建平1,2
(1.太原理工大學 數學學院,太原 030024;2.廈門大學 管理學院,福建 廈門 361005)

文章基于對平穩時間序列數據的隨機抽取,選用AR模型研究其模型定階方法和參數評估準則。根據數據有序性的特點,提出利用交叉驗證的方法確定自回歸模型階數,并通過對原數據的無放回抽取實現對系數參數估計的評估。實例分析結果表明,交叉驗證的定階與AIC準則定階結果保持較高一致性,新的參數評估在一定的模型誤差范圍內可以得到更為簡單有效的系數估計區間。

隨機抽取;AR模型;模型定階;參數評估

0 引言

時間序列分析的時域方法研究一般是分析樣本的自相關函數,并建立參數模型來描述序列的動態依賴關系。常用的模型有自回歸模型(Auto-regressive,AR)、移動平均模型(Moving Average,MA)和混合模型(Auto-regressive Moving Average,ARMA)。由Wold分解定理[1]可知,任何一個具有有限方差的ARMA過程和MA過程都可以表示成AR過程,而且對AR模型參數估計得到的是線性方程,計算簡便,所以基于AR模型的研究是最常見的。

在AR的建模過程中,對于階數的確定和模型參數的估計是建模中很重要的步驟。從自相關函數出發的模型定階與參數估計一直是時間序列分析的主要研究方向之一。在時域中多數學者采用構造統計量的方法來確定模型的階數,確定有效階數后對AR模型的參數進行求解估計。在頻域中,平穩時間序列的自相關函數是功率譜密度函數,人們根據計算時間和精確度提出適用不同應用場合的多種算法,例如L-D遞推算法、Gram-Schmidt正à法等[2]。信息準則法在時間序列模型選擇中也起著很重要的作用,AIC準則是Akaika(1973)基于對數化的似然函數設計的一個方法來近似K-L距離,該準則既考慮擬合模型對數據的接近程度,也考慮模型中所含待定參數的個數。與使用R2作為標準一樣,AIC有著良好的理論依據[3],Akaika在1976年改進的BIC方法避免了大樣本情況下AIC準則在選擇階數時收斂性不好的缺點。

本文主要從時域方法角度對時間序列進行探討,對于模型階數的確定,借鑒PCR、PLS回歸建模中常用的à叉驗證方法,通過double-foldà叉驗證,用兩次所得的均方預測誤差和來確定模型階數的選取。在模型參數估計的評估中,使用隨機多次抽取原時間序列部分數據進行參數估計,從預測精度和模型穩健性兩方面來評價自回歸方程。

1 AR模型及其計算方法

一般來說,以時間序列數據為依據的實證研究分析都必須假定有關的時間序列是平穩的,否則會導致謬誤回歸的出現。本文中模型階數確定和參數估計中進行隨機抽取也需要所研究序列的平穩性這一假設,這樣使得自回歸模型的假設條件滿足經典線性回歸模型。所以首先對原始序列進行檢驗判別平穩性,若序列不平穩則通過差分使數據達到平穩。

1.1 AR模型簡介

設平穩時間序列{yt}是一個AR(p)過程,則序列{yt}滿足:

其中,{εt}是隨機誤差序列,對于任意的t,滿足假設條件E(εt)=0,Var(εt)=σ2>0,Cov(εi,εj)=0,i≠j。?1,…,?p稱為自回歸系數。

記Bk為k步滯后算子,則AR(p)平穩的條件是滯后算子多項式?(B)=1-?1B-…-?pBp的根均在單位圓外。對AR(p)進行參數估計常用的方法是最小二乘估計和極大似然估計,本文采用極大似然法估計參數,并計算中不同階數下的AIC值變化。

1.2 階數確定

PCR、PLS回歸建模中的à叉驗證是為了選取多個主成分來做回歸分析,校驗每個主成分下的PRESS值,選擇PRESS值小的主成分數,這樣可以得到可靠穩定的模型[3]。

利用double-foldà叉驗證來確定模型的階數p,將原始數據集{yt}均分為兩份樣本:一份樣本被保留作為測試集,另一樣本用來做訓練,用測試集去驗證;之后再將訓練集作為測試集,測試集作為訓練集進行迭代一次,將兩次所得的誤差和作為預測誤差[4]。

本文定義:

其中,V表示均勻分割的兩個不相à數據集,記作ν1、ν2,??(-ν)是基于ν數據集的數據進行的參數估計,Q(ν)是在ν數據集上定義的函數,用均方預測誤差來衡量擬合的優劣,其定義為:

使得CVscore最小的p為最佳模型階數[5,6]。

當原序列數據的個數n很大的情況下,可以隨機抽取部分數據做à叉驗證,具體操作是:從原始數據集{yt}中隨機抽取一段數據作為測試集,再從中抽取與測試集不相à的一段數據作為訓練集,之后進行double-foldà叉驗證計算CVscore值。在平穩時間序列的假設條件下,隨機抽取部分數據作為研究集可以避免數據量龐大帶來的復雜計算過程。

在評價回歸方程的標準當中,殘差平方和RSS從數據與模型擬合優劣的角度出發,反映了實際數據與理論模型的偏離程度;也可以從預測精度出發導出選取自回歸的變量集,看預報值與真實值偏離程度,而CVscore的計算兼有兩者,使得模型在階數的選取上更為穩定可靠。

1.3 評估

對于時間序列數據的建模分析,大多關注于兩個方面:一是預測性能,是否確定階數后的自回歸變量和其對應的回歸方程可以對沒有參與模型參數估計的數據進行合理的預測;二是回歸自變量的穩定性,時間序列相鄰的數據之間的依賴關系是有變化的,不同數據集下模型的自變量系數參數估計是會略有不同的。另外,評價模型需要基于獨立的數據集。

本文提出基于隨機抽取的模型預測評估,如下所示:

(1)在原始序列數據中隨機選取n1長度的數據集作為訓練集,剩余的數據集n2作為測試集,其中n1+n2=n。本文使用

(2)利用訓練集中的時間序列數據進行AR模型的參數估計,本文使用double-foldà叉驗證確定的階數p。

(3)用訓練集得出的回歸方程預測測試集中的數據,計算均方預測誤差MSEP。

(4)為了避免選取數據集時的偶然性,重復步驟(1)至步驟(3)300次,每一次都有新的隨機抽取訓練集和MSEP的計算。

對于以上的預測評估方法,可以評估出自回歸當中穩定的自變量參數估計的范圍。其基本原理是,如果自回歸中的自變量是重要的或者穩定的,那么它的估計系數就會為不同數據集建立的模型變量而多次出現在一定的數值范圍內。由于時間序列數據的有序性以及無法獲得多個獨立的數據集,采取了隨機抽取的辦法。在一定的誤差范圍內,記錄自回歸模型中某一自變量系數參數多次估計得到的數值,得到穩定的合理估值范圍。

AR模型作為回歸模型,系數參數的估計是可以通過Bootstrap的模擬重抽樣來估計系數的分布[7]。本文把原始數據集{yt}當做總體,從中有放回的重新抽樣,重抽樣樣本大小仍為n,可以構造得到系數參數估計的置信區間。本文通過預測評估方法得到系數參數的估計區間是在對序列{yt}無放回的部分數據隨機抽樣并進行參數估計,在大致確定的模型預測誤差范圍內得到簡單有效的多次系數估計分布圖。

2 實例分析

本文選用小木蟲網站上公開的數據集:氧的同位素水平,該數據是在3000年時間里反向時間的180對160的同位素比率,相鄰數據之間的時間間隔為3年,這對于研究氣候模式和氣候變化,以及地球軌道的動力學研究有很大的參考價值。

本文把原始數據轉變成正向時間序列數據后,對其進行平穩性檢驗,通過調用R軟件包fUnitRoots中的urdfTest (x)函數,分析結果為F統計量5.171,p值為0.005854,則拒絕原假設,認為同位素比率序列數據是平穩的[8]。

利用前文中提到的double-foldà叉驗證來確定模型的階數,計算p取不同值時的CVscore值,找到使之最小的p為最佳模型階數;并且通過與不同階數下的AIC值進行對比,考察定階方法的有效性(對CVscore值和MSEP值進行同倍放大減去同數的處理,使其和AIC值隨階數的變化可以在同一個圖中觀察)。

圖1 CVscore和AIC定階曲線圖

從圖1中可以看出,AIC的曲線在階數p到達3以后變化呈現出穩定的態勢,在12處取得最小值,得到最優自回歸變量集(AIC值為R軟件中arima0(x)函數計算所得);CVscore曲線和兩個訓練集下的MSEP曲線都是隨著 p的增大而逐漸上升,CVscore值分別在3、5和12處最小或變化最小,與AIC準則的判別結果保持一致。這表明利用à叉驗證確定最優集的階數是可行的。

根據本文所提出的基于隨機抽取的模型預測評估操作實現,得到了在階數p為3時,300次隨機抽取的訓練數據的參數估計及其預測方差。

圖2 300次估計參數和預測誤差分布圖

圖2分別為一次隨機300次自回歸變量的第一至第三的系數估計與預測誤差的直方圖和密度估計曲線,MSEP值的分布顯示,300次隨機抽取模型估計的預測誤差90%以上是在數值16~18的范圍內的,模型的多次估計是穩定有效的。在參數的估計方面,?1系數估計有30%以上在(1.05,0.1)中,?2的估計值有將近一半在(- 0.15,-0.1)的范圍,?3的估計40%以上落在了(- 0.14,-0.12)內;分布范圍中,?2的取值范圍遠大于其他系數范圍,表明自回歸變量yt-2在自回歸模型建模中并沒有yt-1和yt-3穩定。

表1 系數參數的Bootstrap

本文做出模擬500次的自回歸模型的Bootstrap,得到回歸系數參數估計的95%的置信區間。通過對比可以發現,表1中得到的yt-1、yt-2和yt-3系數的置信區間與圖2中隨機抽取得到的各個系數估計分布圖的數值上下限相一致;自回歸變量yt-2系數估計顯著性檢驗(p值>0.05)表明該變量在模型中的不穩定性,參數置信區間的估計范圍也相對較大。另外,新提出的參數評估方法可以更為方便準確地找到模型系數參數穩定的估計區間,同時也避免了由回歸變量不穩定引起的系數參數估計未通過顯著性檢驗而沒有統計學意義的問題。

3 總結

本文以AR模型為研究模型,針對平穩的時間序列數據,提出了基于隨機抽取的模型定階方法和參數評估。通過氧同位素比率的數據進行實例分析,結果表明double-foldà叉驗證來確定模型的階數是可行有效的,以原始數據為樣本的隨機抽取可以得到一定模型誤差范圍內穩定合理的系數估計區間。

由于時間序列數據有序性的特征,à叉驗證并不是真正的;在序列長度n很大的情況下,隨機抽取部分數據進行à叉驗證更為簡便可行。本文提出的參數評估,較之回歸模型Bootstrap的參數估計置信區間,估計區間更為簡單有效,并且避免了數據量很大時統計檢驗失效的情況。

[1]Kay S M,Marple S L.Spectrum Analysis——A Modern Perspective [J].Proceedings of IEEE,1981,69(11).

[2]衡思坤,郭昊坤,吳軍基,應展烽.離散序列AR模型定階方法研究[J].微計算機信息,2012,28(9).

[3]Xu Q S,Liang Y Z.Monte Carlo Cross Validation[J].Chemometrics and Intelligent Laboratory Systems,2001,(56).

[4]Burnham K P,Anderson D R.Model Selection and Multimodel Infer?ence:A Practical Information-Theoretic Approach[M].New York: Springer,2002.

[5]Huang J,Ma S G.Variable Selection in the Accelerated Failure Time Model via the Bridge Method[J].Lifetime Data Anal,2010,16(2).

[6]Jiang P,Wu H N.RF-DYMHC:Detecting the Yeast Meiotic Recom?bination Hotspots and Coldspots by Random Forest Model Using Gapped Dinucleotide Composition Features[J].Nucleic Acids Re?search,2007,(35).

[7]Kohavi R.A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection[J].Computer Science Department, 1995.

[8]薛毅,陳立萍.R統計建模與R軟件[M].北京:清華大學出版社,2007.

(責任編輯/易永生)

O211.61

A

1002-6487(2016)24-0016-03

劉 源(1991—),男,山西五臺人,碩士研究生,研究方向:數據挖掘。

尹慧萍(1990—),女,山西太原人,碩士研究生,研究方向:數據挖掘。

(通訊作者)朱建平(1962—),男,山西太原人,教授,博士生導師,研究方向:數理統計、計量經濟。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产福利在线观看精品| 97国产一区二区精品久久呦| 欧美精品高清| 国内精品视频在线| 激情综合五月网| 色欲不卡无码一区二区| 久久96热在精品国产高清| 亚洲最猛黑人xxxx黑人猛交| 国产精品福利导航| a级毛片免费网站| 欧美高清视频一区二区三区| a级毛片免费网站| 四虎成人免费毛片| 伊人激情久久综合中文字幕| 久久不卡精品| 国产成人久久综合一区| 国产精品浪潮Av| 中文字幕欧美日韩高清| 99这里只有精品6| 国产免费久久精品99re丫丫一| 中文无码日韩精品| 九九热免费在线视频| 亚洲浓毛av| 亚洲av无码成人专区| 欧美午夜在线观看| 亚洲一区二区约美女探花| 美女内射视频WWW网站午夜| 中文字幕亚洲综久久2021| 亚洲91在线精品| 精品久久综合1区2区3区激情| 国产区福利小视频在线观看尤物| 亚洲二三区| 91九色视频网| 制服丝袜 91视频| 免费看的一级毛片| 成人午夜视频在线| 国产女人18水真多毛片18精品| 免费毛片视频| 亚洲国产日韩视频观看| 欧美色伊人| 中日韩一区二区三区中文免费视频 | 亚洲国产精品一区二区第一页免 | 波多野结衣一区二区三区四区视频| 色首页AV在线| 日韩欧美国产成人| 亚洲天堂网在线播放| 国产主播福利在线观看| 成人在线天堂| 免费视频在线2021入口| 亚洲三级视频在线观看| 久久久久人妻一区精品色奶水| 亚洲第一香蕉视频| 9999在线视频| 一级黄色网站在线免费看| 国产高颜值露脸在线观看| 狠狠色成人综合首页| 国产精品中文免费福利| 国产又色又刺激高潮免费看| 99热这里只有精品5| 国产熟睡乱子伦视频网站| 国产美女精品在线| AV熟女乱| 视频二区亚洲精品| 国产网友愉拍精品视频| 三级视频中文字幕| 四虎在线观看视频高清无码| 国产99精品久久| 日本在线欧美在线| 亚洲中字无码AV电影在线观看| 任我操在线视频| 国产97色在线| 97视频精品全国免费观看| 国产福利拍拍拍| 国产高清又黄又嫩的免费视频网站| 在线免费无码视频| 国产亚洲欧美在线人成aaaa | 囯产av无码片毛片一级| 美女亚洲一区| 国产欧美精品午夜在线播放| 香蕉久久国产超碰青草| 亚洲二区视频| 欧美成人h精品网站|