王維強,牛振東,曹玉娟,趙育民,趙堃
(北京理工大學 計算機學院,北京,100081)
ARMA模型和APARCH模型分別是統計時間序列模型和結構計量經濟模型。過去30年中,這2種模型被計量經濟學家用于預測。目前,非線性ARCH族模型特別是GARCH(1,1)模型因為可以用于解釋大量的經濟數據和活動而逐漸用于各個領域。自從 Engle提出ARCH模型后, GARCH成為處理時間序列數據非常重要的模型,特別是在處理金融數據中,用于分析和預測數據的波動性[1]。GARCH模型其方差隨著時間的變化而變化,并且具有波動性和縱集性。目前,將GARCH族模型用于交通量的預測和研究甚少,因此,研究時間序列模型對交通數據的擬合和預測具有重要意義。為此,本文作者選用美國加州洛杉磯長灘地區交通量為研究對象,提出新的時間序列模型對其進行擬合、分析和預測,以便為控制交通量的增長和進一步控制廢氣排放提供理論依據。
ARMA(Generalized ARCH)模型用于時間序列中主要是建立序列的自回歸方程,而 GARCH模型則主要用于研究序列的方差。在廣義自回歸條件異方差模型(Generalized autoregressive conditional heteroscedasticity model,簡記為GARCH模型)中,要考慮2個不同的設定:一個是條件均值,另一個是條件方差[2-3]。在標準化的GARCH(1,1)模型中,

其中:xt為 1×(k+1)維外生變量向量;γ為(k+1)×1維系數向量。式(1)中給出的均值方程是一個帶有擾動項的外生變量函數。由于是以前面信息為基礎的一期向前預測方差,所以,它被稱作條件方差,式(2)也被稱作條件方差方程。
近年來,出現了一大批GARCH模型的變形,其中,除 ARCH和 GARCH模型之外,還有不對稱冪ARCH模型即APARCH模型,包括特殊的TS-GARCH模型、GJR-GARCH模型、T-ARCH模型、N-ARCH模型、Log-ARCH模型等[4-9]。
APARCH(p,q) 的方差方程可以描述成如下形式:

式中:iγ為杠桿影響參數;δ為Taylor影響參數;q為持久性因子;zt是1個均值為0、方差為獨立分布的隨機過程參數; (0,1)D?是以0為均值、方差為1的概率密度函數;?是分布參數,用來描述函數分布的形狀和峰度。
此模型增加了1個不對稱參數通過指數變化的靈活性來解釋函數的杠桿作用。
若所有的系數 β=0,則 GARCH 模型就降維成ARCH模型。
ARMA-TS-GARCH模型類似于 AR-GARCH模型,分開來看,每一個混合模型的成分都可以定義成普通的ARMA模型:式(6)也可以寫成:


ARMA模型常常也被稱為混合模型,記作ARMA(p,q)。當p=0 時,ARMA(0, q)=MA(q);當q=0時,ARMA(p, 0)=AR(p)。
另外,每一個殘差項,tjε都代表高斯分布變量的白噪音(White noise),并且GARCH模型可以表示成如下形式:

其中:qjθ>0;q=1, …, Q。并且當pjβ>0時,p=1, …,P。根據定義,當δ=1和γi=0時,TS-GARCH模型表示如下:

因此,可以在數學上用K-成分高斯混合模型得到有限混合ARMA-TS-GARCH模型,它的表現形式如下:

其中:

并且jα
從式(9)~(11)可得新模型ARMA-TS-GARCH的表示形式。
交通量的數據來自加州交通局屬的交通和車輛數據系統分局。每月給出車輛里程數的報告。該報告由交通數據科制作,對駕駛者在美國加利福尼亞州公路上行駛的車輛里程數進行估計。該估計的方法是:1個樣本有22個流量監測點,其中包括各種巷道類型來用來計算車輛的行駛里程。
對美國洛杉磯長灘地區的所有數據集的數據從2000年1月到2006年12月進行總體統計,相應的時間序列圖如圖1所示。

圖1 洛杉磯長灘2000—2006年交通量時序圖Fig.1 LA long beach Traffic series plot in 2000—2006
從圖1可以看出:交通量逐年上漲。這與買車的數量逐年上漲相符。此外,車流量也是以年為周期呈季節性變化。
ARMA(p,q)模型中AR和MA參數部分應使用關鍵詞ar和ma定義。而TS-GARCH(p,q)中的參數部分在這里用關鍵詞α和β定義。模型參數值估計結果如表1所示。從表1可見:參數都小于1。取參數值為1,這樣,此模型為ARMA(1,1)-TS-GARCH(1,1)。

表1 模型參數估計Table 1 Model parameter estimation
在GARCH模型的框架內對異方差時間序列的參數進行估計。但是,參數估計不是對 ARMA-TSGARCH模型進行分析的唯一方面,還包括:時間序列模型的定義,時間序列模型仿真的檢驗,參數估計,診斷分析,對預測的計算等。
對于含有ARMA項的模型,基于殘差的回歸統計量,如R2和DW都是以一期向前預測誤差為基礎計算的。1個含有AR項的模型有2種殘差:第1種是無條件殘差,第2種是估計的一期向前預測誤差。這種殘差代表預測誤差。實際上,通過利用滯后殘差的預測能力,提高了無條件預測能力,隱藏低了殘差。
下面對 ARMA-TS-GARCH模型進行診斷和檢驗。
(1) 殘差檢驗。殘差檢驗包括對估計方程殘差的序列相關、正態性、異方差性和自回歸條件異方差性進行檢驗[10-13]。
對1個序列分布的最簡單非參數密度估計是采用直方圖。直方圖對原點的選擇比較敏感并且是不連續的。非參數密度估計直方圖檢驗結果見圖 2。從圖 2可以看出:數據集的直方圖的中心與0稍有偏離,但比較接近。

圖2 直方圖檢驗Fig.2 Histogram test
Quantile-Quantile( Q-Q圖)檢驗對于比較2個分布是一種簡單而又有效的重要工具,可反映一個被選序列的分位數分布相對于另一個序列的分位數分布或一個理論分布的異同,或者模型與數據之間的擬合程度。圖3所示為非參數密度估計Q-Q圖。其中,直線的斜率為標準差,截距為均值。從圖3可以看出:數據基本圍繞在線的周圍上下波動,基本沒有很大的離群點,說明模型對數據擬合程度良好。
殘差是實際值與回歸預測值之間的差[14-15]。殘差圖以殘差為縱坐標,以任何其他指定的量為橫坐標的散點圖,可用于檢查回歸線的異常點。若描繪的點圍繞殘差等于0的直線上下隨機散布,則說明回歸直線對原觀測值的擬合情況良好,說明變量X與y之間有顯著的線性相關關系;否則,說明回歸直線對原觀測值的擬合不理想。非參數密度估計殘差檢驗結結果見圖4。從圖4可見:數值點都是在[-1, 1]的區間內,圍繞0上下波動,雖然偶有幾個離群值,但是都沒有超出絕對值為1的區間,可見:回歸預測值與實際值的擬合較理想。

圖3 Q-Q圖檢驗Fig.3 Q-Q Plot test

圖4 殘差檢驗Fig.4 Residual test
為了進一步證明ARMA-TS-GARCH模型的優越性,將其與經典模型GARCH和ARMA-GARCH進行比較。用它們對同樣的數據集進行分析,比較的信息準則是 AIC, BIC, SIC和HQ。所得結果見表2。AIC,BIC, SIC和HQ這4個信息準則的值越小,證明這個模型越好。從表2可以看出ARMA-TS- GARCH模型的各種信息標準結果都比 ARMA- GARCH模型和GARCH模型的低[17],這說明ARMA- TS-GARCH模型在處理某些時間序列數據(如交通量數據集)時,比其他模型更具有優越性和準確性。

表2 模型的信息標準統計比較Table 2 Model Information Criterion statistical comparison
對異方差時間序列進行預測,可以得出對數據的條件均值和對條件方差進行預測的公式。
一個平穩序列的數字特征如均值、方差和協方差等不隨時間的變化而變化,時間序列在各個時間點上的隨機性服從一定的概率分布[16-17]。也就是說,對于一個平穩的時間序列,可以通過過去時間點上的信息,建立模型擬合過去信息,進而預測未來的信息。
這里采用ARMA-TS-GARCH模型進行預測,所得結果見表3。可見:采用 ARMA-TS-GARCH模型進行預測,總共獲得10期預測值,所得的預測均值在達到一個高點之后趨于平穩,而標準方差則一直處于平穩狀態。

表3 ARMA-TS-GARCH的預測值Table 3 Prediction results of ARMA-TS-GARCH
(1) 通過對ARCH模型、GARCH模型以及ARCH模型的多種變形模型進行分析,在基于K成分高斯模型的基礎上提出了ARMA-TS-GARCH模型。
(2) 采用 ARMA-TS-GARCH 模型對洛杉磯長灘地區 2000—2006年交通量進行建模和擬合,得到ARMA(1,1)-TS-GARCH(1,1)模型,并且對其進行多種檢驗診斷分析,然后將其分析結果與經典模型GARCH和 ARMA-GARCH進行比較,結果表明ARCH-TS-GARCH模型在處理某些事件序列數據如周期性的環境數據時具有較強的優越性。
[1] Lanne M, Saikkonen P. A multivariate generalized orthogonal factor GARCH model[J]. Journal of Business and Economic Statistics, 2007, 25(1): 61-75.
[2] Moon Y S, Whang K Y, Loh W K. Duality-based subsequence matching in time series databases[C]//Proceeding 98 of 17th International Conference on Data Engineering. San Jose, USA,2001: 263-272.
[3] He C, Terasvirta T. An extended constant conditional correlation GARCH model and its fourth-moment structure[J]. Econometric Theory, 2004, 20(1): 904-926.
[4] Engle R F, GARCH 101: An introduction to the use of ARCH/GARCH models in applied econometrics forthcoming[J].Journal of Economic Perspectives, 2001, 12(2): 17-32.
[5] Wang T S F, Wens M H. Efficient subsequence matching for sequences databases under time warping[C]//Proceedings of 7th International Database Engineering and Applications Symposium. Hong Kong, 2003: 132-141.
[6] Brooks C, Burke S P, Persand G. Benchmarks and the accuracy of GARCH model estimation[J]. International Journal of Forecasting, 2001, 17(1): 45-56.
[7] Bernhard Pfaff. Analysis of integrated and cointegrated time series with R[J]. Springer, 2005, 12(3): 21-79.
[8] Keogh E, Pazzani M. Scaling up dynamic time warping for data mining application[C]//Proceeding of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, 2000: 256-289.
[9] Keogh E, Smyth P. A probabilistic approach to fast pattern matching in time series database[C]//Proceeding of 3th International Conference of Knowledge Discovery and Data Mining. Newportbeach: AAAI Press, 1997: 20-24.
[10] Keogh E, Pazzani M. An indexing scheme for fast similarity search in large time series database[C]//Scientific and Statistical Database Management, Elventh International Conference. Ohio,1999: 56-57.
[11] Keogh E, Chakrabarti K, Mehrotra S, et al. Locally adaptiye dimensionality reduction for indexing large time series database[C]//ACM SIGMOD 2001. Santa Barbara, California,2001: 78-99.
[12] Cadez I V, Heckerman D, Meek C, et al. Vi-sualization of navigation patterns on a web site using model-based clustering[C]//Knowledge Discovery and Data Mining. Boston,2000: 280-284.
[13] Baillie R T, Chung C F, Ticslau M A. Analyzing industrialized countries inflation by the fractionally integrated ARFIMA—GARCH model[J]. Journal of Applied Econometrics,1996, 3(11): 23-40.
[14] Hauser M A, Kunst R M. Forecasting high frequency financial data with the ARFIMA-ARCH model[J]. Journal of Forecasting,2001, 20(7): 501-518.
[15] Rastogi R, Shim K PUBLIC. A decision tree classifier that integrates building mad pruning[C]//Proceedings of the 24th International Conference OU very Large Databases (VLDB’98).New York, 1998: 405-415.
[16] Keerthi S S. Convergence of a generalized SMO algorithm fur SVM classifier design TRCD[C]//Control Division Dept of Mecha and Prod Engineering National University of Singapore.Singapore, 2000: 13-27.
[17] Loh W K, Kim S K. A subsequence matching algorithm supporting moving average transform of arbitrary order in time-series databases using index interpolation[C]//Proceedings 12th Australasian Database Conference. Queensland, 2001:37-44.