張 笛,趙文芝,楊銀倩
(西安工程大學 理學院,陜西 西安 710048)
變點問題一直都是統計學的研究熱點。在某個未知時刻,樣本的分布發生了突然的變化,這個時刻就稱作變點。 1954年,Page發表的一篇質量檢驗的文章提出了變點問題[1],引起了眾多學者對變點問題的關注,現在變點研究已被大量應用于金融經濟學、醫學診斷等領域。
在經濟金融中,常用方差度量風險,關于方差變點的文獻也有很多。 Gombay等對獨立序列中的方差變點進行檢驗和估計,得到了變點估計量的漸近性質[2]; 邵釧利用滑窗法證明了獨立序列中變點估計量的弱、強收斂速度[3]。 以上文獻都是考慮獨立情形,實際中的數據通常具有相依性。 趙文芝等應用CUSUM估計量,在較弱條件時推導出線性過程中估計量的收斂速度[4]。 由于CUSUM檢驗需要估計模型參數,孫耀東等在非參數回歸模型中,構造Ratio 檢驗統計量并研究了其極限性質[5]。在消除序列相依性的同時,金浩等通過Bootstrap方法提高了自回歸模型中方差變點的經驗勢函數值[6]。 由于變點所處位置對其檢測效果有一定影響,在獨立正態隨機變量序列中,Hsu在初始方差水平未知時對方差變點進行2種檢驗[7],王靜龍等在均值未知時構造了方差變點的3種檢驗統計量,通過模擬得出變點所處不同位置時對應的最優檢驗統計量[8]。 此外,秦瑞兵等提出一種截斷樣本的方法,使估計精度得以提高[9]。
在統計檢驗實踐中,常常會發生均值和方差變點同時存在或更復雜情況。Pitarakis發現均值和方差變點相互作用,因二者之一在最小二乘估計中被忽視而出現推斷錯誤情況[10];Bai用擬極大似然方法對面板數據中均值和方差公共變點進行估計,得到了方差變點的相合性和漸近分布[11];胡堯等對于雙重變點采用小波方法, 得到方差變點躍度的估計[12];王慧敏等研究了相依序列中均值和方差變點同時存在的CUSUM 估計量[13];陳璐等進一步研究了均值已知和未知時相合性和收斂速度的影響[14]。 當變點個數不止一個時,Inclan等應用CUSUM 型估計量檢驗獨立序列中多個方差變點問題[15]。 相對于突變點,漸變點更能刻畫現實數據特點,劉鑫等利用最小二乘方法研究了面板數據中方差漸變點的估計問題[16]。
隨著經濟飛速發展,統計產出數據呈指數型遞增,快速估計方差變點可使得人們及時調整思路以減少損失。本文針對大樣本數據提出了快速估計變點的兩階段估計方法,證明了估計量的相合性和收斂速度。
考慮如下方差變點模型:

(1)
式中:μ為常數;σ1≠σ2為常數,即σi取值考慮簡單情形;k0為未知變點。Yi是給定的線性過程,

式中:V(·)、E(·)分別表示對隨機變量取方差、均值運算。
對模型(1)進行移項,得Xi-μ=σiYi,故


k0的最小二乘估計量為
(2)


i=k*+(t-1)·dN
(3)


引理1若假設1和假設2成立,可推得γ=η。



(4)
(5)



(6)
由子序列與原序列的下標關系式(3)及式(6)可得,P(k0∈[h1,h2])→1成立,其中
第二階段對原序列中落入隨機區間[h1,h2]的所有樣本進行估計,估計方法如下:

(7)




(8)
式中:P(k0?[h1,h2])<ε,ε為任意小的正數。

|E(Uk0)|-|E(Uk)|≥Gη|λN(ρ-η)|
(9)

(10)


(11)
經過簡單計算可得

(12)
再由文獻[4]的定理1和定理2可得
從而,


(13)

定義
DN,S={k:Nδ≤k≤N(1-δ),k∈[h1,h2],
則
(14)
由于

0≤f(k)≤1
(15)
假設λN>0,由E(Uk0)>0,得,
(16)
因為E(Uk0)={η(1-η)}1/2λN,由Hjek-Rényi不等式[19]知,當N→∞時,式(16)中前兩項均趨于0,所以P1→0。
對于P2,由Uk-Uk0≥0可推出
Uk-E(Uk)-(Uk0-E(Uk0))≥
E(Uk0)-E(Uk)
(17)
由式(9)和式(17),得
A(k)+R(k)≥E(Uk0)-E(Uk)≥
則
(18)


(19)
由式(15)和k≥Nδ,有
(20)
(21)
其中C1>0。當N,S→∞時,式(21)中的3項均趨于0,則P2,2→0。 同理,P2,1→0,則式(14)趨于0。

定理3在假設1~3成立條件下,
證明在下面證明中,U(k)和Uk是等價的可互換。由定理2可知

(22)
且

?Q>0,有|v|≤Q,定義[-Q,Q]上有統一度量標準的連續函數空間C[-Q,Q]。記

則
2N(Uk0-E(Uk0))(Uk-Uk0)+
N(Uk-Uk0)2
(23)
首先證明在集合HN(Q)上,式(23)的后兩項是趨于0的。由式(12)可得N1/2(Uk0-E(Uk0))是有界的,僅需證明N1/2(Uk-Uk0)在HN(Q)上是趨于0的。
N1/2|Uk-Uk0|≤N1/2|A(k)+R(k)|+
N1/2|E(Uk)-E(Uk0)|
(24)
易知關于R(k)的上界依然有效,對式(20)乘以N1/2,由不變性原理,經過計算均依概率趨于0。同理,在集合HN(Q)上N1/2A(k)→0。對于式(24)第二項,易知?V>0,使得V(N1/2λN)-1→0。由式(15)和k∈HN(Q),得
0≤N1/2(E(Uk0)-E(Uk))≤
N1/2(f(k0)-f(k))λN+
V(N1/2λN)-1
下面證明對于k∈HN(Q),
(25)
NλN(Uk-Uk0)=NλN(A(k)+R(k))-
NλN(E(Uk0)-E(Uk))
(26)


式中:“?”為弱收斂;W1(·)為[0,∞]上的布朗運動。由于
因此
NλN(A(k)+R(k))?{η(1-η)}-1/2·

(27)
NλN(E(Uk0)-E(Uk))=

(28)
結合式(25)~(28),當v≤0時,有
同理,當v>0時,有

的極限分布。因為W1(·)是由i≤k0時的{ei}決定的,同樣W2(·)是由i>k0時的{ei}決定的,所以W1和W2由不相重疊的序列{ei}決定且彼此獨立。
為了證明定理3,定義Cmax[-Q,Q]是C[-Q,Q]上函數存在唯一最大值時的子集,且argmax函數在Cmax[-Q,Q]上是連續的,利用連續映射定理,可得

由模型(1)產生隨機數據,即
其中Yi是AR(1)過程,Yi=φYi-1+εi,φ=0.3,εi為服從N(0,1)的獨立同分布序列。取N=4 000、6 000、8 000,k0=0.5N,k*=0.5dN,BnN=lgnN,lnnN,log2nN,每次估計重復1 000次,結果如表1所示。其中,Mean,Std和Toc分別表示模擬1 000次時的估計值、標準誤差和運行時間。T-S估計表示所提出的兩階段估計方法,L-S估計表示傳統的最小二乘方法。

表 1 2種方法模擬1 000次的對比
由表1可知,隨著樣本量N的增大,估計所需運行時間越來越長。當樣本量N一定時,隨著BnN的增大, 所提方法的最終估計值不斷靠近傳統方法的估計值,標準誤在不斷減少; 運行時間有所增加但優于傳統方法的運行時間,估計效果不斷提高。 尤其當BnN=log2nN時,兩階段估計法的估計值最為接近傳統方法的估計值,且時間相比傳統方法的估計時間縮小一半甚至更少。數據量N越大估計結果愈加準確,體現了大樣本數據中二階段估計方法的有效性。
