王麗梅
(廣西師范大學 數學與統計學院,廣西 桂林 541004)
變點問題因其具有廣泛應用性,比如在金融、經濟、計算機等都有大量的應用,所以在統計學中一直是研究的熱門課題。變點指的是在模型或者分布中,在某個未知的時刻,模型或者分布的某些特征發生改變,則把這個未知的時刻稱為變點。
目前,對變點問題研究的文獻有很多。如譚智平等人[1]利用非參數方法構建Kolmogorov 型統計量對分布變點的檢測和估計進行研究;Guan[2]通過似然比方法研究半參數模型的變點問題;張軍艦等人[3]通過構造截斷經驗歐氏似然比檢驗函數對均值單變點模型的變點位置進行估計;Bai[4]利用殘差的經驗分布函數對線性模型的結構變點進行研究;Harachaoui 和Levy-Leduce[5]首次將變點的估計問題轉換為基于LASSO 方法的線性回歸中的變量選擇問題。自從Koenker 和Bassett[6]提出分位數回歸的思想,就有許多學者將分位數回歸與變點結合起來,如Qu[7]基于子樣本的次梯度構造檢驗統計量和Wald 型統計量討論了線性分位數回歸模型的結構變點檢測問題;Li[8]討論了折線分位數回歸模型的變點估計問題;張立文[9]研究了在數據存在刪失的情況下線性分位數回歸模型的變點檢測問題;Zhou[10]的第二章是基于次梯度的思想構造檢驗統計量檢測線性分位數回歸模型的實時變點。但是,目前存在的變點研究文獻中,對于廣義線性模型的分位數回歸變點研究還較少,如Xia[11]利用加權殘差來構造檢驗統計量研究了廣義線性模型的實時變點;但是由于在小樣本情況下,此文章提出的方法犯第一輪錯誤效果不好,所以Zhou[10]的第三章利用Bootstrap 方法改進了Xia[11]中存在的問題。
本文在Qu[7]的基礎上,利用子樣本的次梯度構造檢驗統計量檢測廣義線性模型是否存在變點。第二節主要介紹模型及其檢驗統計量的構造,第三節為數值模擬,第四節證明相關引理和定理,第五節是本文的總結。
{(yi,xi),i= 1,…,n} 是一列來自總體(Y,X) 的獨立同分布隨機樣本,yi是一維響應變量,xi是一個p×1維的協變量??紤]如下的廣義線性模型:
假設yi的條件密度函數服從指數族分布,即
其中a(·),b(·),c(·)是已知函數,φ是離散參數,代表尺度;θ稱為規范參數,代表位置。且yi的條件均值為
其中,βi是p維未知參數,g-1( ? )是一個已知的合適的連接函數。則
εi是模型的隨機誤差,對于給定的分位數水平τ∈( 0,1 ),滿足p(εi<0|xi)=τ。所以對于給定的xi,yi的條件τ分位數為:
這里Qy(τ|x)= inf {t:Fy(t|x)≥τ}是給定x的情況下y的條件分位數。
本文感興趣的是對于給定的分位數τ,在連接函數g-1( ? )不變的情況下檢驗參數β是否發生改變,也即考慮如下的檢驗:
其中,β0,τ為未知的真實參數,β1,τ≠β2,τ,n1為未知的變點,β1,τ,β2,τ分別是變點前后的未知參數。β0,τ的估計可以由下式得到
其中ρτ(u)=u(1 -I(u<0 )),I(u<0 )是示性函數。
基于文獻[7]構造檢驗統計量的思想,本文利用子樣本來計算次梯度。定義:
其中g′( ? )是函數g( ? )的一階導數,0 ≤λ≤1,[x]為取整函數以及ψτ(u)=τ-I(u<0 )。
由于變點的位置未知,所以需要搜索所有可能的點。基于此,給出本文的檢驗統計量:
其中,|| ?||∞表示上確界函數,例如a=(a1,a2,…,ap),||a||∞= max (|a1|,|a2|,…,|ap|),
當在原假設下即變點不存在時,ψτ(u)=τ-I(u<0 )是一個均值為0 方差為τ(1 -τ)的二元獨立隨機變量序列,所以會收斂到一個均值為0 的高斯過程;而在備擇假設下即存在一個變點時,因為與變點前后的真實參數有較大的差異,如果仍然使用來代替變點前后的真實參數就會使得估計的模型殘差一致低于或者高于真實的分位數,從而使得統計量取得較大的值。
定義f( ? |X)和F( ? |X)分別是給定X條件下Y的條件密度函數和條件分布函數。為書寫簡便,記f( ? |xi)和F( ? |x i)分別為fi( ? )和Fi( ? )。為了得到檢驗統計量的漸進性質,本文給出了如下的假設:
假設1條件密度函數fi( ? )在點處一致遠離0 和∞。
假設2函數g( ? )是單調連續且二階可微的,g′( ? )有界,g″( ? )有界。
假設3,對任意的
假設4是一個p×p維非隨機有限正定矩陣
其中假設1 是分位數回歸中的一般假設,假設2 和假設3 保證了目標函數(1)有唯一解,且由假設3 可以得到
引理1在假設1~4 下,當原假設H0成立時,有
引理2在假設1~4 下,當原假設H0成立時,對任意的緊集D∈Rp,有
定理1在假設1~4 下,當原假設H0成立時,有其中,Bp(λ)是一個p維獨立布朗橋。
本文在備擇假設H1即模型存在變點時模擬檢驗統計量的功效,數據來自于下面的泊松回歸模型:
xi~U( 0,1 ),d表示斜率參數改變的大小,d= 0 代表泊松回歸模型不存在變點,d模擬時分別取1,2,3;分位數τ分別取0.25,0.5,0.75,分別對應低分位數、中分位數和高分位數;顯著性水平α為0.05;樣本量設為n=100 和300;變點位置分別設為n1=n/4,n/2,3n/4。在所有的模擬過程中模擬重復1000 次。模擬效果如表1所示。

表1 有限樣本在名義水平為0.05 的功效
對照n= 100 和300,可看出隨著樣本容量的增加,各分位數下的檢驗統計量功效都更加接近1;同樣當斜率參數d變化幅度變大時,也逐漸趨于1,這表明檢驗效果也更好。對應低分位數SQ0.25來說,變點位置越靠前其檢驗效果越好;反之,對于高分位數SQ0.75來說,變點位置越靠后其檢驗效果越好??傮w來看,檢驗統計量的檢驗功效良好。
又因為Z0(ξ)是一個凸函數,所以存在唯一最小值為,故所以
不失一般性,假設xi的元素都是非負的,函數g( ? ) 是單調遞增函數是非負的,則是關于ξ的非降函數。由于D是緊集,所以對于任意的δ>0,D可以分割為n(δ) 個直徑小于等于δ的有限個子集D1,…,Dn(δ)。對于任意的ξ∈Dh,h∈{ 1,…,n(δ) },存在Dh中的兩點ξh,1和ξh,2使得由的單調性,有
同理可得
根據(10)式和(11)式得
對于(b)項,將在點處一階泰勒展開,由假設1~3 得(b)=δOp(1 ),當δ充分小時
對于(a)項,只需證因為
是一個鞅差序列,所以利用Doob 不等式和Rosenthal 不等式,存在常數M1和M2,對任意的λ>1,根據假設1~3 有
所以(a)=op(1 ),根據(13)~(15)式引理2 證明完畢。
證明定理1:
由引理2 得
所以
其中,Wp( ? )是一個p維獨立維納過程,所以定理1 證明完畢。
本文結合分位數回歸的思想,將文獻[7]的線性模型擴展到使用范圍更加廣泛的廣義線性模型,考慮在其連接函數不變的情況下參數是否發生改變,利用子樣本的次梯度來構造檢驗統計量,并且找到了在原假設下檢驗統計量的漸進分布,并通過數值模擬證明了該檢驗的有效性。