劉 鋒,張光鋒,康新梅(重慶理工大學數學與統計學院,重慶400054)
協變量缺失下線性模型序列相關的經驗似然比檢驗
劉鋒,張光鋒,康新梅
(重慶理工大學數學與統計學院,重慶400054)
研究了協變量隨機缺失下的線性模型的序列相關檢驗問題。首先,采用借補的方法對協變量缺失的部分進行處理,再運用經驗似然方法對殘差部分進行序列相關性檢驗,構造了經驗似然比統計量并得到其漸近性質。通過數值模擬可以看出:該檢驗方法具有較理想的檢驗功效。
缺失數據;線性模型;借補;經驗似然;序列相關檢驗
缺失數據是指在實際的數據收集過程中,由于各種原因導致一部分數據未被觀測到,從而得到存在缺失值的數據。數據缺失的現象十分普遍,也逐漸引起人們的關注。在對缺失數據進行處理時,如果忽略缺失值,得到的結果往往會有偏差,而且通常不是漸近有效的。學者往往運用借補的方法解決這個問題。很多學者對缺失數據作了進一步的研究,并獲得成果。Liang[1]采用局部線性回歸和加權的方法對協變量缺失下廣義線性模型的參數進行了估計。此后,楊宜平[2]對協變量缺失下的線性模型進行了經驗似然推斷;Xue[3]討論了響應變量缺失下廣義線性模型的經驗似然方法。序列相關性檢驗一直是統計學中重要的研究課題。一般來說,對一個擬合較好的模型,其殘差是一列獨立同分布的白噪聲。在此前提下,才可對模型進行統計推斷,否則,推斷將失去有效性。較強的序列相關性則意味著一些重要的解釋變量未得到應用。Liu[4]在對部分線性模型的序列相關性進行研究時,首次引入經驗似然的方法。Robinson[5]采取忽略缺失數據的缺失值的方法研究了由靜態時間序列回歸到線性模型的序列相關性。目前,對于缺失數據下各種統計模型的研究主要集中在對模型的估計和置信區間的構造上,而對數據缺失時的序列相關性研究還比較少。本文首先運用借補的方法對線性模型協變量缺失部分進行借補,再運用經驗似然的方法對模型的殘差部分進行序列相關性檢驗,構造了殘差序列相關檢驗的經驗似然比統計量,并證明了對數經驗似然比統計量趨于一個標準的卡方分布。
1.1對缺失值進行借補
考慮如下線性模型:

其中:Y是響應變量;β是未知參數;X是協變量;ε為隨機誤差,滿足E(ε|X)=0。
假設{(Xi,Yi,δi),i=1,…,n}是來自模型(1)的一組不完全隨機樣本,其中{Xi,i=1,2,…,n}存在缺失。當δi=1時,Xi有觀測值;當δi=0時,Xi缺失。假定缺失類型為隨機缺失(MAR),則P(δi=1|Xi,Yi)=P(δi=1|Yi),說明在給定Xi條件下,δi和Xi條件獨立。
令θi=δixTiβ+(1-δi)yi,則當δi=0時,θi= yi;當δi=1時,θi=xTiβ。當{Xi,i=1,2,…,n}隨機缺失時,E(θ|Y)=Y,即

且滿足E(ei|yi)=0,δiεi=ei。這里ei和εi具有相同的序列相關結構,因此檢驗εi的序列相關性等價于檢驗ei的序列相關性。設

則對ei的序列相關檢驗可轉化為:

令φi1=eiei+1,φi2=eiei+2,…,φip=eiei+p,i= 1,2,…,n-p,φi=(φi1,φi2,…φip)T,則在零假設下,E(φi)=0;在備擇假設下,E(φi)≠0。這樣,檢驗ei是否存在序列相關性就是檢驗E(φi)是否為零。
1.2構造經驗似然比統計量定義φi的分布函數F,則F的非參數似然

其中pi=F(φi)是φi處的概率。φi的經驗分布函數其中δA=I(x∈A)為示性函數。若使上式達到最大值,則在 E(φi)=0時,使得非參數似然比取到最大值,從而得到經驗似然比函數式(3)。

由于R含有模型的參數β,因此不可直接進行序列相關檢驗,需要用β的估計β^來替換。

根據文獻[6]可知

采用Largrange乘數法求出式(4)中關于pi的最優解,得

其中λ為方程(6)的解

將式(5)代入式(4)得:

定理1假設第4部分的條件1~2都滿足時,在零假設條件下,當N→∞時,-2log R^依分布收斂于χ2p,即

本節通過數值模擬來研究協變量缺失情況下的經驗似然比檢驗統計量的性質。
考慮線性模型

數據產生如下:X~N(0,1),ε~(0,0.1),為方便起見,取β=2。
根據以上述模型,現考慮以下3種缺失機制:
1)當p(δi=1)=0.9,p(δi=0)=0.1時,即缺失概率為10%的缺失狀態;
2)當p(δi=1)=0.8,p(δi=0)=0.2時,即缺失概率為20%的缺失狀態;
3)當p(δi=1)=0.6,p(δi=0)=0.4時,即缺失概率為40%的缺失狀態。
對于ei分別假定其服從一下平穩時間序列模型:

樣本量分別取n=50,100,200,以驗證經驗似然比檢驗的功效。這里取顯著性水平為0.05各做1 000次模擬,結果如表1~12所示。

表1 缺失概率為0.1時AR(1)

表2 缺失概率為0.2時AR(1)

表3 缺失概率為0.4時AR(1)

表4 缺失概率為0.1時MA(1)

表5 缺失概率為0.2時MA(1)

表7 缺失概率為0.1時AR(2)

表8 缺失概率為0.2時AR(2)

表9 缺失概率為0.4時AR(2)

表10 缺失概率為0.1時MA(2)

表11 缺失概率為0.2時MA(2)

表12 缺失概率為0.4時MA(2)
從表1~12中可以看出:在零假設條件下,經驗似然比檢驗的size隨著缺失率的增大而趨于偏大,但是隨著樣本量的增大,檢驗的size越來越接近預設的顯著性水平,檢驗的power較為理想。
在證明過程中,由于N=n-p,不區別op(n)和op(N)等,設C為絕對常數,在不同的地方取值不同。為證明定理1,本文先給出以下條件和引理:

上述的假定條件是很合理的,見參考文獻[6]。
引理1在零假設和條件1~2下,有:β^-β= Op(n-1/2)。
證明類似文獻[6]。
引理2在零假設及條件1~2下,可得

其中Ip為p階單位矩陣。
證明當條件1~2成立時,有

其中:



令ν為任意p維非零向量,可知:在零假設下,νTφi為p步相依的隨機變量序列,但對于i≠j,有

故由m步相依隨機變量中心極限定理得

其中Ω=ννTσ4,由Cramer-Wold方法就能得到引理2所要的結果。
引理3在零假設和條件1~2下,有

證明應用類似引理2的證法可證明引理3。
引理4的證明見參考文獻[7]。
由上述引理1~4,再根據文獻[8]的研究成果可得:當

通過數值模擬的結果可以看出本文方法具有較為理想的檢驗功效。本文采用經驗似然的方法檢驗協變量缺失下的線性模型的序列相關性,而當前對缺失數據的研究主要集中在于對統計模型的估計和置信區間的構造上,對序列相關性的研究較少,因而本文的研究具有重要的理論價值。本文的方法為協變量缺失下部分線性模型及其他模型的序列相關性檢驗提供了重要的參考,而具體的結合與應用方法需要做進一步的深入研究。
[1]Liang H.Generalized partially linearmodelswithmissing covariates.ScienceDirect[J].2008,99:880-895.
[2]楊宜平.協變量隨機缺失下線性模型的經驗似然推斷及其應用[J].數理統計與管理,2011,30(4):655 -663.
[3]Xue D,Xue L,Cheng W.Empirical likelihood for generalized linear models with missing responses[J].Journal of Statistical Planning and Inference,2011,141(6):2007 -2020.
[4]劉鋒,陳敏,鄒捷中.部分線性模型序列相關的經驗似然比檢驗[J].應用數學學報,2006,29(4):577-586.
[5]Robinson PM.Testing for serial correlation in regression with missing observations[J].Journal of the Royal Statistical Society.Series B(Methodological),1985,47:429 -437.
[6]Xue L.Empirical likelihood for linearmodelswithmissing responses[J].Journal of Multivariate Analysis,2009,100(7):1353-1366.
[7]Owen A B.Empirical likelihood ratio confidence intervals for a single functional[J].Biometrika,1988,75(2):237 -249.
[8]Owen A B.Empirical likelihood ratio confidence regions[J].The Annals of Statistics,1990,18:90-120.
(責任編輯劉舸)
Em pirical Likelihood Ratio Test for Serial Correlation in Linear M odel w ith M issing Covariates
LIU Feng,ZHANG Guang-feng,KANG Xin-mei
(College of Mathematics and Statistics,Chongqing University of Technology,Chongqing 400054,China)
This paper studied the linearmodel with missing covariates at random.In thismodel,we fired fill themissing part of covariates in using imputation,then we applied the empirical likelihood methods to serial correlation tests for the linearmodel's error,and then we derived the empirical likelihood test ratio statistics and its asymptotic quality.Simulation results show that the testmethod in this paper has good test power.
missing data;linearmodel;imputation;empirical likelihood;serial correlation tests
O212
A
1674-8425(2015)05-0124-06
10.3969/j.issn.1674-8425(z).2015.05.022
2014-12-12
國家自然科學基金資助項目(11471060)
劉鋒(1973—),男,湖南新化人,博士,副教授,主要從事非參數統計研究;張光鋒(1988—),男,河南信陽人,碩士研究生,主要從事非參數統計研究。
劉鋒,張光鋒,康新梅.協變量缺失下線性模型序列相關的經驗似然比檢驗[J].重慶理工大學學報:自然科學版,2015(5):124-129.
format:LIU Feng,ZHANG Guang-feng,KANG Xin-mei.Empirical Likelihood Ratio Test for Serial Correlation in Linear Modelwith Missing Covariates[J].Journal of Chongqing University of Technology:Natural Science,2015(5):124-129.