缺失數據下廣義線性回歸擬似然估計的相合性和漸近正態性

2011-12-02 03:25:45趙晶晶張曉冉徐玉民

鄭州大學學報(理學版) 2011年3期

趙晶晶，張曉冉，徐玉民

(燕山大學理學院河北秦皇島 066004)

趙晶晶，張曉冉，徐玉民

(燕山大學理學院河北秦皇島 066004)

研究了形如L(β)=ΣiZi(yi-μ(ZiTβ))=0的擬似然方程在協變量數據有缺失時，方程未知參數估計的相合性和漸近正態性.假設存在協變量數據完整的一個有效樣本，且是總樣本的一個簡單隨機子樣本，基于EM算法，提出了一種新的處理協變量中有不完整數據的擬似然方程的求解法，即通過有效數據線性預測補足協變量數據缺失部分，并且證明了當樣本量n→∞，在滿足一些正則條件下所得出的新擬似然方程有解，且該解具有相合性和漸近正態性.

廣義線性模型；擬似然估計；不完全協變量；相合性；漸近正態性

0 引言

在廣義線性模型中，設響應變量yi(i=1,…,n)相互獨立，服從指數型分布

exp(θiTyi-b(θi))dv(yi),i=1,…,n,

(1)

其中協變量Zi為q維列向量，yi的期望和線性預測因子ZiTβ有關系ui=h(ZiTβ)，其中h:Rq→Rq是一對一光滑映射，β∈Rq是未知的回歸參數，β*為其真值.函數h的逆稱為聯系函數，μi=E(yi)=b′(θi)，di=Var(yi)=b″(θi).不難得到似然方程

(2)

擬似然方法的提出舍棄了響應變量服從指數型分布的假定，并分離了均值和方差的結構.事實上只需正確指定其一階距和二階距就可在適當條件下得到參數的相合估計及其大樣本性質[1].文獻[2]提出只要均值函數假定正確，就可以預先假定響應變量的“工作分布”進而用“工作方差”Λ(·)替代(2)中的真實方差∑(·)，并保留響應變量獨立的假設，從而得到擬似然方程

文獻[3-7]研究了形如

L(β)=ΣiZi(yi-μ(ZiTβ))=0

(3)

本文研究形如(3)的擬似然方程在協變量數據部分缺失時參數估計的相合性和漸近正態性.當協變量數據有缺失時，方程(3)無法求解.由于有效樣本是總樣本的一個簡單隨機子樣本，可以只根據有效樣本估計出β.然而，舍棄不完全的觀測會導致估計效能的減小，尤其當有效數據占據比例較小時.文獻[8]對GLM中不完整的協變量數據問題，基于投影思想通過線性補足缺失協變量數據，在一定正則條件下得到了似然方程(2)參數估計的相合性和漸近正態性.受其思想啟發，類似于EM算法[9]，本文提出通過補足協變量缺失數據來得出(3)相合性和漸近正態性的方法.

假定能夠完全觀測到的Zi是來自容量為n的總樣本的一個隨機子樣本，子樣本大小為m，稱這個子樣本為有效樣本，剩余的n-m個為無效樣本,且有效比m/n→ρ∈(0,1]當n→∞.記V={1,…,m}和NV={m+1,…,n}分別為有效樣本和無效樣本的標識.記Zi=(ZiT,XiT)T，其中Zi表示在樣本中總能觀測到的協變量向量部分，Xi表示只能在有效樣本中觀測到的協變量向量部分.當協變量能夠完全觀測到時仍記為Zi.對于一般的有自然聯系的GLM，

(4)

是基于有效數據的擬似然估計方程.如果有效樣本是有代表性的，則可用作無偏估計方程.

(5)

1 相合性和漸近正態性

其中,

對于β*鄰域B內的β，在一些正則條件下有

上式是由于E(hgT){E(ggT)}-1=(0,Ir)，Ir是維數為r=dim(h)單位矩陣，0表示r維0向量.由于

F(β)≡-limnn-1?L(β)/?β=ρE(dZZT)+(1-ρ)E(dZhT)[E(dhhT)]-1E(dhZT).

定理1在滿足以下正則條件下

1)β∈Θ，Θ是Rq的一個緊的凸的子集，真實的參數β*位于Θ的內部；

2)(yi,Zi,Xi)，i=1,…,n，獨立同分布；

3)對每個Zi，μ關于β二次可導；

4)矩陣F*≡F(β*)存在且正定；

其中

2 定理的證明

2.1相合性

當滿足下列條件時β的估計是相合的：

(a)?L(β)/?β的分量在Θ中存在且是連續的;(b)當n→∞矩陣n-1?L(β)/?β在β*處以概率1負定；(c)n-1?L(β)/?β依概率一致的收斂到F(β)，對于β∈B；(d)當n→∞，n-1L(β*)=OP(1).

根據定理1條件3)可知(a)成立；根據條件4)和定理1上面的結果可知(b)成立；根據5)，并對在巴拿赫空間取值的隨機變量運用強大數定律可獲得n-1?L(β)/?β的一致收斂性[10]，因此(c)成立；最后根據第一節后面部分的討論可知(d)成立.

2.2正態性

=Γ*TE{h(y-gTα*)2hT}Γ*.

因此由中心極限定理可知A服從均值為零方差為ΣNV的漸近正態分布.由條件2)知

記R=E(ggT)，

=R-1E{g(μ*-gTα*)}{g(μ*-gTα*)}TR-1

=R-1E{g(μ*-gTα*)2gT}R-1=Λα.

Σα=Var(Γ*TB·C)

=Γ*TBVar(C)BTΓ*=Γ*TE(hgT)ΛαE(ghT)Γ*

=Γ*TE(hgT){E(ggT)}-1E{g(μ*-gTα*)2gT}{E(ggT)}-1E(ghT)Γ*

=Γ*TE{h(μ*-gTα*)2hT}Γ*.

上式是因為E(hgT){E(ggT)}-1=(0,Ir)，g=g(y,Z)≡(y,hT)T.

=(1-ρ)E[Z(y-μ*)(gTα*-

μ*)gT]{E(ggT)}-1E(ghT)Γ*.

記ΣC=E[Z(y-μ*)(gTα*-μ*)gT]{E(ggT)}-1E(ghT)Γ*，又因為E(hgT){E(ggT)}-1=(0,Ir)，g=g(y,Z)≡(y,hT)T，因此

ΣC=E[Z(y-μ*)(gTα*-μ*)gT]{E(ggT)}-1E(ghT)Γ*

=E[Z(y-μ*)(gTα*-μ*)hT]Γ*.

由于gTα*是μ*基于g=g(y,Z)≡(y,hT)T的最小二乘估計，可以寫成gTα*=αy*y+(1-αy*)hTθ*，其中hTθ*為μ*基于h的最小二乘估計，

αy*是α*對應于y的分量，則代入上式化簡可得

=E{αy*Z(y-μ*)2hT}Γ*=αy*E(d*ZhT)Γ*.

[1] Alan A. Categorical Data Analysis[M].2nd Edition.New York:Wiley,2002：115-153.

[2] Liang K Y, Zeger S L. Longitudinal data analysis using generalized linear models[J].Biometrika,1986,73(1):13-22.

[3] 張三國, 廖源. 關于廣義線性模型擬似然估計如相合性的幾個問題[J]. 中國科學A輯,2007,37(11)：1368-1376.

[4] Chen K. Strong consistency of maximum quasi-likelihood estimators in generalized linear models with fixed and adaptive designs[J].Ann Statist,1999,27(4)：1155-1163.

[5] 高啟兵, 吳耀華. 廣義線性回歸擬似然估計的強相合性[J]. 數學年刊A輯, 2004，25(6)：705-710.

[6] 高啟兵,吳耀華.廣義線性回歸擬似然估計的漸近正態性[J]. 系統科學與數學,2005,25(6)：738-745.

[7] 閻莉,陳夏.缺失數據下廣義線性回歸擬似然估計的強相合性[J]. 陜西師范大學學報：自然科學版，2010,38(2):15-17.

[8] Chen Y H,Chen H. Incomplete covariates data in generalized linear models[J].Journal of Planning and Inference,1999,79(2):247-258.

[9] 茆詩松,王靜龍,濮曉龍.高等數理統計[M].北京:高等教育出版社，2007：427-435.

[10] Fahrmeir F,Kaufmann H. Consistency and asymptotic normality of the maximum likelihood estimatorin generalized linear models[J]. Ann Statist,1985,13(1):342-368.

ConsistencyandAsymptoticNormalityofQuasi-likelihoodEstimatorinGeneralizedLinearModelswithMissingData

ZHAO Jing-jing，ZHANG Xiao-ran，XU Yu-min

(SchoolofScience，YanshanUniversity，Qinhuangdao066004，China)

The consistency and asymptotic normality of quasi-likelihood estimating equation asL(β)=ΣiZi(yi-μ(ZiTβ))=0 was considered when part of the covariates were incomplete in generalized linear models. It was assumed that there existed a validation sample in which the data was complete .And it was a simple random subsample from the whole sample. Based on the EM-solution, a new method was proposed to estimate the regression coefficients with incomplete covariables by linear predict the incomplete co-variable data.When it was sufficiently large, the estimate was consistency and asymptotic normality under some regularity conditions.

generalized linear models; quasi-likelihood estimation; incomplete covariable; consistency; asymptotic normality

O 212.4

1671-6841(2011)03-0043-05

2010-05-28

趙晶晶(1986-)，女，碩士研究生，主要從事廣義線性模型參數估計性質研究，E-mail:zhaojj0418@126.com.

鄭州大學學報(理學版)2011年3期

鄭州大學學報(理學版)的其它文章: 黃藤合劑的急性毒性和藥效學研究; 氧樂果合成過程的PSO-回歸BP網絡建模方法; 基于聯合卡爾曼濾波的汽車防碰撞多傳感器信息融合方法; 統計過程控制中控制圖的改進算法研究; 單車型動態車隊調度問題的時空分解模型構造; 一種時間自動機時鐘離散化算法