劉永睿,尹長明,孫晗
(廣西大學數學與信息科學學院,廣西 南寧 530000)
協變量維數趨于無窮的復合次序模型的GEE估計的漸近性質
劉永睿,尹長明,孫晗
(廣西大學數學與信息科學學院,廣西 南寧 530000)
研究了協變量維數趨于無窮的復合次序Logisti回歸縱向數據模型.首先在響應變量為k個有序“狀態”之一時,給出了該模型下的廣義估計方程,然后給出了該廣義估計方程估計的漸近存在性,相合性以及漸近正態性定理,并在較弱的條件下給出了定理的證明過程,證明了該模型的可用性以及結果的穩定性,推廣了文獻中的相關結果.
屬性數據;高維協變量;相合性;漸近正態性
復合次序模型是多維廣義線性模型中的一種,主要研究目標變量Y取k個有序“狀態”,而這k個狀態又被自然分成幾個小類,每個小類性質接近.建模時,首先對不同類之間進行建模,然后對每個小類用不同的參數進行建模.如藥物對病人治療效果可分為三類:改善,沒有變化,惡化.而第一類改善又分為有很大改善,有改善,第三類惡化又分為一般惡化,嚴重惡化[1].廣義估計方程 (GEE)是Liang和 Zeger[2]于 1986年提出,用于分析縱向數據 (longitudinal data)或集團數據(cluster data)的一種模型,是廣義線性模型的推廣.文獻[3]詳細討論了縱向數據下的GMM方法以及GEE,并針對縱向數據下廣義估計方程給出了兩種經驗似然方法,得到了參數的極大經驗似然估計.文獻[4]討論了Logit模型的參數估計.本文運用了Logit模型的基本思想,討論了協變量維數趨于無窮的復合次序模型的廣義估計方程的相關性質,解決了一些高維數據的統計推斷問題,并將廣義估計方程的應用領域擴展至目標變量取個有序“狀態”之一的屬性數據,推廣了文獻[5]中的相關結果.
設對第i個個體的第j次觀測,得到q×1維響應變量Yij,pn×q維協變量Zij,i=1,···,n,j=1,···,m,q=k?1.設來自不同個體的觀測值相互獨立,來自相同個體觀測值則是相關的,但相關系數未知.令Yij=(Yij1,···,Yijq)T的期望

其中h是聯系函數,βn是pn×1維未知回歸參數(pn可以趨于無窮),βn0為參數的真值,T表示轉置.記

Yi的期望記為:

方差記為:

當Yij服從0,1分布(觀察次數是1的二項分布),期望

即

就得到經典的Logit模型.
若Yij服從五項分布(觀測次數是1),即q=4,期望

即

其中n1,n2,n3,n4,n1+n2+n3+n4=0,1,就得到復合次序Logit模型[1].
文獻[5]在一定條件下證明了經典Logit廣義估計方程:



為了后面定理敘述簡單,引入以下假設條件:

(A2)未知參數βn屬于緊子集B?Rpn,真正參數值βn0是集合B的內點,并且存在正常數c,
使得λmin(Ai(βn0))≥c,其中λmin,λmax分別表示矩陣的最小,最大特征值;
(A3)存在兩個正的常數c1,c2,滿足:

(A4)


定理3.1對復合次序模型,假設(A1)-(A5)成立,則方程Sn(βn)=0存在一個根?βn,且滿足如下條件:

進一步假設 (A6)成立,則?αn∈Rpn,‖αn‖=1,有

其中


注3.1對經典Logit模型,

方程(7)就簡化為文獻[5]中方程(3.1).
注 3.2該定理的假設條件與文獻[5]一樣,參看文獻[5].
定理的證明需要用到以下引理:
引理4.1設G是Rn中的有界開集,記G的閉包和邊界分別是,?G.若函數是連續的,并且對某個x0∈G和所有的x∈?G有(x?x0)TF(x)≤0,則F(x)=0有一個根在中.參見文獻[6].
下面5個引理的證明分別與文獻[3]引理3.1,引理3.3,引理3.4,引理3.5,引理3.7類似,在此省略.
引理 4.2若假設條件(A1)-(A5)成立,則

引理 4.3若假設條件(A1)-(A5)成立,則?Δ>0,an,bn∈Rpn,有

其中

引理 4.4若假設條件(A1)-(A5)成立,則?Δ>0,an,bn∈Rpn,有

引理 4.5若假設條件(A1)-(A5)成立,則?Δ>0,an,bn∈Rpn,有

引理 4.6若假設條件(A1)-(A4)及pn/n→0成立,則?α∈Rpn,‖αn‖=1有

定理 3.1的證明根據引理4.1,證明方程Sn(βn)=0根的存在性且(8)成立,只需證明?ε>0,存在一個Δ>0,對足夠大的n有如下式子成立:

由微分中值定理,有

由Hi(βn0),Yi的定義知其有界,由假設(A2)和(A4)分別知和都有界,再由 (A3),有

其中,εi(βn)=Yi?hi(βn). 所以

由引理4.2及假設(A5)可得:

對于In3有,

由引理4.3和假設(A5)可得,


由引理4.4和引理4.5及假設(A5)可得,

而由假設(A2),(A3)和(A4)可得,


可見當Δ足夠大時,(10),(8)成立.
下面證(9)式成立.

由假設條件(A4)和(A2)可得,

再由假設條件(A3),引理4.2和(A5)可得,



同理,運用(8),引理4.4,引理 4.5,假設 (A3),(A6)可得,

由(19),(21)-(24)式,引理4.6和Slutsky定理可知,(9)式成立.
[1]Fahrmeir L,Tutz G.Multivariate Statistcal Modelling Based on Generalized Linear Models Equation Concerning[M].New York:Springer-Verlag,1994.
[2]Liang K Y,Zeger S L.Longitudinal data analysis using generalized linear models[J].Biometrika,1986,73:13-22.
[3]趙目,陳柏成,周勇.縱向數據下廣義估計方程估計[J].數學學報:中文版,2012,55(1):1-16.
[4]孫海云.Logit模型參數估計方法的研究[D].浙江:浙江大學,2016.
[5]Wang L.GEE analysis of clustered binary data with diverging number of covariates[J].Ann.Statist.,2011,39:389-417.
[6]Ortega J M,Rheinboldt W C.Iterative Solution of Nonlinear Equations in Several Variables[M].San Diego:Academic Press,1970.
Asymptotic properties of compound order logit model with diverging number of covariates
Liu Yongrui,Yin Changming,Sun Han,
(Guangxi University,Academy of Mathematics and Information Sciences,Nanning 530000,China)
In this paper,we study the compound ordinal logit regression model with diverging number of covariates.First,we propose the GEE of this modle on condation that the response variable denote one of status.Then we bring up the asymptotic existence,consistency and asymptotic normality theorem and under some mild conditons,we provide the evidentiary process.The practicability and stabilization of this model is proved.We extend the relevant results in the literature.
categorical data,high-dimensional covariates,consistency,asymptotic normality
2010 MSC:62J12,62F12
O212.1
A
1008-5513(2017)06-0578-07
10.3969/j.issn.1008-5513.2017.06.004
2017-10-20.
國家自然科學基金(11061002);廣西自然科學基金(2015GXNSFAA139006).
劉永睿(1990-),碩士生,研究方向:統計學.