劉銘秋,胡宏昌
(湖北師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 黃石 435002)
其中h(·)是連續(xù)可微函數(shù),{ei}是具有零均值和已知方差σ2的獨(dú)立同分布隨機(jī)變量。在線性回歸模型的補(bǔ)償Lq似然方法的基礎(chǔ)上,將該方法應(yīng)用于廣義線性模型之中,并研究了補(bǔ)償Lq似然估計(jì)(PLqE)的Oracle性質(zhì)。仿真結(jié)果驗(yàn)證了該方法的有效性,說明了PLqE是穩(wěn)健的,而補(bǔ)償最大似然估計(jì)(PMLE)則沒有穩(wěn)健性。
通過補(bǔ)償方法進(jìn)行變量選擇的研究得到了廣泛的關(guān)注,補(bǔ)償似然法是其中一種補(bǔ)償方法。補(bǔ)償似然一詞最早由Good和Gaskins提出(參見文獻(xiàn)[1]),此后許多作者用這種方法研究了線性回歸模型(參見文獻(xiàn)[2~5])。可是,補(bǔ)償似然法并不穩(wěn)健。為了克服這個(gè)問題,文獻(xiàn)[6]提出了一種新的補(bǔ)償Lq似然準(zhǔn)則,Hu和Zeng推廣了該補(bǔ)償方法(參見文獻(xiàn)[7])。
高維情形下GLM的統(tǒng)計(jì)推斷是最近一系列研究文獻(xiàn)的焦點(diǎn)。如:文獻(xiàn)[8]通過套索方法考慮變量選擇;文獻(xiàn)[9]為高維GLM引入了自適應(yīng)組Lasso方法;文獻(xiàn)[10]根據(jù)McDiarmid不等式確定的協(xié)變量,提出了稀疏邏輯回歸的兩種加權(quán)Lasso估計(jì)。然而,這些方法均沒有穩(wěn)健性。
受上述文獻(xiàn)啟發(fā),本文將補(bǔ)償Lq似然估計(jì)(PLqE)應(yīng)用到廣義線性模型中,研究其Oracle性質(zhì),并利用算例驗(yàn)證所用方法的穩(wěn)健性。
本文研究如下廣義線性模型

(1)
其中yi為響應(yīng)變量,xi為因變量,h(·)是連續(xù)的可導(dǎo)函數(shù),β是一個(gè)d維的未知稀疏參數(shù)向量,{ei}是均值為0,方差σ2已知的獨(dú)立同分布的隨機(jī)變量。
不失一般性,假設(shè)σ2=1.為了選擇相關(guān)的變量,使用如下補(bǔ)償Lq似然準(zhǔn)則:

(2)
其中f(·)是隨機(jī)變量ei的密度函數(shù),pλ(βj)是一個(gè)補(bǔ)償函數(shù),λ是控制稀疏程度的調(diào)整參數(shù)。

(3)
注1 設(shè)h(u)=u,則由(2)式可得線性回歸模型的補(bǔ)償Lq似然估計(jì)(參見文獻(xiàn)[7])。
注2 對(duì)于給定的q,令pλ(βi)=-n-1Lqh(βj,λ)則從(2)中可以得到兩階段描述長(zhǎng)度或廣義描述長(zhǎng)度(GDL)標(biāo)準(zhǔn)(參見文獻(xiàn)[6])。
注3 設(shè)q=1,h(u)=u,由(2)式可以得到補(bǔ)償似然型估計(jì)量(PL,參見文獻(xiàn)[11])、補(bǔ)償似然極大估計(jì)(PML,參見文獻(xiàn)[3])、自適應(yīng)LASSO估計(jì)量(參見文獻(xiàn)[2])、平滑裁剪絕對(duì)偏差估計(jì)(SCAD,參見文獻(xiàn)[12])、補(bǔ)償最大協(xié)方差錐形似然估計(jì)(PMLET,參見文獻(xiàn)[13])等等。
注4 設(shè)h(u)=u,β=0,由(2)式可得極大似然估計(jì)(MLqE,參見文獻(xiàn)[14])。
注5 設(shè)q=1,則由(2)式可得到廣義線性回歸模型的補(bǔ)償似然估計(jì)。
如用qn和λn分別代替(2)式中的q和λ,則得到補(bǔ)償Lq似然估計(jì)(PLqE)

(4)
該估計(jì)包括線性回歸模型的GDL、PML、PMLET、MLq和自適應(yīng)LASSO估計(jì),以及廣義線性回歸模型的補(bǔ)償似然估計(jì)。
在準(zhǔn)則函數(shù)(2)中對(duì)參數(shù)β進(jìn)行求導(dǎo),得到估計(jì)方程

(5)


(6)


A)ei的密度函數(shù)f(z)有通常的支撐集,并且模型是可識(shí)別的。f(z)的一階、二階導(dǎo)數(shù)滿足方程
并且



為了得到我們的主要結(jié)果,首先需要引入以下兩個(gè)引理。由于引理1和引理2的證明方法類似于文獻(xiàn)[7]中的引理證明,故在此不給出證明。


由以上兩個(gè)引理,可以得到

其中

注6 如果h(u)=u,則上述結(jié)論變成文獻(xiàn)[7]的定理2.
注7 如果h(u)=u且q=1,則上述結(jié)果變成文獻(xiàn)[3]的定理2.
本節(jié)我們給出定理1的證明。
定理1的證明:由引理2知,我們只需證明漸近正態(tài)性。
對(duì)于j=1,2,…,s,我們有

(7)

結(jié)合引理2,我們有

(8)


(9)

且

(10)
注意

(11)
由中心極限定理,可得

(12)
因此

(13)
且

(14)
綜上,定理1得證。

考慮以下Logistic回歸模型

(15)
其中協(xié)變量xi由均值為0的五維多元正態(tài)分布生成,并且第j和第k個(gè)元素之間的協(xié)方差為0.5|j-k|。參數(shù)的真實(shí)系數(shù)設(shè)為β=(10,10,10,0,0,)T.
對(duì)于轉(zhuǎn)換后的數(shù)據(jù)

(16)
可以通過文獻(xiàn)[7]的方法獲得參數(shù)的PLqE(如表1所示)。當(dāng)數(shù)據(jù)有粗差時(shí)(即將元數(shù)據(jù)中的(x10,y10)和(x11,y11)擴(kuò)大到原始數(shù)值的100倍),取λn=2,γ=1,初始參數(shù)值β0=(9,9,9,0.1,0.1)T.

表1 logistic回歸模型的參數(shù)估計(jì)
從表1可以得到如下結(jié)論:
1)對(duì)于不含有粗差的數(shù)據(jù),當(dāng)qn=0.95時(shí),估計(jì)值的均方誤差(MSE)最小,即當(dāng)qn較接近1時(shí)PLqE估計(jì)的效果更好些。
2)對(duì)于含有粗差的數(shù)據(jù),可以看出qn=1時(shí)(即PMLE)的估計(jì)效果是最差的,PLqE優(yōu)于PMLE.結(jié)果表明,PMLE是不穩(wěn)健的,而PLqE是穩(wěn)健的。
湖北師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年3期