于 洋,侯 文
(遼寧師范大學 數學學院,遼寧 大連 116029)
廣義線性模型的概念由 Nelder和Wedderburn(1972)[1]首先提出.他將經典線性回歸模型進行了延拓,并針對新模型確定統一的理論,且在其論文中詳細地討論了廣義線性模型的假設、構成及其參數估計.MaCullagh和Nelder(1989)[2]第一次將廣義線性模型引入到保險精算學中,認為指數型分布族可以通過適當的線性變換完成線性化,該線性化的模型包括泊松、二項、負二項等分布.但是存有廣義線性模型不適用的情形,比如在分析離散數據時常常出現零觀測值過多的情形.如果強行采用廣義線性模型擬合將導致擬合效果不佳且容易對分析結果產生失真的解釋.零膨脹廣義線性模型可用在這些情形中,如零膨脹泊松回歸模型,該模型用于分析生產過程中產品所含有的瑕疵數量,進一步,將零膨脹泊松回歸模型擴展到零膨脹負二項回歸模型,并將該模型應用到顧客信用卡不良記錄的探究中.Deng和Paul(2000)[3]對零膨脹廣義線性模型的參數給出了得分檢驗統計量.但是現有的 大多數文獻打都是關注于模型的應用,較少涉及零膨脹廣義線性模型極大似然估計的相合性和漸近正態性等大樣本性質.借鑒Fahrmeir和Kaufmann(1985)[4]對廣義線性模型極大似然估計的大樣本性質的研究結果,在一定的正則條件下,證明零膨脹廣義線性模型極大似然估計的相合性和漸近正態性等性質應該是有價值的.

f(y,θ)=c(y)exp {θy-b(θ)}dγ.
(1)
其中,θ為自然參數,b(θ)和c(y)是已知函數.這兩個函數必須滿足以下條件:
b(θ)的二階導數存在并且大于零;
c(y)是獨立于參數θ的函數.
由于零膨脹現象經常發生在計數數據中,例如,泊松分布,二項分布,負二項分布等,故在此背景下,零膨脹指數族定義為
其中,f(y,θ)為式(1)所示的單參數指數分布族密度函數,記作Y~f(y,θ,ω),θ,ω為參數.其均值和方差為
E(Y)=(1-ω)μ=(1-ω)b′(θ),
Var(Y)=(1-ω)(b″(θ)+ω{b′(θ)})2.
零膨脹廣義線性模型結構如下:
(1)模型的響應變量為Yi,Yi~f(y,θ,ω),且Yi相互獨立,i=1,2,…,n;

(3)聯結函數g是一個單調可微的函數,它體現了隨機成分的期望值與系統成分之間的聯系,即E(Yi)=μi=g-1(ηi).

對數似然函數為


其score向量為
sn(δ)=(s0(δ),s1(δ),…,sp(δ),sp+1(δ))T,
(2)
其中,
又

進一步求導,可得觀測值矩陣為



(3)
Fisher信息陣Fn(δ)=EδHn(δ),
由E(I(yi=0))=P(Yi=0)=ω+(1-ω)f(0,θi)和
E(I(yi>0))=P(Yi=y)=(1-ω)f(yi,θi),

(4)

為了方便,先設定一些特殊的記號.令λminA和λmaxA分別表示矩陣A的最小特征根和最大特征根,用AT表示矩陣A的轉置矩陣,A1/2表示正定矩陣A的Cholesky分解中左平方根的下三角矩陣,且其對角元素為正,即A1/2(A1/2)T=A.
為了表示方便設定AT/2=(A1/2)T,A-T/2=(AT/2)-1,A-1/2=(A-1/2)-1.
用‖·‖表示一個矩陣的譜范數,一個實值矩陣A的譜范數為
‖A‖=(λmax(ATA))1/2,

Hn(δ)和Fn(δ)分別表示零膨脹廣義模型參數δ的觀測信息陣和Fisher信息陣.
此外分別將sn(δ0)、Fn(δ0)、Eδ0記為sn、Fn、E.
定理1需要在以下假設下進行證明:

(2){Xn,n≥1}?Kx,Kx?RP+1是一個緊集,
(3)假設B?Rp+1是一個開集且δ0是集合Kδ:=B×Ω的內點,其中Ω=[0,1].
為了證明定理1,需要證明以下引理.

若函數u(·)在[0,)是非負的,有
證明第一個式子通過下面等式證明
由E(I(y>0))=P(Y=y)=(1-ω)f(y,θ).

又由函數u(·)在[0,)是非負的,顯然有

證明根據Ramesh(1974)[5]中定理2.2,有遞推公式


引理3設Qk(y)為k階多項式,其系數是關于x,δ,δ0的連續函數且系數為正,令Yi~f(yi,θi,ω),i=1,2,…,n.如果條件(1)-(3)成立,則

證明在條件(1)下,對?n∈N,鄰域Nn(ε)是緊集,且對于?ε>0,當n→時,Nn(ε)收斂于δ0.因此由引理3.1和3.2以及多項式Qk(y)系數的連續性,有

引理4在條件(1)-(3)下,當n→時,,其中N(0,Ip+2)是p+2維正態分布,且其均值為0,協方差矩陣為Ip+2(Ip+2為p+2階的單位陣).



由Cr不等式的一個展開式

(5)
有E‖sni‖3≤C(E|s0,i|3+…+E|sp,i|3+E|sp+1,i|3).
由式(5)得
將其最后一步拆成兩部分來證明.

再由Cauchy-Schearz不等式和引理3.2,得

由此證得引理4成立.



需證明
(6)

(7)
(8)
(9)
(10)
由于式(8)、式(9)和式(10)有相似的結構,只證明式(8)成立,其他可類似處理.
為得到式(8),只需證

(11)
(12)
其中:
而式(9)和式(10)由大數定律可知成立.
由式(7),有
(13)
(14)
(15)
由于式(13)、式(14)和式(15)有相似的結構,只證明式(13)成立,其余可以類似處理.
當n充分大時,由δ∈Nn(ε),由式(4)中frs(δ)的連續性,可得式(13)成立.
由此證得引理5成立.




證明令?Nn(ε)表示Nn(ε)的邊界,由條件(1)知,當n→時,Nn(ε)收斂于δ0.
則 ln(δ)-ln(δ0)<0,?δ∈?Nn(ε).
(16)

下面證明對?η>0,?ε>0和n1使得對所有n≥n1,有
P(ln(δ)-ln(δ0))<0,且對?δ∈?Nn(ε)≥1-η成立.
(17)



由此可知式(17)成立.
因此可以推得定理1的(i)成立.
由引理4和引理5即可推得定理1 的(ii)成立.
通過討論響應變量為單參數指數族且在零點處膨脹的廣義線性模型的大樣本性質,表明零膨脹廣義線性模型具有與廣義線性模型相類似的漸近性質.另外,定理的漸近結果也適用于一些離散型模型,如零膨脹負二項回歸模型,零膨脹泊松回歸模型,等等.