李文斌,何幫強
(安徽工程大學 數理與金融學院,安徽 蕪湖 241000)
半參數變系數模型在近些年來被廣泛研究的模型,它一般可以簡化為線性模型部分、線性模型等一系列退化情形的模型。半參數變系數模型與其他線性或者部分線性模型相比較,是一種更應用多變的函數形式,同時還避免了相當多的“維數禍根”問題。研究考慮的是具有誤差變量(Errors-in-Variables,EV)半參數變系數部分線性的模型:
(1)
式中,響應變量是Y;解釋變量是X、Z和U,其中X是p維隨機向量;Z是q維不可觀測隨機變量,U是1維隨機變量;β=(β1,β2,…,βp)τ是p維未知參數量;g(U)=(g1(U),g2(U),…,gq(U))τ是q維未知函數向量;ε是不可觀測的隨機誤差。
You等[1]研究了半參數變系數含EV的回歸模型的估計,利用校正衰減方法提出修正的profile最小二乘法估計參數部分以及利用局部多項式的方法估計非參數部分。馮三營等[2]研究了半參數變系數模型,考慮其中的非參數部分的解釋變量含有EV,并且構建了參數的局部的糾偏經驗log似然比統計量。陳夏等[3]研究了半參數變系數部分線性EV模型,考慮的是參數部分解釋變量具有EV。本文考慮的是模型的非參數部分的解釋變量帶有EV的半參數變系數面板數據模型。在醫學、可靠性工程、金融保險、環境科學和臨床的試驗研究中經常會遇到隨機刪失的情況。王啟華等[4-5]研究了隨機刪失的情況下半參數線性模型,考慮了其中的參數估計的漸進特征與參數的經驗似然推斷。陳放等[6]研究了在右刪失的情況下,非線性回歸模型的經驗似然推斷。侯文等[7]研究了在刪失數據下,若干個半參數模型的經驗似然和懲罰經驗似然的推斷。劉強等[8]研究了隨機刪失發生在響應變量中,部分線性EV模型的統計推斷,考慮構建了其中的未知參數的經驗log似然比統計量。李蕓[9]分別研究了基于區間刪失數據下的變系數模型和部分線性模型的統計推斷。閆一冰等[10]研究了隨機右刪失發生在響應變量中,部分線性測量誤差模型的統計推斷。類似的研究還有許多,比如文獻[11-18]都是最新的研究成果。面板數據在現今生活中應用非常廣泛,比如經濟、金融、生物、工程和社會科學等領域,同時面板數據可以為研究人員提供更大規模的擴展。在尋常的研究中收集的數據往往不能完全觀測,面板數據更是由截面和時間序列融合在一起的數據,因此研究刪失數據下的面板數據更具有實際意義。在刪失數據下參數估計量的漸近方差會非常復雜,所以本文將經驗似然應用其中,既不需要估計方差,又使得統計推斷不會繁雜。因為有測量誤差,所以研究對構造的輔助隨機變量進行了修正,并修正了由測量誤差引起的估計偏差。
本文研究了刪失數據下含有EV的半參數變系數面板數據模型的經驗似然推斷,構建了關于未知參數的修正經驗log似然比統計量,在合適的條件下證明了所構建的統計量趨近于χ2分布,所得到的結果可以用作構建未知參數的置信域。
假設數據{Yit,Xit,Zit,Uit,Wit,i=1,2,…,n;t=1,…,T}是來自{Y,X,Z,U,W}的一個獨立同分布的樣本,即有
(2)
式中,Zit是不可隨意觀測的隨機變量;Wit是可觀測到的隨機變量;εit、eit是與Zit互相獨立的,εit是隨機誤差,且E(εit)=0,E(eit)=0,var(εit)σ2<∞,var(eit)=Σe。
研究考慮的是刪失下的情況,當響應變量Y被刪失變量C隨機右刪失的時候,觀察到的是ζit、δit,而不是Yit,其中,
ζit=min{Yit,Cit},δit=I(Yit≤Cit),i=1,2,…,n;t=1,2,…,T,
式中,Cit是來自刪失變量C的樣本數據,且假定{Yit,Xit,Zit,Tit,Wit}獨立。假設A(·)、B(·)分別作為響應變量Yit與刪失變量Cit的分布,記
τA=inf{u:A(u)=1},τB=inf{u:B(u)=1},
現假定
τB≥τA,Yit≥0,Cit≥0,i=1,2,…,n;t=1,2,…,T。
由于Yit被隨機地刪失,通常情況下參數的估計方法不能被直接的應用,原因是ζit與Yit擁有不一樣的數學期望,需要對數據進行轉換。當B已知時,定義
可以證明
采用Profile最小二乘估計的方法,假設有一個隨機的樣本{(Uit,Xit1,…,Xitp,Zit1,…,Zitq,Yit),i=1,…,n;t=1,…,T}來自于式(2)第一式。當β給定時,有
(3)
運用局部多項式的方法對模型(3)中g(U)這個變系數函數進行估計,假如操作中沒有EV的情況,即Zit已知時,那么Uit在u0的一個小鄰域內時,可以估計gj(Uit)為

(4)

記
YB=(Y11B,…,Y1TB,…,YnTB)τ,X=(X11,…,X1T,…,XnT)τ,ε=(ε11,…,ε1T,…,εnT)τ,
W=(W11,…,W1T,…,WnT)τ,ωu=diga(Kh(U11-u),…,Kh(U1T-u),…,Kh(UnT-u)),
則基于式(4)由廣義最小二乘法可得
(5)
因為Zit不可觀測,可觀測到的是含有誤差擾動項WitW,如果式(5)中直接操作Zit被Wit替代,則這里的估計不再被認為是相合估計,為了消定估計中是EV所導致的偏差,參考了Feng等[19]的方法,對式(5)進行下面形式的局部修正得
(6)

這里的?表示的是克羅內克乘積。
定義S=(Q1W1,…,QnWn),構建的輔助隨機變量為
由于隨機刪失情況下的線性模型中參數估計量的趨近方差計算較為繁瑣,運用近似于Owen[20]所提出的方法,可以得到經驗log似然比函數為
然而,B分布函數在實際中往往未知,這時采用Kaplan-Meier估計

其中,

(7)
從而該參數的log經驗似然比函數可以寫為
(8)
由拉格朗日乘子法可得
(9)

為了下面內容方便描述,引入一些記號,
A?2=AAτ,Φ(U)=E(WXτ|U),Γ(U)=E(WWτ|U),
Σ1(β)=E[(X-Φτ(U)Γ-1(U)Z)(ε-eτg(U))]?2-E[Φτ(U)Γ-1(U)ΣeΓ-1(U)Φτ(U)ετε]+
E{Φτ(U)Γ-1(U)(eeτ-Σe)g(U)}?2。
Δ=E(XXτ)-E(Eτ(WXτ|U)E-1(WWτ|U)Eτ(WXτ|U)),

Σ(β)=Σ1(β)-Σ2(β)。
為了得到研究的結果,列出下列條件,以下約定對任何向量a,用‖a‖表示Euclidean模。
A1:隨機變量U具有有界支撐,其密度函數f(·)滿足Lipschitz連續,且f(·)>0。
A2:{gj(·),j=1,2,…,q}在U∈Ω內有二階連續導數。


A5:存在常數s>2使得E‖X1‖2s<∞,E‖Z1‖2s<∞,E‖e1‖2s<∞,E‖ε1‖2s<∞,對某個δ<2-s-1,當n→∞時,有n2δ-1h→∞。

設An表示A的Kaplan-Meier估計,記
調整后的經驗似然函數定義為


Iα(β)是參數向量β的置信域,這里的置信域是在具有趨近置信水平1-α的情況下,而且還有P(β∈Iα(β))=α+o(1)。
為了下文敘述方便,令
并且以下假設中c表示常數,在各處所取的取值不同。令
引理1 在條件A1~A5成立下,當n→∞時有
式中,j,j1,j2=1,2,…,q,Γj1j2(U)是矩陣Γ(U)的第(j1,j2)元素。
證明類似于文獻[21]中引理A2的證明。
引理2 在條件A1~A5成立下,有
證明類似于文獻[22]中引理A2的證明。
引理3 在條件A1~A5成立下,當n→∞時有

證明類似于文獻[22]中引理A3的證明。
引理4 在條件A1~A5成立下,有
(10)
(11)
(12)
證明由泰勒展開,容易得到

首先證明,
由中心極限定理可得,
接下來可證
類似于侯文[7]的引理4.4的證明,可知
由以上證明可知式(10)成立。
類似于侯文[7]的引理4.7的證明,可得式(11)成立。
由引理1以及條件A5可得到
從而式(12)成立。
定理1的證明
然后由引理4得到
從而
再結合引理4,此定理可證。
定理2的證明:類似于文獻[8]中定理2的證明可得。
近年來隨著社會經濟的迅猛發展,科研的不斷深入,人們所收集到的面板數據越來越豐富,如何準確地處理和分析這些數據是目前統計學者們面臨的一個大的研究課題。當半參數變系數部分線性EV模型應用在生存數據的分析時會面臨一些困難,因為生存數據通常情況下都會是刪失的。研究把經驗似然方法推廣到刪失下帶有EV的半參數變系數面板數據模型中,通過得到的統計量的趨近性質,說明了經驗似然方法在刪失下帶有EV的半參數變系數面板數據模型中是有效的,為研究刪失下帶有EV的半參數變系數面板數據模型提供了一種方法與思路。