趙文星,程國勝,來 鵬
(南京信息工程大學數學與統計學院,南京 210044)
在現今統計分析中,往往希望建立的模型既準確又易于解釋。事實上,研究的大多數模型既含有參數分量又包含非參數分量,尤其在計量經濟學和生物醫學等領域,變系數部分線性模型被廣泛應用。它的優勢在于既結合了線性模型的易于解釋,又可以描述協變量的交互影響,此外,該模型允許更靈活的函數形式,同時還能降低數據的維數。為此,有必要對其進行研究。變系數部分線性回歸模型可以定義如下,

其中,Y是響應變量,X和Z分別為 p維和q維向量,t是一維變量,g(·)是一個未知的可測函數,隨機統計誤差 ε滿足 E(ε|X,Z,t)=0 和 var(ε|X,Z,t)=σ2(X,Z,t)。在模型(1)中,參數部分βTZ提供了協變量的線性組合,回歸系數gj(t)依賴于t,j=1,…,p,具有靈活的模型形式且避免了“維數禍根”。模型(1)包含了常用的線性模型、變系數模型和部分線性模型等半參數和參數模型,使得其具有廣泛的應用領域。自從該模型被提出以來,變系數部分線性模型被廣泛研究并應用在各種領域。
模型參數的優良估計應該滿足無偏性與相合性外,還應考慮所得估計是否能有效地幫助實際工作者得到更準確的估計。半參數模型估計的有效性是評價估計優劣的一個重要性質,例如Tsiatis(2006)等[1]從模型參數的有效得分函數出發研究了參數模型估計的有效性。在Liang等[2]提出估計的基礎上,H?rdle[3]提出了一種加權擴展估計,利用方差的倒數作為逆概率的權重,提高了部分線性模型參數的估計效率。但是,Ma等[4]中指出他們所提出的估計仍然不是最有效的估計,為此,Ma等通過計算部分線性模型的有效得分函數,利用它構造有效估計方程,從而求出帶有異方差的部分線性模型的半參數有效估計。從這些文章中,可以發現有效得分函數對于得到有效估計有著非常重要的作用。為此,本文通過推導帶有異方差的變系數部分線性模型的有效得分函數來構造有效估計方程,給出帶異方差的變系數部分線性模型的半參數有效界,證明所得估計為有效估計,并證明其大樣本性質。
從模型(1)中可以看出,參數β是感興趣的參數,而系數函數 gj(·),(j=1,…,p),未知的異方差函數 σ2(X,Z,t),(ε|X,Z,t)的條件分布和 (X,Z,t)的邊際聯合分布均為冗余參數。由Tsiatis等(2006)[4]可知,若可以得到有效得分函數,則可以利用其構造有效估計方程,計算得出有效估計。為此,需要先求解有效得分函數,通過計算和推導證明,可以得到如下定理,(定理證明略)。
定理1設在給定(X,Z,t)下,ε的條件概率密度函數為 pε(ε|X,Z,t),并且 pε(ε|X,Z,t)關于 ε可導,幾乎處處有0<E(ε2|X,Z,t)<∞ 。那么模型(1)的半參數有效得分函數是

其中,w=w(X,Z,t)={E(ε2|X,Z,t)}-1,ε=Y-gT(t)X-βTZ 。
從中可以知道,正則的漸近線性估計與它所對應的影響函數是一一對應的,也就是說利用有效影響函數可以找到有效估計。而在上述定理中已經得出了變系數部分線性模型的有效得分函數,根據有效影響函數與有效得分函數之間成正比例的關系,自然的可以利用有效得分函數來構造估計方程。根據(2)式可以建立如下估計方程:

由有效得分函數與有效估計的一一對應性,通過對(3)式估計方程的求解可以得到β的半參數有效估計。但是,從方程(3)中可以發現,其中包含了未知的函數 g(·),w(·),E[w(X,Z,t)ZXT|t]和 E(w(X,Z,t)XXT|t),這些未知函數會影響方程的求解。因此,首先需要對這些未知函數進行相應的估計,以便將方程中的未知量用其估計值進行插值替換,從而便于對感興趣的參數進行求解。注意到可以將模型(1)寫成


根據所得估計的漸近方差V,可以發現β^的漸近方差陣等于半參數有效得分函數Seff(·)的協方差矩陣的逆,由此依據Tsiatis[6]中的定理4.1可知,所得估計的漸近方差達到半參數有效界,所以通過求解估計方程(9)得到的估計為帶異方差的變系數部分線性模型的半參數有效估計。
為了研究所提出估計的有限樣本性質,判斷其是否為有效估計,本文用數值模擬來說明所提出估計的優劣,并與其他幾種估計方法所得的估計進行比較。
考慮對以下幾種估計方程所得β的估計進行比較:


為了比較不同估計方程所得估計的優劣,本文通過所得估計的偏差(Bias)、標準差(SE)和均方誤差(MSE)來進行比較。例1和例2所得模擬結果見表1和表2所示。

表1 例1所得模擬結果
從表1和表2可以看出,當采用估計方程的方式求解估計時,隨著樣本量的增加,總的來說各個加權估計方程解出的估計值β^的偏差、標準差和均方誤差均是越來越小,并且由表1和表2中估計的標準差和均方誤差可以發現,本文所提出的估計方法(b)比其它估計方法更優越,所得的標準差(SE)和均方誤差(MSE)都是最小的。因此,本文提出的利用有效得分函數構造加權有效估計方程的方法能夠提高估計的效率,并且具有較小的偏差,可以得到最有效的的估計。

表2 例2所得模擬結果
本文推導得到帶有異方差的變系數部分線性模型的半參數有效界,通過導出的感興趣參數的有效得分函數,構造有效估計方程,并由此來進行參數估計。通過大樣本下的理論性質的證明,以及通過小樣本下的數值模擬,可以得到所提出的估計求解方法能夠得到一致較優的有效估計。同時,注意到在對感興趣的參數進行估計之前,先是要對模型中其它未知函數進行估計,在仿真模擬中可以發現,這些未知參數估計所采用的不同非參數估計方法不會影響到感興趣參數的估計效率。從數值模擬中還可以看出,本文所提出的估計方程得到的估計的偏差、標準差和均方誤差隨著樣本量的增加,逐漸減小且小于其它方法所得估計值。由此可知,本文所提出的方法是有效的且有較強的穩健性。
[1]Wahed A S,Tsiatis A A.Semiparametric Efficient Estimation of Survival Distributions in Two-Stage Randomisation Designs in Clinical Trials With Censored Data[J].Biometrika,2006,93(1).
[2]Liang H,H?rdle W,Carroll R J.Estimation in A Semiparametric Partially Linear Errors-In-Variables Model[J].The Annals of Statistics,1999,27(5).
[3]H?rdle W,Liang H.Partially Linear Models[M].Springer Berlin Heidelberg,2007.
[4]Ma Y,Chiou J M,Wang N.Efficient Semiparametric Estimator For Heteroscedastic Partially Linear Models[J].Biometrika,2006,93(1).
[5]Fan J.Local Polinomial Modelling and Its Applications[M].CRC Press,1996.
[6]Tsiatis A A.Semiparametric Theory and Missing Data[M].Springer,2006.