陳光慧
(暨南大學 經濟學院,廣州 510632)
基于局部多項式回歸方法的抽樣估計
陳光慧
(暨南大學 經濟學院,廣州 510632)
在輔助信息可利用的情況下,文章研究了有限總體總值的估計問題。首先回顧了Horvitz-Thompson估計量和廣義回歸估計量;然后指出當輔助變量與研究變量不滿足經典線性回歸模型假設時,可建立非參數回歸模型,運用局部多項式回歸估計的方法進行估計;最后,引入了一個實際例子,并對估計結果進行了比較。
輔助信息;抽樣估計;非參數回歸模型;局部多項式回歸估計量
在很多抽樣問題中,我們往往希望能得到一些輔助信息,利用這些輔助信息來提高抽樣估計的精度。這些輔助信息主要包括普查資料、政府部門的行政記錄和有關企、事業單位的生產業務記錄以及以前所搜集的調查資料等等。對于已經得到的輔助信息,我們可以從不同的角度進行利用。具體地說,可以在抽樣設計階段利用輔助信息,也可以在抽樣估計階段利用輔助信息。
在抽樣設計階段利用輔助信息,主要是指不等概率抽樣(包括PPS抽樣和πPS抽樣等等)。比如說,在πPS抽樣中,研究變量y與已知的輔助變量x呈一定的相關關系。我們可以在抽樣設計階段利用這種相關關系,令第i個總體單元被包含到樣本中的概率,即入樣概率為

這樣,如果根據抽樣設計p(·),從總體U中抽出一個概率樣本s,那么就可以得出未知總體總值ty=∑Uyi的無偏估計量,也就是Horvitz-Thompson估計量

且Horvitz-Thompson估計量的方差為

這里的 πi如式(1)所示,πij即為第 i和 j兩個總體單元同時入樣的概率。 觀察式(2) 和式(3)可知,估計量t贊y及其方差公式中沒有出現輔助變量。也就是說,僅僅在抽樣設計階段利用了輔助信息,在抽樣估計階段沒有利用輔助信息。S覿rndal等人(1992)已經證明,在抽樣估計階段利用輔助信息(即輔助變量進入估計量公式中),往往能得出比Horvitz-Thompson估計量更有效的估計量。
在研究抽樣估計階段如何利用輔助信息時,首先往往假定一個超總體線性回歸模型

來描述研究變量y與輔助變量向量x=(x1,…,xK)'之間的關系,而把需要調查的未知研究總體U(即{yi,xi})看成是這個超總體線性回歸模型的一次具體實現,其中x1,…,xN是輔助向量x的值。若用研究總體數據來估計模型參數,可得參數β的最小二乘估計量為

但是由于在實際調查中,總體是未知的,所以不能直接用來估計模型參數β,我們只能從總體U中抽出一個樣本s(即{yi,xi}),利用樣本s的信息以及輔助變量向量x的總體總值tx=∑Uxi=(t1,…,tK)'來估計模型參數,進而得出總體總值ty=∑Uyi的估計量。Sarndal等人(1992)基于此模型提出了廣義回歸估計量(簡稱GREG估計量),公式



此估計量是ty=∑Uyi的漸進無偏且一致估計量。一般來說,式(5)中的廣義回歸估計量比式(2)中的 Horvitz-Thomp-son估計量更優。
在以往關于回歸估計的研究中,我們很少考慮建立的回歸模型是否滿足經典線性回歸假設。雖然,S覿rndal等人(1992)提出的廣義回歸估計量考慮到了異方差的問題,但對于實際中真實的數據來說,僅僅這樣可能還不夠,還有很多模型設定誤差需要考慮,甚至實際數據是否呈線性關系還需要研究。如果從這方面考慮,那么基于上述線性回歸模型得出的估計量的精度可能沒有想象中的理想。針對此問題,本文擬建立非參數回歸模型,并提出局部多項式回歸估計的方法。
非參數回歸模型的特點是回歸函數的形式可以任意,不受任何約束,因而具有較大的適應性。近幾年,國外有些學者已經開始把非參數模型引入到抽樣理論研究中,比如,Breidt和Opsomer(2000)等人提出模型輔助條件下的各種非參數估計量。對于非參數回歸模型,本文使用局部多項式回歸方法進行估計,局部回歸的優點是假定變量之間的關系未知,沒有隱含任何假設條件,所以更加符合實際情況。
局部回歸的主要思想是,對于給定的x,認為模型回歸函數m(.)在x附近的局部領域近似于線性,對x附近的那部分數據應用線性回歸技術,而該局部領域的大小由窗寬(記為h)的大小來控制。
為了簡化問題,本文以一個輔助變量的一元回歸模型為例介紹局部回歸估計,有多個輔助變量的情形可以類似考慮。
第一步,建立如下無限超總體非參數回歸模型ξ

其中xi是已知的輔助變量;yi是未知的研究變量;εi是獨立的隨機誤差項,且其均值為0,方差為v(xi);m(x)是關于x的一個光滑函數,其表達形式未知。在給定xi情況下,模型ξ也可以表達為如下形式

與第一節中的線性回歸模型ζ一樣,我們把需要調查的未知總體U(即{yi,xi}Ni=1)看成是這個超總體非參數回歸模型ξ的一次具體實現。但是由于總體是未知的,所以不能直接進行估計,我們只能從總體U中抽出一個樣本s(即{yi,xi}ni=1),利用樣本s的信息以及輔助變量x的總體總值tx=∑Uxi來估計非參數回歸模型,進而得出研究變量總體總值的估計量。
第二步,假定函數m(x)在x=xi處p+1階導數存在,則可以對m(x)在x=xi處進行泰勒級數展開,表達如下

對于樣本資料{yk,xk,我們有

對上面的多項式運用加權最小二乘法進行局部擬合。假定控制局部領域大小的窗寬為h,則對于xi的領域 (xi-h,xi+h),有

其中 Kh(·)=K(·|h)/h,K(·)為核函數,h 為窗寬。 為了方便進一步討論,把式(11)表達成矩陣的形式為

其中

這里的β為參數向量,且βv=m(v)(xi)/v!,v=0,1,…,p;ε為模型誤差向量。
通過極小化

β的加權最小二乘估計為

其中 Wsi=diag{Kh(xk-xi)};k=1,…,n。 由于 βv=m(v)(xi)/v! (v=0,1,…,p),可得式(8)中 m(xi)的樣本估計值為

這里 e1=[1 0 … 0]'(p+1)×1。 即等于向量β贊中的第一項。
第三步,采用式(5)中廣義回歸估計量的形式,可得總體總值ty=∑Uyk的局部多項式回歸估計量為

與式(6)中近似方差公式類似,可得局部多項式回歸估計量的近似方差公式為

其中mi=e1'(X'UiWUiXUi)-1XUi'WUiYU是用總體數據去估計非參數回歸模型時得出的關于m(xi)的估計值。推導方法與推導式(16)的樣本估計值一樣。同理,與式(7)類似,得出近似方差的估計量為

其中,m贊(xi)=e1'(Xsi'WsiXsi)-1XsiWsiYs。
為了更好地說明局部多項式回歸方法在抽樣估計中的應用,我們引入一個實際例子進行分析,即估計廣東省某年的糧食總產量。按照行政區劃將廣東省分成89個縣 (市)、區,即總體單元總數N=89;研究變量表示第i個地區的糧食產量;另外,選用與研究變量高度相關的常用耕地面積作為輔助變量,因為各個地區不同年份常用耕地面積很少變化,其數據可通過往年的統計年鑒得到,且用xi表示第i個地區常用耕地面積,其中i=1,…,89。目標是估計總體總值,即廣東省糧食總產量ty=∑Uyi,為此抽出一個樣本量n=30的樣本進行估計。為了簡化問題,這里使用簡單隨機抽樣得出樣本量為30的樣本,樣本數據在此略過。
從樣本中得到了30個樣本單元的研究變量值 (即糧食產量yi,i=1,…,30),且還知道總體的輔助變量值(即常用耕地面積xi,i=1,…,89,通過以往的資料或普查可獲得)。下面的任務就是利用這些信息來估計總體總值 (即廣東省糧食總產量)。


一般來說,這里可以利用輔助變量的信息進行回歸估計。但是通過觀察圖1和圖2中的兩條回歸趨勢線,可以發現,由于30個樣本點呈線性回歸趨勢并不明顯,若強行進行線性回歸估計,其效果可能很差。但是,圖2中的局部多項式回歸擬合圖擬合效果較好。下面分別進行線性回歸估計和局部多項式回歸估計,并對兩種方法的估計精度進行比較。
由于使用簡單隨機抽樣,那么包含概率相應為

且進行局部多項式回歸估計時,選擇核函數K(u)=0.75(1-u2)I(|u|≤1),其中 I(·)為示性函數,當括號內的不等式成立時,取值為1;否則取值為0。確定窗寬h=0.8。運行MATLAB 7可得出結果如表1。

表1 兩種估計方法的結果
從表1中可發現,兩種估計方法中,由局部多項式回歸方法得出的估計量的近似方差更小,因而估計得更加精確。
本文研究了在輔助信息可利用的情況下,有限總體總值的估計問題。文章回顧了Horvitz-Thompson估計量和廣義回歸估計量及存在的問題,當輔助變量與研究變量不滿足經典線性回歸模型假設時,考慮建立非參數回歸模型,并運用局部多項式回歸估計方法進行抽樣估計,構建局部多項式回歸估計量。最后,引入了一個實際例子進行分析,顯示了該估計量的準確性。
[1]馮士雍,倪加勛,鄒國華.抽樣調查理論與方法[M].北京:中國統計出版社,1998.
[2]李子奈,葉阿忠.高等計量經濟學[M].北京:清華大學出版社,2000.
[3]葉阿忠.非參數計量經濟學[M].天津:南開大學出版社,2003.
[4]W.G.Cochran.抽樣技術[M].張堯庭,吳輝譯.北京:中國統計出版社,1985.
[5]Breidt,F.J.,Opsomer,J.D.Local Polynomial Regression Estimators in Survey Sampling[J].The Annals of Statistics,2000,(2).
[6]Sarndal E.C.,Swensson B.,Wretman J.Model Assisted Survey Sampling[M].New York:Springer,1992.
C811
A
1002-6487(2011)04-0003-03
全國統計科學研究重大項目(2009LD001)
陳光慧(1980-),男,安徽旌德人,博士,講師,研究方向:統計調查與數據分析。
(責任編輯/亦 民)