曹連英,張 博
(東北林業大學 理學院,哈爾濱 150040)
非線性半參數空間變系數模型的兩步估計
曹連英,張博
(東北林業大學 理學院,哈爾濱 150040)
文章對非線性函數與空間變系數模型組合的半參數模型進行研究,提出該類模型的兩步估計,給出半參數模型中非線性函數和空間變系數參數估計的精確表達式。并進行了數值模擬,結果表明,估計值與真實值擬合程度較好,方法的精確度較高。
半參數模型;地理加權回歸;兩步估計法
半參數模型自1986年提出以來,由于此模型兼具參數模型和非參數模型的優點,在過去的三十年里受到統計學家和計量學家們的廣泛研究,并應用于生物、農業、GPS定位等許多實際問題中。近年,趙坷[1]提出一種新型加權半參數模型,通過比較參數和半參數部分所占的比重,對其進行加權,驗證了加權半參數模型的優越性;朱晉偉等人[2]根據半參數模型能減小誤差,也能減少“維數災難”的特點,將其應用到企業間創新績效的影響因素的分析中。
目前學者研究的半參數模型主要以線性模型和變系數模型的組合為研究熱點。Zeger等人[3]曾用迭代法對非參數部分進行估計,用后移算法估計線性部分,并將該半參數模型應用到實際醫學領域;Caroll和Lin[4]等人利用廣義估計方程研究了以線性模型為分量的半參數模型。He等人[5]在估計半參數模型時,對線性部分采用M-估計法,對非參數部分采用回歸樣條方法;封維波等人[6]在均方誤差準則下對此類半參數模型中的參數的兩步估計和最小二乘估計進行了比較,給出了參數的兩步估計優于最小二乘估計的充分條件。
然而,在一些實際問題中會遇到這樣的問題,部分變量對因變量的影響具有空間差異性,而其他變量對因變量的影響無空間差異性,但是是非線性的。本文將對以往研究的半參數模型中線性部分推廣為非線性函數,對由一個自變量的非線性函數與空間變系數模型組合的半參數模型其估計方法進行探討。
設非線性半參變系數模型為:

其中,Y為因變量,X1,X2,…,Xk為自變量,V為空間變量V=(u,v)。 m(X1)為未知的非線性函數,βl(V)為空間變系數模型部分的系數參數函數。ε為誤差項,滿足且m(X1)為足夠光滑的函數,有任意階導數。

由Taylor公式,m(x)在x=x0點處泰勒展開式為:



若記:

此時式(1)為:

非線性半參變系數模型的估計問題轉化成M1,M2(V)的估計。這里為第i個單位坐標向量。
首先假設m(x)已知,即M1已知,則模型(2)可以表示為:

利用空間地理加權回歸方法得空間變系數模型部分變系數M2(V)在點Vi=(ui,vi)的估計表達式為:

再將上式代入到式(2):
式(4)可整理為只含有未知參數系數M1的線性回歸問題如下:

利用最小二乘估計可得上式中M1的估計為:



其中:

下面將通過一系列的模擬試驗來考察上文提出的非線性半參數變系數模型中的線性函數和空間變系數參數估計的精確性。
模擬實驗的空間區域邊長為m-1個單位的正方形,以此區域的左下角為坐標原點,將正方形的邊長m-1等分,等分后得到m×m個格子點。這樣的格子點分隔方法有著廣泛的應用背景,例如在地理分析中遙感數據的空間位置常用述格子點形式。若分別以u,v表示格子點的橫縱坐標,則Vi=() ui,vi為第i個自變量與因變量的地理位置,其中表示i-1除以m的余數,表示商的整數部分,i=1,2,…,n,n=m2。模型中其他自變量的取值是獨立產生的服從區間[0,1]上均勻分布的隨即數。如若不然可將實際問題變量數值標準化。取x0=0.5。
就三組非線性半參數空間變系數模型進行數值試驗:

誤差項ε服從正態分布N(0,σ2),分別取標準差為σ=1,0.6,0.2,m=10,9,8進行模擬試驗。對于每個σ,m只改變隨機誤差ε重復運算300次,獲取試驗結果。記非線性函數m(x)的均方誤差為MSE1,變系數部分的均方誤差MSE2和因變量估值的均方誤差MSE3:

三組模型300次實驗結果如表1所示,非線性函數的估值曲線與真實曲線見下頁圖1至圖3。
數值結果表明,在不同的σ、m下,半參數模型的估計值與真實值非常接近,擬合效果較好。隨著σ變小,即噪聲方差變小,對模型的干擾減弱,估計的精度明顯提高。m越大,即隨著觀測點的增多,對于以上模型來說估計值逼近精確值的程度影響不大。

表1 三組模型300次實驗下的均方誤差

圖1 回歸模型(i)中非線性部分sin2x1圖像和在方差分別為0.2, 1方差下的擬合圖(*為真值,△為擬合值)

圖2 回歸模型(ii)中非線性部分6x1·cos(6 πx1)圖像和在方差分別為0.2,1方差下的擬合圖(*為真值,△為擬合值)

圖3 回歸模型(iii)中非線性部分sin(6 πx1)圖像和在方差分別為0.2,1方差下的擬合圖(*為真值,△為擬合值)
本文用兩步估計法對非線性半參數空間變系數模型進行估計,并給出估計表達式,模擬試驗表明,估計值與真實值擬合程度較好,方法的精確度較高。在本文估計中使用了泰勒展開式,為提高計算的精度,建議解決實際問題時對變量先進性數據標準化。
[1]趙坷,付政慶,劉國林.加權半參數模型及其應用效果分析[J].大地測量與地球動力學,2014,34(2).
[2]朱晉偉,梅靜嫻.不同規模企業間創新績效影響因素比較研究[J].科學與科學技術管理,2015,36(2).
[3]Zeger S L.Semiparametric Models for Longitudinal Data With Appli?cation to CD4 Cell Numbers in HIV Seroconverters[J].Biometrics, 1994,50(3).
[4]Lin X,Carroll R.J.Semiparametric Regression for Clustered Data Using Generalized Estimating Equations[J],Journal of the American statistical Association,2001,96(9).
[5]He X,Zhu Z,Fang W.Estimation in a Semiparametric Model for LongitudinalDataWithUnspecifiedDependenceStructure[J]. Biometrika, 2002,89(3).
[6]封維波,劉瓊蓀.半參數模型中兩步估計與最小二乘估計的比較[J].統計與決策,2008,(4).
(責任編輯/易永生)
O212.7
A
1002-6487(2016)22-0012-03
國家自然科學基金資助項目(31270596)
曹連英(1976—),女,黑龍江人,博士,副教授,研究方向:參數統計及數學模型。