吳 燕,何道江
(安徽師范大學 統計系,安徽 蕪湖241003)
考慮線性回歸模型:

其中:Y為n維可觀測隨機向量;X為n×p階設計矩陣,且rank(X)=p;β為p×1維參數向量;ε為n維隨機誤差向量;σ2>0是未知參數.
對于模型(1),β的最小二乘估計(LSE)為

LSE是無偏估計,其在很長一段時間內被認為是最好的估計.但當模型出現復共線性時,LSE的表現較差,有較大的均方誤差.為了克服這一缺點,研究者們放棄了無偏性,提出了一些有偏估計.如Hoerl等[1]提出了嶺估計(RE):

其中k>0是可選參數,稱為嶺參數.嶺估計的本質是在設計陣的計算中引入一個偏參數k,通過合理取k值減少由復共線性帶來的誤差.之后,Hoerl等[2]又提出了嶺估計的一種推廣形式,稱為廣義嶺估計(GRE):

其中:K=diag(k1,k2,…,kp),ki>0(i=1,2,…,p)為參數;Q=(φ1,φ2,…,φp)為標準正交陣,而φ1,φ2,…,φp為X′X 的標準正交化特征向量,即Q′X′XQ=diag(λ1,λ2,…,λp),λ1≥λ2≥…≥λp>0為X′X的特征值.嶺估計和廣義嶺估計都是嶺參數的一個復雜函數,因此如何選擇合理的嶺參數是一個困難問題.
文獻[3]提出了一種均勻壓縮估計即Stein估計,表示為

其中s>1稱為壓縮參數.Stein估計是最簡單的一種有偏估計.
Swindel[4]基于參數向量β的先驗信息,提出了改進的嶺估計(MRE):

其中:η0是一個給定的非隨機向量,其選擇依賴于β的先驗信息;k>0是嶺參數.
許瑩等[5]針對混合系數線性模型提出了一類新估計,稱為s-K 估計.對于模型(1),相應的估計為

其中:K=diag(k1,k2,…,kp),ki≥0(i=1,2,…,p)為可選參數;s≥1為壓縮參數.
本文在文獻[4-5]的基礎上,基于參數向量β的先驗信息提出一類新的s-K 估計,稱為改進s-K 估計.
若令

定義1 對于模型(1),β改進s-K 估計定義為

其中:s和K意義同式(7);η0是β的先驗信息.
注1 改進s-K 估計實際上是最小二乘估計與先驗信息η0的一個“凸組合”.



記Z=XQ,α=Q′β,則模型(1)可改寫成:

其中Z′Z =Q′X′XQ =Λ∶=diag(λ1,λ2,…,λp).模型(11)稱為模型(1)的典則形式.
對于典則形式(11),α相應的估計為

這里η=Q′η0.

由于


下面在均方誤差陣的準則下,研究改進s-K 估計相對于最小二乘估計、廣義嶺估計、Stein估計、改進的嶺估計及s-K 估計的優良性.
引理2[7]設M 為p階正定陣,γ是p維列向量,則M-γγ′>0當且僅當γ′M-1γ<1.


于是

從而

進而可得:
定理2 設s>1,則改進s-K 估計的均方誤差陣小于廣義嶺估計均方誤差陣的充要條件是b′1(σ2D2+b2b′2)-1b1<1.


定理3 設ki>0(i=1,2,…,p),則改進s-K 估計的均方誤差陣小于Stein估計均方誤差陣的充要條件是b′1[σ2D3+b3b′3]-1b1<1.

于是

從而

定理4 設ki>(1-s)λi+k(i=1,2,…,p),則改進s-K 估計的均方誤差陣小于改進嶺估計均方誤差陣的充要條件是b′1[σ2D4+b4b′4]-1b1<1.


從而

由此可得:
定理5 設s>1,則改進s-K 估計的均方誤差陣小于s-K 估計均方誤差陣的充要條件是αα′-(α-η)(α-η)′>0.
為進一步考察所提估計類的均方誤差,下面進行Monte Carlo數值模擬.模擬中,設計矩陣X=(xij)n×p和響應變量y=(y1,y2,…,yn)′分別由下式給出:

其中:ωij(i=1,2,…,n;j=1,2,…,p+1)由獨立的標準正態隨機數產生;γ為給定的數,γ越大,表明解釋變量間的相關性越強,從而模型的復共線性越強.取σ=1,p=3,n=100,β的真實值取為X′X最小特征值所對應的特征向量[8].與文獻[9]相同,取先驗信息η=0.95β.實驗的重復次數為N=10 000,對于β=(β1,β2,β3)′的估計,均方誤差按下式計算:

最小二乘估計(LSE)、嶺估計(RE)、Stein估計(Stein)、改進的嶺估計(MRE)、s-K 估計(s-K)以及本文提出的改進s-K估計的均方誤差數值模擬結果分別列于表1~表6.它們分別對應于σ=1,2及γ=0.9,0.99,0.999的6種情況.
對應于γ=0.9,0.99,0.999,X′X 的條件數Cond(X′X)分別為9.868 7,93.785 5,941.244 6.根據文獻[6]知,若Cond(X′X)<100,則復共線性很小;若100<Cond(X′X)<1 000,則存在中等程度的復共線性;若Cond(X′X)>1 000,則存在嚴重的復共線性.可見,模擬中設定模型的復共線性不很嚴重.

表1 σ=1,γ=0.9時各估計的均方誤差Table 1 Simulated MSEs of estimators whenσ=1,γ=0.9

表2 σ=1,γ=0.99時各估計的均方誤差Table 2 Simulated MSEs of estimators whenσ=1,γ=0.99

表3 σ=1,γ=0.999時各估計的均方誤差Table 3 Simulated MSEs of estimators whenσ=1,γ=0.999

表4 σ=2,γ=0.9時各估計的均方誤差Table 4 Simulated MSEs of estimators whenσ=2,γ=0.9

表5 σ=2,γ=0.99時各估計的均方誤差Table 5 Simulated MSEs of estimators whenσ=2,γ=0.99

表6 σ=2,γ=0.999時各估計的均方誤差Table 6 Simulated MSEs of estimators whenσ=2,γ=0.999
由表1~表6可見,改進s-K估計性能最好,除s=1或K=0的平凡場合外,其均方誤差都小于最小二乘估計、嶺估計、Stein估計、改進的嶺估計以及s-K估計.
[1]Hoerl A E,Kennard R W.Ridge Regression:Biased Estimation for Nonorthogonal Problems [J].Technometrics,1970,12(1):55-67.
[2]Hoerl A E,Kennard R W.Ridge Regression:Application to Nonorthogonal Problems[J].Technometrics,1970,12(1):69-82.
[3]Stein C.Inadmissibility of the Usual Estimator for Mean of Multivariate Normal Distribution [C]//Proc Third Berkeley Symp Math Statist Probab.Oakland:University of Calif Press,1956:197-206.
[4]Swindel B F.Good Ridge Estimators Based on Prior Information[J].Communications in Statistics:Theory and Methods,1976,5(11):1065-1075.
[5]XU Ying,HE Dao-jiang.A New Class of Estimators for Coefficients in Mixed Effect Linear Model[J].Acta Mathematica Scientia,2013,33A(4):702-708.(許瑩,何道江.混合系數線性模型參數的一類新估計 [J].數學物理學報,2013,33A(4):702-708.)
[6]王松桂,史建紅,尹素菊,等.線性模型引論 [M].北京:科學出版社,2004.
[7]Farebrother R W.Further Results on the Mean Square Error of Ridge Regression[J].J R Stat Soc B,1976,38(3):248-250.
[8]LIU Ke-jian.Using Liu-Type Estimator to Combat Collinearity[J].Communications in Statistics:Theory and Methods,2003,32(5):1009-1020.
[9]LI Ya-lian,YANG Hu.A New Liu-Type Estimator in Lingear Regression Model[J].Statistical Papers,2012,53(2):427-437.