朱 寧,黃黎平
(桂林電子科技大學數學與計算科學學院,廣西桂林541004)
考慮一般線性模型:

其中Y為n×1觀測向量,X為n×p列滿秩設計陣,β為p×1未知參數向量,ε為n×1隨機誤差,I為n階單位矩陣。在一切線性模型的無偏估計中,最小二乘估計[2~7]具有最小方差但這并不代表在整個線性估計類中是最好的估計。當設計矩陣X含有多重共線性或近似的多重共線性時,X′X接近奇異,它的某些特征根非常接近于0,于是總存在 r<p,使得 X′X的特征根有 λ1≥…≥λr≥1≥λr+1…≥λp>0此時最小二乘估計就變得很差,于是人們就提出了一系列的有偏估計(以下均作這樣的假設)1984年M.R.Baye和D.F.Parker結合主成分估計[8]和嶺型估計[9],提出了嶺型主成分估計估計,文獻[4-6]討論了嶺型主成分估計的部分優良性,文獻[1]討論了嶺型主成分估計在數據刪除模型下的影響函數,本文在以上的基礎上首先考慮嶺型主成分估計下數據刪除模型的強影響問題作了進一步的研究,證明了嶺型主成分估計下和最小二乘估計下相關統計量的關系并獲得了一系列的結論,其次利用W-K統計量的思想提出了兩種度量,并通過實例驗證了這兩種度量方法的有效性。
引理1[1]在模型(1)下提出了未知參數β的嶺型主成分估計,即在主成分的基礎上再進行嶺估計叫做嶺型主成分估計,記作:

其中:

在處理實際問題時,我們主要考慮數據與模型的擬合程度,如果數據與模型擬合較好,則去掉一、二個點后參數的估計量不應有太大的改變,如果有太大的改變則說明數據其中有異常點或強影響點。下面在嶺型主成分估計下研究數據刪除模型下的前后估計量之間的關系。
引理2[1]在刪除一組數據的模型下,由嶺型主成分估計,則有:


證明:

所以:得證。


證明 由帽子矩陣的定義知:


證明由引理2[1]可得:
推論1在嶺型主成分估計下,則:

由以上討論可知,當統計量RRESS*較小時,模型在總體上擬合的比較好,因此它在回歸變量的選擇方面也有重要的作用。
推論2在嶺型主成分估計下,對于刪除一組數據(yi,xi′)的模型,則有:

證明:

對于無偏估計下的影響度量已有了廣泛的研究,例如:COOK距離,W-K統計量,A-P統計量等。當設計矩陣是病態時,有偏估計的度量方法更加實用。
運用W-K統計量思想,我們用全部n組數據在第i個數據點處的預測值與剔除第i組數據后其余(n-1)組數據得到的第i個數據點處的預測值之間的差來度量第i組數據對回歸模型的影響。
定義1

定義2

推論3基于嶺型組合主成分估計下,數據刪除模型的影響統計量的和分別為:

證明:由引理2[1]可直接推出:得證。

本實例的具體數據引自文[1],這組數據存在著共線性,為了避免共線性對估計量帶來的不準確性,因此這里引入嶺型主成分估計是很必要的。分別取K=0.01,K= 0.03,K=0.1,K=0.3計算上述兩個影響度量結果如表1:

表1 影響統計量
結果分析:通過實例可以看出,第9號點的Wi和Mi相對于其他點來說都是最大的,這一結果與文[1]的結果相符合,而有推論3可知,第9號點在其意義下都可能是強影響點。由表1可知Wi和Mi在度量數據的影響方面總體效果相差不大,都可以用來判定強影響點,所以這兩個度量方法對于診斷數據點是否為強影響點是有統計意義的。
[1]徐海霞,楊虎.基于嶺型組合主成分估計的影響函數[J].數理統計與管理,2005,(24).
[2]楊蓮,楊虎.橢球約束下線性模型的強影響分析[J].工程數學學報, 2007,(24).
[3]王松桂.線性回歸診斷[J].數理統計與管理,1985,(6),1986,(1).
[4]李兵,陳國華,段復建.嶺型主成分估計的優良性質[J].桂林電子科技大學學報,2009,(2).
[5]楊婷,楊虎.橢球約束與廣義嶺型估計[J].應用概率統計,2003,(3).
[6]隋立芬.嶺型組合主成分估計及誤差影響[J].解放軍測繪學院學報, 1997,(14).
[7]韋博成.統計診斷引論[M].南京:東南大學出版社,1990.
[8]Bayemr,Fparker D.Combining Nidge and Principal Component Egression[J].Common Statist Theory Math,1984,13(1).
[9]Alesandro Bortuzzi,Aebarto Gandocfi Ridge Regression Versus OLS by Pitman’s Closeness under Puadratic and Fisher’s Loss[J].Com?man Statist-Theory Math,1991,20(11).