朱 寧,嚴冠東
(桂林電子科技大學 數學與計算科學學院,廣西 桂林 541004)
考慮一般線性模型:



Allen(1971)[6]提出 PRESS 統計量,用來度量模型擬合的好壞。
定義1:在Stein嶺型主成分估計下,把 PRESS=


AP統計量是由Andrew,D.F.和Pregibon,D.[9]提出的,在協方差比的基礎上進一步考慮(yi,xi′)對 σ^2的影響。Drape和John[9]對AP統計量進行分解,提出探測強影響點的統計量新形式。



Cook統計量是Cook(1977)[10]提出Cook統計量作為度量第i個數據點 (yi,xi′)影響大小的數量指標。
引理4:廣義Cook統計量為

本案例的數據來自文獻[1],這組數據存在較為嚴重的共線性,為了避免其共線性對估計量帶來較大誤差,我們在這定義Stein嶺型主成分估計是必要的。我們主要考慮數據刪除模型的擬合好壞程度。如果線性模型擬合較好,則去掉一、二個數據點后得到相應數據刪除模型參數的估計量應該不會有顯著的影響;如果有顯著的影響,則說明數據集中有異常點或強影響點。計算影響度量統計量結果如下表:
從上表結果,我可以看出:



表1 凈化煤數據


Stein嶺型主成分估計下數據刪除模型與最小二乘估計下線性模型的估計量存在關系,可以通過表達式互相表示。
通過上面的討論,得出結論:第九號數據是強影響點,由表中的度量數據的影響方面總體效果具有一致性,都可以用來分析強影響點,因此這四個統計量對診斷數據是否為強影響點是具有統計意義的。
[1]韋博成.統計診斷引論[M].南京:東南大學出版社,1991.
[2]林路.數據刪除模型和均值漂移模型對嶺估計的影響[J].邵陽師專學報,1994,(2).
[3]錢峰,石麗娟.數據刪除模型對于廣義嶺估計的影響[J].南通大學學報,2008,7(1).
[4]朱寧,黃黎平.嶺型主成分估計下數據刪除模型的強影響分析[J].統計與決策,2012,(15).
[5]朱寧,李建軍,李兵.一種有偏嶺-壓縮組合估計的新形式[A].曾玲,劉克.第八屆中國青年運籌信息管理學者大會論文集[C]桂林:桂林電子科技大學,2006.
[6]Allen D M.Mean Square Error of Prediction As A Criterion for Selecting Variables[J].Technometrics,1971,(13).
[7]張堯庭,方開泰.多元統計分析引論[M].北京:科學出版社,1982.
[8]Andrews D F,Pregibon D.Finding The Outliers That Matter[J].J.Roy.Statist.Soc.B,1978(40).
[9]Draper N R,John J A.Influence Observations and Outliers in Regression[J].Technometrics,1981,23(1).
[10]Cook R D.Detection of Influential Observations in Linear Regression[J].Technometrics,1977(19).