周蘭萍,夏海峰
(1.江蘇省揚州中學教育集團樹人學校,江蘇 揚州 225000;2.江蘇省揚州市邗江區公道中學,江蘇 揚州 225119)
本文考慮如下線性回歸模型
y=Xβ+e,E(e)=0,Cov(e)=σ2In
(1)
其中y是n×1的觀測向量,X為n×p的已知設計矩陣,β為n×p未知參數向量,e為隨機誤差向量。并假設
Aβ=b
(2)
是一個相容線性方程組,其中A為k×p的已知矩陣,且秩為k,b為k×1維已知向量.
由于線性回歸模型(1)是統計學中最重要的模型之一,所以眾多的學者對其進行大量而深入的研究(如文獻[1~4]) 。影響分析(即探查對估計或預測有異常大影響的數據)是回歸診斷的重要內容,盡管可以使用很多種統計量來進行影響分析,但我們常常采用Cook統計量進行度量(參見文獻[5-8])。本文仍采用Cook統計量對約束線性回歸模型進行影響分析。
用Y(i),X(i),e(i)分別表示從Y,X,e剔除第i行所得的向量或矩陣。從線性回歸模型(1)剔除第i組數據后,剩余的n-1組數據的線性回歸模型為
Y(i)=X(i)β+e(i),Ee(i)=0,Cov(e(i))=σ2In-1
(3)
我們知道,模型(1)在約束條件(2)下的最小二乘估計為
(4)
下面用Lagrange乘子法可以求模型(3)滿足線性約束(2)的最小二乘估計。記
(5)
則線性約束(2)可以改寫為
(6)
問題轉化為在(6)的k個條件下,求β使Q(β)=‖y(i)-X(i)β‖2達到最小值。為此構造輔助函數

‖y(i)-X(i)β‖2+2λ′(Aβ-b)=
(y(i)-X(i)β)′(y(i)-X(i)β)+2λ′(Aβ-b)
其中λ=(λ1,…,λk)′為Langrange乘子。對函數F(β,λ)求對β0,β1,…,βp-1的偏導數,整理并令它們等于零,得到
(7)
聯立(7)式和線性約束(2)式,得到λ的估計和約束最小二乘估計分別為
(8)
(9)

(10)


證明 注意到(參見文獻[9])
(11)
可以得到


(12)
其中
由(4)(9)(12)式得
(13)
其中
(14)

(15)
又容易得到(參見文獻[9])
(16)
由(10)(15)(16)式即可得到定理1.至此定理證明完畢。

注2.定理1在形式上與基于其它估計的Cook距離相同(如:文獻[9]基于最小二乘估計,文獻[10]基于穩健估計等),因而在一定程度上說明了我們的結論是合理的。
注3. 定理1是采用Cook距離進行數據的影響分析,還可以用其它距離,如:Welsch-Kuh距離、Hadi測度、Pena距離、似然距離等[10~12]等)。

某科學基金會的管理人員欲了解從事研究工作的中、高水平的數學家的年工資額Y與他們的研究成果的質量指標X1、從事研究工作的時間X2以及能成功獲得資助的指標X3之間的關系。為此按一定的設計方案調查了24位數學家,得到數據如表1所示。
經計算和檢驗,我們可以得到如下合理的回歸方程為
另外,通過檢驗可以認為X1與X3的系數相等,因此我們可以將本例改為:求在條件β1=β3下的回歸方程。此時得到如下回歸方程:
經計算,精確和近似Cook距離均表明沒有強影響數據。為了說明我們方法的有效性,將19號數學家的年工資額從38.0改為138.0,得到精確Cook距離為D19=1.05564和近似Cook距離為D19≈1.05045,二者相差較小,均遠遠大于其它點,二者均說明19號數據是強影響點,進而說明本文方法的有效性。

表1 24位數學家的數據
參考文獻:
[1]Guil GR, Engela B, Norberto C, et al.Least squares estimation of linear regression models for convex compact random sets[J].Advances in Data Analysis and Classification,2007, 1: 67~81.
[2]Hampel F R, Ronchetti E M, Rousseeuw P J, et al.Robust Statistics[M].New York:John Wiley & Sons, 1986.
[3]Li Y, Yang H.A new stochastic mixed ridge estimator in linear regression model[J].Statistical papers,2010, 51(2):315~323.
[4]Sakallioglu S, Kaciranlar S.A new biased esimator based on ridge estimation[J].Statistical Papers, 2008, 49: 669~689.
[5]Cook R D.Detection of influential observations in linear regression[J].Technometrics, 1977, 19:15~18.
[6]Vens M, Ziegler A.Generalized estimating equations and regression diagnostics for longitudinal controlled clinical trials: A case study[J].Computational Statistics and Data Analysis, 2012, 56(5):1232~1242.
[7]Venezuela M K, Sandoval M C, Botter D A.Local influence in estimating equations[J].Computational Statistics and Data Analysis, 2011, 55: 1867~1883.
[8]Diaz-Garcia JA, Gonzalez-Farias G.A note on the Cook's distance[J].Journal of Statistical Planning and Inference, 2004, 120:119~136.
[9]王松桂,陳 敏,陳立萍.線性統計模型:線性回歸與方差分析[M].北京:高等教育出版社,1999.
[10]Türkan S, Cetin MC, Toktamis O.Outlier detection by regression diagnostics based on robust parameter estimates[J].Hacettepe Journal of Mathematics and Statistics, 2012,41(1):147~155.
[11]Belsley D A, Kuh E, Welsch R E.Regression Diagnostics: Identifying Influential Data and Sources of Collinearity[M].New York: John Wiley & Sons, 1980.
[12]孟麗麗,盧志義.基于Pena距離的加權最小二乘估計的影響分析[J].數理統計與管理,2009,28(2):252~257.