姜佃高,張娟娟,葛永慧
(太原理工大學 測繪科學與技術系,太原 030024)
多元線性回歸作為處理變量之間相關關系的數學方法,通常用最小二乘法(LS)求解回歸方程的回歸系數[1-3]。然而,在數據采集過程中往往混有粗差,LS易受粗差影響,使參數估值失真[4-6]。而建立在穩健估計基礎上的穩健回歸方法,具有良好的抵抗粗差干擾的能力[7,8]。王曉軍等[9]將多元穩健線性回歸方法引入到烈度衰減橢圓模型中,統計計算得到了研究區的烈度衰減關系。陳曉等[10]運用穩健回歸方法優化Munich鏈梯法,更準確地提取了未決賠款準備金。張耀平等[11]提出了巖石抗剪強度計算的穩健回歸模型,提高了估計參數的可靠性。
然而,不同穩健估計方法的穩健性不同。那么,對于多元線性回歸哪些是相對更為有效的穩健估計方法呢?本文采用仿真實驗的方法,以二元至四元線性回歸為例,討論了13種常用穩健估計方法在不同觀測值數量、粗差數量和粗差數值情況下的穩健性,確定了多元線性回歸相對更為有效的穩健估計方法。
(1)Huber法:
(11)IGG方案:

定義:觀測值的真誤差與觀測值的殘差之差為殘余真誤差,用 f表示。

式中,fk是殘余真誤差,Δk是觀測值Yk的真誤差,vk是通過參數估計方法得到的觀測值Yk的殘差。Δk=-Yk,vk=-Yk,其中是觀測值Yk的真值,是觀測值Yk的估值,n是觀測值的數量。
兩種參數估計方法比較的絕對指標—殘余真誤差均方誤差(MSRTE):

兩種參數估計方法比較的相對指標—相對增益(RG):

設:i=1,2,…,S;S表示仿真實驗的次(組)數。j=1,2,…,n ;n 表示觀測值的數量。表示觀測值的真值。δij表示服從正態分布N(0,的隨機誤差,由隨機誤差模擬函數生成。g表示觀測值中包含粗差的數量。θij表示隨機誤差 δij是否被粗差 ε所取代,每一組θij(j=1,2,…,n)的值由g個1和n-g個0構成,由隨機函數生成。對于其中的每一組隨機誤差 δij(j=1,2,…,n),當θij=1時,隨機誤差 δij用粗差 ε代替,生成S組同時包含g個粗差的隨機誤差Δij:


對于S組模擬觀測值中的每一組,用參數估計方法計算觀測值殘差vij,進而計算殘余真誤差均方誤差。用S組殘余真誤差均方誤差的平均值作為該參數估計方法在觀測值中同時包含g個粗差ε時的殘余真誤差均方誤差。同樣的方法計算不同參數估計方法的殘余真誤差均方誤差,然后計算每一種穩健估計方法相對于LS法的相對增益。
1.4.1 二元線性回歸
蒸發量y與溫度x1和相對濕度x2的關系滿足下面的二元線性回歸方程:

1.4.2 三元線性回歸
產值 y與氮投入x1,磷投入x2和鉀投入x3的關系滿足下面的三元線性回歸方程:

1.4.3 四元線性回歸
軸承整徑力參數y與變形程度x1,摩擦系數x2,變形溫度x3,套圈重量x4的關系滿足下面的四元線性回歸方程:

本例說明了不同穩健估計方法的穩健性是不同的。在本文的仿真實驗中,用于計算相對增益的殘余真誤差均方誤差是1000次仿真實驗的平均值。

表1 三元線性回歸模擬觀測值和計算結果
圖1為二元線性回歸在n=6且g=1,n=7且g=1,n=8且g=1-2,n=9且g=1-2,n=10且g=1-2,n=11且g=1-2和n=12且g=1-3時,13種穩健估計方法的平均相對增益。
由圖1可知,L1法和German-McClure法比其他穩健估計方法更能有效地消除或減弱粗差的影響。當ε=5.0 σ0時,L1法和German-McClure法的平均相對增益均為24%,而其他穩健估計方法的平均相對增益均小于或等于16%。當ε=10.0σ0時,L1法和German-McClure法的平均相對增益分別為51%和52%,而其他穩健估計方法的平均相對增益均小于或等于39%。

圖1 不同穩健估計方法相對于LS法的平均相對增益(二元線性回歸)
圖2為三元線性回歸在n=9且g=1,n=10且g=1-2,n=11且g=1-2,n=12且g=1-3和n=13且g=1-3時,13種穩健估計方法的平均相對增益。
由圖2可知,L1法和German-McClure法比其他穩健估計方法更能有效地消除或減弱粗差的影響。當ε=5.0 σ0時,L1法和German-McClure法的平均相對增益分別為20%和19%,而其他穩健估計方法的平均相對增益均小于或等于15%。當ε=10.0σ0時,L1法和German-McClure法的平均相對增益均為47%,而其他穩健估計方法的平均相對增益均小于或等于43%。

圖2 不同穩健估計方法相對于LS法的平均相對增益(三元線性回歸)
圖3為四元線性回歸在n=9且g=1,n=10且g=1-2,n=11且g=1-2,n=12且g=1-3,n=13且g=1-3和n=14且g=1-3時,13種穩健估計方法的平均相對增益。
由圖3可知,L1法和German-McClure法比其他穩健估計方法更能有效地消除或減弱粗差的影響。當ε=5.0 σ0時,L1法和German-McClure法的平均相對增益分別為18%和17%,而其他穩健估計方法的平均相對增益均小于或等于12%。當ε=10.0σ0時,L1法和German-McClure法的平均相對增益均為47%,而其他穩健估計方法的平均相對增益均小于或等于36%。

圖3 不同穩健估計方法相對于LS法的平均相對增益(四元線性回歸)
本文采用仿真實驗(1000次)的方法,以含有不同觀測值數量、粗差數量和不同粗差數值的二元至四元線性回歸為例,對13種常用穩健估計方法的穩健性進行了比較。
仿真實驗結果表明,L1法和German-McClure法是多元線性回歸相對更為有效的穩健估計方法。它們能更有效地消除或減弱粗差對回歸系數估值的影響。
[1]茆詩松,程依明,濮曉龍.概率論與數理統計教程[M].北京:高等教育出版社,2011.
[2]何曉群.現代統計分析方法與應用[M].北京:中國人民大學出版社,1999.
[3]王振友,陳莉娥.多元線性回歸統計預測模型的應用[J].統計與決策,2008,(5).
[4]王素立,劉永.基于波動相關性及主分量變換的多元線性回歸模型研究[J].統計與決策,2012,(22).
[5]高山,李孝軍.關于最小二乘法的穩健性分析[J].統計與決策,2006,(8).
[6]何霞,劉衛鋒.基于全最小一乘準則的灰色GM(1,1)模型參數估計[J].統計與決策,2006,(8).
[7]吳健平,張立.地理數據線性回歸中的穩健估計方法[J].干旱區地理,1994,17(1).
[8]馮守平,石澤,鄒瑾.一元線性回歸模型中參數估計的幾種方法比較[J].統計與決策,2008,(24).
[9]王曉軍,文毅.陜西分區烈度衰減關系研究[J].災害學,2012,27(4).
[10]陳曉,張連增.未決賠款準備金估計的Munich鏈梯法及其優化[J].統計與決策,2010,(2).
[11]張耀平,曹平,董隴軍.巖石抗剪強度計算的穩健回歸模型及其應用[J].科技導報,2010,28(7).
[12]Jia N.N,Ge Y.H.Remainder Reliability and Robust Estimation:A Case Study Using Twelve Simulated Leveling Networks[C].Zhang J.Information Technology Applications in Industry.Switzerland:Trans Tech Publications,2013.