基于穩健估計方法的線性回歸研究

2021-06-15 09:28:36王帥帥徐凱孟凡芳

科技創新導報 2021年1期

王帥帥徐凱孟凡芳

摘? 要：基于最小二乘方法的線性回歸估計方法，是通過最小化誤差平方和尋找參數向量最優解，該方法對大的誤差點不具穩健性。本文主要針對具有異常點的穩健估計方法，研究在背景噪聲下的穩健估計性能，并通過數值仿真證明近似高斯分布，如高斯混合噪聲模型下，單調型穩健M估計方法較好;在具有無窮方差的柯西背景噪聲下，回降型M估計性能最優。理論和仿真實驗均可得到穩健回歸方法比最小二乘方法具有更好的穩健性。

關鍵詞：線性回歸? 最小二乘法? 穩健估計? M估計? 穩健性

中圖分類號：O212.1? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A? ? ? ? ? ? ? ? ? 文章編號：1674-098X（2021）01（a）-0072-06

Abstract： Based on the least squares estimation method of linear regression aims to find the optimal solution of the parameters by minimizing the sum of squared errors， which is not robust to large error points. Here， we focus on the robust estimation with outliers， investigating the performance of the robust estimation under various background noise. We prove that the monotone M-estimator shows a better performance under Gaussian mixed noise and the redescending M-estimator has a better efficiency under Cauchy noise with infinite variance. Both theory and simulation experiments show that the robust regression method has better robustness than the least square method.

Key Words：Linear regression; Least squares method; Robust estimation; M-estimation; Robustness

線性回歸模型是在實際工程建模中應用十分廣泛的一類模型，例如無線通信、超聲波系統、計算機識別、電力系統、生物醫學信號分析等領域[1-3]。常用的估計回歸系數的方法是最小二乘法（OLS）[4]。最小二乘估計最大的優點是對輸入數據沒有任何概率假設，要求偏差平方和最小。當數據服從高斯分布時，最小二乘估計是最優的估計。然而當數據中存在野值（又稱異常值）時，這種估計方法的估計性能變差，因此最小二乘法是不穩健的。而真實觀測數據中，異常數據是難以避免的。因此，研究線性模型的穩健估計方法很有必要，也具有實際意義[3]。

最小二乘估計與穩健估計方法的區別是，最小二乘估計賦予樣本殘差相同的權重，而穩健的估計方法的思想是賦予樣本殘差不同權重，殘差大的樣本賦予小的權重，殘差小的樣本賦予大的權重。相對于最優的估計方法，穩健估計損失了一定的效率，達到了很好的穩健性。本文通過分析在不同的背景誤差噪聲下，如高斯誤差噪聲，高斯混合噪聲以及具有無窮方差的柯西噪聲，穩健估計的性能與最小二乘回歸的性能比較，并通過仿真模擬，證明在不同類型的背景噪聲下，穩健估計回歸方法比最小二乘方法具有更好的穩健性，在實際中能夠得到更廣泛的應用[3，5-8]。

1? 線性回歸模型

考慮線性回歸模型

用矢量或者矩陣表示公式（1）為

求解回歸系數的經典方法最小二乘法的思想是：使觀測值yi與其擬合值之差的平方和最小，定義殘差，也就是使得殘差的平方和最小，即

當觀測數據服從相互獨立同分布的高斯分布時，最小二乘方法是一種最優的估計方法。從公式（5）可以看出，最小二乘估計是將所有的樣本點賦予相同的權重，但是當觀測數據中含異常值時，該方法的估計結果受異常值的影響大，而實際觀測數據中有可能異常值是不可避免的，因此最小二乘估計穩健性差。常用的方法是異常值識別并剔除，但并沒有一個客觀的標準確定哪些是異常值，易受主觀因素影響。另一種常用的策略是采用穩健的回歸方法。穩健回歸方法通過對不同的樣本數據賦予不同的權重來減小異常值對回歸帶來的影響。加權最小二乘估計是一種比最小二乘估計穩健性強的估計方法，其原理是給每一個樣本點賦予不同的權重，偏差較大的樣本點給予小的權重，偏差小的樣本點給予大的權重，而常用的一種穩健回歸估計方法為M估計穩健回歸，其基本思想是采用迭代加權最小二乘估計回歸系數。本文以穩健M回歸估計方法為基礎，分析不同背景噪聲下的穩健M估計的性能。

2? 穩健回歸分析

M估計穩健回歸是對如下目標函數進行優化

其中W=diag（W1，W2，…，Wn）是n×n的對角陣。穩健M估計的方法是合理的，對于大的標準化殘差ui，應該給予小的權重Wi，權重Wi與評價函數ψ的形狀有關。對于背景噪聲方差隨時間變化時，加權矩陣取W=C-1=diag是合適的。因為越大，可信度越低，給的權重則應小。

穩健估計量不像最小二乘估計量有明確的表達式，通常采用迭代加權方法得到最終的估計量，具體的步驟：

（1）選取迭代初始估計值為L1估計量;

（2）對k=0，1，2，…，計算求得標準化殘差和權重;

（3）利用公式（12）計算（k+1）;

（4）當時，停止迭代。

3? 數值模擬

3.1 考慮一個直線回歸模型

其中xi和yi分別是預測變量與響應變量，ei為隨機誤差。

令θ0=10，θ1=-2，隨機誤差ei為標準高斯分布隨機數，樣本容量n=10，樣本中含有兩個異常點。我們分別采用最小二乘估計方法與穩健回歸估計方法，得到的關于θ0和θ1的一次的估計值為表1所示。

通過作圖，可以看出采用穩健回歸的方法，擬合得到的直線更接近真實的直線，如圖1所示。

3.2 不同背景噪聲下的穩健回歸特性

考慮公式（15）中的線性回歸模型，真實直線的參數設置為θ0=0，θ1=-2，研究在高斯混合噪聲以及厚尾柯西噪聲下穩健M估計的性能。

在高斯混合噪聲背景下，其概率密度函數為

其中。這里我們采用雙高斯混合模型

采用最小二乘估計方法，得到估計量和的估值分別為9.97和-1.99，對應的估計量的方差分別為2.34和0.07。在混合高斯噪聲下，采用最小二乘方法，得到了較好的估計性能;相同的條件下，采用參數k=0.8的huber估計量，可以得到的和的估值分別為9.99和-2.00，對應方差分別為2.21和0.06，可以看出穩健的huber估計方法的估計性能比最小二乘方法略微好一點，但相差不大。而此背景噪聲下，公式（11）中回降型的bisquare估計量反而沒能有較好的性能，其性能比最小二乘及huber估計量的性能略微差。

假設背景噪聲是具有厚尾分布的柯西噪聲，其概率密度函數為

在此背景噪聲下，我們分別采用公式（5）中的最小二乘估計方法，得到的估計量和的估值分別為7.18和-1.90，對應的估計量的方差分別為1.22×104和8.02×102，可見通過最小二乘方法得到的估計量的方差很大，性能較差;采用公式（11）的bisquare估計方法，計算得到不同估計參數k下，估計量和的方差在表2及圖2中展示。由表2可以看出，對一定范圍的估計量參數k，得到的估計性能均優于最小二乘方法的估計性能。由圖2可以看出，當參數k選擇一個特定的非零值，會使得估計量的方差達到最優，因此，可以通過調節參數k，尋求最優的估計量。

取使得估計量具有較小方差時對應的k=2.5，得到bisquare估計方法得到的和的估值分別為10.00和-2.00，做出bisquare估計方法擬合的直線與最小二乘方法擬合的直線的圖形，如圖3所示。從圖3中可以明顯看出，最小二乘方法擬合得到的直線偏離真實直線遠，而通過bisquare方法得到的直線幾乎和真實直線重合。

4? 結語

本文基于穩健M回歸估計方法，在高斯混合噪聲模型及柯西噪聲模型下，研究穩健估計方法的性能。對于高斯混合模型，穩健huber估計方法能夠具有較好的估計性能，對于具有無窮方差的厚尾柯西噪聲，采用回降型的bisquare估計方法得到的估計性能較好，無論采用何種方法，通過調節穩健估計量的參數，穩健回歸估計方法都優于最小二乘法。

參考文獻

[1] 畢瑞鋒，張發玲.加權最小二乘法線性回歸模型參數的理論推導與計算實例[J].計量與測試技術，2016，43（2）：67-68.

[2] 谷恒明，胡良平.簡單線性回歸分析及其應用[J].四川精神衛生， 2017（6）：494-497.

[3] Zoubir A M， Koivunen V， Chakhchoukh Y， et al. Robust estimation in signal processing： A tutorial-style treatment of fundamental concepts[J]. IEEE Signal Processing Magazine，2012，29（4）：61-80.

[4] 陳雨彤.基于最小二乘法的線性回歸方程推導與應用分析[J].中國新通信，2018，20（24）：206-208.

[5] 呂晶.幾類半參數回歸模型的穩健估計與變量選擇[D].重慶：重慶大學，2015.

[6] 傅可昂，丁麗，李君巧.重尾非線性自回歸模型自加權M-估計的漸近分布[J].數學物理學報，2020，40（2）：475-483.

[7] 姜佃高，張娟娟，葛永慧.穩健估計方法在多元線性回歸中的有效性研究[J].統計與決策，2014（18）：77-80.

[8] 劉曉芮，王清，陳植華，胡成.基于穩健回歸-去趨勢波動分析法的山前平原地下水轉換關系研究[J].安全與環境工程，2019，26（5）：17-24.

科技創新導報2021年1期

科技創新導報的其它文章: 省級政府數字化轉型研究與實踐; 融媒體時期電視節目編輯創新的具體路徑; 學校組織變革對學校教師認同影響之研究; 以應用能力為導向的《計算機多媒體技術》課程教學改革探索; 《工程制圖》課程線上線下混合式教學模式探索; 雙創視域下創新實踐課程設計與實施策略研究