摘要:利用波士頓房價數據,通過比較lm、lmrob、LMS和tau四種方法,重點是對經典估計方法和三種穩健估計方法進行分析,研究四種方法的差異及優劣,探討在統計模型中,當實際觀測數據偏離假設,在異常值不可避免的情況下,究竟是選擇建立在某種理想分布基礎上的經典估計理論模型,還是選擇建立在符合數據實際分布基礎上的穩健估計方法。
關鍵詞:穩健估計;最小二乘法;M估計;MM估計;LMS估計
中圖分類號:F222.1文獻標識碼:A文章編號:1008-4428(2019)03-0040-04
一、 引言
(一)研究目的
線性回歸模型(Linear regression model)是統計中用來確定變量間相互依賴關系的基本模型,應用十分廣泛。求解線性回歸模型的經典方法是最小二乘法OLS(Ordinary Least sum of Squares),而最小二乘法的幾個基礎假設條件,其中之一為:隨機變量服從正態分布。當觀測數據不滿足這些條件時,比如含有異常值(Outliers),估計結果會有很大偏差,甚至得出錯誤的結論。但是在實際觀測中,異常值不可避免,觀測數據大多來自中心分布的污染數據,這使得最小二乘法很不穩健。一般而言,這種情況下有兩種選擇:一是模型適合大部分數據,但是分布兩端極不符合,二是模型適合全部數據,但整體擬合結果一般。簡單地說,污染數據讓準確估計完整模型非常困難,如果估計完整的模型是不可行的,退而求其次,尋求一個能準確擬合中心數據的模型,反而變得更可行。
更具體地說,鑒于一些觀測值被污染,穩健估計方法試圖估計參數的中心分布,利用接近中心的大多數觀測來分析數據,不再試圖估計所有數據的混合分布。本文最主要的實踐是線性回歸方程的估計。穩健估計是適應大多數情況的方法,比經典的方法受極端情況的影響要小。
本文數據來自波士頓住房價格數據,比較經典的方法與穩健估計方法對這一數據的擬合效果。首先,對極大似然估計法和M 估計(Maximum Likelihood Type Estimates)的位置參數及分布進行比較。其次,一些線性回歸模型將采用經典的最小二乘估計(OLS)方法和穩健估計方法包括 MM 估計、最小中值平方估計(LMS)和 tau 估計。
(二)數據說明
本文所用的數據來自波士頓住房價格數據集,為1970年波士頓人口普查時506個人口調查區域的房屋數據,共12個變量。
二、 文獻綜述
(一)穩健估計發展
線性回歸模型在科學研究和實踐中應用非常廣泛,并且取得了豐碩成果。它是許多模型的基礎模型,它的理論成果以及實踐應用會影響到其他一些復雜模型,因此,在統計模型中占有重要的地位。估計回歸系數的經典方法是最小二乘法(OLS),然而最小二乘法很容易受到異常值的影響,是不穩健的。真實觀測數據中,異常值很難避免,這時候利用最小二乘法進行估計,結果會比較差,進而使得預測結果也比較差,在一定程度上限制了線性模型的應用。因此探討研究線性模型的穩健估計方法很有必要。
1953年,G. E. P. Box 首先提出 Robustness 概念。隨后,J. W. Tukey, P. J. Huber 等人對參數穩健估計進行了有成效的研究。J. W. Tukey 反復研究傳統統計方法的不穩健性,并確定了切尾均值及平均絕對離差等估計方法的優良穩健性。P. J. Huber 提出了一類未知參數的穩健估計方法——M 估計,并解決了相應的漸進極大極小問題。Huber 于 1973 年又將穩健估計方法推廣到多維參數回歸模型的參數估計問題。20 世紀 80 年代以來,Huber、F. R. Hampel 和 Rousseeuw 等人先后發表了很有影響的論著,為穩健估計理論奠定了基礎。Huber 于 1981 年正式給出穩健估計定義,穩健統計學至此趨于成熟。截至今天,穩健統計已經取得了許多進展。在國內,許多學者比如陳希孺、趙林城等,在線性、非線性、部分線性模型以及穩健投影尋蹤的 M 估計大樣本特性方面取得了一系列成果。
在統計建模中,統計的結果既依賴于觀測數據,又依賴于我們對所研究總體的一些特定的假設,比如分布形式、獨立性等。穩健估計旨在克服當觀測數據顯著偏離假設時,經典統計學所面臨的一些困難。穩健估計是在異常值不可避免的情況下,通過選擇適當的估計方法,盡可能減免未知量估計值受異常值的影響,得出正常模式下的最佳估計。穩健估計的目標如下:在假設的觀測分布模型下,估計值應該是最優的或接近最優的;假設的分布模型與實際的分布模型差異較小時,估計值受異常值的影響較小;假設的分布模型與實際的分布模型偏離較大時,估計值也不會受到破壞性影響。
在實際應用中,觀測數據往往會偏離假設。經典估計理論是建立在某種理想的分布基礎上,而穩健估計方法是建立在符合數據實際分布的基礎上。這是經典估計和穩健估計理論的根本區別。在經典估計方法中,當觀測數據不滿足假設條件,比如含有異常值時,估計結果就會受到壞的影響,甚至得出完全錯誤的結論,而在實際觀測數據中,異常值是不可避免的,這就說明經典的估計方法不穩健,適應性不好。所以,在實際統計分析問題中,研究者就要做出權衡,是選擇一個理想狀態的模型,適合所有的數據,但是不穩定,易受異常值的影響;或選擇能夠很好的擬合大多數數據,受異常值影響較小的模型。
實踐表明,嚴格服從于某一特定分布的觀測數據是不存在的。穩健估計理論假定數據來自污染分布,即大多數的數據是來自于所謂的中心分布,而小部分數據來自某些污染分布。穩健估計對所研究的對象假定一個模型,這由中心分布來表示:同時,穩健估計又允許實際問題僅僅是近似服從此模型。穩健估計要求在假定模型下,估計性能良好,同時,在模型附近,估計值性能穩定?;谏鲜鰞烖c,穩健估計方法已經在實際數據分析中有了廣泛的應用。更具體地來說,穩健估計根據實際觀測數據,估計前面我們所介紹的中心分布中的參數。在線性回歸方程估計問題中,我們利用穩健估計方法得到的結果與經典估計得到的結果相比,受異常值的影響更小。
以往的住房數據研究,一般采用經典的統計方法,例如最小二乘法。但是由于住房數據價格的區間比較大,易出現極端值,如果用經典估計方法,得到的分析結果不穩定,易受異常值的影響。為了克服這一缺陷,本文用穩健估計方法對其進行研究,得到的研究結果與經典估計得到的結果相比,更加穩定。
本文基于波士頓住房數據,分別用經典估計方法和穩健估計方法對其分析,比較兩種方法的區別以及優劣。首先,分別用極大似然估計和 M 估計對波士頓住房位置和分散程度進行分析,并比較二者區別。然后,用經典最小二乘法和穩健估計方法(包括 MM 估計、LMS 等)對線性回歸方程進行擬合,比較經典估計和穩健估計的區別,并將二者的差異用不同的圖形和表格呈現。
(二)模型簡介
假設一個回歸模型中包含有p個解釋變量和一個截距項,我們可以將其表示成:
可以看出,MEDV的密度函數是厚尾的,同時從箱線圖中可以看出,有相當多的取值極大的異常值。顯然,ML估計受到異常值的影響是遠大于M估計的。
四、 MEDV 的線性回歸模型
(一)兩個簡單的回歸模型
在這一部分中,我們將前面所討論的4種方法應用到兩個簡單回歸模型的擬合回歸中。這里所說的簡單回歸模型,是指只包含一個解釋變量和一個截距項的模型。為了更加形象化,我們在二維坐標軸中畫出回歸直線。這種方法可以直觀地看到,穩健估計法試圖很好的擬合大多數的數據,而不是試圖擬合所有的數據。這兩個模型如下所示:
(二)多元回歸模型
現在考慮對全模型使用以上四種不同的估計方法。表1中的兩個變量INDUS 和CHAS未使用,是因為運行結果顯示這兩個變量的系數不顯著。因此,這里的全模型是指:
圖5顯示穩健估計方法在殘差中有更多的異常值,同時在標準化殘差下,穩健估計方法的殘差明顯比最小二乘法的殘差集中,這表明可以通過改變一些變量或增加更多的變量來改善模型。顯然,數據集有很多的異常值,這導致經典最小二乘法和穩健估計方法的估計結果相差很大。這意味著我們應該努力建立一個有用的模型來預測響應變量。例如,如果首要目的是預測未來的情況,而不考慮極端的情況,那么用穩健估計會更合適。
2. 多發事件預測
用棄一法交叉驗證估計每個模型的絕對預測誤差(Absolute PredictionError,APE)。圖6為四種方法的絕對預測誤差的密度分布??梢钥闯?,穩健估計方法的絕對預測誤差密度分布在尾端比最小二乘法的絕對預測誤差密度分布更長、更厚。此外,穩健估計方法的密度分布更向右傾斜,換句話說,更集中在較低的值。從這次比較來看,穩健估計方法在預測多發數據時表現得比最小二乘法好,但是當有極端情況存在,穩健估計方法表現得不太理想。
如上所述,如果預測多發事件是目標,穩健估計方法應該會更好。因此,可以找出會導致穩健模型的殘差出現異常值的事件,并將它們看作污染的數據。
在交叉驗證中,利用四個模型僅對多發事件進行回歸的絕對預測誤差來評價模型的預測結果。因為都是非樣本絕對預測誤差,所以這等價于一個模擬過程,其中數據是被污染的,目標是利用這些數據建立一個模型來盡量準確的預測未來的多發事件。結果如表4:
五、 總結
樣本均值通常是一個有著欺騙性的統計數據,因為即使是很少的極端值也會對它產生很大的影響。標準差也是如此。另一方面,用M估計來估計位置,用MAD來估計分布是穩健的。這不由得使我們想起在新聞和報紙中提到的平均工資、平均住房率等數據,顯然,對一個變量,平均不是最可靠、最有代表性的信息。
毫無疑問,穩健估計方法不局限在估計位置和規模上。這個項目比較了三種線性回歸的穩健估計方法和經典最小二乘法。在簡單回歸實驗中,三種穩健估計方法回歸線的斜率都比最小二乘法的要小,這表明穩健回歸線更適合多發數據,而最小二乘回歸更適合包含極端值的全部數據。在多元回歸實驗中已經證明,雖然穩健估計方法的絕對預測誤差可能比最小二乘法的大,但是在只估計中心數據時,穩健估計方法一般完成得更加出色。
參考文獻:
[1]D. Harrison, Jr. et D. L. Rubinfeld: Hedonic housing prices and the demand for clean air[J]. Journal of Environmental Economics Management,1978,5(6):81-102.
[2]P. J. Huber: Robust Estimation of a Location Parameter[M]. New York Springer,1992.
[3]P. J. Huber: Robust statistics[M]. Wiley,2009.
[4]M. Salibian-Barrera, G. Willems et R. Zamar: The fast-tau estimator for regression[J]. Journal of Computational Graphical Statistics,2008,17(3):659-682.
[5]V. J. Yohai: High breakdown-point and high efficiency robust estimates for regression[J]. Annals of Statistics,1987,15(2):642-656.
[6]R. H. Zamar: Robust regression.
[7]茆詩松.高等數理統計[M].北京:高等教育出版社,1998.
作者簡介:
王園園,女,河北衡水人,中央財經大學碩士研究生,研究方向:數理統計。