王奉偉,周世健,周 清,陸培鶴
(1.東華理工大學測繪工程學院,江西南昌330013;2.流域生態與地理環境監測國家測繪地理信息局重點實驗室,江西南昌330013;3.南昌航空大學,江西南昌330063)
?
具有LMS穩健初值的選權迭代法
王奉偉1,2,周世健3,周清1,陸培鶴1
(1.東華理工大學測繪工程學院,江西南昌330013;2.流域生態與地理環境監測國家測繪地理信息局重點實驗室,江西南昌330013;3.南昌航空大學,江西南昌330063)
摘要:基于選權迭代法的基本理論,文中提出先用LMS穩健估計來確定殘差的初值,然后再進行選權迭代方法。其估計結果既繼承LMS方法的高失效點(BP)穩健性,又具有選權迭代法的高估計效率,其計算結果與無異常點時最小二乘估計結果基本一致。
關鍵詞:抗差估計;LS;異常點;最小中位數平方LMS;選權迭代法

在抗差估計中,最常用的為M估計法,其估計計算方法有很多種,其中選權迭代法應用最廣,計算簡單,較易理解,是目前數據處理中剔除異常點的常用穩健估計方法[1-5]。殘差初值是影響選權迭代法的粗差探測能力關鍵因素之一。現在一般都采用最小二乘法(Least Squares,LS)來確定殘差初值。異常點的多少與最小二乘估計崩潰直接相關,導致選權迭代法抵抗異常點的能力不強,當數據中存在較多異常點時比較明顯。具有穩健初值的選權迭代法(L1WI)是用最小一乘法確定殘差初值而非采用最小二乘法。最小一乘法可以抵抗部分Y方向異常,但異常點較多時,其穩健性較差,對于X方向的異常點其沒有抗差能力[6-7]。最小中位數平方LMS(Least Median Squares)方法能夠抵抗X,Y方向異常,具有很強的穩健性[8-9]。考慮基于LMS的選權迭代法(LMSWI)可以更有效地提高估計參數的精度,文中利用LS、最小一乘法和最小中位數平方LMS三種方法求解殘差初值,并進行選權迭代,通過比較迭代結果判斷三種方法的優劣性,驗證了殘差初值是選權迭代法的關鍵性問題,表明具有LMS初值的選權迭代法具有很強的抗差能力。
1最小中位數平方LMS原理

(1)

(2)
式中:min為取最小值算子,選擇殘差vmed對應的那組參數估值為最小中位數平方抗差估值。
2具有LMS初值的選權迭代法
最小中位數平方LMS方法[8]是一類能夠抵抗X,Y兩個方向異常,具有很強的穩健性的方法。所以考慮用LMS方法確定殘差初值,然后進行選權迭代。這種方法具有較高的估計效率,又保持LMS較高的穩健性質。
LMS的目標函數不是使所有各點的殘差平方和最小,而是定義為使升序排列的殘差平方中位數取最小時的估計值。其解可通過以下無放回的重復抽樣算法來實現:
1)求解重復抽樣次數SN。
2)從n個觀察值中隨機抽取p+1個不同的樣本點(p為X變量個數),建立參數估計模型,得到一個回歸參數向量估計值b。
4)令j=j+1,重復以上步驟至SN=j,在所得到的SN個med中取最小值,將此時對應的b作為β的LMS估計。
5)根據IGGIII權因子函數確定權矩陣。
6)計算加權最小二乘估計得到參數和殘差,確定新的權陣,進行循環迭代。
7)若前后兩次迭代得到的參數估計值βj+1與βj滿足收斂條件|βj+1-βj|≤ε|βj|,ε為事先設定的精度,就結束迭代,輸出估計參數值β,否則繼續循環迭代。
3權函數的選取
權函數的選取也是選權迭代法的關鍵問題,考慮到權函數本身具有一定缺陷,不含淘汰段的Humber法、丹麥法減弱了其抗差的能力,不具有正常段的Tukey法、Andrews法減弱了其效率。所以從權函數本身而言,選權迭代法的權函數采用包含正常段、可疑段和淘汰段的IGGIII方案,其權函數[10-11]為
(3)
式中:Pi是等價權陣的第i個對角元素;ui是第i個標準化殘差;k0,k1是預先確定的參數。
4實驗與分析
利用MATLAB程序[12]由模型Y=8-2.1X+e模擬觀測數據,取n=25,隨機誤差e~N(0,0.2)正態分布。利用LS、LSWI、L1WI和LMSWI 4種方法對模擬數據進行參數估計,具體結果見表1和表2。

表1 無異常點時的模擬數據

表2 X與Y方向異常估計結果
從表2數據處理結果來看,無異常點時4種方法的求解參數精度基本相當,LMSWI通過迭代提高LMS參數估計的精度和效率,達到比較令人滿意的水平。
利用MATLAB由模型Y=8-2.1X+e模擬觀測數據,取n=25,按異常點比例λ確定異常點個數nλ。首先根據模型產生25-nλ個無異常數據,然后在隨機抽取nλ個X生成異常點。λ=20%,λ=30%,λ=40%,20%比例異常點模擬數據如表3和表4所示。

表3 Y方向20%異常點的模擬數據

表4 Y方向異常估計結果
結果表明,當數據在Y方向存在異常點時,即使只有20%比例的異常點,LS方法也會受到很大的影響,但具有三種方法殘差初值的選權迭代法,異常點比例在30%以內時均能夠有效地抵抗異常點的影響,表明選權迭代法在剔除異常點方面具有很強的穩健性。即使異常點比例達到40%,L1WI和LMSWI依然可以準確的估計出模型參數,兩者的性能在僅有Y方向異常點時不相上下,而LSWI的抗差性在大比例異常點存在時較弱。
利用MATLAB程序由模型Y=8-2.1X+e模擬觀測數據,取n=25,按異常點比例λ確定異常點個數nλ。首先根據模型產生25-nλ個無異常數據,然后在隨機抽取nλ個數據根據模型在X和Y均加入異常值生成異常點。λ=20%,λ=30%,λ=40%,40%比例異常點模擬數據如表5和表6所示。

表5 X與Y方向40%異常點的模擬數據

表6 X與Y方向異常估計結果
由表6可知,當數據中在X和Y方向上均存在異常點時,LS估計參數結果明顯失真。LSWI和L1WI也會受到很大的影響,參數估計結果偏離真實值。而LMSWI則繼續保持其高穩健性和高崩潰點而不受其影響,即使異常點比例高達40%,該方法估計參數結果依然穩定,基本和真值一致。
5結束語
對于數據處理來說,異常點剔除越來越受到關注,選權迭代法是目前剔除異常點最常用的方法之一,而選擇穩健的殘差初值是選權迭代法的關鍵問題。基于最小一乘法的線性規劃法和LS方法相比,其殘差初值具有一定的穩健性,但是其對于X方向異常點無任何抵抗性。但LMS方法可以同時抵抗X方向和Y方向的多個異常點,利用LMS方法確定殘差初值,提高選權迭代法抵抗異常點的能力,使選權迭代法具有更強穩健性。本文實例計算結果很好地驗證了具有LMS穩健初值的選權迭代法具有很好的抗差能力和較高的估計效率。
參考文獻:
[1]周江文.經典誤差理論與抗差估計[J].測繪學報,1989,18(2):115-120.
[2]李德仁.利用選權迭代法進行粗差探測定位[J].武漢測繪科技大學學報,1984,9(1):46-68.
[3]陳西強,黃張裕.抗差估計的選權迭代法分析與比較[J].測繪工程,2010,19(4):8-11,15.
[4]楊勇喜,賈東振,何秀鳳.基于選權迭代法的抗差整體最小二乘及其應用[J].測繪工程,2014,23(12):56-59,62.
[5]邱衛寧,陶本藻,姚宜斌,等.測量數據處理理論與方法[M].武漢:武漢大學出版社,2008.
[6]劉明.最小一乘法與最小二乘法:基于例證的比較[J].統計與決策,2012(20):12-15.
[7]邱衛寧.具有穩健初值的選權迭代法[J].武漢大學學報(信息科學版),2003,28(4):452-454.
[8]ROUSSEEUW P J.Least median of squares regression[J].Jourmal of the American Stastical Association,1984,79:871-880.
[9]ROUSSEEUW P J,LEROY A M.Robust regression and outlier detection[M].In Wiley Series in probability and Mathematical Statistics.New York,John Wiley & Sons,1987.
[10]楊玲,沈云中,樓立志.基于中位數參數初值的等價抗差估計方法[J].測繪學報,2011,40(1):28-32.
[11]李浩軍,唐詩華,黃杰.經典選權迭代法研究與兩步抗差估計的提出[J].海洋測繪,2007,27(1):17-20.
[12]張智星.MATLAB 程序設計與應用[M].北京:清華大學出版社,2002.
[責任編輯:李銘娜]
Selecting weight iteration method with initial value by LMS
WANG Feng-wei1,2,ZHOU Shi-jian3,ZHOU Qing1,LU Pei-he1
(1.School of Surveying and Mapping Engineering,East China Institute of Technology,Nan Chang 330013,China;2.Key Laboratory of Watershed Ecology and Geographical Environment Monitoring,NASG,Nanchang 330013,China;3.Nanchang Hangkong University,Nanchang 330063,China)
Abstract:This paper explores the selecting weight iteration method with initial value by LMS,which uses LMS robust estimate to asertain the initial residuals value.The selecting weight iteration(SWI) process goes after that.The estimate result of the method takes on high breakdown point robustness of LMS and high estimate effciency of SWI.The result shows the selecting weight iteration method with LMS estimation can resist outliers like the LS with no outliers.So it is more robust.
Key words:robust estimation;LS;outliers;least median squares;LMS;selecting weight iteration
作者簡介:王奉偉(1988-),男,碩士研究生.
基金項目:國家自然科學基金資助項目(41374007)
收稿日期:2014-12-30
中圖分類號:P221
文獻標識碼:A
文章編號:1006-7949(2015)12-0033-03