999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

響應變量缺失下線性回歸模型的ERLS算法

2012-01-12 06:41:56劉力軍
大連民族大學學報 2012年5期
關鍵詞:模型

劉力軍

(大連民族學院理學院,遼寧大連 116605)

響應變量缺失下線性回歸模型的ERLS算法

劉力軍

(大連民族學院理學院,遼寧大連 116605)

針對線性回歸模型,提出了一個新的期望遞歸最小二乘算法(Expectation Recursive Least Square,ERLS)。在響應變量數據存在部分缺失的條件下,ERLS取響應變量的期望值代替缺失值,基于該期望值與自變量數據,實現自適應的遞歸估計回歸系數,避免了高維數據相關矩陣的求逆困難。ERLS算法充分利用了全部有效數據,實現了在線回歸估計。數值實驗結果表明,在觀測數據存在野值時,通過引入非線性抑制函數,ERLS算法優于LS方法。

缺失數據;響應變量;遞歸最小二乘法(RLS);線性回歸

數據缺失現象在實際問題中經常發生,如可靠性壽命試驗、遙外測數據提取、無線通信處理、模式識別等領域往往會出現大量缺失數據的現象[1-4]。EM算法最初由Dempster等[5]提出,主要用于計算后驗分布的極大似然估計,如用于含缺失數據的線性與非線性模型的回歸系數的估計問題[6-7]。針對響應變量存在隨機缺失的線性模型的研究成為近期的熱點[8-9]。

在自適應信號處理領域,如無線通信系統的信道估計中,一方面,數據樣本的取得通常是通過傳感器網絡實時獲取的,由于存儲空間和傳感器處理器運算速度的限制,傳統的基于全部數據樣本集進行似然估計的辦法已無法應用,工程應用更希望獲得運算復雜度低、只需較小存儲需求的實時處理算法。這類算法通常只需要存儲當前數據樣本,無需存儲全部數據集參與運算,因此這類實時處理算法被列為信號處理領域的典型研究課題[10]。另一方面,在自適應信號處理問題中,所處理的隨機信號通常存在于非平穩環境中,這要求面向問題的算法要具有很好的適應性,在數據環境發生微小變化時,算法應具有較強的跟蹤環境改變的能力。所有的物理采樣系統,由于信道特性、環境噪聲以及傳感器設備的物理特性等因素,采樣過程中得到的數據往往包含較大的隨機誤差,使得部分數據樣本嚴重偏離目標真值,這些嚴重偏離目標真值的數據稱為野值或者異常值[11]。實際應用表明,即使是包含少量的野值,對參數估計效果也會產生非常不利的影響,甚至導致算法結果明顯地偏離系統狀態真值[12]。

對于響應變量存在缺失的時變環境中,是否能夠給出理想的實時自適應跟蹤算法?對于線性回歸問題模型,在響應數據隨機缺失的前提條件下,在數據樣本集存在野值時,能否得到更為穩健的自適應算法?本文針對上述問題提出了自適應ERLS算法,該算法基于EM框架,有效地解決了響應變量存在部分缺失時自變量數據如何有效利用問題;基于RLS增量式的遞歸算法結構,實現了遞歸估計極大化似然函數過程,通過引入非線性抑制函數,有效地解決了野值對算法的干擾;數值實驗結果顯示ERLS算法明顯優于LS解。

1 響應數據缺失下的線性回歸模型

設響應變量Y與自變量X1,X2,…Xm線性相關,n次觀測數據D={(yi,xi1,xi2,…,xim)T?Rm+1,(i=1,2,…,n)}滿足以下多元線性回歸模型:

假定Y隨機缺失,即Y是否缺失只與X有關,而與Y無關,此時,若使用最小二乘解(4),一方面,矩陣求逆對于高維數據擬合會帶來計算上的困難,另一方面,由于數據的部分缺失,只能拋棄與缺失數據相應的數據X,顯見,單純使用LS算法將會導致部分完整數據X無效,因此LS無法給出滿意的解。

一個更合理的解決辦法是基于不完全數據的統計處理方法——期望最大化算法(Expectation Maximization,EM),即依如下過程迭代計算θ(i) =(β(i),σ(i))(i=1,2,…):

其中,觀測數據集Dcomplete={Yobs,X},Yobs為Y中觀測到的數據,ymis為缺失分量Ymis的數據實現。在很寬的條件下,由EM算法產生的迭代序列{θ (i)}收斂到缺失數據線性回歸問題的最優解[5]。

然而在一些實時處理領域,如信號處理和實時數據傳輸時,由于存儲設備容量限制,通常獲得整體是不經濟的,甚至由于數據的流式傳輸,獲得全部數據集也是不可能的。另一方面,在數據環境發生改變時,人們更希望所設計的算法能夠自動適應這種環境的改變,從而給出自適應的最優解,而不是根據已經接收到的所有的樣本集重新計算,因此它應當是增量式自適應的。為了有效解決野值數據問題,使算法應該能夠依據數據特性做出自適應調整,抑制野值數據對算法的影響,本文給出了基于EM算法結構的期望遞歸最小二乘法(Expectation Recursive Least Square,ERLS)的線性回歸算法,實現了對可用數據集似然函數的自適應遞歸估計。

2 期望遞歸最小二乘法(ERLS)

線性回歸問題(2)的RLS算法[14]基于如下優化問題:

與封閉形式的最小二乘解(4)以及EM算法相比,RLS算法最大的特點是它特別適合于實時數據處理領域,因為每一次迭代它只需要最新的數據x(n)和yn,其算法復雜度為O(m2)。

在響應變量數據yi有部分缺失時,線性回歸問題的RLS遞歸算法(9)不再適用。根據式(5),可知P(Y|X,β,δ)~Nm(Xβ,σ2Im),因此條件期望E(Y|X,β)=Xβ,從而E(yi|X)=xT(i)β,(i= 1,2,…,m)。在對應于自變量x(k)=(xk1,xk2,…,xkm)T的響應變量yk有缺失的情況下,一個自然的選擇是以條件期望E(Yk|X,β)=xT(k)β代替yk,這類似于EM算法的E-step,同時,由于β未知,因此通過使用RLS算法,構造迭代序列β (i),進而計算E(yi|X,β(i))=xT(i)β(i),基于RLS結構的迭代過程,實現了M-step。

初始化:

應該注意到,ERLS算法的計算復雜度依然為O(m2),但有效地解決了缺失響應變量的不完全數據的線性回歸問題,算法本質上是基于RLS的增量式遞歸算法。另外,在數據存在野值時,注意到誤差|e(n)|=|dn-βT(n-1)x(n)|會變大,一種解決方案是取雙曲正切sigmoid函數,即

其中,a>0控制奇函數f(x)的形狀,進而控制野值的影響范圍。令e(n)=f(dn-βT(n-1)x (n)),數值實驗結果表明,這一簡單調整,可以有效抑制野值數據對回歸算法的影響。另外,在yn丟失時,易見e(n)=0,即丟失y(n)并不參與運算,但是此時對應的x(n)依然參與運算,這從K(n)和P(n)的表達式可以看出。因此,ERLS算法充分地利用了所有可用的數據集。

3 數值實驗

二元回歸模型為

y=xTβ+ε=β1x1+β2x2+β3+ε,

式中,β=[β1,β2,β3]T=[1,2,3]T,x=[x1,x2,1]T,ε~N(0,0.01I2),隨機生成1 000個樣本點,取λ=0.99,δ=0.01,記ERLS算法給出的解為βERLS,LS算法給出的解為βLS,ERLS算法和LS算法給出的誤差分別記為εERLS和εLS。通過如下四組試驗分別測試算法的有效性、抗數據丟失性、抑制野值數據的韌性以及基于非線性變換的改進算法的有效性:

實驗一響應變量無數據丟失,無野值數據

隨機選擇初值β(0)?R3,ERLS算法給出近似解βERLS=[1.0176,1.9876,3.0028]T,由方程(4)給出的LS解為βLS=[0.9877,1.9989,3.0097]T,二者的誤差分別為εERLS=0.0218,εLS=0.0157。可以看到,對于無數據丟失、無異常值情況,二者均給出滿意結果,此時LS解略優于ERLS解。無數據丟失時ERLS回歸系數估計和誤差曲線如圖1和圖2。可見,此時回歸系數學習曲線和誤差曲線都非常平滑,算法收斂速度快。

圖1 無數據丟失時ERLS回歸系數估計曲線

圖2 無數據丟失時誤差曲線

實驗二80%響應變量數據丟失,無野值數據

隨機選擇初值β(0)?R3,ERLS算法給出近似解βERLS=[1.0085,2.0307,2.9688]T,由方程(4)給出的LS解為βLS=[1.0091,2.0462,2.9690]T,二者的誤差分別為βERLS=0.0446,εLS=0.0564。回歸系數和誤差曲線如圖3和圖4。可以看到,對于有數據丟失、無異常值情況,二者均給出滿意結果,由于ERLS基于EM算法結構,此時ERLS解略優于LS解。

圖3 80%數據丟失時回歸系數估計曲線

圖4 80%數據丟失時誤差曲線

實驗三響應變量80%數據丟失,部分野值數據^d=d±100

ERLS算法給出近似解βERLS=[0.9785,1.9798,3.0303]T,由方程(4)給出的LS解為βLS=[0.6771,1.6003,3.27572]T,二者的誤差分別為βERLS=0.0423,εLS=0.1608。部分野值數據時回歸系數估計和誤差曲線如圖5和圖6。可以看到,此時LS解給出解遠遠偏離真解,誤差非常大,而ERLS算法依然給出相當滿意的結果。回歸系數學習曲線和誤差曲線都非常平滑,但也由于野值數據影響出現了周期性的波動,可見異常數據對算法的影響非常大。

圖5 部分野值數據時回歸系數估計曲線

圖6 部分野值數據時誤差曲線

實驗四取e(n)=f(dn-βT(n-1)x(n)),其中f(x)如方程(10)所示,且α=2,響應變量80 %數據丟失,部分野值數據^d=d±100。

ERLS算法給出近似解βERLS=[1.0036,1.9699,2.9736]T,由方程(4)給出的LS解為βLS=[-0.3302,0.2924,4.0065]T,二者的誤差分別為βERLS=0.0402,εLS=2.3871。穩健ERLS算法回歸系數估計和誤差曲線如圖7和圖8。可以看到,此時LS解給出解遠遠偏離真解,誤差非常大,而ERLS算法依然給出相當滿意的結果,回歸系數學習曲線和誤差曲線都非常平滑,這正是由于sigmoid型函數對野值數據起到了積極抑制作用。

圖7 穩健ERLS算法回歸系數估計曲線

圖8 穩健ERLS算法誤差曲線

4 結論

本文提出了一個新的基于缺失數據模型ERLS算法,從分析結果可以看出,野值的存在使得LS解出現嚴重偏差,而使用本文提出的ERLS算法再結合非線性抑制函數,則可以自適應得到系統的最優解,算法回歸曲線明顯優于LS解。因此,ERLS算法能夠有效地解決響應數據缺失問題和充分抑制動態數據中野值對濾波的影響。更為重要的是,ERLS算法通過對響應變量取期望值,對應自變量數據基于RLS算法迭代參與計算,從而充分地利用了全部有效數據集,且數值實驗結果表明該方法簡單有效。

[1]牟青,魏平.基于缺失數據模型的長碼直擴信號的偽碼估計[J].電子學報,2010(10):2365-2369.

[2]付惠娟,任美睿.無線傳感器網絡中缺失數據的估計[J].計算機工程,2011,37(1):90-92.

[3]沈奇,王池社.生物缺失數據處理的貝葉斯模型研究[J].微電子學與計算機,2011,28(7):110-112.

[4]劉鵬,雷蕾,張雪鳳.缺失數據處理方法的比較研究[J].計算機科學,2004(31):155-174.

[5]DEMPSTER A P,LAIRD N M,RUBIN D B.Maximum likelihood from incomplete data via the em algorithm[J].Journal of the Royal Statistical Society,B,1977,39 (1):1-38.

[6]沈啟霞,劉心聲.含缺失數據線性模型回歸系數的約束EM算法[J].南京大學學報,2007,24(10):122-131.

[7]周秀輕,王金德.隨機刪失數據非線性回歸模型的最小一乘估計[J].中國科學:A輯,2005,35(4):387-403.

[8]楊宜平,薛留根,程維虎.響應變量存在缺失時部分線性模型的經驗似然推斷[J].高校應用數學學報,2010,25(1):43-52.

[9]趙麗棉,趙培信.響應變量隨機缺失下變系數部分線性模型的借補經驗似然推斷[J].應用數學,2011,24 (2):215-219.

[10]張賢達.現代信號處理[M].北京:清華大學出版社,2002.

[11]祝轉民,秋宏興,李濟生,等.動態測量數據野值的辨識與剔除[J].系統工程與電子技術,2004,26 (2):147-149.

[12]李景熹,王宇,王樹宗,等.觀測值中野值的判別與處理方法仿真研究[J].微計算機信息,2006,22:140-142.

[13]STRANG G.線性代數及其應用[M].侯自新,譯.天津:南開大學出版社,1990.

[14]TAMAL Bose.Digital signal and image processing[M].New York:John Wieley&Sous Inc,2004.

ERLS Algorithm for Linear Regression Model with Missing Response Variable

LIU Li-jun
(School of Science,Dalian Nationalities University,Dalian Liaoning 116605,China)

A novel Expectation Least Square(ERLS)algorithm is proposed for linear regression model.Under the condition that response is partly missing,ERLS uses expectation value of the response instead of the missing value.Based on the expectation value and the data of independent variable,ERLS adaptively estimates the regression coefficients,which avoids the difficulty of inversion operation to the correlation matrix of high-dimensional data.ERLS makes fully use of the available data and sovles the regression problem in an online manner.Numerical expriments show that,by introducing a nonlinear function of supression,ERLS is superior to LS solution under the existence of wild data points.

missing data;response variable;Recursive Least Square;linear regression

O212

A

1009-315X(2012)05-0469-05

2012-02-07;最后

2012-03-30

國家自然科學基金項目(61002039);中央高校基本科研業務費專項資金資助項目(DC12010216)。

劉力軍(1977-),男,滿族,河北承德人,副教授,博士,主要從事神經網絡算法研究。

(責任編輯 鄒永紅)

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品亚欧美一区二区三区 | 国产超碰一区二区三区| 中文字幕一区二区视频| 黄色国产在线| 免费无码AV片在线观看国产| 色综合激情网| 亚洲国产欧美目韩成人综合| 国产欧美日韩在线在线不卡视频| 无遮挡国产高潮视频免费观看 | 中国精品久久| 免费看黄片一区二区三区| 日韩av电影一区二区三区四区| 亚洲国产精品日韩av专区| 免费精品一区二区h| 在线无码av一区二区三区| 日韩黄色精品| 久久特级毛片| 国禁国产you女视频网站| 波多野结衣在线se| 国产精品久久久久无码网站| 97视频免费在线观看| 国产一级在线观看www色 | 国产一级裸网站| 国产日韩精品欧美一区喷| 亚洲一区二区约美女探花| 成人一区在线| 欧美国产综合视频| 国产视频久久久久| 91网址在线播放| 香蕉伊思人视频| 69国产精品视频免费| 成人va亚洲va欧美天堂| 中文毛片无遮挡播放免费| 欧美精品在线视频观看| 午夜视频www| 欧美在线精品一区二区三区| 欧美日本在线观看| 在线精品自拍| 免费观看欧美性一级| 2021国产在线视频| 国产网友愉拍精品视频| 国产高清在线观看| 国产91高清视频| 精品福利视频导航| 在线视频亚洲欧美| 国产综合无码一区二区色蜜蜜| 欧美人与动牲交a欧美精品| 婷婷综合在线观看丁香| 在线va视频| 久久99国产精品成人欧美| 孕妇高潮太爽了在线观看免费| 亚洲精品黄| a级毛片免费网站| 一本一道波多野结衣一区二区| 成人看片欧美一区二区| 国产福利在线免费| 99热这里只有精品2| 国产伦片中文免费观看| 99热国产在线精品99| 天天综合网亚洲网站| 国产在线98福利播放视频免费| 无码 在线 在线| 亚洲女人在线| 无码高潮喷水专区久久| 色精品视频| 免费av一区二区三区在线| 美女被躁出白浆视频播放| 特级做a爰片毛片免费69| 国内精品一区二区在线观看| 不卡无码网| 欧美视频在线播放观看免费福利资源| 色婷婷狠狠干| 日韩高清一区 | 无码免费视频| 中文字幕中文字字幕码一二区| 国产麻豆va精品视频| 亚洲动漫h| 日韩小视频在线观看| 国产乱人伦偷精品视频AAA| 亚洲香蕉伊综合在人在线| 一区二区影院| 国产精品lululu在线观看|