999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EM算法數(shù)據(jù)單變量缺失處理方法研究

2015-03-25 08:20:31
科技傳播 2015年20期
關(guān)鍵詞:數(shù)據(jù)處理方法

黃 鉉

電子科技大學(xué)成都學(xué)院微電子系,四川成都 610097

基于EM算法數(shù)據(jù)單變量缺失處理方法研究

黃 鉉

電子科技大學(xué)成都學(xué)院微電子系,四川成都 610097

數(shù)據(jù)分析方法大都針對完整數(shù)據(jù),而實(shí)際上由于一些原因,觀測數(shù)據(jù)常存在缺失。本文采用EM算法對正態(tài)分布下的隨機(jī)缺失數(shù)據(jù)的參數(shù)進(jìn)行估計(jì)。實(shí)驗(yàn)結(jié)果表明EM算法對正態(tài)分布下的單變量缺失數(shù)據(jù)有效果,但缺失數(shù)據(jù)比例過大時(shí)該方法處理欠佳,對大比例變量缺失的情況有待研究。

EM;缺失數(shù)據(jù);正態(tài)分布

近年來數(shù)據(jù)庫及計(jì)算機(jī)技術(shù)的發(fā)展推動(dòng)了數(shù)據(jù)挖掘技術(shù)廣泛地應(yīng)用于各個(gè)領(lǐng)域。目前,對數(shù)據(jù)進(jìn)行處理的各種數(shù)據(jù)挖掘方法幾乎都是以假設(shè)數(shù)據(jù)完整為前提條件。然而實(shí)際情況是數(shù)據(jù)庫里的數(shù)據(jù)往往不完整,數(shù)據(jù)缺失的情況時(shí)常發(fā)生。引起數(shù)據(jù)缺失的原因很多,比如:傳感器故障、數(shù)據(jù)傳輸中斷、監(jiān)測方式改變又或者人為因素等。如果直接對包含缺失數(shù)據(jù)的數(shù)據(jù)集進(jìn)行分析,結(jié)果會(huì)產(chǎn)生偏差會(huì)直接影響到后續(xù)的決策,因此對數(shù)據(jù)進(jìn)行分析前對缺失數(shù)據(jù)的處理尤為重要。

目前國內(nèi)外學(xué)者針對缺失數(shù)據(jù)的研究很多,也取得了一定的成果。其中,Rubin(1976)將缺失機(jī)制分為三類:完全隨機(jī)缺失(MCAR)是指變量出現(xiàn)缺失值的可能性與模型中其他變量無關(guān),與該變量自身也無關(guān),完全隨機(jī)缺失機(jī)制中缺失數(shù)據(jù)的分布與完整數(shù)據(jù)分布一致。隨機(jī)缺失(MAR)是指變量出現(xiàn)缺失值的可能性與模型中某些觀測變量有關(guān)而與該變量自身無關(guān)。對于隨機(jī)缺失機(jī)制,缺失數(shù)據(jù)可以通過完整數(shù)據(jù)來估計(jì)。非隨機(jī)缺失(MNAR)是指變量的缺失值僅與自身相關(guān)。單變量缺失是指數(shù)據(jù)集中只有某個(gè)變量出現(xiàn)信息不完整的情況,此時(shí)對缺失值處理首要考慮數(shù)據(jù)缺失機(jī)制,不同的缺失機(jī)制有不同的處理方法。比如成列刪除或者成對刪除的方法,如果數(shù)據(jù)為MCAR,減少的樣本其實(shí)是原樣本的一個(gè)隨機(jī)樣本,因此刪除后對剩下的數(shù)據(jù)進(jìn)行處理是無偏差的;但如果數(shù)據(jù)為MAR,那么這種處理方法則會(huì)產(chǎn)生有偏差的估計(jì)值。 本文主要研究數(shù)據(jù)單變量隨機(jī)缺失的情況。

單變量缺失處理方法

假設(shè)從樣本集中隨機(jī)抽取m個(gè)獨(dú)立樣本:(X(1),X(2),…,X(m)),每個(gè)樣本之間獨(dú)立。對于每個(gè)樣本Z(i)為其隱含變量,要估計(jì)P(X,Z)的參數(shù)θ。

EM(Expectation-maximization)算法有兩步E步和M步,其中E步在觀測數(shù)據(jù)和現(xiàn)有條件下求缺失數(shù)據(jù)的期望,假設(shè)迭代的初始值為0θ,第一次迭代E步就是在觀測數(shù)據(jù)和0θ下求完整數(shù)據(jù)的似然函數(shù)的期望,在已知

0θ時(shí)估計(jì)參數(shù)可以通過似然函數(shù)

求得,其中P(θ|Xobs) 表示未知參數(shù)θ的后驗(yàn)分布,P(θ|Xobs, Xmis)表示未知參數(shù)θ在完整數(shù)據(jù)下的后驗(yàn)分布。

M步中將E步中求的缺失數(shù)據(jù)的期望極大化,θ?(1)=argmax L(1)(θ|θ(0));這就是第1次迭代后通過的第2次參數(shù)θ的初始估計(jì)值。上兩步完成一次迭代。經(jīng)過反復(fù)迭代,直到估計(jì)結(jié)果收斂為止。這就得到了θ的ML似然估計(jì)。

假設(shè)觀測數(shù)據(jù)X=(X(1),X(2),…,X(m))服從正態(tài)分布,密度函數(shù)為:,需要估計(jì)正態(tài)分布的參數(shù)(μ,σ)

缺失數(shù)據(jù)Xmis在觀測數(shù)據(jù)Xobs及參數(shù)下的條件概率密度為:,式中iμ,iσ為第i次迭代的參數(shù)值。

因此可通過EM算法的E步計(jì)算得到完整數(shù)據(jù)似然函數(shù)的期望為:

M步將L(i+1)(θ|θi)最大化得到θi+1,對上式分別求μi和σi的偏導(dǎo)數(shù)并令其為0 可得到第i次迭代后參數(shù)的估計(jì)值。重復(fù)E步和M步直到且時(shí)迭代結(jié)束,便可以求得缺失數(shù)據(jù)下未知參數(shù)的最佳估計(jì)值:

用MATLAB隨機(jī)產(chǎn)生兩組服從正態(tài)分布的數(shù)據(jù)各有100個(gè),其中,σ=5。分別模擬變量10%,20%,30%和40%的數(shù)據(jù)缺失的情況。采用EM算法迭代20次和直接忽略缺失數(shù)據(jù)的方法對數(shù)據(jù)的參數(shù)進(jìn)行估計(jì):

缺失比例μ? σ? μ?均方差σ?均方差10% 9.615567665 9.7716977885.1789556875.0789785640.0032853330.00244612820%9.805265135 10.018890355.3107016135.1634236120.0041123250.00284322330%10.19595857 10.021000305.4114748085.3208076280.0134243710.00483612140%10.50903115 10.849680605.6474614935.6275326420.0354124730.021248317

結(jié)論:

實(shí)驗(yàn)結(jié)果表明采用EM算法對不完整的數(shù)據(jù)進(jìn)行處理可以用已知數(shù)據(jù)的條件期望代替缺失數(shù)據(jù)。通過比較可見EM方法對缺失數(shù)據(jù)處理比不考慮缺失數(shù)據(jù)直接進(jìn)行計(jì)算精度高,因而這種方法處理缺失數(shù)據(jù)是有效果的,但通過不同缺失值得情況對比分析,對于正態(tài)分布數(shù)據(jù),當(dāng)缺失數(shù)據(jù)比例低于30%時(shí)EM方法處理效果良好,當(dāng)缺失數(shù)據(jù)比例不斷增大缺失數(shù)據(jù)較多的時(shí)候,對缺失數(shù)據(jù)參數(shù)估計(jì)效果欠佳。EM方法可以達(dá)到收斂到后驗(yàn)密度函數(shù)的穩(wěn)定點(diǎn),但不保證結(jié)果是收斂到極大值點(diǎn);另外初始值的選擇對結(jié)果有一定影響,不同的初始值得到不同的估計(jì)結(jié)果,因此選擇不同的初始值進(jìn)行迭代可以減輕初值對結(jié)果的影響。如果增大數(shù)據(jù)個(gè)數(shù)EM算法估算精度會(huì)提高,同時(shí)也會(huì)造成計(jì)算復(fù)雜度提高,需要更多次迭代才能收斂,因此這種方法對大數(shù)據(jù)處理不適用。

[1]Paul D. Allison 缺失數(shù)據(jù).格致出版社.

[2]龐新生.缺失數(shù)據(jù)處理中相關(guān)問題的探討[J].統(tǒng)計(jì)與信息論壇,2004,19(5):29-32.

[3]胡玄子.數(shù)據(jù)處理中缺失數(shù)據(jù)填充方法的研究[J].湖北工業(yè)大學(xué)學(xué)報(bào),2013,28(5):82-84.

[4]呂王勇.基于EM算法的對數(shù)正態(tài)分布參數(shù)估計(jì)[J].理論新探,2007(6):21-23.

[5]陳曉林,汪四水.一類混合正態(tài)分布參數(shù)估計(jì)的EM算法和數(shù)據(jù)擴(kuò)張[J].蘇州大學(xué)學(xué)報(bào),2007,23(3).

TP39

A

1674-6708(2015)149-0153-02

猜你喜歡
數(shù)據(jù)處理方法
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
學(xué)習(xí)方法
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
主站蜘蛛池模板: 中国毛片网| 久久综合干| 国产剧情无码视频在线观看| 欧美有码在线观看| 亚洲永久色| 中文字幕日韩丝袜一区| 日韩欧美高清视频| 婷婷午夜影院| 秋霞一区二区三区| 婷婷五月在线| 4虎影视国产在线观看精品| www.亚洲一区| 久久久久亚洲av成人网人人软件| 秋霞一区二区三区| av色爱 天堂网| 区国产精品搜索视频| av免费在线观看美女叉开腿| 美女裸体18禁网站| 精品伊人久久久久7777人| 四虎亚洲精品| a级毛片在线免费观看| 亚洲欧美日韩成人在线| 日韩免费毛片| 精品伊人久久久大香线蕉欧美 | 凹凸国产熟女精品视频| 在线欧美a| 天堂成人在线| 久久人人爽人人爽人人片aV东京热 | 中美日韩在线网免费毛片视频| 91口爆吞精国产对白第三集| 亚洲美女视频一区| 女高中生自慰污污网站| 国产女主播一区| 国产自视频| 亚洲热线99精品视频| 亚洲欧洲自拍拍偷午夜色| 国产精品手机在线观看你懂的| 丁香婷婷激情综合激情| 中文字幕在线播放不卡| 中文一区二区视频| 日韩精品免费一线在线观看| 欧美精品一区在线看| 91无码视频在线观看| 免费一级大毛片a一观看不卡| 91无码视频在线观看| 国产欧美日韩资源在线观看| 國產尤物AV尤物在線觀看| 亚洲男人天堂2018| 麻豆国产在线不卡一区二区| 91欧美亚洲国产五月天| 国产一区二区三区在线精品专区| 91精品网站| 乱人伦视频中文字幕在线| 精品1区2区3区| 精品少妇人妻无码久久| 国产三级韩国三级理| 久久国产乱子伦视频无卡顿| 91在线精品免费免费播放| 99国产精品免费观看视频| 少妇极品熟妇人妻专区视频| 亚洲91精品视频| 国产精品区视频中文字幕| 亚洲一区二区三区在线视频| 亚洲第一成年免费网站| 日本亚洲国产一区二区三区| 亚洲午夜天堂| 国产在线拍偷自揄拍精品| 91热爆在线| 熟女日韩精品2区| 欧美一级99在线观看国产| 色综合国产| 亚洲日韩精品无码专区97| 又爽又大又黄a级毛片在线视频| 国产经典三级在线| 久久99久久无码毛片一区二区| 国产高清无码麻豆精品| 国产va在线观看| 欲色天天综合网| 国产精品浪潮Av| 激情在线网| 国产精品55夜色66夜色| 亚洲欧美日韩精品专区|