999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的EM缺失數據填充算法

2011-05-14 11:58:48王會進
網絡安全與數據管理 2011年16期
關鍵詞:數據挖掘分類

鄒 薇,王會進

(暨南大學 信息科學技術學院,廣東 廣州510632)

在數據泛濫的今天,迫切地需要一種將數據轉換成有用的信息和知識的數據挖掘技術。然而,由于信息無法獲取或者在操作過程中被遺漏等原因,現實中的數據往往存在大量的缺失[1]。數據缺失對數據挖掘的過程和結果有嚴重的影響:首先,系統丟失了大量有用的信息;其次,系統中所表現出的不確定性更加顯著,系統中蘊涵的確定性成分更難把握[2];第三,包含空值的數據會使挖掘過程陷入混亂,導致不可靠的輸出;第四,可能直接影響到數據挖掘模式發現的準確性和運行性能,甚至導致錯誤的挖掘模型[3]。因此,在數據預處理過程中,缺失數據的處理是一個重要的環節。

目前,國外對數據缺失問題的研究取得了很多成果,提出了最近似值替換方法、隨機回歸填補法、神經網絡、貝葉斯網絡等理論來解決缺失數據填充問題。國內對填充缺失數據的研究還處在一個開始的階段,只有銀行、保險業等在針對其自身具體的應用進行了缺失數據處理的研究。

總體上說,對缺失值的處理分為三大類:刪除元組、數據填充和不處理[4]。其中,處理數據缺失最簡單的方法是刪除元組,當缺少類標號時通常這樣做(假定挖掘任務設計分類),但是當每個屬性缺少值的百分比變化很大時,該方法性能特別差[5]。處理數據缺失的有效方法是使用最可能的值填充缺失值,可以用回歸、貝葉斯形式化的基于推理的工具或決策樹歸納確定[6]。近年來,學術界提出了很多數據填充算法。宮義山提出了基于貝葉斯網絡的缺失數據處理方法[7],彭紅毅針對數據之間存在相關性且為非高斯分布這種情況提出了ICA-MDH數據估計方法[8],Hruschkaetal.使用貝葉斯算法對實例中的缺失值進行估計[9]。

在眾多算法中,EM算法能通過穩定、上升的步驟可靠地找到全局最優值,算法適應性更強。盡管Gibbs抽樣(Gibbs samplig)[10]、GEM(Generalized EM)算法、Monte Carlo EM算法都改進了EM算法,但EM算法收斂速度慢的缺點仍然沒有得到很好的解決。基于此,本文提出結合樸素貝葉斯分類改進傳統EM算法的方法填充缺失數據的新算法。給EM初始值界定了范圍,提高了EM算法的收斂速度和算法的穩定性,克服了邊緣值造成EM算法結果偏差大的缺點,實現了良好的缺失數據填充效果。

1 樸素貝葉斯分類的EM數據填充算法及其改進

1.1 符號定義

首先對算法中使用到的符號進行定義,如表1。

表1 符號定義一覽表

1.2 傳統EM算法介紹

EM(期望最大化)算法是一種流行的迭代求精算法,它的每一步迭代都由一個期望步(expectation step)和一個最大化步(maximization step)組成。其基本思想是,首先估計出缺失數據初值,計算出模型參數的值,然后再不斷迭代執行E步和M步,對估計出的缺失數據值進行更新,直到收斂。EM算法的具體描述如下:

(1)隨機選擇K個對象代表簇的中心,以此猜測其他的參數;

(2)反復執行E步和M步對參數進行求精,直到收斂。

①E(期望)步:用概率 P(Xi∈Ck)將每個對象 X指派到簇 Ck。

其中,P(Xi|Ck)表示簇 Ck中 Xi的概率,是對象 Xi的簇隸屬概率。

1.3 EM算法改進

EM算法隨機選擇對象作為簇的中心,會導致EM算法聚類結果的不穩定性,以及邊緣數據對整個算法影響過大,使得填充數據正確率偏低。本文提出了基于樸素貝葉斯的EM缺失數據填充算法。本算法使用樸素貝葉斯算法對源數據進行分類,將分類結果作為EM算法使用范圍,在每個類中反復執行E步M步直至收斂,充分利用了EM算法容易達到局部最優的優點,使得EM算法更好地聚類,更快地收斂,從而得到更準確的數據填充值。本文算法的具體描述如下:

(1)利用樸素貝葉斯算法對源數據進行分類;

其中,P(Li)為先驗概率,等于 SCi/Sd。

P(X/Li)為Li條件下X的條件概率密度函數。假定X/Li為一整體T,該概率密度函數母體ξ是離散型,則L(θ∧;T1,T2,…,Tn)=L(θ;T1,T2,…,Tn),滿足這個式子的 θ∧(T1,T2,…,Tn)就有可能產生 T1,T2,…,Tn的參數 θ的值,其 相 應 的 統 計量 θ∧(ξ1,ξ2,…,ξn)稱 作 θ的 極 大似然估計量。如果該概率密度函數母體ξ是連續型,則只需求出使得 L(θ∧;T1,T2,…,Tn)=∏f(Ti;θ)達到極大的θ∧(T1,T2,…,Tn),便可得到極大似然估計,即InL(θ∧;T1,T2,…,Tn)=L(θ;T1,T2,…,Tn)。

計算出P(Li/X),分類法將預測X屬于具有最高后驗概率(條件X下)的類。即樸素貝葉斯分類預測X屬于類 Ci,當且僅當 P(Ci/X)>P(Cj/X)1≤j

這樣就得出了每個數據元組X所屬的類,分類完成。

(2)利用(1)分類的結果分別作為新的數據集,在這些數據集中分別使用EM算法計算期望最大化值。

在類 L1,L2,…,Lw這 W 個分類中,分別選出 K個對象代表簇的均值,再反復執行E步和M步對參數進行求精,直到收斂。

E(期望)步:用概率 P(XLi∈CLiK)分別將類 Li中的每個對象XLi指派到簇CLiK中。

算法收斂后,用計算得到的最大化值mLik作為類Li中簇k的最大化值,并使用這個值填充缺失數字。

1.4 算法偽代碼實現

上節描述的算法由程序實現,具體的算法偽代碼如下:

(2)將樸素貝葉斯算法的分類結果分別作為EM的初始范圍。分別在每個類中使用EM算法,計算出期望最大值。

2 實驗結果及分析

從UCI機器學習數據庫中,選取4個沒有數據缺失的完整數據集,表2列出了它們的詳細信息。

表2 論文中使用的數據集

實驗設計具體步驟如下:

(1)將原始數據集準備二份,一份作為原始集,一份作為測試集。用MCAR(missing completely at random,完全隨機缺失)方法隨機去掉測試集的不同比率的屬性值,并剔除原有類標;

(2)使用本文算法對(1)后的測試集的屬性值和類標進行預測,填充缺失值和類標志;

(3)反復進行試驗20次;

(4)本文使用填充數據與真實數據的平均絕對離差(MAD)和標準平均離差(RMSD)作為比較標準。其中MAD=|Y填充值i-Y真實數據|/20×n,RMSD=(Y填充值i-Y真實數據)2/n]1/2/20。 其中 Y填充值i表示第 i次填充的數據,Y真實數據是真值,n 表示缺失個數。

對于不同缺失率的數據集,分別使用EM算法和本文算法進行填充,比較結果如表3~表5所示。

表3 缺失率15%下MAD、RMSD比較結果

表4 缺失率30%下MAD、RMSD比較結果

表5 缺失率50%下MAD、RMSD比較結果

由上述三表可以看出,在缺失率不同的情況下與經典EM算法相比,本文算法穩定,且減少了與真實數值的偏差,這樣使得實際運用中的填充數據值更真實地反映數據信息。EM算法提出較早,GEM算法、Monte Carlo EM算法和界定折疊法等都改進了EM算法,相比較于這些算法,本文充分利用了EM算法容易實現局部最優的特點,將EM初始范圍界定在一個類內,使得EM算法很好地聚類和收斂,使得填充值更接近于真實數值。

數據缺失是數據預處理中亟須解決的問題,本文為填充缺失數據提出了基于樸素貝葉斯的EM數據填充算法。該算法使用樸素貝葉斯分類算法的結果作為EM算法的初始范圍,然后按E步M步反復求精,利用得到的最大化值填充缺失數據。該算法充分利用了EM算法容易實現局部最優的特點,使得EM算法更好地聚類,更快地收斂,從而得到更準確的數據填充值。實驗結果表明,該算法得到了預期的效果。由于本論文主要是針對數值型屬性進行分析,下一步的研究是考慮非數值型屬性缺失問題。

[1]GRZYMALA-BUSSE J W.Rough set approach to incomplete data.In∶LNAI 3070,2004∶50~55.

[2](加)Han Jiawei,KAMBER M.數據挖掘概念與設計[M].北京:機械工業出版社,2008.

[3]LAKSHMINARAYAN K,(1999).Imputation of missing data in industrial databases[J],Applied Intelligence 11:259-275.

[4]HUANG X L.A pseudo-nearest-neighbor approach for missing data recovery on Gaussian random data sets[J].Pattern Recognition Letters,2002(23):1613-1622.

[5]GRZYMALA-BUSSE J W,FU M,(2000).A comparison of several approaches to missing attribute values in data min-ing[C].In∶Proc of the 2nd Int’Conf on Rough Sets and Current Trends in Computing.Berlin∶Springer-Verlag,2000:378-385.

[6]ZHANG S C,QIN Y S,ZHU X F,et al.Optimized parameters for missing data imputation.PRICAI06,2006∶1010-1016.

[7]宮義山,董晨.基于貝葉斯網絡的缺失數據處理[J].沈陽工業大學學報,2010,32(1):79-83.

[8]彭紅毅,朱思銘,蔣春福.數據挖掘中基于 ICA的缺失數據值的估計[J].計算機科學,2005,32(12):203-205.

[9]HRUSCHKA E R,EBECKEN N F F.Missing values prediction with K2[J].Intelligent Data Analysis,2002,6(6)∶557-566.

[10]GEMAN S,GEMAN D.Stochastic relaxation,Gibbs distribution and the Bayesian restoration of images[J].IEEE Trans onPattern Analysis and Machine Intelligence,1984(6)∶721.

猜你喜歡
數據挖掘分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
給塑料分分類吧
主站蜘蛛池模板: 伊人久久大香线蕉影院| 一级毛片a女人刺激视频免费| 国产三级毛片| 国产精品视频观看裸模| 亚洲一区二区三区国产精华液| 老司机午夜精品视频你懂的| 露脸真实国语乱在线观看| 午夜激情福利视频| 精品第一国产综合精品Aⅴ| 国产精品美女免费视频大全 | 国产成人精品免费av| 免费一级全黄少妇性色生活片| 久久中文字幕不卡一二区| 精品无码一区二区三区电影| 露脸一二三区国语对白| 99在线视频免费观看| 精品人妻一区无码视频| 日本免费福利视频| 一级爆乳无码av| 国产丝袜无码一区二区视频| 国产欧美日韩一区二区视频在线| 国产精品网曝门免费视频| 熟妇丰满人妻| 在线免费无码视频| 国产18在线播放| 国产精品自在线天天看片| 欧美性精品| 亚洲品质国产精品无码| 国产激爽大片在线播放| 日本免费a视频| 国产精品手机在线观看你懂的| 欧美人人干| 久热99这里只有精品视频6| 91九色国产porny| 久久午夜夜伦鲁鲁片无码免费| 九九久久精品国产av片囯产区| 亚洲免费黄色网| 色婷婷国产精品视频| 国产成人久久777777| 欧美日本在线播放| 国产不卡一级毛片视频| 凹凸精品免费精品视频| 国产精品无码影视久久久久久久| 久久久成年黄色视频| 尤物特级无码毛片免费| 黄色不卡视频| 天天综合天天综合| 最近最新中文字幕在线第一页| 国产欧美视频一区二区三区| 成人日韩精品| 国产免费a级片| 日韩精品一区二区三区swag| 久久国产av麻豆| AV在线天堂进入| а∨天堂一区中文字幕| 国产JIZzJIzz视频全部免费| 日本三级黄在线观看| 久久国产高清视频| 日本成人不卡视频| 亚洲男人天堂2020| 全部无卡免费的毛片在线看| 一级毛片a女人刺激视频免费| 国产精品一区不卡| 精品国产99久久| 91免费在线看| 丁香五月激情图片| 2018日日摸夜夜添狠狠躁| h网站在线播放| 亚洲天堂精品在线| 99re视频在线| 青青热久免费精品视频6| 九九热免费在线视频| 暴力调教一区二区三区| 97青青青国产在线播放| 日韩黄色大片免费看| 香蕉伊思人视频| 亚洲成人网在线播放| 国产h视频免费观看| 国产波多野结衣中文在线播放| 久久久久免费看成人影片| 国产网站免费观看| 青青草国产一区二区三区|