999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于極限學(xué)習(xí)機(jī)的缺失數(shù)據(jù)填充方法

2016-11-08 08:36:14盧誠波
計算機(jī)應(yīng)用與軟件 2016年10期
關(guān)鍵詞:方法

楊 毅 盧誠波

(麗水學(xué)院工程與設(shè)計學(xué)院 浙江 麗水 323000)

?

一種基于極限學(xué)習(xí)機(jī)的缺失數(shù)據(jù)填充方法

楊毅盧誠波

(麗水學(xué)院工程與設(shè)計學(xué)院浙江 麗水 323000)

數(shù)據(jù)處理過程中經(jīng)常會遇到不完備數(shù)據(jù)需要填充的問題,尋求簡單有效的缺失數(shù)據(jù)填充方法非常重要。針對該情況,提出一種基于極限學(xué)習(xí)機(jī)ELM(Extreme Learning Machine)的缺失數(shù)據(jù)填充方法,通過極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)建模,建立需要填充的缺失屬性與其他屬性的非線性映射模型。實(shí)驗結(jié)果表明:該方法具有非常好的填充效果。

極限學(xué)習(xí)機(jī)缺失數(shù)據(jù)填充UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫

0 引 言

在信息處理過程中,經(jīng)常會遇到數(shù)據(jù)集不完整的情況,通常稱之為缺失數(shù)據(jù)。數(shù)據(jù)缺失產(chǎn)生原因很多,如人為疏忽被遺漏、信息屬性值不存在和客觀條件難以采集等,數(shù)據(jù)缺失普遍發(fā)生在各個研究領(lǐng)域。處理缺失數(shù)據(jù)最常用的方法是丟棄數(shù)據(jù)中不完整的點(diǎn),只采用數(shù)據(jù)中完整的點(diǎn),用減少樣本量換取信息的完備,但這樣會浪費(fèi)大量的采集資料,遺漏了隱藏在丟棄數(shù)據(jù)中的信息。特別是當(dāng)樣本容量較小時,丟棄數(shù)據(jù)會嚴(yán)重影響到數(shù)據(jù)的客觀性和多樣性。因此對缺失數(shù)據(jù)進(jìn)行填充是一項非常重要的工作。

對缺失數(shù)據(jù)進(jìn)行填充的傳統(tǒng)方法有零填充、均值填充、熱卡填充、回歸填充和多重填充等[1-3]。零填充指的是將缺失值用零替代,但只有當(dāng)缺失值近似為零時,零填充才能有較好的效果。均值填充指的是將缺失值用已知數(shù)據(jù)的平均值替換,這種方法也會產(chǎn)生有偏估計。熱卡填充指的是在數(shù)據(jù)集中找到一個與它最相似的值,將缺失值用這個近似值替代,該方法比較耗費(fèi)時間。K近鄰填充是熱卡填充的一種方法,它是找到數(shù)據(jù)集中與缺失數(shù)據(jù)的歐氏距離最小的K個點(diǎn),用這K個點(diǎn)的平均值替換缺失值?;貧w填充指的是將缺失值用缺失數(shù)據(jù)的條件期望替代。多重填充是用一組近似值替換每個缺失值,再用標(biāo)準(zhǔn)的統(tǒng)計分析過程對多次替換后產(chǎn)生的若干數(shù)據(jù)進(jìn)行分析、比較,得到缺失值的估計值。

極限學(xué)習(xí)機(jī)ELM是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)學(xué)習(xí)算法,網(wǎng)絡(luò)的輸入權(quán)為隨機(jī)給定,輸出權(quán)則通過最小二乘法計算得到。整個訓(xùn)練過程一次完成,不需要迭代過程。與已知的BP算法和支持向量機(jī)等算法相比,具有執(zhí)行過程簡單、運(yùn)行速度快且泛化性能好等特點(diǎn)。該算法已被廣泛地應(yīng)用到模式分類、回歸問題[7]、圖像識別[8,9]、高維數(shù)據(jù)的降維算法[10]等各個領(lǐng)域,均取得了非常好的效果。本文基于極限學(xué)習(xí)機(jī)提出一種新的缺失數(shù)據(jù)填充方法。

1 基于極限學(xué)習(xí)機(jī)的缺失數(shù)據(jù)填充方法

2004年,黃廣斌等提出極限學(xué)習(xí)機(jī)算法[4-6],該算法只需要設(shè)置單隱層前饋神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)個數(shù),在算法執(zhí)行過程中不需要調(diào)整網(wǎng)絡(luò)的輸入權(quán)和隱元的偏置,并產(chǎn)生唯一的最優(yōu)解。

給定樣本容量為N的樣本(xi,yi),其中i≤N,xi∈Rn且yi∈Rm,xi是輸入的樣本值,yi是輸出的期望值。隱層節(jié)點(diǎn)數(shù)為L的單隱層前饋神經(jīng)網(wǎng)絡(luò)可表示如下:

(1)

其中βi=(βi1,βi2,…,βim)T是輸出外權(quán),f(x)是激活函數(shù),ωi和xj的內(nèi)積,oj是輸出的真實(shí)值,如圖1所示。式(1)可表達(dá)成矩陣的形式如下:

Hβ=O

(2)

其中 O=(o1,o2,…,oN)T。

(3)

圖1 輸入權(quán)和隱層偏置隨機(jī)給定的單隱層前饋神經(jīng)網(wǎng)絡(luò)

令O=y,其中y=(y1,y2,…,yN)T,則式(2)可表達(dá)成:

Hβ=y

(4)

極限學(xué)習(xí)機(jī)算法的基本思想是:隨機(jī)選取ωi和bi,然后利用β=H?y計算輸出外權(quán),其中H?表示H的廣義逆。利用正交投影法求H的廣義逆可得:

H?=(HTH)-1HT

為了權(quán)衡經(jīng)驗風(fēng)險和結(jié)構(gòu)風(fēng)險,進(jìn)一步提高網(wǎng)絡(luò)的泛化性能,文獻(xiàn)[11-14]研究了正則極限學(xué)習(xí)機(jī),其數(shù)學(xué)模型為:

(5)

式中,誤差‖ε‖2代表經(jīng)驗風(fēng)險,‖β‖2代表結(jié)構(gòu)風(fēng)險,它來自于統(tǒng)計學(xué)中邊緣距離最大化原理;而γ是兩種風(fēng)險的比例參數(shù),用來權(quán)衡這兩種風(fēng)險。

求解上述模型,可得:

(6)

本文設(shè)計的基于極限學(xué)習(xí)機(jī)進(jìn)行缺失數(shù)據(jù)填充的主要思想是:利用樣本集中完備的樣本進(jìn)行極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)建模,建立需要填充的缺失屬性與其他屬性的非線性映射模型。例如,若需填充樣本的缺失屬性為第1個屬性,則將第2個屬性至第n個屬性的值構(gòu)造成輸入向量,將第1個屬性的值作為輸出向量,利用數(shù)據(jù)集中的完備樣本訓(xùn)練網(wǎng)絡(luò)的外權(quán)矩陣β。最后,將缺失樣本的數(shù)據(jù)代入網(wǎng)絡(luò),獲得屬性1的估計值。

該算法的具體步驟如下:

第1步根據(jù)完備樣本的數(shù)目確定合適的隱層節(jié)點(diǎn)個數(shù);

第2步利用完備樣本,將缺失屬性值作為輸出值,其他屬性的值作為輸入值,通過極限學(xué)習(xí)機(jī)建立缺失樣本中的缺失屬性與其他屬性的非線性映射模型,計算式(6)中的β;

第3步利用缺失樣本的剩余屬性值計算H, 最后利用式(4)計算缺失屬性值。

2 仿真實(shí)驗

實(shí)驗將本文的填充方法與零填充、均值填充、K近鄰填充方法在廣義平均絕對誤差和聚類純度兩個指標(biāo)上進(jìn)行比較。

廣義平均絕對誤差(GMAD)可表達(dá)如下:

(7)

聚類純度(Purity)[15]表示如下:

其中S={s1,s2,…,sk}表示數(shù)據(jù)集真實(shí)的聚類,s1表示落入s1中的樣本數(shù)據(jù),C={c1,c2,…,ck}表示人為給予的分類,c1表示落入c1中的樣本數(shù)據(jù),N為樣本數(shù)據(jù)的數(shù)量。顯然,聚類純度越大意味著填充后的數(shù)據(jù)有效性越高。

本文所用的數(shù)據(jù)集來自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫的鳶尾屬植物數(shù)據(jù)集、乳腺癌數(shù)據(jù)集、種子數(shù)據(jù)集、精液活力數(shù)據(jù)集和僧侶問題數(shù)據(jù)集。

(1) 鳶尾屬植物數(shù)據(jù)集由Fisher于1936年提供,數(shù)據(jù)集包含3個類別的鳶尾屬植物,每個類別有50個數(shù)據(jù)。其中,第一類與第二、三兩類是線性可分的,而第二類與第三類是非線性可分的。

(2) 種子數(shù)據(jù)集由波蘭科學(xué)院的農(nóng)業(yè)研究所提供,該數(shù)據(jù)集包含3類小麥內(nèi)核幾何結(jié)構(gòu)的測量值。實(shí)驗者用X射線技術(shù)掃描種子內(nèi)核,把成像圖記錄在13×18厘米的X射線柯達(dá)板上,并獲取相關(guān)數(shù)據(jù)。

(3) 乳腺癌數(shù)據(jù)集是由Ljublijana大學(xué)醫(yī)學(xué)中心腫瘤研究所的Matjaz Zwitter和Milan Soklic提供。數(shù)據(jù)集包含2類:良性腫瘤和惡性腫瘤,每類分別為201個數(shù)據(jù)和85個數(shù)據(jù)。

(4) 精液活力數(shù)據(jù)集是根據(jù)WHO 2010標(biāo)準(zhǔn)對100個志愿者的精液分析得到的數(shù)據(jù),精液樣本被分為正常與不正常兩類。該數(shù)據(jù)集由Alicante大學(xué)計算機(jī)系的David Gil和生物系的Jose Luis Girela提供。

(5) 僧侶問題數(shù)據(jù)集由Carnegie Mellon 大學(xué)計算機(jī)學(xué)院的Sebastian Thrun提供給UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫,通常被用于測試歸納算法。

實(shí)驗中采用5-折交叉驗證[16],數(shù)據(jù)集平均分成5份,其中4份作為訓(xùn)練數(shù)據(jù)集,另外1份作為測試數(shù)據(jù)集,輪流讓其中的1份作為測試樣本,其余4份作為訓(xùn)練樣本,實(shí)驗結(jié)果取平均值。

實(shí)驗中依次將測試樣本中的前若干個屬性作為缺失屬性;然后由完備樣本(即訓(xùn)練樣本),利用極限學(xué)習(xí)機(jī)算法建立缺失屬性與其他屬性之間的非線性映射關(guān)系;最后利用這個映射關(guān)系對測試樣本進(jìn)行填充。通過比較填充數(shù)據(jù)與真實(shí)數(shù)據(jù)的廣義平均絕對誤差和聚類純度兩個指標(biāo)來評價填充數(shù)據(jù)的效果。

使用的仿真軟件為Matlab R2013a,聚類算法采用Matlab 模式識別工具箱中的kmeans函數(shù)。該實(shí)驗環(huán)境為:Windows XP操作系統(tǒng),AMD Athlon(tm)II X2 250 Processor 3.01 GHz,2 GB內(nèi)存。

表1給出了四種填充方法在5個數(shù)據(jù)集上的廣義平均絕對誤差比較和實(shí)驗數(shù)據(jù)的細(xì)節(jié)。由表1可見,對于鳶尾屬植物數(shù)據(jù)集和種子數(shù)據(jù)集,在四種填充算法中,極限學(xué)習(xí)機(jī)填充方法得到的廣義的平均絕對誤差最??;對于乳腺癌數(shù)據(jù)集、精液活力數(shù)據(jù)集和僧侶問題數(shù)據(jù)集,極限學(xué)習(xí)機(jī)填充方法在多數(shù)情況下得到的廣義的平均絕對誤差最小,這意味著利用極限學(xué)習(xí)機(jī)填充方法得到的填充數(shù)據(jù)更接近真實(shí)值。

表1 四種填充方法在5個數(shù)據(jù)集上的廣義平均絕對誤差比較和實(shí)驗數(shù)據(jù)的細(xì)節(jié)

圖2-圖6給出了四種填充方法在5個UCI數(shù)據(jù)集上的聚類純度比較。可以看出,對于鳶尾屬植物數(shù)據(jù)集、種子數(shù)據(jù)集和乳腺癌數(shù)據(jù)集,在四種填充算法中,極限學(xué)習(xí)機(jī)填充方法得到的聚類純度最高;對于精液活力數(shù)據(jù)集,四種方法取得的聚類純度幾乎相同;對于僧侶問題數(shù)據(jù)集,極限學(xué)習(xí)機(jī)填充方法在多數(shù)情況下得到的聚類純度最高,這意味著利用極限學(xué)習(xí)機(jī)填充方法得到的填充數(shù)據(jù)更具有使用價值。綜上所述,本文提出的極限學(xué)習(xí)機(jī)填充方法在多數(shù)情況下能取得比其他三種經(jīng)典的填充方法更好的填充效果。

圖2 四種填充方法在鳶尾屬植物數(shù)據(jù)集數(shù)據(jù)集上的聚類純度比較

圖3 四種填充方法在種子數(shù)據(jù)集上的聚類純度比較

圖4 四種填充方法在乳腺癌數(shù)據(jù)集上的聚類純度比較

圖5 四種填充方法在精液活力數(shù)據(jù)集上的聚類純度比較

圖6 四種填充方法在僧侶問題數(shù)據(jù)集上的聚類純度比較

3 結(jié) 語

本文提出了一種基于極限學(xué)習(xí)機(jī)的缺失數(shù)據(jù)填充方法,利用極限學(xué)習(xí)機(jī)建立缺失屬性與其他屬性之間的非線性映射關(guān)系,并利用這種映射關(guān)系進(jìn)行缺失屬性填充。 零填充和均值填充執(zhí)行過程簡單、速度較快,但執(zhí)行過程中沒有進(jìn)行充分的學(xué)習(xí),填充效果較差。K近鄰填充比零填充和均值填充的填充效果要好,但當(dāng)樣本容量較大時,由于要計算缺失樣本中每個樣本點(diǎn)與完備樣本中每個樣本點(diǎn)的歐氏距離,運(yùn)算量很大,嚴(yán)重影響其運(yùn)算速度。實(shí)驗表明,新的填充方法是有效的。

[1] 龐新生.缺失數(shù)據(jù)處理方法的比較[J].統(tǒng)計與決策,2010(24):152-155.

[2] 金勇進(jìn).缺失數(shù)據(jù)的插補(bǔ)調(diào)整[J].數(shù)理統(tǒng)計與管理,2001,20(5):47-53.

[3] 何凱濤,陳明,張治國,等.用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行空間不完備數(shù)據(jù)的插補(bǔ)[J].地質(zhì)通報,2005,24(5):476-479.

[4] Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1-3):489-501.

[5] Huang G B,Chen L.Convex incremental extreme learning machine[J].Neurocomputing,2007,70(16-18):3056-3062.

[6] Ding S F,Zhao H,Zhang Y N,et al.Extreme learning machine:algorithm, theory and applications[J].Artificial Intelligence Review,2015,44(1):103-115.

[7] Huang G B,Zhou H M,Ding X J,et al.Extreme learning machine for regression and multiclass classification[J].Systems, Man & Cybernetics, Part B: Cybernetics, IEEE Transactions on,2012,42(2):513-529.

[8] Zhang L,Zhang Y,Li P.A novel Bio-inspired image recognition Network with Extreme Learning Machine[C]//Proceedings of ELM-2014:Algorithms and Theories,2015,1:131-139.

[9] Dwiyasa F,Lim M H.Extreme learning machine for active RFID location classification[C]//Proceedings of the 18th Asia Pacific Symposium on Intelligent and Evolutionary Systems,2015,2:657-670.

[10] Feng L,Wang J,Liu S L,et al.Multi-label dimensionality reduction and classification with Extreme learning machines[J].Journal of Systems Engineering & Electronics,2014,25(3):502-513.

[11] Deng W Y,Zheng Q H,Chen L.Regularized extreme learning machine[C]//IEEE Symposium on Computational Intelligence and Data Mining,2009:389-395.

[12] 鄧萬宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計算機(jī)學(xué)報,2010,33(2):279-287.

[13] Martínez-Martínez J M,Escandell-Montero P,Soria-Olivas E, et al.Regularized extreme learning machine for regression problems[J].Neurocomputing,2011,74(17):3716-3721.

[14] Yu Q,Miche Y,Eirola E,et al.Regularized extreme learning machine for regression with missing data[J].Neurocomputing,2013,102:45-51.

[15] He Q,Jin X,Du C Y,et al.Clustering in extreme learning machine feature Space[J].Neurocomputing,2013,128:88-95.

[16] Zhao Y P,Wang K K.Fast cross validation for regularized extreme learning machine[J].Journal of Systems Engineering & Electronics,2014,25(5):895-900.

A METHOD FOR MISSING DATA IMPUTATION BASED ON EXTREME LEARNING MACHINE

Yang YiLu Chengbo

(FacultyofEngineeringandDesign,LishuiUniversity,Lishui323000,Zhejiang,China)

In data processing process the problems of having to impute incomplete data are often encountered, so it is important to look for a simple and effective missing data imputation method. In view of this, the paper presents an extreme learning machine-based method for missing data imputation. Based on extreme learning machine modelling it builds a nonlinear mapping model of missing attributes with the need of imputation as well as other attributes. Experimental result shows that the new algorithm has excellent performance in imputation.

Extreme learning machineMissing data imputationUCI machine learning database

2015-04-27。國家自然科學(xué)基金項目(11171137);浙江省自然科學(xué)基金項目(LY13A010008)。楊毅,講師,主研領(lǐng)域:人工神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)。盧誠波,副教授。

TP181TP183

A

10.3969/j.issn.1000-386x.2016.10.054

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 99热国产这里只有精品无卡顿"| 91福利片| 国产一级片网址| 全部免费毛片免费播放 | 国产精品网拍在线| 成人午夜精品一级毛片| 四虎亚洲精品| 99性视频| 啪啪啪亚洲无码| 永久免费av网站可以直接看的 | 国产黑人在线| 国产一区二区三区在线观看视频| 综合天天色| 六月婷婷精品视频在线观看| 天天摸夜夜操| 婷婷综合亚洲| 亚洲欧美一区二区三区麻豆| www.99精品视频在线播放| 中文字幕在线永久在线视频2020| 91小视频在线观看免费版高清| 精品久久综合1区2区3区激情| 第九色区aⅴ天堂久久香| 国产欧美在线| 福利姬国产精品一区在线| 伊人AV天堂| 日韩二区三区| 久久婷婷国产综合尤物精品| 高清欧美性猛交XXXX黑人猛交| 国产亚洲精品精品精品| 亚洲欧洲综合| 婷婷色婷婷| 精品国产亚洲人成在线| 国产精品自在自线免费观看| 自慰网址在线观看| 国产成人91精品| 欧美人在线一区二区三区| 99er这里只有精品| 中文字幕色在线| 国产在线精彩视频二区| 在线精品亚洲一区二区古装| 国产无码制服丝袜| 色综合狠狠操| 天堂网国产| 黄色在线网| 亚洲va视频| 国产亚洲一区二区三区在线| 免费无码网站| 日本人妻一区二区三区不卡影院 | 久精品色妇丰满人妻| 精品无码一区二区三区在线视频| 亚洲一级无毛片无码在线免费视频| 国产精品页| 青青草a国产免费观看| 伊人久久久久久久久久| 成人噜噜噜视频在线观看| 久久国产精品电影| a国产精品| 久久这里只有精品23| 色AV色 综合网站| 东京热av无码电影一区二区| 亚洲精品无码AⅤ片青青在线观看| 国产精品亚洲专区一区| 91视频区| 91精品伊人久久大香线蕉| 欧美精品1区| 婷婷午夜天| 国产精品一区二区国产主播| 女人天堂av免费| 欧美丝袜高跟鞋一区二区 | 在线国产毛片| 国产精品30p| 婷婷色中文网| 国产性生交xxxxx免费| 男人天堂伊人网| av在线无码浏览| 国产一级在线观看www色| 久久精品波多野结衣| 精品一区二区三区无码视频无码| 国产午夜福利在线小视频| 中文字幕亚洲另类天堂| 97色伦色在线综合视频| 亚洲av综合网|