999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

缺失數(shù)據(jù)處理方法綜述

2021-11-07 01:53:08張?zhí)m秋月
電腦知識(shí)與技術(shù) 2021年25期

張?zhí)m秋月

摘要:伴隨著信息技術(shù)的飛速發(fā)展,城市越來(lái)越智能化。萬(wàn)物互聯(lián),不同的傳感器隨時(shí)產(chǎn)生著大量的數(shù)據(jù),這些數(shù)據(jù)廣泛地應(yīng)用于后續(xù)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域。然而在數(shù)據(jù)收集過(guò)程中無(wú)法避免數(shù)據(jù)的缺失。文中介紹了當(dāng)前缺失數(shù)據(jù)恢復(fù)領(lǐng)域面臨的問(wèn)題和挑戰(zhàn),闡述了缺失數(shù)據(jù)定義及缺失數(shù)據(jù)分類機(jī)制,針對(duì)上述兩類缺失值處理方法進(jìn)行傳統(tǒng)方法的總結(jié),最后探究深度學(xué)習(xí)如DBN(深度置信網(wǎng)絡(luò))、GAN(生成式對(duì)抗網(wǎng)絡(luò))在缺失數(shù)據(jù)恢復(fù)領(lǐng)域的新進(jìn)展。

關(guān)鍵詞:數(shù)據(jù)缺失;缺失數(shù)據(jù)分類機(jī)制;數(shù)據(jù)插補(bǔ);GAN

中圖分類號(hào):TP301? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)25-0048-03

1引言

1.1? 面臨的挑戰(zhàn)

在數(shù)據(jù)的收集、傳輸、存儲(chǔ)場(chǎng)景中,由于各種不可抗的因素,會(huì)造成部分?jǐn)?shù)據(jù)丟失的情況,這種現(xiàn)象也被稱為數(shù)據(jù)缺失。數(shù)據(jù)缺失的現(xiàn)象是從出現(xiàn)數(shù)據(jù)統(tǒng)計(jì)就出現(xiàn)的,但最初并未引起學(xué)者們的重視 [1]。隨著信息技術(shù)的發(fā)展我們進(jìn)入了信息時(shí)代,各行各業(yè)產(chǎn)生的數(shù)據(jù)呈爆發(fā)增長(zhǎng)的態(tài)勢(shì),這些數(shù)據(jù)存在一些新的特點(diǎn),如數(shù)據(jù)的體量特別龐大,且具有強(qiáng)耦合性、高維的特點(diǎn);大量由傳感器產(chǎn)生的數(shù)據(jù)不確定很強(qiáng);同一個(gè)數(shù)據(jù)集中,數(shù)據(jù)類型多樣;測(cè)量過(guò)程中由于整個(gè)系統(tǒng)的復(fù)雜性導(dǎo)致的多時(shí)變性與不完整性。故傳統(tǒng)的數(shù)據(jù)恢復(fù)方法已經(jīng)不能解決如高維數(shù)據(jù)缺失的問(wèn)題。

數(shù)據(jù)缺失的情況不僅僅會(huì)在科學(xué)研究過(guò)程中出現(xiàn),在常規(guī)的面向群體的調(diào)查中也會(huì)存在,我們將一些沒(méi)有辦法直接獲得和因?yàn)樵O(shè)備故障等客觀原因丟失的數(shù)據(jù)叫做缺失數(shù)據(jù)。數(shù)據(jù)缺失會(huì)對(duì)下游分析任務(wù)如:機(jī)器學(xué)習(xí)中的分類聚類、數(shù)據(jù)分析挖掘和潛在知識(shí)發(fā)現(xiàn)帶來(lái)嚴(yán)重的阻礙。究其原因,數(shù)據(jù)缺失不僅會(huì)降低數(shù)據(jù)的有效性,還會(huì)導(dǎo)致整個(gè)數(shù)據(jù)分析任務(wù)不精準(zhǔn),產(chǎn)生錯(cuò)誤的分析結(jié)果,因此對(duì)缺失數(shù)據(jù)的處理顯得極其重要。

1.2 缺失數(shù)據(jù)分類

數(shù)據(jù)缺失按照其缺失的形式如圖1所示[2]。我們按照這種分類方法能夠直觀的認(rèn)識(shí)數(shù)據(jù)集中不同數(shù)據(jù)之間的關(guān)系,明確數(shù)據(jù)集中存在的數(shù)據(jù)和缺失數(shù)據(jù)是如何構(gòu)成的。

第二種分類方法關(guān)注缺失值在數(shù)據(jù)中的分布情況,具體描述如表1所示。

其中隨機(jī)缺失如公式(1)所示,數(shù)據(jù)集Y缺失值數(shù)據(jù)Ymis的概率與其本身沒(méi)有關(guān)系,但與其觀測(cè)到的值Yobs有關(guān)。

完全隨機(jī)缺失如公式(2)所示,其中缺失數(shù)據(jù)Ymis與觀測(cè)到的數(shù)據(jù)Yobs沒(méi)有任何關(guān)系。

2缺失值處理方法

2.1刪除法

2.1.1成列刪除與成對(duì)刪除

成列刪除的思想是:在任意個(gè)案中存在某個(gè)變量的缺失,便簡(jiǎn)單地將該個(gè)案所有數(shù)據(jù)從分析中排除,也稱為個(gè)案刪除[3]。低于5%的缺失個(gè)案可以被認(rèn)為是MAR,此時(shí)通過(guò)傳統(tǒng)方法中的成列刪除是比較安全合理的。

對(duì)應(yīng)的成對(duì)刪除的思想是:不直接刪除存在數(shù)據(jù)缺失的個(gè)案,在對(duì)其他無(wú)缺失變量進(jìn)行計(jì)算時(shí)納入計(jì)算,又稱成對(duì)刪除為可得個(gè)案分析。假設(shè)數(shù)據(jù)為MCAR,成對(duì)刪除在大樣本中會(huì)接近無(wú)偏差,與成列刪除相比將會(huì)產(chǎn)生更有效的估計(jì)值。

2.2插補(bǔ)法

2.2.1均值插補(bǔ)

從數(shù)據(jù)屬性角度講,可以分成定距型和非定距型兩類。我們可以將定距屬性的平均值進(jìn)行缺失數(shù)據(jù)的補(bǔ)充。相似的對(duì)于非定距屬性,插補(bǔ)的值由平均值更換為數(shù)據(jù)中出現(xiàn)次數(shù)最多的值即眾數(shù)。由于均值只有一個(gè),所以該方法又被稱為單一均值插補(bǔ)。填補(bǔ)值如公式(3)所示:

但由于該方法插補(bǔ)的數(shù)據(jù)也是來(lái)自分布中的數(shù)值,將帶來(lái)處理后的數(shù)據(jù)方差與數(shù)據(jù)實(shí)際的方差不同的問(wèn)題。

同類均值插補(bǔ)與均值插補(bǔ)類似,差異在于同類均值插補(bǔ)會(huì)先使用聚類模型對(duì)數(shù)據(jù)進(jìn)行聚類處理,再使用跟缺失數(shù)據(jù)為同一類型的數(shù)據(jù)均值進(jìn)行缺失數(shù)據(jù)的插補(bǔ)[4]。顯然,同類均值插補(bǔ)和單一均值插補(bǔ)相比更為精準(zhǔn),但仍存在一定問(wèn)題,插補(bǔ)的同類數(shù)據(jù)會(huì)引起自相關(guān),在一定場(chǎng)景下會(huì)影響后續(xù)的分析。

2.2.2極大似然估計(jì)

在數(shù)據(jù)缺失類型為MAR的情況下,我們可以利用極大似然估計(jì)對(duì)缺失值進(jìn)行填補(bǔ)[5]。通常情況,我們需要最大化似然度來(lái)求參數(shù)的最優(yōu)值。公式(4)表示含隱變量的極大似然公式,要求得似然度需要對(duì)不可觀測(cè)的隱變量zi進(jìn)行求和或積分,這使得優(yōu)化公式(4)非常困難。

為了解決上述問(wèn)題, EM(最大期望)算法擴(kuò)展了極大似然估計(jì),解決了極大似然估計(jì)問(wèn)題很難得到解析解的問(wèn)題[2]。在大樣本的情況下[6],使用EM算法比簡(jiǎn)單的刪除和單值插補(bǔ)更有用,但其也有計(jì)算復(fù)雜,收斂速度比較慢的缺點(diǎn)。

2.2.3多重插補(bǔ)

多重插補(bǔ)又被稱為多值插補(bǔ),理論基礎(chǔ)為貝葉斯估計(jì)[7]。它認(rèn)為缺失的值是隨機(jī)的,并且來(lái)自于已觀測(cè)到的值。具體操作時(shí),在已得到的待插補(bǔ)值上混合不同的噪聲數(shù)據(jù),形成多組待插補(bǔ)值,隨后根據(jù)具體場(chǎng)景需求,選取最合適的一組進(jìn)行缺失值填補(bǔ)。

3深度學(xué)習(xí)應(yīng)用于數(shù)據(jù)修復(fù)

3.1深度置信網(wǎng)絡(luò)應(yīng)用于傳感器數(shù)據(jù)恢復(fù)(DBN)

深度置信網(wǎng)絡(luò)又可以稱其為一個(gè)概率生成模型[8]。深度置信網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,通俗來(lái)講,網(wǎng)絡(luò)可分為隱藏層和可見(jiàn)層,各層之間有連接,通過(guò)放入數(shù)據(jù)訓(xùn)練,隱藏層可輸出和可見(jiàn)層相關(guān)的數(shù)據(jù)特征。

在大型監(jiān)控系統(tǒng)中,部署了不同位置的傳感器來(lái)收集大量有用的時(shí)間序列數(shù)據(jù),這有助于實(shí)時(shí)數(shù)據(jù)分析及其相關(guān)應(yīng)用。但是,受硬件設(shè)備本身的影響,傳感器節(jié)點(diǎn)通常無(wú)法工作,導(dǎo)致收集的數(shù)據(jù)不完整的常見(jiàn)現(xiàn)象。Jing、Hai等人用深度置信網(wǎng)絡(luò)DBN提取這些時(shí)空相關(guān)數(shù)據(jù)的高級(jí)特征表示,最后通過(guò)單層神經(jīng)網(wǎng)絡(luò)基于這些特征預(yù)測(cè)缺失的數(shù)據(jù)隨后進(jìn)行數(shù)據(jù)插補(bǔ)[9]。

3.2循環(huán)生成式對(duì)抗網(wǎng)絡(luò)應(yīng)用于醫(yī)療數(shù)據(jù)恢復(fù)

生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)包含生成器和鑒別器兩個(gè)部分[10],具體結(jié)構(gòu)如圖3所示。生成式對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程非常有趣,生成器和鑒別器之間相互對(duì)抗。生成器的任務(wù)是生成一個(gè)與真實(shí)數(shù)據(jù)相似的假數(shù)據(jù),鑒別器的任務(wù)則是從數(shù)據(jù)中將生成器產(chǎn)生的假數(shù)據(jù)識(shí)別出來(lái)。

主站蜘蛛池模板: 精品国产免费观看| 999国产精品| 91网红精品在线观看| 亚洲欧美在线综合一区二区三区| 在线免费无码视频| 国产在线日本| 漂亮人妻被中出中文字幕久久 | 国产欧美在线观看精品一区污| 尤物亚洲最大AV无码网站| 午夜国产在线观看| 日韩在线成年视频人网站观看| 欧美日韩中文字幕在线| 91香蕉视频下载网站| 欧美一级高清视频在线播放| 91小视频在线播放| 国产视频久久久久| 精品人妻一区二区三区蜜桃AⅤ| 18禁黄无遮挡免费动漫网站| 亚洲精品人成网线在线| 不卡色老大久久综合网| 欧美不卡在线视频| 国产特级毛片aaaaaaa高清| 日韩欧美成人高清在线观看| 99re视频在线| 国产精品流白浆在线观看| 日本草草视频在线观看| 国产美女主播一级成人毛片| 久草热视频在线| 亚洲日韩每日更新| 四虎在线观看视频高清无码 | 国产一级毛片yw| 久久亚洲中文字幕精品一区| 国产成年女人特黄特色毛片免| 好吊色妇女免费视频免费| 直接黄91麻豆网站| 国产白丝av| 国产成人综合日韩精品无码不卡| 2021天堂在线亚洲精品专区| 国产成人精品优优av| 国产成人禁片在线观看| 91精品福利自产拍在线观看| 五月天在线网站| a级免费视频| 中文国产成人精品久久一| 中文字幕亚洲综久久2021| 国产真实乱人视频| 国产91精品久久| 精品国产成人av免费| 呦视频在线一区二区三区| 国内黄色精品| 波多野吉衣一区二区三区av| 免费毛片在线| 婷婷激情亚洲| 一区二区三区国产精品视频| 中文字幕亚洲乱码熟女1区2区| 天堂va亚洲va欧美va国产| 真人免费一级毛片一区二区 | 无码一区二区三区视频在线播放| 免费女人18毛片a级毛片视频| 伊人91在线| 亚洲三级a| 久久精品一品道久久精品| 国产粉嫩粉嫩的18在线播放91| 亚洲精品国产日韩无码AV永久免费网 | 国产精品视频猛进猛出| 久久国产亚洲偷自| 国产三级毛片| 精品一区二区三区水蜜桃| 国产成人无码Av在线播放无广告| 日本不卡在线视频| 日韩欧美中文字幕在线精品| 国产免费久久精品99re不卡| h网站在线播放| 日本少妇又色又爽又高潮| 岛国精品一区免费视频在线观看| 99热这里只有免费国产精品| 亚洲婷婷六月| 午夜免费视频网站| 久久精品嫩草研究院| 97青青青国产在线播放| 第一页亚洲| 91美女视频在线|