999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

缺失數據插補方法性能比較分析

2021-11-09 01:00:11徐鴻艷孫云山秦琦琳朱明濤
軟件工程 2021年11期

徐鴻艷 孫云山 秦琦琳 朱明濤

摘? 要:數據缺失問題在現實工作生活中不可避免,為保證信息完整度以便于后續統計分析,盡可能準確地預測填補缺失值則顯得尤為重要。基于兩組分別服從于高斯分布和伽馬分布的模擬數據集和一組非洲地區部分國家預期壽命實際數據,分別預設5%、10%和20%三種缺失比例,利用計算機軟件對四種插補方法統計結果進行比較分析。試驗結果表明,模擬數據中自回歸建模插補和均值插補整體效果略優于最近鄰插補和線性回歸插補;實際數據中當缺失數據比例較低時,最近鄰插補和線性回歸插補效果優于前兩者,當缺失比例較高時與模擬數據效果無明顯差異。

關鍵詞:缺失數據;插補方法;自回歸建模

中圖分類號:TP399? ? ?文獻標識碼:A

Comparative Analysis of the Performance of Interpolation

Methods for Missing Data

XU Hongyan1, SUN Yunshan2, QIN Qilin1, ZHU Mingtao2

(1.School of Science, Tianjin University of Commerce, Tianjin 300134, China;

2.School of Information Engineering, Tianjin University of Commerce, Tianjin 300134, China)

2552727224@qq.com; sunyunshan@tjcu.edu.cn; 3099141857@qq.com; 648191948@qq.com

Abstract: Data missing is inevitable. In order to ensure information integrity and follow-up statistical analysis, it is particularly important to predict and fill in missing values as accurately as possible. Based on two sets of simulated data sets that are subject to Gaussian distribution and Gamma distribution respectively, and a set of actual life expectancy data of some countries in Africa, three missing ratios of 5%, 10% and 20% are preset respectively, and the statistical results of the four interpolation methods are compared and analyzed by computer software. The experimental results show that the overall effect of auto-regression modeling interpolation and mean interpolation in simulated data is slightly better than that of K-nearest neighbor interpolation and linear regression interpolation. In actual data, when the proportion of missing data is low, K-nearest neighbor interpolation and linear regression is better than the former two, and there is no significant difference in the effect of the simulated data when the missing ratio is high.

Keywords: missing data; interpolation method; autoregressive

1? ?引言(Introduction)

數據作為一種形式多變的信息載體,如今廣泛存在并應用于各行各業中,尤其是進入大數據時代以來,各類數據信息的完整、準確、充足與否與各行業的發展息息相關。然而由于某些主觀和客觀原因(如數據統計或錄入過程中被遺漏,數據獲取渠道未公開等),不可避免地會存在一些數據缺失的情況[1]。另外,現行的統計方法并不能直接對缺失數據進行統計分析,因而如何處理缺失數據并使其提供最大完整度的信息就成了重中之重。隨著數據缺失這一現實問題逐漸受到重視,國內外相關學者也對其進行了一系列研究。相對而言,國外學者起步更早,早有學者于20 世紀便提出了缺失數據的相關問題。在經過無數次試驗后,學者們發現缺失數據難以避免,因此一系列插補方法應運而生,如加權法、冷熱平臺插補、回歸插補和EM算法等[2]。而我國相關問題的研究起步于21 世紀初,較有代表性的為金勇進教授在其文章《缺失數據的插補調整》中提出的一系列插補方法,而后隨著其他學者的不斷深入學習,除傳統插補方法以外,一些機器學習方法(支持向量機、神經網絡和決策樹等[3])在缺失數據插補上也得到了廣泛應用。

本文旨在通過模擬數據和實際數據對現今應用較為廣泛的幾種數據插補方法進行比較分析,第二部分主要對缺失數據產生的原因和本文中應用到的幾種插補方法進行簡要概述,第三部分基于模擬數據和實際數據進行實證分析,最后針對試驗結果得出結論。

2? ?缺失數據概述(An overview of missing data)

2.1? ?缺失數據產生原因及分類

從數據的收集、整理、處理到應用,任何一個環節出現問題都可能會造成數據信息的遺失,我們根據各類數據的不同階段將其缺失原因主要分為以下幾種:(1)調查人員調查不足造成資料中的數據丟失;(2)統計人員在數據錄入過程中出現失誤,或因數據采集設備故障等原因引起數據缺失;(3)被調查人員的主觀失誤或有意隱瞞造成的數據缺失[4];(4)歷史原因造成的數據缺失;(5)未公開數據難以獲取和其他原因造成的數據缺失,等等。

而關于缺失數據的分類,隨著近年來缺失數據問題研究的不斷發展和相關學者研究的不斷深入,我們既可根據缺失機制將其分為隨機缺失、完全隨機缺失和非隨機缺失[5]三類,也可根據數據的缺失模式將其分為單變量缺失模式、多變量缺失模式[6]、單調缺失模式和一般缺失模式四類,各類別的具體含義于其他相關文獻中均有較為詳細的介紹,我們這里不作贅述。

2.2? ?缺失數據處理方法

對于缺失數據的處理方式,較為簡單的主要有不處理和直接刪除法。前者主要包括直接在含空值的數據上進行數據挖掘處理的貝葉斯網絡和人工神經網絡[7]等,但這種處理方式大多認為補齊后的數據不一定符合客觀事實,錯誤地填充會導致錯誤的結果,因此仍希望在保持原始信息不發生變化的情況下對信息系統進行處理[8]。后者操作簡單,但假設條件較高,容易產生估計偏差,且簡單刪除存在缺失的數據會損失大量信息進而影響信息的客觀性與結果的準確性,因此人們在對缺失數據進行預處理時,除缺失比例極小的情況外通常也不會采用此方法。因此,插補法相對來說目前更符合常理且易被各界學者及研究人員接受,即基于數理統計等原理對數據集中的缺失部分作填充處理,使得數據集變得完整以便開展下一步工作,其主要用于處理項目無回答而造成的數據缺失,可保證數據分析的基本樣本量。目前應用較為廣泛的插補法主要有特殊值替換(均值替代、眾數中位數替代等)、多重插補、冷熱卡插補、KNN、EM算法和各類機器學習插補法等。此外,張量補全法、隨機森林算法、樸素貝葉斯等新型插補方法也在某些領域的缺失數據處理上有著一定的應用,本文將對以下幾種插補方法結果做比較分析。

2.2.1? ?最近鄰插補方法

最近鄰插補方法(K-Nearest Neighbor, KNN),整體思路較為簡單,即缺失數據插補過程中,缺失位置數值根據其特征空間內相鄰最近的K個觀測值決定,根據距離遠近決定分類歸屬,其主要不足為計算量較大,且缺失比例較大或缺失數據點大量連續時計算機運行難以得到預測結果,因此其較適用于類域存在交叉和重疊的待估計樣本點分類問題。該分類算法主要分為以下四個步驟:

步驟1:導入全部已知觀測數據與待估計數據;

步驟2:計算每個待估計樣本點(缺失數據點)到其他已知觀測值的距離D;

步驟3:對每個計算得出的距離D進行排序,并選出距離最小的K個點;

步驟4:對上述選出的K個所屬類別進行比較后,將待估計樣本點歸入在K個已知觀測點中占比最高的那類。

2.2.2? ?均值插補與線性回歸插補

均值插補作為一種操作簡便且快速的缺失數據處理方式,與眾數、中位數等插補方法同屬于傳統統計插補,主要分為單一插補和分層插補兩大類,其缺點為容易造成變量方差和標準差變小,相對而言更適用于分布較為平均且已知樣本量信息較多的數據插補問題。

而線性回歸插補的主要思想則為,利用已知觀測樣本點建立線性回歸模型,估計回歸模型參數進而對缺失樣本點進行預測填補,其主要局限在于當模型中的變量非線性相關或預測變量高度相關時,容易產生有偏估計。

2.2.3? ?自回歸建模插補

自回歸建模方法多用于傳統統計學中處理時間序列預測的相關問題研究,后經過相關學者的不斷深入研究,逐漸在信號處理中的缺失音頻圖文填充、缺失數據預測等方面也有了廣泛應用。其主要特點在于不僅能處理因自身因素而受影響的預測問題,還能建立向量自回歸模型處理因其他因素受影響的缺失數據預測插補問題。對于本文中非時間序列的預測問題,則可以利用已知觀測數據進行正向和反向自回歸擬合推斷而來的估計值代替缺失數據,該方法主要運算步驟為:

步驟1:將已知觀測數據X(k)和待估計數據X(1)的總數據變換為:

步驟2:設定總樣本數據自回歸模型的階數上限I,為避免排除有效模型,I應該設定得足夠大。

步驟3:計算樣本自協方差:

步驟4:通過最小二乘法擬合階自回歸模型。

步驟5:通過比較FPE(Final Prediction Error,最終預報誤差)大小得出最終預測結果,整個運算過程我們可通過計算機程序來實現。

3? 基于模擬數據進行不同插補方法比較分析(Comparative analysis of different interpolation methods based on simulated data)

3.1? ?數據來源及統計指標說明

本部分我們首先基于服從高斯分布和伽馬分布兩種形式生成的2,000 個模擬數據,對其按照5%、10%、20%三種不同固定比例構造缺失數據后進行四種插補方法的比較,然后基于非洲地區47 個國家1993—2013 年(共21 年)的出生時預期壽命完整數據集,同樣設置三種缺失比例對缺失部分進行插補預測,即對以上四種方法結果的適用性進行驗證分析。本文主要以下面兩種統計指標作為插補效果評判的依據:

指標1:均方誤差(Mean Square Error, MSE)。

指標2:平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE)[9]。

本文用均方誤差和平均絕對百分比誤差這兩種統計指標的大小來評判插補效果,其中MAPE值和MSE值的大小同樣能反映插補值與真實值之間的差異[10],數值越小則表示預測值與真實值之間的差異越小,即插補效果越好,反則反之。

3.2? ?基于多種方法不同缺失比例下的插補結果比較分析

3.2.1? ?高斯模擬數據集

本部分基于服從高斯分布的模擬數據集,分別運用最近鄰(K=5)插補、均值插補、線性回歸插補和自回歸建模插補四種方法進行缺失數據的預測,其中缺失比例我們預設為5%、10%和20%三種情況,預測插補后兩種評價指標均方誤差和平均絕對百分比誤差的具體結果如表1、圖1和圖2所示。

由以上結果可知,三種缺失比例下的插補準確率效果整體趨勢相同,相比較而言均值插補和自回歸建模插補兩種方法的效果較好。其中,評價指標MSE值二者更為接近,插補預測后兩種插補方法在三種缺失比例下的均方誤差分別為0.0621、0.0984、0.1885和0.0663、0.1157、0.2001。而最近鄰插補和線性回歸插補兩者的結果較差,從統計結果來看與前兩者尚存在較為明顯的差距,尤其是當缺失數據比例為10%和20%時,劣勢尤為明顯。

3.2.2? ?伽馬模擬數據集

與上一部分中試驗過程類似,本部分試驗基于服從伽馬分布的模擬數據集,分別運用最近鄰(K=5)插補、均值插補、線性回歸插補和自回歸建模插補四種方法進行缺失數據的預測插補,為控制變量以便作插補效果對比,缺失比例我們同樣預設為5%、10%和20%三種情況,預測插補后兩種評價指標均方誤差和平均絕對百分比誤差的具體結果如表2、圖3和圖4所示。

由以上結果可知,服從伽馬分布的模擬數據集三種缺失比例下的四種插補方法預測效果與高斯模擬數據集無明顯差別,同樣為均值插補和自回歸建模插補效果較好,最近鄰插補和線性回歸插補效果相對較差。另外,由圖3和圖4我們可觀察到,當缺失比例較小時,四種插補方法的均方誤差和平均絕對百分比誤差結果均極為接近;而當缺失比例為10%時,四種方法的均方誤差和平均絕對百分比誤差數值雖未有明顯差異,但已逐漸開始產生區別;當缺失比例為20%時,平均絕對百分比誤差數值上均值插補和自回歸建模插補,最近鄰插補和線性回歸插補分別兩兩接近,分別為24.0488和24.8366,27.6175和27.7256。

3.3? ?實例分析

進行了上文中四種插補方法對兩種分布的模擬數據預測插補結果分析后,本部分選取了非洲地區47 個國家1993—2013 年(共21 年)的出生時預期壽命(Life Expectancy at Birth)實際數據進行實證對比分析,同樣對其預設5%、10%和20%三種缺失比例,進行存在缺失部分數據的插補。在比較統計結果的同時檢測以上幾種方法在實際缺失數據插補當中的適用性,其中具體結果如表3、圖5和圖6所示。

由以上插補統計結果可看出,最近鄰插補方法在實際數據中均方誤差和平均絕對百分比誤差數值明顯小于其他三種插補方法。但值得注意的是,模擬數據的預測插補過程中我們最終選用K的數值為5,而在實際數據的預測插補中K的最終值卻因缺失比例不同而有所變化。究其原因是在最近鄰插補方法的計算過程中,當缺失比例較大時,較容易出現大量數據連續缺失的情況,而此時計算機軟件無法對距離做出精確的測算,也就是說無法得出具體的插補結果,而人工計算對于如此容量的數據測算更是難上加難,因此在本部分實際數據的插補效果比較中,當缺失比例高達20%時,最近鄰插補方法可暫時退出比較,同時這也從一定程度上檢驗出了該方法在實際缺失數據的預測插補等應用上的局限性。

另外,其他三種插補方法的效果按整體趨勢從好到壞依次可排序為均值插補、自回歸建模插補和線性回歸插補。其中線性回歸插補除在缺失比例為5%的情況下統計結果略低于均值插補和自回歸建模插補外(MSE為4.0008,MAPE為0.7110),均明顯劣于前兩者,這可能說明線性回歸插補在實際缺失數據的預測中較適用于缺失比例低的情況,而當缺失數據量較大時則不適用。

4? ?結論(Conclusion)

本文通過運用四種插補方法對兩組模擬數據和一組實際數據進行缺失數據插補,對比統計指標均方誤差和平均絕對百分比誤差數值后,得出不同分布數據和不同缺失比例下的適用插補方法,主要有以下結論:無論是模擬數據還是實際數據,以整體插補效果來看(考慮不同缺失比例),自回歸建模插補和均值插補略優于最近鄰插補和線性回歸插補;而在實際數據出生時預期壽命這一變量的預測插補過程中,若缺失樣本量較少即缺失比例較低時,最近鄰插補和線性回歸插補

統計結果明顯優于前者,其他缺失比例下插補效果則與模擬數據無異。因此也可以說,在實際缺失數據的插補預測中,選擇哪種插補方法進行預測研究是數據容量、缺失比例、運算速度和數據分布等因素共同作用的結果,要針對具體情況制訂具體方案。

參考文獻(References)

[1] 楊晟.基于數據挖掘技術的用戶異常用電檢測系統的研究與實現[D].北京:北京郵電大學,2019.

[2] 熊中敏,郭懷宇,吳月欣.缺失數據處理方法研究綜述[J].計算機工程與應用,2021,57(14):27-38.

[3] 張松蘭,王鵬,徐子偉.基于統計相關的缺失值數據處理研究[J].統計與決策,2016(12):13-16.

[4] 朱苗苗.基于時間序列模型的網絡流量預測研究[D].西安:西安工程大學,2017.

[5] VAZIFEHDAN M, MOATTAR M H, JALALI M. A hybrid bayesian network and tensor factorization approach for missing value imputation to improve breast cancer recurrence prediction[J]. Journal of King Saud University—Computer and Information Sciences, 2019, 31(2):175-184.

[6] 陳雁聲.時間序列中缺失數據的處理方法綜述[J].信息與電腦(理論版),2020,32(10):19-22.

[7] 張昕.不完備信息系統下空缺數據處理方法的分析比較[J].海南師范大學學報(自然科學版),2008(04):444-447.

[8] 黃樑昌.kNN填充算法的分析和改進研究[D].桂林:廣西師范大學,2010.

[9] 朱高培,朱樂樂,孟馬承,等.基于Monte Carlo模擬的四種完全隨機雙變量缺失數據處理方法的比較[J].中國衛生統計,2018,35(05):707-709.

[10] 林進鈿.基于深度學習的電力系統擾動后動態頻率特征預測[D].成都:西南交通大學,2019.

作者簡介:

徐鴻艷(1997-),女,碩士生.研究領域:社會經濟統計學.

孫云山(1980-),男,博士,教授.研究領域:信號與信息處理.

本文通訊作者.

秦琦琳(1997-),女,碩士生.研究領域:時序預測,深度學習.

朱明濤(2001-),男,本科生.研究領域:通信信息處理.

主站蜘蛛池模板: 99人体免费视频| 91精品aⅴ无码中文字字幕蜜桃 | 日韩久久精品无码aV| 人妖无码第一页| 天堂成人在线| 亚洲中文精品久久久久久不卡| 亚洲精品桃花岛av在线| 久草视频中文| 青青草原国产av福利网站| 欧美人与性动交a欧美精品| 最新国语自产精品视频在| 99精品视频在线观看免费播放| 在线观看亚洲人成网站| 三上悠亚在线精品二区| 国产欧美一区二区三区视频在线观看| 91啦中文字幕| 毛片基地美国正在播放亚洲| 四虎成人精品在永久免费| 国产在线98福利播放视频免费| 亚洲精品777| 国产在线观看91精品| 无码高潮喷水专区久久| 久久久精品久久久久三级| 亚洲成人高清在线观看| 日本成人精品视频| 欧美精品色视频| 免费a在线观看播放| 国产地址二永久伊甸园| 欧美日韩中文国产| 91免费国产在线观看尤物| 婷五月综合| 成人午夜亚洲影视在线观看| 欧美午夜视频在线| 日韩第一页在线| 国产人成在线观看| 天天婬欲婬香婬色婬视频播放| 亚洲不卡无码av中文字幕| 中文成人无码国产亚洲| 高清国产va日韩亚洲免费午夜电影| 色综合网址| 日本一区二区三区精品AⅤ| 欧美国产在线看| 国产精品欧美亚洲韩国日本不卡| 精品无码一区二区在线观看| 亚洲人成影视在线观看| 呦系列视频一区二区三区| 亚洲综合亚洲国产尤物| 一级黄色网站在线免费看| AV色爱天堂网| 日本久久网站| 日本成人精品视频| 国产一级α片| 亚洲精品第五页| 国产无码在线调教| 亚洲精品国产综合99| 日本精品一在线观看视频| 伊人AV天堂| 久久久久久尹人网香蕉| 国产办公室秘书无码精品| 久久国产av麻豆| 婷婷中文在线| 四虎国产精品永久一区| 色哟哟色院91精品网站| 午夜国产精品视频黄| 国产美女叼嘿视频免费看| 国产精品久久久久无码网站| www.亚洲国产| 亚洲一区波多野结衣二区三区| 国产精品久久精品| 国产在线97| 丁香六月激情综合| www.av男人.com| 乱系列中文字幕在线视频| 爽爽影院十八禁在线观看| 毛片三级在线观看| 成年人福利视频| 国产精品思思热在线| 无码一区二区波多野结衣播放搜索| 香蕉蕉亚亚洲aav综合| 免费毛片网站在线观看| 成人在线综合| 亚洲欧洲日产国码无码av喷潮|