999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據處理中缺失數據填充方法的研究

2013-11-12 06:32:16胡玄子陳小雪錢葉亮姜正龍趙彤洲
湖北工業大學學報 2013年5期
關鍵詞:方法模型

胡玄子, 陳小雪, 錢葉亮, 姜正龍, 趙彤洲

(武漢工程大學計算機科學與工程學院,湖北 武漢 430073)

在海量信息處理過程中,經常會遇到數據集不完整的情況,通常稱之為缺失數據.缺失數據產生的原因很多,例如受客觀條件限制導致的信息無法獲取,信息因人為疏忽被遺漏,信息屬性值不存在等因素.針對這些缺失數據,前人做過很多有益的工作,處理方法大致分成三類:刪除、填充、丟棄.刪除數據就是將存在確實數據的一組數據完全刪除,從而得到的數據是沒有確實數據的完整的數據集合.在數據分析中,這種方法與丟棄數據的方法都比較簡單,是以犧牲某些記錄屬性為代價的.但在多維數據處理中,數據的不同屬性之間很可能存在某種關系,而完全不考慮存在缺失數據的那些屬性,就很可能影響對數據集合的方差及數據分布的準確判斷.因此,針對缺失數據填充方法的研究成為人們關注的熱點問題.缺失數據的填充方法大致分為兩類:基于統計的方法和基于數據挖掘的方法.

統計方法主要通過對數據進行分析,得出數據集的一些統計信息,然后利用這些信息填充缺失數據.根據對數據集的了解程度,統計填充方法可以分為參數方法、非參方法以及半參方法.最常用的參數方法就是線性回歸、EM算法.數據挖掘算法主要有貝葉斯方法、神經網絡方法、粗糙集規則方法等等[1].根據數據特點,本文有選擇性地對如下四種方法進行了研究.

1 算法分析對比

1.1 拉格朗日插值法

其中ωn+1(x)=(x-x0)(x-x1)…(x-xn),

(xi-xi-1)(xi-xi+1)…(xi-xn).

在數據填充時,可以利用已知數據求出拉格朗日插值多項式,然后將待求節點帶入該多項式,就可以求出目標值.

1.2 回歸分析法

所謂回歸就是在已知數據基礎上,構建回歸模型,找出回歸模型中的參數,用以模擬和預測未知數據的過程.常用的線性回歸方法,是以誤差平方和最小為基本思想,尋找回歸參數的過程[2].本文僅討論一元線性回歸分析.

當求出回歸模型的參數后,將缺失點數據x帶入回歸模型,即可求出填充數據y.

1.3 灰色預測法

灰色預測是通過少量的、不完全的信息建立數學模型,進而找到模型參數的過程.它具有運算方便,建模精度高的特點,在各種預測領域都有著廣泛的應用,是處理小樣本預測問題的有效工具.定義[3]如下,設給定觀測數據列

x(0)={x(0)(1),x(0)(2),…,x(0)(N)}.

經一次累加得到

x(1)={x(1)(1),x(1)(2),…,x(1)(N)}.

特別地,當t=t0時,x(1)=x(1)(t0).對等間隔取樣的離散值則為

采用最小二乘法來確定a、μ.當模型系數確定后,采用同樣的方法,將缺失點帶入方程,求得缺失數據的估計值.

1.4 BP神經網絡法

BP網絡是由已知的輸入矢量和輸出矢量,訓練出一個網絡用來逼近某個函數,具有較強的泛化性.主要思想是使網絡上的節點真實值與模擬值的誤差平方和最小,即用網絡的實際輸出A1,A2,…,Aq, 與目標矢量T1,T2,…,Tq之間的誤差修改其權值,使實際輸出值與期望值盡可能接近從而能得到一個訓練好的網絡[4-6].在此采用兩層BP網絡結構.

2 數據填充方法在空氣質量數據分析中的應用

自2012年入冬以來,各地出現的霧霾天氣不斷成為人們關心的話題,也成為各大媒體關注的焦點,武漢市已經實現PM2.5的24小時監測.本實驗采集了2013年3月13日至4月29日(晚上8點)的武漢市PM2.5值(表1).由于各種原因,導致有部分數據缺失.為了得到相對完整的、可靠的數據集,我們采用上述4種方法進行了數據填充的工作,力圖尋找一種適用于該類數據填充的方法.在估計未知數據時,為檢測算法的有效性,我們將部分已知數據剔除后,進行準確性對比,并同時估計未知數據.

表1采集到的部分PM2.5原始數據μg/m3

日期PM2.5日期PM2.5日期PM2.53/131073/301334/15773/14663/311324/16883/15754/11514/171203/26844/3964/20693/16604/4684/22303/17944/5544/23613/201534/6684/241033/21984/8734/251103/221834/9314/26833/241454/10534/27593/25674/11574/28523/27884/12414/29393/28804/13643/29944/1474

其中,有8天數據缺失.用上述四種方法分別進行了數據填充.為檢驗算法的有效性,首先將部分已知數據剔除,然后分別用四種方法計算剔除數據的估計值,并與真實值對比,結果見表2、表3.

表2 各種算法對剔除數據的估計值和真實值的對比 μg/m3

表3 各種算法的殘差 μg/m3

為定性檢驗上述算法的準確性,我們對各種算法的后驗差比值進行計算并比較.后驗差比值的計算方法為

F=s2/s1.

即,s1是x(0)的方差,s2是殘差的方差.由此定義可知,后驗差比值反映了殘差相對于標準偏差偏離的程度,后驗差比值越小,表明估計值偏離真實值的程度越小,就越接近真實值.通過上述方法計算各種算法的后驗差比值,見表4.從表4中可見,拉格朗日插值法的后驗差比值最小.因此模擬效果最好.按照此方法,對缺失數據進行估計,可得估計值見表5.

表4 各種算法后驗差比值

表5 缺失數據的估計值 μg/m3

3 結論

盡管填充數據的算法有很多種,但是,并不是每種算法都能適用于所有數據.針對空氣質量參數之一的PM2.5的缺失數據填充,我們進行了一些探索性嘗試,認為拉格朗日插值法能比較準確填充缺失數據,進而可以實現部分數據的預測.考慮到研究的科學性,這種算法不一定是最好的,隨著研究的深入,我們認為還有更好的方法值得探索.

另外,從數據預測的趨勢可見,武漢市PM2.5數值在3-4月份呈現下降的趨勢.

[參考文獻]

[1] 劉星毅,曾春華. 缺失數據的處理和挑戰[J].欽州學院學報,2008,23(06):25-29.

[2] 蔣金山,何春雄,潘少華. 最優化計算方法[M]. 廣州:華南理工大學出版社,2008.

[3] 張光澄. 非線性最優化計算方法[M]. 北京:高等教育出版社,2005.

[4] 倪 勤. 最優化方法與程序設計[M]. 北京:科學出版社,2009.

[5] 楊淑瑩. 模式識別與智能計算:Matlab技術實現[M].北京: 電子工業出版社,2008.

[6] S Theodoridis. 模式識別[M]. 第4版.北京:電子工業出版社,2010.

[7] 張德豐. MATLAB神經網絡應用設計 [M].第二版. 北京:機械工業出版社,2012.

[8] 周建興. MATLAB從入門到精通[M]. 第二版. 北京:人民郵電出版社,2012.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91精品国产91久无码网站| 欧美日韩激情在线| 国产一区二区精品福利| 激情六月丁香婷婷四房播| 国产乱子伦精品视频| 日本91视频| 91青青在线视频| 亚洲天堂视频在线观看免费| 亚洲男人天堂网址| 人妻丰满熟妇av五码区| 亚洲欧洲日产国码无码av喷潮| 欧美精品另类| 高h视频在线| 四虎免费视频网站| 亚洲手机在线| 国产精品久久久久久久久久98| 国产91视频观看| 久久久久国产一级毛片高清板| 92午夜福利影院一区二区三区| 亚洲国产欧美自拍| 久久久亚洲国产美女国产盗摄| 国产日本欧美在线观看| 久久精品人人做人人爽| 麻豆国产在线观看一区二区| 亚洲bt欧美bt精品| 亚洲视频一区| 在线高清亚洲精品二区| 99久久精彩视频| 丝袜亚洲综合| jizz亚洲高清在线观看| 亚洲最大情网站在线观看 | 综合色区亚洲熟妇在线| 最新亚洲av女人的天堂| 97se综合| 高清无码手机在线观看| 日本在线亚洲| 国产丝袜啪啪| 日韩a级毛片| 国产玖玖视频| 欧美综合一区二区三区| 免费A级毛片无码免费视频| AV色爱天堂网| 久久久精品国产亚洲AV日韩| 亚洲精品手机在线| 日韩小视频网站hq| 国产欧美在线| 久久国产精品麻豆系列| 91精品国产情侣高潮露脸| 青青青视频免费一区二区| 在线观看国产精品日本不卡网| 四虎永久在线视频| 一级做a爰片久久毛片毛片| 麻豆国产原创视频在线播放| 亚洲日韩AV无码精品| 99资源在线| 欧美成人午夜视频| jizz国产在线| 亚洲中久无码永久在线观看软件 | 国产精鲁鲁网在线视频| 午夜国产理论| 国产福利在线免费| 国产精品无码在线看| av免费在线观看美女叉开腿| 国产精品女同一区三区五区| 成人福利在线看| 国产美女人喷水在线观看| 欧美视频在线第一页| 就去吻亚洲精品国产欧美| 国产色网站| 国产麻豆91网在线看| 99久视频| 国产精彩视频在线观看| 日韩欧美中文字幕在线精品| 色综合五月婷婷| 免费无码网站| 91精品人妻一区二区| 国产成人亚洲毛片| 大学生久久香蕉国产线观看| 综合五月天网| 國產尤物AV尤物在線觀看| 久久性视频| 四虎AV麻豆|