胡玄子, 陳小雪, 錢葉亮, 姜正龍, 趙彤洲
(武漢工程大學計算機科學與工程學院,湖北 武漢 430073)
在海量信息處理過程中,經常會遇到數據集不完整的情況,通常稱之為缺失數據.缺失數據產生的原因很多,例如受客觀條件限制導致的信息無法獲取,信息因人為疏忽被遺漏,信息屬性值不存在等因素.針對這些缺失數據,前人做過很多有益的工作,處理方法大致分成三類:刪除、填充、丟棄.刪除數據就是將存在確實數據的一組數據完全刪除,從而得到的數據是沒有確實數據的完整的數據集合.在數據分析中,這種方法與丟棄數據的方法都比較簡單,是以犧牲某些記錄屬性為代價的.但在多維數據處理中,數據的不同屬性之間很可能存在某種關系,而完全不考慮存在缺失數據的那些屬性,就很可能影響對數據集合的方差及數據分布的準確判斷.因此,針對缺失數據填充方法的研究成為人們關注的熱點問題.缺失數據的填充方法大致分為兩類:基于統計的方法和基于數據挖掘的方法.
統計方法主要通過對數據進行分析,得出數據集的一些統計信息,然后利用這些信息填充缺失數據.根據對數據集的了解程度,統計填充方法可以分為參數方法、非參方法以及半參方法.最常用的參數方法就是線性回歸、EM算法.數據挖掘算法主要有貝葉斯方法、神經網絡方法、粗糙集規則方法等等[1].根據數據特點,本文有選擇性地對如下四種方法進行了研究.
其中ωn+1(x)=(x-x0)(x-x1)…(x-xn),

(xi-xi-1)(xi-xi+1)…(xi-xn).
在數據填充時,可以利用已知數據求出拉格朗日插值多項式,然后將待求節點帶入該多項式,就可以求出目標值.
所謂回歸就是在已知數據基礎上,構建回歸模型,找出回歸模型中的參數,用以模擬和預測未知數據的過程.常用的線性回歸方法,是以誤差平方和最小為基本思想,尋找回歸參數的過程[2].本文僅討論一元線性回歸分析.


當求出回歸模型的參數后,將缺失點數據x帶入回歸模型,即可求出填充數據y.
灰色預測是通過少量的、不完全的信息建立數學模型,進而找到模型參數的過程.它具有運算方便,建模精度高的特點,在各種預測領域都有著廣泛的應用,是處理小樣本預測問題的有效工具.定義[3]如下,設給定觀測數據列
x(0)={x(0)(1),x(0)(2),…,x(0)(N)}.
經一次累加得到
x(1)={x(1)(1),x(1)(2),…,x(1)(N)}.


特別地,當t=t0時,x(1)=x(1)(t0).對等間隔取樣的離散值則為
采用最小二乘法來確定a、μ.當模型系數確定后,采用同樣的方法,將缺失點帶入方程,求得缺失數據的估計值.
BP網絡是由已知的輸入矢量和輸出矢量,訓練出一個網絡用來逼近某個函數,具有較強的泛化性.主要思想是使網絡上的節點真實值與模擬值的誤差平方和最小,即用網絡的實際輸出A1,A2,…,Aq, 與目標矢量T1,T2,…,Tq之間的誤差修改其權值,使實際輸出值與期望值盡可能接近從而能得到一個訓練好的網絡[4-6].在此采用兩層BP網絡結構.
自2012年入冬以來,各地出現的霧霾天氣不斷成為人們關心的話題,也成為各大媒體關注的焦點,武漢市已經實現PM2.5的24小時監測.本實驗采集了2013年3月13日至4月29日(晚上8點)的武漢市PM2.5值(表1).由于各種原因,導致有部分數據缺失.為了得到相對完整的、可靠的數據集,我們采用上述4種方法進行了數據填充的工作,力圖尋找一種適用于該類數據填充的方法.在估計未知數據時,為檢測算法的有效性,我們將部分已知數據剔除后,進行準確性對比,并同時估計未知數據.
表1采集到的部分PM2.5原始數據μg/m3

日期PM2.5日期PM2.5日期PM2.53/131073/301334/15773/14663/311324/16883/15754/11514/171203/26844/3964/20693/16604/4684/22303/17944/5544/23613/201534/6684/241033/21984/8734/251103/221834/9314/26833/241454/10534/27593/25674/11574/28523/27884/12414/29393/28804/13643/29944/1474
其中,有8天數據缺失.用上述四種方法分別進行了數據填充.為檢驗算法的有效性,首先將部分已知數據剔除,然后分別用四種方法計算剔除數據的估計值,并與真實值對比,結果見表2、表3.

表2 各種算法對剔除數據的估計值和真實值的對比 μg/m3

表3 各種算法的殘差 μg/m3
為定性檢驗上述算法的準確性,我們對各種算法的后驗差比值進行計算并比較.后驗差比值的計算方法為
F=s2/s1.


即,s1是x(0)的方差,s2是殘差的方差.由此定義可知,后驗差比值反映了殘差相對于標準偏差偏離的程度,后驗差比值越小,表明估計值偏離真實值的程度越小,就越接近真實值.通過上述方法計算各種算法的后驗差比值,見表4.從表4中可見,拉格朗日插值法的后驗差比值最小.因此模擬效果最好.按照此方法,對缺失數據進行估計,可得估計值見表5.

表4 各種算法后驗差比值

表5 缺失數據的估計值 μg/m3
盡管填充數據的算法有很多種,但是,并不是每種算法都能適用于所有數據.針對空氣質量參數之一的PM2.5的缺失數據填充,我們進行了一些探索性嘗試,認為拉格朗日插值法能比較準確填充缺失數據,進而可以實現部分數據的預測.考慮到研究的科學性,這種算法不一定是最好的,隨著研究的深入,我們認為還有更好的方法值得探索.
另外,從數據預測的趨勢可見,武漢市PM2.5數值在3-4月份呈現下降的趨勢.
[參考文獻]
[1] 劉星毅,曾春華. 缺失數據的處理和挑戰[J].欽州學院學報,2008,23(06):25-29.
[2] 蔣金山,何春雄,潘少華. 最優化計算方法[M]. 廣州:華南理工大學出版社,2008.
[3] 張光澄. 非線性最優化計算方法[M]. 北京:高等教育出版社,2005.
[4] 倪 勤. 最優化方法與程序設計[M]. 北京:科學出版社,2009.
[5] 楊淑瑩. 模式識別與智能計算:Matlab技術實現[M].北京: 電子工業出版社,2008.
[6] S Theodoridis. 模式識別[M]. 第4版.北京:電子工業出版社,2010.
[7] 張德豐. MATLAB神經網絡應用設計 [M].第二版. 北京:機械工業出版社,2012.
[8] 周建興. MATLAB從入門到精通[M]. 第二版. 北京:人民郵電出版社,2012.