摘 要:磷酸鋁合成反應(yīng)數(shù)據(jù)庫中有29%的數(shù)據(jù)存在不同情況的缺失。為了處理缺失值問題,本文首次提出利用BP神經(jīng)網(wǎng)絡(luò)對其進行估計補值。在不同缺失率下,通過大量的隨機實驗結(jié)果證明了補值算法具有一定的有效性和可行性。
關(guān)鍵詞:微孔材料;BP神經(jīng)網(wǎng)絡(luò);缺失值
中圖分類號:TP391.4 文獻標識碼:A
1 前言
數(shù)據(jù)缺失(missing values,MVs)問題是廣泛存在且無法回避的一個問題。尤其是在面對處理現(xiàn)實問題時,缺失問題更為普遍和嚴重[1]。數(shù)據(jù)參數(shù)缺失有很多種原因,如對實驗數(shù)據(jù)沒有詳細的記錄、部分參數(shù)無法測定等。不完整的數(shù)據(jù)對后續(xù)的數(shù)據(jù)分析帶來不同程度的干擾。因此,對缺失值數(shù)據(jù)進行補值是一步非常重要的數(shù)據(jù)預(yù)處理方法[2]。
近些年,國內(nèi)外學(xué)者子在研究是發(fā)現(xiàn),如果在補值時考慮參數(shù)間的相關(guān)性則補值的估計誤差率會明顯降低[3]。針對不同情況,學(xué)者們先后提出了不同的補值方法,如KNN補值方法(K-nearest neighbor imputes,KNNimpute)[4]、奇異值分解補值方法(singular value decomposition imputes,SVDimpute)[5]等。在生物信息學(xué)[6]和計量化學(xué)[7]等很多領(lǐng)域已經(jīng)開展了缺失值處理方法的研究。但目前還沒有針對磷酸鋁合成反應(yīng)數(shù)據(jù)的缺失值處理的相關(guān)方法研究報道。因此,本文首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法(BP neural networks imputes,BPimpute)應(yīng)用到磷酸鋁合成反應(yīng)數(shù)據(jù)上,并同其他經(jīng)典方法(基于KNN的補值方法(K-nearest neighbor imputes,KNNimpute)、基于SVD的補值方法(singular value decomposition imputes,SVDimpute)和基于最小二乘的補值方法(least square imputes,LSimpute)進行對比,來驗證算法的可行性和有效性。
本文結(jié)構(gòu)如下:在第二部分對現(xiàn)有的幾種經(jīng)典補值方法進行簡單介紹;然后在第三部分詳細描述BPimpute的補值過程;第四部分是實驗設(shè)計和結(jié)果分析;最后給出本文結(jié)論。
2 補值方法簡介
現(xiàn)有的補值方法一般被分為兩類:基于模型的方法和插補方法(hot-deck inputation)[8]。插補方法是最典型的無需構(gòu)建模型的補值方法,它利用含缺失數(shù)據(jù)的樣本較像數(shù)據(jù)的可用參數(shù)值來替換缺失值,最經(jīng)典方法就是KNNimpute[9]。插補方法簡單、易用,能夠?qū)崿F(xiàn)完備集數(shù)據(jù),但是它沒有考慮數(shù)據(jù)參數(shù)間的相關(guān)性。基于模型的方法(如SVDimpute[10]和LSimpute[11])首先根據(jù)現(xiàn)有數(shù)據(jù)建立估計模型,然后對缺失值進行補值,是一種更復(fù)雜、應(yīng)用更靈活的方法。近年來,一些學(xué)者發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)也能解決類似的問題。
3 BPimpute方法
基于分子篩的合成機理,以及參數(shù)間存在潛在映射關(guān)系,而BP神經(jīng)網(wǎng)絡(luò)是能夠獲得從輸入到輸出之間的非線性映射關(guān)系的有效工具,因此利用BP神經(jīng)網(wǎng)絡(luò)來刻畫參數(shù)間的映射關(guān)系,首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法。
BPimpute采用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(輸入層、隱含層和輸出層)來構(gòu)建參數(shù)模型[12]。從Y中不含參數(shù)缺失的樣本隨機選出k個樣本作為訓(xùn)練樣本;假設(shè)第h個參數(shù)缺失。BPimpute方法分兩個階段進行缺失值估計,即訓(xùn)練模型階段和估計缺失值階段。在訓(xùn)練階段,每個訓(xùn)練樣本除第h個參數(shù)外的參數(shù)作為BP網(wǎng)絡(luò)的輸入向量,訓(xùn)練樣本的第h個參數(shù)值作為模型的輸出,訓(xùn)練好BP網(wǎng)絡(luò)模型。在估計階段,就是將測試樣本送入訓(xùn)練好的BP模型中,模型的輸出即為缺失值的估計值。
4 實驗結(jié)果與分析
4.1 磷酸鋁合成反應(yīng)數(shù)據(jù)庫簡介
磷酸鋁合成反應(yīng)數(shù)據(jù)庫[13]是由吉林大學(xué)徐如人院士領(lǐng)導(dǎo)的“無機合成與制備國家重點實驗室”在國內(nèi)外大量學(xué)者、科研機構(gòu)研究的基礎(chǔ)上率先建立起來的,并對國內(nèi)外學(xué)者免費開放(http://mezeopor.jlu.edu.cn/alpo/)。該數(shù)據(jù)庫共有約1600條數(shù)據(jù),對應(yīng)230余種磷酸鋁骨架結(jié)構(gòu)。
4.2 補值實驗設(shè)計與結(jié)果分析
首先,從原始數(shù)據(jù)庫中挑選出不含參數(shù)缺失的數(shù)據(jù)構(gòu)建完備數(shù)據(jù)集,每條數(shù)據(jù)由凝膠成分、溶劑屬性、模板劑屬性和生成物結(jié)構(gòu)參數(shù)四部分組成。因為溶劑和模板劑屬性是固定參數(shù),所以本文僅考慮能夠生成含(6,12)元環(huán)無機微孔化合物的數(shù)據(jù)(398條)的4個凝膠成分參數(shù)[14](data_M)作為研究目標。并做以下假設(shè):4個凝膠成分參數(shù)是相關(guān)的,且發(fā)生缺失的情況是獨立的、隨機產(chǎn)生的,每條樣本數(shù)據(jù)最多存在一個參數(shù)缺失。最后,根據(jù)以上假設(shè),隨機將部分數(shù)據(jù)樣本的某個參數(shù)設(shè)為缺失,對其進行補值,通過與真實值的誤差評價算法的有效性。
補值實驗的設(shè)計描述如下所示:
(1)首先從原始數(shù)據(jù)中刪除含有缺失值的樣本,得到完備數(shù)據(jù)集;
(2)根據(jù)缺失比率q()在中隨機產(chǎn)生缺失情況;
(3)利用補值方法估計缺失值;
(4)計算估計值和真實值之間的誤差;
(5)重復(fù)l次實驗,獲得估計平均誤差來評價算法的性能。
補值方法的性能通過均方誤差根(normalized root mean squared error,NRMSE)來衡量,如公式(1)所示:
其中,是真實值,是通過補值方法獲得的估計值。NRMSE值越小說明算法性能越好,誤差越小。
實驗中data_M的缺失比率q被設(shè)為1%,3%,5%,10%,20%,30%和50%。重復(fù)l次實驗的目的是為了保證至少99%的數(shù)據(jù)都參與了實驗,更符合統(tǒng)計規(guī)律。不同的數(shù)據(jù)和缺失率l設(shè)置不同,具體詳見表1。
表1 不同數(shù)據(jù)和缺失率下l值的設(shè)置
Tab.1 The setting of l
表2列出了不同方法的平均NRMSE結(jié)果。可以看出當訓(xùn)練樣本數(shù)量多、缺失率較低的情況下BPimpute效果最優(yōu),而在缺失率較高的情況下KNNimpute的補值結(jié)果不受其影響,如圖1所示。
表2 不同方法的平均NRMSE結(jié)果
Tab.2 The average NRMSE of different methods
針對反應(yīng)凝膠中第一種溶劑的摩爾數(shù)/Al的摩爾數(shù)(F3)無論那種補值方法的NRMSE都超過了1.0。
圖1 不同補值方法的NRMSE結(jié)果圖
Fig.1 Comparisons of NRMSE different methods
4.3 補值算法對現(xiàn)有數(shù)據(jù)的修正
除了補值實驗外,本文還設(shè)計了通過補值算法對現(xiàn)有數(shù)據(jù)的修正的實驗。如果算法有效,構(gòu)建的參數(shù)間關(guān)系模型準確,可以對參數(shù)進行校正,則那些被錯誤分類的樣本經(jīng)過補值算法的修正后能夠被正確分類。實驗描述如下:
(1)從數(shù)據(jù)庫中隨機選擇398個負樣本和398個正樣本構(gòu)建樣本集;
(2)隨機選擇199個正樣本和199個負樣本訓(xùn)練SVM分類器(RBF核函數(shù)),剩下的樣本作為測試樣本;
(3)重復(fù)t次5重交叉驗證實驗,得到平均預(yù)測準確率、錯誤樣本和訓(xùn)練好的SVM模型;
(4)分別用BPimpute方法和KNNimpute()方法對錯誤樣本進行修正;
(5)將修正后的數(shù)據(jù)重新送入SVM模型中,得到修正后的預(yù)測準確率。
圖2顯示,僅修正了(6,12)元環(huán)樣本后的預(yù)測準確率就得到了提升,這也證明了補值方法對數(shù)據(jù)的修正作用,并從另一個角度證明了補值方法的有效性。如果能夠?qū)θw錯誤樣本都進行修正,那么準確率一定會進一步提升。
圖2 修正后的預(yù)測準確率結(jié)果對比圖
Fig.2 Comparisons of prediction accuracy on
AlPOs dataset
5 結(jié)語
針對磷酸鋁數(shù)據(jù)庫的樣本含缺失值的情況,本文首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法。在不同缺失率下,通過大量的隨機實驗結(jié)果證明了補值算法具有一定的有效性和可行性,尤其是當完備數(shù)據(jù)較多、缺失率較小時,BPimpute方法補值效果最好。但是本文僅針對(6,12)元環(huán)結(jié)構(gòu)進行實驗,在后續(xù)的工作中將陸續(xù)開展其他結(jié)構(gòu)的實驗工作。
參考文獻
[1] Celton M, Malpertuy A,Lelandais G,et al.Comparative analysis
of missing value imputation methods to improve clustering and
interpretation of microarray experiments[J].BMC
Genomics,2010,11-15.
[2] Aittokallio T.Dealing with missing values in large-scale studies:
microarray data imputation and beyond[J].Brief Bioinformatics,
2010,11: 253-264.
[3] Alizadeh A A,Eisen M B,Davis R E,et al.Distinct types of diffuse
large B-cell lymphoma identified by gene expression profiling[J].
Nature, 2000:403;503-511.
[4] Troyanskaya O,Cantor M,Sherlock G, Brown P,et al.Missing
value estimation methods for DNA microarrays[J].Bioinformatics,
2001,17:520-525.
[5] Watkins D S.Fundamentals of Matrix Computations[M].Wiley,
1991 New York.
[6] Liew A W C,Law N F and Yan H. Missing value imputation for
gene expression data:computational techniques to recover
missing data from available information (Review paper)[J].
Briefings in Bioinformatics,2011,1-16.
[7] Andersen C M,Bro R.Practical aspects of PARAFAC modeling
of fluorescence excitation- emission data[J]. Journal of
Chemometrics,2003, 17(4):200-215.
[8] Lakshminarayan K,Harp S,Samad T.Imputation of missing data
in industrial databases[J]. Applied Intelligen ce,1999,11(3),
259-275.
[9] Chen J,Shao J.Nearest neighbour imputation for survey data[J].
Journal of Official Statistics,2000,16(2),113-131.
[10] Mirkin B.Mathematical Classification and Clustering[M].
Kluwer Academic Publishers,1996.
[11] B? TH,Dysvik B,Jonassen I: LSimpute: accurate estimation
of missing values in microarray data with least squares
methods[J].Nucleic Acids Res, 2004,32(3):e34.
[12] Kong J,et al.A two stage neural network-based personal
identification system using handprint[J].Neurocomputing,2008
(71),641-647.
[13] 顏巖,等.開放骨架磷酸鋁合成反應(yīng)數(shù)據(jù)庫的建立與應(yīng)用[J].
中國科學(xué)B輯: 化學(xué),2009,39(11):1308-1313.
[14] Li J,et al.Missing value estimation for database of
aluminophosphate (AlPO) syntheses[J].Microporous and
Mesoporous Materials,2013(173):197-206.
作者簡介:
李勁松(1980-),男,理學(xué)博士,中級工程師.研究領(lǐng)域:數(shù)據(jù)
分析.