999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BP神經(jīng)網(wǎng)絡(luò)的磷酸鋁合成數(shù)據(jù)補值模型研究

2013-12-31 00:00:00李勁松
軟件工程 2013年12期

摘 要:磷酸鋁合成反應(yīng)數(shù)據(jù)庫中有29%的數(shù)據(jù)存在不同情況的缺失。為了處理缺失值問題,本文首次提出利用BP神經(jīng)網(wǎng)絡(luò)對其進行估計補值。在不同缺失率下,通過大量的隨機實驗結(jié)果證明了補值算法具有一定的有效性和可行性。

關(guān)鍵詞:微孔材料;BP神經(jīng)網(wǎng)絡(luò);缺失值

中圖分類號:TP391.4 文獻標識碼:A

1 前言

數(shù)據(jù)缺失(missing values,MVs)問題是廣泛存在且無法回避的一個問題。尤其是在面對處理現(xiàn)實問題時,缺失問題更為普遍和嚴重[1]。數(shù)據(jù)參數(shù)缺失有很多種原因,如對實驗數(shù)據(jù)沒有詳細的記錄、部分參數(shù)無法測定等。不完整的數(shù)據(jù)對后續(xù)的數(shù)據(jù)分析帶來不同程度的干擾。因此,對缺失值數(shù)據(jù)進行補值是一步非常重要的數(shù)據(jù)預(yù)處理方法[2]。

近些年,國內(nèi)外學(xué)者子在研究是發(fā)現(xiàn),如果在補值時考慮參數(shù)間的相關(guān)性則補值的估計誤差率會明顯降低[3]。針對不同情況,學(xué)者們先后提出了不同的補值方法,如KNN補值方法(K-nearest neighbor imputes,KNNimpute)[4]、奇異值分解補值方法(singular value decomposition imputes,SVDimpute)[5]等。在生物信息學(xué)[6]和計量化學(xué)[7]等很多領(lǐng)域已經(jīng)開展了缺失值處理方法的研究。但目前還沒有針對磷酸鋁合成反應(yīng)數(shù)據(jù)的缺失值處理的相關(guān)方法研究報道。因此,本文首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法(BP neural networks imputes,BPimpute)應(yīng)用到磷酸鋁合成反應(yīng)數(shù)據(jù)上,并同其他經(jīng)典方法(基于KNN的補值方法(K-nearest neighbor imputes,KNNimpute)、基于SVD的補值方法(singular value decomposition imputes,SVDimpute)和基于最小二乘的補值方法(least square imputes,LSimpute)進行對比,來驗證算法的可行性和有效性。

本文結(jié)構(gòu)如下:在第二部分對現(xiàn)有的幾種經(jīng)典補值方法進行簡單介紹;然后在第三部分詳細描述BPimpute的補值過程;第四部分是實驗設(shè)計和結(jié)果分析;最后給出本文結(jié)論。

2 補值方法簡介

現(xiàn)有的補值方法一般被分為兩類:基于模型的方法和插補方法(hot-deck inputation)[8]。插補方法是最典型的無需構(gòu)建模型的補值方法,它利用含缺失數(shù)據(jù)的樣本較像數(shù)據(jù)的可用參數(shù)值來替換缺失值,最經(jīng)典方法就是KNNimpute[9]。插補方法簡單、易用,能夠?qū)崿F(xiàn)完備集數(shù)據(jù),但是它沒有考慮數(shù)據(jù)參數(shù)間的相關(guān)性。基于模型的方法(如SVDimpute[10]和LSimpute[11])首先根據(jù)現(xiàn)有數(shù)據(jù)建立估計模型,然后對缺失值進行補值,是一種更復(fù)雜、應(yīng)用更靈活的方法。近年來,一些學(xué)者發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)也能解決類似的問題。

3 BPimpute方法

基于分子篩的合成機理,以及參數(shù)間存在潛在映射關(guān)系,而BP神經(jīng)網(wǎng)絡(luò)是能夠獲得從輸入到輸出之間的非線性映射關(guān)系的有效工具,因此利用BP神經(jīng)網(wǎng)絡(luò)來刻畫參數(shù)間的映射關(guān)系,首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法。

BPimpute采用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(輸入層、隱含層和輸出層)來構(gòu)建參數(shù)模型[12]。從Y中不含參數(shù)缺失的樣本隨機選出k個樣本作為訓(xùn)練樣本;假設(shè)第h個參數(shù)缺失。BPimpute方法分兩個階段進行缺失值估計,即訓(xùn)練模型階段和估計缺失值階段。在訓(xùn)練階段,每個訓(xùn)練樣本除第h個參數(shù)外的參數(shù)作為BP網(wǎng)絡(luò)的輸入向量,訓(xùn)練樣本的第h個參數(shù)值作為模型的輸出,訓(xùn)練好BP網(wǎng)絡(luò)模型。在估計階段,就是將測試樣本送入訓(xùn)練好的BP模型中,模型的輸出即為缺失值的估計值。

4 實驗結(jié)果與分析

4.1 磷酸鋁合成反應(yīng)數(shù)據(jù)庫簡介

磷酸鋁合成反應(yīng)數(shù)據(jù)庫[13]是由吉林大學(xué)徐如人院士領(lǐng)導(dǎo)的“無機合成與制備國家重點實驗室”在國內(nèi)外大量學(xué)者、科研機構(gòu)研究的基礎(chǔ)上率先建立起來的,并對國內(nèi)外學(xué)者免費開放(http://mezeopor.jlu.edu.cn/alpo/)。該數(shù)據(jù)庫共有約1600條數(shù)據(jù),對應(yīng)230余種磷酸鋁骨架結(jié)構(gòu)。

4.2 補值實驗設(shè)計與結(jié)果分析

首先,從原始數(shù)據(jù)庫中挑選出不含參數(shù)缺失的數(shù)據(jù)構(gòu)建完備數(shù)據(jù)集,每條數(shù)據(jù)由凝膠成分、溶劑屬性、模板劑屬性和生成物結(jié)構(gòu)參數(shù)四部分組成。因為溶劑和模板劑屬性是固定參數(shù),所以本文僅考慮能夠生成含(6,12)元環(huán)無機微孔化合物的數(shù)據(jù)(398條)的4個凝膠成分參數(shù)[14](data_M)作為研究目標。并做以下假設(shè):4個凝膠成分參數(shù)是相關(guān)的,且發(fā)生缺失的情況是獨立的、隨機產(chǎn)生的,每條樣本數(shù)據(jù)最多存在一個參數(shù)缺失。最后,根據(jù)以上假設(shè),隨機將部分數(shù)據(jù)樣本的某個參數(shù)設(shè)為缺失,對其進行補值,通過與真實值的誤差評價算法的有效性。

補值實驗的設(shè)計描述如下所示:

(1)首先從原始數(shù)據(jù)中刪除含有缺失值的樣本,得到完備數(shù)據(jù)集;

(2)根據(jù)缺失比率q()在中隨機產(chǎn)生缺失情況;

(3)利用補值方法估計缺失值;

(4)計算估計值和真實值之間的誤差;

(5)重復(fù)l次實驗,獲得估計平均誤差來評價算法的性能。

補值方法的性能通過均方誤差根(normalized root mean squared error,NRMSE)來衡量,如公式(1)所示:

其中,是真實值,是通過補值方法獲得的估計值。NRMSE值越小說明算法性能越好,誤差越小。

實驗中data_M的缺失比率q被設(shè)為1%,3%,5%,10%,20%,30%和50%。重復(fù)l次實驗的目的是為了保證至少99%的數(shù)據(jù)都參與了實驗,更符合統(tǒng)計規(guī)律。不同的數(shù)據(jù)和缺失率l設(shè)置不同,具體詳見表1。

表1 不同數(shù)據(jù)和缺失率下l值的設(shè)置

Tab.1 The setting of l

表2列出了不同方法的平均NRMSE結(jié)果。可以看出當訓(xùn)練樣本數(shù)量多、缺失率較低的情況下BPimpute效果最優(yōu),而在缺失率較高的情況下KNNimpute的補值結(jié)果不受其影響,如圖1所示。

表2 不同方法的平均NRMSE結(jié)果

Tab.2 The average NRMSE of different methods

針對反應(yīng)凝膠中第一種溶劑的摩爾數(shù)/Al的摩爾數(shù)(F3)無論那種補值方法的NRMSE都超過了1.0。

圖1 不同補值方法的NRMSE結(jié)果圖

Fig.1 Comparisons of NRMSE different methods

4.3 補值算法對現(xiàn)有數(shù)據(jù)的修正

除了補值實驗外,本文還設(shè)計了通過補值算法對現(xiàn)有數(shù)據(jù)的修正的實驗。如果算法有效,構(gòu)建的參數(shù)間關(guān)系模型準確,可以對參數(shù)進行校正,則那些被錯誤分類的樣本經(jīng)過補值算法的修正后能夠被正確分類。實驗描述如下:

(1)從數(shù)據(jù)庫中隨機選擇398個負樣本和398個正樣本構(gòu)建樣本集;

(2)隨機選擇199個正樣本和199個負樣本訓(xùn)練SVM分類器(RBF核函數(shù)),剩下的樣本作為測試樣本;

(3)重復(fù)t次5重交叉驗證實驗,得到平均預(yù)測準確率、錯誤樣本和訓(xùn)練好的SVM模型;

(4)分別用BPimpute方法和KNNimpute()方法對錯誤樣本進行修正;

(5)將修正后的數(shù)據(jù)重新送入SVM模型中,得到修正后的預(yù)測準確率。

圖2顯示,僅修正了(6,12)元環(huán)樣本后的預(yù)測準確率就得到了提升,這也證明了補值方法對數(shù)據(jù)的修正作用,并從另一個角度證明了補值方法的有效性。如果能夠?qū)θw錯誤樣本都進行修正,那么準確率一定會進一步提升。

圖2 修正后的預(yù)測準確率結(jié)果對比圖

Fig.2 Comparisons of prediction accuracy on

AlPOs dataset

5 結(jié)語

針對磷酸鋁數(shù)據(jù)庫的樣本含缺失值的情況,本文首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法。在不同缺失率下,通過大量的隨機實驗結(jié)果證明了補值算法具有一定的有效性和可行性,尤其是當完備數(shù)據(jù)較多、缺失率較小時,BPimpute方法補值效果最好。但是本文僅針對(6,12)元環(huán)結(jié)構(gòu)進行實驗,在后續(xù)的工作中將陸續(xù)開展其他結(jié)構(gòu)的實驗工作。

參考文獻

[1] Celton M, Malpertuy A,Lelandais G,et al.Comparative analysis

of missing value imputation methods to improve clustering and

interpretation of microarray experiments[J].BMC

Genomics,2010,11-15.

[2] Aittokallio T.Dealing with missing values in large-scale studies:

microarray data imputation and beyond[J].Brief Bioinformatics,

2010,11: 253-264.

[3] Alizadeh A A,Eisen M B,Davis R E,et al.Distinct types of diffuse

large B-cell lymphoma identified by gene expression profiling[J].

Nature, 2000:403;503-511.

[4] Troyanskaya O,Cantor M,Sherlock G, Brown P,et al.Missing

value estimation methods for DNA microarrays[J].Bioinformatics,

2001,17:520-525.

[5] Watkins D S.Fundamentals of Matrix Computations[M].Wiley,

1991 New York.

[6] Liew A W C,Law N F and Yan H. Missing value imputation for

gene expression data:computational techniques to recover

missing data from available information (Review paper)[J].

Briefings in Bioinformatics,2011,1-16.

[7] Andersen C M,Bro R.Practical aspects of PARAFAC modeling

of fluorescence excitation- emission data[J]. Journal of

Chemometrics,2003, 17(4):200-215.

[8] Lakshminarayan K,Harp S,Samad T.Imputation of missing data

in industrial databases[J]. Applied Intelligen ce,1999,11(3),

259-275.

[9] Chen J,Shao J.Nearest neighbour imputation for survey data[J].

Journal of Official Statistics,2000,16(2),113-131.

[10] Mirkin B.Mathematical Classification and Clustering[M].

Kluwer Academic Publishers,1996.

[11] B? TH,Dysvik B,Jonassen I: LSimpute: accurate estimation

of missing values in microarray data with least squares

methods[J].Nucleic Acids Res, 2004,32(3):e34.

[12] Kong J,et al.A two stage neural network-based personal

identification system using handprint[J].Neurocomputing,2008

(71),641-647.

[13] 顏巖,等.開放骨架磷酸鋁合成反應(yīng)數(shù)據(jù)庫的建立與應(yīng)用[J].

中國科學(xué)B輯: 化學(xué),2009,39(11):1308-1313.

[14] Li J,et al.Missing value estimation for database of

aluminophosphate (AlPO) syntheses[J].Microporous and

Mesoporous Materials,2013(173):197-206.

作者簡介:

李勁松(1980-),男,理學(xué)博士,中級工程師.研究領(lǐng)域:數(shù)據(jù)

分析.

主站蜘蛛池模板: 亚洲欧美综合另类图片小说区| 国产精品视频999| 国模沟沟一区二区三区| 国产白浆在线| 91视频首页| 精品人妻系列无码专区久久| 伊人大杳蕉中文无码| 天天色综网| 久久精品66| 国内精品免费| 欧美第九页| 日韩第九页| 欧美一级色视频| 九九视频免费在线观看| 99精品福利视频| 97视频精品全国免费观看| 中文无码精品a∨在线观看| 国产久草视频| 国产清纯在线一区二区WWW| 无码精油按摩潮喷在线播放| 欧美成人第一页| 国产白丝av| 国产三级国产精品国产普男人| 毛片网站免费在线观看| 看国产一级毛片| 久久窝窝国产精品午夜看片| 青青极品在线| 亚洲一区二区精品无码久久久| 2020极品精品国产| 色综合天天操| 特黄日韩免费一区二区三区| 麻豆精品视频在线原创| 成年人久久黄色网站| 国产人成乱码视频免费观看| 91丝袜乱伦| 欧美一级特黄aaaaaa在线看片| 97se亚洲综合在线天天| 国产亚洲日韩av在线| 亚洲va精品中文字幕| 国产美女一级毛片| 香蕉蕉亚亚洲aav综合| 四虎国产永久在线观看| 亚洲人成高清| 久久永久免费人妻精品| 久久久波多野结衣av一区二区| 精品国产自在在线在线观看| 日韩a在线观看免费观看| 国产91高清视频| 国产精品第三页在线看| 中文字幕欧美日韩| 国产精品一区二区不卡的视频| 亚洲另类色| 超碰aⅴ人人做人人爽欧美| 青青国产视频| 亚洲bt欧美bt精品| 亚洲国产欧美中日韩成人综合视频| 天天婬欲婬香婬色婬视频播放| 久久99国产精品成人欧美| 亚洲 欧美 偷自乱 图片| 亚洲伦理一区二区| 国产jizzjizz视频| 一区二区午夜| 国产内射在线观看| 中文字幕亚洲无线码一区女同| 国产18在线| 真实国产乱子伦高清| 黄色网页在线观看| 日韩欧美中文字幕在线精品| 一区二区三区四区精品视频| 亚洲狠狠婷婷综合久久久久| 亚洲日本一本dvd高清| 久久99国产乱子伦精品免| 国内精品视频| 97狠狠操| 99热这里只有精品免费国产| 999精品在线视频| 国产区免费| 亚洲精品成人片在线播放| 亚洲欧美成人影院| 国产一级α片| 国产精品国产三级国产专业不| 日韩精品亚洲精品第一页|