999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

模型診斷用于近紅外光譜建模校正集中奇異樣本的識別

2016-11-01 07:11:17李正風徐廣晉王家俊杜國榮蔡文生邵學廣云南中煙工業有限責任公司技術中心昆明650南開大學化學學院分析科學研究中心天津0007喀什大學化學與環境科學學院喀什844000
分析化學 2016年2期
關鍵詞:方法模型

李正風徐廣晉王家俊杜國榮蔡文生邵學廣*,(云南中煙工業有限責任公司技術中心,昆明 650)(南開大學化學學院,分析科學研究中心,天津 0007)(喀什大學化學與環境科學學院,喀什 844000)

研究簡報

模型診斷用于近紅外光譜建模校正集中奇異樣本的識別

李正風1徐廣晉1王家俊1杜國榮2蔡文生2邵學廣*2,31
(云南中煙工業有限責任公司技術中心,昆明 650231)2(南開大學化學學院,分析科學研究中心,天津 300071)3(喀什大學化學與環境科學學院,喀什 844000)

由于校正集樣本的質量決定校正模型的質量,校正集中奇異樣本的檢測在多元校正建模中具有非常重要的意義。本研究建立了一種用于近紅外光譜多元校正建模時校正集中奇異樣本的檢測方法。本方法基于奇異樣本的定義和偏最小二乘方法的原理,通過考察每個校正集樣本在模型的每個因子(或主成分)中對模型的貢獻,將與多數樣本表現不同的樣本識別為奇異樣本。采用218個橘汁樣本構成的近紅外光譜數據進行了分析,結果表明,校正集中存在6個奇異樣本,扣除奇異樣本后,校正集的交叉驗證均方根誤差由16.870減小為4.809,預測集的均方根誤差從3.688減小為3.332。

多元校正;奇異樣本檢測;偏最小二乘;近紅外光譜;定量分析

1 引言

近紅外光譜已在許多科研領域和行業得到廣泛應用,多元校正是近紅外光譜分析的的關鍵技術。已報道的多元校正方法有多元線性回歸(MLR)、主成分回歸(PCR)、偏最小二乘回歸(PLSR)[1,2]、支持向量機(SVM)[3~5]等。為了提高建模方法的適用性,非線性建模、局部回歸、多模型共識建模等方法與技術得到了發展與應用[6]。同時,為了提高模型的質量,改善模型的預測能力,建立精簡模型,發展了一系列光譜預處理及變量選擇技術,如多元散射校正(MSC)、正交信號校正(OSC)[7]、小波變換(WT)[8]、區間偏最小二乘回歸(iPLSr)[9]、無信息變量消除(UVE)[10,11]、競爭性自適應權重取樣(CARS)[12]、連續投影算法(SPA)[13]、隨機檢驗(RT)[14]等。

校正集同樣是決定模型質量的重要因素。多元校正的校正集一般由大量的樣本構成,奇異樣本的識別是多元校正分析中的難點問題之一[15],因此,已建立了一系列方法,并在近紅外光譜分析中得到應用[16~19]。當奇異樣本之間無相互影響時,這些方法可以有效識別奇異樣本。但是當奇異樣本之間相互影響,如存在掩蔽(Masking)和淹沒(Swamping)現象時,這些方法的識別能力受到限制[18,19]。穩健建模是一種可以自動識別奇異樣本的方法,也可以用于處理奇異樣本之間有相互作用的數據,例如穩健偏最小二乘回歸(Robust simple partial least squares,RSIMPLS)[20]是一種簡便、快速的常用方法。該方法通過診斷圖識別建模樣品中的好的杠桿點(Good leverage)、壞的杠桿點(Bad leverage)及殘差方向放入奇異樣本(Vertical outlier)。杠桿點是與大多數樣本不一樣的樣本,好的杠桿點對校正模型起積極作用,壞的杠桿點降低校正模型的預測精度。殘差方向的奇異樣本是有較大濃度預測殘差的樣本。

本研究建立了一種新的奇異樣本識別方法。基于奇異樣本與其它樣本在偏最小二乘回歸模型中的作用不同,通過考察每個校正集樣本在模型的每個因子(或主成分)中對模型的貢獻,將與其它(多數)樣本表現不同的樣本識別為奇異樣本。由于樣本對偏最小二乘回歸模型的貢獻可以用其權重進行衡量,通過考察樣本在每個因子中的權重分布即可實現奇異樣本的識別。本方法的實質是對模型的每個因子進行分析,因此被稱為“模型診斷”方法。

2 原理

奇異樣本是指數據集中與其它(大量)樣本不同的樣本。在多元校正分析中,奇異樣本是指在模型中與其它(大量)樣本規律不同的樣本,通常被認為是對模型具有破壞作用的樣品。奇異樣本分為“好的”和“壞的”奇異樣本,前者對模型有好的影響,而后者對模型具有破壞作用,所以也稱為強影響點[17,21]。本研究中,奇異樣本是指在數據集中與其它(大量)樣本在模型中的表現不同的樣本。

偏最小二乘模型由多個因子(或主成分,又稱為潛變量)構成,樣本對模型的貢獻取決于樣本在每個因子中的權重。對于大部分(正常)樣本,權重值在每個因子的分布在一個正常的區間里,而對于奇異樣本,在某些因子中的權重將與其它(正常)樣本不同。因此,通過對每個因子的權重分布考察就可以找到與其它(大量)樣本有較大差異的樣本,即奇異樣本。

為了詳細描述本方法的原理,用高斯函數模擬了6種物質的光譜圖,并添加了1.0%的隨機噪聲。用第4個組分建立偏最小二乘回歸模型,得到的每個樣本在每個因子中的權重如圖1a所示。所謂權重是指偏最小二乘在預測時對預測結果的貢獻。由于建模時光譜和濃度進行了中心化,這些權重值在0上下分布。從圖1a可見,前6個因子對預測結果有顯著的貢獻,通過分析對模型有顯著貢獻的因子可以用于因子數的判定[22]。由于沒有奇異樣本,圖1a所有樣本權重的分布比較均勻,說明正常樣品在每個因子下的權重分布具有較高的相似性。

為了考察奇異樣本對模型的影響,在10,20和30號樣品的濃度值中添加了3倍標準偏差的變動,在40和50號樣品的光譜中添加了與濃度無關的光譜信息。圖1b為添加奇異樣本后每個樣本在不同因子中的權重分布。與圖1a相比,添加奇異樣本后因子數增加,需要更多的因子對模型進行描述。同時,奇異樣本(圖中標示的10,20,30,40和50)的權重在第6和7個因子中與其它樣本具有明顯差異。

圖1 模擬光譜數據偏最小二乘模型的權重分布Fig.1 Weights of each sample in each factor in PLS model of simulated spectra

為了對奇異樣本進行識別,本研究引入LOF (Local outlier factor)[23]方法。LOF方法通過每個數據點附近的數據點數(密度)判斷此數據點是否與其它數據點一致。圖2是圖1b中各樣本的LOF值,5個奇異樣本都可以很明顯的識別出來。圖 2的虛線為閾值,用正常樣本LOF值平均值加3倍標準偏差計算得到。

圖2 具有奇異樣本的模擬光譜數據中每個樣本的LOF值Fig.2 Local outlier factor(LOF)values for samples in simulated spectra with artificial outliers

3 結果與討論

3.1 數據來源與處理

本研究使用了一組包括218個橘汁樣品的近紅外光譜數據,建模的目標值為蔗糖含量[24]。數據可從http://www.ucl.ac.be/mlg下載。光譜采用透射模式,波長范圍為1100~2500 nm,間隔為2 nm。為了便于比較,校正集和預測集采用了數據提供者對光譜數據進行的分組,即校正集包括150個樣品,預測集包括68個樣品。為了消除噪聲、背景對結果的影響,在計算前采用了Haar連續小波變換方法進行了預處理[8,17,21,22],尺度參數為20。

3.2 奇異樣本的識別

圖3是利用校正集的數據建立的偏最小二乘模型中每個樣本在每個因子中的權重分布。首先,此圖顯示對模型貢獻較大的因子是第1,3,4,5,6和7,說明此模型的最佳因子數為8或9。第二個因子對模型的貢獻很小,可能是由于該主成分與蔗糖的含量關系不大。比較每個樣本在不同因子時的權重可知,第133和150個樣本在第1主成分時、第130個樣本在第2和3主成分時、第78個樣本在9主成分時分別與其它樣本有很大差異。因此,這些樣本可能是校正集中的奇異樣本。

為了更加明確地確定奇異樣本,根據圖3的數據可以計算每個樣本的LOF值,如圖4。圖4中的紅色虛線為閾值,由LOF值的平均值和標準偏差確定。從圖4中可清楚地看出,共有6個奇異樣本,分別是第36,78,130,133,140及150個校正集樣本。

圖3 校正集樣本偏最小二乘模型的權重分布Fig.3 Weights of calibration samples in each factor of PLS model

圖4 校正集中每個樣本的LOF值Fig.4 LOF values for samples in calibration set

3.3 模型診斷方法的性能比較

為了考察模型診斷方法奇異樣本識別結果的正確性,分別與常用的留一交叉驗證-3倍標準偏差法和穩健回歸診斷(RSIMPLS)方法進行了比較。留一交叉驗證方法只識別出一個(第130個)奇異樣本,即只有一個樣本在交叉驗證中預測誤差超出了其它樣本預測誤差的3倍。采用RSIMPLS方法的回歸診斷圖(Regression diagnostic plot)[20]找到了23個奇異樣本,其中第130個樣本與其它樣本有顯著的差異。

比較模型診斷、留一交叉驗證和穩健回歸診斷3種方法可知,留一交叉驗證方法過于“寬松”,原因可能是奇異樣本較多時留一交叉驗證預測誤差的標準偏差較大。穩健回歸診斷方法過于“嚴格”,原因可能是閾值過小,Χ2分布在樣本量較大時相關參數需要調整。相比之下,模型診斷方法得到結果相對較為合理。值得注意的是模型診斷方法識別的6個奇異樣本中有5個被該方法識別,只有第36個樣本未被識別,而留一交叉驗證方法所識別的第130個樣本同時被3種方法識別。此結果說明不同識別方法均具有一定的科學性,只是在識別“靈敏度”上具有差異。

3.4 奇異樣本對模型的影響

為了進一步考察奇異樣本識別結果的正確性,分別考察了所識別的奇異樣本對模型及預測結果的影響。表1列出了移除一個或幾個奇異樣本后交叉驗證均方根誤差(RMSECV)和樣本預測誤差的均方根誤差(RMSEP)的變化情況,其中RMSEP1為全體預測集樣本的預測結果,RMSEP2為扣除4個預測誤差較大的樣本(疑為預測集中的奇異樣本)后的預測結果。第一行為參考值,未扣除奇異樣本;第二行中第130個樣本對RMSECV的影響很大,扣除該樣本后RMSECV的數值有大幅度的降低,但是對預測集的預測結果并沒有產生大的影響。這種現象可以通過PLS的原理進行解釋。從圖3可見,第130個樣本對模型的影響主要體現在第二個因子,比其它樣本偏低,在第3個因子中則有些偏高,第4個因子以后不再偏離。PLS的預測結果是多個因子預測結果的加和,當采用較大的因子數時,第130個樣本對模型的整體影響被抵消。為了驗證這一推測,比較了扣除第130個樣本前后因子數為2和7時的模型系數,結果表明,因子數為2時,有明顯差異而因子數為7時差異并不大。因此,第130個樣本對于因子數較大的模型并沒有產生較大影響。

從表1第3行的結果可知,第78個樣本對RMSECV的也有一定程度的影響,RMSEP1的數值有所上升,但RMSEP2的結果有較大幅度下降。前者說明預測集中具有奇異樣本,后者說明第78個樣本確實對模型具有一定影響。通過表1中第4~7行的結果可知,第133和150個樣本使RMSECV降低,第36和140個樣本使RMSECV升高,但RMSEP2的結果均沒有下降。為了考察奇異樣本之間的“掩蔽”或“淹沒”效應,表1中第8~12行分別列出了多個奇異樣本同時扣除時多模型的影響。從RMSECV的結果可知,奇異樣本之間的協同作用,但從RMSEP2的結果第78個樣本具有較大的影響。因此,本組數據中對模型影響最大的奇異樣本應該只有第78個樣本。從奇異樣本對模型及預測能力的影響可以看出,奇異樣本的檢測是一項非常困難的任務,僅從模型自身的評價(RMSECV)難以對模型的預測能力進行估計。當預測集(檢驗集)中存在奇異樣本時,也難以得到正確的評價。

表1 奇異樣本對模型及預測結果的影響Table 1 Effect of detected outliers on model and prediction result

4 結論

建立了一種基于模型診斷的奇異樣本識別方法,通過建模樣本在每個因子中對模型的貢獻,將模型中權重分布不同的樣本識別為奇異樣本。與常用的留一交叉驗證和穩健回歸診斷方法進行比較,表明本方法具有一定的合理性和實用性。但是,奇異樣本對模型及預測能力的影響具有較高的復雜性,單獨使用模型的檢驗無法表明模型預測能力,采用驗證集進行評價時必須保證驗證集的質量。因此,奇異樣本的檢測與識別仍然是一項非常艱巨的任務,有待進一步的深入研究,提出更加科學、可靠的更多方法。

1 Wold S,Ruhe A,Wold H,Dunn W J.SIAM J.Sci.Stat.Comput.,1984,5(3):735-743

2 LIANG Miao,CAI Jia-Yue,YANG Kai,SHU Ru-Xin,ZHAO Long-Lian,ZHANG Lu-Da,LI Jun-Hui.Chinese J.Anal. Chem.,2014,42(11):1687-1691

梁淼,蔡嘉月,楊凱,束茹欣,趙龍蓮,張錄達,李軍會.分析化學,2014,42(11):1687-1691

3 ZHANG Lu-Da,SU Shi-Guang,WANG Lai-Sheng,LI Jun-Hui,YANG Li-Ming.Spectroscopy and Spectral Analysis,2005,25(1):33-35

張錄達,蘇時光,王來生,李軍會,楊麗明.光譜學與光譜分析,2005,25(1):33-35

4 Li Y K,Shao X G,Cai W S.Talanta,2007,72(1):217-222

5 LIN Hao,ZHAO Jie-Wen,CHEN Quan-Sheng,CAI Jian-Rong,ZHOU Ping.Spectroscopy and Spectral Analysis,2010,30(4):929-932

林顥,趙杰文,陳全勝,蔡健榮,周平.光譜學與光譜分析,2010,30(4):929-932

6 Shao X G,Bian X H,Liu J J,Zhang M,Cai W S.Anal.Methods,2010,2(11):1662-1666

7 Wold S,Antti H,Lindgren F,Ohman J.Chemom.Intell.Lab.Syst.,1998,44(1-2):175-185

8 Shao X G,Leung A K M,Chau F T.Acc.Chem.Res.,2003,36(4):276-283

9 Norgaard L,Saudland A,Wagner J,Wagner J,Nielsen J P,Munk L,Engelsen S B.Appl.Spectrosc.,2000,54(3):413-419

10 CentnerV,Massart D L,de Noord O E,de Jong S,Vandeginste M B,Sterna C.Anal.Chem.,1996,68(21):3851-3858

11 Cai W S,Li Y K,Shao X G.Chemom.Intell.Lab.Syst.,2008,90(2):188-194

12 Li H D,Liang Y Z,Xu Q S,Cao D S.Anal.Chim.Acta,2009,648(1):77-84

13 Araujo M C U,Saldanha T C B,Galvao R K H,Yoneyama T,Chame H C,VisaniV.Chemom.Intell.Lab.Syst.,2001,57(2):65-73

14 Xu H,Liu Z C,Cai W S,Shao X G.Chemom.Intell.Lab.Syst.,2009,97(1):189-193

15 Liang Y Z,Kvalheim O M.Chemom.Intell.Lab.Syst.,1996,32(1):1-10

16 Pierna J A F,Jin L,Daszykowski M,Wahl F,Massart D L.Chemom.Intell.Lab.Syst.,2003,68(1-2):17-28

17 Bian X H,Cai W S,Shao X G,Chen D,Grant E R.Analyst,2010,135(11):2841-2847

18 Pierna J A F,Wahl F,de Noord O E,Massart D L.Chemom.Intell.Lab.Syst.,2002,63(1):27-39

19 Walczak B,Massart D L.Chemom.Intell.Lab.Syst.,1998,41(1):1-15

20 Hubert M,Vanden Branden K.J.Chemom.,2003,17(10):537-549

21 Liu Z C,Cai W S,Shao X G.Sci.China Ser B-Chem.,2008,51(8):751-759

22 Liu Z C,Ma X,Wen Y D,Wang Y,Cai W S,Shao X G.Sci.China Ser B-Chem.,2009,52(7):1021-1027

23 Breunig M M,Kriegel H P,Ng R T,Sander J.Sigmod.Rec.,2000,29(2):93-104

24 Li W,Goovaerts P,Meurens M.J.Arg.Food Chem.,1996,44(8):2252-2259

This work was supported by the National Natural Science Foundation of China(No.21475068)and the Major Project of China National Tobacco Corporation(No.Ts-03-20110020).

Outlier Detection for Multivariate Calibration in Near Infrared Spectroscopic Analysis by Model Diagnostics

LI Zheng-Feng1,XU Guang-Jin1,WANG Jia-Jun1,DU Guo-Rong2,CAI Wen-Sheng2,SHAO Xue-Guang*2,31(R&D Center,China Tobacco Yunnan Industrial Co.Ltd.,Kunming 650231,China)
2(Research Center for Analytical Sciences,College of Chemistry,Nankai University,Tianjin 300071,China)
3(College of Chemistry and Environmental Science,Kashgar University,Kashgar 844000,China)

Outlier detection is an important task in multivariate calibration because the quality of a calibration model is determined by that of the calibration data.An outlier detection method is proposed for near infrared (NIR)spectral analysis.The method is based on the definition of outlier and the principle of partial least squares(PLS)regression,i.e.,an outlier in a dataset behaves differently from the rest,and the prediction result of a PLS model is an accumulation of several independent latent variables.Therefore,the proposed method builds a PLS model with a calibration dataset,and then the contribution of each latent variable is investigated.Outliers can be detected by comparing these contributions.An NIR spectral dataset of orange juice samples is adopted for testing the method.Six outliers are detected in the calibration set.The root mean squared error of cross validation(RMSECV)becomes to 4.809 from 16.870 and the root mean squared error of prediction(RMSEP)becomes to 3.332 from 3.688 after the removal of the outliers.Compared with a robust regression method,the result of the proposed method seems more reasonable.

Multivariate calibration;Outlier detection;Partial least squares;Near infrared spectroscopy;Quantitative analysis

11 October 2015;accepted 28 October 2015)

10.11895/j.issn.0253-3820.150793

2015-10-11收稿;2015-10-28接受

本文系國家自然科學基金項目(No.21475068)和中國煙草總公司重大專項課題(No.Ts-03-20110020)資助

*E-mail:xshao@nankai.edu.cn.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 成AV人片一区二区三区久久| 毛片免费网址| 2022国产无码在线| 99久久精品无码专区免费| 亚洲天堂精品视频| 欧美精品成人一区二区视频一| 在线免费看黄的网站| 91色爱欧美精品www| 国产男人天堂| 国产经典在线观看一区| 中文字幕永久视频| 亚洲视频在线观看免费视频| 亚洲精品自产拍在线观看APP| 亚洲无码日韩一区| 婷婷伊人久久| 国产午夜无码专区喷水| 婷婷中文在线| 欧美日本激情| 国产精品女同一区三区五区| 97人妻精品专区久久久久| 欧美日本激情| 欧美一级黄片一区2区| 亚洲精品综合一二三区在线| 国产一区免费在线观看| 天堂亚洲网| 色婷婷色丁香| 久久中文电影| P尤物久久99国产综合精品| 欧美不卡在线视频| 久久久久夜色精品波多野结衣| aⅴ免费在线观看| 国产三级韩国三级理| 成人国产小视频| 国产丝袜一区二区三区视频免下载| 欧美一级黄色影院| 欧美日韩成人| 国产99视频精品免费视频7| 亚卅精品无码久久毛片乌克兰| 久久免费看片| 欧美午夜视频在线| 亚洲综合色婷婷中文字幕| 久久伊伊香蕉综合精品| 福利片91| 久久伊人色| 国产另类视频| 欧美午夜小视频| 亚洲三级电影在线播放 | 小说区 亚洲 自拍 另类| 欧美日韩国产精品va| 欧美性久久久久| 亚洲福利网址| 永久毛片在线播| 色九九视频| 国产亚洲精品自在线| 香蕉国产精品视频| 91精品网站| 成人毛片在线播放| 国产精品自拍露脸视频| 日韩成人在线网站| 国产小视频a在线观看| 国产黑丝视频在线观看| 乱码国产乱码精品精在线播放| 国产91久久久久久| 国产粉嫩粉嫩的18在线播放91| 国产亚洲视频免费播放| 午夜精品久久久久久久无码软件 | 欧美成a人片在线观看| 久久精品丝袜| 亚洲性影院| 白丝美女办公室高潮喷水视频| 色网站在线视频| 99视频在线免费观看| 在线五月婷婷| 亚洲人成网站日本片| 91蝌蚪视频在线观看| 九九热精品在线视频| 91在线一9|永久视频在线| 夜夜高潮夜夜爽国产伦精品| 99热这里只有免费国产精品 | 国产精品成人一区二区不卡| 亚洲妓女综合网995久久| 欧美精品亚洲日韩a|