吳雪梅 劉志強 張天龍 李華



摘 要 前期研究工作提出了以預測均方根相對誤差最小為回歸目標的方法(Minimization of prediction relative error,MPRE),它能使得預測結果的均方根相對誤差更小。偏最小二乘法(Partial least squares,PLS)是以預測均方根誤差為回歸目標,能使得預測結果的均方根誤差更小。基于多模型結合的思想,提出將MPRE與PLS相結合的雙模型結合多元校正方法。本方法步驟為:(1) 分別采用MPRE與PLS法對校正集建模;(2) 計算閾值;(3)分別采用已建立好的MPRE與PLS模型進行預測;(4)將預測結果與閾值進行比較,得到預測結果。通過對酒精的近紅外光譜與汽油紫外光譜進行定量分析結果表明,本方法可進一步減小預測均方根誤差與相對誤差。
關鍵詞 雙模型; 多元校正; 均方根相對誤差; 均方根誤差
1 引 言
隨著現代大型儀器的使用,多元校正方法被廣泛應用于分析化學領域【1~3】。目前常用的多元校正方法主要有經典最小二乘法(Classical least-squares,CLS)、主成分回歸法(Principal component regression,PCR)、偏最小二乘法(Partial least squares,PLS)等線性多元校正方法及人工神經網絡法(Artificial neural network, ANN)、非線性PLS等非線性多元校正方法【7,8】。無論是線性多元校正方法,還是非線性多元校正方法,均方根誤差(Root-mean-square error of prediction, RMSEP)通常被用作多元校正的評價指標【9~11】。換言之,在這些多元校正方法中,其校正的目標是預測樣本組分的均方根誤差最小,其建模的代價函數是預測誤差平方和。采用該代價函數可在一定程度上使預測組分的絕對誤差盡可能小。在組分值動態范圍較小時,現有的線性或非線性多元校正方法能取得較為理想的結果。但是當組分值動態范圍較大時,如組分值范圍為1~100 mmol/L時,雖然采用現有的多元校正方法能使得預測均方根誤差較小(如預測均方根誤差為0.5 mmol/L),在實際應用中,較小的預測均方根誤差相對較大組分值而言相對誤差較小,預測數據可靠性高,但是相對于較小組分值而言,預測相對誤差非常大,甚至超過100%,預測數據可靠性變差。
本研究組前期工作提出了一種能使預測均方根相對誤差最小化的方法(Minimization of prediction relative error,MPRE)【12】。MPRE法選擇反向傳播神經網絡(Back-propagation artificial neural network, BP-ANN))【13】為回歸方法,通過改變預測器輸出來實現預測結果均方根相對誤差最小的目的。PLS是以均方根誤差最小為回歸目標的多元校正方法,1983年Wold and Martens將該方法引入化學領域后,由于其性能突出被廣泛應用于多元校正分析中【14】。本研究利用MPRE法與PLS法的雙模型結合多元校正方法,進一步減小預測均方根誤差與相對誤差。
2 基本理論
2.1 MPRE法簡介
預測均方根相對誤差最小化方法(MPRE)【12】采用BP神經網絡建模。與常見的神經網絡建模方法相同,MPRE將光譜信息作為輸入信息,采用經典的訓練方法對網絡進行訓練。為了實現預測均方根相對誤差最小,在MPRE方法中,對輸出值進行了調整,以組分信息的對數值作為輸出:
文獻已從理論上證明,對建模輸出值采用組分值的對數,MPRE可實現預測均方根相對誤差最小的目標; 雖然MPRE法與PLS法的預測結果的RMSEP值相當,但MPRE法能獲得更小的均方根相對誤差。
預測均方根誤差RMSEP定義為:
2.2 雙模型結合方法
2.2.1 基本思想 從文獻的理論分析與實驗結果可知,采用常規的多元校正方法只能實現RMSEP最小,難以實現預測均方根相對誤差Pre最小,其原因是對低含量組分預測時,預測誤差與組分值的比值較大,從而導致總體預測均方根相對誤差較大。MPRE方法能減小低含量組分的預測誤差,保證預測均方根相對誤差較小,但是由于其功能設計時只保證預測均方根相對誤差最小,并未考慮預測均方根誤差RMSEP,故在組分值較大時,其預測誤差也較大,甚至超過常規多元校正方法。從文獻的實驗結果還可看出,MPRE與PLS的RMSEP相當,但預測均方根相對誤差Pre卻存在明顯差別。從統計學角度來看,在組分值較小時MPRE法預測絕對誤差較小,當組分值較大時PLS法預測相對誤差較小。如果將MPRE法與PLS法等常規校正算法相結合,在組分值較小時,采用MPRE預測結果,在組分值較大時采用常規校正算法(如PLS)預測結果,那么最終預測均方根相對誤差與預測均方根誤差均可能進一步減小。
2.2.2 閾值確定 從基本思想可知,雙模型結合方法的關鍵是確定一個合適的閾值g,當采用MPRE預測結果小于閾值g時,選用MPRE法預測結果,反之選用PLS等常規校正算法的預測結果。
假設已知MPRE法取得的預測均方根相對誤差為Pre,PLS等常規多元校正方法預測均方根誤差為RMSEPs。顯然閾值g的選擇應滿足如下條件:對于組分值為g的樣本而言,MPRE的預測均方根誤差RMSEP1與常規多元校正方法預測均方根誤差RMSEPs2相等。
RMSEP1=gPre=RMSEP2 (7)
由式(7)可求得閾值:
g=RMSEP2Pre(8)
在實際預測中,如果實驗數據較多,可將數據分為校正集、驗證集和預測集。此時,RMSEP2即為驗證集的預測均方根誤差,Pre為驗證集的預測均方根相對誤差。如果沒有大量數據,可將數據分為校正集和預測集。此時,由于不知道待測光譜的具體組分值,RMSEP2與Pre值無法獲得,這兩個參數可以分別采用常規校正算法的校正均方根誤差(Root-mean-square error of calibration, RMSEC)與MPRE法中間層確定時計算的預測相對誤差來代替。endprint
2.2.3 雙模型結合方法步驟 雙模型結合法步驟為: 分別采用MPRE法與PLS法對校正集建模;由公式(8)確定閾值g; 分別采用已建立好的MPRE與PLS模型進行預測,設預測結果分別為p1與p2;如果p1 3 實驗數據 與文獻相同,為了驗證所提方法在預測單組分樣品、同時預測多組分樣品、在樣品存在組分值為0時的預測性能,同時,也為了說明算法對于不同光譜數據的適應性,實驗中選擇了兩組不同類型的數據。 數據A 酒精的近紅外光譜測量數據。酒精的濃度范圍為:0.02~0.61(體積比,間隔0.01)共60個樣本,由VERTEX 70傅里葉變換近紅外光譜儀(布魯克公司)測量各溶液的光譜。實驗中,溶液按濃度從低到高排列,在建模與預測時,從第2個樣品開始,每隔2個樣品選一個樣品作為預測集樣品,其余樣品作為校正集樣品。 數據B 這是一組在網上公開的汽油的紫外光譜數據。實驗中采用了其中名為“gasoil”的這組數據。下載網址為:http://myweb.dal.ca/pdwentze/downloads.html, Data Set #3。該數據共有115個樣品的組分信息和光譜數據。根據樣品提供者建議,采用前70個樣品作為校正集樣品,后續44個樣品為預測集樣品,最后一個為奇異值,在實驗中不予使用。在這組數據中,組分2和3的組分值范圍較寬,便于驗證所提方法的性能。 4 結果與討論 在實驗中,PLS_toolbox(V5.5)用于建立PLS模型。建模時采用留一交叉檢驗法確定因子數,對數據集A確定的因子數是3,對數據集B確定的因子數為4。 MPRE法采用MATLAB 2006a編寫完成。同文獻,神經網絡的輸入和輸出采用的是autoscale預處理方法,神經網絡的中間層傳遞函數為logsig函數,輸出層傳遞函數為purelin函數,對數據集A確定的中間層神經元數為2,對數據集B確定的中間層神經元數為3。回歸過程的訓練目標誤差設置為0。訓練的最大迭代次數設置為5000。對于數據B,其組分值中含有0,因此MPRE建模與預測時分別選用式(3)與式(4)進行處理,且f值設定為0.001。 根據雙模型結合方法步驟,閾值確定結果見表1。預測均方根誤差與預測均方根相對誤差統計結果見表 2。 實驗結果表明,對于數據A,采用雙模型結合算法后,預測結果的預測均方根誤差與預測均方根相對誤差均比MPRE法與PLS法低;對于數據B,第二組分的預測均方根誤差介于MPRE法與PLS算法之間,但預測均方根相對誤差小于MPRE法與PLS算法,第三組分的預測均方根誤差與預測均方根相對誤差均低于MPRE法與PLS法。從理論上講,采用雙模型結合校正算法預測結果的預測均方根誤差與預測均方根相對誤差均應比MPRE法與PLS法低,但是在實際計算中,一方面由于預測誤差具有一定的隨機性;另一方面閾值選取中重要參數RMSEP與Pre受到數據量小的限制,采用建模時RMSEC與選擇中間層時確定的預測均方 根誤差代替,使得閾值g不夠準確;最終導致數據B組分二的預測均方根誤差大于基本方法預測均方根誤差。如果通過大量實驗,準確地確定RMSEP與Pre兩個參數,那么采用雙模型結合算法將會以更大概率取得更優的預測結果。 5 結 論 雙模型結合多元校正方法是一個多模型選擇算法,當采用MPRE法預測結果低于閾值時,選用MPRE法結果,反之選用PLS法預測結果。該方法充分利用了MPRE法對低含量組分值預測準確與PLS法對高組分預測相對誤差較小的優點,可同時減小預測均方根相對誤差與預測均方根誤差,適用于組分值具有較寬范圍的多元校正。 References 1 Silva M A M, Ferreira M H, Braga J W B, Sena M M. Talanta, 2012, 89: 342-351 2 Beebe K R, Kowalski B R. Anal. Chem., 1987, 59(17): 1007A-1017A 3 NI Yong-Nian, CAO Dong-Xia. Chem. J. Chinese Universities, 2006, 27(6): 1048-1050 倪永年, 曹東霞. 高等學校化學學報, 2006, 27(6): 1048-1050 4 Zhou Y, Cao H, Hu J, Yu S, Zhao Q, Li X, Ju L. Instrum. Sci. Technol., 2011, 39(4): 394-405 5 Ns T, Martens H. J. Chemometr., 1988, 2(2): 155-167 6 BI Yan-Lan, REN Xiao-Na, PENG Dan, YANG Guo-Long, ZHANG Lin-Shang, WANG Xue-De. Chinese J. Anal. Chem., 2013, 41(9): 1366-1372 畢艷蘭, 任小娜, 彭 丹,楊國龍, 張林尚, 汪學德. 分析化學, 2013, 41(9): 1366-1372 7 Long J R, Gregoriou V G, Gemperline P J. Anal. Chem., 1990, 62(17): 1791-1797 8 Malthouse E C, Tamhane A C, Mah R S H. Comput. Chem. Eng., 1997, 21(8): 875-890 9 Li Y, Shao X, Cai W. Talanta, 2007, 72(1): 217-222 10 Shao X, Bian X, Cai W. Anal. Chim. Acta, 2010, 666(1): 32-37 11 Nakagawa H, Tajima T, Kano M, Kim S, Hasebe S, Suzuki T, Nakagami H. Anal. Chem., 2012, 84(8): 3820-3826 12 Wu X, Liu Z, Li H. Anal. Methods, 2014, 6(12): 4056-4060 13 Mitchell T M. Mach. Learn., 1997: 81-127 14 Zhang M H, Xu Q S, Massart D L. Anal. Chem., 2005, 77(5): 1423-1431