摘要:基于多模型共識的基本思路結(jié)合近紅外光譜,建立了多模型共識偏最小二乘回歸方法(cPLS),從訓(xùn)練集隨機取樣建立一系列偏最小二乘回歸模型(PLS),選取其中性能較好的部分模型作為成員模型,并用這些成員模型預(yù)測未知樣品。將cPLS用于玉米中濕度、淀粉、蛋白質(zhì)及油分含量的近紅外光譜定量預(yù)測。結(jié)果PLS對獨立測試集中4種組分進行50次重復(fù)預(yù)測的平均預(yù)測誤差均方根分別為0.020 7、0.268 6、0.122 0和0.070 6,預(yù)測誤差均方根的標(biāo)準(zhǔn)偏差分別為4.753 0×10-3、0.054 8、0.023 0和0.014 9;而cPLS重復(fù)50次預(yù)測的平均預(yù)測誤差均方根分別為0.016 0、0.167 8、0.116 6和0.044 1,預(yù)測誤差均方根的標(biāo)準(zhǔn)偏差分別為2.735 0×10-4、0.002 5、0.003 0和7.683 0×10-4。可見,cPLS所建立的模型更加穩(wěn)健可靠,預(yù)測的準(zhǔn)確性也明顯提高。
關(guān)鍵詞:農(nóng)產(chǎn)品;多模型共識;近紅外光譜;定量分析
中圖分類號:S132; O657.3 文獻標(biāo)識碼:A 文章編號:0439-8114(2013)22-5599-04
近紅外光譜是指780~2 526 nm波長范圍內(nèi)的電磁波譜[1],其信息主要是含氫基團(如C-H、O-H、N-H、S-H等)分子振動的倍頻與合頻吸收信息,由于含有豐富的物質(zhì)結(jié)構(gòu)信息,可用于分析絕大多數(shù)種類的化合物及其混合物的成分濃度或者品質(zhì)參數(shù)。現(xiàn)代近紅外光譜分析是通過建立校正模型從而實現(xiàn)對未知樣本的定性或定量分析的,因而是一種間接分析技術(shù)。由于具有分析時間短、無需樣品預(yù)處理、非破壞性、無污染以及成本低等特點,近紅外光譜分析技術(shù)已成為一種快速的現(xiàn)代分析技術(shù),廣泛應(yīng)用于農(nóng)產(chǎn)品、食品領(lǐng)域的品質(zhì)檢測[2]。
由于近紅外光譜譜峰較寬,實際樣品中各種成分的吸收峰重疊嚴(yán)重,因而必須采用化學(xué)計量學(xué)方法對微弱化學(xué)信息進行提取和分析,以達到對復(fù)雜混合物進行定性或者定量分析的目的。近紅外光譜分析中常用的多元校正技術(shù)包括線性回歸和非線性回歸,方法包括多元線性回歸,主成分回歸,偏最小二乘回歸以及支持向量回歸等[3,4]。然而傳統(tǒng)的多元校正技術(shù)一般采用單一模型,即采用一定的訓(xùn)練集建立一個最優(yōu)模型然后用于測定。此類方法對數(shù)據(jù)噪聲和樣本量都比較敏感,在分析復(fù)雜化學(xué)測量數(shù)據(jù)時,當(dāng)訓(xùn)練集樣本數(shù)目有限或存在較大誤差時模型的預(yù)測精度與穩(wěn)定性往往達不到滿意的效果。
多模型共識方法[5-9]是相對于傳統(tǒng)的單模型方法提出的。其基本思路是采用隨機或組合的方式利用同一訓(xùn)練集中的不同子集建立的多個模型同時進行預(yù)測,將多個預(yù)測結(jié)果通過一定的規(guī)則,例如簡單平均或加權(quán)平均,形成一個共識的最終結(jié)果。多模型共識的突出特點是通過多次使用訓(xùn)練集中不同子集樣本的信息,降低預(yù)測結(jié)果對某一樣本的依賴性。
本研究基于多模型共識的基本思路,采用隨機抽樣技術(shù)選擇訓(xùn)練子集,建立一系列的偏最小二乘回歸模型(PLS),并從中選擇部分預(yù)測性能較好的模型作為成員模型,用這些成員模型的預(yù)測均值來預(yù)測未知樣品中待分析組分的濃度。將該方法稱為多模型共識偏最小二乘回歸方法(cPLS),用于玉米樣品中濕度、蛋白質(zhì)以及油分含量之間的建模研究,并討論了建模參數(shù)對預(yù)測結(jié)果的影響,對單模型與多模型共識的結(jié)果進行了比較。
1 方法
1.1 cPLS方法原理及主要步驟
1.1.1 確定PLS建模采用的最佳隱變量數(shù) 利用訓(xùn)練集建立PLS回歸模型并以檢驗集進行預(yù)測,根據(jù)不同的隱變量數(shù)時所得的預(yù)測誤差均方根,選擇最佳隱變量數(shù)。
1.1.2 確定cPLS中的成員模型的接受標(biāo)準(zhǔn)、模型總數(shù)等相關(guān)參數(shù) 在cPLS方法中,并非所有訓(xùn)練子集所建的模型都可以參與預(yù)測,其中有部分模型可能受個別樣本的影響較大,因此要設(shè)定成員模型的接受標(biāo)準(zhǔn),達到此標(biāo)準(zhǔn)的模型才能成為cPLS的成員模型。本方法利用訓(xùn)練集建立PLS回歸模型并以檢驗集進行預(yù)測,并根據(jù)預(yù)測結(jié)果與真值之間的平均相對誤差為依據(jù),確定成員模型的接受標(biāo)準(zhǔn)。此外,多次預(yù)測結(jié)果的穩(wěn)定性會受模型總數(shù)的影響,以不同訓(xùn)練子集(隨機取自訓(xùn)練集)多次建模預(yù)測同一檢驗集,當(dāng)預(yù)測誤差均方根趨于穩(wěn)定時的模型數(shù)即合適的模型總數(shù)。
1.1.3 預(yù)測 據(jù)以上參數(shù),用cPLS中所有成員模型共同預(yù)測未知樣品,各成員模型分別預(yù)測后結(jié)果取均值即為最終預(yù)測結(jié)果。
本試驗所涉及的計算在Matlab 7.0上自編程序完成。
1.2 試驗數(shù)據(jù)
該數(shù)據(jù)集包含80個玉米樣本的近紅外光譜數(shù)據(jù)。光譜通過3種不同的近紅外光譜儀測得,每條光譜包含1 100~2 498 nm范圍內(nèi)共700個波長通道下的響應(yīng)數(shù)據(jù),光譜分辨率為2 nm。本試驗采用m5儀器測定的近紅外光譜數(shù)據(jù),80個玉米樣本的原始光譜如圖1所示。同時,數(shù)據(jù)集包含所有玉米樣本的濕度、油分、蛋白質(zhì)以及淀粉的含量。該數(shù)據(jù)集可以從網(wǎng)站(http://www.eigenvector.com/data/index.htm)免費下載。隨機選取數(shù)據(jù)集樣本總數(shù)的80%(即64例)作為訓(xùn)練集,其余20%的樣本(16例)作為獨立測試集,用于模型性能評價;并隨機抽取訓(xùn)練集中80%的樣本作為訓(xùn)練子集用于建模,其余樣本作為檢驗集用于模型參數(shù)優(yōu)化。
2 結(jié)果與討論
2.1 對玉米濕度的分析
2.1.1 隱變量數(shù)的確定 PLS建模過程中首先要解決的是隱變量數(shù)的選擇問題。在訓(xùn)練子集上采用PLS算法進行建模,然后對檢驗集進行預(yù)測,圖2為隱變量數(shù)取1~20時的校正集誤差均方根及預(yù)測集預(yù)測誤差均方根。由圖2可見,當(dāng)所采用的PLS隱變量數(shù)變化時,所建模型精度也會發(fā)生變化。開始時,誤差均方根均較大且不穩(wěn)定;隨著隱變量數(shù)的增大,誤差均方根逐漸減小;當(dāng)隱變量數(shù)大于10時,誤差均方根基本趨于穩(wěn)定。考慮模型精度及計算效率兩個方面,選擇隱變量數(shù)為10進行下一步的計算。
2.1.2 成員模型的接納標(biāo)準(zhǔn) 用單模型PLS對檢驗集進行50次重復(fù)預(yù)測時,平均相對誤差的分布情況如圖3所示,可見絕大多數(shù)情況下的平均相對誤差為0.12%~0.22%,故在cPLS中分別采用0.12%、0.14%、0.16%、0.18%、0.20%及0.22%的平均相對誤差作為接納成員模型的判據(jù),模型總數(shù)均為100,對檢驗集進行預(yù)測,結(jié)果以不同平均相對誤差為接納標(biāo)準(zhǔn)時,隨著相對誤差的提高,預(yù)測誤差均方根先下降,然后略有升高,其中平均相對誤差0.20%對應(yīng)的預(yù)測誤差均方根最低。故本研究采用0.20%作為誤差判據(jù)的閾值,即成員模型的接納標(biāo)準(zhǔn)。
2.1.3 模型總數(shù)的確定 從cPLS的原理可以看出,多模型共識算法的優(yōu)勢在于每個成員模型給出不同的預(yù)測結(jié)果時,最后給出一個穩(wěn)定可靠的結(jié)果;所以理論上成員模型數(shù)越多,cPLS的結(jié)果越可信,但模型數(shù)過多顯然影響計算效率。因此,成員模型的總數(shù)是另一個重要參數(shù),對預(yù)測結(jié)果的穩(wěn)定性和準(zhǔn)確性起著關(guān)鍵的作用。本研究選取模型數(shù)50、100、200、500進行考察,檢驗集預(yù)測誤差均方根隨模型數(shù)的變化可用圖4的箱形圖表示。箱形圖是統(tǒng)計學(xué)、品質(zhì)管理等領(lǐng)域常用的,用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖。若預(yù)測誤差均方根分布比較集中,則說明結(jié)果比較穩(wěn)定。由圖4可見,模型數(shù)為100的結(jié)果比其余三者稍顯集中,且異常樣本數(shù)較少。綜合考慮計算的效率及結(jié)果穩(wěn)定性,后面的處理過程中成員模型數(shù)都取100。
2.1.4 cPLS對玉米濕度的預(yù)測結(jié)果 由于cPLS的預(yù)測結(jié)果采用了多個模型的平均值,預(yù)測穩(wěn)定性是cPLS算法的重要特點之一。根據(jù)上述確定的隱變量數(shù)、成員模型接納標(biāo)準(zhǔn)及模型總數(shù)等條件,對獨立測試集進行預(yù)測。為了考察預(yù)測結(jié)果的穩(wěn)定性,重復(fù)進行50次計算,結(jié)果如圖5所示。為了進一步評價算法的穩(wěn)定性及預(yù)測準(zhǔn)確性,用單模型PLS回歸方法進行了比較。以PLS在訓(xùn)練集上建模(隱變量數(shù)為10),對獨立測試集進行預(yù)測,重復(fù)進行50次計算,結(jié)果見圖5。
在50次重復(fù)運算的結(jié)果中,cPLS方法的預(yù)測誤差均方根均值為0.016 0,標(biāo)準(zhǔn)偏差為2.735 0×10-4;而PLS對預(yù)測集預(yù)測的預(yù)測誤差均方根均值為0.020 7,標(biāo)準(zhǔn)偏差為4.753 0×10-3。可見PLS算法50次預(yù)測的預(yù)測誤差均方根之間相差較大,表現(xiàn)出模型的穩(wěn)定性較差;而cPLS算法50次預(yù)測的預(yù)測誤差均方根之間的波動很小,表現(xiàn)出非常好的模型穩(wěn)定性,且其預(yù)測準(zhǔn)確性也明顯比單模型PLS高。
2.2 對玉米淀粉、蛋白質(zhì)及油分含量的分析
用cPLS和單模型PLS回歸方法對樣品中的淀粉、蛋白質(zhì)及油分含量進行分析。對獨立測試集重復(fù)50次預(yù)測的結(jié)果如表1所示。很顯然,cPLS的預(yù)測結(jié)果無論從準(zhǔn)確性還是穩(wěn)定性來講,均優(yōu)于PLS。盡管兩種方法對獨立測試集中蛋白質(zhì)含量預(yù)測的預(yù)測誤差均方根均值相差不大,但PLS進行多次預(yù)測的標(biāo)準(zhǔn)偏差較大,說明多次預(yù)測時波動較大,而cPLS則明顯穩(wěn)定得多。因此,cPLS預(yù)測的結(jié)果更加穩(wěn)定可靠。
3 結(jié)論
由于多個模型往往比相應(yīng)的單模型能更有效地從數(shù)據(jù)的不同方面和不同層面抽取并表達自變量和因變量之間的復(fù)雜關(guān)系,因而該方法有望解決過擬合問題,提高模型的穩(wěn)健性和預(yù)測精度。而且多模型共識方法在取樣時,是多次隨機從訓(xùn)練集中取樣,這就克服了單模型方法單次取樣可能帶來的采樣不合理問題。也就是說,cPLS與傳統(tǒng)的單模型方法相比,所建立的模型更加穩(wěn)健可靠,預(yù)測的準(zhǔn)確性也明顯提高。因此,cPLS在克服單模型方法由于樣品復(fù)雜且校正集樣品較少而不穩(wěn)定的方面具有一定的實際意義。
參考文獻:
[1] STARK E,LUCHTER K,MARGOSHES M. Near-infrared analysis(NIRA): A technology for quantitative and qualitative analysis[J]. Applied Spectroscopy Reviews,1986,22(4):335-399.
[2] 孫 通,徐惠榮,應(yīng)義斌.近紅外光譜分析技術(shù)在農(nóng)產(chǎn)品/食品品質(zhì)在線無損檢測中的應(yīng)用研究進展[J].光譜學(xué)與光譜分析,2009, 29(1):122-126.
[3] 褚小立,許育鵬,陸婉珍.用于近紅外光譜分析的化學(xué)計量學(xué)方法研究與應(yīng)用進展[J].分析化學(xué),2008,36(5):702-709.
[4] 姚 霞,田永超,倪 軍,等.水稻葉片色素含量近紅外光譜估測模型研究[J].分析化學(xué),2012,40(4):589-595.
[5] 李艷坤,邵學(xué)廣,蔡文生.基于多模型共識的偏最小二乘法用于近紅外光譜定量分析[J].高等學(xué)校化學(xué)學(xué)報,2007,28(2):246-249.
[6] LI Y K, SHAO X G, CAI W S. A consensus least squares support vector regression (LS-SVR) for analysis of near-infrared spectra of plant samples [J]. Talanta,2007,72(1):217-222.
[7] CHEN D,CAI W S,SHAO X G. A strategy for enhancing the reliability of near-infrared spectral analysis[J]. Vibrational Spectroscopy,2008,47(2):113-118.
[8] SHAHBAZIKHAH P, KALIVAS J H. A consensus modeling approach to update a spectroscopic calibration [J]. Chemometrics and Intelligent Laboratory Systems,2013,120(1):142-153.
[9] LI Y K. Determination of diesel cetane number by consensus modeling based on uninformative variable elimination[J]. Analytical Methods,2012,4(1):254-258.
(責(zé)任編輯 昌炎新)