999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

偏最小二乘近紅外光譜模型中潛變量個數(shù)對模型傳遞性能的影響

2020-11-06 12:18:08李永琪洪士軍張立國欒紹嶸倪力軍
分析測試學(xué)報 2020年10期
關(guān)鍵詞:模型

李永琪,洪士軍,黃 雯,張立國,葛 炯*,欒紹嶸,倪力軍*

(1.華東理工大學(xué) 化學(xué)與分子工程學(xué)院,上海 200237;2.上海煙草集團有限責任公司 技術(shù)中心理化實驗室,上海 200082)

近紅外光譜(NIRs)技術(shù)作為一種快速、無損的綠色檢測技術(shù),在各行各業(yè)的定量與定性分析中得到了廣泛應(yīng)用[1]。該技術(shù)以一些具有代表性的定標樣品的定量指標或定性指標為因變量,其近紅外光譜信息為自變量,通過多元統(tǒng)計方法建立相關(guān)指標的近紅外光譜定量模型或樣品的定性模型,根據(jù)模型實現(xiàn)對未知樣品的定量或定性分析[2]。建立一個良好的近紅外光譜模型需要積累大量樣品的光譜和待測性質(zhì)數(shù)據(jù),并優(yōu)化模型中的相關(guān)參數(shù),模型建立和維護的工作量較大。通常希望在一臺機器上建立的光譜模型(該機器通常稱為主機)能夠轉(zhuǎn)移到其他儀器上(簡稱為從機)繼續(xù)使用[3],簡稱為模型傳遞或模型共享[4-6]。但由于主、從機光譜在不同區(qū)域存在或大或小的差異,通常光譜模型傳遞到從機后誤差會增大,因而出現(xiàn)了各種降低模型對從機樣品預(yù)測誤差的模型傳遞方法[7]。分段直接校正(Piecewise direct standardization,PDS)方法是最經(jīng)典常用的模型傳遞方法,該方法以主、從機均測試的轉(zhuǎn)移集樣品為基礎(chǔ),通過對從機光譜分段校正后再應(yīng)用主機模型預(yù)測從機樣品[8]。

近紅外光譜定量模型通常采用偏最小二乘(Partial least squares,PLS)方法建立樣品光譜信息與待測物質(zhì)信息間的數(shù)學(xué)模型[9]。PLS模型建立過程中需要確定潛變量的個數(shù)(nLVs),一般采用留一交叉驗證或四折(三折)交叉驗證的方法確定nLVs[10]或是選取內(nèi)部檢驗集樣品預(yù)測誤差最小時對應(yīng)的潛變量個數(shù)作為最佳值。本課題組研究發(fā)現(xiàn),采用這種原則確定的近紅外光譜PLS模型通常能夠?qū)闻_儀器給出不錯的結(jié)果,但這樣選取的nLVs往往個數(shù)偏多,會引入噪聲和無效信息,導(dǎo)致模型傳遞時預(yù)測誤差顯著增大,使得模型不能在從機直接應(yīng)用。本文以網(wǎng)上公開發(fā)布的玉米數(shù)據(jù)及煙草企業(yè)多臺近紅外儀器所測煙葉樣品數(shù)據(jù)為例,探究nLVs的選取對主、從機模型誤差的影響,為建立穩(wěn)健、可共享的近紅外光譜模型提供依據(jù)和支持。

1 實驗與方法

1.1 樣品與數(shù)據(jù)集

玉米樣品數(shù)據(jù)集來自http://www.eigenvector.com/data/Corn/corn.mat。包含M5、MP5、MP6 3臺近紅外儀上測得的80 個玉米樣品的近紅外光譜及這些樣品中主要營養(yǎng)成分的含量數(shù)據(jù)。玉米樣品中水分的質(zhì)量分數(shù)在9.38%~10.99%之間,均值為10.23%;蛋白質(zhì)的質(zhì)量分數(shù)在7.65%~9.71%之間,均值為8.67%;脂肪的質(zhì)量分數(shù)在3.09%~3.83%之間,均值為3.50%;淀粉的質(zhì)量分數(shù)在62.84%~66.47%之間,均值為64.69%。煙葉樣品有2套數(shù)據(jù)集,Set A由 78個煙葉樣本分別在主機M(Master)、4臺從機S1、S2、S3和S4上測得的近紅外光譜組成,5臺近紅外儀均為AntarisⅡ近紅外儀器(賽默飛世爾科技有限公司),生產(chǎn)年份不盡相同;Set B則由1 070個在主機M上測得的煙葉樣本光譜組成。Set A、Set B中各煙葉樣品的總植物堿采用YC/T 160-2002[11]測定,其含量在0.55%~6.30%之間。

1.2 模型建立與評價

根據(jù)課題組前期研究結(jié)果,采用標準正態(tài)變換(SNV)結(jié)合一階導(dǎo)數(shù)進行31點平滑對樣品的近紅外光譜進行預(yù)處理可消除因散射和背景漂移引起的光譜誤差,基于該預(yù)處理光譜所建模型與其他預(yù)處理光譜(多元散射校正、一階導(dǎo)數(shù)、原始光譜等)模型的效果相當[12-13]。由于該法不需要使用其他樣品的光譜信息,故本文采用SNV+一階導(dǎo)數(shù)光譜建立玉米中主要營養(yǎng)成分及煙葉總植物堿的近紅外光譜定量模型。采用蒙特卡洛采樣(Monte-Carlo Sampling,MCS)方法剔除異常點[14]。采用綜合考慮光譜與待測性質(zhì)信息來篩選代表性樣品的SPXY(Sample set partitioning based on jointx-ydistance)方法[15]挑選主機建模樣本,剩余樣品作為內(nèi)部驗證集。一般情況下采用建模集均方根殘差(RMSEC)來評價模型的擬合性能,驗證集的均方根殘差(RMSEP)來評價模型的預(yù)測性能[2]??紤]到RMSEP相當于絕對誤差,難以根據(jù)該指標判斷模型誤差的相對大小,本文增加檢驗集或從機樣本模型預(yù)測值與實測值相對誤差的絕對值均值(簡稱為平均相對誤差,MRE)來評估模型對主、從機樣本的預(yù)測性能。另外,為與國標[16-18]要求的評估指標相對應(yīng),本文還采用驗證樣品組分的近紅外模型值扣除系統(tǒng)偏差后與其標準值(實測值)之間的校準標準差(SEP)來評估主機模型調(diào)整后的準確度。相關(guān)評價指標的計算公式如下:

(1)

(2)

(3)

(4)

式(1)~(4)中yi,actual為第i個樣品的實測值,yi,predicted為第i個樣品的模型預(yù)測值,m為檢驗集樣品數(shù)目。biasm是系統(tǒng)偏差,即檢驗集樣品i的近紅外測定值與標準值(實測值)之差的均值。如果不考慮系統(tǒng)偏差校正,式(3)的SEP即為式(1)的RMSEP。

PLS回歸分析時前n個潛變量(主因子)的方差之和占所有潛變量方差之和的百分比η稱為累積貢獻率,其計算公式如下:

(5)

式(5)中λi為第i個潛變量的方差,p為所有方差不為零的潛變量個數(shù),p≤min{樣本數(shù),波長個數(shù)}。

對于從機,采用RMSEP、MRE評價模型轉(zhuǎn)移后的準確度,采用重現(xiàn)性指標SR評價從機近紅外測定結(jié)果與主機近紅外測定結(jié)果的一致性。國標[16]定義玉米水分、蛋白質(zhì)近紅外模型測定結(jié)果再現(xiàn)性指標SR的計算公式如下:

(6)

(7)

式(6)與(7)中的yi,slave與yi,master分別表示樣品i的從機近紅外測定值和主機近紅外測定值;biast為驗證樣品i的從機近紅外測定值與主機近紅外測定值之差的均值,m為檢驗集(預(yù)測集)樣本個數(shù)。

對于玉米中的脂肪與淀粉,國標要求在不同實驗室,由不同操作人員使用同一型號不同設(shè)備,按相同測試方法,對相同的玉米樣品的兩個脂肪獨立實驗結(jié)果之間的絕對差值應(yīng)不大于0.3%[17],對相同的玉米樣品的兩個淀粉獨立實驗結(jié)果之間差值應(yīng)不大于其算術(shù)平均值的15%[18]。參照國標的上述描述,本文定義玉米中脂肪、淀粉的再現(xiàn)性評價指標SRo與SRs如下:

(8)

(9)

式(9)中的yi,m為樣品i的主機近紅外測定值yi,master與從機近紅外測定值yi,slave的均值。表1列出了國標規(guī)定的玉米中4種主要成分近紅外模型相關(guān)評價指標的范圍(上限)。

本文所有算法在MATLAB平臺完成。

表1 糧油近紅外分析儀性能基本要求中玉米主要成分的近紅外模型評價標準[16-18]Table 1 Near infrared model evaluation standards for the main components of corn based on the basic performance requirements of near infrared analyzers for determining grain and oil contents[16-18]

2 結(jié)果與討論

2.1 玉米中主要成分的PLS-NIRs模型對主機樣品的預(yù)測誤差隨nLVs的變化

3臺儀器上測定的玉米樣品的平均光譜如圖1所示,由該圖可看出M5與MP5、MP6的原始平均光譜有明顯差異,經(jīng)SNV+一階導(dǎo)數(shù)預(yù)處理后3臺儀器上樣品的平均光譜差異減小,但在某些波峰、波谷區(qū)域仍有肉眼可見的差異,MP6與MP5的平均光譜很相近。故選取M5作為主機,MP5、MP6兩臺光譜儀為從機。MCS方法未發(fā)現(xiàn)異常樣本。根據(jù)SPXY方法從M5測試的80個玉米樣品中選取前60個樣品作為校正集,剩余20個樣品作為內(nèi)部檢驗集。

圖2 玉米中4種成分含量的PLS-NIRs模型對主機檢驗 集樣品的平均相對誤差(MRE)隨nLVs的變化Fig.2 The average relative error(MRE) of the PLS-NIRs model for the content of the four components in corn of the samples of the host test set varies with nLVs

圖2為主機M5檢驗集樣品各主要成分的平均相對誤差隨nLVs的變化。由該圖可知,nLVs=1時,各成分的MRE已經(jīng)小于3%,淀粉的MRE在nLVs=1時甚至低于1%。蛋白質(zhì)、水分、脂肪含量的MRE均呈現(xiàn)在nLVs<10范圍逐步降低到一個相對低點后有所升高,nLVs>10后又逐步降低的趨勢。一般選取預(yù)測誤差第一次達到相對最小時對應(yīng)的nLVs作為最佳潛變量個數(shù)。根據(jù)該原則,脂肪和淀粉模型可選nLVs = 6;蛋白質(zhì)和水分模型可選nLVs = 4。

采用留一交叉驗證、四折交叉驗證確定的玉米各營養(yǎng)成分的PLS模型中nLVs一般在5~10之間。以水分含量的PLS-NIRs模型為例,模型的前5個潛變量(LV)對應(yīng)的方差分別為:0.999 39、0.000 44、0.000 08、0.000 05、0.000 01。第一個潛變量的方差非常之大,占據(jù)了所有潛變量方差之和的99.9%以上。玉米中另外3個成分脂肪、蛋白質(zhì)及淀粉含量PLS-NIRs模型的第一個潛變量對應(yīng)的累積貢獻率也大于99.9%。因此,如果根據(jù)前nLVs個潛變量累積貢獻率大于99.9%選取潛變量個數(shù),玉米樣品近紅外光譜模型的nLVs=1,該值大大小于常規(guī)方法確定的潛變量個數(shù)。

2.2 潛變量個數(shù)對玉米中主要成分PLS-NIRs模型及模型轉(zhuǎn)移結(jié)果的影響

表2~4給出了不同潛變量個數(shù)下所建立的主機模型對主機樣品和從機樣品中水分、脂肪和淀粉含量的預(yù)測結(jié)果,以及經(jīng)過PDS校正后模型對從機樣品的預(yù)測結(jié)果。根據(jù)文獻建議值及經(jīng)驗,本文選擇PDS校正方法中轉(zhuǎn)移因子數(shù)為2,轉(zhuǎn)移集數(shù)目為12個,窗口寬度為5,容忍度為0.01[19]。

蛋白質(zhì)預(yù)測結(jié)果與表1相似,限于篇幅,該結(jié)果省略。表2~4中斜體數(shù)據(jù)表明對應(yīng)的指標滿足表1的要求。由這3個表可知,不同潛變量個數(shù)所建模型中,nLVs=1時所建立的PLS-NIRs模型直接轉(zhuǎn)移到從機后,對從機樣品各成分含量的預(yù)測誤差RMSEP及MRE最小,且模型預(yù)測從機樣品的誤差與主機樣品預(yù)測誤差相差不多。模型對主機驗證集樣品的SEP以及從機的再現(xiàn)性評價指標均滿足表1所列的國標要求。PDS校正對nLVs=1下所建模型的傳遞效果的改進很有限,且PDS校正后模型對從機樣品脂肪、淀粉含量的預(yù)測誤差高于模型直接傳遞的預(yù)測誤差(見表3、表4中*標注的數(shù)據(jù))。說明模型直接傳遞誤差不大時,沒必要采用PDS方法進行模型傳遞。

由留一交叉驗證和四折交叉驗證選取的nLVs均大于4,在此原則下建立的玉米各營養(yǎng)成分PLS-NIRs模型對主機樣品的預(yù)測誤差RMSEP、MRE隨nLVs的增大而不同程度地降低,但各模型對從機樣品的RMSEP及MRE顯著增大,是主機樣品對應(yīng)誤差指標的幾倍到十幾倍,其誤差水平超出許可范圍。經(jīng)PDS校正從機光譜后,模型對從機樣品的預(yù)測誤差降低到與主機相當?shù)乃?。nLVs>1時建立的玉米營養(yǎng)成分的PLS-NIRs模型給出的主、從機預(yù)測值的重現(xiàn)性較nLVs=1時所建模型的重現(xiàn)性高一個量級,nLVs>4時所建模型對從機樣品中各成分含量的預(yù)測值大多不滿足表1所列的重現(xiàn)性指標要求。說明從第二個潛變量開始,儀器間光譜信息的一致性變差,導(dǎo)致nLVs>1時各模型主、從機間近紅外測試值的重現(xiàn)性變差。雖然nLVs增大可改進模型對主機樣品的預(yù)測準確度,但會導(dǎo)致模型傳遞誤差變大,使得模型無法直接轉(zhuǎn)移到從機。

表2 玉米水分PLS-NIRs模型直接傳遞及PDS校正后的傳遞結(jié)果Table 2 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting moisture content in corn

表3 玉米脂肪PLS-NIRs模型直接傳遞及PDS校正后的傳遞結(jié)果Table 3 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting oil content in corn

(續(xù)表3)

表4 玉米淀粉PLS-NIRs模型直接傳遞及PDS校正后的模型傳遞結(jié)果Table 4 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting starch content in corn

2.3 潛變量個數(shù)對煙葉總植物堿PLS-NIRs模型及模型轉(zhuǎn)移結(jié)果的影響

以煙葉數(shù)據(jù)集中Set B作為建模集,Set A中主機的78個樣品光譜為外部驗證集,建立煙葉總植物堿的PLS-NIRs模型。通過MCS方法發(fā)現(xiàn)兩個異常點,最終取Set B中的1 068個樣本建立模型。根據(jù)累積貢獻率大于99.9%選取的nLVs=13,四折和留一交叉驗證選取的nLVs分別為16和19。表5給出了分別取13、16、19個潛變量時得到的煙葉總植物堿的PLS-NIRs模型結(jié)果,以及經(jīng)過PDS校正后模型對從機樣品的預(yù)測結(jié)果。表中斜體數(shù)據(jù)表明對應(yīng)的指標滿足小于6%的企業(yè)內(nèi)控要求。取nLVs=13所建立的煙葉總植物堿PLS-NIRs模型直接轉(zhuǎn)移到從機后,對S1從機的MRE小于6%,但對其他3臺從機樣品的MRE均大于6%;經(jīng)PDS校正后,nLVs=13下所建模型對4臺從機的預(yù)測誤差均小于6%。而潛變量個數(shù)大于13時所建立的煙葉總植物堿的PLS-NIRs模型對主機樣品的預(yù)測誤改進很有限,且模型直接轉(zhuǎn)移到從機后,除nLVs=16模型對S1樣品的MRE小于6%外,對其他從機樣品的MRE均大于6%,即使經(jīng)過PDS校正也不能保證這些模型對所有從機樣品的MRE滿足企業(yè)的內(nèi)控要求。

2.4 討論與分析

玉米樣品中主要成分的PLS-NIRs模型潛變量個數(shù)取1時,模型傳遞誤差最小且4個成分的PLS-NIRs模型對主、從機樣品預(yù)測值的重現(xiàn)性均滿足國標要求。由于第一潛變量的方差已經(jīng)占據(jù)所有潛變量方差總和的99.9%以上,說明第一潛變量之后的潛變量所包含的有效信息加起來不足0.1%,引入這些有效信息很少的潛變量,易導(dǎo)致模型過擬合:即對建模樣品或主機樣品模型的誤差很小(小于潛變量個數(shù)為1的模型誤差),但對從機樣品的誤差過大。

表5 煙葉總植物堿PLS-NIRs模型直接傳遞及PDS校正后的傳遞結(jié)果Table 5 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting total alkaloid contents in tobacco leaves

圖3 玉米水分PLS-NIRs模型的第一載荷軸與M5、 MP5差譜絕對值的標準方差譜(SDDSI1)Fig.3 The first loading of PLS-NIRs model for predicting corn moisture and the standard deviance spectrum of absolute difference spectra between M5 and MP5

圖3給出了玉米中水分PLS-NIRs模型的第一載荷軸及M5、MP5樣品光譜的差譜絕對值的標準方差光譜(簡稱SDDSI1)。由圖3可看出,第一載荷軸的峰值位于SDDSI1很小或較小的區(qū)域,而SDDSI1的峰值所對應(yīng)第一載荷取值均在0附近,說明第一潛變量中對模型貢獻大的波長點有效避開了儀器間光譜差異波動大的區(qū)域,因此當玉米PLS模型的潛變量個數(shù)nLVs取1時,對從機樣品的預(yù)測誤差與主機相當。其次,該模型摒棄了方差小于0.1%、有效信息含量很低的潛變量,大大提高了模型的穩(wěn)健性,使得模型傳遞到從機后誤差無明顯變化。

3 結(jié) 論

PLS-NIRs模型中潛變量個數(shù)nLVs的選取對模型的穩(wěn)健性、傳遞性能有重要影響。nLVs夠用即可,過高的nLVs容易造成過擬合,影響模型的穩(wěn)健性,使得模型轉(zhuǎn)移時誤差過大。根據(jù)累積貢獻率大于99.9%選取nLVs建立的PLS-NIRs模型穩(wěn)健性最好,易于獲得好的模型傳遞結(jié)果。而根據(jù)留一交叉驗證及四折交叉驗證或單臺(主機)儀器驗證集預(yù)測誤差最小等原則選取的nLVs個數(shù)均高于根據(jù)累積貢獻率大于99.9%選取的nLVs,易導(dǎo)致模型過擬合。

建議根據(jù)累計貢獻率大于99.9%或接近99.9%時對應(yīng)的nLVs建立近紅外光譜模型,雖然對于主機而言,模型誤差比根據(jù)留一交叉驗證或四折交叉驗證選取nLVs建立的模型誤差稍高,但模型傳遞誤差小,易于實現(xiàn)模型共享,獲得好的模型傳遞效果。本結(jié)論對玉米、煙葉之外的其他類型樣品是否成立有待進一步驗證。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 伊人中文网| 浮力影院国产第一页| 久久精品66| 日本五区在线不卡精品| 亚洲视频免费播放| 狠狠综合久久久久综| 激情综合网址| 久操中文在线| 在线看国产精品| 91精品免费高清在线| 麻豆AV网站免费进入| 亚洲欧洲日韩综合| 国产女人综合久久精品视| 一级毛片免费不卡在线| 国产福利免费视频| 亚洲精品无码久久毛片波多野吉| 一级毛片在线免费视频| 91久久偷偷做嫩草影院| 999在线免费视频| 99精品热视频这里只有精品7| 香蕉久久国产超碰青草| 青青青视频91在线 | 麻豆国产在线观看一区二区 | 成人一级黄色毛片| 五月婷婷导航| 成人在线天堂| 最新亚洲av女人的天堂| 成年人久久黄色网站| 黄色污网站在线观看| 国产精品亚欧美一区二区三区 | 青青草原国产免费av观看| 日韩精品专区免费无码aⅴ| 国产白浆视频| 国内黄色精品| 欧美a√在线| 亚洲香蕉伊综合在人在线| 国产99热| 最新加勒比隔壁人妻| 国产系列在线| 五月婷婷伊人网| 久久99蜜桃精品久久久久小说| 国产一在线| 久久久久88色偷偷| 伦精品一区二区三区视频| AV在线麻免费观看网站| 免费毛片a| 亚洲天堂啪啪| 九色在线观看视频| a级毛片免费网站| 97视频精品全国免费观看| 久久久久九九精品影院| 国产在线专区| 亚洲天堂成人| 亚洲六月丁香六月婷婷蜜芽| 伊人五月丁香综合AⅤ| 亚洲高清中文字幕在线看不卡| 午夜国产理论| 热久久综合这里只有精品电影| 丁香婷婷激情综合激情| 色哟哟国产精品| www亚洲天堂| 日韩一二三区视频精品| 欧美在线一二区| 久久精品视频一| 玖玖精品在线| 久久黄色视频影| 久久久久人妻一区精品色奶水| 无码精品福利一区二区三区| 国产高潮流白浆视频| 亚洲欧美一级一级a| 久久视精品| 午夜欧美理论2019理论| 国产精品尤物在线| 玖玖精品在线| 久久这里只有精品66| 精品久久蜜桃| 亚洲精品制服丝袜二区| 日韩小视频在线观看| 久久综合干| 免费在线色| 99热亚洲精品6码| 日韩欧美中文在线|