徐小紅 李新鋒
摘要:為提高在線近紅外模型預測精度,本文分別采用全波長、連續投影方法、無信息變量消除方法、競爭性自適應權重取樣法、間隔偏最小二乘方法選取有效波長,然后建立模型,對比5種方法的模型外部驗證誤差,結果顯示在5種波長篩選方法中,采用競爭性自適應權重取樣法外部驗證絕對誤差和平均相對偏差最小,表明采用競爭性自適應權重取樣法可有效提高模型預測精度。
關鍵詞:波長篩選;在線近紅外;模型外部驗證
中圖分類號:TQ223文獻標識碼:A文章編號:1672-9129(2020)13-0081-01目前,打葉復烤主要采用在線近紅外技術控制成品內在質量穩定性。在在線近紅外檢測過程中由于光譜儀器噪聲影響,在某些波段下樣本光譜信噪比比較低,導致光譜質量較差,且在某些波段下,樣本光譜信息與被測組成性質間不存在多重相關性,若選用線性建模方法,會降低模型預測能力;另外,由于近紅外光譜波長之間存在多重相關性,導致光譜信息中存在冗余信息,計算復雜,這些問題將影響模型的預測精度和穩定性;因此,需要在建模過程中對波長進行選擇,通過波長選擇[1-5]進一步簡化模型,提高模型預測精度和穩健性。
1材料與方法
材料:2018年度不同產地、不同等級煙葉,其中建模集420個樣本,獨立驗證集30個樣本。
儀器:Carl Zeiss ARMOR 711在線近紅外光譜儀,San++流動化學分析儀,FREAS-625烘箱,FT91研磨機。
方法(原理):
(1)SPA算法。以在線近紅外全波長256個波長點為例,連續投影方法主要算法原理是256個波長點中的第一個波長點開始,每次循環都計算它在剩余255條波長點下的投影,將投影向量最大的波長點引入到波長組合中。每一個新選入的波長,都與前一個線性關系最小。
(2)UVE算法。無信息變量消除方法選取波長的原理主要是將PLS回歸系數作為選取波長點的一個重要因素。具體算法主要是隨機生成一組噪聲矩陣,然后將該矩陣加入到420個樣本的建模光譜矩陣中,每次剔除一個樣品交互驗證,建立模型,得到偏最小二乘回歸系數,然后計算回歸系數矩陣的標準偏差和平均值,通過平均值和標準偏差的比值得到有效的波長點信息。
(3)CARS算法。競爭性自適應權重取樣法也是將回歸系數作為波長點選擇依據的一種方法。該方法主要是模仿“適者生存”的原則來選取有效的波長點信息。主要步驟如下:①對于抽取的420個樣本的光譜距陣(n*m)和化學成分煙堿距陣Y(n*1),采用蒙特卡羅采樣100次,每次從樣品集中隨機抽取五分之四的樣品作為校正集,分別建立PLS回歸模型。② 對波長保留率的控制方法主要是應用指數衰減函數。③ 選出在線近紅外256個波長點中回歸系數絕對值大的波長點,將波長點中回歸系數較小的去掉,選出模型交互驗證均方根誤差值最低的子集,得到最優波長組合。
(4)IPLS算法。間隔偏最小二乘方法是一種波長區間選擇方法,其原理是將256條波長點等分成幾個相等的區間,然后再各個區間上進行偏最小二乘回歸,找出均方根交叉驗證標準差最小值所對應的區間,然后再以該區間為中心,增加或者減少波長變量,最終選出最佳的波長區間。
2結果與分析
2.1 模型內部驗證情況。采用420個樣品作為校正集,其中預處理方法采用散射校正結合一階導數方法,波長選擇方法為全波長、連續投影方法、無信息變量消除方法、競爭性自適應權重取樣法、間隔偏最小二乘方法,主因子數為12,采用偏最小二乘法建立模型,結果顯示:采用全波長相關系數0.8613,預測相對誤差為10.83;采用SPA相關系數0.8793,預測相對誤差8.68%;采用UVE相關系數0.8637,預測相對誤差9.87%;采用CARS相關系數0.9027,預測相對誤差7.28%;采用IPLS相關系數0.8936,預測相對誤差8.99%。從模型內部指標可以看出,不同波長選擇方法相關系數在0.86以上,其中CARS建立的模型中相關系數、SEC、預測絕對誤差及預測相對誤差均達到最優狀態,因此,在建立在線近紅外煙堿模型中,建議波長點選擇方法為CARS方法。
2.2 模型外部驗證情況。選取不同產地,不同等級的30個樣本作為驗證集,用于模型外部驗證,結果顯示全波長、SPA、UVE、CARS、IPLS預測相對誤差分別為11.31%、9.81%、10.33%、8.18%、9.78%,不同波長選擇方法預測誤差均在可接受范圍內,但CARS波長選擇方法外部驗證效果最好。
3結論
一些波段對外部環境因素、儀器噪聲、儀器內部漂移等因素變化敏感,一旦這些因素發生變化,容易影響預測結果,導致樣本成為異常點,因此在在線近紅外建模過程中,建議采用波長選擇方法來提高建模精度。各波長選擇方法在一定程度上都可以提高模型的預測能力,但對于煙堿而言,采用CARS算法能達到最優預測結果。
參考文獻:
[1]熊智新,馬璞璠,梁龍,等.近紅外光譜結合連續投影算法檢測綜纖維素含量[J].中國造紙學報,2019,34(4):46-51.
[2]程介虹,陳爭光,張慶華.不同波長選擇方法在土壤有機質含量檢測中對比研究[J].中國農業科技導報,2020,22(1):162-170.
[3]王鵬,趙潤,孟祥輝,等.近紅外漫反射光譜結合CARS-PLS規模化奶牛場糞便總氮定量分析模型的建立[J].天津農學院學報,2020,27(1):82-86.
[4]周竹,李小昱,高海龍,等.馬鈴薯干物質含量高光譜檢測中變量選擇方法比較[J].農業機械學報,2012,43(2):128-133,185.
[5]李子文.蘋果醋釀造過程中關鍵參數的近紅外快速檢測方法研究[D].寧夏:寧夏大學,2016.