陳積山, 張 強, 劉杰淋, 邸桂俐, 朱瑞芬, 孔曉蕾
(黑龍江省農業科學院草業研究所, 黑龍江 哈爾濱 150086)
羊草(Leymuschinensis)是我國重要的優良牧草之一,有著很高的經濟價值和生態價值,被譽之“國草”。然而實際羊草的收獲和儲藏過程中極易受到生產地的水、土、氣等的影響而發生營養成分損失或變質,目前我國羊草質量的低質化和劣質化現象普遍存在[1]。傳統的感官評價和理化分析等檢測方法耗時長,不能滿足規模化羊草生產過程中的及時監測與測試要求,特別是羊草水分含量的快速定量預測存在困難。
隨著新一代計算機的誕生和人們對偏最小二乘法(Partial least-squares regression,PLS)方法的深入研究,應用特定的化學計量方法篩選和選擇,在預測待測樣本或物質成分上具有特征波長或波長區間,有可能建立較好的光譜定量模型[2]。近紅外光譜由于具有波長點數多、吸收度低、譜帶歸屬難等特點,一般采用全譜分析方法從光譜中提取更多信息,然而事實上,近紅外光譜中的某些波長所蘊含的信息,并不完全或幾乎沒有對模型的建立和校正都有貢獻,恰恰相反,大量的無用波長攜帶的無用信息或噪聲信號增加了模型的建立和分析運算時間,更有甚者常常會導致所建模型質量下降或不科學[3-4]。研究表明,特征波長優選可以具有簡化模型,降低模型維數等特點,其優點在于剔除不相關或非線性變量因素的干擾,從而獲得穩健性好、預測能力強的校正模型[5]。因此,近紅外光譜建模過程中,在不損失必要信息的前提下,科學合理的縮小或選擇光譜范圍,可以減少無益信息對建模的負面影響,從而提高光譜建模的質量[2]。
目前,波長優選方法在近紅外光譜研究中備受關注[5]。通常有4種常用的選擇方法,這些光譜特征區間的選擇方法主要包括間隔偏二乘法(Interval partial least-squares regression,iPLS)、向后區間偏最小二乘法(Backward interval PLS,BiPLS)、聯合區間偏最小二乘法(Synergy interval PLS,SiPLS)、和連續投影算法(Successive projections algorithm,SPA)。本文在此基礎上,深入探討和分析 4種波長優選方法與PLS結合的模型預測能力,選擇最適于預測羊草水分含量的敏感波長變量并建立高精度模型,以期為在田間管理、刈割儲藏、家畜飼喂過程中對羊草水分參數的準確預測。
試驗于2014-2017年在黑龍江及內蒙東部草地選擇單一羊草群落,6月初羊草基本處于抽穗期,其營養狀況能代表其品質特點。每個樣地以50畝不少于5個采樣點為原則,收集地上5cm以上的羊草為待測樣品,在實驗室將其烘干過1mm篩后,裝入自封袋常溫避光保存,以備后期測定理化和光譜參數。羊草品質成分測試數據來自黑龍江農業部谷物及制品質量監督檢測測試中心。
首先將采集的羊草光譜進行預處理,再進行X-Y距離結合的樣本劃分法(Sample set partitioning based on joint x-y distance,SPXY)的樣本校正集和驗證集的劃分[6]。通過PLS iToolbox工具箱,分別針對水分進行羊草光譜的特征波長篩選,篩選的方法[7]包括iPLS,BiPLS,SiPLS和SPA。將整個實驗過程產生構建的預測模型,根據模型的評價參數分別進行擇優比較,最后確定最佳預測模型,并通過泰勒圖(Taylor)呈現。
泰勒圖[8]是一種能可視化展示模型模擬值與觀測值相似度的二維平面圖形,泰勒圖的主要目的是考察模型模擬值與實測值的相似度,同時評價其總體離散程度。特別適用于評價模型的模擬值與實際值的符合程度。主要選用相關系數(Correlation coefficient,R)、中心點之間均方根差(Centered root-mean-square difference,cRMS)和標準差(Standard deviation,SD)等指標量化評價模型模擬值與實測值之間的差異。

近紅外光譜臺式分析儀采用瑞典波通(Perten)公司二極管陣列近紅外漫反射光譜儀(DA7200),樣品池的光程為 13 mm,材質為石英試樣杯?;瘜W儀器:烘箱,瑞典福斯·特卡托2300全自動凱氏定氮儀(Foss公司),索式粗纖維測定儀Fibertec1020(Foss公司);IR35全自動快速水分測定儀,3次重復,均以干物質為基礎。
本試驗采用MATLAB7.0 軟件工具箱(iToolbox)建立羊草水分(Water)的關系模型。PLS iToolbox工具箱支持iPLS,BiPLS,SiPLS和SPA[10-12]。同時,借助SPSS17.0進行所有數據的整理和分析。
iPLS法首先對全光譜均分成20個區間,在每個區間上進行PLS回歸,以交叉驗證的方法比較不同的PLS主成分數對應的校正均方根誤差RMSECV值,選擇最小RMSECV值對應區間進行建模。結果表明,羊草樣品水分含量的主成分數在5時對應的RMSECV最小,此時iPLS建立羊草樣品水分含量的模型結果如圖1。圖中曲線代表任意一份羊草樣品的近紅外光譜,柱形圖內的斜體數字代表相應區間的最佳主成分數,虛線代表選擇5個主成分數時全光譜建立PLS模型預測羊草水分含量的RMSECV值。如圖1所示,3個區間的RMSECV值都比全光譜建立PLS模型的RMSECV小,其中iPLS選取1個最佳波長區間的RMSECV值最小,這表明該區間的近紅外光譜所包含的相對有益信息較多,該光譜區間在全光譜范圍的位置如圖1,對應波長范圍1 250~1 305 nm。因此,利用區間波長1 250~1 305 nm的所有羊草樣品進行分析建模(圖2),該區間建立的最佳PLS模型的結果見圖3(a,b)。

圖1 不同區間iPLS模型對應的RMSECVFig.1 RMSECV corresponding to different interval iPLS modeling

圖2 iPLS方法下光譜特征選擇結果Fig.2 Selection of spectrum characteristic intervals by iPLS
通過對比發現,采用最佳1個區間(圖3a)與全光譜(圖3b)建立PLS模型結果不同。通過采用間隔偏二乘(iPLS)方法選取不同波長區間,建立的模型與全光譜建立的模型結果表明,相關系數R由0.9154提高到0.9411,RMSECV由0.5551降低到0.4725,但偏差效果明顯比全光譜建模好,同時經過iPLS特征光譜區間選擇后模型的預測精度高,由于iPLS采用變量數(波長點數55個)比全光譜少(波長點數141個),不僅降低了模型運算時間,而且也優于全光譜時的預測精度。

圖3 模型性能比較Fig.3 Comparison of model performance
BiPLS(Backward interval PLS,向后區間偏最小二乘法)將全光譜950~1 650 nm分為10個區間,通過BiPLS方法對校正集的光譜數據進行區間選擇,并進行交叉驗證分析建模,整個運算過程與結果如表1所示。通過表1可知,隨著剔除區間的減少,模型的RMSECV值在開始時表現減小,隨著剔除區間數目的增加,RMSECV表現逐漸增大,這些變化表明,前者剔除的區間為噪聲區間,后者剔除的區間包含有用信息,因此在RMSECV最小時,即為最佳的波長區間。結果表明,當剔除區間數目為4個時,其RMSECV達到最小為0.4170,此時對應6主成分因子,選擇了85個波長變量數,剩余的區間為6個。
通過交叉驗證分析剩余的6個區間的序號分別是第1,2,7,10,9,6區間(圖4),對應的波長分別為950~1 020 nm,1 025~1 090 nm,1 305~1 370 nm,1 375~1 440 nm,1 515~1 580 nm和1 585~1 650 nm,建立的PLS最佳模型如圖5所示,此時模型校正集的相關系數R為0.9537,交互驗證均方根誤差RMSECV為0.4170,偏差值為0.0052,同時BiPLS建立的羊草樣品水分含量近紅外PLS預測模型,其波長變量數從141個減少到85個,明顯提高了模型運算速度。

表1 不同區間選擇的BiPLS建模結果Table 1 BiPLS modeling results of different interval

圖4 BiPLS方法下光譜特征選擇結果Fig.4 Selection of spectrum characteristic intervals by BiPLS

圖5 BiPLS方法建模結果Fig.5 BiPLS modeling results
SiPLS(Synergy interval PLS,聯合區間偏最小二乘法)對全光譜(950~1 650 nm)進行區間分割,將全光譜區間分成子區間10個,對產生的10個區間分別通過聯合區間偏最小二乘法(SiPLS)進行PLS建模研究,通過預算最終確定最佳的區間組合。本研究中對羊草樣品水分含量的光譜波長分別采用聯合任意2個、3個和4個區間進行PLS建模,發現通過聯合4個光譜區間時,其建模結果的交互驗證均方根誤差RMSECV最小為0.3823,其主成分數為5,選擇區間為4,5,6,10(表2)。

表2 聯合4個區間的BiPLS建模結果Table 2 BiPLS modeling results of 4 interval combination
以RMSECV值最小為依據,確定SiPLS選取4個最佳聯合區間,其對應區間位置在全光譜上分別為第4,5,6,10個區間,其波長范圍分別為1 165~1 230 nm,1 235~1 300 nm,1 305~1 370 nm和1 600~1 650 nm(圖6)。采用4個區間聯合建立PLS模型結果見圖7所示,在第4,5,6,10個區間組合時,RMSECV值達到最小,此時對應模型最佳最優。以這4個區間在主成分子數為5時,建立PLS模型的相關系數R,RMSEC,Bias分別為0.9613,0.3823,0.0148。

圖6 SiPLS方法的光譜特征選擇結果Fig.6 Selection of spectrum characteristic intervals by SiPLS

圖7 SiPLS方法的建模結果Fig.7 SiPLS modeling results
SPA(Successive projections algorithm,連續投影算法)對羊草樣品水分含量進行SPA波段篩選(圖8),由圖8可知,經SPA篩選,確定最佳的光譜變量總數時交叉驗證均方根誤差RMSECV值最小為0.3321,羊草樣品水分含量從141個波長點中篩選得9個特征波長點分別是35,55,76,89,93,98,121,135,141,其波長點位置分布在1 120 nm,1 220 nm,1 325 nm,1 390 nm,1 410 nm,1 435 nm,1 550 nm,1 620 nm,1 650 nm。從所選光譜變量的波長點可知,特征波長大部分都分布在近紅外光譜波段(1 120~1 650 nm),說明對羊草樣品進行水分含量檢測時近紅外光譜起到了比較大的作用。在SPA篩選結果基礎上,建立羊草樣品水分含量指標的SPA-PLS模型,模型計算結果如圖9所示,經SPA波段優選,羊草樣品水分含量指標的模型預測相關系數R為0.9525,預測標準偏差RMSEP達到0.3324。

圖8 SPA篩選的相應波長點Fig.8 The corresponding wavelength points by SPA selection

圖9 SPA模型的驗證結果Fig.9 SPA modeling results
通過iPLS,BiPLS,SiPLS,SPA-PLS四種特征波長選擇方法[13-17],分別建立羊草水分含量模型的預測性能如表3所示,與全光譜建立模型的預測精度相比,特征光譜區間選擇或波長選擇后模型的預測精度均存在明顯不同。從波長變量數來看,四種特征波長選擇方法采用變量數均少于全光譜PLS模型選擇的波長變數,其中SPA-PLS選擇的波長變數最少為9個,占全光譜變量數的6.3%;其次是SiPLS選擇的波長變數為49個,占全光譜變量數的34.8%;iPLS和BiPLS選擇的波長變數分別為55和85個。從模型的三個評價參數(R,RMSEP,RPD)來看,iPLS建立的羊草水分含量預測模型最差,其預測結果與實測結果的相關系數R達到0.9411,預測均方根誤差RMSEP為0.4725,相對分析誤差RPD為2.419。SiPLS建立的羊草水分含量預測模型參數最優,其預測結果與實測結果的相關系數R達到0.9613,預測均方根誤差RMSEP為0.3823,相對分析誤差RPD為2.648。
同理,通過泰勒圖10也表明,SiPLS方法最適合特征波長的篩選來預測羊草水分含量。圖中綠色弧度實線為羊草水分預測值中心點與觀測值中心點之間的均方根誤差cRMS;黑色弧度實線為經標準化的實測標準差SD;黑色0.5虛線表示模型預測SD是實測值SD的一半,黑色虛直線表示模型預測SD是實測值SD的1.5倍。SiPLS方法模擬值與實測值(綠色方塊)的相似度最高,相對分析誤差RPD最小(表3)。

表3 不同選擇方法及所建模型性能比較Table 3 Characteristic wavalength selection method and comparison of model perfomance

圖10 不同模型的泰勒圖Fig.10 Different models in chart of Taylor
與全光譜PLS方法相比,BiPLS,SiPLS,SPA-PLS均能適合羊草水分含量特征波長的確定。從最終選擇的特征光譜區間和特征波長來看,SiPLS選擇的特征區間證明已包含在最優的區間中,其中SiPLS方法最適合用于羊草水分含量特征波長的篩選,其次為BiPLS方法,最差的方法為iPLS。該研究結果可為預測羊草及其相關禾本科牧草水分含量切實有效,預測精度在96.13 %以上。