饒利波, 陳曉燕, 龐 濤
(1. 四川農業大學 機電學院, 四川 雅安 625014; 2. 四川農業大學 信息工程學院, 四川 雅安 625014;3. 四川農業大學 農業信息工程四川省重點實驗室, 四川 雅安 625014)
蘋果是水果市場上最受消費者歡迎的水果之一,而可溶性固形物含量(Soluble solids content,SSC)是影響蘋果內部品質的重要屬性,因此蘋果SSC 的檢測對國民生活擁有重大意義。光譜技術所含信息豐富、方便快捷、無損傷性使其成為當下最熱門的檢測技術之一[1]。
在實驗中光譜數據的巨大數據量使計算過程復雜且費時,因此特征變量的選取方法成為光譜分析領域的研究重點。常用的變量選擇方法有連續投影法(Successive projections algorithm,SPA)[2-3]、無信息變量消除法(Uniformation varible elimination,UVE)[4]、競爭自適應加權重采樣法(Competitive adaptive reweighted sampling,CARS)[5-7]和Random Frog[8]算法等。洪涯等(2010)在檢測砂糖橘酸度中利用SPA算法提取13個有效變量,所得pls線性模型預測相關系數Rp=0.825 277。Dong and Guoetal.(2016) 在蘋果SSC檢測研究中利用UVE提取122個有效變量,pls模型相關系數Rc和Rp分別為0.744和0.863。詹白勺等(2014)利用CARS算法測定庫爾勒香梨SSC,以提取的42個有效變量間非線性LS-SVM模型決定系數r2=0.851 2。本次研究采用后向區間偏最小二乘法(Backward interval partial least squares,Bipls)[9-10]結合CARS算法進行變量選擇,Bipls能在全光譜范圍內選取到與待測成分最相關的光譜范圍區間,CARS算法能根據每個波長對模型的重要性提取出最關鍵的波長。通過所選關鍵變量建立預測模型并將模型預測精度與Bipls-PLS模型和Bipls-SPA-PLS模型相比較,獲得了更好的預測結果。
所用實驗樣品皆采購于雅安市水果市場,共計126個。將蘋果無損傷運回實驗室后用蒸餾水洗凈,貼好標簽,在實驗室室溫25 ℃和正常濕度條件下靜置24 h。所有樣本分為訓練集和測試集兩組,其中訓練集90個,測試集36個。
反射光譜的采集采用GaiaSorter高光譜分選儀(Zolix Instruments Co.Ltd,China),該儀器光譜范圍為400~1 000 nm,光譜分辨率是2.8 nm,共采集256個波段。圖像在采集前,為了使初期采集環境同后期環境溫度和光源強度一致,先啟動高光譜分選儀預熱30 min,并將標準白板的高度調至與蘋果樣品同一焦面上。采集時,電機控制傳輸帶前進速度為0.5 cm/s,回退速度為1 cm/s,曝光時間為23 ms,增益為1,如圖1所示。

圖1 光譜分選儀結構圖
蘋果可溶性固形物的理化值測定采用型號為LB20T的糖度折射儀來完成。測定前用蒸餾水將折射儀的檢測棱境洗凈,將標定好的蘋果感興趣區域處的果皮削去,切取2~3 mm果肉擠出適量果汁置于折射儀的檢測棱鏡上,讀出該樣品SSC理化值示數。為減小測定結果的隨機性,每個樣本重復以上操作3次,取其平均值作為該樣本的測量結果。
為了提高模型的預測精度,以及確保用于構建預測模型的訓練集樣本所含信息的代表性。利用K-S(Kennard-Stone)[11]算法基于樣本間的歐氏距離將126個樣本劃分為訓練集和測試集兩組。K-S算法劃分的訓練集與測試集的SSC統計值如表1所示。

表1 訓練集和預測集的可溶性固形物含量統計表
受實驗環境的制約,采集的光譜中會摻雜一些隨機噪聲,而平滑可以在保留光譜輪廓前提下消除噪聲,因此實驗選用卷積平滑法(Savitzky-Golay )[12-13]來去除噪聲。經過實驗研究發現,S-G平滑去燥時將移動窗口設置為15,用于擬合的多項式次數為3,導數階數設置為0,效果較好。經過S-G平滑后的光譜圖像如圖2所示。

圖2 S-G處理后的光譜圖像
為了進一步濾除光譜中與待測成分無關的信息,實驗在S-G平滑的基礎上利用直接正交信號校正(DOSC)[14-15]對光譜數據進行二次預處理。DOSC通過將光譜矩陣與待測濃度矩陣正交,在不損害數據結構特性的前提下濾除與SSC無關的信息,將最相關的信息用于預測模型的構建,進而提高模型的預測精度。算法步驟中的權重向量的計算公式如下:
t=Xr,
(1)
r=X+t,
(2)
其中t是得分向量,X+是X的Moore-Penrose逆,而Moore-Penrose逆的容差是1E-6。容差值是影響X-計算的一個關鍵因素,當容差值是1E-6時即為完全正交性約束狀況,公式(1)中t的擬合過程會將X中不穩定的方向也囊括在內,導致t的擬合過程出現過度擬合現象,致使DOSC的濾除效果不明顯。因此,實驗中選用容差為1E-3計算出來的廣義逆X-來代替X的Moore-Penrose逆且DOSC成分數設置為2。 DOSC處理后的光譜圖像如圖3所示。

圖3 DOSC處理后的光譜圖像
從圖中可以看出無論是訓練集還是校正集,相較于未經過處理的圖像,DOSC處理后的光譜圖像線條更加緊密,凸起的波峰也更加集中反映了數據與待測成分的相關性得到了良好的提升。
反向區間偏最小二乘法(Bipls)基本原理是將全光譜等距離地劃分為N個子區間,與區間偏最小二乘法(ipls)對每個子區間進行pls回歸不同,Bipls是對全光譜建立pls線性回歸模型。在此基礎上每次剔除一個子區間,然后再對剩下的所有子區間進行pls回歸,而剔除的那個子區間則是每次回歸模型所有子區間中性能最差、剔除后使得模型評價RMSE最小的那個。依此類推,剔除到只剩下一個子區間為止。實驗中為了對子區間的劃分做優化選擇,我們將全光譜劃分了10~25個子區間(pls回歸中最大主成分數設置為10,若區間數大于25,則子區間變量數少于主成分數),再以交互驗證法選出均方根誤差(RMSECV)最小值所對應的區間數。如表2所示,當所劃區間數為23時,RMSECV最小為0.545 1。

表2 不同區間總數劃分結果
由表2確定將全光譜等距離劃分為23個子區間后,開始將所有子區間聯合建模,每一次剔除表現最差的子區間。表3所示為23個子區間的建模結果,當剔除掉第22個子區間時對剩下的16個子區間進行pls回歸,所得均方根誤差(RMSE)最小為0.545 1。往后再依次剔除其他子區間后發現RMSE值又開始逐漸變大,說明這時所去掉的子區間包含著對建模較為有用的信息。此時建立的pls模型相關系數r=0.864 6,主因子數為4,Bias為0.011 4,則所選子區間為3,5,6,7,8,9,13,14,15,16,17,18,19,20,21,23等16個子區間,對應的波長區間為448.1~476.1 nm、506.6~643.7 nm、730.1~979.1 nm、1 009.6~1 035.0 nm,總計177個波段。如圖4所示。

表3 子區間優選結果

圖4 Bipls優選子區間
經過Bipls算法的初步選取,我們得到了光譜范圍內與蘋果可溶性固形物含量最相關的波長區間,共含177個波段,波段數量明顯下降。但相鄰波段間仍存在很嚴重的共線性問題,此外數據的冗余問題也并未得到很好的解決。因此,實驗以Bipls的初步選取結果為基礎,利用競爭自適應重加權采樣算法(CARS)進行最優化的變量選取。CARS算法是模仿基于達爾文進化論“適者生存”原則提出的一種關鍵變量選擇方法。
CARS通過對光譜數據建立pls模型求取每個變量的權重ω,權重值越大則代表該變量對模型建立的貢獻越大,被選取的概率越大。如公式(3)和(4)所示:
T=XW,
(3)
y=Tc+e=XWc+e=Xb+e,
(4)
其中X是m行p列的光譜矩陣,T是X的得分矩陣,是X與W的線性組合,W是組合系數,c表示y與T建立pls模型的回歸系數向量,e是誤差向量,式中b=Wc,是一個p維列向量。權重ω被定義為:
(5)
在CARS運行時,首先要設定好Monte-Carlo 采樣次數N,以期在循環運行N次后獲得N個變量子集,通過比較每個變量子集的交互驗證均方根誤差(RMSECV),選擇RMSECV值最小的變量子集為最優變量子集。在CARS的每次運行過程中,無信息變量或低信息變量的去除主要分兩個步驟,分別是指數衰減函數(EDF)去除和自適應重加權采樣(ARS)去除。每次EDF運行中被保留變量所占比例為:
ri=ae-ki,
(6)
其中a與k作為兩個常數的決定條件為:(1)第一次運行時,模型建立所用波段為全波段,所以r1=1;(2)第N次運行時,模型建立所用波段只有2個,所以rN=2/p。a與k被定義為:

(7)
(8)
選擇時,先用EDF強力快速移除一些權重較小的變量,然后ARS再從剩下的p×ri個變量中按照“適者生存”原則以競爭的方式選出新的變量子集,再用交互驗證法求出新子集的均方根誤差(RMSECV),并進入下一個循環。

圖5 CARS運行結果
圖5(a)所示為指數衰減函數的篩選過程,Monte-Carlo 采樣次數在1~20期間時,變量數量隨著采樣次數迅速下降為“快速選擇”階段;20次采樣以后變量數下降速度趨于平緩,為“精選選擇”階段。圖5(b)為隨著Monte-Carlo 采樣次數的增加各子區間的RMSECV值的變化,前期隨著采樣次數的循環運行,所生成的子區間由于移除了大量無信息變量的緣故RMSECV的值隨之緩緩減小,而后在運行后期陡然增大的原因是選擇過度,移除了富含信息的關鍵變量,導致模型性能下降。圖5(b)中后期增大呈兩極階梯狀,如圖5(b)中S1、S2節點與圖5(c)對應的是兩個變量的回歸系數路徑趨近0的終點,說明這兩個變量就是被過度選擇所移除的關鍵變量。圖5(c)是每個變量在50次采樣運行中的回歸系數路徑圖,星號垂直線所對應的是圖5(b)中RMSECV值最小的子區間,該子區間即為CARS最終所選最優子區間,包含449.6,512.9,544.8,547.2,594.3,596.8,928.2 nm等7個波長。
以CARS所選7個關鍵變量為基礎,建立PLS線性回歸模型。對PLS建模而言,最佳主因子數的選取具有非常重要的意義,主因子數偏少容易導致模型預測結果欠擬合,主因子數偏多則導致模型預測結果過度擬合。實驗采用留一交叉驗證法確定最佳主因子數,計算所得y的最小預測誤差平方和PRESS等于17.000 2,所對應最佳主因子數為3。模型評價為訓練集相關系數Rc=0.906 2,訓練集均方根誤差RMSEC為0.482 2;測試集相關系數Rp=0.871 6,測試集均方根誤差RMSEP為0.614 0。為了與Bipls-CARS-PLS模型性能相比較,通過實驗分別對Bipls-PLS模型和Bipls-SPA-PLS模型也做出了模型評價,其比較結果如表4所示。

表4 不同模型效果比較
直接對Bipls篩選過的子區間變量建模,雖然訓練集與測試集的模型評價分別為Rc=0.921 7和Rp=0.958 8,但是建模所用變量高達177個而且RMSEC和RMSEP之間差值過大。而Bipls-SPA-PLS模型建模所用變量數量僅為2個,在解決數據的共線性問題上性能優異,但也可能遺漏了某些關鍵變量,因而模型的訓練集和測試集的相關系數與Bipls-CARS-PLS相比略微小一些。
利用高光譜技術對蘋果的可溶性固形物含量的無損檢測過程中,實驗采用了Bipls、Bipls-SPA和Bipls-CARS這3種關鍵變量選取方法,結合PLS建模方法對其所選變量建立預測模型。Bipls-SPA所選變量為2個,模型評價Rc和Rp分別為0.810 9和0.844 9,RMSEC和RMSEP分別為0.681 2和0.641 0。Bipls-CARS最終提取了7個最優變量,模型相關系數Rc和Rp分別為0.904 6和0.871 6,RMSEC和RMSEP分別為0.482 2和0.614 0。與Bipls-SPA相比,Rc和Rp有明顯提高,均方根誤差RMSEC和RMSEP略微下降。Bipls模型評價Rc和Rp分別為0.921 7和0.958 8,RMSEC和RMSEP分別為0.440 6和0.701 3。雖然預測精度優于Bipls-CARS,但是所用變量為177個,計算成本高,模型構建復雜且RMSEC和RMSEP之間差值過大,模型魯棒性不足。綜合衡量模型預測準確度和穩定性等性能,結果表明Bipls-CARS-PLS模型的檢測性能優于Bipls-PLS模型和Bipls-CARS模型。