田永國,呂都,唐健波,黃珊,陳超,盧揚,4*
(1.貴州省銅仁市沿河 土家族自治縣農業技術推廣中心,貴州 銅仁 565300;2.貴州省農業科學院 生物技術研究所,貴州貴陽 550025;3.貴州省農業科學院 食品加工研究所,貴州 貴陽 550025;4.貴州省農業生物技術重點實驗室,貴州 貴陽 550025)
百香果(Passiflora edulis Sims)又名西番蓮、巴西果和雞蛋果等,生長于熱帶地區,原產地為巴西,在我國的種植地區主要分布在廣西、廣東、福建等。百香果營養價值非常高,含有人體所需的17 種氨基酸、多種維生素和類胡蘿卜素,還有豐富的鈣、磷、鐵等礦物質[1-3]。水果品質檢測是指根據水果的顏色、硬度、水分、含糖量、硬度等物理和化學特性來評定水果的質量[4]。糖度能反映水果的糖含量,是決定水果品質的一個重要指標[5]。傳統的糖度檢測方法有折光法、旋光法、蒽酮比色法和高效液相色譜法等。然而,傳統的檢測方法對樣品有一定的破壞性,且操作步驟繁瑣、耗時長、效率低[6-7],在水果品質無損檢測方面的效果并不理想,已不能滿足當前人們對水果按質論價快速檢測的需求。
近紅外光譜技術(near infrared spectrometry,NIRS)是一種非破壞性分析方法,主要通過測定樣品的近紅外吸收光譜結合化學計量學知識,對樣品中物質進行定性和定量分析[8-9]。與傳統的檢測分析方法相比,近紅外光譜分析具有快速、無損、安全、簡便等特點[10]。近年來,該技術已廣泛應用于農產品分級、食品成分快速檢測、品種鑒定、產地溯源和醫藥及化工等領域[11-14]。近紅外光譜包含的化學信息非常豐富,除了包含有效信息,還含有噪音、雜散光和對建立預測模型無貢獻的信息,甚至還含有一些干擾預測模型能力的冗余信息[15]。因此,為了提升模型的運算效率、預測能力和穩健性,提取近紅外光譜中的有效信息并且剔除掉無效信息和干擾信息尤為重要。特征波長篩選的方法主要有聯合區間偏最小二乘(synergic interval partial least squares,SiPLS)[16]算法、競爭適應重加權采樣(competitive adaptive reweighted sampling,CARS)[17]算法和連續投影(successive projections algorithm,SPA)[18]算法等。孔慶明等[19]采用SiPLS 算法篩選出了特征波長,建立的玉米秸稈粗蛋白含量預測模型有良好的預測能力,其預測模型的相關系數R2為0.955 0、驗證集決定系數R2p為0.978 4,驗證集均方根誤差為0.221 1。江水泉等[20]研究表明,CARS 算法篩選出的波長建立臍橙可溶性固形物含量預測模型,其效果優于SPA 算法的篩選結果。孟珊等[21]采用CARS 算法可以將建立預測模型的輸入波長數量壓縮至全波長總量的2.76%,極大地提升了模型的運算速度。
本研究以百香果為研究對象,利用近紅外光譜技術建立百香果糖度預測模型,并使用SiPLS 算法篩選特征波長。由于篩選出的特征波長具有連續性,特征波長的數量較多,因此在SiPLS 算法篩選出的特征波長的基礎上繼續使用CARS 算法進行特征波長的二次篩選。同時,采用多元線性回歸方法偏最小二乘(partial least square,PLS)法和多元非線性回歸方法支持向量機(support vector regression,SVR)建立百香果糖度預測模型,并對其預測能力進行對比分析,以期為百香果糖度無損檢測提供理論依據,為糖度無損檢測便攜檢設備中的模型簡化提供技術支持。
百香果:收集來自廣西、云南和貴州3 個地區,不同成熟度的百香果樣品共計261 個果實。
MPA 型傅里葉變換近紅外光譜儀(分辨率最小為1.0 cm-1):德國Bruker 公司;PAL-1 型數顯糖度計(測量精度為±0.2 °Brix):日本ATAGO 公司。
1.3.1 百香果糖度的測定
取百香果果肉,用紗布擠壓出果汁,將果汁搖晃均勻后吸取0.3 mL 置于數顯糖度計棱鏡測量區進行測量。測量完畢后,用蒸餾水沖洗棱鏡測量區,再次用蒸餾水進行調零后進行新一輪測量。每個樣品檢測3 次,取平均值作為百香果的糖度。
1.3.2 百香果近紅外光譜圖的采集
近紅外光譜儀開機后預熱30 min,波數范圍為12 970.3~3 594.9 cm-1,分辨率為4.0 cm-1,掃描次數為64,掃描背景光譜后,分別在百香果頂部、底部和果體赤道部位間隔120 各取1 個光譜采集點,共計5 個光譜采集點。采集百香果樣品的近紅外光譜圖,并用平均光譜圖代表百香果樣品的近紅外光譜圖。
1.3.3 SiPLS 結合CARS 算法篩選特征波長
聯合區間偏最小二乘算法是在間隔偏最小二乘(interval partial least squares,iPLS) 算法的基礎上改進提出的,先將光譜劃分成若干個區間,SiPLS 算法則是將建立預測模型精度高的若干個區間聯合在一起建立預測模型,直到選出最佳的聯合區間。但是SiPLS 算法篩選出的特征波長為整個光譜的若干個區間,其中仍然含有一些冗余信息和干擾信息。因此,本研究在SiPLS 算法篩選結果的基礎上,使用CARS 算法繼續篩選特征波長。
1.3.4 預測模型的建立和評價方法
本研究采用多元線性回歸方法偏最小二乘法和多元非線性回歸方法支持向量機以建立百香果糖度預測模型。以相關系數(R2)、均方根誤差(root mean square error,RMSE) 和相對分析誤差(relative percent deviation,RPD) 為預測模型的評價指標,R2越接近1,RMSE 值越接近0,RPD 值大于2,預測模型的預測能力越強[22-23]。
采用Excel 2010 進行基礎數據統計分析,采用Unscrambler 10.4 和Matlab 2019a 軟件進行樣品集的劃分、光譜預處理、光譜特征波長的選擇和預測模型的建立,采用OriginPro 2022 進行繪圖。糖度測定試驗,每個樣品進行3 次重復試驗。
對收集自3 個地區的261 個百香果進行糖度測定,并采用光譜-理化值共生距離(sample set partitioning based on joint x-y distances,SPXY)法,按照4:1 的比例將樣品劃分為校正集和驗證集。將208 個校正集樣品用于校正模型的建立,53 個驗證集樣品用于校正模型的外部驗證。261 個樣品的糖度、校正集樣品的糖度和驗證集樣品的糖度統計分析結果見表1 和圖1。

圖1 不同樣本集中百香果糖度分布直方圖Fig.1 Fructose degree distribution of passion fruits in different sample sets

表1 百香果樣品糖度結果統計Table 1 Sugar content in passion fruits
由表1 可知,261 個百香果糖度為6.91~19.84 °Brix,平均值為14.81 °Brix,校正集樣品的糖度范圍包含了驗證集樣品的糖度范圍,校正集樣品建立的預測模型可以很好地預測驗證集樣品的糖度。由圖1 可知,3 個樣品集的百香果糖度都集中在12.00~18.00 °Brix,且樣品糖度分布直方圖與正態分布曲線吻合,表明收集的樣品、校正集樣品和驗證集樣品都具有廣泛的代表性,可以用于預測模型的建立和驗證。
百香果樣品的近紅外光譜圖見圖2。由于近紅外光譜含有的化學信息非常豐富,且在同一吸收譜帶中含有多種對應的化學基團信息,因此需要對近紅外光譜進行進一步處理。將不同預處理方法處理后的光譜數據,采用PLS 法建立百香果預測模型,結果見表2。

圖2 百香果樣品原始近紅外光譜圖Fig.2 Near-infrared spectra of passion fruit samples

表2 不同預處理方式對預測模型的影響Table 2 Influences of different preprocessing methods on the prediction models
由圖2 可知,百香果樣品的近紅外光譜圖在10 267、8 381、6 896、5 603、5 192 cm-1處有明顯吸收峰,10 267 cm-1處的波峰可能是由于百香果中糖類物質的—OH 基團三倍頻和水或者—CH3基團合頻振動引起的,8 381 cm-1處的波峰可能是由于—CH3基團和水二倍合頻振動引起的,6 896 cm-1處的波峰可能是百香果中氨基酸的酰胺鍵和糖類中的—OH 基團倍頻振動引起的,5 603 cm-1和5 192 cm-1處的波峰可能是C—H 伸縮振動和百香果中有機酸的—COOH 和C O基團倍頻振動引起的[24]。由表2 可知,最佳預處理方法為正交信號校正方法,預處理后的光譜數據建立的預測模型,其預測模型的R2c為0.983 8,RMSEC 值為0.257 0,驗證集的R2p為0.976 1,RMSEP 值為0.312 1,RPD 為4.820 7,預測模型的預測能力強。
正交信號校正預處理方法主要用于消除光譜矩陣與目標值矩陣無關的信息[25],正交信號校正預處理方法處理后的近紅外光譜圖見圖3。

圖3 預處理后的百香果樣品原始近紅外光譜圖Fig.3 Orthogonal signal-corrected near-infrared spectra of passion fruits
使用SiPLS 算法篩選進行特征波長篩選,將算法參數區間劃分數量分別設置成12、14、16、18 和20,區間組合數參數設置為2、3 和4,將篩選出的特征波長采用PLS 法建立百香果預測模型,以RMSEP 值和特征波長點數量為考察指標確定算法的最佳參數,結果見圖4 和表3。

圖4 區間劃分數量和區間組合數對SiPLS 算法波長篩選的影響Fig.4 Effects of number of interval divisions and number of combined intervals on wavelengths screening by the SiPLS algorithm

表3 不同參數SiPLS 算法篩選出的特征彼長Table 3 Wavelengths selected by the SiPLS algorithm with different parameters
由圖4 可知,采用SiPLS 算法進行特征波長篩選時,RMSEP 值的變化趨勢為4 個區間組合<3 個區間組合<2 個區間組合。RMSEP 值越小表明建立的預測模型的預測能力越好,因此,區間組合數量參數采用4 個區間組合。采用4 個區間組合,區間的劃分數量為16、18 和20 時,其RMSEP 值差異不顯著,但是其特征波長點分別為576、512 個和460 個,特征波長點的數量越少,預測模型的運算速度越快,因此,區間劃分數量參數采用20 個區間。由表3 可知,SiPLS 算法程序采用20 個區間和4 個區間組合時,百香果糖度預測模型的特征表波長的最佳組合為[9,12,14,20],對應的近紅外光譜波數段為8 917.583~8 477.875 cm-1、7 586.888~7 147.181 cm-1、6 699.758~6 260.051 cm-1和4 038.369~3 598.661 cm-1,在樣品近紅外光譜中的位置見圖5。

圖5 SiPLS 算法篩選的特征波長Fig.5 Characteristic wavelengths screened by the SiPLS algorithm
在SiPLS 篩選出的特征波長的基礎上,利用CARS 算法進一步進行特征波長的篩選。CARS 算法參數蒙特卡羅迭代次數設置為500,運行算法程序20次,選擇最優的一次結果作為最終結果,CARS 算法篩選特征波長的過程見圖6。

圖6 CARS 算法篩選特征波長的過程Fig.6 Process of screening characteristic wavelengths by the CARS algorithm
由圖6 可知,隨著蒙特卡羅迭代次數的增加,特征波長的總數量迅速減少,當蒙特卡羅迭代次數為100 時,特征波長的總數量趨于平穩。但是隨著蒙特卡羅迭代次數的增加,RMSEP 值和變量系數都總體呈現出先下降后上升的趨勢,當蒙特卡羅迭代次數為40 次時,RMSEP值為4.506 6,且最小,特征波長的總數量為67 個,篩選出的特征波長點在樣品近紅外光譜中的位置見圖7。

圖7 SiPLS 結合CARS 算法篩選的特征波長Fig.7 Characteristic wavelengths screened by SiPLS combined with CARS
將百香果樣品的近紅外光譜圖的全光譜、SiPLS算法篩選的特征波長和SiPLS-CARS 算法篩選的特征波長分別采用多元線性回歸PLS 法和多元非線性回歸SVR 法建立百香果糖度預測模型。在使用SVR 法建立百香果糖度預測模型時,分別采用Linear、Polynomial、Radial basis function 和Sigmoid 4 種核函數,并使用網格全局尋優算法確定核函數參數,預測模型結果見表4。

表4 百香果糖度預測模型的優選Table 4 Selection of prediction models for the sugar content in passion fruits
由表4 可知,PLS 法建立的模型優于SVR 法建立的模型,主要是因為PLS 法抗干擾能力強[26],另一方面也有可能是樣品集中百香果糖度含量符合多元線性回歸,這與SVR 法建立的模型其核函數為Linear 的結果一致。SVR 法建立的模型其核函數為Linear 和Radial basis function 時,模型的預測效果較好;其核函數為Polynomial 時,模型的預測效果較差;其核函數為Sigmoid 時,模型的預測效果最差。
當使用PLS 法建立百香果糖度預測模型時,樣品全光譜波長點數為2 307 個,預測模型的R2c為0.983 8,RMSEC 值為0.257 0,驗證集的R2p為0.976 1,RMSEP值為0.312 1,RPD 為4.820 7;SiPLS 特征波長點數為460 個,占全光譜的19.94%,PLS 預測模型的R2c為0.967 3,RMSEC 值為0.365 1,驗證集的R2p為0.959 1,RMSEP 值為0.408 0,RPD 為3.687 1;SiPLS-CARS 特征波長點數為67 個,占全光譜的2.90%,PLS 預測模型的R2c為0.972 7,RMSEC 值為0.333 8,驗證集的R2p為0.967 2,RMSEP 值為0.366 0,RPD 為4.506 6。樣品全光譜建立的預測模型性能最佳,SiPLS-PLS 預測模型的性能較樣品全光譜建立的預測模型略有降低,但是差異不明顯,預測能力依然優秀,可能是由于在篩選特征波長的過程中,不光剔除了干擾信息,也有可能剔除一些有用信息。SiPLS-CARS-PLS 預測模型的性能較SiPLS-PLS 預測模型有所提升,這可能是SiPLS-CARS 算法進一步較為精準地剔除了樣品光譜中的不相關信息和干擾信息。
本研究以來自廣西、云南和貴州3 個地區不同成熟度的百香果樣品為研究對象,采用近紅外光譜技術對百香果的糖度進行無損快速檢測。結果表明,百香果樣品近紅外光譜的最佳預處理方式為正交信號校正方法。采用多元線性回歸方法建立的模型優于多元非線性回歸方法建立的模型。SiPLS 算法篩選的特征表波長的最佳組合為[9,12,14,20],對應的近紅外光譜波數段為8 917.583~8 477.875 cm-1、7 586.888~7 147.181 cm-1、6 699.758~6 260.051 cm-1和4 038.369~3 598.661 cm-1,特征波長點數為460 個,且具有連續性仍含有一些冗余信息。采用CARS 算法篩選出的特征波長點數為67個,占全光譜的2.90%,PLS 預測模型的R2c為0.972 7,RMSEC 值為0.333 8,驗證集的R2p為0.967 2,RMSEP 值為0.3660,RPD 為4.506 6,能夠實現百香果糖度的無損快速檢測,并且對預測模型中的近紅外光譜數據進行了簡化,可以為百香果糖度無損檢測便攜檢設備的開發提供技術支持。