李倩倩,劉大洋,楊 彪,李偉強,郭文川*
(西北農林科技大學機械與電子工程學院,陜西 楊凌 712100)
中國目前是種植面積第一的獼猴桃生產大國[1]。獼猴桃富含豐富的營養成分,被譽為“水果之王”。糖分是獼猴桃的重要呈味物質,也是影響果實采后食用品質的重要因素。水果果汁的可溶性固形物中81%的成分為糖類[2],因此常用可溶性固形物含量(soluble solids content,SSC)評價水果的糖度。傳統檢測水果SSC的方法是取部分果肉榨汁、將果汁滴入糖度計中測量。雖然該方法相對精確,但卻是有損檢測,不利于消費者挑選水果。近紅外光譜技術具有穩定性好、操作簡單、無污染、無損檢測等優點[3],已經被廣泛應用在桃、蘋果等水果的品質檢測中[4-11]。在應用近紅外光譜技術檢測獼猴桃SSC方面國內外學者也進行了大量研究[12-15]。現有的臺式近紅外檢測設備雖然精度高、穩定性好,但是價格昂貴,體積龐大,操作復雜,不利于大范圍推廣。此外,獼猴桃品種較多,光譜差異較大。在以往的研究中,大多數研究人員只對單一品種獼猴桃建立模型并預測該品種SSC,當需要預測另一品種獼猴桃SSC時,又需要大量樣本重新建立模型,耗時較長,浪費大量人力物力。因此,需要對模型進行校正,提高模型的適用性。目前主要是針對不同儀器之間開展模型傳遞方法的研究,而對于不同品種間近紅外光譜模型傳遞方法的研究鮮有報道。
本研究以海洋光學微型光譜儀和自制光纖探頭為基礎,搭建一套獼猴桃SSC近紅外光譜檢測裝置,以‘華優’、‘徐香’和‘西選’為實驗對象,在該檢測裝置下,獲取多品種獼猴桃的光譜;基于x-y共生距離(sample set partitioning based on joint x-y distances,SPXY)樣本劃分方法,選取具有代表性的樣本做為校正集,結合多種不同波長優選方法,建立檢測獼猴桃SSC的偏最小二乘(partial least squares,PLS)[16]模型,探討不同波長優選方法對獼猴桃SSC檢測模型精度的影響;結合斜率/截距算法,用少量‘徐香’和‘西選’獼猴桃樣本對‘華優’獼猴桃SSC檢測模型進行校正,提高對目標樣品的預測性能,減少實驗量,優化獼猴桃SSC檢測模型。
實驗所用的成熟‘華優’、‘徐香’和‘西選’獼猴桃樣品采摘于楊陵區某3 個獼猴桃園,所選樣品無缺陷和損傷。為了獲取一定變化范圍的SSC,將采摘的獼猴桃樣品放在室溫條件下冷卻約6 h后,分別將10~15 個樣品裝于保鮮袋中,并置于3 ℃的恒溫恒濕箱中冷藏。實驗前從恒溫恒濕箱中取出30 個樣品(每個品種各10 個),用面巾紙清理掉樣品表皮的雜物后,將樣品置于室溫((24±2)℃)條件下放置約12 h,以使樣品回到室溫且保證樣品溫度均勻。每隔7 d取一次樣,共用樣品390 個,其中‘華優’130 個、‘徐香’130 個、‘西選’130 個。
基于微型光譜儀的獼猴桃SSC近紅外光譜檢測系統主要由微型光譜儀、計算機、光纖探頭、光源和USB數據線組成,如圖1所示。其中微型光譜儀為美國Ocean Optics公司生產的NIRQuest512型微型光譜儀,該光譜儀采用穩定性高的濱松銦鎵砷化物(InGaAs)作為陣列探測器,其探測范圍為898.27~1 719.61 nm。光源為功率6.5 W的鹵素燈(HL-900-P7,如海光電科技有限公司)。光纖探頭(自制)包含2 組單獨的光纖,一組是位于光纖探頭處的環形光纖負責將光源發出的光照射到獼猴桃上,另一組負責將光纖探頭處檢測到的含有獼猴桃內部品質信息的光傳遞到光譜儀中。計算機通過USB數據線與微型光譜儀相連接,負責整個光譜數據的采集、存儲和處理。

圖1 獼猴桃光譜采集系統結構圖Fig.1 Schematic diagram of the spectral acquisition system for kiwifruits
1.3.1 光譜數據的采集
以獼猴桃赤道上間隔180°的2 個點作為光譜采集區域。采集獼猴桃光譜時,將光纖探頭與獼猴桃表面緊密接觸,使用SpectraSuite軟件(Ocean Optics,美國)實現光譜數據的采集和存儲。獼猴桃光譜采集的參數為積分時間3 000 ms,平均次數3,平滑度3。按公式(1)計算光譜反射率:

式中:Rλ和Sλ分別為波長λ條件下獼猴桃樣品的反射率和光譜強度;Dλ和RDλ分別為波長λ條件下的暗光譜強度和參考光譜強度。
由于每個樣品間隔180°的2 個點的SSC和光譜均有一定的差異,因此以每個點獲得的光譜作為一個獨立的光譜,共獲得光譜780 條。
1.3.2 SSC測定
光譜采集完成后,在光譜采集位置取適量果肉,用家用壓蒜器壓汁,然后用PR-101α型數字式折射計測量果汁的SSC。每個點測量2 次,2 次測量結果的平均值作為該點SSC的測量結果。每個點的SSC與該點的光譜一一對應。
1.4.1 光譜數據預處理
采集到的原始光譜不僅包含了被測樣品內部結構和化學組分的綜合信息,同時也包含了背景噪聲等其他無關變量。在全光譜范圍內比較了全光譜、Savitzky-Golay卷積平滑、基線校正、多元散射校正、標準正態變量變換(standard normalized variate,SNV)、一階及二階微分光譜預處理方法對PLS模型性能的影響,發現經SNV預處理后的光譜能有效地提高PLS模型對獼猴桃SSC的檢測性能,因此,本實驗以SNV預處理后的光譜作為后續分析的基礎。
1.4.2 SPXY樣本劃分方法
SPXY樣本劃分方法是由Galvao等[17]首先提出的,它以Kennard-Stone算法為基礎,在計算樣品間距離時,同時考慮了x變量和y變量。該方法可以很好地覆蓋多維空間,從而能提高模型的預測效果。
1.4.3 特征波長的選取
采用連續投影算法(successive projections algorithm,SPA)、無信息變量消除(uninformative variable elimination,UVE)法和競爭性自適應重加權(competitive adaptive reweighted sampling,CARS)法從全光譜中提取特征波長。
SPA[18-19]是一種利用向量投影分析的前向循環特征波長提取算法。從一個波長變量開始,每循環一次都計算這個波長變量在剩余波長變量上的投影,并將投影向量最大的波長引入到波長組合,直到達到設定的波長數為止,每個新選擇的波長都與前一個波長的冗余度最低、共線性關系最小。本研究中采用交互驗證均方根誤差(root mean square error of cross validation,RMSECV)評價SPA中每一步所得到的波長組合,最小RMSECV對應的波長組合及波長數既是最終提取的結果。
UVE[20-21]是以PLS回歸系數為基礎的特征波長提取方法。它是把隨機產生的與自身光譜矩陣變量數目相同的噪聲矩陣作為伴隨矩陣添加到光譜矩陣中建立PLS模型,利用交叉驗證,剔除原始變量中的無信息波長,得到回歸系數矩陣,然后計算回歸系數向量的平均值與標準偏差的商的穩定性,根據穩定性判定是否把該波長用于最終的模型中。
CARS[22-24]是基于簡單而有效的達爾文“適者生存”進化理論提出的一種新的特征波長提取方法。它是利用自適應加權采樣技術保留PLS模型中回歸系數絕對值大的波長變量,利用交互驗證,計算并比較每次采樣產生的特征變量集所對應的RMSECV值,根據RMSECV最小值選取最佳特征波長子集,該子集所包含的變量即為最優變量組合。
1.4.4 斜率/截距模型傳遞方法
斜率/截距算法[25-26]是通過校正主品種模型來實現模型傳遞的。
其主要步驟為:建立主品種校正模型K,選擇n 個目標樣品構成標準樣品集X1,利用模型K直接預測X1,得到目標樣品矩陣C1,采用一元線性回歸方程對C1和預測的目標樣品真值矩陣C0進行擬合,式(2)為擬合方程:

式中:a和b為該擬合方程的斜率和截距。
以殘差平方最小為原則,根據PLS法求解該線性方程,得到a和b,按公式(3)、(4)計算:

利用公式(3)、(4)求出a和b后,采集未知目標待測樣品光譜矩陣X2,采用模型K得到預測值C2,再利用公式(5)求出未知目標待測樣品修正后的預測值C3。

1.4.5 模型的建立及評價
以校正集樣品的均方根誤差(root mean square error of calibration,RMSEC)和相關系數(Rc)以及預測集樣品的均方根誤差(root mean square error of prediction,RMSEP)和相關系數(Rp)分別反應模型的校正性能和預測性能。Rc和Rp越高,RMSEC和RMSEP越低,模型的性能越好。此外,以剩余預測偏差(residual predictive deviation,DRPD)評價模型的預測性能。Nicola?等[27]指出,當DRPD<1.5,表示該模型的預測精度很差;當1.5<DRPD<2.0,表示該模型預測性能相對較弱;當2.0<DRPD<2.5,表示該模型可用于粗略地預測;當DRPD>2.5,表示該模型具有良好的預測能力;當DRPD>3.0,表示該模型具有極好的預測能力。
1.4.6 軟件處理
利用Unscrambler9.8(CAMO,Norway)完成光譜數據的SNV預處理,利用Matlab2010a(Mathworks,USA)軟件完成光譜特征波長變量提取及獼猴桃SSC模型的建立。

圖2 經SNV處理后的獼猴桃光譜圖Fig.2 Spectra of kiwifruits after SNV pretreatment
如圖2所示,所有獼猴桃樣品在898.27~1 719.61 nm波長范圍內經SNV預處理后的反射光譜。在整個光譜測試范圍內,各樣品的光譜變化趨勢相同,且有2 個主要的吸收峰,分別出現在960 nm和1 190 nm附近。960 nm處強的吸收峰可能是由于碳水化合物和水的O—H鍵的二級倍頻吸收共同作用所致[28],而1 190 nm處的吸收峰很可能是由于碳水化合物(果糖、蔗糖和葡萄糖)的C—H鍵的二級倍頻吸收引起的[29-30]。
采用SPXY算法分別對3 個品種的獼猴桃樣本進行劃分,按照校正集與預測集樣本數3∶1的比例將每個品種的獼猴桃分別劃分為195 個校正集樣品和65 個預測集樣品。從表1可以看出,每個品種校正集SSC的分布范圍覆蓋了預測集的分布范圍,這有助于構建穩定的檢測模型。

表1 各品種獼猴桃SSC測量值的分布Table1 SSC distribution of kiwifruits from three varieties
SPA算法提取特征波長:設定SPA算法中各品種獼猴桃的特征波長變量數為3~50 個,分別計算不同特征波長數條件下各品種獼猴桃的RMSECV,根據RMSECV的最小值確定最佳的特征波長變量數。本實驗中,對于‘華優’、‘徐香’和‘西選’獼猴桃所確定的最佳特征波長數分別為14、29和18。
UVE算法提取特征波長:在應用UVE算法提取特征波長時,設定隨機變量個數為512 個,將隨機變量穩定性最大絕對值的99%作為變量篩選的閾值,閾值以外的穩定性值所對應的波長變量被用于建模,其余波長則被剔除。本研究中用UVE算法提取的‘華優’、‘徐香’和‘西選’獼猴桃的特征波長數分別為241、234 nm和154 nm。
CARS算法提取特征波長:本研究中將蒙特卡羅采樣次數設定為100。由于蒙特卡羅采樣法是從校正集樣品中隨機選取一定數量的樣品建立PLS模型,因此每次CARS算法的結果不會完全相同,這使得挑選出來的特征波長略有差異。為此,本實驗運行CARS算法20 次,根據RMSECV最小一次的結果選擇特征波長。本研究中,對于‘華優’、‘徐香’和‘西選’獼猴桃,經過CARS算法最終提取的特征波長數分別為24、34和37。
模型建立及預測:基于各品種校正集樣品的全光譜以及SPA、UVE和CARS提取的特征波長,建立預測各品種獼猴桃SSC的PLS模型,并用所建模型對預測集樣品的SSC進行預測,如表2所示。

表2 不同特征波長選擇方法下各品種獼猴桃SSC的建模結果Table2 SSC modeling of different kiwifruit varieties with different effective wavelengths selection methods
對于‘華優’獼猴桃,經SPA提取的特征波長所建PLS模型的預測結果最好,RMSEP為0.583 °Brix;對于‘徐香’和‘西選’獼猴桃,同樣也是經SPA提取的特征波長所建PLS模型具有最小的RMSEP(0.678 °Brix和0.646 °Brix)。3 個品種中,對于‘華優’和‘徐香’,4 種不同波長提取方法所建PLS模型的DRPD均大于3.0,說明該套系統能獲取到穩定且準確的獼猴桃光譜信息,對這2 個品種獼猴桃的SSC具有極好的預測準確性;而對于‘西選’4 種不同波長選取方法所建PLS模型的預測能力相比‘華優’和‘徐香’較差,可能是由于其SSC范圍較窄,但應用SPA方法篩選出的31 個特征波長所建模型的DRPD在2.5和3.0之間,說明該模型對‘西選’獼猴桃SSC的預測也具有良好的預測能力。
本研究中所用‘華優’獼猴桃SSC的范圍覆蓋了‘徐香’和‘西選’SSC的范圍,代表性較強,故以‘華優’作為主品種,以‘徐香’和‘西選’為目標品種,使用斜率/截距算法,研究基于‘華優’獼猴桃SSC建立的SPA-PLS模型預測‘徐香’和‘西選’獼猴桃SSC的準確性。在使用斜率/截距算法進行模型傳遞時,需要選取一定數量的標準化樣本,用以計算模型傳遞參數——斜率和截距。用SPXY算法分別從‘徐香’和‘西選’的校正集選取0、10、20、30、40、50、60、70、80、90 個樣本作為標準化樣本,用以計算模型傳遞的斜率和截距。從圖3可以看出,對于‘徐香’和‘西選’經過斜率/截距算法修正后,RMSEP均在一定程度上有所降低。對于‘徐香’,當標準化樣本個數為10時,其RMSEP(0.966 °Brix)值最小。對于‘西選’,當標準化樣本個數為50時,RMSEP(0.875 °Brix)值最小。為此,本實驗在采用斜率/截距算法進行模型傳遞時,將‘徐香’和‘西選’目標品種的標準化樣本個數分別設為10和50。

圖3 ‘徐香’和‘西選’的RMSEP隨標準化樣本個數的變化趨勢圖Fig.3 Changes in RMSEP of ‘Xuxiang’and ‘Xixuan’ kiwifruits with different numbers of standard samples

表3 斜率/截距法修正前后的模型檢測效果Table3 Prediction results of the model before and after S/B algorithm correction
從表3可以看出,當對‘華優’的SPA-PLS模型進行斜率/截距算法修正前,即直接采用‘華優’模型預測‘徐香’和‘西選’的SSC時,其RMSEP分別為1.298 °Brix和2.065 °Brix,而采用斜率/截距算法修正后,該模型對‘徐香’和‘西選’SSC預測的RMSEP分別降為0.966 °Brix和0.875 °Brix,較使用前分別下降了0.332 °Brix和1.190 °Brix,說明斜率/截距算法能有效改善主品種(‘華優’)模型對目標品種(‘徐香’和‘西選’)SSC的預測性能。
為了客觀地評價斜率/截距算法的模型傳遞效果,分別用2.4節中挑選出的10 個‘徐香’和50 個‘西選’建立預測‘徐香’和‘西選’獼猴桃SSC的SPA-PLS模型。設定特征波長變量數分別為1~9 個和1~49 個,根據不同變量數條件下‘徐香’和‘西選’RMSECV的最小值確定最佳特征波長數分別為3和15,進而分別建立預測‘徐香’和‘西選’獼猴桃SSC的PLS模型。為了驗證模型的預測效果,用所建的模型對預測集的65 個‘徐香’和65 個‘西選’分別進行預測,各模型的建模及預測結果見表4。

表4 少量‘徐香’和‘西選’獼猴桃所建PLS模型對其SSC預測結果Table4 SSC prediction results using PLS method with small samples of ‘Xuxiang’ and ‘Xixuan’ kiwifruits
由表4可以看出,僅用10 個‘徐香’獼猴桃樣本所建模型的RMSEP為1.883 °Brix,DRPD為1.446,同表3中斜率/截距算法修正后對‘徐香’獼猴桃樣本的RMSEP(0.966 °Brix)和DRPD(2.819)相比,RMSEP增加了0.917 °Brix,DRPD減少了1.373。對于‘西選’獼猴桃,用50 個樣本作為校正集建模后得到的RMSEP為0.902 °Brix,DRPD為1.796,同表3中斜率/截距算法修正后對‘西選’獼猴桃樣本的RMSEP(0.875 °Brix)和DRPD(1.851)相比,RMSEP增加了0.027 °Brix,DRPD減少了0.055。結果說明,當目標樣品數比較少時,基于小樣本所建模型的預測性能較差,而采用斜率/截距算法進行模型傳遞能夠有效地提高對目標樣品的預測性能。
而對表2和表3的結果進行比較,可以發現不管是哪種波長提取方法,相同品種條件下,表2中的RMSEP均小于表3中的RMSEP。該結果說明,當目標品種的樣本數較大時,基于較大樣本所建立的目標參數的預測性能優于利用斜率/截距算法模型傳遞的結果。
本實驗基于自搭建的獼猴桃SSC便攜式無損檢測系統獲取的光譜,結合PLS模型,研究不同特征波長提取方法對獼猴桃SSC檢測模型的影響,并用斜率/截距算法研究了不同品種獼猴桃間SSC模型的傳遞。結果說明,該套系統結合SPA-PLS方法建立的‘華優’、‘徐香’和‘西選’獼猴桃SSC檢測模型可以用于獼猴桃SSC的快速無損檢測,其RMSEP分別為0.583、0.678 °Brix和0.646 °Brix;用斜率/截距算法對‘華優’獼猴桃SSC模型進行校正時,僅用10 個‘徐香’和50 個‘西選’獼猴桃能夠有效地提高對目標樣品的預測性能,其RMSEP分別為0.966 °Brix和0.875 °Brix,同僅用少量‘徐香’和‘西選’獼猴桃所建小樣本模型相比,其RMSEP分別降低了0.917 °Brix和0.027 °Brix。本研究為進一步構建精度更高、更便捷的微型集成式獼猴桃SSC檢測設備提供理論依據。