吳習(xí)宇,曾凱芳,郭啟高,任丹,伍柯翰,徐丹
1. 西南大學(xué) 食品科學(xué)學(xué)院, 重慶 400716; 2. 西南大學(xué) 食品貯藏與物流研究中心, 重慶 400716;3. 西南大學(xué) 園藝園林學(xué)院, 重慶 400716
枇杷(EriobotryajaponicaLindl.)屬于薔薇科(Rosaceae)枇杷屬常綠多年生植物, 原產(chǎn)于中國南方及與云南省交界的老撾、 越南等東南亞國家[1]. 枇杷果實(shí)含有豐富的礦物質(zhì)、 糖類和有機(jī)酸等營養(yǎng)成分, 根據(jù)果肉顏色可分為紅肉枇杷和白肉枇杷兩種類型[2]. 枇杷屬于呼吸非躍變型果實(shí), 成熟度低的枇杷糖分低、 含酸量高, 鮮食口感偏差; 八成熟以上果實(shí)含糖量持續(xù)增加, 酸度降低[3-4]. 當(dāng)前, 枇杷采收后的品質(zhì)分級主要通過肉眼可觀測和可觸摸的外觀指標(biāo)(顏色、 大小、 硬度、 質(zhì)量等)來進(jìn)行[5], 但人的主觀判斷容易受很多因素的影響, 效率和準(zhǔn)確性都較差. 采用理化實(shí)驗(yàn)的方法可以對枇杷果實(shí)的糖度、 酸度、 硬度等進(jìn)行較高精度的檢測, 但這些檢測方法均為破壞性實(shí)驗(yàn), 需要耗費(fèi)大量的化學(xué)試劑且費(fèi)時費(fèi)力. 而采用光學(xué)無損檢測, 建立數(shù)學(xué)模型后, 僅通過機(jī)器掃描就能定量分析果實(shí)中的營養(yǎng)指標(biāo)含量, 這為我國未來水果成熟度的準(zhǔn)確預(yù)測以及果品質(zhì)量分級制度的建立帶來了可能性.
高光譜成像技術(shù)(hyperspectral imaging, HSI)利用很多窄的電磁波波段的電磁光譜以成像的形式獲取物體特性的有關(guān)數(shù)據(jù), 把傳統(tǒng)的二維成像技術(shù)和光譜技術(shù)有機(jī)地結(jié)合在一起, 能同時分析樣品的光譜信息和相應(yīng)的空間信息[6-7], 具有“圖譜合一”的特點(diǎn)[8]. 高光譜成像獲取的原始圖像是三維的, 是一系列光波波長處的光學(xué)圖像, 圖像像素的橫坐標(biāo)軸和縱坐標(biāo)軸分別用x和y表示, 光譜的波長信息以λ(z軸)表示[9]. 當(dāng)前, 一些學(xué)者研究了高光譜技術(shù)對香蕉[10-11]、 蘋果[12]、 桃子[13]等水果品質(zhì)及成熟度的無損檢測, 取得了較好的效果, 但關(guān)于枇杷果實(shí)品質(zhì)與成熟度的高光譜成像檢測研究鮮有報道.
本文以枇杷為研究對象, 在可見-近紅外(363~1 026 nm)波長區(qū)域內(nèi)獲得高光譜信息, 建立果實(shí)光譜信息與可溶性固形物(soluble solid content, SSC)、 硬度、 成熟度回歸模型, 旨在對HSI 用于枇杷果實(shí)品質(zhì)無損檢測和成熟度的預(yù)測潛力進(jìn)行評估.
以西南大學(xué)果樹學(xué)重點(diǎn)實(shí)驗(yàn)室枇杷種質(zhì)資源圃的紅肉枇杷“金華1號”品種為實(shí)驗(yàn)材料, 采摘大小均勻、 無疤痕、 無病蟲害、 成熟度七成(經(jīng)驗(yàn)判斷)以上的果實(shí), 采后2 h內(nèi)運(yùn)至實(shí)驗(yàn)室, 放置于7℃的冷藏柜中保存, 于3 d內(nèi)完成高光譜圖像獲取和理化實(shí)驗(yàn)分析, 試驗(yàn)樣本總計(jì)115個.
CT-3型質(zhì)構(gòu)儀, 美國Brookfield公司. PAL-1型數(shù)字折射儀, 日本ATAGO CO., LTD.. 可見/近紅外高光譜成像系統(tǒng)(363~1 026 nm): 包括1個線性掃描成像儀(Imspector V10E, Spectral Imaging Ltd.), 1個高性能的EMCCD相機(jī)(Raptor EM285CL), 1個由步進(jìn)電機(jī)驅(qū)動的移動平臺(Isuzu Optics Corp.), 2個光纖鹵素?zé)?IT 3900, 150W), 1臺處理數(shù)據(jù)的計(jì)算機(jī)和配套圖像獲取軟件(Isuzu Optics Corp.). 系統(tǒng)放置在封閉的箱體內(nèi), 如圖1.

圖1 高光譜成像裝置及示意圖
將待測的枇杷樣本從冷藏柜中取出, 放置于20℃室溫環(huán)境下1 h后進(jìn)行高光譜圖像采集. 參數(shù)設(shè)置: 光譜分辨率為0.5 nm, 樣本與鏡頭之間距離為20 cm, 曝光時間為500 ms, 載物臺移動速度為0.65 mm/s, 圖像的分辨率為1 632×1 232像素.
為消除光照對圖像的影響, 使用配套圖像處理軟件對采集的圖像進(jìn)行黑白校正, 校正圖像(R)的計(jì)算公式:
(1)
式中,R0為原始圖像,W為白標(biāo)定圖像,B為黑標(biāo)定圖像.
黑白校正后的枇杷高光譜圖像需要去除背景僅保留樣本區(qū)域, 或選取圖像中的感興趣區(qū)域(ROI), 因此, 在ENVI 5.1軟件中進(jìn)行ROI提取, 并將ROI內(nèi)所有光譜信息的平均值作為對應(yīng)反射光譜值, 計(jì)算公式:
(2)
式中,I為ROI區(qū)域的平均光譜,m為ROI區(qū)域中像素點(diǎn)的個數(shù),Ii為第i個像素的光譜, 共1 232個光譜點(diǎn)的光譜數(shù)據(jù).
1.4.1 SSC
去掉樣品的果皮, 將果肉擠壓出汁液于PAL-1型數(shù)字折射儀上讀數(shù), 重復(fù)取3次枇杷果肉的汁液, 3次讀數(shù)的平均值作為該樣品的SSC值.
1.4.2 硬度
將果實(shí)赤道面果皮小心剝除后, 放置于質(zhì)構(gòu)儀的測試平板上, 探頭直徑5 mm, 測試速度1.0 mm/s, 兩次壓縮停頓時間為5 s, 深度5.0 mm, 觸發(fā)點(diǎn)負(fù)載0.2 N, 重復(fù)3次, 由質(zhì)地特征曲線得到果肉硬度.
光譜數(shù)據(jù)處理使用Matlab 2018a軟件.
1.5.1 異常值剔除
由于環(huán)境、 儀器、 人為操作等因素造成的實(shí)驗(yàn)誤差, 應(yīng)對光譜異常和成分含量值異常的樣本進(jìn)行剔除. 蒙特卡洛方法(Monte Carlo, MC)具有同時檢測光譜異常值和理化性質(zhì)異常值的優(yōu)點(diǎn), 將所有樣本作為建模集建立模型, 根據(jù)交叉驗(yàn)證均方根誤差(RMSECV)最小原則確定最佳主成分?jǐn)?shù), 通過計(jì)算各樣本預(yù)測誤差均值和標(biāo)準(zhǔn)差, 結(jié)合3σ判據(jù)方法, 判定具有較高預(yù)測誤差均值和標(biāo)準(zhǔn)差的樣本為異常樣本[14].
1.5.2 樣本集劃分
聯(lián)合X-Y距離(samples set partitioning based on joint X-Y distances, SPXY)樣本劃分方法能夠在對樣本間距離計(jì)算的同時考慮光譜向量和濃度向量[15], 因此本文采用SPXY對枇杷樣本的SSC, 硬度, 成熟度按3∶1進(jìn)行建模集和預(yù)測集劃分, 選擇樣本時計(jì)算其樣本間距離dxy(i,j):
(3)
式中,dx(i,j)和dy(i,j)分別為僅以光譜和僅以濃度為特征參數(shù)統(tǒng)計(jì)的各樣本間距離, 并通過除以各自最大值, 從而使兩個特征參量在樣本選擇時權(quán)重相同.
1.5.3 特征波長選取
獲得的高光譜圖像中共有1 232個波長變量, 冗余較多, 可從所有波段中選擇可分性好的波段子集, 降低數(shù)據(jù)維度. 因此, 對樣本進(jìn)行偏最小二乘回歸分析, 利用競爭性自適應(yīng)權(quán)重采樣算法(competitive adaptive reweighted sampling, CARS)、 連續(xù)投影算法(successive projections algorithm, SPA)進(jìn)行特征波長的選取.
CARS算法是一種結(jié)合蒙特卡洛采樣與偏最小二乘(Partial least squares regression, PLSR)模型回歸系數(shù)的特征變量選擇方法, 模仿達(dá)爾文理論中的“適者生存”的原則. CARS算法中, 每次通過自適應(yīng)加權(quán)采樣保留PLSR模型中回歸系數(shù)絕對值大的波長點(diǎn), 去掉權(quán)值較小的波長點(diǎn), 再利用交叉驗(yàn)證優(yōu)選出RMSECV最小的波長子集[13]. SPA算法是前向特征變量選擇方法, 利用向量的投影分析, 通過將波長投影到其他波長上, 比較投影向量大小, 以投影向量最大的波長為待選波長, 然后基于矯正模型選擇最終的特征波長, SPA選擇的是含有最少冗余信息及最小共線性的變量組合[16].
1.5.4 模型的建立與評價
在光譜的定量分析模型中, PLSR是一種處理兩數(shù)據(jù)塊之間關(guān)系的數(shù)學(xué)方法和常用的化學(xué)計(jì)量學(xué)算法, 能夠同時做到回歸建模和數(shù)據(jù)降維, 并結(jié)合了典型相關(guān)分析和多元線性回歸分析、 主成分分析[17]. PLSR將n個樣品m個組分的濃度矩陣Y=(yi,j)n×m和儀器測定的n個樣品p個波長點(diǎn)處吸光度矩陣X=(xi,j)n×p分解為特征向量形式Y(jié)=UQ+F和X=TP+E, 其中U,T分別為濃度特征因子矩陣和吸光度特征因子矩陣,Q,P分別為濃度載荷陣和吸光度載荷陣,F(xiàn),E分別為濃度殘差陣和吸光度殘差陣. 而后建立PLS回歸模型:
U=TB+Ed
(4)
式中,Ed為隨機(jī)誤差矩陣,B為d維對角回歸系數(shù)矩陣. 對未知待測樣品, 如果吸光度為x, 則其濃度(y)可以求解為:
y=x(UX)′BQ
(5)
判別偏最小二乘法(Discriminant partial least squares, DPLS)是基于判別分析基礎(chǔ)上的偏最小二乘法, 它用類別信息矩陣代替了偏最小二乘法回歸模型中的濃度矩陣[18]. 本實(shí)驗(yàn)采用PLSR和DPLS進(jìn)行建模.

(6)
(7)
(8)
(9)
采用ENVI 5.1軟件對進(jìn)行黑白校正后的枇杷高光譜圖像進(jìn)行ROI提取及光譜范圍選擇. 在枇杷高光譜圖像中心部位提取像素400×400的正方形區(qū)域?yàn)楣庾V感興趣區(qū)域, 每個樣本的光譜值以ROI中光譜響應(yīng)平均值來估算. 分析光譜曲線可知, 所有枇杷樣本的光譜反射率趨勢基本保持一致, 在420 nm和680 nm附近有較強(qiáng)光譜吸收特征, 這主要是由枇杷中類胡蘿卜素和葉綠素吸收光譜所致, 980 nm附近的吸收與水分有關(guān)(圖2).

圖2 枇杷果實(shí)光譜數(shù)據(jù)
采用蒙特卡洛交叉驗(yàn)證法剔除異常值, 以全部樣本分別建立SSC和硬度的交叉驗(yàn)證模型, 計(jì)算樣本預(yù)測誤差均值和標(biāo)準(zhǔn)差, 散點(diǎn)圖見圖3. 結(jié)合3σ判據(jù)方法對樣本中的異常樣本進(jìn)行識別, 采用蒙特卡洛交叉驗(yàn)證法建立SSC模型, 異常樣本有69號,70號,76號,88號,92號,96號; 采用蒙特卡洛交叉驗(yàn)證法建立硬度模型, 異常樣本有4號,21號,28號,58號,88號,92號. 為盡可能保證樣本的多樣性, 因此僅剔除共有的88號和92號異常樣本. 剩余樣本進(jìn)行交叉驗(yàn)證, SSC和硬度交叉檢驗(yàn)?zāi)P偷南嚓P(guān)系數(shù)Rcv分別從0.892 3,0.851 3提高到0.955 2,0.859 5. 后續(xù)用于建模的總樣本數(shù)為113個.
經(jīng)測定, 113個“金華1號”枇杷樣本的SSC值范圍在5.90~13.57 °Brix之間, 硬度范圍在4.07~7.17 kg/cm2之間, 直方圖見圖4. SSC值和硬度值分布呈近似正態(tài)分布, 說明用于實(shí)驗(yàn)的樣本選擇是合適的. 采用SPXY方法將所有樣本進(jìn)行樣本集劃分, 結(jié)果見表1. 可以看出, 用于回歸模型建立的建模集包含了兩個品種枇杷SSC和硬度的最大值與最小值, 分布范圍較廣, 樣本集劃分合理.

圖3 蒙特卡洛偏最小二乘法檢測結(jié)果

圖4 SSC和硬度直方圖

表1 枇杷品質(zhì)指標(biāo)理化測定結(jié)果
將光譜數(shù)據(jù)進(jìn)行預(yù)處理后, 采用CARS算法提取特征波長建立回歸模型. 圖5a為CARS算法選擇SSC特征波長的過程, 運(yùn)行次數(shù)為39時, 選取的波長數(shù)為105個, 占波長總量的8.52%. 同樣方法進(jìn)行硬度特征波長的選擇(圖5b), 當(dāng)運(yùn)行次數(shù)為46時, 硬度值選取的波長數(shù)為66個, 占波長總量的5.36%. 圖6a為SPA算法優(yōu)選的SSC特征波長分布, 選擇的波長數(shù)范圍N=10~84, 共選出12個光譜波長, 占波長總量的0.97%; 圖6b為SPA算法優(yōu)選的硬度值特征波長分布, 選擇的波長數(shù)范圍N=10~84, 共選出10個光譜波長, 占波長總量的0.81%.

圖5 CARS挑選SSC和硬度特征波長過程

圖6 SPA挑選SSC和硬度值特征波長過程
建立全光譜(FS)和CARS,SPA算法優(yōu)選特征波長的PLSR模型, 對其建模效果進(jìn)行比較分析, 結(jié)果見表2和表3.
由表2可知, SSC的CARS-PLSR模型與FS-PLSR模型和SPA-PLSR模型相比,Rc值和Rp值均為最大, 分別為0.981 7和0.918 5;RMSEC,RMSEP均為最小, 分別為0.294 2和0.373 8, 具有較好的校正性能和預(yù)測性能. 由表3可知, 硬度值的CARS-PLSR模型預(yù)測效果也是3個模型中最好的,Rc值和Rp值分別為0.970 7和0.742 3;RMSEC和RMSEP分別為0.113 5和0.165 2. SPA-PLSR模型的預(yù)測性能最差, 這可能是由于全波長有1 232個光譜點(diǎn), SPA算法以投影向量最大的波長為待選波長, 選出的通常為最小共線性的變量組合, 選出的特征波長數(shù)較少, 而枇杷果實(shí)的化學(xué)成分較為復(fù)雜, 導(dǎo)致丟失了一些重要的光譜信息.

表2 不同特征波長下SSC的PLSR模型

表3 不同特征波長下硬度值的PLSR模型
果實(shí)SSC和可溶性糖值變化較大的時間段是在七成熟與八成熟之間. 鄧朝軍等[3]、 許奇志等[4]研究了不同成熟度枇杷的品質(zhì)特性, 發(fā)現(xiàn)七成熟至八成熟可溶性糖值迅速上升. 七成熟的枇杷質(zhì)地較硬, 著色淡黃色, SSC和可溶性糖值較低; 八成熟及以上的枇杷則質(zhì)地較軟, 著色深黃, 香味濃郁, SSC和可溶性糖值顯著升高. 采摘時根據(jù)樣本的外觀, 對所有樣本的成熟度進(jìn)行標(biāo)記, 并在測定SSC后進(jìn)行成熟度標(biāo)記的復(fù)核, 其中八成熟及以上的枇杷樣本有39個, 七成熟的枇杷樣本有74個. 采用SPXY法按表4中的數(shù)量進(jìn)行校正集和預(yù)測集樣本劃分; 光譜采用CARS法進(jìn)行特征波長選擇; 類別信息矩陣中, 將八成熟及以上的枇杷成熟度屬性賦值為1, 七成熟的枇杷成熟度屬性賦值為2[18].
以建模集85個樣本建立DPLS定性判別模型, 獨(dú)立預(yù)測集28個樣本進(jìn)行模型的驗(yàn)證, 預(yù)測集樣本中有6個八成熟及以上的樣本, 有兩個樣本的類別預(yù)測值為2, 即有兩個樣本被錯判為七成熟; 預(yù)測集樣本中有22個七成熟的樣本, 有1個樣本的類別預(yù)測值為1, 即有1個七成熟的樣本被錯判為八成熟及以上. 采用DPLS算法對枇杷果實(shí)成熟度進(jìn)行預(yù)測, 預(yù)測集28個樣本中八成熟及以上的枇杷預(yù)測準(zhǔn)確率為66.67%, 七成熟的枇杷預(yù)測準(zhǔn)確率為95.45%. 所有樣本判錯數(shù)為3, 總的預(yù)測準(zhǔn)確率為89.29%(表4).

表4 成熟度預(yù)測的樣本劃分及預(yù)測結(jié)果
采用高光譜成像技術(shù), 開展了枇杷品質(zhì)檢測方法的研究, 通過光譜與圖像信息相結(jié)合的方法實(shí)現(xiàn)了枇杷果實(shí)SSC和硬度的預(yù)測以及成熟度判別, 主要結(jié)論如下:
① 將枇杷果實(shí)的光譜信息和理化值經(jīng)過蒙特卡洛交叉驗(yàn)證法剔除了2個異常值后, 所有樣本的SSC和硬度交叉檢驗(yàn)?zāi)P偷南嚓P(guān)系數(shù)Rcv分別從0.892 3,0.851 3提高到0.955 2,0.859 5.
② CARS算法進(jìn)行波段選取可以有效去除全光譜波段中的無關(guān)信息和冗余信息, 降低模型的復(fù)雜度, 提高模型的預(yù)測能力. 采用SPXY-CARS-PLSR建立回歸模型并進(jìn)行外部預(yù)測集數(shù)據(jù)驗(yàn)證, SSC的建模集相關(guān)系數(shù)Rc值和預(yù)測集相關(guān)系數(shù)Rp值分別為0.981 7和0.918 5;RMSEC,RMSEP分別為0.294 2和0.373 8; 硬度的建模集相關(guān)系數(shù)Rc值和預(yù)測集相關(guān)系數(shù)Rp值分別為0.970 7和0.742 3;RMSEC,RMSEP分別為0.113 5和0.165 2, 與FS-PLSR模型和SPA-PLSR模型相比, CARS-PLSR模型具有較好的校正性能和預(yù)測性能.
③ 采用DPLS建立枇杷果實(shí)成熟度判別模型并進(jìn)行外部預(yù)測集數(shù)據(jù)驗(yàn)證, 28個預(yù)測集樣本共有3個判錯, 總的判別正確率為89.29%. 八成熟及以上的樣本數(shù)量較少, 還需在后續(xù)的研究中增加樣本.