馬帥帥 于慧春 殷 勇 袁云霞 李 欣 薛書凝
(河南科技大學食品與生物工程學院,河南 洛陽 471023)
黃瓜本身營養豐富,風味獨特,深受人們喜愛,是世界范圍內普遍栽培的重要蔬菜作物。但黃瓜采摘后容易失水萎蔫、衰老,新鮮度降低,口感變差,食用價值降低,影響其市場銷量。而傳統果蔬的品質檢測方法主要有感官評定、化學檢測法等[1],感官評定主觀性強,且無法對其內部進行準確評定。化學檢測法精度高,但耗時、費力、工藝復雜,測定結果受前處理影響較大,無法實現其快速檢測。
近年來,高光譜成像技術因其“圖譜合一”、速度快、樣品無需預處理等優點,在果蔬的品質檢測領域中獲得較多的應用研究[2]。利用高光譜圖像中的光譜信息,結合化學計量學方法,可以實現對被檢測樣品每一點口感風味等食用品質指標(如可溶性固形物、水分、酸度及硬度等)以及營養品質指標(如淀粉、色素等)的預測和評估;利用高光譜圖像信息,結合圖像處理方法,可以實現對樣品外部品質(如傷痕、形態等)的檢測。因此,高光譜技術可以同時檢測樣品的內部和外部品質,在果蔬品質檢測領域呈現出極大發展潛力。
目前高光譜圖像技術在黃瓜病蟲害[3]、葉片含水量[4]、黃瓜葉片葉綠素含量[5]及過氧化酶活性[6]等方面的檢測及評價都有研究報道,但在黃瓜新鮮度方面的研究很少,且建立的理化值預測模型精度不高,穩定性較差[7]。由于高光譜圖像數據信息量龐大,且存在大量冗余多重共線性信息,會嚴重影響預測模型的精度及可靠性,因此應用時需要進行特征波長的選擇。
黃瓜的水分含量與硬度可以反映黃瓜的新鮮狀態且二者具有顯著相關性,可以作為關鍵指標對貯藏期間黃瓜新鮮度進行判別評價[8]。試驗擬采用高光譜成像技術對不同貯藏時間的黃瓜樣品進行檢測,在對原始高光譜數據進行預處理以去除噪聲干擾的基礎上,研究硬度和失水率的適宜特征提取方法,并建立判別模型,以期實現對貯藏黃瓜新鮮度的快速、準確評價。
質構儀:SMS TA.XT Express型,英國,Stable Micro Systems公司;
電子天平:DT-500B型,常熟市佳衡天平儀器有限公司;
高光譜圖像采集系統(見圖1):由高光譜成像儀(IST50-3810型,德國Inno-Spec公司)、500 W的光纖鹵素燈(RK90000420108型,德國Esylux公司)、移動裝置和計算機組成,實驗室自行搭建。
黃瓜:德瑞特D19,河南省洛陽市大張超市。
1.3.1 貯藏與采樣 將新鮮采摘的黃瓜樣品500 kg,存放于貯藏庫(溫度25 ℃、濕度80%)。對常溫貯藏的黃瓜每隔1 d取樣一次,即對黃瓜貯藏第1,3,5,7,9,11天取樣,并分別進行硬度、失水率和高光譜檢測。

1. 樣本 2. 光源 3. 光譜儀 4. 輸送裝置 5. 計算機
1.3.2 硬度測定 采用質構儀選擇果蔬硬度測試模型,測試參數設置:探頭直徑5 mm,觸發力值5.0 g,下行速度1 mm/s,測中速度0.5 mm/s,上行速度1 mm/s。試驗當天從貯藏庫不同貨架隨機選取6根黃瓜,距離黃瓜頭部2 cm處徑向均勻選取3個測試點,取其平均值作為該天黃瓜樣本的硬度值。
1.3.3 失水率的測定 黃瓜入庫當天從貯藏庫不同貨架隨機選取6根黃瓜,依次順序編號,樣品重量用電子天平測量,按式(1)計算失水率。取6根黃瓜樣品失水率平均值作為該天黃瓜樣本的失水率值。
(1)
式中:
a——失水率,%;
W——每根黃瓜原始重量,g;
w——相應黃瓜當天的重量,g。
1.3.4 高光譜檢測 通過預試驗確定高光譜檢測參數:成像儀物鏡高度350 mm,曝光時間90 ms,載物平臺的移動速度1.20 mm/s。儀器光譜采集范圍371.05~1 023.82 nm,光譜分辨率2.8 nm,采樣間隔為0.49~0.51 nm,在光譜范圍內共采集1 288個波段。試驗當天從貯藏庫不同貨架隨機選取10根黃瓜,從黃瓜頭部2 cm處開始,均勻切片,每片厚度約2 mm,每根黃瓜切5片,共計50片樣本。黃瓜片逐一平放在洗凈的玻璃平皿中,置于輸送帶上進行高光譜數據采集。
1.4.1 黑白校正 用ENVI5.1軟件選取黃瓜樣本圖像中感興趣區域,對高光譜圖像進行黑白板校正。校正方法:在同一采集環境下,采集標準白色校正板得到的全白標定圖像(反射率接近99%),關閉相機鏡頭采集全黑標定圖像(反射率接近0%),并按式(2)計算得到校正后圖像[9]。
(2)
式中:
R——校正后高光譜圖像;
I——原始黃瓜高光譜圖像;
B——全黑標定圖像;
W——全白標定圖像。
1.4.2 原始光譜數據的預處理 為減少環境噪聲及儀器自身的系統誤差對光譜信息的干擾,分別采用Savitzky-Golar法(SG)、多元散射校正(MSC)和標準正態變量變換(SNV) 3種方法對原始高光譜數據進行預處理,并根據相關系數(R2)和均方根誤差(RMSE)進行結果對比。
1.4.3 特征波長的選擇 由于原始光譜數據存在共線性,為了減少模型運算量,提高計算精度,對預處理之后的光譜數據采用競爭性自適應重加權算法(CARS)、偏最小二乘(PLS)、連續投影算法(SPA),分別進行特征波長的提取。
CARS方法是基于蒙特卡羅采樣和偏最小二乘(PLS)模型中回歸系數的一種特征波長選擇方法,旨在選擇最具有競爭力的波數組合[10-11]。其通過蒙特卡羅采樣選擇的校正集樣本建立對應的PLS模型,計算該次采樣中波長回歸系數的絕對值權重,去掉權重較小的波長后,采用自適應重加權采樣的方法選擇波長來建立PLS模型,選取交互驗證均方根誤差(RMSECV)最小的PLS模型對應的波長為特征波長[12]。
偏最小二乘回歸系數法[13],是在PLS建模過程中得到的,是集主成分分析、典型相關分析于一體的一種特征波長提取方法。通過偏最小二乘回歸分析,得到權重回歸系數,并根據回歸系數的極值進行特征波長的提取。
連續投影算法(SPA)[14]可以將波長變量間的共線性消除,有效避免信息重疊,從而用很少的信息量來代表多數樣本的光譜信息[15-16],特征波長最終的選擇結果為最小交互驗證均方根誤差(RMSEV)對應的波長變量個數。
1.4.4 模型的建立 采用BP神經網絡[17](back propagation neural network,BPNN)方法構建檢測模型。BPNN是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,采用經驗風險最小和梯度下降法計算目標函數最優值從而逼近函數表達[18],使信號正向傳播和誤差反向傳播交替循環進行,信號正向傳播一次計算相應的誤差一次,讓誤差沿著梯度負方向下降一個很小的變化量,將得到的誤差變化量反向傳播到BPNN各層,然后對各層參數的值進行調整,再進行下一次循環。當BPNN的誤差收斂到一個較為穩定的范圍,可認為各層參數的值達到了理想狀態,模型達到了最優狀態。
如表1所示,在貯藏期間硬度值隨貯藏時間增長總體呈下降趨勢,其中第3~5天硬度值下降趨勢最明顯。

表1 黃瓜硬度值
如表2所示,貯藏中黃瓜在第1~3天失水速率最高,可能是貯藏室整體環境溫濕度不穩定造成的,環境穩定后隨貯藏時間增長黃瓜樣本失水率總體平穩增加。
去除876.97~1 023.82 nm明顯存在噪聲的波段,保留371.05~876.47 nm范圍內的平均光譜進行后續分析。各不同貯藏日期黃瓜樣本原始光譜曲線如圖2所示。
2.4.1 高光譜圖像預處理 分別采用SG、SNV、MSC 3種方法對光譜進行預處理,并基于預處理后的全光譜數據建立硬度和失水率指標的BP預測模型,結果如表3所示。
由表3可知,SG法預處理效果較好,其對硬度和失水率預測的R2分別為0.82,0.84,RMSE分別為0.03,0.39。但是整體R2較低,均在0.8左右,說明基于全波長信息的預測模型效果不理想,大約只有80%的有效信息,在全波長高光譜信息中存在較多的冗余信息,降低了模型的精度和可靠度,因此需對全波長高光譜進行特征波長的選擇。

表2 黃瓜失水率

圖2 黃瓜原始光譜圖

表3 3種預處理方法的BP分析結果
圖3為經SG卷積平滑法處理后的光譜數據。對比圖2和圖3可以發現,經SG法預處理后,減少了噪聲和暗電流等因素對光譜數據的影響,曲線更平滑,更有利于模型的構建。
2.4.2 特征波長的選擇 圖4為CARS方法特征波長提取過程。如圖4(a)所示,隨著采樣次數的增加,優化變量數逐步下降;圖4(b)中RMSECV值表明了基于CARS選擇的特征波長建立的PLS模型的效果,RMSECV值越小表明模型效果越好,*號即為RMSECV值最小的位置,對應RMSECV值最小的位置采集次數為59次,得到黃瓜硬度指標的較優特征波長個數為25個。同理,黃瓜失水率的采樣次數為70次,得到的較優特征波長個數為20個,篩選過程如圖4(c)和(d)所示。

圖3 SG處理后黃瓜光譜圖
運用PLS方法提取硬度和失水率特征波長個數分別為13,16個,得到黃瓜特征光譜的權重系數圖,如圖5所示。從權重系數圖看,絕對值越大的波長點代表這些波長對模型的影響越大,這些波長都處在波峰或者波谷位置,第1主成分和第2主成分波動小,樣本間的差異不明顯;第3主成分波動大,樣本間的差異明顯,所以選取第3主成分回歸系數波峰和波谷所對應的波長為特征波長。
SPA提取特征波長個數均為20個,特征波長提取如圖6所示。

圖4 基于CARS特征波長提取

圖5 基于PLS特征波長提取
基于不同方法所篩選出的各個特征波長結果如表4所示。
2.4.3 特征波長下黃瓜硬度和失水率判別模型分析 分別基于3種方法提取的特征波長建立BPNN模型。每個等級的黃瓜樣品的50條高光譜中35條作為訓練集,15條作為預測集。
BPNN模型結果如表5所示。在BPNN模型中,迭代次數設置1 000次,學習速率為0.001,訓練目標為0.000 1,隱含層神經元函數選擇tansig函數,輸出層神經元函數選擇purelin函數,網絡訓練函數選擇trainlm函數。在BPNN硬度模型中,輸入層神經元個數為25,13,20個,分別對應CARS、PLS和SPA選取的硬度特征波長個數;在BPNN失水率模型中,輸入層神經元個數分別為20,16,20個,分別對應CARS、PLS和SPA選取的失水率特征波長個數。輸出層神經元數為6,對應樣品種類。隱含層層數越多,精度越高,但網絡結構越復雜,訓練時間越長[19],最終選擇的隱含層層數均為1。隱含層神經元個數的選擇參照式(3),經調試,隱含層神經元個數為23時,判別效果最佳。
(3)
式中:

圖6 基于SPA特征波長提取

表4 特征波長提取結果

表5 特征波長下BPNN判別正確率
N——隱含層神經元個數;
n——輸入層神經元個數;
m——輸出層神經元個數;
a——常數。
由表5可知,3種模型的預測效果均明顯改善,SPA提取的特征波長建立的BPNN判別模型效果較好,硬度訓練集和測試集正確率分別達到95.24%,91.67%,失水率訓練集和測試集正確率分別達到97.78%,95.00%。與全波長光譜信息的預測模型相比,預測的精度大大提高。由表6可知,SPA選擇的特征波長建立的判別模型對硬度和失水率的判別效果均較好,R2和RMSE值均優于其他特征波長選擇方法。
基于SPA方法提取的特征光譜信息,構建BPNN硬度和失水率預測模型,預測結果如圖7、8所示。

表6 特征波長下BPNN模型判別分析結果

圖7 BPNN硬度模型訓練和驗證結果

圖8 BPNN失水率模型訓練和驗證結果
研究通過對原始高光譜數據的預處理及特征波長的提取,建立黃瓜硬度和失水率預測模型。采用Savitzky-Golar法、多元散射校正和標準正態變量變換3種方法對高光譜原始數據進行處理,基于全波段信息建立BP神經網絡預測模型,結果表明Savitzky-Golar法預處理更優;在Savitzky-Golar法預處理基礎上,采用競爭性自適應重加權算法、偏最小二乘、連續投影算法3種方法進行特征波長提取;基于特征波長,建立BP神經網絡判別模型。李丹等[20]曾對黃瓜水分進行預測,通過對900~1 700 nm波段范圍內的特征波長下建立的偏最小二乘水分預測模型,模型的相關系數和均方根誤差分別為0.86和0.111。文中基于連續投影算法提取的特征波長所建立的預測模型,精度明顯高于其他特征波長選取方法;硬度和失水率訓練集準確率分別為95.24%,97.78%,測試集準確率分別為91.67%,95.00%,預測結果相對于全波長預測精度大大提高。
研究下一步解決的問題是硬度和失水率共同特征波長的提取并構建多理化指標預測模型,特征波長提取方法仍然是模型構建的關鍵點,是值得不斷深入分析和研究的問題。