張佐經,付新陽,陳柯銘,趙遵龍,張仲雄,2,3,趙娟,2,3
1(西北農林科技大學 機械與電子工程學院,陜西 楊凌,712100)2(農業農村部農業物聯網重點實驗室,陜西 楊凌,712100) 3(陜西省農業信息感知與智能服務重點實驗室,陜西 楊凌,712100)
蘋果霉心病是導致蘋果品質不佳的主要病害之一,患有霉心病的蘋果,其果心出現霉變,引起落果、果實腐爛等問題,不僅給蘋果種植者、營銷者和消費者帶來損失,還對企業、蘋果產業以及國家聲譽造成巨大影響[1]。此外,由于霉心病發于果心,無法從表面識別。因此,利用先進的無損檢測技術來提高對蘋果霉心病的檢測效率和準確率,對于保障蘋果品質,提高蘋果商品價值具有重要意義。
目前已有生物阻抗特性檢測技術[2]、核磁共振檢測技術[3]、成像檢測技術[4]、機器智能感官仿生檢測技術[5-7]等方法應用于蘋果霉心病無損檢測,但上述方法存在實驗儀器昂貴、檢測成本較高、分析過程較為復雜、耗時等不足。近紅外光譜技術具有分析效率高和成本低等優點,在蘋果霉心病無損檢測領域得到了諸多應用。采用透射光譜進行霉心病檢測,準確率均在90%以上[8-12],但透射方式的檢測結果受果徑大小的影響,需要進行復雜的模型修正[9],此外由于透射檢測方式中檢測光源與信號接收器分布在蘋果兩側且檢測光源所需能量較高,根據其原理開發的檢測設備通常存在體積較大、能耗較高等問題。采用漫反射光譜可以實現蘋果霉心病的無損檢測,但相比于透射檢測方式判別準確率較低[13-14]。此外,李芳等[2]研究發現霉心病蘋果密度和可溶性固形物含量較健康蘋果均有所下降;張衛園[7]采用機器視覺結合圖像處理方法獲取蘋果密度數據,并利用密度數據判別蘋果是否患霉心病,模型準確率達88%;張建超[15]發現從健康蘋果到重度霉心病果平均密度依次減小且差異顯著,以上研究表明密度可以作為霉心病判斷依據之一。
針對上述情況,本文提出一種融合密度與漫反射光譜的霉心病多因子無損檢測方法,通過提取能夠反映霉心病蘋果與健康蘋果差異的漫反射特征光譜,將密度數據與特征光譜關聯作為模型因子,利用多種算法構建霉心病判別模型,以期提高漫反射光譜對蘋果霉心病判別準確率。
于2019年10月在陜西省寶雞市扶風縣某果園內,挑選果徑75~90 mm、外觀無損傷的蘋果樣本195個,將其運回西北農林科技大學機械與電子工程學院農業物聯網重點實驗室,并放置8 h使其恢復至室溫條件(23~25 ℃,濕度35%~45%),消除溫度對光譜產生的影響。
WLD-600型密度儀,萬利多(稱重范圍:0.01~600 g,儀器精度:0.001 g/cm3),圖1為本實驗所用密度儀,通過分別獲取蘋果在空氣中和水中的質量計算蘋果的密度值。利用光譜儀(Maya200 Pro型,Ocean Optics,美國),有效波長范圍200~1 100 nm,分辨率0.48 nm和光源(HL-2000型,Ocean Optics,美國),波長響應范圍360~2 400 nm,額定功率28.8 W搭建漫反射光譜數據采集平臺。

a-空氣中;b-水中圖1 密度儀及密度數據獲取Fig.1 Density meter and histogram of density data distribution
搭建的漫反射光譜數據采集平臺如圖2所示,在光譜信息采集軟件上對光譜儀參數進行設置:積分時間為10 ms,光譜平均次數為5次,并選擇啟用暗噪聲校正、非線性校正。樣本為沿軸向放置,使其赤道部位與檢測探頭方向垂直,并沿軸向轉動,每隔120°采集1次光譜信息,共采集3組光譜信息,以3組光譜的平均光譜作為該樣本的漫反射光譜。光源發出的光經光纖傳輸至檢測探頭并垂直照射至樣品表面,反射光經光纖傳回光譜儀,光譜儀對反射光進行采樣并將采樣信息傳回至計算機,計算機對采樣信息進行保存和分析。

圖2 光譜數據采集平臺Fig.2 Spectral data acquisition platform
1.3.1 數據預處理與樣本集劃分
由于獲取的光譜數據不僅包含被測樣品的成分信息,還含有各種噪聲等無關信息,為減弱甚至消除各種噪聲對檢測信號的影響,需要在分析數據前對其進行預處理[16]。本文采用標準正態變量變換(standard normal variable transformation,SNV)方法來消除粒徑、表面散射和光程變化對光譜的影響,提高模型預測能力。
采用Kennard-Stone(KS)算法實現樣本集劃分。KS算法通過計算樣本之間的歐幾里得距離實現對樣本集的劃分[17],該方法可保證訓練集中樣本按歐式距離均勻分布,從而保證訓練模型更能代表整個數據集。
1.3.2 特征波長提取
利用競爭性自適應重加權采樣法(competitive adaptive reweighted sampling,CARS)與連續投影算法(successive projection algorithm,SPA)相結合提取特征波長。CARS算法[18]根據進化論適者生存理論,挑選出PLS回歸模型中權值較大的波長點,再利用交互驗證方式選出使均方根誤差達到最小的變量集作為提取出的特征波長集合。SPA算法[19]能夠去除數據集中的冗余變量,最小化變量之間的共線性,減少建模所用變量數量,從而提升建模的速度和效率。本文首先利用CARS算法對特征波長進行粗略提取,再利用SPA算法對由CARS算法得到的特征波長進行進一步提取,使數據壓縮率達到最高。
1.3.3 建模方法
采用偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)、Fisher判別、支持向量機(support vector machine,SVM)和最小二乘支持向量機(least squares support vector machine,LS-SVM)4種方法建立霉心病判別模型。
PLS-DA是多元數據分析技術中的一種用于類別判別的分析方法,其通過適當旋轉主成分,有效區分組間觀測值,找出導致組間差異的影響變量。
Fisher判別是一種基于方差分析思想的線性判斷法,它能將高維空間的點投影至低維空間,能更好地區分每一個總體。在進行Fisher判別時需要計算在投影空間上的分割閾值y0,本文通過公式(1)求出Fisher模型的分割閾值:
(1)

SVM[20]是一種基于機器學習理論來最大限度地提高其預測精度,同時避免對數據的過度擬合的分類和回歸預測工具。SVM判別函數見公式(2):
(2)

LS-SVM[21]是對標準SVM的改進。LS-SVM與SVM的不同之處在于:LS-SVM將SVM中的凸二次優化問題轉變為求解線性方程組問題,方便了拉格朗日乘子α的求解,提升了模型求解速度。
1.3.4 模型評價指標
以健康蘋果正確判別率、霉心病蘋果正確判別率和總體正確判別率作為模型主要評價指標,對模型進行綜合評價。
所有數據處理操作均基于MATLAB 2018b軟件,其中PLS-DA采用libPLS_1.98工具箱,Fisher采用MATLAB軟件自帶的相關判別函數,SVM采用libsvm-3.23工具箱,LS-SVM采用lssvm-labv1.8工具箱。
對獲得的密度數據進行正態分布檢驗,以確定其可用于進一步分析。檢驗結果如圖3所示,本實驗所采集的密度數據基本符合正態分布特性,具有統計分析意義。霉心病蘋果密度整體低于健康蘋果密度,說明密度可作為判別蘋果是否患霉心病的依據之一,這與前人研究結論一致[2,7,15]。

圖3 密度數據正太分布檢驗Fig.3 Test for normal distribution of density data
原始光譜見圖4-a,采用SNV對光譜進行預處理,結果如圖4-b所示。經過處理后,光譜之間趨于緊密化,使樣本性質相同的波長點更加趨于一致,性質不同的光譜之間的差異增大。

a-原始光譜;b-經過SNV算法預處理的光譜圖4 原始光譜和經過SNV算法預處理的光譜Fig.4 Original spectra and spectra pretreated by SNV
首先將樣本劃分為健康樣本集和霉心病樣本集,其中健康樣本集共117個樣本,霉心病樣本集共78個樣本,比例為3∶2。之后對2個樣本集分別采用KS算法,為保證訓練集和測試集的健康蘋果和霉心病蘋果比例與整體比例保持一致,在基本符合訓練集和測試集樣本比例約為3∶1的前提下,取經KS劃分后健康樣本集的前90個樣本和霉心病樣本集的前60個樣本合并作為訓練集,共150個樣本,將剩余樣本合并作為測試集,其中健康樣本27個,霉心病樣本18個,共計45個。
通過對CARS算法設置交互驗證次數10次、聚類數25次,提取到特征波長9個,考慮到CARS提取的部分波長點之間較為接近,依然存在冗余,因此利用SPA對其進行二次特征提取,最終得到特征波長5個,僅占全光譜的0.3%,圖5為特征波長提取的結果,提取的特征光譜避開了譜線重疊嚴重的區域,有效地反映了霉心病果與健康果的差異信息,為之后建立穩定可靠的霉心病判別模型奠定基礎。

圖5 特征波長分布及霉心病果與健康果特征光譜對比Fig.5 Distribution of feature wavelengths, comparison of feature spectra of moldy core apple and healthy apple
將提取到的特征波長(394、422、448、474、541 nm)處對應的光譜數據與密度數據合并作為模型因子用于模型的建立,同時分別僅以密度、特征光譜數據作為模型因子建立模型與前者進行對比,分析融合密度因子對模型的影響。
2.4.1 模型參數的選擇與設定
建模時需要對各模型參數進行合理設定,以使模型效果達到最優。利用PLS-DA進行建模時,需要合理選擇主因子數量,防止模型“過擬合”或“欠擬合”的產生,本文通過交互驗證方式求取最佳主因子數;通過公式(1)求取Fisher模型的分割閾值y0;SVM模型類型選擇C-SVC型,并選擇高斯核作為SVM模型的核函數,同時采用網格搜索法對SVM模型懲罰因子C、核函數參數g進行尋優,圖6為SVM參數尋優過程圖;同樣選取高斯核作為LS-SVM模型的核函數,并采用工具箱自帶的優化函數對模型參數(正則參數γ、平方帶寬σ2)進行優化。各模型求得的最優參數如表1所示。

圖6 SVM參數尋優過程Fig.6 SVM parameter optimization process

表1 各模型最優參數Table 1 Optimal parameters for each model
2.4.2 模型驗證
為檢驗各模型的效果,將測試集的45個樣本數據代入各模型,各模型的判別結果如表2所示。以密度+光譜作為模型因子的模型判別率均高于分別以密度、光譜作為模型因子的模型判別率,且以密度+光譜作為因子的4個模型對健康蘋果的正確判別率均為100.00%,僅將個別霉心病蘋果錯誤分類,其中,SVM總體判別率和霉心病蘋果判別率均最高,分別為95.56%和88.89%,分類效果最好,對霉心病蘋果的識別效果也最佳,PLS-DA、Fisher與LS-SVM總體判別率與霉心病蘋果判別率均持平,分別為93.33%和83.33%。圖7為SVM分類效果及判錯樣本,模型僅將2個霉心病蘋果誤判為健康蘋果,分類效果良好。

表2 各模型判別結果Table 2 Discriminant result of each model

圖7 SVM分類效果及判錯樣本圖Fig.7 SVM classification effect and judgment error sample
2.4.3 討論
霉心病發病后,果實的化學成分及其含量可能發生變化,漫反射檢測到這種變化,進而判別出蘋果是否患病。結合圖5可看出,霉心病蘋果與健康蘋果在波長394、422、448、474、541 nm處光譜差異較大,以上5個特征波長均在可見光范圍內,而可見光常用于顏色評估和色素分析[22]。隨著霉心病病害程度的增加,蘋果表皮中葉綠素a、葉綠素b和類胡蘿卜素含量逐漸降低[23],黃酮素和花青素含量逐漸升高,蘋果表皮顏色變黃,說明漫反射光譜可能通過獲取蘋果表皮顏色和色素信息進行霉心病判別。
另外,發病程度不同的霉心病蘋果密度范圍不同,且密度從健康果到重度果依次減小[15],因此,將這種差異作為霉心病判別依據之一具有理論可行性,經實驗證明此方法對于提高漫反射光譜的霉心病判別率具有積極作用,但仍存在個別霉心病蘋果被誤判的現象。通過分析,認為原因主要在以下兩點:(1)樣本發病程度較為輕微,表皮色差、密度變化均不明顯;(2)密度測量原理為排水法,方法本身存在一定程度誤差,此誤差覆蓋了樣本的密度特征。由圖7中4個模型均判錯的85號樣本和96號樣本,兩樣本發病面積均不足10%,與健康蘋果的光譜和密度值沒有顯著性差異,從而導致模型出現誤判。
本文所建立的融合密度與光譜的模型判別準確率較優于文獻[13]中僅基于漫反射光譜的模型判別率,并可以達到部分基于透射光譜建立的霉心病判別模型效果,但與雷雨等[12]建立的模型判別率(96.7%)仍存在一定差距,說明融合密度因子對漫反射模型判別率有一定的提升作用但可能也受到蘋果內部品質如糖度、硬度、酸度等因素影響,后期要繼續提高漫反射模型判別率可以考慮如何消除這些因素的影響。
基于漫反射檢測原理建立了融合密度特征的蘋果霉心病理論判別模型,若基于此模型開發蘋果霉心病無損檢測設備,可有效避免透射無損檢測設備中檢測結果受果徑影響、設備體積較大、不易攜帶、檢測能耗高等問題,因此,此模型對實現蘋果霉心病無損、快速、便捷檢測具有重要意義,同時為實現蘋果內部病害和品質一體化無損檢測提供了可能。然而,本文采用排水法原理測定蘋果密度數據,測定過程較為復雜耗時,后期欲開發基于此模型的無損檢測設備的學者可考慮利用近紅外光譜對物質化學特性和物理特性的良好預測能力,探索光譜與蘋果密度之間的關系,建立光譜-密度預測模型,將預測出的密度值與特征光譜融合后用于蘋果患霉心病的判別。
針對漫反射光譜對蘋果霉心病判別率較低的問題,提出一種融合密度特征與漫反射光譜的無損檢測方法,運用CARS與SPA組合提取到漫反射光譜中可以區分霉心病蘋果與健康蘋果的5個特征光譜,僅占全光譜的0.3%,有效減少建模變量的維度。融合密度與特征光譜分別建立PLS-DA、Fisher、SVM和LS-SVM判別模型,同時僅基于密度、特征光譜分別建立同種模型做對比。結果表明,融合密度與特征光譜的模型判別率普遍高于僅基于密度、特征光譜的模型判別率,說明融合密度特征可以提高漫反射光譜判別霉心病的準確率。4個模型中,以密度+光譜作為因子的SVM模型分類效果最好,較僅基于密度特征的模型測試集判別率提高13.34%,較未融合密度特征的漫反射特征光譜模型測試集判別率提高4.45%。綜上,將密度特征與漫反射光譜融合用于判別霉心病的方法可行,相比于僅基于密度或漫反射光譜的霉心病判別效果有所提高,并為開發基于漫反射檢測原理的蘋果內部病害與品質一體化無損檢測設備提供了理論基礎。