韓亞芬 趙慶亮 呂程序 楊炳南 曹有福 苑嚴偉
(中國農業機械化科學研究院土壤植物機器系統技術國家重點實驗室, 北京 100083)
馬鈴薯是全球第四大糧食作物,具有豐富的營養價值和商業價值。黑心病等內部缺陷嚴重影響馬鈴薯加工品的品質和原料加工利用率。黑心病馬鈴薯(簡稱黑心病薯)無法從外觀分辨,傳統檢測方法需要進行破壞性檢測,僅適用于抽樣檢查。研究馬鈴薯黑心病快速無損檢測技術對提高馬鈴薯檢測分級效率、促進馬鈴薯產品增值和推動馬鈴薯檢測行業技術進步等方面具有重要意義。
馬鈴薯組織致密、淀粉含量高,導致透光性較差。目前國內外對馬鈴薯內外缺陷的檢測多采用反射高光譜技術,檢測位于外表皮或淺表皮下的瘡痂病[1]、環腐病[2]、黑心病[3]、機械損傷導致的皮下黑斑[4]等,預測集判別正確率分別達95.83%、93.33%、94.44%、93%。反射光譜穿透深度有限,對位于馬鈴薯中心部位的褐變檢測效果較差。同時,高光譜技術計算量大、難以直接應用于在線檢測。
可見-近紅外透射光譜技術穿透力強、模型簡單,在水果內部缺陷檢測方面已取得了廣泛應用。能量譜指通過A/D轉換得到的光譜信號,反映了透射能量強度。采集水果能量譜,通過相關分析獲得與果蔬缺陷相關性高的波長對并建立判別模型,對鴨梨黑心病判別正確率達98.3%[5]。此外,通過光譜特征分析,由特征峰的差值、比值建立判別式也可有效檢測果蔬內部缺陷[6-7]。采集水果吸光度譜,并建立偏最小二乘判別(PLS-DA)模型,可有效識別缺陷、損傷樣本,對碰傷番茄、黑心病馬鈴薯和黑心病鴨梨,判別正確率分別達100%[8]、97.89%[9]和98.58%[10]。采用全光譜建模時,模型復雜、譜峰重疊,冗余信息會降低模型準確性。經競爭性自適應重加權算法(CARS)[11]、連續投影算法(SPA)[12]、遺傳算法(GA)[13]等變量選擇算法優化后,模型變量數大大減少,準確性提升顯著,UVE-CARS[14]、CARS-SPA[14-16]、SPA-GA[17]、CARS-GA[18]等聯合變量選擇與采用單一變量選擇方法相比,模型更加簡單,并且準確性提升。
不同果蔬光學特性具有明顯差異,目前可見近紅外透射光譜技術應用于馬鈴薯無損檢測的深入研究較少。本文設計馬鈴薯黑心病透射光譜檢測裝置,并從吸光度譜和能量譜兩個角度建立馬鈴薯黑心病判別模型,經過變量選擇對模型進行優化,以實現馬鈴薯黑心病快速無損檢測。
將馬鈴薯清洗干凈后晾干,經表面消毒處理后真空包裝,放入38℃培養箱培養48 h,取出后立即放入4℃冰箱冷藏3 d[19],用于黑心病馬鈴薯制備。健康馬鈴薯(簡稱健康薯)、黑心病馬鈴薯縱切剖面圖如圖1所示(實驗所用黑心病薯黑心程度為10%~50%,以黑心面積占截面積百分比計,其中黑心程度10%~20%占46%,黑心程度20%~50%占54%)。
采集7個品種馬鈴薯(中薯19號、中薯26號、川涼薯10號、麗薯18號、鄂14號、云薯109號、青薯9號,由湖北恩施中國南方馬鈴薯研究中心提供),共計534個。其中234個用于健康馬鈴薯光譜采集,300個用于黑心病馬鈴薯制備,最終獲得236個外觀無明顯褐變的黑心病馬鈴薯。
基于自主研發的馬鈴薯內部品質光譜檢測裝置進行光譜數據采集,該裝置由2個50 W鹵素光源、準直光纖、復享PG2000L型光譜儀3部分組成,光譜采集方式為漫透射方式,光源入射方向與出射方向呈120°夾角,檢測波段368~1 039 nm。光源與光纖布置方式如圖2所示。為了盡可能利用馬鈴薯自身遮擋,減少雜散光對光譜采集的影響,將光纖安裝位置設置為馬鈴薯中心向下1/4高度處。光譜采集參數設置:樣品與參比積分時間均為50 ms,平滑寬度為5,平均次數為2。用聚四氟乙烯球(直徑70 mm)采集參比光譜,遮光處理后采集暗光譜,用于樣本吸光度計算。光譜采集過程為在線采集,運行速度為電機轉速560 r/min,檢測馬鈴薯速度約為3.3個/s。
光譜采集前,將馬鈴薯放置室溫(20℃)中平衡24 h,每個馬鈴薯采集1條光譜。共采集470條光譜,其中健康薯234條、黑心病薯236條。分別保存樣本吸光度譜和能量譜用于模型建立及評價(圖3)。采用隨機法按照3∶1的比例,將樣品集劃分為校正集和預測集。校正集包含健康馬鈴薯光譜176條,黑心病馬鈴薯光譜177條,預測集包含健康馬鈴薯光譜58條,黑心病馬鈴薯光譜59條。
1.3.1雙波長相關系數法
分別計算任意波長對組合的差值和比值,并與樣本類別值進行Pearson相關分析,計算決定系數[20-21],并繪制等高線圖,決定系數最高的波長對組合用于模型建立。
1.3.2競爭性自適應重加權算法
CARS算法[22]模仿達爾文進化理論中“適者生存”的原則,將每個波長變量看成一個個體,利用指數衰減函數(Exponentially decreasing function,EDF)和自適應重加權采樣技術(Adaptive reweighted sampling,ARS)結合的方法優選出偏最小二乘法模型中回歸系數絕對值大的變量點,去除權重較小的變量點,從而獲得一系列波長變量子集。對每個波長變量子集采用交互驗證建模,交互驗證均方根誤差最小的子集所包含的變量即為最優變量組合。
1.3.3連續投影算法
SPA[23-25]是一種前向選擇方法,其基本思想是利用向量的投影分析,從光譜信息中充分尋找含有最低限度冗余信息的變量組,使變量間共線性最小化。SPA能夠大大減少建模所用光譜變量數量,最大程度避免信息重復,提高建模的速度和效率[26]。
雙波長相關系數法可選出與黑心病相關性最強的波長對組合。CARS算法可以優選出黑心病判別模型中權重較大的關鍵變量,有利于模型準確度的提高;SPA算法可最大限度減少冗余信息,對模型的簡化效果較好。本文采用雙波長相關系數法優化能量譜判別模型,采用CARS-SPA聯合變量選擇法優化吸光度譜判別模型。
將黑心病馬鈴薯樣本設置為類別1,健康馬鈴薯樣本設置為類別-1,判別閾值為0。原始能量譜經SG(Savitzky-Golay)平滑和SNV(標準正態變量變換)預處理后,采用雙波長相關系數法優選黑心病特征波長對,并建立黑心病線性判別模型(Linear discrimination analysis,LDA)。
吸光度譜去除吸光度譜曲線兩端噪聲較大的部分,在波段500~950 nm范圍內,建立黑心病偏最小二乘-線性判別模型(Partial least squares-linear discriminant analysis,PLS-LDA),以Auto法作為光譜預處理方法,并通過CARS-SPA算法對PLS-LDA模型進行優化。
采用分類正確率(C,%)、靈敏度(Se,%)、特異性指數(Sp,%)、分類器特性(Receiver operating characteristic,ROC)曲線下面積A作為模型性能評價指標[27]。其中分類正確率包括校正集分類正確率Ccal、驗證集分類正確率Cval及總分類正確率C,總分類正確率為校正集分類正確率和驗證集分類正確率的算術平均值。
以上方法均通過Matlab R2016a軟件進行計算。PLS-LDA、LDA算法使用libpls工具包[28]實現。
在波段500~950 nm范圍內,建立吸光度譜全變量黑心病PLS-LDA判別模型(表1),靈敏度和特異性指數分別為98.31%和93.75%,靈敏度和特異性指數又稱為真陽性率和真陰性率,分別代表黑心病薯和健康薯被正確判別的比例,說明模型可以準確地識別黑心病薯,對黑心病薯的錯判率為1.69%,對健康薯的錯判率為6.25%。校正集、驗證集、總體分類正確率分別達96.03%、92.31%、94.17%,說明波段500~950 nm范圍內基于吸光度譜的PLS-LDA模型可以很好地區分黑心病薯和健康薯,但該模型包含1 381個變量,模型運算量大、檢測效率低,不利于在線檢測,需要進一步簡化。

表1 基于吸光度譜的馬鈴薯黑心病PLS-LDA模型優化結果Tab.1 Classification results of optimized PLS-LDA model of blackheart defect based on absorbance spectrum
首先采用CARS算法對黑心病特征變量進行選擇(圖4)。隨采樣次數增加,無關變量被逐步剔除,交互驗證均方根誤差緩慢降低。當剔除關鍵變量時,交互驗證均方根誤差急劇升高,模型效果顯著變差,選擇該轉折點對應的采樣次數35次所得變量子集作為最終變量組合(圖4b)。圖4c藍色星號垂線代表交互驗證均方根誤差最小時,最佳采樣次數對應的變量子集。
在CARS算法中通過35次采樣,共選出14個變量(包括507、608、769、804、849、850、851、864、871、911、915、916、919、933 nm),用于PLS-LDA模型建立(表1)。與原變量PLS-LDA模型相比,經過CARS處理后,光譜變量數減少了99%,模型復雜程度大大降低,同時,模型的總分類正確率達98.30%,與全變量模型相比提高4.13個百分點,說明CARS能夠有效選擇對黑心病判別模型貢獻率最高的關鍵變量。
為了進一步簡化模型,去除冗余變量,對CARS算法優化后的模型進一步進行SPA處理,當變量數為9時,模型預測均方根誤差達到最小值(圖5)。
經過CARS、SPA兩步優化,得到9個可用于馬鈴薯黑心病判別的敏感波長,分別為507、608、769、804、850、911、915、916、919 nm(圖6),與CARS相比,進一步剔除了5個冗余變量。
馬鈴薯黑心病CARS-SPA-PLS-LDA模型判別結果如圖7所示,與全變量模型和CARS-PLS-LDA模型相比,經CARS-SPA聯合篩選后,模型變量數進一步減少,同時,模型準確度進一步提升,校正集、驗證集及總分類正確率分別提高至98.58%、98.29%、98.44%(表1)。
將能量譜368~1 039 nm范圍內2 048個波長變量的能量值兩兩配對分別計算差值和比值,與黑心病進行相關分析,分別將所有波長對組合的比值和差值與黑心病的決定系數繪制成等高線圖(圖8),結果表明,T699/T435(T表示能量,下角標表示波長(單位:nm))在所有波長對比值相關分析中決定系數最高,達0.803 8,T807-T700在所有波長對差值相關分析中決定系數最高,達0.825 5。
分別采用T699/T435和T807-T700建立黑心病線性判別模型,兩模型總分類正確率接近(表2),分別為97.67%和97.49%。同時,T699/T435的靈敏度相對較高,對黑心病的判別正確率更高,由于實際應用中,要求對黑心病薯的誤判率盡可能低,因而T699/T435處理略優于T807-T700,其模型判別結果散點圖如圖9所示。

表2 基于能量譜的馬鈴薯黑心病雙波長相關系數法模型優化結果Tab.2 Classification results of dual-wavelength correlation coeffient of blackheart defect based on energy spectrum
健康果蔬的原始能量譜通常在波長(710±15) nm和810 nm附近有2個吸收峰,并且波長710 nm附近峰值與果蔬病害高度相關,通常能量從小到大依次為黑心病果蔬、健康果蔬、水心(或空心)果蔬[6-7,29-30],而波長810 nm附近病害果蔬與健康果蔬峰值差別不明顯,作為參比波長可消除直徑、表皮粗糙程度等個體差異。因此采用T807-T700判別式可有效識別黑心病,同時消除個體差異影響。而由筆者同期對馬鈴薯干物質和淀粉PLS模型特征變量篩選結果可知,波長699 nm附近與干物質和淀粉含量高度相關(分別為694 nm和696 nm),而波長435 nm附近為葉黃素、β-胡蘿卜素等黃色色素的特征峰[31-32],與薯肉顏色相關。因此由T699/T435建立的黑心病判別式分別代表了黑心病薯內部顏色和營養成分的變化。
將優化后的(T699/T435)-LDA模型載入在線檢測系統,采集未參與建模的20個健康馬鈴薯和20個黑心病馬鈴薯的光譜用于外部驗證(圖10),分別有1個健康薯和1個黑心病薯被誤判,總分類正確率為95.00%,說明基于能量譜可實現馬鈴薯黑心病的在線無損檢測。被誤判黑心病薯黑心程度小于10%,且黑心顏色偏淺,實驗臺黑心程度檢測閾值需通過增大樣本量,進一步實驗驗證確定。
(1)以馬鈴薯黑心病為研究對象,分別從能量譜和吸光度譜兩個角度建立線性判別模型,均可實現黑心病馬鈴薯的快速無損檢測。
(2)采用CARS-SPA算法對吸光度譜模型進行優化,選用9個變量,總分類正確率達98.44%。采用雙波長相關系數法對能量譜模型進行優化,僅使用兩波長的能量比值T699/T435,總分類正確率達97.67%,外部驗證總分類正確率達95.00%。
(3)與吸光度譜模型相比,能量譜模型更簡單、穩定,并且解決了白背景與暗電流2個參比限制的難題,適用性更廣泛。