楊 東,王舒卉,吳建華,姜俊伊,宋 凱,石天玉
(國家糧食和物資儲備局科學研究院糧食儲運國家工程研究中心1,北京 100037) (沈陽理工大學2,沈陽 110159)
玉米霉變籽粒是指玉米表面發霉,且傷及玉米胚部和胚乳致其變色變味,無食用價值的玉米顆粒。它會侵染健康的玉米籽粒,給農民造成嚴重的經濟損失,如不小心食用還會危害身體健康。因此,檢驗玉米霉變籽粒是一項非常重要的工作,我國一直使用傳統的質檢方法,即專業質檢員隨機抽取100 g玉米籽粒樣品,肉眼判斷玉米籽粒是否發生霉變,若一份樣品中的霉變籽粒個數占比少于2%,則認為該份樣品是合格品。使用該方法判定樣品是否合格存在一定滯后性,而且人工檢測對于質檢員要求較高,長時間工作難免出現誤檢。因此,我國急需研發一種快速準確的玉米籽粒檢測裝置,提高糧食檢測效率,同時也能對糧食行業的發展起到一定的促進作用。
國外已有將高光譜成像技術[1](HSI)應用于農作物病變檢測的研究,Mahlein等[2]利用HSI分別對甜菜褐斑病、白粉病和葉銹病的不同發育階段葉片特征和光譜反射率進行研究,研究結果表明病原菌對葉片反射率的影響與病害發展階段和癥狀有關。Williams等[3]利用HSI探究感染輪狀鐮刀菌的玉米籽粒表面受真菌侵染的變化程度與真菌活性之間的關系,研究結果表明真菌引起了玉米籽粒中淀粉和蛋白質的變化,進而導致玉米表面出現變化。Daniel等[4]利用HSI對不同地區的玉米籽粒表面黃曲霉毒素進行分類,研究結果表明玉米籽粒品種的差異對分類沒有影響,且玉米霉變籽粒的分類準確率可達96%。Gonzalez等[5]利用HSI對受二斑葉螨侵害的柑橘葉片進行檢測,識別準確率可達92.5%,未受侵染的葉片均被正確識別。
國內相關研究也陸續開展。孫鈺瑩等[6]利用HSI識別小麥霉變籽粒,并確定預測小麥霉變粒最優模型為SPA-OSC-SVM。袁瑞瑞等[7]利用HSI對損傷長棗進行分類,對比了不同預處理方法和不同分類器下的模型識別準確率,最終確定偏最小二乘判別分析的模型是最優的分類模型。陳子涵等[8]利用HSI識別雙孢蘑菇早期病害,確定最優識別模型為MSC-DT-ELM,其測試集和預測集識別準確率分別為92.39%和91.32%。康麗等[9]利用HSI檢測水稻早期稻瘟病害,確定最優識別模型為CARS-PCA-SVM,其對各等級樣本識別準確率均高于94.29%。
HSI在農作物的無損檢測方面具有一定潛力,可以為農作物病害早期防治、精準施藥及檢測儀器開發提供理論依據。但多數研究都僅針對樣品整體進行特征提取,沒有針對某一特征最顯著的區域進行分析探究。基于此,本實驗運用HSI結合機器學習算法,針對玉米籽粒胚部進行感興趣區域劃分、特征提取、模型構建,開展玉米籽粒早期霉變快速識別方法的研究。
實驗中的玉米籽粒樣品由地方糧庫提供,同時依據LS/T 6132—2018《糧油檢驗儲糧真菌的檢測孢子計數法》測定其真菌孢子數量,以真菌孢子實測值為基準將玉米籽粒霉變等級劃分為4個等級,即等級1、等級2、等級3和等級4,分別對應玉米安全籽粒(孢子數<1.0×105)、輕度霉變籽粒(1.0×105<孢子數 <9.9×105)、中度霉變籽粒(1.0×106<孢子數<9.9×106)和重度霉變籽粒(孢子數>1.0×107)。經數據統計,共有285個符合標準的玉米籽粒樣品,其中,72個樣本被劃分為等級1;66個樣本被劃分為等級2;剩余75個和72個樣本被分別劃分為等級3和等級4。隨機選取2/3的樣品(190個)作為訓練集,剩下1/3的樣品(95個)作為測試集,進行分類建模研究。

圖1 高光譜成像系統
實驗中所使用的高光譜成像采集系統設備如圖1所示。其主要由精密步進電機(EZHR17EN),1套150 W3900-ER穩定輸出鹵素燈光源,ImSpector V10E-QE成像光譜儀,Andor Luca DL-604M面陣EMCCD相機和1臺Dell E6520計算機組成[10],各部件均放置在暗箱中,避免外部因素影響實驗結果。
在進行高光譜圖像采集前,需要對儀器進行校正,去除噪聲、電流等因素對玉米籽粒圖像的影響[11]。首先采集黑、白板圖像各1組,分別記為Rw和Rd,其次運用式(1)對采集到的圖像進行校正。
(1)
式中:RC為校正后的玉米籽粒高光譜圖像;Ri為玉米籽粒原始光譜圖像。
玉米籽粒圖像采集主要依靠Spectral Image-VNIR軟件。在軟件中設置相機曝光時間為6 ms、位移平臺速度為1.2 mm/s,將預先準備好的玉米籽粒樣品放置在高光譜成像儀的位移平臺上,掃描得到實驗所需的樣品圖像。
以單個玉米籽粒為例進行說明,首先從圖2a中分別選擇反射強度較高和較低的2幅單一波段圖像(715 nm和517 nm)進行差運算形成灰度圖,見圖2b,經過二值化處理后得到掩膜圖像(圖2c),圖2a和圖2c進行掩膜處理后得到去除背景的玉米籽粒圖像(圖2d),接著對該圖像做主成分分析,選取其中最能體現玉米籽粒胚部和其他部分差異的圖像,即PC1和PC2(圖2e),對這2幅圖像中的像素點進行分類,生成散點圖(如圖2f所示),使用淺色和深色分別表示玉米胚部和其他部分,具有相似光譜特性的像素點會聚集在某個區域,自動形成一類(圖2g),再分別提取2個區域中的平均光譜,如圖2h所示,玉米胚部光譜數據呈較穩定的上升趨勢,在950~1 000 nm區間內略有下降,玉米籽粒健康部分也呈上升趨勢,在0~500 nm和550~880 nm區間內上升幅度較緩,在500~550 nm區間上升幅度最快,在880~1 000 nm區間內呈下降趨勢。在0~515 nm區間內,玉米胚部的平均光譜數據略高于玉米籽粒健康部分,在515~1 000 nm區間內兩者差距較大。這些差異可能是由于霉菌侵入玉米籽粒胚部后,將其營養物質吸收轉化,改變了原有的內部成分。因此,通過分析可再次使用掩膜,將玉米籽粒的胚部單獨提取出來,用于后續圖像特征提取及挖掘。

圖2 玉米籽粒圖像預處理
使用高光譜成像系統采集的玉米籽粒光譜數據是1個立方體,其上波段數目眾多,信息量龐大,數據之間存在大量冗余,不但會降低計算機的運行效率,還會使模型精度不佳[12]。因此,在進行光譜特征提取前需要對原始數據進行降維,這樣能在最大程度保留原始信息的同時降低數據量,提高建模效率。本文選取主成分分析[13](PCA)的方式對光譜數據進行降維,PCA是一種常見的數據降維方法,它是將原始變量進行排列組合,生成一組互不相關的變量,該方法不但能解決數據量過多的問題,還能簡化計算,減少模型運算時間。然后使用隨機蛙跳[14](RF)算法對降維后的光譜數據進行特征提取,優選出能表征玉米籽粒光譜特征的最佳波長,建立最優識別模型。
因玉米籽粒受霉菌侵染后表面會出現發黑發暗的現象,進而影響其表面紋理的分布狀況,故本文分別提取玉米籽粒圖像的顏色特征和紋理特征用于模型建立。顏色特征采用顏色矩[15]的方式進行提取,由于圖像中的顏色信息通常都集中在低階矩中,因此只需提取圖像的一階矩、二階矩和三階矩就足以表達一幅圖像中的顏色分布。紋理特征采用Tamura算法[16]進行提取,分別提取圖像的粗糙度、線性度和對比度進行紋理特征表達。
本研究分別采用支持向量機[17](SVM)、極限學習機[18](ELM)和偏最小二乘回歸[19](PLSR)3種算法探究能夠識別不同等級玉米籽粒的最優模型。模型評價準則為混淆矩陣法,即通過模型識別準確率Acc的高低來判定模型的優劣,混淆矩陣分類結果如表1所示。

表1 混淆矩陣分類結果
表中,TP為真正例,即真樣本被判別為真樣本的數量;FN為假反例,即真樣本被判別為假樣本的數量;FP為假正例,即假樣本被判別為真樣本是數量;TN為真反例,即假樣本被判別為假樣本數量。則Acc的計算公式見式(2)。
(2)
在本實驗中,選取400~1 000 nm范圍內的玉米籽粒光譜數據進行分析,如圖3所示,其上共有824條光譜數據曲線,光譜曲線整體走勢趨于一致,無明顯差異。在400~500 nm和500~900 nm范圍內光譜反射強度呈上升趨勢,在500 nm處左右出現光譜反射率低谷,在900~1 000 nm范圍內呈略下降趨勢。但不同等級玉米籽粒的平均光譜數據存在顯著差別,如圖4所示,隨著玉米籽粒霉變程度的增加,光譜反射強度逐漸減小,由此可知,受霉菌侵染的玉米籽粒對光的吸收能力有所增強。除此之外,400~600 nm范圍內的光譜反射率較低,可能與玉米籽粒中的色素對光的高強度吸收有關,在500 nm出現的低谷可能與玉米籽粒的顏色變化有關。

圖3 玉米籽粒原始光譜數據

圖4 不同等級玉米籽粒平均光譜數據
利用RF算法優選出的特征波長變量結果為428、444、454、469、477、488、520、545、576、579、716、907、913、924、949、960、976 nm。將被選擇頻次設置為20,如圖5所示,17個特征波長集中分布在400~1 000 nm波段兩端,其中454、469、576、716、913、924、960 nm處7個特征波長被選擇的概率較高,作為優選的特征變量。

圖5 RF算法中特征波長被選擇的頻次
基于2.2中提取出的7個特征波長變量所對應的玉米籽粒圖像,分別使用顏色矩和Tamura算法提取每幅圖像的顏色特征和紋理特征。其結果如表2、表3所示。不同等級玉米籽粒在顏色特征值上均存在差異。安全籽粒的一階矩明顯高于霉變籽粒;二階矩和三階矩明顯低于霉變籽粒。而不同等級玉米籽粒在紋理特征值上也存在差異。安全籽粒在粗糙度和線性度上明顯低于霉變籽粒,而在對比度上則明顯高于霉變籽粒,由此可知,圖像顏色特征和紋理特征可作為區分不同等級玉米籽粒的依據。

表2 不同等級玉米籽粒顏色特征值統計

表3 不同等級玉米籽粒紋理特征值統計
2.4.1 基于光譜全波段的玉米籽粒鑒別
基于原始全波段光譜數據(824個),結合SVM、ELM和PLSR 3種分類器分別建立不同等級玉米籽粒識別模型,其結果如表4所示。基于原始光譜波段所建模型Acc均不理想,其中結合ELM算法所建模型精度最高,其訓練集和測試集Acc分別為84.73%和83.15%,結合SVM和PLSR算法所建模型Acc均未達到80%,模型精度有待提高。
2.4.2 基于特征波段的玉米籽粒鑒別
利用RF算法提取出的7個特征波長變量,結合SVM、ELM和PLSR算法分別建立RF-SVM、RF-ELM和RF-PLSR模型,用于判別不同等級玉米籽粒霉變程度,其結果如表5所示。
相比于全波段光譜數據所建模型來說,使用7個光譜特征變量所建模型的波段數更少,計算量更小,模型精度反而更高,這說明使用光譜特征建立模型是有效的,可以降低計算難度,提升模型精度。在表5所建立的3個模型中,表現最好的是RF-ELM模型,其訓練集和測試集Acc可以達到91.05%和89.47%,模型精度和模型穩定性較好;其次是RF-SVM模型,其訓練集和測試集Acc分別為88.94%和85.26%,模型精度和模型穩定性均不如RF-ELM模型;表現最不理想的是RF-PLSR模型,其訓練集和測試集Acc均未達到84.00%,模型精度較差。
2.4.3 基于圖像特征的玉米籽粒鑒別
針對提取出的7個光譜特征變量,找到每個變量所對應的玉米籽粒圖像,在每幅圖像中提取3個顏色特征(即一階矩、二階矩和三階矩)和3個紋理特征(即粗糙度、線性度和對比度),即共有42個圖像特征變量,并結合SVM、ELM和PLSR算法分別建立不同等級玉米籽粒分類模型,其結果如表6所示。
從總體上看,結合圖像特征所建立的不同等級玉米籽粒分類模型識別結果并不理想,各模型訓練集和測試集的Acc均低于90.00%。其中,識別效果最佳的模型為結合ELM算法的分類模型,相比于結合SVM和PLSR算法的模型來說,其精度較高,訓練集和測試集的Acc分別可達88.42%和87.36%。相較于原始光譜數據所建模型,結合圖像特征所建模型的Acc均有所提升,說明利用圖像特征識別不同等級玉米籽粒是可行的,可以在一定程度上提升模型精度。而相較于光譜特征所建模型,利用圖像特征所建模型的Acc效果不及前者,這可能是由于圖像特征主要表征玉米籽粒的外部特性,而光譜特征可以深入探究玉米籽粒內部成分的變化,對比兩者結果可得,使用內部特征所建模型要優于使用外部特征所建模型。

表4 基于全波段光譜特征的模型識別結果

表5 基于特征波段的模型識別結果
2.4.4 基于圖像特征和光譜特征的玉米籽粒鑒別
基于提取的圖像特征和光譜特征,結合SVM、ELM和PLSR算法,分別建立不同等級玉米籽粒的識別模型,其結果如表7所示。結合圖像特征和光譜特征所建的模型相較于只結合圖像特征或光譜特征其中之一的模型識別精度都要高。其中,表現最好的模型是ELM模型,其訓練集和測試集的Acc均超過了93.00%,分別為94.21%和93.68%,模型精度達到預期,模型穩定性較好;其次是SVM模型,其訓練集和測試集的Acc分別為91.57%和89.47%,模型精度和模型穩定性還有一定上升空間,PLSR模型Acc有所提高,但依然比不上另外2個模型。因此,本研究選用結合圖像特征和光譜特征的ELM模型作為識別不同等級玉米籽粒的最佳模型。
為了便于區分和觀察玉米籽粒的健康部分和霉變部分,本文分別基于像素級和對象級對玉米籽粒不同霉變程度進行可視化表達,利用偽彩色表示不同等級玉米籽粒的霉變程度,即深藍色表示等級1,綠色表示等級2,紅色表示等級3,淺藍色表示等級4。并利用最優模型預測玉米籽粒圖像上各個像素點,預測結果如圖7所示。從玉米籽粒原始圖像中可以看出,隨著玉米籽粒霉變程度的加深,玉米籽粒表面的反射強度越來越弱,圖像整體變暗。在像素級的可視化圖像中,有部分像素點被誤判為其他等級,例如在等級2(綠色)中存在等級1(深藍色)和等級3(紅色),在等級3中存在等級2和等級4(淺藍色),在等級4中存在等級3。在對象級的可視化圖像中同樣也存在誤判的現象,例如將等級2識別為等級1和等級3,將等級3識別為等級1、等級2和等級3。以上情況說明玉米籽粒在發生霉變的過程中,各個部分的變化程度是不均勻的,但可視化技術可以將抽象的霉變程度轉化為直觀的顏色變化,使對玉米籽粒各個部分是否發生霉變有直接的展示。

表6 基于圖像特征的模型識別結果

表7 光譜信息與圖像特征結合識別結果

注:圖片從上到下分別為原始圖像、像素級可視化分類圖、對象級可視化分類圖。圖7 不同霉變等級玉米籽粒可視化圖像
利用400~1 000 nm的高光譜成像技術分別從光譜信息和圖像信息對不同等級玉米籽粒進行識別檢測,通過研究可得:
通過建立的全波段光譜模型,對各等級玉米籽粒的識別精度在75%~85%范圍內,在一定程度上說明采用高光譜成像技術可以實現對玉米霉變粒的有效檢測,為了提升模型精度,采用RF算法進行波段選擇,通過研究結果可知,利用選擇的7個特征波段建立模型的Acc在82%~92%范圍內,模型精度不夠理想,因此在提取特征波段光譜信息的基礎上,提取波段的圖像信息。采用圖像顏色信息和紋理信息建立鑒別模型,研究結果表明,使用提取的圖像特征建立模型的Acc在82%~89%范圍內,識別精度不如利用特征波段建立的模型。
由于分別采用特征波段的光譜信息和圖像信息的識別精度均不夠理想,因此將光譜信息與圖像信息相結合進行玉米籽粒的鑒別,研究結果可知,結合光譜信息和圖像信息建立的ELM模型識別精度最高,其訓練集和測試集的Acc可達到94.21%和93.86%。因此,本研究中最佳的檢測模型為結合圖像特征的RF-ELM模型。