孫鈺瑩, 章 銀, 沈 飛, 李光磊, 邢常瑞, 袁 建
(南京財經大學食品科學與工程學院;江蘇省現代糧食流通與安全協同創新中心; 江蘇高校糧油質量安全控制及深加工重點實驗室,南京 210023)
小麥是我國重要的糧食作物之一,產量僅次于水稻,位居第二位,是中國主要糧食作物之一[1],具有種皮薄、組織結構疏松和儲藏性好的特點[2],是一種重要的儲備糧。但由于小麥在收儲運過程中抗霉性差,容易受到外界環境的影響,發生理化性質的改變,出現發熱霉變等現象[3,4],影響農業生產和糧食安全。傳統的小麥霉變檢測方法有平板計數法、酶聯免疫法、熒光染色法和液相色譜-高分辨質譜法等。這些檢測方法雖然準確性高、特異性強,但前處理時間長,操作復雜。因此,需要尋找一種快速無損的小麥霉變檢測方法。
高光譜成像技術結合了成像和光譜分析的技術特點,獲取的信息囊括了光譜以及其二維空間的分布信息,相比傳統的單一波段光電探測技術,它能夠提供更加豐富的目標信息[5]。目前國內外已有文獻報道關于利用高光譜成像技術鑒別品種的可行性,如Willams等[6]利用圖譜結合的方法,先對高光譜圖像進行主成分分析,在主成分的得分散點圖中根據感染霉菌的玉米籽粒像素和健康玉米籽粒像素形成的不同聚類,識別出受鐮刀菌污染的玉米籽粒;龔中良等[7]利用高光譜成像技術快速無損鑒別不同霉變程度的秈稻;張楠楠等[8]利用高光譜圖像技術對霉變玉米籽粒進行檢測,其正確檢出率為93.75%。這些研究表明高光譜成像技術可以用于糧食霉變籽粒的鑒別。
因此,本實驗擬通過可見光-高光譜成像系統獲得不同品種小麥樣品的高光譜圖像。通過不同的光譜預處理方法建立不同的預測模型,選出最優光譜信息預處理方法。同時,采用連續投影算法(SPA)和競爭性自適應重加權采樣(competitive adaptive reweighted sampling,CARS)提取特征波長,基于支持向量機(SVM)算法建立小麥霉變籽粒鑒別模型,為實際應用提供參考。
選取白麥(淮麥22)和紅麥(寧麥13)為研究對象。兩類小麥樣品均為2020年市場采購的新收獲小麥。
高光譜成像的采集設備采用推掃式高光譜影像系統,采集軟件為HSI Analyzer。該系統主要由4個部分組成:光源、光譜相機、電動移動平臺和計算機[9]。
選擇每個樣品的整個區域作為感興趣區域(Region of interest,ROI)進行數據分析,通過計算ROI內所有像素的平均反射率來獲得每個樣本的平均光譜數據。為了減小相機、傳感器暗電流和光強變化對圖像信號的影響,在進行數據分析之前,需要對數據進行黑白校正[10]。將采集的原始圖像信息(Isample)、黑色背景信息(Idark)、白色背景信息(Iwhite)根據式(1)進行黑白校正,R為黑白校正后所得圖像。
(1)
其中黑背景數據采集時用鏡頭蓋將相機鏡頭蓋上。白板背景采集是將反射率約99%的標準白色校正板放置在與樣本平齊的位置進行采集,保證采集狀態與樣品保持一致。
1.4.1 光譜預處理方法
對待測樣品的光譜信息進行預處理能夠減少基線漂移現象的影響,同時也可以提升預測模型的準確性和穩定性[11]。本實驗所用到的預處理方法有多元散射校正法(multiplicative scatter correction,MSC)[12]、變量標準化法(standard normalize variate,SNV)[13]、正交信號校正(orthogonal signal correction,OSC)[14]和一階導數法(First derivative)[15]。
1.4.2 特征波長的選取
本實驗中共有558個波段,其中很多光譜波段帶有大量冗余的信息,從而導致算法性能下降[16]。因此,高光譜原始數據特征波長的提取是建立快速、精確檢測模型必不可少的步驟。故采用連續投影算法(successive project algorithm,SPA)[17]和競爭性自適應重加權算法(competitive adaptive reweighted sampling,CARS)[18],篩選特征變量,確定最優的變量選擇方法。
采集到的原始高光譜信息的光譜范圍為383~1 011 nm。由于前后波段的光譜信噪比較低,需要消除383~400、1 000~1 011 nm的首尾噪聲,最終在400~1 000 nm范圍內獲得了558個波長信息的平均光譜用于進一步分析,得到如圖1所示的不同小麥品種健康籽粒與霉變籽粒的平均光譜反射率。
從圖1可以看出,不同品種小麥樣品的平均光譜曲線的趨勢是相似的,兩者均隨波長的增加呈拋物線趨勢,在400~1 000 nm的光譜區間,霉變組樣品的平均光譜反射率低于健康組樣品的,說明霉變導致籽粒褐變,使籽粒相對吸光度增大[19]。對于不同品種的小麥樣品來說,隨著波長的增加,光譜反射率呈現先上升后下降的趨勢,在400~1 000 nm波段之間的光譜反射率差異明顯,可以用來區分不同品種小麥樣品的健康籽粒和霉變籽粒。


圖1 平均反射光譜曲線
將樣品進行分組,按照3∶1的原則將200個小麥樣品隨機分為建模集和預測集,建模集150個樣品,預測集50個樣品。
由于提取的原始光譜中包含了較多噪聲,本實驗分別釆用MSC、SNV、OSC和一階導數(FD)預處理方法。基于原始平均光譜及不同預處理方法后的平均光譜建立的小麥霉變籽粒全波段鑒別模型的預測結果如表1所示。
模型的預測準確性受到光譜預處理的直接影響,不同的預處理方法對模型的預測效果有不同程度的影響,所以在建立模型中沒有統一的最優預處理方法。MSC和OSC 2種預處理方法都能有效提高預測模型的準確性,而原始光譜經過SNV和FD預處理方法處理后RMSECV有所升高。這是由于在對原始光譜進行預處理時,可能會引入其他噪聲或者放大原有的噪聲,從而降低光譜的信噪比,導致模型的預測準確度降低。
在白麥(淮麥22)樣品中基于SNV-PLS-DA處理的模型RMSECV最小,即SNV-PLS-DA為白麥(淮麥22)樣品霉變籽粒全波段鑒別預測模型的相對最優預處理方法,但是本實驗中經SNV-SVM處理的模型RMSECV并不是SVM組里最小的,說明建模方法的選擇會影響最優預處理方法的選擇。但是在紅麥(寧麥13)樣品中基于OSC-PLS-DA和OSC-SVM處理的模型RMSECV都是組里最小值,分別為0.219 5和0.014 4,說明OSC預處理方法為紅麥(寧麥13)樣品霉變籽粒全波段鑒別預測模型的相對最優預處理方法。


表1 不同光譜預處理方法小麥霉變籽粒鑒別模型預測結果
利用全波段光譜建立的小麥霉變籽粒鑒別模型雖然有較高的模型準確性,但存在建模變量數過多、信息冗余和數據共線性等缺點[21],導致建模效率降低。因此對全波段光譜進行特征波長的提取,篩選出光譜中的有效波段信息,從而提高模型的運算速度和準確性。為研究小麥霉變籽粒鑒別模型對應的特征光譜波長,對全部樣品進行特征波長的提取。經過預實驗的比較,選用SPA和CARS算法進行特征波長的提取。SPA是一種采用前向選取方法的算法[22],能夠從光譜變量中找出信息量最少的波長,以解決變量之間的共線問題。CARS方法是一種用于變量篩選的方法,篩選出最優變量,提高模型預測能力[23]。不同特征波長的提取方法如圖2和圖3所示,表2列出了在400~1 000 nm波段基于兩種算法提取的特征波長。
從圖2a和圖2b可以看出,在SPA特征波長提取方法中,隨著特征波長數目的增加,均方根誤差(RMSE)減小,當模型中包含的變量個數為7和8時,RMSE開始緩慢變化,當變量個數增加至9時RMSE取得最小值0.142 8和0.131 9。依據RMSE越小,模型效果越好的原則選擇如圖2c和圖2d所示的9個特征波長。由表2可知,利用SPA方法提取的不同小麥樣品的特征波長,除了兩者在999.06 nm處有波長重合外,其余波長均可作為不同小麥樣品的特征波長。

表2 不同方法挑選的特征波長


圖2 SPA特征波長提取方法
CARS算法的運行結果如圖3所示。隨著抽樣次數的增加,抽樣變異數逐漸減少,變異數與抽樣次數之間呈現指數關系遞減,與陳華舟等[24]的研究結果相似。同時,隨著抽樣次數的增加,RMSECV也逐漸減少,表明光譜數據中部分無用的信息被剔除,當抽樣次數為31時達到最小值,之后趨于平緩。每個選定點的回歸系數趨勢從20次迭代之后開始發散。最后,確定了4個關鍵波長,如表2所示。基于此特征波長建模可以簡化建模所需數據,提高模型運算效率。



圖3 CARS特征波長提取方法
為了比較所選特征波長的有用性,將得到的特征波長分別作為變量建立小麥霉變籽粒的OSC-SVM鑒別模型。在建模過程中,按照3∶1的原則將200個小麥樣品隨機分為建模集和預測集,建模集150個樣品,預測集50個樣品。模型鑒別效果如表3所示。

對2種不同品種的小麥樣品建立霉變籽粒鑒別模型,將所有樣品籽粒帶入模型中,利用混淆矩陣分析分類結果,結果如表4所示,對于不同品種的小麥樣品,霉變籽粒鑒別模型的準確率均達到99%,Kappa系數為0.960 0,表明所建立的小麥霉變籽粒鑒別模型的預測結果與實際分類結果相一致,說明基于高光譜成像技術進行小麥霉變籽粒鑒別是可行和有效的。
另外,為驗證所建模型的穩定性,在白麥與紅麥2個品種中分別重新挑選35粒健康籽粒與15粒霉變籽粒放于培養皿中,采集其高光譜圖像作為獨立驗證集。將獨立驗證集帶入所建模型中,在白麥中有1個健康籽粒誤判;紅麥中有1個健康籽粒誤判,總體來說模型對每個品種籽粒中的霉變籽粒的均有較好的判別效果。

表3 基于特征波長的霉變籽粒鑒別效果

表4 霉變籽粒鑒別結果的混淆矩陣
