劉翠玲 胡 瑩 吳靜珠 邢瑞芯 王少敏
(1.北京工商大學計算機與信息工程學院, 北京 100048;2.北京工商大學食品安全大數據技術北京市重點實驗室, 北京 100048)
花生富含大量的蛋白質、脂肪、糖類以及鈣、磷、鐵礦物元素等,可直接食用或者進行烘培等后續加工后食用,已成為人們喜愛的休閑食品;同時花生也是食用油的重要原材料之一,豐厚的營養價值使花生成為人們生活中的必需品[1]。但收獲后的花生在儲藏期間易受到溫、濕度的影響而引起花生霉變[2]。霉變花生極有可能含強致癌物質——黃曲霉素,快速識別并分離霉變花生可從源頭上阻止其進入食物鏈,降低人類攝入黃曲霉素的風險[3]。因此,對花生的霉變檢測尤為重要。目前,絕大多數花生生產企業,主要依靠人工觀測判斷花生是否發生霉變,該檢測方法易受主觀心理、視覺疲勞等因素影響[4]。在農業行業標準NY/T 1068—2006和國標GB/T 5494—2008中,規定了對于花生中霉素的檢驗,采用同位素稀釋液相色譜-串聯質譜法、酶聯免疫吸附法等檢測方法。這些傳統檢測方法具有前處理復雜、費時費力,且易對樣品造成破壞、產生二次污染等問題[5-6]。因此,亟需尋找一種可靠、快速、便捷的方法來檢測花生仁的霉變程度。
光譜檢測技術具有綠色環保、耗時短、成本低、可靠性高的特點,彌補了傳統理化檢測方法的不足[7-9],近年來在食品檢測領域發展較快。HIRANO等[10]通過分析花生油脂短波近紅外(700~1 100 nm)的透射比對表面良好、內部霉變的花生進行了檢測,但該方法對樣本具有破壞性,且油脂提取程序相對繁瑣。LEE等[11]采用了拉曼光譜、近紅外光譜技術(Near infrared,NIR)與中紅外光譜技術(Mid infrared,MIR)3種光譜技術對玉米受黃曲霉毒素污染進行了對比分析,結果顯示,拉曼光譜與MIR對玉米中黃曲霉毒素的預測精度優于NIR光譜技術。這些研究均表明,光譜技術在農產品的霉變檢測領域取得了較好的研究進展[12-14]。新興的太赫茲光譜技術與其他光譜技術相比,具有承載更多信息、能量低、不會對被檢物質造成光電離破壞、并具有一定的穿透性等特點[15-17],在農產品檢測領域具有巨大的潛力[18-19]。因此,本文采用太赫茲光譜技術中的衰減全反射方式進行光譜掃描,通過光譜預處理與變量優化后分別結合BP(誤差反向傳播)神經網絡算法與支持向量機(Support vector machine,SVM)算法,建立不同霉變程度花生的定性分析模型。
材料:不同品種的帶殼花生1 000 g(購于某種子公司)。
主儀器:英國Tera View公司生產的TeraPulse 4000型太赫茲脈沖光譜儀,如圖1a所示,可發射頻率從60 GHz到4 THz(2~133 cm-1)的太赫茲波,信噪比最高達到70 dB。光譜采集部分選擇入射角為35°的單晶硅衰減全發射(ATR)模塊,工作范圍為10~120 cm-1(0.3~3.6 THz)。
輔助儀器:SPX-80型智能生化培養箱,購自杭州碩聯儀器有限公司,溫度波動±0.5℃,如圖1b所示。

圖1 實驗儀器Fig.1 Experimental apparatus
實驗選取的花生品種為花育36號;為排除不同品種給實驗帶來的偶然性,選取魯花9號花生品種作為參考樣本進行培育。兩種花生品種樣本共計80枚,大小、顏色均勻一致,吹掃干凈。預留20枚視為正常花生樣本,其余60枚作為發霉培育對象。花生在高溫、高濕、封閉環境下最易發生霉變[20],因此實驗時,按照水分與花生樣本質量比0.2左右在花生殼表面均勻噴灑去離子水,并置于28℃的生化培養箱里培養。同時利用溫濕度檢測儀確保花生所處環境溫度在28℃左右、相對濕度80%~90%。實驗方案如表1所示。

表1 樣本培養方案Tab.1 Sample culture program
將得到的輕度、中度、嚴重霉變花生樣本作為實驗待測樣本,取出并放置于干燥、常溫環境下1~2 d。得到的花生樣本外殼表面有明顯皺縮、發黑,有斑點的現象;去殼后霉變樣本如圖2所示。

圖2 不同狀態下的花生Fig.2 Peanuts in different states
3類霉變花生樣本表面皆有4 mm左右淡綠毛、白色塊狀斑點產生,顏色晦暗發黃,質地變軟,肉眼較難區分。隨機選取包括正常、輕度、中度、嚴重霉變花生仁各20粒,制作成厚度約1 mm、尺寸約1 cm×1 cm的花生仁切片,樣本共計80個。為防止花生仁發生氧化等反應,該操作應盡可能快速準確。實驗環境溫度始終保持在22℃。

圖3 部分霉變樣本的時域光譜Fig.3 Time-domain spectra of some mildew samples
實驗采集80個花生樣本切片的ATR光譜。確保ATR晶體未放置樣品并干凈無污染,采集得到參考信號(Reference signal)后進行樣本的數據采集。為確保樣本和ATR晶體之間光學接觸良好,需擰緊壓力螺釘,最大限度地提高吸光度[21]。ATR采集參數設置為:分辨率0.94 cm-1,每次快速掃描的平均次數為450。
部分樣本的原始太赫茲時域光譜如圖3所示。從圖中可以看出,由于空氣中的水分干擾,樣本信號的波形均存在較小抖動。此外,4種花生仁樣本的脈沖波形相似,差異細微,說明了系統的穩定性;但不易直接通過太赫茲時域光譜進行不同程度霉變花生的有效鑒別,需要將采集得到的時域信號進一步處理,提取出更有效的光學常數并結合模式識別算法建立定性分析模型。
2.1.1光學常數提取
光學常數是表征物質宏觀光學性質的重要物理量,同樣也是太赫茲光譜分析中建模數據的來源[22]。通常情況下更多選用的光學常數是物質的吸光度與吸收系數。提取光學常數前,需要利用快速傅里葉變換(FFT)將參考信號和樣本的時域光譜進行轉換。在獲得信號頻域譜的過程中,為避免信號數據開頭和結尾不連續造成信號頻譜顯示的失真,需對信號進行加窗處理,減少時域信號截斷所帶來的誤差[23]。窗函數的種類多樣,比如Boxcar用于高分辨率,Blackman Harris用于高信噪比,本文選擇最常用的Happ Genzel,因為其兼顧了信噪比和分辨率。
將得到樣本信號與參考信號的對應頻域信息作比后,利用所得比值函數的幅值ρ(ω)和相位φ(ω)信息計算得到所需的光學常數。樣本的光學常數吸光度A(?)與吸收系數α(ω)計算公式為

(1)
(2)

(3)
式中E0(?)——入射的太赫茲波強度
E1(?)——透過物質的太赫茲波強度
d——樣本的厚度
ω——角頻率
ρ(ω)——比值函數的幅值
φ(ω)——比值函數的相位
n(ω)——樣本的折射率
c——太赫茲波在空氣中的傳播速度
其中吸光度與吸收系數譜圖如圖4所示。

圖4 吸光度譜圖和吸收系數譜圖Fig.4 Absorption and absorbance spectra

圖5 平均吸收系數Fig.5 Average absorption coefficient
2.1.2光譜范圍選取
在10~120 cm-1頻域內,觀察圖4a實驗數據發現,隨著頻率的增加,樣品吸光度整體呈現先上升后下降趨勢,但無明顯特征峰存在;而圖4b中所有樣本的吸收系數光譜特征峰明顯,所以本實驗選擇吸收系數作為建模數據。但吸收系數譜線整體呈差異較小、重疊度較高、難以分辨的特點。
為了解決這個問題,進一步對每個類別的所有樣本取平均處理。處理后可以發現在一定波段內正常樣本與霉變樣本的差異十分顯著。圖5a為正常、嚴重霉變花育36號各自類別在5~44 cm-1的平均吸收系數,可以看到兩條曲線相離甚遠,并且隨著頻率增加,吸收系數越來越高。圖5b為正常、嚴重霉變魯花9號各自類別在0~50 cm-1的平均吸收系數,同樣兩條曲線差異也是十分顯著,為后期模型建立提供了可能性。
BP神經網絡算法是當前工業領域應用較多的一種前饋式學習算法與反向傳播算法的神經網絡,可對樣本進行有效分類,故采用BP神經網絡進行不同霉變程度樣本的分類處理;同時,為了探究處理此類數據更優的算法,嘗試采用同樣經典的SVM方法進行霉變樣本分類的定性分析。支持向量機庫Lib-SVM,能夠解決小樣本情況下的機器學習問題,提高泛化能力,解決高維問題、非線性問題,適于處理光譜數據[24-25],故同時采用Lib-SVM進行花生霉變程度鑒別模型的建立。
2.2.1基于BP神經網絡的定性分析


表2 BP網絡輸出節點編碼Tab.2 BP network output node coding

圖6 BP算法分類結果Fig.6 BP algorithm classification results
2.2.2基于Lib-SVM的定性分析
首先建立正常與霉變花生的二分類模型。采用基于網格搜索及交叉驗證方法進行參數尋優的支持向量機多分類算法,建立兩類品種樣本霉變的二分類模型。按3∶1的比例隨機劃分建模集和測試集,即得到20個樣本作為測試集,其余60個樣本作為建模集。對經過歸一化預處理后的樣本建立基于特征波段-吸收系數的正常、霉變樣本二分類模型。模型結果如圖7所示,藍色標識代表樣本的實際類別,紅色標識代表樣本的預測類別,可以看出,兩類測試樣本都準確地被劃分到自身所屬類別當中,模型預測正確率為100%。

圖7 霉變程度二分類模型預測結果Fig.7 Prediction result of mildew degree two-class model
為進一步探索太赫茲光譜技術在花生霉變情況檢測研究中的可行性,對輕度、中度、嚴重霉變樣本建立基于特征波段-吸收系數譜的霉變程度三分類模型。
在建立三分類模型時,同樣選擇采用基于網格搜索法及交叉驗證方法進行參數尋優的SVM多分類算法,按3∶1的比例隨機劃分建模集和測試集,即得到15個樣本作為測試集,其余45個樣本作為建模集。對經過歸一化預處理后的所有樣本建立SVM模型,并分別建立花育36號、魯花9號霉變樣本的三分類模型,結果如圖8所示。可以看出,3類測試樣本都準確地被劃分到自身所屬類別當中,模型預測正確率為100%,可靠性較高。所有模型參數及預測結果如表3所示。

圖8 霉變程度三分類模型預測結果Fig.8 Prediction result of mildew degree three-class model

分類模型光譜范圍/cm-1總預測正確率/%懲罰參數Gamma參數花育二分類模型5~44100-2.5-5魯花二分類模型0~50100-4.0-4.5花育三分類模型5~44100-1.5-6魯花三分類模型0~501000-7
應用太赫茲衰減全反射技術對不同霉變程度的花生樣本進行了定性分析研究。通過對比發現,不同霉變程度的花生樣本在太赫茲波段的時域譜、吸光度譜以及吸收系數譜均存在一定的差異。進一步使用歸一化對數據進行處理,并分別結合BP神經網絡算法與SVM算法,建立了花生霉變程度鑒別的定性分析模型。其中,基于BP神經網絡算法的模型對花育36號霉變樣本的識別正確率為88.57%,對魯花9號樣本的識別正確率為91.40%;基于SVM算法的二分類、三分類模型對花育36號、魯花9號霉變樣本的識別正確率均達到100%。結果表明,相比于BP神經網絡算法,SVM算法能夠解決小樣本情況下的機器學習問題,可提高泛化能力,更適合處理光譜數據,并進行建模分析;作為一種便捷、可靠的方式,采用太赫茲衰減全反射光譜技術對貯藏期間的花生進行檢測,在判斷花生霉變程度方面具有一定的可行性。