王光輝 殷 勇
(河南科技大學食品與生物工程學院,河南 洛陽 471023)
玉米作為中國重要的糧食,其安全問題關系國計民生,是國家穩定和發展的前提[1-2]。新鮮玉米由于含水量高、所帶的菌量較多,極易在高溫高濕條件下霉變[3]。黃曲霉毒素B1和玉米赤霉烯酮是玉米霉變過程中產生的2種代表性毒素[4],如果被誤食則會造成嚴重后果。因此,霉變玉米的快速檢測十分必要。目前,玉米霉變檢測的方法主要是DNA探針[5]、氣相色譜法(GC)[6]、酶聯免疫法(ELISA)[7]等生物化學分析方法,但這些方法在檢測過程中操作不便,且玉米被破壞,難以達到快速、無損檢測的目的[8]。
高光譜技術是近年來發展迅速的一門無損檢測新技術,在農產品檢測方面被廣泛利用[9-11],它將圖像技術和光譜技術有機融合,圖像信息用于檢測物體的外部特征,光譜信息則可反映物體的內部品質[12-14],近年來,已有部分學者開展了基于高光譜成像技術的霉變玉米檢測研究,并取得了一定成果[15-16]。但是由于高光譜信息的高維度特點使得構建模型復雜、精度不高[17]。
本研究擬采用高光譜技術融合神經網絡分別對霉變玉米中的黃曲霉毒素B1、赤霉烯酮2種毒素進行預測,以期提出一種霉變玉米快速、準確的無損檢測方法。
新鮮玉米:中單909,購于洛陽中原農貿城,不同霉變等級的玉米樣品由實驗室自行培育。新鮮玉米含水量較高,當濕度>85%、溫度高于25 ℃時,其自身攜帶的霉菌會迅速生長并產生有毒代謝產物。因此,可創造溫、濕度條件用培養箱制備出霉變玉米。參考文獻[18]制備霉變玉米樣本的方法,設定培養箱溫度為30 ℃、相對濕度為85%作為制備霉變玉米樣本的培養條件,并選取經過0,2,4,6,8,10 d的培養樣本作為6個霉變等級樣本,分別標記為:A1、A2、A3、A4、A5和A6。每個霉變等級玉米制備50個樣本(35個訓練集,15個測試集),共制備50×6=300個試驗樣本,每個樣本含量(50±0.5) g。
高光譜圖像采集系統包括高光譜成像儀(IST50-3810型,德國Inno-Spec公司)、4個500 W的光纖鹵素燈(RK90000420108型,德國Esylux公司)、驅動傳送裝置和計算機。高光譜圖像采集系統如圖1所示。高光譜成像儀通過USB 2.0連接計算機。
1.3.1 玉米樣品黃曲霉毒素B1和赤霉烯酮含量的測定 為了驗證霉變玉米等級劃分的合理性,分別按照GB 5009.22—2016和GB 5009.209—2016提供的方法檢測新鮮玉米和霉變玉米樣本中黃曲霉毒素B1和赤霉烯酮含量,檢測結果如表1 所示(每個等級的樣品做3次平行試驗取平均值)。由表1 可看出,隨著培養時間的延長,黃曲霉毒素B1和赤霉烯酮的含量也隨之增多,說明用培養時間來表征玉米霉變等級是合適的。霉變玉米毒素含量的測定與高光譜圖像的采集同步。

1. 光譜儀 2. 光纖鹵素燈 3. 樣品 4. 傳輸裝置 5. 計算機

表1 黃曲霉毒素B1和赤霉烯酮理化指標
1.3.2 高光譜圖像的采集 高光譜圖像采集過程中,由于圖像質量會受到采樣背景以及相機暗電流的影響,因此需要對高光譜圖像進行黑白標定[19]。首先采集全黑全白圖像,然后將稱好的樣品[(50±0.5) g]平鋪在Ф 10 cm×1 cm的培養皿中放置在傳送裝置上進行采樣,最后使用全黑全白圖像對原始高光譜圖像數據進行黑白標定。光譜儀光譜范圍為371.05~1 023.82 nm,光譜分辨率為2.8 nm,采樣間隔為0.51 nm,采樣圖片大小為720×1 032。6個等級玉米樣品在720 nm波長下的高光譜圖像如圖2所示,前3個等級的樣品霉變程度變化不明顯,后3個等級霉變程度變化明顯。
黑白標定后的光譜采用多元散射校正進行預處理,圖3、4分別為預處理前后的光譜數據變化曲線。通過兩者對比,經多元散射校正后的光譜數據,明顯地消除了基線偏移,提高了信噪比。
高光譜數據具有維度高信息量大等特點,光譜波段之間會存在大量冗余信息,如果將全段光譜作為預測模型的輸入,則會提高模型的復雜性,使建模時間增長[20-22],因此,選擇有效的波段來降低高光譜數據的維度是必要的。

圖2 720 nm波長下6個等級玉米高光譜圖像
2.2.1 相關系數法 利用相關系數法確定有效波段,該方法是把校正集光譜矩陣中的每個波長對應的光譜反射值與待測指標含量進行相關性計算,得到每個波長的相關系數圖。在高光譜技術中,相關系數大小代表了光譜信息量多少,相關系數大的波長含有的信息量更多[23],可選擇相關系數大的波段區域進行下一步的特征選擇。相關系數的計算:
(1)

圖3 原始光譜數據

圖4 經多元散射校正處理后的光譜數據
式中:
rxy——一個波長下6個等級樣品光譜反射值與毒素含量的相關系數;

xi、yi——分別是光譜反射值和樣品毒素含量在第i個波長(共1 288個)下的檢測值,
n——樣本總數(6個等級共300個)。
相關系數范圍為[-1,1],r>0表示正相關,r<0表示負相關,|r|表示了變量之間相關程度的高低。經查閱資料并結合已知的化學知識,將相關系數>0.3的波段定義為光譜信息含量高的波段,即為有效波段。
圖5為玉米樣品中黃曲霉毒素B1、赤霉烯酮含量與光譜反射值相關性大小隨波長變化曲線。由圖5可以看出,黃曲霉毒素的有效波段區間為511.3~539.9,692.4~999.15 nm,赤霉烯酮的有效波段為736.2~999.15 nm。
2.2.2 特征波長選擇 將有效波段下的光譜數據運用SPA算法選擇特征波長,當選擇出的特征變量為8個時交互驗證的均方根誤差最小且逐漸趨于穩定,此時所選出的8個特征波長即為選擇結果。
為了使模型在保證精度的同時使數據維度降到最低,對選擇出的8個特征波長進一步篩選,引入信息熵的概念。樣本在某一波長下的自信息熵越大,說明該波長越能刻畫樣本。而某兩個波長下的互信息熵越小,說明它們之間的關聯性小,越有利于區分它們所表征的樣本[24-25]。將自信息熵和互信息熵概念引入到不同等級霉變玉米高光譜的判別中。可按式(2)計算出樣本圖像中每級灰度的概率分布密度。

圖5 玉米樣品中黃曲霉毒素B1、赤霉烯酮含量與光譜反射值相關性隨波長變化曲線
Figure 5 Curve of correlation between aflatoxin B1and gibberenone content and spectral reflectance in corn samples with wavelength
Pi=hi/n,
(2)
式中:
Pi——一個圖像中灰度值為i的像素點的概率分布密度;
hi——一個圖像中灰度值為i的像素點的總數;
n——一個圖像中的像素總和。
在式(2)基礎上,圖像M的信息熵可用式(3)表示。
(3)
式中:
H(M)——圖像M的自信息熵,灰度等級從0~255共256個等級。
對于任意2幅圖像M和N,其聯合熵H(M,N)可表示為:
(4)
式中:
PMN(i,j)——圖像M和N灰度的聯合概率分布。
圖像M和圖像N的互信息熵I(M,N)為:
I(M,N)=H(M)+H(N)-H(M,N)。
(5)
進而可提出任意2個霉變等級下玉米樣本間的可分性判據,其計算公式為:
(6)
當2個等級霉變玉米樣本高光譜圖像之間的互信息熵越小、自信息熵越大時,則A值越小,越有利于樣本的分級;反之則不利于分級。通過式(3)計算初選特征波長下每個霉變等級玉米樣本(50個樣本)高光譜圖像的平均自信息熵,以及任選2個霉變等級組合(6個等級共15個組合),根據式(4)、(5)分別計算每個組合在初選波長下對應2個等級樣本之間的互信息熵,并計算其平均值,根據式(6)計算所有初選波長下所有組合(15個組合)霉變玉米高光譜圖像的A值及其均值。根據A值大小確定最優特征波長,結果如表2所示。

表2 特征波長選擇結果?
? 按照A值從小到大排列。
2.3.1 構建有效波段下光譜信息的BP神經網絡模型 有效波段下光譜信息建立的黃曲霉毒素B1和赤霉烯酮含量的預測模型,輸入層神經元個數為有效波段下的所有波長,代表有效波段下所有波長的光譜反射值,輸出層神經元個數都為1,分別代表黃曲霉毒素B1和赤霉烯酮,隱含層函數為tansig,輸出層函數為logsig,訓練函數為trainlm,訓練集數據來訓練神經網絡,隱層神經元個數為7,此時的網絡訓練誤差為0.000 54,訓練步數為100,學習速率為0.1。驗證集結果如圖6所示。圖6(a)結果顯示,霉變玉米黃曲霉毒素B1含量預測正確率為91.6%,預測值與實際值相關系數為0.998 7,均方根誤差為0.024 4;圖6(b)結果顯示,赤霉烯酮含量預測正確率為93.2%,預測值與實際值相關系數為0.988 7,均方根誤差為0.604。
2.3.2 構建8個特征波長下光譜信息的BP神經網絡模型
8個特征波長下的光譜信息所建立的黃曲霉毒素B1和赤霉烯酮含量預測模型,輸入層神經元個數為8,代表8個特征波長下的光譜反射值,輸出層神經元個數都為1,分別代表黃曲霉毒素B1和赤霉烯酮含量,黃曲霉毒素B1含量預測模型的隱含層傳遞函數為logsig,輸出層傳遞函數為logsig,訓練函數為traincgf;赤霉烯酮含量預測模型的隱含層傳遞函數為tansig,輸出層傳遞函數為logsig,訓練函數為traincgf,隱層神經元個數為6。驗證集結果如圖7所示。由圖7(a)結果顯示,黃曲霉毒素B1含量預測正確率為98.74%,預測值與實際值之間的相關系數為0.976 9,均方根誤差為0.045 8;由圖7(b)結果顯示,赤霉烯酮含量預測正確率為100%,預測值與實際值之間的相關系數為0.984 1,均方根誤差為0.160 5。
2.3.3 構建前4個特征波長下光譜信息的BP神經網絡模型
為了盡可能地減少模型的輸入,提高模型的運算速度及精度,選擇前4個特征波長構建模型。前4個特征波長下光譜信息建立的霉變玉米黃曲霉毒素B1和赤霉烯酮含量的預測模型,輸入層神經元個數為4,代表前4個特征波長下的光譜反射值,輸出層神經元個數都為1,分別代表黃曲霉毒素B1和赤霉烯酮,黃曲霉毒素B1含量預測模型的隱含層傳遞函數為tansig,輸出層傳遞函數為tansig,訓練函數為traincgf;赤霉烯酮含量預測模型的隱含層傳遞函數為logsig,輸出層傳遞函數為logsig,訓練函數為trainlm,隱層神經元個數為8。驗證集結果如圖8所示。由圖8(a)結果顯示,黃曲霉毒素B1含量預測正確率為92.42%,預測值與實際值之間的相關系數為0.984 4,均方根誤差為0.322 6;由圖8(b)結果顯示,赤霉烯酮含量預測正確率為98.5%,預測值與實際值相關系數為0.965 2,均方根誤差為0.407 4。
2.3.4 最優模型的確定與穩健性分析 對比不同波長下構建的霉變玉米毒素預測模型,結果顯示:8個特征波長下所構建的模型預測結果最好,黃曲霉毒素B1和赤霉烯酮含量預測正確率均達到98%以上,而當特征波長數減少到4個時所構建的模型預測正確率明顯降低,且穩定性較差。為了進一步驗證8個特征波長下所構建模型的穩健性,在同一批樣品中隨機選擇6組訓練集和測試集,在模型不變的前提下,對樣品進行預測,結果對比如表3所示。

圖6 有效波段下構建黃曲霉毒素B1和赤霉烯酮含量預測模型驗證結

圖7 基于8個特征波長下構建黃曲霉毒素B1和赤霉烯酮含量預測模型驗證結果

圖8 前4個特征波長下構建的黃曲酶毒素B1含量和赤霉烯酮含量預測模型驗證結果

表3 6組測試集預測結果
由表3可知,黃曲霉毒素B1含量預測正確率平均值為97.51%,赤霉烯酮含量預測正確率平均值為100%。隨機測試結果與原始結果基本一致,說明8個特征波長下光譜信息所建立的BP神經網絡預測模型能夠準確預測黃曲霉毒素B1和赤霉烯酮含量,并且模型具有較高的穩定性。
針對霉變玉米中黃曲霉毒素B1和赤霉烯酮的快速評定,本試驗在選擇有效波段的基礎上提取霉變玉米高光譜特征波長,建立了有效波段、8個特征波長以及前4個特征波長下構建BP神經網絡毒素預測模型。結果顯示,8個特征波長下的BP神經網絡預測模型,具有較高的穩定性與可靠性。證明了高光譜數據降維的必要性,減少計算量、提高檢測精度,同時也驗證了高光譜無損檢測霉變玉米黃曲霉毒素B1及赤霉烯酮含量具有可行性。