李 慧 吳靜珠 劉翠玲 孫曉榮 余 樂
(北京工商大學;食品安全大數據技術北京市重點實驗室,北京 100048)
中國是全球第二大玉米生產國,同時也是全球第二大消費國。玉米的產量與品質與其自身品種緊密相關,因此品種鑒別直接關系到農業生產和農民經濟利益。
傳統鑒定方法有籽粒形態鑒定法、幼苗形態鑒定法、田間小區種植鑒定法、生理生化鑒定法[1-2]等,其中生理生化鑒定法有電泳法[3-4]、高效液相色譜法[5]等,這些方法步驟繁瑣,操作復雜,且檢測過程中需要消耗化學試劑。近年來,分子光譜檢測技術以其快速、便捷的特點成為研究熱點,尤其是新興的太赫茲技術逐漸受到人們的關注及研究[6]。
太赫茲(Terahertz, THz)波是指頻率在0.1~10 THz(波長3 000~30 μm)之間的電磁波,其波段位于微波和紅外波之間,是宏觀電子學向微觀電子學過渡的區域,具有非常重要的學術價值和應用價值。理論研究表明[7],大量生物大分子(DNA、蛋白質等)的振動和轉動能級正好處于THz的頻帶,因此物質的THz光譜包含有豐富的物理和化學信息;THz光子能量極低(毫電子伏特),不會電離損傷生物樣本;THz輻射對于很多干的介電材料和非極性液體具有良好的穿透性,尤為適用于預包裝農產品品質檢測。近年來,作為重要交叉前沿領域的太赫茲技術[8]以其特有的波譜分辨能力、低能性和透視性等優勢在農業及食品檢測領域嶄露頭角[9-12],極有潛力成為紅外光譜技術[13]和X射線技術[14]的有力補充。
本研究采用太赫茲時域光譜技術結合神經網絡方法建立快速鑒別玉米品種的定性分析模型,通過分析ATR光譜吸收系數分類的準確性來快速判定玉米品種,為玉米品質的鑒別提供一種快速、準確的檢測方法。太赫茲技術具有獨特的指紋圖譜特性,在玉米快速檢測方面具有獨特的優越性,并且在空間分辨率和靈敏度上要優于紅外光譜。
選取4種不同品種的玉米種子,如表1所示。

表1 4種玉米種子參數列表
本實驗采用英國TeraView公司的TeraPulse 4000系列太赫茲產品,圖1為TeraPulse 4000儀器及其脈沖光譜操作示意圖,主要功能是太赫茲基礎成像和光譜分析,所能測量的光譜范圍是0.06~4.3 THz,具有高信噪比>70 dB,分辨率優于1.7 GHz,主要包括衰減全反射(ATR)附件、反射成像模塊、鏡面反射模塊等用于物體檢測。
TeraPulse 4000的ATR附件其穿透深度為1 mm,只需要1 mg的樣品材料且在很少或不進行樣品制備的情況下即可直接測量,該模塊可以測量片劑或粉劑,易于使用。
本實驗主要應用儀器中的ATR附件對四類玉米種子樣品進行檢測,先測定無樣本時參考值并記錄下來,再將籽粒粉碎后置于ATR掃描區域進行掃描并記錄。

圖1 赫茲儀器及其脈沖光譜操作示意圖
被測對象經過THz-TDS系統測試后,獲得樣品的時域光譜信號,經過傅里葉變換得到頻域譜,通過掃描樣品和空樣品分別得到參考光譜Eref(ω)和樣品光譜Es(ω)。根據菲涅爾方程[15]和光的傳播方程,得到復透射函數:
(1)
實驗中,當樣品厚度d較厚時,忽略FP(Fabry-Perot)效應,并且樣品在弱吸收的情況下,樣品的折射率n(ω)和吸收系數α(ω)分別表示為:
(2)
(3)
式中:φ(ω)為樣品與參考信號的相位差;ρ(ω)
為樣品與參考信號的振幅的比值;c為光速;d為被測對象樣品厚度;ω為角頻率。
實驗中太赫茲儀器TeraPulse 4 000的ATR組件掃描玉米獲得樣品的光譜圖如圖2所示,其中圖2a為太赫茲儀器掃描玉米種子時域圖,圖2b為時域經過快速傅里葉變換(FFT)后的頻譜圖。


圖2 太赫茲光譜圖
由于使用太赫茲ATR組件掃描需要校正光譜,所以數據分析時需要根據式(1)、式(2)和式(3)計算ATR參數,其中樣品厚度d較厚,可忽略,即可得到ATR吸收系數譜,如圖3所示。

圖3 ATR吸收系數譜
本實驗采用神經網絡學習矢量量化(LVQ)方法對4種玉米進行分類。LVQ在神經網絡中是有導師與無導師相結合的分類方法。LVQ網絡的結構由輸入層、競爭層和輸出層神經元組成,如圖4所示。輸入層有N個神經元接受輸入向量,與競爭層之間完全連接;競爭層有M個神經元,分為若干組并呈一維線陣排列;輸出層每個神經元只與競爭層中的一組神經元連接,連接權值固定為1。在LVQ網絡的訓練過程中,輸入層和競爭層之間的連接權值被逐漸調整為聚類中心。當一個輸入樣本被送至LVQ網時,競爭層的神經元通過勝者為王競爭學習規則產生獲取神經元,容許其輸出為1,而其他神經元輸出為0。與獲勝神經元所在組相連接的輸出神經元其輸出也為1,而其他輸出神經元輸出為0,從而給出當前輸入樣本的模式類。

圖4 學習向量量化網絡
利用LVQ網絡實現模式識別時,不需要將輸入向量歸一化、正交化,只需要直接計算輸入向量與競爭層之間的距離,從而實現識別。LVQ網絡的學習規則結合了競爭學習和有導師學習規則,是一種非線性映射算法,能夠將非線性可分問題轉化為線性可分問題。
本研究中,輸入向量為每條光譜的掃描點(即維數),實驗中整段光譜的維數為1 135,0~70 cm-1的維數為289;競爭層有8個神經元;輸出層為4(即分為4類);訓練次數設定為1 000次。然后將120個樣本數據送至LVQ網絡中進行訓練,獲勝神經元輸出為1,則其他三個神經元均為0。
本實驗將所采集玉米樣本數據中ATR吸收系數譜提取出來,4類玉米×每類30粒=120條光譜信息,將這120組光譜分為三組實驗,分別以1/2為訓練集、1/2為測試集;2/3為訓練集、1/3為測試集;5/6為訓練集、1/6為測試集,對這三組數據分別進行LVQ訓練,訓練集即為有導師學習規則,測試集即為分類結果。數據處理在MATLAB2013b完成,分類結果表如2所示。

表2 ATR吸收系數分類結果
由表2可以看出,3組數據1/2測試集、1/3測試集、1/6測試集利用LVQ方法在全光譜的分類準確率分別為93.33%、97.5%、100%,而在0~70 cm-1的分類準確率分別80%、82.5%、95%。結果表明,隨著訓練集的增多,測試集的減少,分類的準確率在增高。
采用ATR采樣方式獲取了玉米種子的THz-TDS光譜,通過提取光學常數-吸收系數結合LVQ建立了快速鑒別玉米品種的定性分析模型。比較不同譜區建模,不同數量訓練樣本的測試結果可得,品種識別模型的預測準確率可達80%~100%,由此探索了一種玉米品種快速分類鑒別的方法,為玉米品種分類鑒別提供一種參考。
全譜區分析過程中,盡管在>70 cm-1的光譜信號貌似噪聲很大,但實際分析建模效果較好,因此噪聲中應該仍帶有樣品的特征信息,在今后的實驗研究中亦可使用特征選取的方法進行特征篩選,提取有用信息分析,加強模型的可行性和穩健性。