接昭瑋,周世瑞,王繼芬*,孔藝青,李文憑,邵作山
(1.中國人民公安大學 偵查學院,北京 100038;2.中國人民公安大學 犯罪學院,北京 100038;3.國家體育總局反興奮劑中心,北京 100029;4.青島青源峰達太赫茲科技有限公司,山東 青島 266100)
糧食安全在保障百姓飲食安全方面具有重大戰略地位。自“昆侖行動”開展以來,全國公安機關對于糧食安全生產高度重視,加大了對危害糧食生產安全類犯罪行為的打擊。自專項行動開展至今,全國共破獲制售種子摻假類犯罪案件1 200余起,打掉犯罪團伙260余個,涉案總金額高達20.5億元[1]。在糧食生產領域,水稻不僅是當今世界重要的糧食作物,還具有極其顯著的經濟和藥用價值。近年來,某些不法分子將未達標的水稻種子摻雜于合格水稻種子中兜售以獲得巨額經濟利益,使國家和社會利益蒙受巨大損失。因此,種子安全事關國計民生,是國家糧食生產安全的第一道防線。
當前針對種子鑒定的常用方法主要有兩種,即特異性、一致性和穩定性栽培(Distinctness,uniformity and stability,DUS)實驗鑒定及簡單重復序列(Single sequence repeat,SSR)標記鑒定。其中,DUS鑒定屬于田間鑒定,鑒定周期由植物生長周期決定,因此鑒定時間較長,且實驗誤差相對較大;SSR鑒定屬于DNA鑒定,即利用DNA點位標記法對樣本進行標記,其成本較高。這兩種鑒定方法均不能滿足一線執法人員對摻假種子鑒定的快檢需求。近年來,有研究人員采用高光譜成像技術對水稻種子開展分類識別工作[2],研究過程中發現高光譜成像技術雖然能夠同時獲得樣品的光譜分辨率和空間分辨率,但其靈敏度較低,同時會導致數據冗余,增加后續數據處理的工作量。而太赫茲光譜作為一種新興的時域光譜檢測技術,具有光子能量低、穿透性強、空間分辨率高以及脈沖時間短等特點,可有效探測復雜物質在太赫茲波段的物理和化學信息。吳靜珠等[3]采用太赫茲時域光譜及其成像技術發現了玉米種子活力敏感的太赫茲波段,證明了將太赫茲技術用于種子活力無損檢測的可行性;譚佐軍等[4]利用太赫茲時域光譜技術對谷粒中的儲糧害蟲及其種類開展識別工作,結合機器學習模型構建了谷粒中是否有害蟲的快速無損檢測方法。因此,太赫茲時域光譜在農產品和食品加工業等領域具有重要應用前景[5-6]。
機器學習是對計算機算法的研究,其本質是計算機在已知樣本數據的基礎上建立模型從而解決特定問題的過程,在靈活性、精度和執行速度等方面具有顯著優勢。在司法鑒定領域,現代儀器分析技術的廣泛應用為分析復雜混合物物證提供了便利條件,但這些分析方法會產生大量數據集,使鑒定人員的工作變得更加繁瑣,出現錯誤的概率成倍增加。因此,將機器學習算法應用于現代儀器分析領域可以幫助鑒定人員獲得更加準確而有意義的分析結果[7-8]。
傅里葉變換(Fourier transform,FT)是數字信號處理領域的一種重要分析方法,該方法對于信號頻率具有較高的分辨率,因而可以清晰得到光譜信號中所包含的頻率成分(即頻譜)。王毅凡等[9]采用太赫茲時域光譜對四環素類抗生素進行定性分析,結果表明四環素類抗生素經FT方法處理后在太赫茲波段具有不同的特征吸收峰,實驗根據該方法找到了定性鑒別抗生素種類的新思路。孫然等[10]借助太赫茲時域光譜技術對對羥基苯甲酸酯類物質進行分類識別,通過傅里葉變換方法獲得樣本在0.3 ~ 2.4 THz頻段的頻域光譜,并基于此對不同比例混合樣品的光譜特性進行了定性分析。
鑒于此,本文利用太赫茲時域光譜結合機器學習算法對不同水稻種子品牌進行分類識別。通過太赫茲時域光譜系統獲得不同品牌水稻種子樣本的光譜數據,并采用特征選擇算法進行處理,同時設計分類器對特征選擇后的樣本進行分類,并針對分類結果對模型進行優化,從而為公安機關在偵破種子摻假類案件方面提供偵查方向和完整證據鏈。
結合實際案例,從濟南食藥環偵大隊等實戰部門收集4種不同品質與品牌的水稻種子樣本,研磨粉碎后均制備成單一樣本,每種樣本壓片40個。將粉碎后的單一樣本按質量比1∶1兩兩混合均勻,共制備成6種混合樣本,每種樣本壓片40個。種子樣本信息詳見表1。

表1 種子樣本信息統計表Table 1 Statistical table of seed samples

(續表1)
實驗采用型號為QT-TS 2000的快速太赫茲時域光譜系統對10種種子樣品壓片進行掃描。其中,儀器的光譜寬度區間為0.1 ~ 4 THz,頻譜分辨率為8 GHz,工作模式選擇透射式,工作電源選擇24 V直流電源。
通過太赫茲時域光譜系統掃描并結合快速傅里葉變換方法對10類種子樣本的時域光譜信號進行處理,最終得到各類樣本在0 ~ 1.5 THz頻段的頻域光譜(圖1)。為更加準確地對水稻種子進行光譜模式識別研究,采用不同的特征選擇方法對種子進行特征波長提取,以獲得更為精確的分類效果。

圖1 經FT方法預處理后的10類水稻種子的太赫茲光譜圖Fig.1 Terahertz spectra of 10 kinds of rice seeds pretreated by FT method
特征選擇是從已有樣本的原始特征數據集中選擇某些有效特征從而使系統內特定指標最優化的過程[11]。采用合適的特征選擇方法不僅可以解決批量樣本數據的“維度災難”問題,更會提升分類器的學習效率,有效降低模型的運行時間和增加模型的可解釋性。
1.2.1Relief算法Relief算法是一種基于特征權重進行特征選擇的算法,即在各類別及其特征的相關性基礎上分析各特征權重,當其特征權重小于某個閾值時該特征被剔除。張萌[12]團隊采用高光譜成像技術對蘋果輕微損傷開展快速識別工作,借助Relief算法提取到8個特征波段,最終有效提升了后續分類器的學習效率。
1.2.2隨機森林算法隨機森林(RF)算法作為一種集成學習方法,具有分析復雜相互作用分類特征的能力,該算法可通過對變量的重要性度量使數據作為特征選擇的工具。馮志立等[13]利用RF算法對不同類型的冬小麥光譜進行特征選擇研究,發現基于RF算法的特征選擇方法使得冬小麥的分類精度高達98.33%,其模型能夠有效提升分類器的學習效率;袁自然等[14]采用RF特征選擇算法對辣椒葉片的高光譜圖像和葉綠素含量進行數據篩選,發現利用RF算法選擇的波段所建模型的決定系數均大于0.8,說明該方法具有較高的穩定性和預測精度。
1.2.3支持向量機遞歸特征消除算法支持向量機遞歸特征消除(SVM-RFE)算法是一種尋找最優特征子集的貪心算法,即建立支持向量機(SVM)模型選擇最優特征,對剩余特征重復該過程直至遍歷所有特征,其過程中特征被消除的次序即為特征排序。SVM-RFE的優勢在于其模型性能好、泛化能力強,被選擇的特征子集對樣本整體更具有代表性[15]。陳輝煌等[16]建立了SVM-RFE模型對9種鮮茶葉的高光譜數據進行特征提取并采用線性SVM分類器進行分類,實驗結果表明基于SVM-RFE特征選擇后的SVM分類結果準確率達95%以上,證明了SVM-RFE模型在數字信號處理領域的穩定性和有效性。
1.2.4最大相關最小冗余算法最大相關最小冗余(mRMR)算法是一種濾波式特征選擇算法,即在原始特征集合中篩選出與分類變量間相關性最大而與特征間相關性最小的一組特征,其優勢在于能夠找到最優區分度的特征,并最大程度地消除特征變量的冗余。張天亮等[17]利用高光譜成像技術對8個玉米品種的葉片各區域進行光譜分析,采用mRMR算法成功提取到各葉片區域的品種分類特征;沈宇等[18]采用高光譜成像技術對蘋果損傷時間開展識別預測工作,實驗通過建立mRMR模型提取到利于預測蘋果損傷時間的光譜特征,其結果對于提升蘋果損傷時間的預測精度具有參考價值。
因此,本實驗采用Relief算法、RF算法、SVM-RFE算法和mRMR算法對不同品牌水稻種子樣本的太赫茲時域光譜進行研究,以提高后續分類器的分類效率,為種子摻假類案件的偵破提供參考。
實驗采用MATLAB R2021b軟件建立基于Relief、RF、SVM-RFE和mRMR算法的4種特征選擇模型,分別對10類水稻種子樣本進行特征波長選擇,結果如圖2所示。

圖2 4種特征選擇算法對樣本波長的提取結果Fig.2 Extraction results of sample wavelengths by four feature selection algorithms
由圖2可知,不同特征選擇方法由于其建模原理不同,因此所選擇出的特征波長結果也會有較多差異。基于Relief算法的特征選擇方法對10類水稻種子的波長選擇結果主要集中在0.6 ~ 0.8 Thz區間內;RF算法對樣本波長的特征選擇結果主要集中在0.1 ~ 0.6 Thz和0.8 ~ 1.5 Thz區間;SVM-RFE算法主要集中在0.1 ~ 0.82 Thz和1.0 ~ 1.5 Thz區間;mRMR算法則集中在0.9 ~ 1.32 Thz區間。特征選擇方法的優勢在于能夠去除與后續機器學習任務不相關的特征,從而增加模型效果的穩定性。此外,特征選擇還能夠降低過擬合風險并使模型的泛化能力加強,最終增大特征與特征值之間的相關性。
2.2.1 模型分類結果極限學習機(ELM)是一種基于前饋神經網絡搭建的機器學習模型,憑借其學習效率高和泛化能力好等優勢被應用于法庭科學領域[19]。張晗等[20]利用相機采集圖像并結合ELM模型對玉米單粒種子發芽潛力進行研究,結果表明基于ELM的機器視覺技術對種子發芽的查準率預測高達88.51%。支持向量機則是一種監督式線性分類模型[21],其本質是找到樣本間最佳決策邊界從而對樣本進行分類。在解決多分類問題時,SVM模型可將多個分類面參數求解并合并至一個最優化問題中最終實現多樣本分類。本實驗采用MATLAB R2021b軟件分別建立ELM和SVM分類模型,將訓練集與測試集的比例設置為7∶3。在ELM模型中,隱含層節點個數設置為40個,使用Sigmoid函數作為激活函數;在SVM模型中,對特征數據進行歸一化處理,同時采用徑向基函數(RBF)作為核函數進行分類。兩種模型的分類結果如圖3和圖4所示。

圖3 ELM模型對10類水稻種子樣本的分類結果圖Fig.3 Classification results of ELM model on 10 categories of rice seed samples
由圖3和圖4可知,經特征選擇后的水稻種子樣本分類準確率均遠高于未經特征選擇的原始樣本。分析原因在于原始樣本中的無關特征和冗余特征太多,增加了分類器的復雜性,從而使機器學習任務的難度提高,最終導致模型分類的準確度降低。

圖4 SVM模型對10類水稻種子樣本的分類結果圖Fig.4 Classification results of SVM model on 10 categories of rice seed samples
2.2.2 分類模型的優化將基于不同特征選擇方法的ELM模型和SVM模型分類結果可視化(圖5)。由圖5可知,ELM模型對經過不同特征選擇方法處理的種子樣本的分類結果總體高于SVM模型。原因在于SVM分類模型是通過二次規劃求解支持向量進行分類,對大規模訓練樣本難以實施,需要耗費大量的機器內存和運算時間;而ELM模型具有隱含層,機器學習過程中僅計算權重,因此在學習速率和泛化能力方面更具優勢。在ELM模型的分類結果中,基于RF算法進行特征選擇的樣本分類準確率最高(90%),原因在于RF算法能夠對變量的重要性進行度量并且對特征進行排序,從而可有效識別并消除冗余特征和不相關特征,提高分類器的分類性能。但ELM模型本身可控性較差,沒有考慮結構化風險,會導致樣本結果出現過擬合等問題。因此,本實驗對ELM分類模型進行優化,以進一步提升其分類的準確率。

圖5 基于不同特征選擇方法的ELM模型和SVM模型分類結果比較Fig.5 Comparison of classification results of ELM model and SVM model based on different feature selection methods
布谷鳥搜索(Cuckoo search,CS)算法是一種群智能優化算法,其主要特點是參數少、操作簡單且尋優能力強[22]。高桂革等[23]建立了CS-ELM模型對風速序列進行預測,論證了模型應用的合理性;童成寶等[24]利用CS-ELM模型對遙感影像開展分類鑒別工作,結果發現CS算法可以解決ELM模型中因參數計算錯誤導致分類結果較差的問題。鑒于此,本實驗將CS算法應用于ELM模型中并對輸入層和隱含層的權值進行優化,以提高模型的預測精度。
在建立CS-ELM模型的過程中,將訓練集與測試集的比例設置為7∶3,ELM隱含層節點數設置為2 000,迭代次數設置為70,布谷鳥巢穴數量設置為9個,被宿主發現的概率設置為0.2。CSELM模型對樣本的分類結果如圖6所示。
由圖6可知,經RF算法對10類水稻種子樣本的太赫茲時域光譜進行特征選擇后,CS-ELM模型對于樣本的分類準確率達到100%。其中,RF特征選擇算法對于水稻種子樣本波長的重要性度量結果如圖7所示。結合圖2B可知,RF模型選擇圖7中依據重要性從大到小順序排列的前15個波長點作為特征波長點進行后續分類識別。圖6結果表明,基于RF特征選擇算法的CS-ELM模型具有較高的分類精度,能夠很好地彌補傳統ELM模型訓練速度慢、可控性能差等不足。因此,實驗結果證明太赫茲時域光譜結合RF-CS-ELM模型在種子摻假鑒定領域具有一定的實用性。

圖6 基于RF特征選擇算法的CS-ELM模型分類結果Fig.6 Classification results of CS-ELM model based on RF feature selection algorithm

圖7 基于RF算法的波長重要性度量結果圖Fig.7 Results of wavelength importance measurement based on RF algorithm
本文利用太赫茲時域光譜技術結合機器學習方法對不同品牌水稻種子的摻假問題進行研究。基于太赫茲時域光譜系統采集到的10類水稻種子樣本在不同頻率下的吸收率譜圖,采用傅里葉變換對原始光譜數據進行預處理,在預處理的基礎上,建立了4種特征選擇方法對經預處理后的光譜樣本進行特征波長選擇,并搭建ELM和SVM模型對經過特征選擇的樣本數據進行分類識別。結果顯示,通過優化建立的CS-ELM分類模型對基于RF算法進行特征選擇后的10類水稻種子樣本的識別效果最好,準確率達到100%。因此,將太赫茲時域光譜與機器學習相結合,可對待測樣本進行快速檢測與分類識別,為太赫茲時域光譜技術在種子摻假鑒定領域的應用提供了一定的參考與借鑒。