黃 瑞,高 翔
(1.天津城市建設管理職業技術學院 建筑經濟管理系,天津 300134;2.天津中德應用技術大學,天津 300350)
人們定義波長范圍800~2500 nm 之間的電磁波為近紅外光,其位于可見光和中紅外波段之間。近紅外波段主要觀察到的是-CH,-OH,-SH 和-NH鍵的振動,這些化學鍵在近紅外頻率的照射下會發生振動能量的變化,存在拉伸振動和彎曲振動兩種模式。有機分子在近紅外區域的能量吸收發生在分子振動時,所有的吸收帶都是基于中紅外波段的泛音或組合(合頻、差頻)的結果。近紅外光譜儀作為一種具有先進的信息測量和信息處理技術的儀器,能夠使用復雜的信息處理和提取技術針對具體物質目標進行分析,并且具有分析效率高、分析結果穩定、無損測量、操作方便、泛用性廣等優點。近年來越來越多的研究人員將近紅外光譜技術與檢測流程相結合,通過在線近紅外光譜數據分析建立快速檢測系統。文獻[1]通過將近紅外光譜與QS 8000輸送系統結合,開發了具有膨脹粘土、高嶺石、黃藻酸鹽和黑云母混合礦物預測模型的銅礦輸送樣品檢測系統;文獻[2]通過獲取傳送帶上移動的榴蓮樣品的近紅外光譜,建立回歸模型,預測了榴蓮樣品中干物質含量和可溶性固體含量,為海關等單位所需的快速檢測提供思路;文獻[3]搭建了一種用于紫外-可見-近紅外聯用輻射測量的模塊化系統,該系統獲取的數據可以實時發送到云中進行存儲和處理;文獻[4]開發了一種帶有近紅外光譜傳感器的全尺寸甘蔗樣品電梯,實現在線評估甘蔗的可溶性固體含量;文獻[5]在制備使用兩種不同乳化劑的水乳液的過程中,設計了具有不同微通道幾何形狀的微流體系統,借助近紅外光譜技術監測乳化過程;文獻[6]在片劑壓力機進料框架的填充室中收集在線近紅外光譜,通過近紅外數據建模探究不同壓片工藝參數對引線滯后的影響,實現對片劑含量均勻性的連續監測和控制;文獻[7]建立了一種用于混合物粉末狀食品分析的便攜式近紅外勺子系統,實現近紅外傳感器、 負載傳感器和深度學習方法的結合,對混合物粉末的評估進行深度學習下的多元回歸預測;文獻[8]設計了一種不同性別蛹的高速性別分類系統,通過NIR 與多變量分析結合進行快速鑒別,并已成功應用于生產。
近年來,工業界逐漸開始將近紅外光譜技術應用于肉類食品行業中。傳統的近紅外光譜結果處理方法是采用化學計量學等方法提取光譜信息及消除背景干擾,最終得到結果。隨著計算機技術的迅速發展,數字化光譜儀器與之結合,大幅提高了解譜效率。近紅外光譜數據的高可靠性以及數量龐大的特點,正滿足了當下人工智能的應用。本文將機器學習、深度學習和近紅外光譜技術相結合,構建了一套“云+網+端”的快速判別系統平臺,同時結合連云港海關對冷凍魚肉快速分類的研究需求,從理論層面、代碼層面和實際應用層面全方位論述了近紅外光譜在肉類檢測方面的理論基礎、實現情況和實踐方法,為智能化品質檢測提供了方案。
基于近紅外光譜檢測技術的冷凍魚肉自動化分類設備系統方案,如圖1 所示。主要包括:傳輸帶傳送模塊、樣品近紅外光譜采集模塊、云端快速判定系統模塊及分類推送模塊等。快速判定過程包括數據采集、數據處理及結果反饋等過程。在本系統中,魚肉樣品通過傳送帶被送至近紅外光譜儀下方,從而實現樣品的近紅外光譜數據自動采集。在該過程中,傳送帶的移動速度、停頓時間和近紅外光譜儀中光源強弱及采集時間等參數的控制,是通過Arduino UNO 開發板來實現的。光譜數據采集完成后,通過物聯網技術將數據上傳至作者自行構建的自動分析處理數據的后臺程序,進行光譜數據預處理、光譜特征提取等工作,通過支持向量機(SVM)模型或神經網絡(NN)模型對數據的進行分析處理,處理結果經過互聯網傳輸、比對后,實現冷凍魚肉快速分類結果輸出。最終,系統根據判定結果將冷凍魚肉分類推送到不同的容器之中。

圖1 近紅外光譜冷凍魚肉自動化分類設備系統示意圖Fig.1 Diagram of frozen fish automatic classification equipment system by near infrared spectrum
本文中近紅外光譜儀采用日本濱松256 pixels銦鎵砷線陣探測器作為主探測器,光柵刻劃線數為100 l/mm,狹縫為25 μm。光譜儀性能主要指標為:動態范圍為單次采集8000∶1,信噪比8000∶1,積分時間5 ms~1 s 可任意設定。
網站選擇使用Django 框架來搭建網絡服務,開發環境選擇PyCharm,Python 版本選擇3.0.7,Django版本選擇2.2.0,數據庫選擇Sqlite3。
在預處理階段,設計了預處理7 種算法,分別是多元散射處理(MSC)、中心化算法(centraliazation)、一階導數法(1st Der)、二階導數法(2nd Der)、多項式平滑算法(SG 平滑)、標準正態變化法(SNV)、標準化(standardization)。光譜特征提取和分類等工作,通過支持向量機(SVM)模型或神經網絡(NN)模型對數據的進行分析處理。
系統硬件通過Arduino 板編程以及電位顯示器,控制推桿做往返運動的速度以及頻率,最終實現將不同種類的魚依次推送到各條傳送帶上。用到的主要裝置有:Arduino、370 減速電機馬達GM25 推桿、DC 可調降壓穩壓模塊、電位計等。推桿驅動部分,采用導線和電位計建立PWM 傳導模塊,通過調節電位計旋鈕,控制推桿端電壓的輸出。電位計得到的模擬信號值將通過A0 口傳至Arduino,再通過數字11 接口傳至GM25 推桿,最后,利用DC 穩壓模塊實時監測輸出電壓的大小及變化;此外,建立了一套判斷模塊,如果外界有信號傳入,則控制高電平信號輸出使推桿完成一次往返運動。通過多支推桿,將不同種類的魚推到各條傳送帶上。程序循環間隔為10 ms。
近紅外光譜系統在數據釆集過程中容易受到儀器性能、電噪音、樣本脊景、雜散光等因素的影響,使得測量到的光譜信號存在噪音、譜線平移等干擾。為了提高近紅外光譜預測模型的預測能力與模型穩定性,需要首先對原始光譜采取預處理來提高信噪比,減弱或消除其他因素對光譜信號和模型的影響。各種光譜預處理方法的功能不盡相同,需針對不同的光譜數據和檢測對象選用合適的預處理方法。本文使用的光譜數據預處理方法包括:多元散射校正(multiplicative scatter correction,MSC)、中心化(centralization,CENTRA)、標準化(standardization,STAND)、標準正態變換法(standard normal variate,SNV)、一階導數法(the first derivative,1st Der)、二階導數法(the second derivative,2nd Der)、Savitzky-Golay 平滑法(Savitzky-Golay smoothing method,SG)。
在光譜數據分類部分主要采用支持向量機(SVM)模型或神經網絡(NN)模型。人工神經網絡(artificial neural network,ANN) 的提出受到生物學神經元概念的啟發,簡化地模擬了大腦的結構和運行方式。神經網絡由若干處理單元組成。每個處理單元有許多輸入信號和一個輸出信號。輸出信號沿路徑向其他處理單元提供輸入信號,這些路徑和處理單元組成了網絡[9]。神經元具有空間整合特性和閾值特性,其輸入與輸出間有固定的時滯。人工神經網絡具有初步的自適應能力,可以通過改變突出權重值的方式適應環境要求。同時其可以分布式存儲并進行并行處理。特別是在近紅外光譜領域,神經網絡和其他機器學習方式相比具有更好的容錯特性,其采用整體逼近的方式,不會由于個別樣本誤差而影響整個模型特性。
對于最簡單的前饋神經網絡來說,其過程只是用于計算出網絡的輸出,而不對隱含層的連接權值進行調整。解決這個問題需要采用多層的前饋網絡,而其要求隱含層連接權值的選擇合適。如圖2所示,誤差反向傳播算法(BPNN)是一個多層前饋網絡,其以網絡誤差平方為目標函數,采用梯度下降法,可以獲得輸出和輸入之間的高度非線性映射[10]。其學習過程包含正向傳播和誤差的反向傳播,BPNN 利用輸出層各神經元的偏導數δ0(k)和隱含層各神經元的輸出oh(k)來修正連接權值who(k),其公式如下:

圖2 BPNN 和MLP 的最主要的不同點Fig.2 Main differences between BPNN and MLP

式中:e 是誤差函數。利用隱含層各神經元的偏導數δh(k)和輸入層各神經元的輸入xi(k)修正連接權值whi(k)公式如下:

設計BPNN 時,一般要考慮網絡的層數、每層的神經元個數、激活函數、初始值和學習率等方面。對于層數來說,增加層數可以提升精度,減少誤差,但同時使網絡變得更加復雜運行效率低。神經元個數選擇要合適,太少則網絡學習力差、迭代次數多,太多則精確度高但容易出現過擬合現象。
研究表明,BPNN 在近紅外光譜原始數據的分類和預測性能表現較好,基于近紅外光譜原始光譜的BPNN 模型的預測性能優于使用LF-NMR 數據的預測性能[11]。但BPNN 也有其局限性,比如訓練時間較長、容易陷入局部最小值等等。
光譜分析實際參與算法需要用戶輸入數據集,光譜分析的數據集一般數據量較大。為了便于用戶輸入,作者開發的網站支持用戶以excel 的形式打包數據并上傳,只需要在參數填寫界面告知服務端一共上傳多少種類數據,以及每種類數據的個數即可。用戶使用界面如圖3 所示。

圖3 用戶上傳數據界面Fig.3 User upload data interface
當用戶將需要分析的數據集合,以及數據種類上傳到服務端后,服務端通過遍歷,將每種數據單獨取出,并以矩陣的形式存放。在后續調用算法處理時,提供極高的效率以及準確率。為了提升數據的關聯性以及最終預測分類的準確性,本設計提供了7 種預處理算法來增強數據,如圖4 所示。

圖4 預處理算法選擇Fig.4 Selection of preprocessing algorithm
在實際工程項目中,為了適應數據處理的要求,在對每一批數據進行預處理時,均可重復選擇不同的預處理算法,用戶可依據樣本數據采集的環境、時間、干擾來選擇預處理算法進行的先后以及每種算法使用的次數來對樣本數據進行處理,以增強其關聯性。
在光譜數據的處理中,SVM 的基本思想為發現集合邊緣上的一些數據,這部分數據被稱為支持向量(support vector)。通過在這些支持向量上發現被稱為決策面的平面,支持向量到決策面可以實現距離最大。在由簡化到復雜的SVM 模型訓練過程中,線性地劃分訓練樣本的情況下通過最大化硬間隔來學習線性可分割的支持向量機。如果訓練樣本可以近似線性分割,則通過最大化軟間隔來學習線性支持向量機。當訓練樣品線性不可分時,通過最大化核技術和軟間隔來學習非線性支持向量機。
在解決線性不可分問題時,SVM 可以通過引入核心函數巧妙地解決高階原始空間中的內積運算,并成功地解決了非線性分類問題。通過引入核心函數,線性不可分割的數據映射到高緯度的特征空間,使得數據在特征空間內變得不可分割。因此,SVM算法的核心函數是無限維度的高斯核心函數。
在調用處理算法后,會給用戶反饋樣本數據的準確率以及訓練得到的模型,如圖5 所示,用戶可以下載訓練好的模型,在網站后續功能中使用已建立的模型對新的數據進行預測。

圖5 結果反饋與模型下載Fig.5 Result feedback and model download
鮭魚和鱈魚樣品及其近紅外光譜由中華人民共和國連云港海關提供,樣品包括大馬哈魚、紅大馬哈魚、細鱗大馬哈魚、綠青鱈(Pollachius virens)、狹鱈(Theragra chalcogramma)、太平洋真鱈(Gadous macrocephaius)和黑線鱈(Melanogrammus aeglefinus)共500 個。將魚肉制成肉糜后使用臺式近紅外光譜儀采集,波長設置范圍為1750~2150 nm,波長間隔為2 nm,在室溫下進行實驗。每個樣品掃描3 次,取其平均光譜數據。由于原始光譜數量較多,按照4∶1的比例劃分訓練集和驗證集,結果如表1 所示。

表1 鮭魚鱈魚混合樣本統計Tab.1 Statistics of fishes mixed samples PCS
混合魚類樣品原始近紅外光譜如圖6 所示。

圖6 混合魚類樣品原始近紅外光譜Fig.6 Original NIR spectra of mixed fishes samples
本文構建的BPNN 模型由1 個輸入層、3 個隱藏層和1 個輸出層組成。輸入為未經預處理的原始數據。輸入層由201 個神經元組成,隱藏層激活函數采用ReLU 函數。輸出層使用Softmax 函數進行五分類輸出。BPNN 結構如表2 所示。

表2 BPNN 的結構參數Tab.2 Structure parameters of BPNN
性能評估指標(metrics)采用準確率(accuracy)和召回率(Recall),loss 值采用交叉熵損失函數(categorical crossentropy loss)。優化器為AdamOptimizer,學習率為0.001。從輸入中劃分20%作為驗證集。批量大小(batch size)設置為32。迭代次數為1000,基于驗證集的loss 值設置了提前終止(early stopping)功能,patience 設置為200。Early Stopping 是一種迭代次數截斷的方法來防止過擬合的方法,即在模型對訓練數據集迭代收斂之前停止迭代來防止過擬合。
經過調整隱藏層層數、神經元個數等步驟,最終得到基于5 種魚類近紅外光譜進行分類的BPNN模型的結果為:訓練集準確率82.19%,Loss 值為0.4839。測試集準確率為85.00%,Loss 值為0.4498,召回率RECmacro為82.00%,精確率PREmacro為86.64%,F1 分數F1macro為85.31%。訓練過程和結果表明,對于類似近紅外光譜的特征不明顯的數據集,BPNN 每次訓練的結果差異大,且易陷入局部最優,即Loss 值陷入局部極小值導致模型此次的準確率較低。
本文所提出的神經網絡模型對于鮭魚和鱈魚近紅外光譜這類特征性和差異性較差的數據進行分析是有效的,能夠在多次試驗下達到很好的性能指標。總之,基于NIRS 技術的BPNN 模型可以快速有效地識別鮭魚和鱈魚樣本且使用于不同場景。這為智慧化品質分類的識別提供了新的方法,同時也為其他種類樣品的分類檢測提供了幫助,BPNN 與NIRS 結合的技術很具有代表性和推廣意義。近紅外光譜作為一種有效的手段,能夠進行快速的冷凍魚肉分類判斷依據,減少了傳統的化學分析過程,不必再有化學污染,可以快速實時在線進行分析。未來,近紅外光譜將在更多領域發揮有效作用。