摘要 近紅外光譜(Near infrared spectroscopy, NIRS)技術廣泛應用于醫藥、食品和化工行業的定量分析中。本研究提出了一種基于多尺度擴張卷積神經網絡的近紅外光譜定量分析模型(Multi-scale dilated convolutionalspectral network, MDCSpecNet),該模型由一維卷積層、批歸一化層、最大池化層、多尺度擴張卷積神經網絡和全連接層組成,其中,一維卷積層和最大池化層對原始光譜做初步特征提取和特征降維,批歸一化層加快模型收斂,多尺度擴張卷積神經網絡對光譜特征進行提取與融合,全連接層對特征信息進行線性表示,增加模型的預測精度和泛化能力。利用公開的藥品、谷物、小麥、牛奶、汽油與三聚氰胺的近紅外光譜數據集建立MDCSpecNet 預測模型,并與一維卷積神經網絡(One dimensional convolution neural network,1D-CNN)、偏最小二乘法(Partial least squares, PLS)、支持向量機(Support vector regression, SVR)和極限學習機(Extreme learning machine, ELM)建模方法的預測結果進行對比分析。結果表明,在藥品活性成分(Active pharmaceutical ingredient, API)含量、谷物葡萄糖含量、谷物乳酸鹽含量、谷物水分含量、小麥蛋白質含量、汽油辛烷值以及三聚氰胺濁點預測中,相較于其它4 種建模方法, MDCSpecNet 模型的精度分別提升了16.0%、36.7%、25.1%、22.6%、34.2%、15.2%、22.6%(1D-CNN), 46.9%、66.7%、73.2%、65.8%、16.6%、15.9%、13.7%(PLS), 68.1%、70.6%、81.7%、73.9%、69.2%、77.9%、56.0%(SVR)和62.0%、20.4%、48.9%、85.6%、50.4%、13.0%、44.6%(ELM)。基于多尺度擴張卷積神經網絡的MDCSpecNet 模型解決了傳統近紅外光譜建模方法精度低和泛化能力差等問題,利用MDCSpecNet 模型進行多種物質的近紅外光譜定量分析是可行的。
關鍵詞 近紅外光譜;定量分析;擴張卷積;多尺度特征融合
相比于傳統的化學分析方法,近紅外光譜(Near infrared spectroscopy, NIRS)技術具有快速分析、無損檢測、操作簡便以及綠色無污染等顯著優勢,常被用于樣品的在線分析檢測[1]。為更好地將該技術應用于農業[2]、食品[3]和醫藥[4]等領域的定量分析,建立一種預測精度高且泛化能力強的近紅外光譜定量分析模型尤為重要。目前,近紅外光譜定量分析中常用的建模方法包括偏最小二乘法(Partial leastsquares, PLS)[5]、支持向量機回歸法(Support vector machine, SVM)[6]、極限學習機(Extreme learningmachine, ELM)[7]和BP 神經網絡(Back propagation neural network, BP)[8]等。這些傳統建模方法依賴于光譜數據的預處理操作,其定量分析過程復雜,光譜重要特征信息易丟失,同時可能引入無用噪聲,降低模型的預測精度。此外,當光譜變量存在多重共線性等問題時,傳統建模方法通常無法有效捕捉到變量間的潛在聯系,導致模型預測精度與泛化能力下降。
隨著深度學習的發展,卷積神經網絡(Convolution neural network, CNN)因其信息提取能力強、精度高而被用于圖像處理,后拓展至近紅外光譜分析中,其中,一維卷積神經網絡(One dimensional convolutionneural network, 1D-CNN)處理高維數據時優勢明顯,可端到端建模且無需復雜預處理[9-10]。陳俊名等[11]利用特征金字塔與自適應特征融合網絡提取到更豐富的光譜數據特征,基于該網絡建立的定量模型在處理玉米數據集時表現良好;Liu 等[12]利用光譜數據融合技術建立了一種1D-CNN 模型用于柴油中的甲醇與乙醇含量預測,其性能指標優于傳統的1D-CNN,于水等[13]將專家和門控模塊引入到1D-CNN 中,實現了谷物和玉米的多組分定量分析。上述定量模型多基于少量數據集構建,且精度和泛化能力均有待提高。
本研究提出了一種基于多尺度擴張卷積神經網絡的近紅外光譜定量分析模型(Multi-scale dilatedconvolutional spectral network, MDCSpecNet),在擴張卷積神經網絡(Dilated convolution neural network,DCNN)中引入多尺度特征融合(Multi-scale feature fusion, MSFF)思想[14],對近紅外光譜數據的全局有效特征進行提取。以藥片、谷物、小麥、牛奶、汽油以及三聚氰胺數據集為研究對象對模型進行評估。結果表明,與1D-CNN、PLS、SVR 和ELM 相比, MDCSpecNet 模型的預測精度以及泛化能力等更優。
1 實驗部分
1.1 數據來源
1.1.1 藥品數據集
藥品數據集源自https://eigenvector.com/wp-content/uploads/2019/06,該數據集由兩臺丹麥Foss 公司產的儀器(NIRSystems Multitab Spectrometers)采集。本研究使用國際發展研究中心(International DevelopmentResearch Centre, IDRC)2002“Shootout”數據集的655 個藥片樣本,波長范圍為600~1898 nm,波長間隔為2 nm,共650 個波長點。藥品活性成分(Active pharmaceutical ingredient, API)含量統計見表1,藥品數據集光譜如圖1A 所示。
1.1.2 谷物數據集
谷物數據集源自https://eigenvector.com/wp-content/uploads/2021/04,本研究采用谷物庫(Cereals GrainLibrary, CGL)中CGL 數據集的231 個谷物樣本的NIRS 數據,波長范圍為1104~2495 nm,波長間隔為12 nm,共117 個波長點。谷物的酪蛋白、葡萄糖、乳酸鹽和水分含量統計見表1,谷物數據集光譜如圖1B 所示。
1.1.3 小麥數據集
小麥數據集源自https://www.cnirs.org/content.aspx?page_id=86amp;club_id=409746,本研究采用IDRC2016“Shootout”數據集中248 個小麥(Wheat)樣本的NIRS 數據,波長范圍為730~1100 nm,波長間隔為0.5 nm,共741 個波長點。小麥蛋白質含量統計見表1,小麥數據集的光譜如圖1C 所示。
1.1.4 牛奶數據集
牛奶數據集源自http://code.google.com/p/multivariate-calibration/downloads/list,本研究使用牛奶(Milk)數據集的67 個樣本數據,各樣本光譜掃描32 次并取其平均值,掃描間隔為4 cm–1,波長范圍為1000~2500 nm。牛奶蛋白質含量統計見表1,牛奶數據集光譜如圖1D 所示。
1.1.5 汽油數據集
汽油數據集源自https://github.com/qli067542/NIR,本研究采用汽油(Gasoline)數據集的60 個樣本,波長范圍為900~1700 nm,波長間隔為2 nm,共401 個波長點。汽油辛烷值統計見表1,汽油數據集的光譜如圖1E 所示。
1.1.6 三聚氰胺數據集
三聚氰胺數據集源自https://github.com/RNL1/Melamine-Dataset,本研究選擇三聚氰胺(Melamine)數據集的3032 個樣本進行實驗,波長范圍為1599~1803 nm,每個樣本的光譜含有225 個波長點。三聚氰胺數據的濁點讀數統計見表1,該數據集的光譜如圖1F 所示。
以上數據集均采用Kennard-Stone(K-S)方法進行劃分,將數據集按8∶2 的比例劃分為訓練集和測試集,統計結果見表1。
1.2 模型原理
1.2.1 模型結構
近紅外光譜數據變量多且含有大量噪聲,傳統卷積操作在提取光譜序列中關鍵信息時的感受野小,容易丟失重要特征,而擴張卷積通過在特征序列中添加填充零,使其與普通卷積相比,在包含相同的參數量的同時感受野顯著增大。這一特性有助于減少模型參數量,提升網絡對光譜數據長距離特征的捕捉能力,從而使模型能有效學習光譜樣本與其對應性質之間的復雜關系。
本研究提出的MDCSpecNet 模型由輸入層卷積、批歸一化層、最大池化層、擴張卷積神經網絡、展平層和全連接層組成,其結構圖如圖2 所示。其中,輸入層卷積核數目為32,卷積核大小為5×1;批歸一化層的輸入維度為32;最大池化層窗口大小為2,縮小比例因數為2;多尺度擴張卷積神經網絡由n 個具有不同擴張率的并聯擴張卷積和n 個具有不同擴張率的串聯擴張卷積組成,卷積核數目均為32,卷積核大小均為3×1;FC 為展平層;全連接層輸出維度為1,無激活函數。
為了提升擴張卷積神經網絡對光譜信息的提取能力,本研究在擴張卷積神經網絡中引入了多尺度特征融合思想,建立了一種多尺度擴張卷積神經網絡(Multi-scale dilated convolution neural network),其結構圖如圖3 所示。在該網絡中,光譜特征通過不同擴張率的擴張卷積提取多尺度特征,并將得到的多尺度的特征序列Add 1、Add 2、Add 3 至Add n 進行交叉求和操作,生成特征信息Add,再由串聯擴張卷積進行二次特征提取,其中,不同的Block 代表不同擴張率的擴張卷積。
MDCSpecNet 模型訓練過程中使用Adam 優化器,訓練輪次為200,訓練批次大小為16,初始的學習率設定為0.001,同時,將學習率衰減速率設定為0.5,使用均方誤差(Mean squared error, MSE)損失函數。MSE 定義如下:
其中, yi 和yi 分別是第i 個樣本的真實值和模型預測值;n 是樣本數量。
1.2.2 算法原理
基于擴張卷積神經網絡搭建MDCSpecNet 模型,光譜數據依次通過輸入卷積層、池化層、多尺度擴張卷積網絡與全連接層,建立近紅外光譜數據X 與真實值Y 之間的映射關系,模型算法流程如圖4 所示。首先,采集樣本的近紅外光譜數據及其真實值,劃分數據集并初始化模型參數后,開始訓練模型。原始光譜進入模型后,先由輸入端卷積層初步處理其光譜特征,隨即進行批歸一化操作,再經池化層降維。處理后的光譜特征序列進入多尺度擴張卷積網絡,通過其并聯結構提取不同感受野的光譜特征,特征融合操作保留不同尺度的互補特征信息,再由串聯擴張卷積進行深層抽象特征的捕捉,抽取的關鍵特征序列經展平層處理為一維特征序列,再經全連接層線性表示之后得到預測值。計算預測值與真實值的MSE,并由Adam 優化器對模型參數進行調整,重復以上過程直至訓練輪次達到設定值,最終保存最優的MDCSpecNet 模型。
1.3 模型評價
本研究采用的模型評價指標分別為均方根誤差(Root-mean-square error, RMSE)、相關系數(Coefficientof determination, R2)、相對分析誤差(Residual predictive deviation, RPD)。各評價指標的計算公式如下:
其中, yi 和yi 分別為數據集的第i 個樣本的真實值和模型預測值;y 為數據集樣本真實值的平均值;N為數據集樣本數;SD 為預測集樣本的標準差;式(4)中的RMSE 為測試集均方根誤差。
2 結果與討論
首先對建立的定量模型中的擴張卷積神經網絡的結構與參數進行優化,以獲得最佳的定量模型。隨后在藥品、谷物、小麥、牛奶、汽油與三聚氰胺數據集中對MDCSpecNet、1D-CNN、PLS、SVR 和ELM 建模方法的預測結果進行對比分析,實驗設計如圖5 所示。其中, 1D-CNN 含有7 個卷積層,各卷積層后均有1 個池化層和1 個批歸一化層,由全連接層輸出預測值,其卷積核大小均為5,步長為1,卷積核數量均為32。PLS 使用5 倍交叉驗證優化潛在變量(Latent variables, LV), 6 種數據集對應的潛在變量分別為8、10、8、6、7、8,均采用Sigmoid 激活函數。SVR 使用網格搜索進行超參數優化,從0.001、0.01、0.1、1、10、100、1000 和0.0001、0.001、0.01、0.1、1、10、100 中選取其Gamma 參數和核系數,并使用RBF 作為核函數。ELM 在6 種數據集上對應的隱藏層參數分別為22、23、20、18、19 和20。所有模型均在Pytorch2.0.0 框架和Sklearn1.0.2 框架以及Numpy 和Pandas 數據庫等環境下搭建,并在NVIDIA GeForce GTX3090 上訓練。
2.1 模型優化
2.1.1 擴張卷積神經網絡中卷積層數對模型性能的影響
為建立預測性能最佳且網絡結構合理的定量模型,以汽油數據集為例,建立MDCSpecNet 模型,并將模型中擴張卷積神經網絡的Block 層數對預測性能的影響進行對比分析。在實驗中設定Block 層數為0~12,同時從0 開始增加擴張卷積網絡中并聯與串聯的Block 層,間隔層數為2,擴張率為1~13,間隔為2。模型中輸入卷積層、批歸一化層、最大池化層、展平層與全連接層的結構與參數均保持不變,共進行7 組實驗,實驗結果見表2。
由表2 可知,當Block 層數小于6 時,隨著Block 層數增加,模型測試集的RMSE 逐漸下降,且模型的RPD 值增大;當Block 層數大于6 時,隨著Block 層數增加,模型測試集RMSE 開始增大, RPD 值減小且模型參數量驟增,此時模型精度下降是由于擴張卷積神經網絡的深度增加,導致模型對新數據的泛化能力變差,模型出現過擬合現象。當Block 層數為6 時,模型的性能最佳且參數量少,為平衡模型參數量與預測性能,選擇Block 層數為6 的網絡結構進行后續實驗。
2.1.2 不同擴張率設定的模型性能對比
以牛奶數據集為例,對MDCSpecNet 中擴張卷積神經網絡的不同擴張率設定下的模型性能進行分析,選取三組擴張率:Dilation rate=1, 3, 5, 7, 9, 11;Dilation rate=3, 5, 7, 9, 11, 13;Dilation rate=5,7, 9, 11, 13, 15,模型中其它層及其參數均保持不變,模型的預測結果如圖6 所示。
由圖6 可知,隨著擴張率增加, MDCSpecNet 模型訓練集的RMSE 和測試集的RMSE 均增大,模型精度降低,較大的擴張率使網絡具有更大的感受野,能學習到更遠距離的特征,但較大的擴張率也會引起過多的零填充,使得網絡中過多的權重被用于零填充,而不是用于光譜特征,導致網絡遺漏近距離特征信息,從而使模型精度降低。因此,選擇合適的擴張率有利于建立精度更高的定量模型,后續實驗均選取Dilation rate=1, 3, 5, 7, 9, 11 進行。MDCSpecNet 模型參數設計見表3。
2.2 各數據集下不同建模方法結果分析
為驗證模型的預測性能,采用MDCSpecNet、1D-CNN 、PLS、SVR 和ELM 模型對藥品、谷物、小麥、牛奶、汽油和三聚氰胺的近紅外光譜數據建模,并對各模型在不同數據集中的預測結果(表4)進行對比分析。
由表4 可知, MDCSpecNet 模型在藥品API 含量、谷物葡萄糖含量、谷物乳酸鹽含量、谷物水分含量、小麥蛋白質含量、汽油辛烷值與三聚氰胺濁點預測中表現最佳,其測試集的RMSE 值分別為0.0068、1.1751、1.0106、0.2340、0.4103、0.2654 和2.8533, RPD 值分別為7.5908、13.6421、19.6000、19.7147、5.0406、5.7544 和5.9236。相較于其它4 種建模方法, MDCSpecNet 模型測試集的RMSE 分別下降了16.0%、36.7%、25.1%、22.6%、34.2%、15.2%、22.6%(1D-CNN), 46.9%、66.7%、73.2%、65.8%、16.6%、15.9%、13.7%(PLS), 68.1%、70.6%、81.7%、73.9%、69.2%、77.9%、5.06%(SVR)和62%、20.4%、48.9%、85.6%、50.4%、13.0%、44.6%(ELM)。
在6 種數據集的預測中, 1D-CNN、PLS、SVR 和ELM 的訓練集RMSE 與測試集RMSE 的變化較明顯,均有一定程度的過擬合現象,而MDCSpecNet 模型由于采用小尺寸卷積核并使用擴張卷積替代普通卷積,在不減少感受野的同時降低了模型的參數量,同時采用池化與正則化操作,避免了模型過擬合。在藥品、谷物、小麥數據集以及三聚氰胺數據集中, MDCSpecNet 模型的RPD 值明顯優于1D-CNN、PLS、SVR 與ELM,表明在多種數據集上,模型的全連接層能穩定的對擴張卷積神經網絡輸出的關鍵光譜特征進行線性表示,使得MDCSpecNet 模型具有較好的泛化能力。
為進一步對比分析各模型在同一數據集上的預測結果,基于小麥數據集使用5 種建模方法進行建模,對預測結果作散點圖(圖7),其中直線為預測值與真實值的擬合直線。相比于其它4 種建模方法,MDCSpecNet 的預測效果更佳。MDCSpecNet 模型的網絡結構能夠準確提取原始光譜中的關鍵特征,從而有效表征光譜與真實值之間的關系,因此,對小麥蛋白質含量真實值的擬合能力優于1D-CNN、PLS、SVR 和ELM。由圖8 中基于三聚氰胺數據集的MDCSpecNet 模型訓練集損失隨Epoch 變化的曲線可知,模型可在200 輪次內收斂,表明其可高效學習不同物質光譜特征與真實值的關聯。
綜上所述, MDCSpecNet 模型的多尺度擴張卷積神經網絡可準確高效地提取光譜數據的短程和長程信息,同時避免了模型的過擬合現象。在6 種數據集的預測中, MDCSpecNet 模型均表現出較高的預測精度和較好的泛化能力,可用于多種物質的定量分析。
3 結論
MDCSpecNet 作為一種近紅外光譜定量分析模型,在擴張卷積神經網絡中加入了多尺度特征融合思想,通過多尺度擴張卷積神經網絡提取和融合多尺度光譜特征,可對多種近紅外光譜樣本進行定量分析。MDCSpecNet 模型的輸入層通過卷積操作對光譜信息進行初步提取,批歸一化層加速了模型收斂,池化層有效消除了原始光譜中的噪聲,從而增強了光譜特征信息。不同擴張率的擴張卷積從多個尺度捕捉光譜特征,并實現多尺度信息的融合。全連接層能很好地將提取到的關鍵特征進行線性表示,以建立原始光譜與樣本真實值之間的聯系。在多種數據集上建立MDCSpecNet 模型,其預測結果顯示,相較于PLS、1D-CNN、SVR 和ELM, MDCSpecNet 模型具有更好的預測精度與泛化能力。本研究結果表明,采用MDCSpecNet 進行近紅外光譜定量建模是可行的。
References
[1] CAMPOS M I, DEBáN L, ANTOLíN G, PARDO R. Meat Sci. , 2023, 200: 109167.
[2] GUAN Y, YE T, YI Y, HUA H, CHEN C. J. Pharm. Biomed. Anal. , 2022, 207: 114435.
[3] ZHANG H, HU X, LIU L, WEI J, BIAN X. Spectrochim. Acta, Part A, 2022, 270: 120841.
[4] WU L, GAO Y, REN W, SU Y, LI J, DU Y, WANG Q, KUANG H. Spectrochim. Acta, Part A, 2022, 264: 120327.
[5] MANSOURI M A, KHARBACH H M, EI MAOUARDI M, BARRA I, BOUKLOUZE A. Spectrochim. Acta, Part A, 2023,303: 123268.
[6] DAI Y, DAI Z, GUO G, WANG B. Anal. Lett. , 2023, 56(5): 730-743.
[7] BIAN X H, LI S J, FAN M R, GUO Y G, CHANG N, WANG J J. Anal. Methods, 2016, 8(23): 4674-4679.
[8] CHEN H, LIU Z, GU J, AI W, WEN J, CAI K. Anal. Methods, 2018, 10(41): 5004-5013.
[9] LIU Kun, YIN Hui, JIANG Jun-Feng, LIU Tie-Gen, ZHAO Cheng-Wei. Laser Optoelectron. Prog. , 2024, 61(3): 52-61.
劉琨, 尹慧, 江俊峰, 劉鐵根, 趙成偉. 激光與光電子學進展, 2024, 61(3): 52-61.
[10] WANG Kun, SHI Yong, LIU Chi-Chi, XIE Yi, CAI Ping, KONG Song-Tao. Infrared Technol. , 2021, 43(8): 757-765.
王堃, 史勇, 劉池池, 謝義, 蔡萍, 孔松濤. 紅外技術, 2021, 43(8): 757-765.
[11] CHEN Jun-Ming, HE Zheng-Yang, LI Ling. Spectral Prediction Regression Model Based on Multi-Scale Feature Fusion.Proc. Chin. Autom. Congr. , 2022: 399-404.
陳俊名, 何正楊, 李靈. 基于多尺度特征融合的光譜預測回歸模型. 2022中國自動化大會論文集, 2022: 399-404.
[12] LIU S, WANG S, HU C, KONG D, YUAN Y. Spectrochim. Acta, Part A, 2023, 291: 122371.
[13] YU Shui, HUAN Ke-Wei, WANG Lei, LIU Xiao-Xi, HAN Xue-Yan. Chin. J. Anal. Chem. , 2024, 52(5): 695-705.
于水, 宦克為, 王磊, 劉小溪, 韓雪艷. 分析化學, 2024, 52(5): 695-705.
[14] QIAN L, HUANG H, XIA X, LI Y, ZHOU X. Visual Comput. , 2023, 39(11): 5953-5969.
國家自然科學基金項目(No. 62203285)資助。