基于多階導數(shù)拉曼光譜組合技術(shù)的礦物油模式分類

2021-05-27 03:38:04衛(wèi)辰潔王繼芬管建皓

分析測試學報 2021年5期

關(guān)鍵詞：分類模型

衛(wèi)辰潔，王繼芬*，張波，董澤，管建皓

(1.中國人民公安大學偵查學院，北京 102600；2.伊犁州伊寧市公安局，新疆伊寧 835000;3.中國人民公安大學治安學院，北京 102600；4.中國人民公安大學犯罪學學院，北京 102600)

礦物油的檢驗與鑒定是法庭科學領(lǐng)域的重要工作之一。其中，重質(zhì)礦物油是一種由石油分餾且沸點較高的礦物油，在日常生活中被作為工業(yè)原料廣泛應用于機械潤滑、汽車修理、交通運輸?shù)阮I(lǐng)域。它的成分復雜、種類繁多，不同品牌和類別的重質(zhì)礦物油在組成成分和加工工藝上存在很多差異[1-2]。在縱火、焚尸、兇殺、交通肇事等案件現(xiàn)場中，經(jīng)常會提取到相關(guān)的物證。通過對現(xiàn)場提取的重質(zhì)礦物油物證和犯罪嫌疑人處提取的重質(zhì)礦物油物證進行比對檢驗，可為確定犯罪嫌疑人提供線索和依據(jù)。

光譜組合技術(shù)在分析測試領(lǐng)域具有良好的應用前景。通過光譜組合技術(shù)將多種光譜數(shù)據(jù)矩陣進行結(jié)合，可以避免單一光譜和數(shù)據(jù)矩陣信息不夠豐富的缺點，綜合多種數(shù)據(jù)所包含的信息進行分析，從而獲得更全面有效的光譜和數(shù)據(jù)信息。利用不同數(shù)據(jù)的冗余特征與互補特征重新進行信息的組合，克服了單獨一種光譜或一種數(shù)據(jù)存在的弊端，實現(xiàn)了光譜特征或?qū)獢?shù)據(jù)特征的優(yōu)勢互補，可達到優(yōu)化實驗數(shù)據(jù)的目的。目前，針對光譜數(shù)據(jù)組合的研究較少，在法庭科學領(lǐng)域更是少之又少。胡翼然等[3]利用光譜數(shù)據(jù)組合的策略對絨柄牛肝菌的產(chǎn)地進行探究，通過結(jié)合隨機森林算法對多種特征值進行提取，比較其對算法分類準確率的影響，實現(xiàn)了對絨柄牛肝菌產(chǎn)地的快速、準確和廉價的鑒別。傅里葉變換拉曼光譜分析法結(jié)合近紅外激光拉曼技術(shù)和傅里葉變換技術(shù),具有不損壞樣品、掃描速度快、靈敏度高、操作簡單、樣品用量少等特點，在化工材料[4-5]、食品安全[6]、環(huán)境污染[7-8]、藥品原輔料[9]等檢測領(lǐng)域得到應用。在法庭科學領(lǐng)域，傅里葉變換拉曼光譜分析技術(shù)應用相對較少，主要用于幾種常見物證的檢驗[10-11]。

基于快速、無損、準確檢驗物證的目的，本文利用傅里葉變換拉曼光譜技術(shù)采集了重質(zhì)礦物油樣本的原始光譜、一階導數(shù)譜和二階導數(shù)譜數(shù)據(jù)，通過構(gòu)建分類模型的方法對單獨的光譜數(shù)據(jù)和組合后的光譜數(shù)據(jù)的分類效果進行比較，以期達到對重質(zhì)礦物油樣本的準確鑒別和區(qū)分，為光譜組合技術(shù)在法庭科學及其他分析測試領(lǐng)域的應用提供一定的借鑒。

表1 80個樣本的基本信息Table 1 The details of 80 samples

1 實驗部分

1.1 實驗樣本

在山東、北京、河南等地區(qū)的機械加工廠和車輛維修廠收集到80種不同型號、不同廠家的重質(zhì)礦物油樣本，主要包括汽機油、柴機油、潤滑脂、齒輪油、液壓油5種類別和多種品牌(如表1所示)。

1.2 光譜采集

樣本預處理：對收集到的80種不同重質(zhì)礦物油樣本進行編號。

光譜參數(shù)：采用傅里葉變換紅外-拉曼光譜儀進行光譜采集(具體信息如表2所示)。掃描次數(shù)為64次，光譜分辨率為8.000 cm-1，測量范圍為3 600～400 cm-1。以汽機油為例，圖1A展示了一種典型汽機油的光譜圖。

多階求導：利用光譜數(shù)據(jù)處理軟件OMNIC 8.2對采集的光譜數(shù)據(jù)進行多階求導。由于光譜數(shù)據(jù)受噪聲影響較小，采用不過濾的方式，選擇最簡單的“First difference derivative”進行求導。分別對原始光譜數(shù)據(jù)進行一階導數(shù)和二階導數(shù)處理，保留光譜原始數(shù)據(jù)、一階導數(shù)數(shù)據(jù)和二階導數(shù)數(shù)據(jù)矩陣。圖1B和圖1C分別展示了該種典型汽機油的一階導數(shù)與二階導數(shù)的光譜圖。

實驗環(huán)境：具備暗室條件，不受陽光直射；無強振動源，無電磁干擾。

表2 儀器的基本信息Table 2 The details of instrument

圖1 典型汽機油的拉曼光譜圖(A)、一階導數(shù)拉曼光譜圖(B)及二階導數(shù)拉曼光譜圖(C)
Fig.1 Raman spectra(A),Raman spectra of the first derivative(B) and Raman spectra of the second derivative(C) of typical turbine oil

1.3 建模原理

徑向基函數(shù)神經(jīng)網(wǎng)絡模型(Radial basis function neural network，RBF)[12]屬于神經(jīng)網(wǎng)絡模型中的一種。作為一種局部逼近網(wǎng)絡，它具有訓練簡潔、訓練速度快、可以很快逼近任意非線性函數(shù)的特點。RBF包含3層結(jié)構(gòu)，即輸入層、隱藏層和輸出層。輸入層僅負責輸入數(shù)據(jù)；隱藏層作用函數(shù)為徑向基函數(shù)，對輸入數(shù)據(jù)每層的網(wǎng)絡可能只有一個神經(jīng)元被激活，所以屬于局部逼近；輸出層的每個神經(jīng)元屬于線性求和單元，輸出的是隱藏層各單元輸出的加權(quán)和。RBF的基本思想是通過映射將低維度線性不可分的原始數(shù)據(jù)投至高維空間，從而使數(shù)據(jù)線性可分。

K最近鄰算法(K nearest neighbor algorithm，KNN)作為一種常見分類和回歸模型，具有理論成熟、準確度高、可用于非線性分類等特點。其具體過程為，通過計算每個樣本點的距離，對所有距離進行排序，選取前K個距離最小的樣本，根據(jù)所選取的樣本標簽進行投票，從而確定樣本的歸類。其中，K值的選擇尤為重要，K值較大時能夠減小噪聲影響，但會導致類別界線變模糊；K值較小時“學習”的近似誤差會減小，但容易導致過度擬合。實際應用中，一般選用交叉驗證等啟發(fā)式技術(shù)來選取最優(yōu)的K值。

實驗采用Statistical Product and Service Solutions-20數(shù)據(jù)處理軟件對保留的多階導數(shù)光譜數(shù)據(jù)構(gòu)建分類模型。

2 結(jié)果與討論

2.1 徑向基函數(shù)神經(jīng)網(wǎng)絡模型(RBF)

為了消除數(shù)據(jù)之間的量綱關(guān)系，方便函數(shù)模型的比較，首先對原始光譜、一階導數(shù)譜和二階導數(shù)譜數(shù)據(jù)進行標準化處理，并將標準化值作為分類的變量。實驗以重質(zhì)礦物油樣本的5種類別為依據(jù)，即汽機油、柴機油、潤滑脂、齒輪油、液壓油。將80個重質(zhì)礦物油樣本分為訓練樣本和測試樣本，比例分別為70%和30%，即56個訓練樣本和24個測試樣本。運用RBF模型分別對單獨的原始光譜、一階導數(shù)譜、二階導數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導數(shù)譜、原始光譜+二階導數(shù)譜、一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)進行分析，得到樣本的分類結(jié)果(見表3)。

表3 分類結(jié)果摘要Table 3 Summary of classification results

圖2 原始變量的重要性Fig.2 Importance of original variable

由表3可以看出，將原始光譜與導數(shù)光譜組合之后，模型訓練集和測試集的分類準確率均有明顯提升,但總體分類準確率均較低，實驗結(jié)果不太理想。以原始光譜數(shù)據(jù)為例，圖2展示了對原始光譜構(gòu)建的RBF模型中各變量的正態(tài)化重要性程度。一般認為，正態(tài)化重要性大于60%為比較重要，在40%～60%之間其次，小于40%則重要性程度不明顯。從圖中可以看出，原始光譜數(shù)據(jù)中存在一半以上的變量對構(gòu)建分類模型重要性程度較低。分析認為，大量的原有光譜數(shù)據(jù)之間存在較強的線性相關(guān)性且冗余信息較多，從而影響了模型分類的準確率。

主成分分析(PCA)作為一種數(shù)據(jù)降維的方法，可以有效地處理變量之間的多重共線性問題。尤其是面對大量數(shù)據(jù)時，PCA可以提取原始數(shù)據(jù)的主要成分，用盡可能少的新變量來概括原有變量的特征[13-15]。基于此，實驗通過Statistical Product and Service Solutions-20數(shù)據(jù)處理軟件采用PCA對原始光譜數(shù)據(jù)和導數(shù)光譜數(shù)據(jù)進行降維，提取數(shù)據(jù)的主要特征后再次進行分類。

表4為原始光譜數(shù)據(jù)的PCA結(jié)果。從表中可以看出，每個新變量對原始數(shù)據(jù)的解釋方差不同。在實際應用中，需選取解釋原始數(shù)據(jù)方差比例高的變量作為主成分。通常有兩個判斷標準，特征根大于1且滿足累計方差貢獻率大于85%[16]。因此，選取前10個成分作為主成分，累計方差貢獻率為98.647%，即前10個成分解釋了98.647%的總方差，可以涵蓋原始數(shù)據(jù)98.647%的信息。同樣條件下，對一階導數(shù)譜、二階導數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導數(shù)譜、原始光譜+二階導數(shù)譜、一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)提取主成分，分別提取了前39個主成分，累計方差貢獻率均達到100%，主成分提取結(jié)果理想。

表4 主成分分析結(jié)果摘要Table 4 Summary of principal component analysis results

分別對提取主成分后的原始光譜、一階導數(shù)譜、二階導數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導數(shù)譜、原始光譜+二階導數(shù)譜、一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)構(gòu)建RBF模型，得到了分類結(jié)果(見表3)。

圖3 主成分變量的重要性Fig.3 Importance of principal component variables

由表3可知，通過PCA方法降維后，RBF模型的準確率明顯提高。圖3展示了對原始光譜數(shù)據(jù)進行PCA方法降維后提取的主成分在RBF分類模型中的正態(tài)化重要性。從圖中可以看出，在此次模型預測中，PCA提取的10個主成分對模型的重要性均在40%以上，即10個主成分均對模型的分類比較重要。與原有變量相比(見圖2)，主成分在模型分類中的重要性更為明顯。分析認為，PCA降維后的數(shù)據(jù)消除了原有數(shù)據(jù)的線性相關(guān)性和冗余信息，使得提取的主成分不僅可以代表原有數(shù)據(jù)，而且更適用于模型分類。在對組合的原始光譜+一階導數(shù)譜、原始光譜+二階導數(shù)譜、一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)進行分類中，訓練集的分類準確率分別達到97.0%、96.7%、100%，測試集的分類準確率分別達到85.7%、90.0%、100%，遠高于單獨的原始光譜、一階導數(shù)譜和二階導數(shù)譜數(shù)據(jù)的分類效果，且分類結(jié)果理想。其中，基于一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)的PCA+RBF模型的分類準確率最高，對重質(zhì)礦物油樣本的5種類別均實現(xiàn)準確分類，分類準確率達到100%。分析認為，原始光譜與導數(shù)光譜組合后，數(shù)據(jù)信息結(jié)合了兩者各自的優(yōu)勢，盡可能多地反映了重質(zhì)礦物油樣本不同類別之間的差異，達到了優(yōu)勢互補的目的。

圖4 K值選擇的錯誤率Fig.4 The error rate of K value selection

2.2 K近鄰算法(KNN)模型

在KNN分類中，運用訓練樣本即為測試樣本的方法進行交互驗證[17]，并采用交叉驗證方法選擇最優(yōu)的K值。以原始光譜PCA提取主成分后的數(shù)據(jù)為例，圖4展示了交叉驗證中K值選擇的錯誤率。從圖中可以看出，K值在1～6時，選擇錯誤率在0.4以下浮動，且在K值為5時錯誤率最低，為0.275 8；當K值大于6時，錯誤率明顯提升，均在0.4以上。因此，在該數(shù)據(jù)下構(gòu)建KNN分類模型時，選擇K=5作為最優(yōu)K值。同樣條件下，交叉驗證分別選擇K為3、1、22、5、3作為一階導數(shù)譜、二階導數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導數(shù)譜、原始光譜+二階導數(shù)譜、一階導數(shù)譜+二階導數(shù)譜PCA提取主成分后數(shù)據(jù)的最優(yōu)K值；并分別選擇K為1、4、2、2、4、3作為原始光譜、一階導數(shù)譜、二階導數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導數(shù)譜、原始光譜+二階導數(shù)譜、一階導數(shù)譜+二階導數(shù)譜的原有數(shù)據(jù)的最優(yōu)K值。

基于交叉驗證選取的K值，對原始光譜、一階導數(shù)譜、二階導數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導數(shù)譜、原始光譜+二階導數(shù)譜、一階導數(shù)譜+二階導數(shù)譜的原有數(shù)據(jù)構(gòu)建KNN分類模型，并對PCA降維后的數(shù)據(jù)進行KNN分類(見表3)。

從表3可以看出，KNN模型對重質(zhì)礦物油樣本的分類結(jié)果并不理想，無論是PCA降維之后，還是原始光譜與導數(shù)光譜組合之后，分類準確率均較低。分析認為，KNN分類模型受到樣本不均勻的影響。由于80個實驗樣本包括了40個汽機油類型、22個柴機油類型、8個潤滑脂類型、6個齒輪油類型和4個液壓油類型，其最大樣本數(shù)和最小樣本數(shù)的相差較大，使得KNN模型分類時更多的將預測樣本側(cè)重于樣本數(shù)多的汽機油類型，從而導致不能準確分類，影響了總體分類的準確率。

2.3 不同品牌的分類模型

通過對組合的光譜數(shù)據(jù)建立不同的分類模型，發(fā)現(xiàn)基于一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)的PCA+RBF模型分類效果最好。因此，實驗采用最優(yōu)模型對同種類別下不同品牌的重質(zhì)礦物油樣本進行分類(見表5)。

表5 PCA+RBF分類結(jié)果摘要Table 5 Summary of PCA+RBF classification results

由表5可以看出，基于一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)的PCA+RBF模型對于汽機油類別下的品牌，測試集樣本均實現(xiàn)了準確分類，分類準確率為100%；對于訓練集樣本，富田和帝倫堡兩種品牌實現(xiàn)了準確區(qū)分，分類準確率均為100%，而殼牌、美孚和德弗特3種品牌的訓練集樣本存在誤判，分類準確率分別為90.0%、94.4%和85.7%，從而使得訓練集樣本的總體分類準確率為92.5%，即40個汽機油樣本中存在3個樣本的品牌類型被錯誤判斷。分析認為，在模型的訓練中受到樣本數(shù)較少的影響，發(fā)生了一定概率的誤判。對于柴機油、潤滑脂、齒輪油、液壓油4種類別下的不同品牌，該模型均實現(xiàn)了準確分類，訓練集和測試集樣本的分類準確率均為100%，實驗結(jié)果理想。這表明，基于一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)的PCA+RBF模型可實現(xiàn)對不同類別和不同品牌重質(zhì)礦物油樣本的準確區(qū)分，且滿足快速、準確、無損的要求。

3 結(jié) 論

本文利用傅里葉變換拉曼光譜技術(shù)結(jié)合化學計量學構(gòu)建分類模型，對單獨的光譜數(shù)據(jù)和組合后的光譜數(shù)據(jù)分類效果進行比較。結(jié)果表明，基于組合后的一階導數(shù)譜+二階導數(shù)譜數(shù)據(jù)構(gòu)建的PCA+RBF分類模型的分類準確率更高。在對不同類別的重質(zhì)礦物油樣本進行分類時，訓練集樣本和測試集樣本的分類準確率均達100%；在對同種類別下不同品牌的重質(zhì)礦物油樣本分類時，訓練集樣本誤判3個，總體分類準確率達到92.5%，測試集樣本的分類準確率均達100%，實驗結(jié)果最理想。本文提出的光譜數(shù)據(jù)組合的方法與單獨的光譜數(shù)據(jù)相比，包含了更充分的樣本信息，分類準確率更高，且滿足法庭科學領(lǐng)域?qū)ξ镒C快速、準確、無損的鑒定需求。在下一步的實驗中，將對更多種類和品牌的重質(zhì)礦物油進行研究，進一步探討光譜組合技術(shù)在鑒定重質(zhì)礦物油物證中的優(yōu)勢，以期實現(xiàn)對法庭科學領(lǐng)域重質(zhì)礦物油物證的準確鑒別和區(qū)分，為光譜組合技術(shù)在法庭科學及其他分析測試領(lǐng)域的應用提供一定借鑒。