衛辰潔,王繼芬*,張 波,董 澤,管建皓
(1.中國人民公安大學 偵查學院,北京 102600;2.伊犁州伊寧市公安局,新疆 伊寧 835000;3.中國 人民公安大學 治安學院,北京 102600;4.中國人民公安大學 犯罪學學院,北京 102600)
礦物油的檢驗與鑒定是法庭科學領域的重要工作之一。其中,重質礦物油是一種由石油分餾且沸點較高的礦物油,在日常生活中被作為工業原料廣泛應用于機械潤滑、汽車修理、交通運輸等領域。它的成分復雜、種類繁多,不同品牌和類別的重質礦物油在組成成分和加工工藝上存在很多差異[1-2]。在縱火、焚尸、兇殺、交通肇事等案件現場中,經常會提取到相關的物證。通過對現場提取的重質礦物油物證和犯罪嫌疑人處提取的重質礦物油物證進行比對檢驗,可為確定犯罪嫌疑人提供線索和依據。
光譜組合技術在分析測試領域具有良好的應用前景。通過光譜組合技術將多種光譜數據矩陣進行結合,可以避免單一光譜和數據矩陣信息不夠豐富的缺點,綜合多種數據所包含的信息進行分析,從而獲得更全面有效的光譜和數據信息。利用不同數據的冗余特征與互補特征重新進行信息的組合,克服了單獨一種光譜或一種數據存在的弊端,實現了光譜特征或對應數據特征的優勢互補,可達到優化實驗數據的目的。目前,針對光譜數據組合的研究較少,在法庭科學領域更是少之又少。胡翼然等[3]利用光譜數據組合的策略對絨柄牛肝菌的產地進行探究,通過結合隨機森林算法對多種特征值進行提取,比較其對算法分類準確率的影響,實現了對絨柄牛肝菌產地的快速、準確和廉價的鑒別。傅里葉變換拉曼光譜分析法結合近紅外激光拉曼技術和傅里葉變換技術,具有不損壞樣品、掃描速度快、靈敏度高、操作簡單、樣品用量少等特點,在化工材料[4-5]、食品安全[6]、環境污染[7-8]、藥品原輔料[9]等檢測領域得到應用。在法庭科學領域,傅里葉變換拉曼光譜分析技術應用相對較少,主要用于幾種常見物證的檢驗[10-11]。
基于快速、無損、準確檢驗物證的目的,本文利用傅里葉變換拉曼光譜技術采集了重質礦物油樣本的原始光譜、一階導數譜和二階導數譜數據,通過構建分類模型的方法對單獨的光譜數據和組合后的光譜數據的分類效果進行比較,以期達到對重質礦物油樣本的準確鑒別和區分,為光譜組合技術在法庭科學及其他分析測試領域的應用提供一定的借鑒。

表1 80個樣本的基本信息Table 1 The details of 80 samples
在山東、北京、河南等地區的機械加工廠和車輛維修廠收集到80種不同型號、不同廠家的重質礦物油樣本,主要包括汽機油、柴機油、潤滑脂、齒輪油、液壓油5種類別和多種品牌(如表1所示)。
樣本預處理:對收集到的80種不同重質礦物油樣本進行編號。
光譜參數:采用傅里葉變換紅外-拉曼光譜儀進行光譜采集(具體信息如表2所示)。掃描次數為64次,光譜分辨率為8.000 cm-1,測量范圍為3 600~400 cm-1。以汽機油為例,圖1A展示了一種典型汽機油的光譜圖。
多階求導:利用光譜數據處理軟件OMNIC 8.2對采集的光譜數據進行多階求導。由于光譜數據受噪聲影響較小,采用不過濾的方式,選擇最簡單的“First difference derivative”進行求導。分別對原始光譜數據進行一階導數和二階導數處理,保留光譜原始數據、一階導數數據和二階導數數據矩陣。圖1B和圖1C分別展示了該種典型汽機油的一階導數與二階導數的光譜圖。
實驗環境:具備暗室條件,不受陽光直射;無強振動源,無電磁干擾。

表2 儀器的基本信息Table 2 The details of instrument

圖1 典型汽機油的拉曼光譜圖(A)、一階導數拉曼光譜圖(B)及二階導數拉曼光譜圖(C)
Fig.1 Raman spectra(A),Raman spectra of the first derivative(B) and Raman spectra of the second derivative(C) of typical turbine oil
徑向基函數神經網絡模型(Radial basis function neural network,RBF)[12]屬于神經網絡模型中的一種。作為一種局部逼近網絡,它具有訓練簡潔、訓練速度快、可以很快逼近任意非線性函數的特點。RBF包含3層結構,即輸入層、隱藏層和輸出層。輸入層僅負責輸入數據;隱藏層作用函數為徑向基函數,對輸入數據每層的網絡可能只有一個神經元被激活,所以屬于局部逼近;輸出層的每個神經元屬于線性求和單元,輸出的是隱藏層各單元輸出的加權和。RBF的基本思想是通過映射將低維度線性不可分的原始數據投至高維空間,從而使數據線性可分。
K最近鄰算法(K nearest neighbor algorithm,KNN)作為一種常見分類和回歸模型,具有理論成熟、準確度高、可用于非線性分類等特點。其具體過程為,通過計算每個樣本點的距離,對所有距離進行排序,選取前K個距離最小的樣本,根據所選取的樣本標簽進行投票,從而確定樣本的歸類。其中,K值的選擇尤為重要,K值較大時能夠減小噪聲影響,但會導致類別界線變模糊;K值較小時“學習”的近似誤差會減小,但容易導致過度擬合。實際應用中,一般選用交叉驗證等啟發式技術來選取最優的K值。
實驗采用Statistical Product and Service Solutions-20數據處理軟件對保留的多階導數光譜數據構建分類模型。
為了消除數據之間的量綱關系,方便函數模型的比較,首先對原始光譜、一階導數譜和二階導數譜數據進行標準化處理,并將標準化值作為分類的變量。實驗以重質礦物油樣本的5種類別為依據,即汽機油、柴機油、潤滑脂、齒輪油、液壓油。將80個重質礦物油樣本分為訓練樣本和測試樣本,比例分別為70%和30%,即56個訓練樣本和24個測試樣本。運用RBF模型分別對單獨的原始光譜、一階導數譜、二階導數譜數據以及組合的原始光譜+一階導數譜、原始光譜+二階導數譜、一階導數譜+二階導數譜數據進行分析,得到樣本的分類結果(見表3)。

表3 分類結果摘要Table 3 Summary of classification results

圖2 原始變量的重要性Fig.2 Importance of original variable
由表3可以看出,將原始光譜與導數光譜組合之后,模型訓練集和測試集的分類準確率均有明顯提升,但總體分類準確率均較低,實驗結果不太理想。以原始光譜數據為例,圖2展示了對原始光譜構建的RBF模型中各變量的正態化重要性程度。一般認為,正態化重要性大于60%為比較重要,在40%~60%之間其次,小于40%則重要性程度不明顯。從圖中可以看出,原始光譜數據中存在一半以上的變量對構建分類模型重要性程度較低。分析認為,大量的原有光譜數據之間存在較強的線性相關性且冗余信息較多,從而影響了模型分類的準確率。
主成分分析(PCA)作為一種數據降維的方法,可以有效地處理變量之間的多重共線性問題。尤其是面對大量數據時,PCA可以提取原始數據的主要成分,用盡可能少的新變量來概括原有變量的特征[13-15]。基于此,實驗通過Statistical Product and Service Solutions-20數據處理軟件采用PCA對原始光譜數據和導數光譜數據進行降維,提取數據的主要特征后再次進行分類。
表4為原始光譜數據的PCA結果。從表中可以看出,每個新變量對原始數據的解釋方差不同。在實際應用中,需選取解釋原始數據方差比例高的變量作為主成分。通常有兩個判斷標準,特征根大于1且滿足累計方差貢獻率大于85%[16]。因此,選取前10個成分作為主成分,累計方差貢獻率為98.647%,即前10個成分解釋了98.647%的總方差,可以涵蓋原始數據98.647%的信息。同樣條件下,對一階導數譜、二階導數譜數據以及組合的原始光譜+一階導數譜、原始光譜+二階導數譜、一階導數譜+二階導數譜數據提取主成分,分別提取了前39個主成分,累計方差貢獻率均達到100%,主成分提取結果理想。

表4 主成分分析結果摘要Table 4 Summary of principal component analysis results
分別對提取主成分后的原始光譜、一階導數譜、二階導數譜數據以及組合的原始光譜+一階導數譜、原始光譜+二階導數譜、一階導數譜+二階導數譜數據構建RBF模型,得到了分類結果(見表3)。

圖3 主成分變量的重要性Fig.3 Importance of principal component variables
由表3可知,通過PCA方法降維后,RBF模型的準確率明顯提高。圖3展示了對原始光譜數據進行PCA方法降維后提取的主成分在RBF分類模型中的正態化重要性。從圖中可以看出,在此次模型預測中,PCA提取的10個主成分對模型的重要性均在40%以上,即10個主成分均對模型的分類比較重要。與原有變量相比(見圖2),主成分在模型分類中的重要性更為明顯。分析認為,PCA降維后的數據消除了原有數據的線性相關性和冗余信息,使得提取的主成分不僅可以代表原有數據,而且更適用于模型分類。在對組合的原始光譜+一階導數譜、原始光譜+二階導數譜、一階導數譜+二階導數譜數據進行分類中,訓練集的分類準確率分別達到97.0%、96.7%、100%,測試集的分類準確率分別達到85.7%、90.0%、100%,遠高于單獨的原始光譜、一階導數譜和二階導數譜數據的分類效果,且分類結果理想。其中,基于一階導數譜+二階導數譜數據的PCA+RBF模型的分類準確率最高,對重質礦物油樣本的5種類別均實現準確分類,分類準確率達到100%。分析認為,原始光譜與導數光譜組合后,數據信息結合了兩者各自的優勢,盡可能多地反映了重質礦物油樣本不同類別之間的差異,達到了優勢互補的目的。

圖4 K值選擇的錯誤率Fig.4 The error rate of K value selection
在KNN分類中,運用訓練樣本即為測試樣本的方法進行交互驗證[17],并采用交叉驗證方法選擇最優的K值。以原始光譜PCA提取主成分后的數據為例,圖4展示了交叉驗證中K值選擇的錯誤率。從圖中可以看出,K值在1~6時,選擇錯誤率在0.4以下浮動,且在K值為5時錯誤率最低,為0.275 8;當K值大于6時,錯誤率明顯提升,均在0.4以上。因此,在該數據下構建KNN分類模型時,選擇K=5作為最優K值。同樣條件下,交叉驗證分別選擇K為3、1、22、5、3作為一階導數譜、二階導數譜數據以及組合的原始光譜+一階導數譜、原始光譜+二階導數譜、一階導數譜+二階導數譜PCA提取主成分后數據的最優K值;并分別選擇K為1、4、2、2、4、3作為原始光譜、一階導數譜、二階導數譜數據以及組合的原始光譜+一階導數譜、原始光譜+二階導數譜、一階導數譜+二階導數譜的原有數據的最優K值。
基于交叉驗證選取的K值,對原始光譜、一階導數譜、二階導數譜數據以及組合的原始光譜+一階導數譜、原始光譜+二階導數譜、一階導數譜+二階導數譜的原有數據構建KNN分類模型,并對PCA降維后的數據進行KNN分類(見表3)。
從表3可以看出,KNN模型對重質礦物油樣本的分類結果并不理想,無論是PCA降維之后,還是原始光譜與導數光譜組合之后,分類準確率均較低。分析認為,KNN分類模型受到樣本不均勻的影響。由于80個實驗樣本包括了40個汽機油類型、22個柴機油類型、8個潤滑脂類型、6個齒輪油類型和4個液壓油類型,其最大樣本數和最小樣本數的相差較大,使得KNN模型分類時更多的將預測樣本側重于樣本數多的汽機油類型,從而導致不能準確分類,影響了總體分類的準確率。
通過對組合的光譜數據建立不同的分類模型,發現基于一階導數譜+二階導數譜數據的PCA+RBF模型分類效果最好。因此,實驗采用最優模型對同種類別下不同品牌的重質礦物油樣本進行分類(見表5)。

表5 PCA+RBF分類結果摘要Table 5 Summary of PCA+RBF classification results
由表5可以看出,基于一階導數譜+二階導數譜數據的PCA+RBF模型對于汽機油類別下的品牌,測試集樣本均實現了準確分類,分類準確率為100%;對于訓練集樣本,富田和帝倫堡兩種品牌實現了準確區分,分類準確率均為100%,而殼牌、美孚和德弗特3種品牌的訓練集樣本存在誤判,分類準確率分別為90.0%、94.4%和85.7%,從而使得訓練集樣本的總體分類準確率為92.5%,即40個汽機油樣本中存在3個樣本的品牌類型被錯誤判斷。分析認為,在模型的訓練中受到樣本數較少的影響,發生了一定概率的誤判。對于柴機油、潤滑脂、齒輪油、液壓油4種類別下的不同品牌,該模型均實現了準確分類,訓練集和測試集樣本的分類準確率均為100%,實驗結果理想。這表明,基于一階導數譜+二階導數譜數據的PCA+RBF模型可實現對不同類別和不同品牌重質礦物油樣本的準確區分,且滿足快速、準確、無損的要求。
本文利用傅里葉變換拉曼光譜技術結合化學計量學構建分類模型,對單獨的光譜數據和組合后的光譜數據分類效果進行比較。結果表明,基于組合后的一階導數譜+二階導數譜數據構建的PCA+RBF分類模型的分類準確率更高。在對不同類別的重質礦物油樣本進行分類時,訓練集樣本和測試集樣本的分類準確率均達100%;在對同種類別下不同品牌的重質礦物油樣本分類時,訓練集樣本誤判3個,總體分類準確率達到92.5%,測試集樣本的分類準確率均達100%,實驗結果最理想。本文提出的光譜數據組合的方法與單獨的光譜數據相比,包含了更充分的樣本信息,分類準確率更高,且滿足法庭科學領域對物證快速、準確、無損的鑒定需求。在下一步的實驗中,將對更多種類和品牌的重質礦物油進行研究,進一步探討光譜組合技術在鑒定重質礦物油物證中的優勢,以期實現對法庭科學領域重質礦物油物證的準確鑒別和區分,為光譜組合技術在法庭科學及其他分析測試領域的應用提供一定借鑒。