衛辰潔,王繼芬*,曾嘯虎
(1.中國人民公安大學 偵查學院,北京 102600;2.酒泉衛星發射中心,甘肅 酒泉 735000)
目前,交通肇事逃逸案件時常發生,居高不下,不僅擾亂了交通秩序和社會治安秩序,而且對人民的生命財產安全造成了嚴重威脅。在此類案件現場,通常留有汽車燈罩碎片等物證,通過對燈罩碎片進行檢驗,可以為偵查人員提供線索,起到輔助證實或否定嫌疑的作用。
汽車燈罩分為前燈和尾燈燈罩,主要以聚碳酸酯(PC)、聚苯乙烯(PS)和聚甲基丙烯酸甲酯(PMMA)3種材料注塑而成[1-3]。PC注塑的燈罩抗紫外線、透光性好,因長時間使用后顏色不變,在汽車燈罩中的應用最為廣泛[4];PS由于成型性好、低吸濕性以及價格低廉,被部分汽車廠商用作汽車燈罩材料;PMMA材料具有優良的光學性能,透光率高達93%[5],比一般玻璃等材料的透光性能優異,質輕,常用來制造汽車尾燈燈罩。而材料的差異性以及不同廠家加工方式的不同為汽車燈罩的檢驗鑒別提供了前提條件。
傅里葉變換紅外光譜(Fourier transform infrared spectroscopy,FTIR)作為一種光譜分析技術,具有靈敏度高、測量速度快、對檢驗樣本無損等特點,在石油化工[6]、材料科學[7-8]、生物[9]、醫藥[10-11]和環境[12]等領域被廣泛應用。其原始光譜和導數光譜均具有獨特優勢[13-16],相互融合可以更準確地描述物質特征。但目前將原始光譜與導數光譜相結合的光譜融合技術的相關報道較少?;瘜W計量學作為一門新興的交叉學科,與光譜分析技術相結合,可以優化實驗測量,有效提取實驗數據[17-20]。
基于快速、無損、準確的檢驗目的,本實驗采用傅里葉變換紅外光譜結合化學計量學方法對汽車燈罩進行分類,比較了單獨的原始光譜、一階導數光譜和融合光譜數據的分類效果,以實現對汽車燈罩物證的準確檢驗,為光譜融合技術在分析檢測領域的應用提供借鑒和參考。
實驗共收集汽車燈罩檢材44個,其中汽車前燈燈罩14個,尾燈燈罩30個,包括PC、PS和PMMA 3種材料成分,涉及北京現代、東風、豐田、遠景、吉奧、哈飛、海馬、江鈴、比亞迪、五菱、奇瑞和長安12個品牌。
樣本預處理:將44個汽車燈罩樣本用酒精擦拭,并對樣本進行對應編號,做好樣本的統計和整理。
光譜數據采集:采用傅里葉變換紅外光譜儀及其附件(Thermo Fisher Scientific公司),以空氣為背景進行光譜采集,設置溫度為(24±2)℃,相對濕度為58%[16],分辨率4 cm-1,采集范圍4 000~400 cm-1,掃描次數32次。每個樣本均采集3次光譜曲線,取均值作為最終數據[21]。采用自動基線校正、峰面積歸一化、Savitzky-Golay算法平滑3種方法進行預處理,并對44個樣本的光譜分別做一階差異導數處理,保存原始光譜與導數光譜數據。
K近鄰(K-Nearest neighbor,KNN)算法是一種思想簡單、但計算復雜的分類算法。其具體思想是,用已準確分類的樣本為模型,通過計算未知樣本與模型樣本數據之間的距離,來判斷樣本所屬類別。算法中的K值為選取的最近距離的K個模型數據。例如,當K值取3時,選取最近的3個模型數據。若其中2個模型數據屬于A類樣本,1個模型數據屬于B類樣本,則判斷該樣本為A類。因此,K值的選取對KNN模型分類結果有很大的影響。通常情況下,采用交叉驗證等方法來選取最優的K值。
Fisher判別分析(Fisher discriminant analysis,FDA)是通過尋找合適的投影方式,建立相應的線性判別函數,使得投影后同一類別的判別函數值f(x)差異極小化,而不同類別的判別函數值f(x)差異極大化。一般情況下,判別函數表達式為:

式中CT j為判別系數,X為自變量,m為觀察指標,j為對m個觀察指標的不同系數進行標識。通常Fisher判別會建立一個或多個判別函數,逐例計算出判別函數值f(x),即判別得分。根據樣本設置的類別數,結合判別得分可以制定出對應的判別規則,最終實現對樣本的準確分類。
以PC、PS和PMMA 3種材料成分為依據,分別對44個汽車燈罩樣本的原始光譜、一階導數光譜和融合光譜數據構建KNN和FDA兩種分類模型。在KNN模型中,運用訓練樣本即為測試樣本的方法進行交互驗證[22],并通過交叉驗證的方法選取每組數據中最優的K值,從而減少誤判樣本,提高總體分類準確率。
圖1中的A、B、C分別為原始光譜、一階導數光譜和融合光譜數據的K值選擇錯誤統計圖,展示了K值在1~20之間的錯誤率。從圖中可以看出,對于原始光譜數據,在K值選擇小于8時,錯誤率上下浮動較大,且在K值為1時錯誤率最低,達到0.37。當K值選擇大于8后,錯誤率穩定在0.39不變,因此選擇K=1作為44個汽車燈罩樣本原始光譜數據的最優K值;對于一階導數光譜數據,K=1時的錯誤率最高,K值選擇3和6時錯誤率為0.40,K=4時錯誤率最低,為0.32,其余均為0.35,故選擇K=4作為一階導數光譜數據的最優K值;對于融合的光譜數據,K=4時錯誤率最低,為0.41,其余K值選擇錯誤率均在0.45以上,故以K=4作為融合光譜數據的最優K值。

圖1 分類錯誤率隨著K值的變化圖Fig.1 Graph of classification error rate as K value changes A.original spectra;B.first derivative spectra;C.fusion spectra
表1展示了原始光譜數據、一階導數光譜數據和融合光譜數據在KNN和FDA兩種模型下的分類準確率??梢钥闯?,在KNN模型中,總體分類準確率均較低,最高僅有63.60%。分析認為,由于KNN模型受到樣本不均勻的影響,即在44個汽車燈罩樣本中,存在28個PC樣本,11個PMMA樣本和5個PS樣本,PC樣本數遠大于另外兩個樣本,導致KNN模型判別時將更多的樣本誤判為PC樣本。在FDA模型中,基于原始光譜數據、一階導數光譜數據和融合光譜數據的PS樣本均實現了準確分類,分類準確率為100.00%。相對于PS樣本,另兩類樣本的分類準確率較低。對單獨的原始光譜數據、一階導數光譜數據和融合光譜數據的分類準確率進行比較,發現融合后的光譜數據構建的FDA模型分類準確率更高,PMMA、PC、PS樣本的分類準確率分別達到81.80%、96.40%和100.00%,總體分類準確率為93.20%,實驗結果較為理想。但個別樣本的誤判仍然會對法庭科學領域汽車燈罩的檢驗產生影響,因此實驗對分類模型進一步優化,以獲得更高的分類準確率。

表1 不同分類模型下的結果對比Table 1 Comparison of results under different classification models
主成分分析(PCA)作為一種統計學方法,可以通過正交變換的方式改變數據間的多重共線性問題。尤其是面對大量的樣本數據,采用PCA可以有效地提取數據主要成分,將多維度的相關性變量轉化為低維度的線性不相關變量。并可通過這些提取的變量反映原有變量的絕大部分信息。實驗中,每組數據均存在大量的變量,因此采用PCA對原有數據進行降維。
圖2和圖3為原始光譜數據的PCA分類結果。其中,“特征根”與主成分一一對應,可以表示該主成分解釋方差的大??;“方差貢獻率”指對應成分方差與總方差的比值,可以反映該成分對原始變量解釋程度的大小;“累積方差貢獻率”是前N個主成分的方差貢獻率之和。一般情況下,在選取主成分時應選擇能夠解釋原始變量方差比例高的作為主成分。通常有兩個判斷標準,一方面要求成分的特征值大于1;另一方面要求累積方差貢獻率大于85%[21]。從圖2及圖3可知,對于原始光譜數據的PCA結果,前11個成分的特征根均大于1,累積方差貢獻率達到99.41%,滿足判斷標準,可以解釋原始變量99.41%的信息,即能夠較好地反映原始變量信息。

圖2 原始光譜前11個主成分的方差貢獻率Fig.2 Variance contribution rate of the first 11 principal components of original spectra
相同判斷標準下,對一階導數光譜數據和融合光譜數據進行PCA降維。一階導數光譜數據提取了13個主成分,累積方差貢獻率達到85.51%,可以解釋原始變量85.51%的信息;融合光譜數據提取了7個主成分,累積方差貢獻率達到86.13%,可以解釋原始變量86.13%的信息。結果表明,對汽車燈罩樣本的原始光譜數據、一階導數光譜數據和融合光譜數據的主成分分析效果理想。
分別對利用PCA降維后的原始光譜數據、一階導數光譜數據和融合光譜數據構建KNN和FDA分類模型。在KNN模型中,交叉驗證分別選擇K=3、2、10作為原始光譜數據、一階導數光譜數據和融合光譜數據的最優K值。
表2展示了原始光譜數據、一階導數光譜數據和融合光譜數據在PCA+KNN和PCA+FDA兩種優化模型下的分類準確率。與PCA降維之前的分類結果相比(表1),兩種模型的分類準確率均有提高。分析認為,采用PCA對原有數據進行降維,可以有效消除原有數據的冗余信息,減小原有變量之間的相關性,實現用更少的變量反映原有多維度變量信息的目的。并且,數據量的縮減也加快了模型構建的速度,滿足快速準確的檢驗需求。在構建的PCA+FDA分類模型中,相比單獨的原始光譜數據和一階導數光譜數據,基于融合光譜數據的分類準確率更高,對PMMA和PS兩種樣本均實現了100.00%的準確分類。對PC樣本的分類準確率為96.40%,即28個PC樣本中,誤判1個樣本。總體分類準確率達到97.70%,實驗結果理想。在構建的PCA+KNN分類模型中,整體分類準確率低,融合后的光譜數據也未顯示出明顯優勢,進一步證明KNN模型受到了樣本數量不均勻的影響。

表2 不同分類模型下的結果對比Table 2 Comparison of results under different classification models
圖4是PCA+FDA模型下的判別函數,A、B、C分別展示了原始光譜數據、一階導數光譜數據和融合光譜數據在PCA+FDA模型構建的判別函數下的分類情況??梢钥闯?組數據下,PS樣本均與其他樣本間隔較遠,實現了全部分類。而PMMA和PC樣本存在一定程度的交叉,出現誤判。對圖4的A、B、C進行比較,可以發現,基于融合后的光譜數據構建的PCA+FDA模型分類情況明顯優于單獨的原始光譜數據和一階導數光譜數據。

圖4 PCA+FDA模型的判別函數圖Fig.4 Discriminant function diagram of PCA+FDA model A.original spectra;B.first derivative spectra;C.fusion spectra
采用融合后的光譜數據構建的PCA+FDA模型對44個汽車燈罩樣本的12種品牌進行分類,分類準確率達到100.00%,實現了對品牌的準確區分,結果理想。
本文構建了可對汽車燈罩進行分類的KNN和FDA兩種模型,發現FDA模型的整體分類準確率較高,在原始光譜數據、一階導數光譜數據和融合光譜數據下的分類準確率分別達到86.40%、84.10%和93.20%,而結合PCA后的FDA模型對樣本的分類準確率更高,在原始光譜數據、一階導數光譜數據和融合光譜數據下的分類準確率分別達到88.60%、90.90%和97.70%。表明利用PCA方法可以實現對原有數據信息的提取,排除冗余信息,達到優化模型分類效果和提高模型分析速度的目的。對單獨的原始光譜數據、一階導數光譜數據和融合光譜數據構建分類模型,比較發現基于融合光譜數據構建的分類模型分類準確率更高,在FDA模型中,融合后的分類準確率達到93.20%。采用PCA+FDA模型對12種品牌的44個汽車樣本進行區分,分類準確率達到100.00%。結果表明,融合后的光譜數據可以結合原始光譜和導數光譜各自的優勢,獲取更多的樣本信息,從而對汽車燈罩樣本實現更準確的分類。