顏文杰,陳俊明,宋亞軍,孔 昊,賈振軍*
(1.中國人民公安大學 偵查學院,北京 102600;2.中國人民公安大學 治安與交通管理學院,北京 102600)
在交通肇事案件中,執法人員經常會在肇事現場、受害人衣物上發現并提取到車漆碎片。通過對車漆進行分析與鑒定,進一步確定其品牌、生產廠家等信息,進而追溯肇事車輛,從而為確認或排除嫌疑人和嫌疑車輛提供一定的線索,為案件的訴訟和判決提供一定的證據。因此,車漆的檢驗鑒定對偵破交通肇事案件具有十分重要的意義。
不同品牌和生產廠家的車漆有不同的配方和工藝,即在成分和其含量上均存在一定差異。即不同品牌的車漆樣本間存在一定差異,對這一差異的挖掘將有助于執法人員推斷并確定現成提取的碎片檢材的品牌和生產廠家。目前,車漆檢驗主要有光學顯微鏡法[1]、掃描電鏡法[2]和光譜成像技術[3]等。光學顯微鏡法只能對車漆碎片的形態學特征進行初步解讀,這易受主觀因素影響,且耗時耗力;掃描電鏡法在確定車漆中元素含量上有一定優勢,但對其品牌和生產廠家信息的解讀不夠全面。高發的交通肇事案件和提取到的大量車漆碎片物證給執法人員的工作帶來了極大的挑戰。如何降低鑒定所需的時間精力等成本,提高鑒定效率,實現對車漆碎片的快速無損鑒定,是當下執法人員關注的重點之一。
鑒于此,實驗中借助紅外光譜分析技術,通過對特征波數的選擇,建立基于決策樹分析(decision tree,DT)、k近鄰分析(k-nearest neighbor,KNN)、Fisher判別分析(Fisher discriminant analysis,FDA)的車漆樣本光譜分類鑒別模型,從而實現對車身油漆品牌較為準確區分與歸類,為法庭科學中車漆無損、準確地檢驗鑒定提供一定的參考和借鑒。
從市場上收集了常見的誠得利等4種品牌共計60個不同品牌和生產廠家的車漆樣本。采集車身前部、兩側、后部共計4處位置的車漆碎片,為避免采集過程中人為因素帶來的誤差,每處隨機采集3份樣本。首先,將采集的樣本用酒精棉擦拭樣品,從而除去樣本表面殘留的灰塵等污物;而后將樣本放入盛有去離子水的燒杯中,并超聲清洗2次,每次10min;最后用酒精棉將樣本擦拭干凈,進樣檢測。
采用Nicolet 5700型傅里葉變換紅外光譜儀(Thermo Fisher Scientific公司),配有衰減全反射附件(Thermo Fisher Scientific公司)[4-5]。光譜數據處理軟件OMNIC 8.2,光譜采集范圍為4000cm-1~400cm-1,每個樣本均采集3次,取其平均值作為實驗數據[4-5]。
實驗中獲取的數據維度較高,重復信息較多,會增加后期建模計算的時間和復雜度,也會降低模型的精度,這對快速準確地區分各樣本有一定影響。因此,篩選并提取特征波數,剔除重復信息十分有必要[6]。ZHOU等人[7]提出了一種基于小波耦合k近鄰的特征提取方法建立分類模型用于發霉茶的分類研究。實驗中基于不同的小波函數,采用5層小波分解預處理光譜數據,同時借助線性判別分析構建分類模型,有效提取了特征波長并實現了對不同霉變程度的干茶有效分類。ZHENG等人[8]采用主成分分析進行特征提取,縮小光譜數據的維數,同時借助支持向量機,線性判別分析和k最近鄰分析建立了分類模型,實現了對高腎素高血壓93.5 %地準確篩查,實驗結果較為理想。
實驗中采用相關性分析來剔除重復信息,篩選特征波數,通過計算樣本數據間的Pearson相關系數和R值來判斷樣本數據間的相關程度[9-10],以0.95和0.01分別作為Pearson相關系數和R值的閾值。經過反復比較與分析,實驗中發現,R值無法較好確定樣本數據中信息重復的數據,而Pearson相關系數則較好地區分出了重復數據。因此選擇Pearson相關系數為參考基準,開展對特征波數地篩查和提取工作。表1中列舉了其中誠得利品牌一個樣本經過篩選后的56組特征波數及其光譜數據。

Table 1 56 characteristic wavenumbers and its spectral data of a sample from Chengdeli were selected by correlation analysis
以經過關性分析篩選后的56組特征波數光譜數據為基礎,建立基于DT、KNN和FDA的分類模型,開展對不同品牌和生產廠家樣本的分類工作。
DT分析是一種較為有效的分類算法,其分類結構相對簡單、明確和直觀,不對輸入數據的分布做任何假設,并且對于輸入要素和類標簽之間的非線性和嘈雜關系,具有靈活性和魯棒性[11]。
以品牌為單位,采用DT構建分類模型,得到了各樣本的分類結果(見表2)。

Table 2 Classification results of 4 brand samples by DT
由表2可知,DT分類模型對不同品牌的樣本分類情況均不一樣,其中“Munchsett”品牌的樣本實現了100.00%的準確區分;“Sanhe”品牌的樣本區分準確率為94.30%;“Chengdeli”和“Sangmei”品牌的樣本分類正確率均為0.00%。DT分類模型總體分類正確率為77.80%。
KNN分析是一種基于距離度量的有效分類方法,主要原理是從訓練集中找到和新數據最接近的k條記錄,根據其主要分類決定新數據類別,分類過程中只與近鄰幾個樣本相關,不使用額外數據,不需要事先確定類別數量便能達到理想分類效果[12-13]。
以品牌為單位,采用KNN構建分類模型,得到了各樣本的分類結果(見表3)。

Table 3 Classification results of 4 brand samples by KNN
由表3可知,KNN分類模型對不同品牌的樣本分類情況均不一樣,其中“Chengdeli”和“Munchsett”品牌的樣本分類正確率均為0.00%;“Sanhe”品牌的樣本區分準確率為96.80%,“Sangmei”品牌的樣本分類正確率均為25.00%。KNN分類模型總體分類正確率為72.31%。
FDA分析主要思想是將多維數據投影到某個方向上,將類與類之間盡可能分開,類內盡可能聚合,然后選擇合適的判別規則對未知樣品進行分類判別[14]。
以品牌為單位,構建Fisher判別分析模型,得到了各樣本的判別函數摘要(見表4)。

Table 4 The abstract of FDA functions about 4 brand samples
“variance contribution rate”即方差貢獻率,指在此判別函數上各樣本的可區分度。“correlation”即相關性,指不同分組與各個函數之間的相關性,相關性越強,則組別在此維度上的差異越大[15]。“Wilks’ lambda”是組內平方和與總平方和之比,其值越小,說明某個量對于模型的影響越顯著[15]。“significance”即顯著性,若 0.01 其中f1方差貢獻率最高(63.7%),在f1上各樣本的可區分度較高,其次為f2(30.0%)和f3(6.3%)。f1和f2的相關性均高于0.65,表明不同分組與f1和f2的相關性較強。函數檢驗中,f1和f2的Wilks’ lambda分別為0.154和0.842,表明函數1和函數2對模型影響的顯著性較高。f1,f2以及f3的significance均小于0.01,表明差異極顯著,能很好解釋各樣本的分類情況。綜上所述,同時選擇f1,f2以及f3作為判別函數,構建判別分類模型,得到了4個品牌樣本的判別分類圖(見圖1)。 Fig.1 Distribution of 4 brand samples under FDA model 由圖1可知,不同品牌的樣本分布情況各有不同。其中“Sanhe”品牌的樣本數據聚斂程度較高,分布較為集中;“Chengdeli”、“Munchsett”和“Sangmei”3個品牌的樣本分布相對分散。Fisher判別分類模型對“Chengdeli”品牌的樣本實現了100.00%的準確區分,“Munchsett”品牌的樣本區分準確率為75.00%,“Sanhe”品牌的樣本區分準確率為88.14%,“Sangmei”品牌的樣本區分準確率為70.00%。各樣本的總體區分準確率為85.00%,分類結果相對較為理想。相對于DT和KNN分類模型,Fisher判別分類模型準確率更高,對各樣本的區分能力更強。其對樣本光譜數據的分類效果優于DT和KNN分類模型。 本文中采用紅外吸收光譜與DT-KNN-FDA方法,實現了對車漆樣本較為準確地分類與識別。通過相關性分析篩選出58組的特征數據,以此為基礎構建分類模型。DT分類模型、KNN分類模型和FDA分類模型對各樣本的總體區分準確率分別為77.80%,72.31%和85.00%。綜上所述,紅外吸收光譜結合相關性分析及FDA模型可較好地實現對車漆不同品牌間較為準確地區分,且分類結果較為理想。本實驗中在一定程度上消除了傳統鑒別方法中因主觀判斷造成誤差、人工鑒別效率較低以及對檢材損耗較大的缺點,為車漆的分類鑒別提供了一種新的參考思路,同時,本方法也為其它鑒別手段提供了一定的借鑒。值得注意的是,車漆是多組分樣本,對多組分分析是一個挑戰,因為不同的分子可能導致相似的光譜形狀,使它很難從一個復雜的系統中分離出某些分子信息。因此,如何改進紅外光譜技術以滿足日益增長的物證分析需求,是今后研究的熱點之一。
3 結 論