張 進,姜 紅*,劉 峰,段 斌
(1.中國人民公安大學 偵查與刑事科學技術學院,北京100038; 2.南京簡智儀器設備有限公司,南京 210049)
我國是煙草生產與消費大國,香煙在日常生活中隨處可見,在各類刑事案件現場中,常能提取到各種與香煙相關的物證,如煙蒂、煙盒外包裝薄膜、煙用內襯紙等,通過對其檢驗分析,可為公安機關實際辦案提供幫助。
煙用內襯紙是包裝于卷煙煙支和煙盒之間的紙張,其正反兩面分別是金屬層(大多數是鋁)和紙基層,其紙基層的主要成分為植物纖維[1-3]。目前,檢驗香煙內襯紙的方法主要有紅外光譜法[4]、喇曼光譜法[5-6]、掃描電鏡/能譜法[7]和X射線熒光光譜法[8-9]等。GUO等人[10]利用顯微共聚焦喇曼光譜對煙用內襯紙的成分做了相關研究,但喇曼光譜信號較弱,易受干擾,且煙用內襯紙樣品具有一定的熒光,會對實驗結果有一定的影響。作者采用最新的差分喇曼光譜技術對煙用內襯紙樣品進行了檢驗研究,差分喇曼光譜不僅具有無損檢材、處理時間短、操作簡便的特點,而且能直接測量高熒光物質,濾除干擾峰,抗干擾、抗噪聲,大幅度提高系統整體的檢測靈敏度和信噪比[11]。
本實驗中利用差分喇曼光譜法對44個不同品牌、系列的煙用內襯紙樣品進行了檢驗,采用主成分分析對光譜數據降維,系統聚類分析對樣品進行分類,用顯著性P值和Pearson相關系數對聚類結果加以評價,并據此建立了判別式,對樣品做出區分判定,以期為煙用內襯紙的鑒別分類提供幫助。
實驗儀器:便攜式差分喇曼光譜儀(SEDRS Portable-Base,南京簡智儀器設備有限公司)。
實驗條件:光源采用雙頻輸出(Δλ≤1nm),單頻輸出功率不大于450mW,線寬不大于0.06nm;積分時間30s,激光功率為220mW,測量范圍180cm-1~2800cm-1。
44個不同品牌、不同系列的煙用內襯紙樣本信息見表1。

Table 1 Cigarette liner sample information

continue
分別剪取收集到的煙用內襯紙樣品約0.5cm×0.5cm大小,以紙基面為檢測面,在上述實驗條件下進行測試,并將數據導入IBM SPSS Statistics 25統計分析軟件中進行處理。
隨機選取13#樣品(黃鶴樓/軟藍)和27#樣品(長白山/777系列),在13#樣品的同一位置平行測試10次,以考查方法的重現性;在27#樣品的5個不同位置分別進行測試,以考查樣品的均勻性。
2.3.1 主成分分析 在進行喇曼光譜分析時,由于喇曼數據信息龐大,變量之間常面臨信息重疊的問題,使得分析結果出現偏差,因此常常使用降維手段對數據進行處理,減少數據維數,為模型的建立做鋪墊。主成分分析是一種常用的降維方法,在保留原數據主要信息不變的前提下,將多變量問題處理成一組新的相互無關的少數綜合變量的問題,可以有效降低多個變量之間的信息重疊,提高分析結果的準確度[12-15]。
2.3.2 系統聚類 系統聚類是首先將每個樣品單獨形成最相似的一類,選定類間距離,計算并比較各類間距離,將距離最小者合并為新的一類,不斷重復,直至將所有樣品歸為一個總類為止。主要的系統聚類方法有最短距離法、中間距離法、離差平方和法等[16-17]。
2.3.3 判別分析 判別分析是判別樣品所屬類型的一種常用多變量統計分析方法,在具有確切的分類條件下,根據已知研究對象的觀測數據和某些判別準則建立判別函數,對未知對象做出合理的判別分類。常用的判別方法有距離判別法、Fisher判別法、Bayes判別法和逐步判別法[18-20]。
重現性實驗結果見圖1,均勻性實驗結果見圖2。由圖1和圖2可以看出,樣品的差分喇曼光譜譜圖的峰數、峰位、峰形和峰強基本一致,僅個別受宇宙射線的干擾,如圖1所示的10次實驗中出現的1180cm-1,1705cm-1,1763cm-1,1866-1和2230cm-1;圖2中出現的574cm-1和998cm-1,單次實驗出現干擾峰的數目最多不超過1個,對實驗影響很小。實驗結果表明:該方法重現性良好,樣品的均勻性良好,可用該方法對煙用內襯紙進行檢驗分析。

Fig.1 Reproducible experiment results of 13# sample

Fig.2 Homogeneity experiment results of 27# sample
在生產過程中,生產廠家為了填補植物纖維間的空隙,提升紙張的性能,降低成本,常會加入不同種類、配比、產地、加工工藝的填料和膠料,這些差異會反映在差分喇曼譜圖中,為利用差分喇曼光譜法檢驗煙用內襯紙提供了理論依據。煙用內襯紙常用的填料有:碳酸鈣、高嶺土、滑石粉、鈦白粉、氧化鋅、硫酸鋇、二氧化硅等。不同種類的煙用內襯紙都含有植物纖維素,區別主要在于填料。植物纖維素及常見填料的喇曼特征峰見表2。由表2可以看出,填料和纖維素,填料和填料之間,存在很多相近的特征峰,根據某個特征峰無法判斷出是否含有該填料,因此結合儀器實際的掃描范圍,對表2中的特征峰進行剔除篩選。經過篩選,可以得出識別碳酸鈣的特征峰為711cm-1,1085cm-1;識別高嶺土的特征峰為393cm-1,636cm-1;識別滑石粉的特征峰為289cm-1,360cm-1,674cm-1;識別硫酸鋇的特征峰為459cm-1,1138cm-1。

Table 2 Raman characteristic peaks of cellulose and commonly used fillers for cigarette liner paper
通過對44個煙用內襯紙樣品的差分喇曼光譜譜圖初步分析,發現依據主要填料的不同可將樣品分為4大類(分類結果見表3)。第1類樣品中只含有碳酸鈣(見圖3),第2類樣品只含有高嶺土(見圖4),第3類樣品既不含有碳酸鈣,也不含有高嶺土(見圖5);第4類樣品既含碳酸鈣又含高嶺土(見圖6)。

Table 3 Classification results of cigarette liner

Fig.3 Differential Raman spectrum of sample 27#

Fig.4 Differential Raman spectrum of sample 28#

Fig.5 Differential Raman spectrum of sample 19#

Fig.6 Differential Raman spectrum of sample 38#
通過直接比對光譜圖并依據樣品主要填料的不同,對樣品進行分類的方法,結果直觀,但不能避免人工主觀帶來的誤差,且當樣品成分較復雜時,比對難度也會增大,因此需要結合多種客觀分析方法,以期達到準確的區分效果。
實驗中將44個樣品的喇曼數據處理成喇曼位移-喇曼強度的2維數組,由于變量(喇曼位移)數目較多,故采用主成分分析對數據進行降維,各主成分得分情況見圖7。貢獻率是指單個主成分在總變異中占據的比例,代表了此主成分對因變量的影響力大小;累計貢獻率表示了當前選擇的所有主成分攜帶原數據的信息的比例。由圖7可知,提取的24個主成分包含了原喇曼光譜數據 93.48%的信息量,其中主成分1 貢獻最大,為 16.89%,表明其對 44 個樣本數據的影響力較強,主成分24的方差貢獻率小,為1.05%,其對44個樣本數據影響力較弱。

Fig.7 Sample principal component score
將3.3節中得出的前24個主成分進行系統聚類分析,用平方歐氏距離度量類間距離,聚類方法選擇瓦爾德法,聚類結果譜系圖見圖8。

Fig.8 System clustering pedigree
由圖8可知,當類間距離為最小值時,樣品被分為32類;當類間距離為5時,樣品被分為10類,當類間距離達到閾值25時,所有樣品被歸為一類。為選擇合理的分類,以連接距離為依據,抽取9#,13#,14#,29#,39#這5個樣品,考察它們的顯著性P值和Pearson相關系數,計算結果見表4。
由表4可知,5個樣品的P值都為0.000,說明它們之間的差異具有高度統計學意義。13#和14#,14#和29#的相關系數分別為0.984和0.927,表明兩者的相關性很強,而9#,39#和其余樣品的相關系數均小于0.7,說明其相關性較弱,因此可以將13#,14#,29#樣品分為一類,9#,39#樣品各自單獨成一類。同理,通過對不同組間距離分類的結果進行相關性檢驗,比較P值和Pearson相關系數,發現:當組間距離為7時,分類效果最好,此時樣品被分為5類,分類結果見表5。

Table 4 Correlation results of 5 samples

Table 5 Clustering results
考慮到在實際辦案中,判斷未知樣本的類別情況意義重大,因此,用主成分分析提取的24個主成分構建判別分析,在數據分析中,判別分析常和聚類分析聯合起來使用,這里利用3.4節中聚類分析得出的最佳分類結果,選擇各類別的先驗概率與其樣本量成正比進行計算,使用合并的類內協方差矩陣進行分析,得到了各樣本的特征值輸出和Wilk lambda檢驗結果(見表6)。

Table 6 Eigenvalue output and Wilk lambda test results of each sample
由表6可知,該模型構建了4個典則判別函數,其中函數1攜帶了47.7%的原始信息,函數2攜帶了33.4%的原始信息,前兩個函數的累計百分比達81.1%,能較好的解釋原始數據的基本特征。Wilk lambda檢驗結果用于檢驗各個判別函數有無統計學上的顯著意義,函數1、函數2的Wilk lambda數值都極接近0,表示組間變異較大,且P值均為0,說明這兩個判別函數的作用都是顯著成立的。綜上所述,選擇函數1和函數2建立聯合分布散點圖(見圖9),并得出判別結果(見表7)。

Fig.9 Scatter plot of joint distribution of 5 samples

Table 7 Discriminant analysis results
由圖9可以看出,5類樣本的質心在整體上得到了區分。第1類、第2類、第3類樣品在水平方向上,類與類之間的距離均超過20,因此這3類樣本在函數1判別軸上區分明顯;第2類樣本和第4類和第5類樣本在豎直方向上,間隔的距離超過20,因此第2類和第4類和第5類樣本在函數2判別軸上區分明顯;第4類樣本和第5類樣本在圖9中區分不是十分明顯,通過調節函數1判別軸的取值范圍,如圖10所示,將數值范圍(-30,30)調節為(-5,5),可以看出,第4類和第5類的質心在水平方向上仍然可以得到很好的區分。結合表7中的判別分析結果可知,該模型能對5類煙用內襯紙樣品做出100%的正確分類。如果想考察未知樣本的分類情況,只需要將相應數據代入上述兩個判別函數,就可以聯合分布圖上找到位置,從而完成對未知樣本的類別判定。

Fig.10 Scatter plot after changing the axis scale of function 1
利用最新的差分喇曼光譜技術對44個煙用內襯紙樣品(隸屬于20個品牌)做出檢驗,根據樣品中主要填料的不同,對樣品差分喇曼光譜譜圖做出解析比對,將樣品分為了4類,分類結果較為直觀。又結合化學計量法對實驗數據作出處理,使用主成分分析提取了24個有效主成分,降低了數據變量的信息重疊,用降維后的數據做聚類分析,將樣品分為了5類,并建立了判別式,對44個樣品做出了100%的正確判別,實驗結果理想,并給未知樣品的判別提供了依據。該方法無損樣本,快速準確,將差分喇曼譜圖分析法和化學計量學方法有效地結合在一起,可為公安實踐工作中對微量物證的判別檢驗提供參考。今后,將進一步收集樣本,擴大樣本容量,嘗試結合其它新型判別分類方法,以期達到對煙用內襯紙科學的分類研究目的,為法庭科學中物證的鑒別提供幫助。