田師思,姜 紅*,齊恒慧,王一端,滿 吉
(1.中國(guó)人民公安大學(xué) 偵查學(xué)院,北京 100038;2.中國(guó)人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100044;3.北京華儀宏盛技術(shù)有限公司,北京 100123)
隨著電腦的普及,人們的書(shū)寫習(xí)慣已經(jīng)逐漸由傳統(tǒng)的手寫轉(zhuǎn)變?yōu)榇蛴 ?fù)印。各種案件中打印或復(fù)印文件成為常出現(xiàn)的物證之一。通過(guò)對(duì)打印、復(fù)印墨粉成分進(jìn)行分析,區(qū)分出不同品牌的墨粉,能為公安機(jī)關(guān)偵破案件提供有效線索[1]。
通常打印機(jī)所使用的墨粉是以荷電添加劑、染料、樹(shù)脂等成分為原料的復(fù)合產(chǎn)物[2]。不同的生產(chǎn)廠家采用不同的生產(chǎn)方式,使用不同的樹(shù)脂、染料、載體、荷電添加劑,導(dǎo)致不同品牌的墨粉在成分上存在差異,故可作為區(qū)分鑒別激光打印機(jī)打印文件的重要依據(jù)[3]。
目前,用來(lái)鑒別激光打印/復(fù)印墨粉成分的方法主要有喇曼光譜法[4]、掃描電鏡/能譜法[5]、紅外光譜技術(shù)[6]、裂解氣相色譜/質(zhì)譜連用(pyrolysis gas chromatography mass spectroscopy, Py-GC/MS)法[7]等。喇曼光譜法因其所需樣品量小而廣泛應(yīng)用于微量物證領(lǐng)域。但喇曼信號(hào)易受熒光干擾且靈敏度較低。在對(duì)有機(jī)化合物進(jìn)行鑒定時(shí),紅外光譜法優(yōu)勢(shì)顯著,但樣品制備較為復(fù)雜。掃描電鏡/能譜法作為聯(lián)用技術(shù),定性結(jié)果準(zhǔn)確,但操作更為復(fù)雜。裂解氣相色譜/質(zhì)譜聯(lián)用法則比較耗時(shí)。而X射線熒光光譜法具有樣品制備簡(jiǎn)單,操作便利,分析速度快,且能同時(shí)分析復(fù)雜樣本中多種元素的優(yōu)點(diǎn)。因其對(duì)輕元素的檢測(cè)具有局限性,目前對(duì)墨粉的檢測(cè)中大多用于測(cè)定墨粉中重金屬含量[8],將其應(yīng)用于法庭科學(xué)中不同品牌墨粉的鑒別則是一種較為新穎的思路。
聚類分析是通過(guò)比較各數(shù)據(jù)源的相似程度,并將數(shù)據(jù)源分類到不同的簇中。優(yōu)化k均值(powerk-means)聚類分析[9]針對(duì)普通k均值算法初值敏感進(jìn)行優(yōu)化,既削弱了初值對(duì)聚類結(jié)果的干擾,同時(shí)提高了算法的高維度表現(xiàn),并且維度越高其優(yōu)勢(shì)更為明顯。
X-MET7000e能量散射型X射線熒光光譜儀(英國(guó)Oxford牛津儀器 ),Rh為陽(yáng)極靶;電壓40kV,電流60μA。測(cè)試時(shí)間110s。
不同品牌、廠家的常見(jiàn)打印、復(fù)印墨粉樣本28個(gè)(樣品表略)。
測(cè)定最優(yōu)實(shí)驗(yàn)時(shí)間為110s后進(jìn)行重現(xiàn)性實(shí)驗(yàn),確證實(shí)驗(yàn)在110s時(shí)具有良好的重現(xiàn)性,故以之為最優(yōu)測(cè)定時(shí)間。
使用脫脂棉蘸取酒精擦拭樣品盒后,依此將墨粉放入樣品盒中,封膜,測(cè)定。其結(jié)果見(jiàn)表1。
由表1可知,F(xiàn)e,Ti,Cr,Ca,Mn,Zn這6種元素幾乎存在于所有樣本中,而含有Co,Sn,Ba,Cu 4種元素的樣本數(shù)量則較少,故上述10種元素的有無(wú)對(duì)初步分類價(jià)值較低,但其含量可以作為進(jìn)一步分組的依據(jù)。因此選用Sr和Ni兩種元素的有無(wú)對(duì)28種樣本進(jìn)行初步分類,可劃分為4類,如表2所示。其中,“+”代表“含有”;“-”代表“不含”。

Table 1 The results of detection

Table 2 The classification results according to element composition
2.2.1 數(shù)據(jù)分析 1類的12個(gè)樣本,2類的7個(gè)樣本和3類的6個(gè)樣本單純依賴人工分析,難以準(zhǔn)確地以12種元素含量為變量將其進(jìn)一步分組,得到可靠的分組結(jié)果,故而采用R語(yǔ)言[10],先利用肘方法[11]確定出最優(yōu)簇的數(shù)目,再運(yùn)用優(yōu)化k均值算法以1~3類樣本的12種可穩(wěn)定檢出的元素含量為變量分別進(jìn)行聚類分析,獲得深入分組結(jié)果,最后采用矩積相關(guān)系數(shù)[12]驗(yàn)證分組結(jié)果的可靠性。
2.2.2 最優(yōu)簇?cái)?shù)目的確定 在實(shí)現(xiàn)聚類算法時(shí)需要預(yù)設(shè)一個(gè)k值,即將數(shù)據(jù)源分為k個(gè)類別,k值的確定影響整個(gè)算法。在k值接近于真實(shí)值時(shí),誤差平方和(sum of squares due to error,SSE)的斜率會(huì)發(fā)生驟變,從而在圖像上形成一個(gè)“肘部”,該拐點(diǎn)即為真實(shí)的k值。其中SSE可以作為評(píng)價(jià)聚類結(jié)果好壞的標(biāo)準(zhǔn)[13]。
運(yùn)用R語(yǔ)言來(lái)確定真實(shí)k值,以1類為例,如圖1所示。折線在簇的數(shù)目為2時(shí)由陡直變?yōu)槠骄彛识梢源_定k=2。依此方法依此可得2類、3類的k值亦為2。

Fig.1 The first group inflection point graph
2.2.3 優(yōu)化k均值聚類分析 經(jīng)典的k均值算法進(jìn)行聚類分析時(shí)有著簡(jiǎn)單高效的優(yōu)點(diǎn)[12],但是該種方法對(duì)初值十分敏感,倘若初值選擇不當(dāng),將會(huì)導(dǎo)致聚類結(jié)果無(wú)效。并且當(dāng)數(shù)據(jù)維度非常高時(shí),計(jì)算速度則會(huì)明顯下降。而優(yōu)化k均值聚類分析能夠提升高維度表現(xiàn)力并且弱化對(duì)初值的要求[14]。
經(jīng)典k均值算法是一種無(wú)監(jiān)督分類算法,使用貪心策略,多重迭代求得近似解。其目標(biāo)函數(shù)如下式所示:

(1)
式中,k為簇的個(gè)數(shù),xi為第i個(gè)樣本點(diǎn),θj為第j個(gè)簇心。每次迭代,通過(guò)最小化歐幾里得距離‖xi-θj‖將每個(gè)樣本點(diǎn)xi分配到指定簇Ci。k均值算法得到的聚類結(jié)果比較依賴于簇心的初始值選擇,如果初始化不好,則可能僅得到局部最優(yōu)解。
優(yōu)化k均值算法在形成簇心的過(guò)程中使用加權(quán)算法,其目標(biāo)函數(shù)如下:
‖xi-θk‖2)
(2)
式中,s為控制系數(shù),Ms(y1,y2,…,yk)為借助連續(xù)且嚴(yán)格單調(diào)的指數(shù)函數(shù)g(y)取柯?tīng)柲曷宸蚓担?/p>
g(y)=ys
(3)
Ms(y1,y2,…,yk)=

(4)
具體聚類步驟如下:
(1)在樣本中隨機(jī)選取k個(gè)樣本點(diǎn)充當(dāng)初始聚集各個(gè)簇的中心點(diǎn),選擇控制系數(shù)s的值。
(2)通過(guò)距離,計(jì)算第i個(gè)樣本對(duì)第j個(gè)簇心的權(quán)重ωij,其中:

(5)
(3)計(jì)算完所有樣本點(diǎn)對(duì)所有簇心的權(quán)重后,更新新的第j個(gè)簇心θj,其中:

(6)
(4)反復(fù)迭代第(2)步和第(3)步直至收斂。
優(yōu)化k均值算法在保持了原k均值算法的簡(jiǎn)潔和時(shí)間復(fù)雜性的同時(shí),降低了對(duì)簇心初值的依賴性。
2.2.4 分組結(jié)果 借助肘方法獲得的k值,分別使用優(yōu)化k均值聚類分析對(duì)1~3類內(nèi)的樣本進(jìn)一步分類,將每一大組又分別分為兩小組,共將28個(gè)樣本分為7組,分組結(jié)果如表3所示。

Table 3 The classification results of power k-means
2.3.1 聚類效果評(píng)估 為驗(yàn)證分組結(jié)果的有效性,計(jì)算組內(nèi)數(shù)據(jù)的矩積相關(guān)系數(shù)。矩積相關(guān)系數(shù)用以描述兩個(gè)定距變量間聯(lián)系的緊密程度,當(dāng)矩積相關(guān)系數(shù)越接近1時(shí),表明兩個(gè)變量相關(guān)度越高。隨機(jī)抽取1#樣本,選取2-2組組內(nèi)樣本,各組內(nèi)抽取1個(gè)組間樣本,計(jì)算矩積相關(guān)系數(shù)。結(jié)果如表4所示,1#樣本與同一組內(nèi)的10#、23#樣本相關(guān)度均在0.001水平上呈顯著相關(guān)[15],與組間樣本的矩積相關(guān)系數(shù)小于組內(nèi)樣本,表明分組結(jié)果較為理想。
2.3.2 結(jié)果分析 聚類分析法分組結(jié)果中,3#、21#這兩個(gè)簡(jiǎn)特美(JANTMY)的樣本均在2-1組,1#、23#這兩個(gè)冰彩(ICE COLOR)的樣本均在2-2組,穗彩(OAREN)、佳彩(JCS)、頤印(YI YIN)樣本亦與本品牌樣本歸為一類,沒(méi)有同一品牌的樣本被分為不同組。由此可知,上述5種品牌的打印、復(fù)印墨粉在元素的種類及含量上具備較強(qiáng)的同源性。領(lǐng)盛(LEDS)品牌的兩個(gè)樣本被分在不同組別中,可能由于產(chǎn)地不同所致。其余不同品牌的樣本,也可因墨粉元素含量的差異而被區(qū)別成若干組別。

Table 4 The correlation coefficient of sample 1#
以所含樣本數(shù)量最多的1-1組為例,根據(jù)Ti/Cr值的大小可以繼續(xù)劃分為3組,如表5所示。再以1-1-1組為例,24#樣本Ca/Mn值為12.20,28#樣本Ca/Mn值

Table 5 The classification results based on Ti/Cr
為1.99,差距較大,所以根據(jù)Ca/Mn值的大小能將組內(nèi)2種樣本區(qū)分開(kāi)來(lái)。依照該方法,根據(jù)元素含量比值的差異可以分別將7組樣本繼續(xù)分組,能夠達(dá)到對(duì)打印、復(fù)印墨粉細(xì)化區(qū)分目的。
首先采用X射線熒光光譜法對(duì)墨粉樣本的金屬元素含量進(jìn)行測(cè)定。而后依據(jù)元素成分的不同進(jìn)行分類,又通過(guò)聚類分析法進(jìn)一步分組,經(jīng)矩積系數(shù)驗(yàn)證后證明,該分組方法科學(xué)有效,且分組后各組數(shù)據(jù)特征明顯,能夠達(dá)到一定程度上區(qū)分不同品牌打印、復(fù)印墨粉的目的。構(gòu)建了一種快速、無(wú)損對(duì)墨粉檢材進(jìn)行鑒別的模型,分組效果理想,為司法鑒定墨粉物證提供了思路。