倪昕蕾,李春宇,孔維剛
(1.中國人民公安大學偵查學院,北京 100038;2.鄭州市公安局刑事科學技術研究所,河南 鄭州 450000)
粉底液是面部美容化妝品,是一種添加了粉料的乳液型化妝品,其流動性大,附著力強[1],能在面部、衣服等各種物體表面殘留,多出現于涉及女性的犯罪現場,如強奸犯罪、強制猥褻犯罪等,是侵害婦女犯罪的有力罪證。此外,隨著國產化妝品工業的快速發展和海外產品的日益滲透,市面上銷售的化妝品牌越來越多,銷售價格參差不齊,其中既有價格上千的名牌產品,也混雜低劣的假冒偽劣產品,這對肅清市場消費環境了造成一定隱患。因此,通過對粉底液的分析檢驗,可為偵查破案和打擊擊假冒偽劣活動提供有效幫助。市場上各類粉底液購買渠道多、形態相似,單從粉底液外觀很難進行區分,因此需要探索高效快捷的粉底液分類方法以輔佐公安機關破獲相關案件。目前檢驗粉料類物證的方法主要有紅外光譜法、X 射線熒光光譜法、掃描電鏡/能譜法[2]、拉曼光譜法[3]等。掃描電鏡/能譜法作為法庭科學中一種較為成熟的檢驗技術,可通過形貌特征和能譜數據綜合進行物質表面形貌分析和元素含量分析。本實驗將掃描電鏡/能譜法與多元統計學結合起來,對市面上常見的粉底液進行深入細致的分類研究,為犯罪現場的粉底液痕跡物證提取和打擊假冒偽劣粉底液的行業領域中提供實際便利。
50 個不同品牌、不同色號、不同價位的粉底液樣本,如表1 所示。

表1 樣品信息
Phenom ProX 掃描電鏡/能譜儀,電壓25 kV,低真空,工作距離為10 mm,放大500 倍。
用手術刀對50 個粉底液樣品進行取樣,均勻涂抹于2 mm×2 mm 的導電膠帶上,并將樣品固定在掃描電鏡樣品臺,待檢。
粉底液的組分十分復雜,其常用原料有油脂、乙醇、丙二醇等有機物,還有二氧化硅、氧化鎂、氧化鐵、二氧化鈦、而氧化鋅等化合物[3]。不同品牌、不同色號、不同價位的粉底液原料用量不同,其表面微觀形貌也不盡相同,例如二氧化硅顆粒粗糙,填料多的粉底液樣品表面形貌較為粗糙,有較為密集的突起和凹陷,填料少的粉底液樣品表面形貌較為光滑細膩,且伴有少量氣泡。根據掃描電鏡圖可將50 個樣品分成2 類,第Ⅰ類樣品為表面形貌較為粗糙,顆粒感較強,4#樣品是粗糙型的代表樣品,SEM圖見圖1,第Ⅱ類樣品為表面形貌較為光滑,質地細膩,1#樣品是平滑型的代表樣品,SEM圖見圖2。分類結果如表2 所示。

圖2 1#樣品SEM 圖

表2 粉底液樣品分類結果表
常見的粉底液的組分有Si、Al、Cl、Ti、Fe 等元素。通過分析表3 中各組粉底液樣品的能譜數據中各元素含量的差異,發現第1 組中所有樣品中Si 元素和Ti 元素含量較高,說明該組粉底液樣品SiO2和TiO2的填料較多,粉底液色號偏白且光滑度較好;第2 組樣品中所含Al 元素含量較高,說明該類粉底液中添加的高嶺土填料較多,粉底液質地濕潤;第3 組樣品Fe 元素含量最多,說明該組樣品的顏料含量最多,粉底液顏色偏重,色號偏深;第4 組樣品含有少量的V、Br 等重金屬元素,說明粉底液質量偏差,價格偏低,屬于劣質產品;第5 組樣品均含有大量的Cl 元素,說明樣品添加的醇類物質較多,該類粉底液質地偏油,保濕效果好。通過將系統聚類結果和能譜數據的分析相互對照,發現分類結果基本一致,能夠相互印證。

表3 第Ⅰ類樣本分組結果

表4 第Ⅱ類樣本分組結果

表5 Ⅰ類樣本K-means 快速聚類結果
通過肉眼觀察對50 個樣本的分組具有較強的主觀性,為保證分類結果科學可靠,現根據樣品X 射線熒光光譜結果所含元素含量對兩大類樣本分別進行K-Means 聚類,以實現兩大類樣本的細化分類。K-Means 聚類在Python 環境的Sklearn 環境下進行。K 值(分類評價指標聚類數)的最優值采用簇內誤差平方和(SSE)確定。當K 值小于真實聚類數時,SSE隨著K 值的增大而減小;當K 值大于真實聚類數時,SSE 隨著K 值增大而變緩。該實驗規定最大迭代次數為100,進行迭代與分類,以尋找K 的最優值。SSE 與K 值的關系如圖3 所示。

圖3 SSE 與K 值關系圖
如圖所示,當K 值為2 時,兩條曲線的SSE 的下降趨勢變緩,說明兩個實驗的K 最優值為均為2,可將第Ⅰ類、第Ⅱ類樣品分別細分為2 組,所得的樣品分布圖見圖4、圖5 所示,分類結果見表3—表6 所示。

圖4 第Ⅰ類樣本K-Means 聚類結果

圖5 第Ⅱ類樣本K-Means 聚類結果

表6 Ⅱ類樣本K-means 快速聚類結果
為驗證上述分類結果的科學性,以K-means 算法所得的聚類結果執行Fisher 判別分析(FDA)模型,Fisher 函數是利用數據的類別信息使不同類樣本之間的距離增大,相同類樣本之間的距離減小,求解最優投影方向,組成散度判別矩陣,從而實現對新增數據的診斷,威爾克Lambda 越小,顯著性越小,組間差異越大,分類效果越好。
對兩類樣本分析時分別使用1 個典則判別函數,根據Fisher 判別分析的結果可知(表7),對兩類樣本分組得到的Lambda 顯著性均為0,典則相關性為1,且兩個判別函數所得方差貢獻率和累計方差貢獻率均達到100%,說明每個數據集通過一個典則判別函數就可以區分不同的類別,K-means 算法的聚類結果具有科學性。

表7 對第Ⅰ、第Ⅱ類樣本執行FDA 結果
隨即森林(RF)模型是以分類回歸樹(CART)作為元分類器的非線性數據處理技術算法,利用Bagging方法構建回歸樹分類器。它由多個決策樹組成,每個決策樹對于輸入給出獨立的分類結果,最終的輸出類別由單個決策樹輸出的類別的眾數決定。本實驗將50 個粉底液樣本按照40%、10%的比例隨機劃分訓練集和測試集,即40 個樣本作為訓練集,10 個樣本作為測試集,建立隨機森林分類模型。最大決策樹數量(trees)設置為100;ptrain和ttrain分別為50 個樣本數據所屬類別,最小葉子數(minleaf)設置為3,分類結果見圖6 所示。

圖6 隨機森林分類模型的樣本分類結果
從分類結果可以看出,40 個訓練集中的分類準確率是100%,10 個測試集的分類準確率86.7%,第Ⅳ類中的2 個樣本被誤判為第Ⅲ類。
本課題將掃描電子顯微鏡/能譜法對50 個粉底液樣品進行快速檢測,通過樣品表面形貌對樣品初篩分類,然后綜合運用K-Means 聚類實現對50 個不同品牌、不同色號、不同價位的粉底液樣品的區分分類,并引用Fisher 判別法驗證分類效果;最后運用隨機森林算法搭建自動分類模型,此模型可實現對未知粉底液進行快速分類識別的目的,有利于縮小偵查范圍、快速劃分樣本類別。該方法操作簡便、無損檢材,區分效果明顯,在法庭科學中有廣闊的應用前景。下一步將繼續擴大樣本容量完善數據庫,提高該模型的精確度。