汪子拓,姜紅,謝皓東,楊棋馭,徐沐暄
紅外光譜結合統計學方法對紙質包裝盒的檢驗研究
汪子拓1,姜紅2,3*,謝皓東4,楊棋馭1,徐沐暄4
(1.中國人民公安大學 偵查學院,北京 102600;2.萬子健檢測技術(北京)有限公司司法鑒定中心,北京 100141;3.食品藥品安全防控山西省重點實驗室,太原 030006;4.中國人民公安大學 信息網絡安全學院,北京 102600)
建立一種高效準確的紅外光譜檢驗紙質包裝盒的研究方法。利用傅里葉變換紅外光譜儀測得了56個不同類型不同來源的紙質包裝盒的紅外光譜數據;根據紙盒主要填料的不同,將樣品初步分為三大類;利用主成分分析對初步分類后的數據降維,提取出4個主成分,再利用系統聚類將樣品最終分為6組,使用K-means聚類算法結合Pearson卡方檢驗進行驗證,與最終分類的結果基本吻合。基于該分組,訓練樸素貝葉斯分類、隨機森林模型、XGBoost分類3種判別模型,實現對新樣品組別的分類預測。56個快遞包裝紙盒樣品被分為3類,而后進一步細分為6組,3種判別預測模型均有較高的準確率,其中隨機森林模型的準確率最高。該方法快速方便地實現了對樣品的區分,并且可以實現無損檢驗,為犯罪現場紙質包裝盒的鑒別提供依據,從而為公安偵查工作的開展提供幫助。
紙質包裝盒;傅里葉變換紅外光譜法;Pearson卡方檢驗;樸素貝葉斯分類;隨機森林模型;XGBoost分類
紙質包裝盒是犯罪現場常見的物證,構建鑒別紙質包裝盒的新方法可以為公安工作偵破案件提供新思路。近年來隨著網絡購物的迅速發展,各式各樣的新型紙質包裝盒在案發現場層出不窮。目前,研究紙質物的主要方法有X射線熒光光譜法[1]、高光譜法[2]、拉曼光譜法[3]、紅外光譜法[4]、差分拉曼光譜法[5]等。傅里葉紅外光譜檢驗具有信噪比高、重現性好、掃描速度快、分辨率高等優勢,且樣品不需要預處理,方便快捷。徐冰冰等[6]利用一維紅外光譜、二維紅外光譜等方法對普通和添加防水防油劑的食品包裝牛皮紙進行了檢驗。本實驗使用傅里葉變換紅外光譜檢驗了普遍意義上的紙質包裝盒,并結合多元統計學方法,如系統聚類法、K-means聚類算法、Pearson卡方檢驗對實驗數據進行處理,再使用樸素貝葉斯分類、隨機森林模型、XGBoost分類構建多元判別預測模型。
不同來源、不同種類的紙質包裝盒56個,樣品信息見表1。
表1 樣品信息

Tab.1 Sample information
主要儀器:傅里葉紅外光譜儀,IT 2000(北京鑒知技術有限公司),光譜范圍為400~4 000 cm?1,分辨率為4 cm?1。
將56個紙質包裝袋樣品分別剪成0.5 cm×0.5 cm大小的單層長方形,用無水乙醇棉簽對剪取的樣品擦拭,并進行晾干待測。將處理后的紙質包裝袋樣品依次置于樣品架上,用紅外光譜儀進行檢測。
紙質包裝盒的主要原料一般是植物纖維[7],在實際生產過程中,為了滿足性能的需求,往往會添加填料,如高嶺土、碳酸鈣、滑石粉、二氧化鈦等[8]。這些常見填料的紅外特征峰如表2所示[9]。
表2 樣品中各成分的紅外吸收峰(500~4 000 cm?1)

Tab.2 Infrared absorption peaks of each component in samples (500~4 000 cm?1)
由于碳酸鈣和二氧化鈦的共同峰比較多,因此只能選取各自的特征峰作為判斷依據[10]。如712 cm?1和875 cm?1對應碳酸鈣,722 cm?1對應二氧化鈦;同理,滑石粉和高嶺土也存在共同峰,因此出現668 cm?1和1 020 cm?1時,可認定為滑石粉,出現696、778、798、1 066 cm?1時,可認定為高嶺土。
根據上述內容以及紅外譜圖,可先分為3類,如表3所示。
在每一類別中分別挑選具有代表性的樣品譜圖,如圖1、圖2、圖3所示。
表3 樣品所屬類別

Tab.3 Categories of samples

圖1 I類7#樣品的紅外光譜

圖2 Ⅱ類4#樣品的紅外光譜

圖3 Ⅲ類6#樣品的紅外光譜
對3類樣品的填料匯總如表4所示。
表4 樣品填料匯總

Tab.4 Summary of sample filler
通過紅外譜圖對紙盒樣品進行分類后,每一類別中樣品數量仍較多。為對樣品實現進一步的區分分類,利用spss 29.0軟件對數據進行主成分分析(PCA)。其中前4個主成分方差解釋率達到99.142%(見表5),說明主成分分析效果較好,提取這4個變量進行后續分析[11],為之后的系統聚類法奠定分析基礎。
表5 總方差解釋及因子權重分析

Tab.5 Explanation of total variance and analysis of factor weight
2.1節提到,通過分析樣本的紅外譜圖,結合碳酸鈣、滑石粉、高嶺土和二氧化鈦這4種填料的紅外特征峰,來對樣本進行初步分類。由于此分類工作為人工進行,為進一步提高分類精確度和科學性,在主成分分析2.2節進行降維的基礎上,使用系統聚類法對每一類的樣本進行進一步分析。使用spss 29.0軟件進行聚類分析,以Ⅰ類樣本為例,聚類方法選擇組間聯接法,測量區間選擇平方歐式距離,結果如圖4所示[12]。
由圖4可知,當并類距離為1時,樣品可分為4類;當并類距離為2時,樣品可分為2類;當并類距離為25時,所有樣品歸為一類。

圖4 樣本聚類譜系
以類別數量為橫坐標,以聚合系數為縱坐標,繪制折線圖,見圖5。根據圖5可知,當類別數為2時,折線的下降趨勢變緩,故可將類別數設定為2,即I類樣本可以被進一步分為2類。
同理,可將Ⅱ類和Ⅲ類樣品分別再用系統聚類法分為2類。最終分類結果見表6,樣本被分為6類。

圖5 聚合系數
表6 樣品的最終分類結果

Tab.6 Final classification result of samples
為驗證系統聚類的結果,利用K-means聚類算法進一步處理主成分分析后的數據[13]。選擇聚類數為6,對樣品進行分類,結果(見表7)證實通過系統聚類將56個樣本分為6類較為準確。
本文采用了Pearson卡方檢驗,將系統聚類法得到的最終分類結果與K-means聚類分析得到的結果進行比較驗證,從而證實系統聚類結果的準確性。Pearson卡方檢驗是用于類別變數有名的卡方檢驗之一,用于進行相關性分析。Pearson卡方檢驗輸出的效應量化分析如表8所示,包括phi、Crammer's V、列聯系數、lambda,用于分析樣本的相關程度[14-15]。
表7 樣品所屬聚類以及距離

Tab.7 Clusters of samples and distance
表8 效應量化分析

Tab.8 Quantitative analysis of effects
phi系數:phi相關系數的大小表示兩樣本之間的關聯程度,當phi系數小于0.3時,表示相關較弱;當phi系數大于0.6時,表示相關較強。表8中phi系數為2.266,遠大于0.6,說明最終的分類結果與K-means聚類分析得到的結果相關性極強。
lambda:用于反應自變量對因變量的預測效果,一般情況下,其值為1時表示自變量預測因變量效果較好,為0時表明自變量預測因變量較差。表8中lambda值為0.943,非常接近于1,說明最終的分類結果對K-means聚類分析得到的結果的預測效果非常好。
依據系統聚類(2.3節)的分類結果,建立多元判別預測模型,以實現對新樣品的分類預測。構建樸素貝葉斯分類、隨機森林、XGBoost分類3種模型,驗證比較3種判別模型預測準確率。
樸素貝葉斯分類是以貝葉斯定理為基礎并且假設特征條件之間相互獨立的方法。先通過已給定的訓練集,以特征詞之間獨立作為前提假設,學習從輸入到輸出的聯合概率分布,再基于學習到的模型,輸入求出使得后驗概率最大的輸出[16]。利用樸素貝葉斯分類模型對56個樣品進行訓練識別,訓練集占比為70%,得到分類識別后的混淆矩陣熱力圖見圖6,模型評估結果見表9,樸素貝葉斯分類模型的綜合準確率為82.9%。

圖6 樸素貝葉斯分類混淆矩陣熱力圖
表9 樸素貝葉斯分類模型評估結果

Tab.9 Evaluation results of Naive Bayesian classification model
注:1為精確率和召回率的調和平均,下同。
隨機森林模型是一個包含多棵決策樹的分類器,不同決策樹之間沒有關聯,是快速分類的監督式聚類的分類方法[17]。利用隨機森林模型對56個樣品進行訓練識別,訓練集占比為仍70%,得到分類識別后的混淆矩陣熱力圖見圖7,模型評估結果見表10,隨機森林模型的綜合準確率為94.3%。

圖7 隨機森林混淆矩陣熱力圖
表10 隨機森林模型評估結果

Tab.10 Evaluation results of random forest model
XGBoost分類是一種基于決策樹的非參數學習算法,將數據集分割成多個較小的子集,然后用這些子集構建出一個決策樹,根據誤差函數計算每棵樹的分數,然后對測試數據使用XGBoost算法確定最終結果[18]。利用XGBoost分類模型對56個樣品進行訓練識別,訓練集占比仍為70%,得到分類識別后的混淆矩陣熱力圖見圖8,模型評估結果見表11,判別模型的準確率為84.6%。
將建立的樸素貝葉斯分類模型、隨機森林模型、XGBoost分類模型進行比較,樸素貝葉斯分類模型準確率為82.9%,隨機森林模型準確率為94.3%,XGBoost分類模型準確率達到84.6%。3種判別模型的準確率均較高,說明該判別方法有較高的可靠性和參考價值。其中隨機森林模型準確率高于樸素貝葉斯分類模型和多層感知器判別模型。分析原因可能在于隨機森林在處理高維度、非線性特征以及包含異常值的數據時表現較好,而樸素貝葉斯由于其條件獨立假設和對數據分布的假設,可能在某些情況下表現不如隨機森林;XGBoost是基于梯度提升的決策樹,它可以處理非線性問題,但在處理復雜數據集時,可能沒有隨機森林強大的非線性建模能力。

圖8 XGBoost分類混淆矩陣熱力圖
表11 XGBoost分類模型評估結果

Tab.11 Evaluation results of XGBoost classification
利用傅里葉變換紅外光譜法,檢驗不同材質、不同生產地的紙質包裝盒,可以實現無損鑒定,快速準確。首先根據紙質樣品的紅外譜圖,將樣品大致分為3類,再根據所查閱的特征峰數據,判斷出所包含的填料;然后在此基礎上,使用主成分分析法對紅外光譜測試得到的數據進行降維,對降維后提取到的主成分進行系統聚類,將樣品最終分為6類,通過Pearson卡方檢驗發現最終分類得出的結果與K-means聚類分析結果基本吻合;最后建立了樸素貝葉斯分類、隨機森林、XGBoost分類3種判別預測模型,對系統聚類下新樣品的分類預測結果進行評估,準確率均較高,其中隨機森林模型能對新樣品實現最準確的預測。此方法對犯罪現場所提取的紙盒物證可以進行迅速分類鑒定,為公安機關處理案件提供幫助。
[1] 郭琦, 姜紅, 楊金頡, 等. X射線熒光光譜結合深度學習算法可視化檢驗食品包裝紙[J]. 激光與光電子學進展, 2022, 59(4): 466-472.
GUO Q, JIANG H, YANG J J, et al. Visual Inspection of Food Packaging Paper by X-Ray Fluorescence Spectroscopy Combined with Deep Learning Algorithm[J]. Laser & Optoelectronics Progress, 2022, 59(4): 466-472.
[2] 林凡琦, 姜紅, 張文宇. 高光譜結合多元統計分析鑒別一次性紙杯樣品[J]. 化學研究與應用, 2021, 33(10): 1949-1955.
LIN F Q, JIANG H, ZHANG W Y. Hyperspectral Analysis Combined with Multivariate Statistical Analysis to Identify Disposable Paper Cup Samples[J]. Chemical Research and Application, 2021, 33(10): 1949-1955.
[3] 姜紅, 鞠晨陽, 黃國璽, 等. 拉曼光譜法檢驗一次性紙杯的研究[J]. 黑龍江造紙, 2018, 46(4): 4-9.
JIANG H, JU C Y, HUANG G X, et al. Analysis of Disposable Paper Cups by Raman Spectroscopy[J]. Heilongjiang Pulp & Paper, 2018, 46(4): 4-9.
[4] 付鈞澤, 姜紅, 陳煜太, 等. 傅里葉變換紅外光譜法檢驗香煙水松紙的研究[J]. 中華紙業, 2017, 38(20): 43-48.
FU J Z, JIANG H, CHEN Y T, et al. A Study on Test of Tipping Paper with Fourier Transform Infrared Spectroscopy[J]. China Pulp & Paper Industry, 2017, 38(20): 43-48.
[5] 楊夢恩, 姜紅, 陳琿, 等. 差分拉曼光譜和統計學方法在食品包裝紙分類中的應用[J]. 理化檢驗-化學分冊, 2022, 58(11): 1303-1308.
YANG M E, JIANG H, CHEN H, et al. Application of Differential Raman Spectroscopy and Statistical Methods in Food Packaging Paper Classification[J]. Physical Testing and Chemical Analysis (Part B: Chemical Analysis), 2022, 58(11): 1303-1308.
[6] 徐冰冰. 防水防油牛皮紙的制備及性能表征[D]. 北京: 北京林業大學, 2021: 43-47.
XU B B. Preparation and Characterization of Waterproof and Oilproof Kraft Paper[D]. Beijing: Beijing Forestry University, 2021: 43-47.
[7] 馬建鋒, 楊淑敏, 田根林, 等. 拉曼光譜在天然纖維素結構研究中的應用進展[J]. 光譜學與光譜分析, 2016, 36(6): 1734-1739.
MA J F, YANG S M, TIAN G L, et al. Study on the Application of Raman Spectroscopy to the Research on Natural Cellulose Structure[J]. Spectroscopy and Spectral Analysis, 2016, 36(6): 1734-1739.
[8] 姜紅, 陸潤洲, 段斌, 等. 基于差分拉曼光譜對煙盒物證檢驗[J]. 包裝工程, 2021, 42(21): 79-85.
JIANG H, LU R Z, DUAN B, et al. Cigarette Case Evidence Based on Differential Raman Spectroscopy[J]. Packaging Engineering, 2021, 42(21): 79-85.
[9] NA T, ZHU C J, ZHANG C H, et al. Study on Raman Spectra of Aliphatic Polyamide Fibers[J]. OPTIK International Journal for Light and Electron Optics, 2016, 127(1): 21-24.
[10] 郭鵬, 姜紅. 拉曼光譜檢驗煙用內襯紙的研究[J]. 中華紙業, 2016, 37(12): 53-58.
GUO P, JIANG H. A Study on Analysis of Inner Liner for Cigarette by Raman[J]. China Pulp & Paper Industry, 2016, 37(12): 53-58.
[11] 朱曉晗, 胡越寧, 何歆沂, 等. 基于主成分分析法對一次性紙杯的拉曼光譜檢驗研究[J]. 中國造紙, 2020, 39(9): 38-42.
ZHU X H, HU Y N, HE X Y, et al. Detection of Disposable Paper Cup by Raman Spectroscopy and PCA[J]. China Pulp & Paper, 2020, 39(9): 38-42.
[12] 張進, 姜紅, 劉峰, 等. 鞋底材料的差分拉曼光譜可視化快速鑒別[J]. 激光與光電子學進展, 2021, 58(8): 0830004.
ZHANG J, JIANG H, LIU F, et al. Differential Raman Spectroscopy Visualization and Rapid Identification of Shoe Sole Materials[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0830004.
[13] 吳夙慧, 成穎, 鄭彥寧, 等. K-means算法研究綜述[J]. 現代圖書情報技術, 2011(5): 28-35.
WU S H, CHENG Y, ZHENG Y N, et al. Survey on K-Means Algorithm[J]. New Technology of Library and Information Service, 2011(5): 28-35.
[14] GIANNA B, JEREMY S, KENNETH F. Wallis. Decompositions of Pearson's Chi-Squared Test[J]. Journal of Econometrics, 2004, 123(1): 189-193.
[15] 張建勇, 高冉, 胡駿, 等. 灰色關聯度和Pearson相關系數的應用比較[J]. 赤峰學院學報(自然科學版), 2014, 30(21): 1-2.
ZHANG J Y, GAO R, HU J, et al. Application Comparison of Grey Correlation Degree and Pearson Correlation Coefficient[J]. Journal of Chifeng University (Natural Science Edition), 2014, 30(21): 1-2.
[16] 阿曼. 樸素貝葉斯分類算法的研究與應用[D]. 遼寧: 大連理工大學, 2014: 2-4.
A Man. Research and Application on Naive Bayes Classification[D]. Liaoning: Dalian University of Technology, 2014: 2-4.
[17] 張宇, 胡曉光, 姜紅, 等. 紅外光譜法結合化學計量學對快遞包裝紙盒的檢驗研究[J/OL]. 包裝工程: 1-10[2023-08-07]. http://kns.cnki.net/kcms/detail/50.1094. TB.20230510.1638.002.html.
ZHANG Y, HU X G, JIANG H, et al. Infrared Spectroscopy Combined with Chemometrics on the Inspection of Express Cartons [J/OL]. Packaging Engineering: 1-10[2023-08-07]. http://kns.cnki.net/kcms/detail/50.1094. TB.20230510.1638.002.html.
[18] 黃卿, 謝合亮. 機器學習方法在股指期貨預測中的應用研究——基于BP神經網絡、SVM和XGBoost的比較分析[J]. 數學的實踐與認識, 2018, 48(8): 297-307.
HUANG Q, XIE H L. Research on the Application of Machine Learning in Stock Index Futures Forecast—Comparison and Analysis Based on BP Neural Network, SVM and XGBoost[J]. Journal of Mathematics in Practice and Theory, 2018, 48(8): 297-307.
Infrared Spectroscopy Combined with Statistical Methods on Inspection of Paper Packaging Box
WANG Zituo1, JIANG Hong2,3*, XIE Haodong4, YANG Qiyu1, XU Muxuan4
(1. School of Investigation, People's Public Security University of China, Beijing 102600, China; 2. Judicial Appraisal Center of Wanzijian Testing Technology Co., Ltd., Beijing 100141, China; 3. Shanxi Key Laboratory of Food and Drug Safety Prevention and Control, Taiyuan 030006, China; 4. School of Information Network Security, People's Public Security University of China, Beijing 102600, China)
The work aims to establish an efficient and accurate research method for infrared spectroscopy inspection of paper packaging boxes. Infrared spectral data of 56 paper packaging boxes of different types and sources were measured with a Fourier transform infrared spectrometer. According to the different main fillers of the paper box, the samples were preliminarily divided into three categories. Principal component analysis was conducted to reduce the dimensionality of the preliminarily classified data. Four principal components were extracted, and the samples were finally divided into six groups through systematic clustering. The K-means clustering algorithm combined with Pearson’s chi-squared test was used for validation. The results were basically consistent with the final classification. Based on this grouping, three discriminative models, namely Naive Bayesian classification, random forest model, and XGBoost classification, were trained to achieve classification prediction for new sample groups. The 56 samples of express paper packaging boxes were divided into 3 categories and further subdivided into 6 groups. All three discriminant prediction models had high accuracy, with the random forest model having the highest accuracy. This method quickly and conveniently distinguishes samples, and can achieve non-destructive testing, providing a basis for the identification of paper packaging boxes at crime scenes, thus providing assistance for the development of public security investigation work.
paper packaging box; Fourier transform infrared spectroscopy; Pearson's chi-squared test; Naive Bayesian classification; random forest model; XGBoost classification
TB484.1;O657.33;D918.2
A
1001-3563(2024)09-0178-07
10.19554/j.cnki.1001-3563.2024.09.023
2023-09-08
食品藥品安全防控山西省重點實驗室基金