







摘 要:隨著旅客數量的逐年增長,火車站、機場等交通場所的安檢壓力在不斷增加。長時間的高強度工作容易導致安檢員疲勞,進而導致對管制刀具的漏檢、誤檢,使旅客在旅途中的安全風險大大增加。為了解決上述問題,提出了一種基于改進YOLOv5的X光圖像管制刀具檢測模型。首先,在YOLOv5s模型的Neck部分加入卷積塊注意力模塊,以增強模型的特征提取能力;其次,在YOLOv5s模型的Prediction部分增加一個新的預測層,以提升模型對小體積管制刀具的檢測能力。實驗結果顯示,改進后的模型能夠有效檢測出X光圖像中出現的管制刀具與原始YOLOv5s模型相比,在平均精度上有著8.56%的提升,滿足了安檢任務的需求。
關鍵詞:X光圖像;管制刀具;YOLOv5s模型;卷積塊注意力機制
中圖分類號:TP391.41"""" 文獻標識碼:A""""" 文章編號:2095-9699(2024)06-0052-05
X光檢測機是當前安全檢測行業使用最廣泛的非接觸式安全檢查設備,它能夠在不打開旅客行李的前提下完成對行李內物品圖像的顯示,解決了手動搜查可能會導致尷尬和侵犯隱私的問題,具備“零接觸”的優點[1],被廣泛應用于機場、火車站等公共交通場所。盡管X光檢測機具備上述優勢,但其應用效果容易受到操作者個人主觀因素的影響,當安檢員疲勞或經驗不足時,可能會導致對X光圖像中管制刀具的誤檢和漏檢,進而為不法分子攜帶違禁物品進入公共交通工具提供了可乘之機。
隨著深度學習的發展,基于卷積神經網絡的X光物品檢測技術取得了重要成果。Wang等[2]人將YOLOv4(You Only Look Once version 4)中原有的空間金字塔池化替換為空洞空間金字塔池化,提升了模型的感受野,加強了模型對X光圖像中多尺度特征的提取能力。穆思奇等[3]人在YOLOv4的基礎上加入了空洞卷積模塊,提升了模型對X光圖像中特征的表達能力。曹洋等[4]人使用空洞殘差模塊和可變形空洞金字塔池化分別處理不同層級的X光圖像特征,實現了模型特征表達能力的提升。上述方法雖然在X光圖像檢測上取得了一定進展,然而在實際的管制刀具檢測任務中存在著兩個難題亟須解決:管制刀具尺寸小、安檢X光圖像背景復雜。
為了解決上述問題,文章以YOLOv5s模型為基礎,在其Neck部分加入卷積塊注意力模塊,并將Prediction部分的預測層由3個增加為4個,構建了改進YOLOv5s模型。該改進通過增強對小體積管制刀具的特征提取能力,顯著提升了模型在目標密集重疊的X光安檢圖像中對管制刀具的檢測精度。
1 YOLOv5s模型
YOLOv5(You Only Look Once version 5)是目前目標檢測領域性能最好的模型之一,屬于one-stage檢測模型[5],它可以分為s、m、l、x四個不同尺寸的模型,模型的尺寸越大,其檢測性能越好,但檢測速度也會因為參數規模的增加而變慢。考慮到實際安檢任務中需要對大量X光圖像進行處理,對實時性有較高要求,因此采用尺寸最小的YOLOv5s作為基礎模型。
YOLOv5s模型主要由四個部分組成:輸入端、Backbone部分、Neck部分、Prediction部分,其結構如圖1所示。在YOLOv5s中,Backbone部分由Focus模塊、CONV模塊、C3模塊和SPP模塊4類不同卷積結構的模塊組成,其功能是將基礎層的特征圖進行跨層次合并,消除不同卷積層產生的重復梯度信息;Neck部分的功能是通過FPN+PAN結構對不同尺度特征圖進行融合再輸出,提升整個模型的感受野;Prediction部分的功能是對Neck部分生成的三種不同尺度特征圖進行預測,輸出模型最終的檢測結果[3]。
2 改進后的YOLOv5s模型構建
2.1 卷積塊注意力模塊
卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)是圖像處理中常用的注意力機制算法,它是由通道注意力模塊和空間注意力模塊組成[7],具體如圖2所示。CBAM首先對輸入特征圖進行通道注意力處理,將通道注意力處理結果與原輸入特征圖進行逐元素相乘,再將逐元素相乘的結果進行空間注意力處理,并將空間注意力處理結果與處理前的輸入進行逐元素相乘,得到最終的高精度特征。
(1)通道注意力模塊
通道注意力模塊是一種用于加強卷積神經網絡中通道特征關聯性的技術,其原理是通過學習來自各個通道的特征信息來為各個通道的重要性生成相應的權重[8]。通過動態學習各通道的重要性權重,通道注意力模塊允許模型在學習過程中自動調整每個通道的貢獻,使其更聚焦于與目標相關聯的信息,提高了模型的表達能力和泛化能力。其結構如圖3所示。
在輸入特征圖后,通道注意力模塊首先通過兩種池化層對輸入特征圖在空間維度上進行壓縮,其次在通過共享網絡后對兩者進行逐元素求和,最終通過sigmoid激活函數獲得模塊的輸出,其數學表達如式(1):
Mc(F)=σ(W1(W0(FcAvg))+W1(W0(FcMax)))(1)
式中,MC代表模塊輸出,F代表輸入特征圖,W0和W1代表共享網絡的權重,FCAvg代表使用平均池化對輸入進行空間維度壓縮的結果,FCMax代表使用最大池化對輸入進行空間維度壓縮的結果,σ代表sigmoid激活函數。
(2)空間注意力模塊
空間注意力模塊是一種用于加強卷積神經網絡中空間特征關聯性的技術,其原理是允許模型在處理圖像等結構化數據時對不同位置的特征進行動態加權處理[9]。空間注意力模塊旨在強調輸入數據中不同空間位置的重要性,增強模型對空間位置相關信息的關注,使模型可以更加有針對性地聚焦與目標聯系密切的空間位置信息,減少復雜背景帶來的干擾,其結構如圖4所示。
在輸入特征圖后,空間注意力模塊首先通過兩種池化層對輸入特征圖在通道維度上進行壓縮,其次依靠單層卷積對合并后的池化結果進行特征提取,最終通過sigmoid激活函數獲得模塊的輸出,其數學表達如式(2):
MS(F)=σ(f7×7([FSAvg;FSMax]))(2)
式中,MS代表模塊輸出,F代表輸入特征圖,f7×7代表卷積核大小為7×7的單層卷積,FSAvg代表使用平均池化對輸入進行通道維度壓縮的結果,[FSAvg;FSMax]代表將兩個池化結果在通道維度拼接,σ代表sigmoid激活函數。
2.2 改進后的YOLOv5s模型
針對安檢任務實時性、準確性的需求,并結合X光安檢圖像背景復雜、管制刀具目標小等特點,文章在原始YOLOv5s模型的基礎上進行了改進,提出了一種改進YOLOv5s模型,其結構如圖5所示。模型的改進舉措主要有兩個方面:
(1)CBAM嵌入
考慮到安檢X光圖像背景較為復雜,往往會出現行李物品堆疊的情況,為了減輕此類問題對模型性能產生的負面影響,文章在YOLOv5s模型Neck部分的不同尺寸特征輸入層前分別加入一個CBAM。CBAM中的通道注意力模塊允許模型在學習過程中自動調整每個通道的貢獻,使其更聚焦于X光圖像中與管制刀具相關聯的信息,提高了模型的表達能力和泛化能力。同時,它所包含的空間注意力模塊能夠增強模型對空間位置相關信息的關注,使模型可以更加有針對性地聚焦X光圖像中與管制刀具聯系密切的空間位置信息,減少復雜背景帶來的干擾。
(2)增加新的預測層
傳統的YOLOv5s模型只包含三個預測層,分別輸出8倍、16倍、32倍下采樣生成的尺寸為80×80像素、40×40像素、20×20像素的特征圖(默認輸入特征圖尺寸為640×640像素)。在安檢場景下,旅客的行李大小、數量及種類均存在不同,可能存在極小尺寸的目標,為了提升模型對小尺度目標的識別性能,文章在YOLOv5s模型的基礎上增加了一個輸出新預測尺度特征圖的預測層。具體改進措施為在模型Neck部分中增加1次上采樣,在第3次上采樣后,將上采樣結果與Backbone部分第1個C3模塊的輸出結果進行疊加,得到新增加的尺寸為160×160的預測層,用以對X光圖像中的小尺寸目標進行檢測。改進后的模型擁有4個不同預測尺度的預測層,在并未顯著增加網絡復雜度的同時,實現了底層高分辨率信息和深層高語義信息的充分利用,提升了模型的識別性能。
3 實驗與分析
3.1 實驗數據集
文章實驗采用SIXray數據集中的部分數據進行模型訓練與測試。SIXray數據集是由Miao等人制作的用于安全檢查中對違禁物品進行檢測的X光圖像數據集,涉及槍、刀、扳手、鉗子、剪刀和錘子六類常見的違禁物品。考慮到只針對管制刀具進行檢測,因此在數據集整理階段對無關類別進行了刪除,整理后的數據集共計6 156張圖片,按照51劃分訓練集和數據集。
3.2 評價指標
實驗使用目標檢測領域常用的精準率(Precision,P)、召回率(Recall,R)和平均精度(Average Precision,AP)對模型的性能進行評價。
精準率表示所有檢測出管制刀具的樣本中結果正確的樣本所占的比例,召回率表示所有存在管制刀具的樣本中被正確檢測出來的比例,平均精度表示不同召回率下精準率的均值。三者具體計算公式如下:
P=TPTP+FP(3)
R=TPTP+FN(4)
AP=∫10P(R)dR(5)
其中,TP表示存在管制刀具并且被正確預測出的樣本數量,FP表示不存在管制刀具但被預測出管制刀具的樣本數量,FN表示存在管制刀具但未被檢測出管制刀具的樣本數量。
3.3 消融實驗與分析
為驗證文章在原始YOLOv5s模型上改進措施的有效性,以原始YOLOv5s模型為基線模型,在數據集上進行了驗證分析,消融實驗結果如表1所示。
實驗結果顯示,將CBAM加入基線模型后,模型的精準率P、召回率R以及平均精度AP分別提升了4.92%、5.56%和6.51%,證明了CBAM能夠提升基線模型對圖像中與管制刀具相關信息的提取能力,減輕復雜背景帶來的干擾;在增加基線模型的預測層后,模型的精準率P、召回率R以及平均精度AP分別提升了0.81%、2.83%和3.53%,證明了增加新的預測層能夠幫助模型充分利用圖像中的底層高分辨率信息和深層高語義信息,提升模型檢測性能;當在基線模型中同時采用上述兩種改進舉措時,模型的精準率P、召回率R以及平均精度AP分別提升了6.46%、9.93%和8.56%,證明了文章的改進措施確實能夠提升YOLOv5s模型在X光圖像管制刀具檢測任務上的檢測性能。
3.4 對比實驗與分析
為了檢驗改進模型的檢測效果,以未改進的YOLOv5s模型、SSD模型以及CenterNet模型作為參照進行了對比實驗,具體實驗結果如表2所示。
實驗結果顯示,改進后模型與未改進的YOLOv5s模型相比,在精準率P上有著6.46%的提升;在召回率R上有著9.93%的提升;在平均精度AP上有著的8.56%相對提升。與SSD模型相比,在精準率P上有著9.50%的提升;在召回率R上有著14.06%的提升;在平均精度AP上有著的11.89%相對提升。與CenterNet模型相比,在精準率P上有著8.21%的提升;在召回率R上有著5.67%的提升;在平均精度AP上有著的6.85%相對提升。實驗結果證明,改進后模型在X光圖像上的檢測性能要優于上述常見目標檢測模型,能夠實現對X光圖像中管制刀具的有效檢測。
4 結論
為緩解公共場所安檢壓力,本研究基于YOLOv5s模型架構,通過引入CBAM注意力模塊與新增預測層,構建了X光圖像管制刀具自動檢測模型。改進后的模型顯著增強了對刀具特征的提取能力,實現了底層高分辨率細節與深層語義信息的有效融合。該模型對于安檢工作具有一定的實用價值和現實意義。
參考文獻:
[1]董乙杉.注意力與反向瓶頸設計的X光違禁品檢測研究[D].北京:中國人民公安大學,2023.
[2]WANG B, DING H, CHEN C. AC-YOLOv4: an object detection model incorporating attention mechanism and atrous convolution for contraband detection in x-ray images[J]. Multimedia Tools and Applications, 2024,83(9):26485-26504.
[3]穆思奇,林進健,汪海泉,等.基于改進YOLOv4 的X射線圖像違禁品檢測算法[J].兵工學報,2021, 42(12):2675-2683.
[4]曹洋,張莉,孟俊熙,等.針對X光安檢場景的多目標違禁品識別算法[J].激光與光電子學進展,2022,59(10):324-332.
[5]張康佳,張鵬偉,陳景霞,等.基于改進YOLOv5s的X光圖像危險品檢測[J].陜西科技大學學報,2023,41(06):176-183,200.
[6]Liwei C R Z .A Fine-Grained Object Detection Model for Aerial Images Based on YOLOv5 DeepNeural Network[J].Chinese Journal of Electronics,2023,32(01):51-63.
[7]蘆碧波,周允,李小軍,等.融合注意力機制的YOLOv5輕量化煤礦井下人員檢測算法[J].煤炭技術,2023,42(10):200-203.
[8]黃圣;茅健.基于注意力機制的動態手勢識別方法[J].智能計算機與應用,2023,13(09):111-115.
[9]胡丹丹;張忠婷;牛國臣.融合CBAM注意力機制與可變形卷積的車道線檢測[J/OL].北京航空航天大學學報,1-14[2023-11-28]https://doi.org/10.13700/j.bh.1001-5965.2022.0601.
責任編輯:肖祖銘
X-ray Image Model for Controlled-tools Detection Based on Improved YOLOv5s Model
LU Yuncong
(Zhengzhou Police University, Zhengzhou 450000, China)
Abstract:With the increase in the number of passengers in railway stations, airports and other transportation places year by year, the pressure of security checks is increasing. High intensity work for a long time can easily lead to the fatigue of the security inspector, which leads to the missing and mis-detecting of the controlled-tools, so that the safety risk of the passengers in the journey is greatly increased. In order to solve the above problems, an X-ray image model for controlled-tools detection based on improved YOLOv5 is proposed. Firstly, the Convolutional Block Attention Mechanism is added to the Neck part of YOLOv5s model to enhance the feature extraction capability of the model. Secondly, a new Prediction layer is added to the prediction part of YOLOv5s model to improve the detection ability of small-volume controlled-tools. The experimental results show that the improved model can effectively detect the controlled-tools in the X-ray image, and the average accuracy is improved by 8.56% compared with the original YOLOv5 model, which meets the requirements of security inspection tasks.
Keywords: X-ray images; controlled-tools; YOLOv5s model; Convolutional Block Attention Mechanism
基金項目:中央高校基本科研業務經費項目(2023TJJBKY016);河南省重點研發與推廣專項(232102210022);河南省高等學校重點科研項目(23A520042)
作者簡介:盧云聰(1994—),男,河南鄭州人,講師,主要從事目標檢測研究。