













人工安檢效率低,易出錯,實現基于人工智能的自動安檢是安檢的發展趨勢.針對YOLOv8目標檢測模型在X線違禁品檢測中檢測精度低和對少量類別漏檢率高的問題,對YOLOv8模型進行改進.在YOLOv8n的基礎上修改網絡結構,引入注意力機制,提出帶有通道注意力(efficient channel attention,ECA)的YOLOv8-ECA目標檢測模型,以便更好地提取X線圖像中違禁品的特征,同時采用圖像旋轉等一系列數據增強方法,對少量類別樣本進行樣本擴充.在自建的X線安檢圖像數據集上進行實驗.實驗結果表明,改進后的算法較原始YOLOv8n模型在檢測精度上提升6%,在檢測速度上較原始YOLOv8n模型提升15.7%,同時降低少量類別的漏檢率.
YOLOv8n; ECA注意力; 深度學習; X線圖像; 違禁品檢查
O357.5 A 0253-08 02.010
伴隨著社會科技的不斷發展,人們的出行方式變得更加多元化.同時,違禁品的種類也變得更加復雜.因此,在如今的社會中,安檢是一項不可或缺的工作.安檢被廣泛應用于飛機、火車和地鐵等場所,在人們的生活中發揮著非常重要的作用[1].
X線安檢圖像通過安檢儀生成,安檢儀是安檢程序中最常用的設備,X線安檢圖像具有以下特點:1) 重疊性:安檢圖像中存在一定的區域,這塊區域中會有很多物品重疊在一起,從而產生嚴重干擾.2) 多尺度性:安檢物品種類繁多,形狀也各不相同,甚至可能因外力導致物體變形,導致同一類別的違禁品在外觀上出現較大差異[2-4].
目前,我國的X線安全檢查主要是通過安全檢查人員和設備共同進行.在這一工作方式中,安全檢查人員的工作狀況常常決定著安全檢查的質量.人工檢查受到精力的限制,還會造成工作效率低下,很有可能出現誤檢和漏檢的情況[5-7]. 因此,使用現有的目標檢測網絡并不能更加精確地檢測出違禁品.
本文主要從以下2個方面進行研究:1) 針對YOLOv8n目標檢測模型在X線違禁品檢測中檢測精度低和對少量類別漏檢率高的問題,在YOLOv8n模型的基礎上修改模型結構,加入ECA注意力機制,提出帶有注意力機制的目標檢測網絡模型,命名為YOLOv8n-ECA,并與原模型YOLOv8n進行對比實驗分析.2) 針對X線圖像類別數量不均衡問題,利用數據增強的方法,對少量類別樣本進行樣本擴充,提高模型的魯棒性.
實驗結果表明,加入ECA注意力機制后的YOLOv8n-ECA網絡的性能相較于YOLOv8n網絡有明顯提升,在檢測精度上提升了6%,檢測速度提升了15.7%,更適合用于違禁品檢測.本文主要貢獻有:1) 針對YOLOv8n網絡精確度較低的問題,通過改進激活函數、添加注意力機制以獲得更佳效果.2) 針對X線圖像類別數量不均衡問題,進行數據增強處理,均衡不同種類的數量,提高模型的魯棒性.
1 相關工作
1.1 目標檢測算法
神經網絡和深度學習算法已廣泛運用在許多任務上[8-11],在目標檢測任務上,當前主流的方法是基于深度學習的方法.目前的目標檢測算法主要分為單階段和雙階段2類檢測算法.
1) 單階段方法:2016年,文獻[12]提出了關于目標檢測YOLO(you only look once)的概念和一種單階段主要算法,之后文獻[13-14]提出了SSD算法,隨后文獻[15-17]的網絡精確度也在不斷提升,版本也升級到2023年的YOLOv8,YOLOv8n是YOLOv8系列的一種.
2) 雙階段方法:文獻[18]提出的RCNN模型為以后的雙階段目標檢測技術的開發打下了堅實的基礎.后續時間里依次出現了快速的Fast R-CNN[19]網絡、更快速的Faster R-CNN[20-22]網絡,以及兼顧目標分割的Mask R-CNN[23-24]網絡.這些方法有著精度高但檢測速度慢的特點[25].
1.2 基于深度學習的X線目標檢測研究現狀
Ak ay等[26]首次將深度學習應用于X線圖像的行李分類檢測,并使用遷移學習將AlexNet網絡應用于研究.研究結果表明,深度學習在行李分類檢測中對比傳統機器學習具有優秀的性能和魯棒性.Mery等[27]通過基于詞袋模型、稀疏表示、深度學習和經典模式識別多種方法進行了行李檢測實驗,并發現AlexNet和GoogleNet能夠達到相當高的識別率,這證明了深度學習方法在設計自動違禁品識別設備方面的可行性.文獻[28-29]將深度學習分類網絡與視覺詞袋模型進行了對比研究,并發現深度學習分類性能優于視覺詞袋模型,表明深度學習適合于設計自動的X線圖像分類任務.吉祥凌等[30]在SSD基礎上使用了多尺度特征融合的方法,以提高小目標檢測的效果.郭守向等[31]在YOLOv3基礎上修改了骨干網絡,并引入了特征增強模塊,以提高小目標檢測的效果.張友康等[32]提出了空洞多視野卷積模塊和注意力模塊,以解決目標遮擋問題.Li等[33]將語義分割網絡與Mask R-CNN組合成雙階段CNN模型,以改善X線圖像中物體重疊導致的性能下降問題.李文強等[34]在YOLOv8n模YOLOv5基礎上引入Swin Transformer模塊和注意力模塊,提升了網絡性能和X線圖像全局特征的提取能力.
1.3 YOLOv8n模型結構
模型結構分為幾個部分(如圖1所示):1) 輸入端:自適應調整輸入圖片的大小,對圖片進行預處理.2) 主干網絡:進行下采樣特征提取,獲得圖片的細節信息.3) Neck部分:采用feature pyramid networks(FPN)和path aggregation networks(PAN)相結合的方式,但是YOLOv8n去掉了PAN中的2個上采樣卷積操作.這樣既能獲得圖片的語義信息和獲得定位信息,又可以減少計算量.4) Prediction部分:采用了解耦頭的結構,2條并行的分支分別提取類別特征和位置特征.同時采用anchor-free方式對小、中、大目標檢測,并在原圖上對檢測物進行錨框標注.雖然YOLOv8模型在COCO等公開數據集上的性能有所提升,但YOLOv8模型在X線違禁品數據集上進行實驗,性能并不是很好.本文在YOLOv8模型的基礎上修改了模型結構,加入ECA注意力機制,提出了帶有注意力機制的YOLOv8n-ECA目標檢測模型,提高了YOLOv8模型在X線違禁品數據集上性能.
圖1為YOLOv8的基本網絡架構,主干網(Backbone)通過C2f模塊來提取特征圖片,C2f模塊是由CBS模塊和x個Bottleneck1組件拼接而成,而CBS模塊是由標準卷積、歸一化和SiLU激活函數組成.
2 帶有注意力機制的YOLOv8模型
2.1 輸入數據集增強
針對剪刀這類數據集比其他類別的數量少的問題,使用數據增強的方法,對剪刀這類數據集進行圖像擴增,來提高數據集的可靠性.擴充的途徑包括:1) 圖像的翻轉、圖像的縮放和色彩空間的變換.在圖像翻轉方面,考慮到真實安檢過程中物體會發生不同角度的翻轉,對X線圖像進行左右、上下、45°、135°、225°等翻轉,增加不同角度X線圖像的多樣性.2) 對X線圖像進行色彩調節,可以使圖像的邊緣更深,并能使圖像的特點更加明顯.樣本擴充后的效果圖如圖2所示.3) 使用Mixup方法[35],從訓練集中挑選帶有剪刀類的圖像和不帶有剪刀類的圖像,然后將它們通過Mixup逐像素線性相加(如圖3所示),得到混合后的圖像,同時把對應的標簽也加在沒有剪刀類的圖像上.
2.2 網絡優化
通過對網絡中使用的激活函數進行分析,選擇更優的激活函數來代替原有的激活函數,提高網絡的精確度,解決對于復雜場景的處理效果不佳的問題.通過加入注意力機制到不同的網絡層,來進一步提高網絡的精確度,解決對遮擋目標檢測效果不佳的問題.
2.2.1 [WTBZ][STBZ]改進YOLOv8模型的激活函數[WT][ST]
YOLOv8n網絡使用的是SiLU激活函數,它是Swish激活函數[36]中的一個特例.Swish激活函數是ReLU激活函數[37]的平滑近似,使用Swish激活函數性能更好.但是,Swish只能激活非線性的網絡節點,一些線性的節點就會被忽略,從而使得網絡的性能受到影響.
Meta-ACON激活函數[38]是在ACON激活函數的基礎上提出的一種自適應激活函數.ACON激活函數是一種可以自適應地選擇是否激活神經元的激活函數,Meta-ACON激活函數通過引入開關因子來學習非線性(激活)和線性(非激活)之間的參數切換.它能夠自適應地選擇是否激活神經元,通過替換原網絡的激活層,能提升網絡精度.它是基于個激活函數ReLU和Swish得來的.ReLU的平滑近似函數
Sβ(x1,x2,…,xn)=∑[DD(]n[]i=1[DD)]xieβxi∑[DD(]n[]i=1[DD)]eβxi,
(1)
根據式(1)得
Sβ(ηa(x),ηb(x))=
(ηa(x)-ηb(x))σ[β(ηa(x)-ηb(x))]+ηb(x).
(2)
通過式(2)能夠得到Swish激活函數式(3):當式(3)中的β=1時,就是SiLU激活函數
Sβ(x,0)=xσ(βx),
(3)
由式(3)獲得ReLU激活函數
f(x1,x2)=max(x1,x2)=max(x,0).
(4)
此時Swish和ReLU激活函數只能通過非線性的方式激活神經元.(2)式中的β就是決定是否激活線性或非線性的參數.當β為常量時,式(2)就已經明確了線性或非線性,此時需要動態學習β,使得網絡有著能夠自適應線性或非線性的能力,從而提高網絡泛化能力和精確度.
將主干網中的CBS模塊里的SiLU激活函數替換成Meta-ACON,可以在參數量增加不大的情況下很好地提升性能,形成新的CBM模塊,如圖4所示.
2.2.2 對[WTBZ]ECA注意力模塊的改進[WT]
ECA注意力[39]解決了通道間的注意力問題,采用一維卷積核提取明顯的特征,再利用Sigmoid激活函數將特征歸一化,將得到的通道注意力信息與原始輸入的特征圖相結合,得到具有不同權重的特征圖.
Sigmoid激活函數中包含指數計算,會造成計算量增大,那么將Sigmoid激活函數替換成Meta-ACON激活函數,得到ECA_M模塊(如圖5所示),可以避免出現指數計算,從而減低計算量.
2.2.3 [WTBZ][STBZ]將ECA_M模塊引入YOLOv8n網絡[WT][ST]
為了在特征提取過程中讓網絡模型能夠著重提取到所標注的物品的特征,將優化后的ECA_M模塊加入到已經修改過的YOLOv8n網絡中.
為了使網絡的優化有更好的效果,本文設計了多種實驗進行對比,即在主干網絡不同的層中添加若干注意力模塊.具體方法如下:首先,分別將ECA_M模塊連接在主干網的P3、P4、P5層后端,此時網絡中就加入了一層注意力模塊,得到網絡YOLOv8n-E3、YOLOv8n-E4、YOLOv8n-E5;再次,同時將ECA_M模塊連接在P3和P4、P3和P5、P4和P5層后端,此時網絡中加入了2層注意力模塊,得到網絡YOLOv8n-E34、YOLOv8n-E35、YOLOv8n-E45;然后,將ECA_M模塊同時加入到P3、P4和P5層后端,此時網絡中加入了3層注意力模塊,得到網絡YOLOv8n-E345;最后,在3層注意力模塊的基礎上,將ECA_M模塊加到SPPF層的后端,此時網絡中加入了4層注意力模塊,得到網絡YOLOv8n-ECA.
利用Prediction部分對獲得的特征進行預測,并解碼預測結果,從而在原圖上繪出預測框并標注類別.
YOLOv8n-En網絡相較于YOLOv8n網絡,在理論上可以獲得更好的檢測效果,對X線安檢圖像中違禁品的檢測精度更高.同時,YOLOv8n-En網絡因增加注意力模塊使得單張圖片的檢測速度減慢.不過在X線安檢場景中更注重檢測的精確度性能,適當的降低檢測速度是能夠接受的,YOLOv8n-En網絡仍具有可行性,這里的n代表ECA_M模塊加入的情況.
3 實驗測試與結果
本節先對剪刀這種類別進行數據擴充,在YOLOv8n模型的基礎上將擴充后的數據集與原數據集進行對比實驗,分析實驗結果.
然后將YOLOv8n中的激活函數替換成Meta-ACON,得到YOLOv8n-MA,再針對優化激活函數后的網絡YOLOv8n-MA、YOLOv8n-E3、YOLOv8n-E4、YOLOv8n-E5、YOLOv8n-E34、YOLOv8n-E35、YOLOv8n-E45、YOLOv8n-E345以及YOLOv8n-ECA進行對比實驗,分別比較它們檢測各種違禁品的性能和網絡平均精確度.
3.1 實驗準備
3.1.1 數據集選擇
1) 目前公開的X線安檢圖像數據集有以下2種:a) GDXray數據集[40],此數據集的圖片是單色圖像,包含違禁品5類,且形狀過于少量,數量有8 150張;2) SIXray數據集[41],此數據集是由中國科學院大學收集并整理的,樣本標簽數有8 929個,共有6種類別,分別為手槍(Gun)、刀具(Knife)、扳手(Wrench)、鑷子(Pliers)、剪刀(Scissor)和錘子(Hammer).此數據集內容比較復雜,圖片色彩豐富,種類多樣,包含物品重疊等干擾,符合實驗需求.SIXray數據集部分圖片如圖6所示.實驗中去掉了錘子這一類,并通過數據增強的方式,將剪刀這類的數量趨向其他類別的數量.使用增強后的數據集來進行實驗.
3.1.2 超參數設置
batch_size設置為8,epoch為200輪,圖片的初始大小為640 dpi×640 dpi,學習率設為0.01.
3.1.3 評估指標
TP(真正例)為模型正確預測為正例的樣本數,TN(真負例)為模型正確預測為負例的樣本數,FP(假正例)為模型錯誤地預測為正例的樣本數,FN(假負例)為模型錯誤地預測為負例的樣本數.
精確率(precision):指在模型預測為正例的樣本中,真正為正例的樣本所占的比例.它衡量了模型預測為正例時的準確性,公式為
Wprecision=nTPnTP+nFP.
(5)
召回率(recall):指在真正為正例的樣本中,被模型預測為正例的樣本所占的比例.它衡量了模型對于真實正例的發現能力,公式為
Wrecall=nTPnTP+nFN.
(6)
平均正確率(AP):是對精確率-召回率曲線下面積(PR曲線下面積)的平均值.AP值越高,說明模型性能越好.
交并比(IoU):交并比是指預測框與真實框之間的交集與并集之比.當交并比大于等于某個閾值時,認為預測框與真實框匹配成功.
mAP@0.5:0.95指將交并比的臨界值設置在0.5~0.95時,所有類別的平均精確度.本文將選擇mAP@0.5:0.95作為模型性能的評判指標.
FPS:檢測每秒能處理的圖片數量.
3.2 少類樣本擴充對比實驗
剪刀是該數據集中的較少類別,所以使用在2.1節中提到的數據增強方法,對剪刀這種少類數據進行擴充,然后使用YOLOv8n模型將擴充后的數據集與原數據集進行對比,得到的對比結果如表1所示.
根據表1,剪刀類別通過數據增強后,召回率提升了8.4%,有效地降低了少量類別的漏檢率.
3.3 各模型性能對比實驗
在訓練后測試同一組測試集,先列出YOLOv8n原網絡與替換激活函數后的YOLOv8n-MA網絡的對比實驗(見表2),再分別列出YOLOv8n-MA、YOLOv8n-E3、YOLOv8n-E4、YOLOv8n-E5、YOLOv8n-E34、YOLOv8n-E35、YOLOv8n-E45、YOLOv8n-E345以及YOLOv8n-ECA等9個模型的性能指標:精度、召回率、mAP值和每秒處理的圖片數量(FPS),檢測結果分別如表3所示.
根據表2可以看到,替換后的YOLOv8n-MA網絡在精度、召回率和mAP方面比YOLOv8n網絡的表現要好,分別提高了3.6%,3.8%和7.7%,表明替換激活函數可以顯著提高目標檢測網絡的性能.
根據表3,得到以下結論:
1) 精度方面,各個網絡的差異不大,表現較好的是YOLOv8n-E3和YOLOv8n-E34,精確度達到98.6%;
2) 召回率方面,網絡的差異值不大,而YOLOv8n-ECA有著更好的召回率,達到95.1%;
3) mAP值,本實驗使用的是IoU在0.5~0.99范圍的平均精確度,YOLOv8n-ECA有著更好的mAP,相對于YOLOv8n-MA提高了1.4%;
4) FPS,加入注意力模塊后每秒處理圖片的數量有所下降,這在預期內,可以看到YOLOv8n-ECA下降的幅度最小.綜上,YOLOv8n-ECA總體的性能超過了YOLOv8n-MA網絡.
根據表4,YOLOv8n-ECA網絡模型相較于原始YOLOv8n網絡模型在X線安檢數據集上的精確度提升了3.9%,召回率提升了4.7%,mAP提升了6%,FPS提升了15.7%.
4 結束語
本文旨在提高處于X線安檢圖像數據的情況下目標檢測模型的精確度,在原YOLOv8n網絡的基礎上進行激活函數的改進以及加入注意力模塊,構建了YOLOv8n-ECA等一系列網絡.根據對比實驗,得到結論:YOLOv8n-ECA網絡的總體性能較YOLOv8n提升了6%,且每秒處理圖片的數量為130.6,符合安檢工作中的要求.綜上所述,YOLOv8n-ECA網絡符合安檢工作時的幀數要求,能夠更精確地識別違禁品,為公共環境提供安全保障.
參考文獻
[1] 陳燕蝶. 人工智能在安檢工作的應用研究[J]. 電大理工,2022(2):65-71.
[2] 鐘健,甘玉鳳,高向東. 違禁品安檢技術現狀與展望綜述[J]. 傳感器世界,2022,28(7):1-7.
[3] 楊嘉誠,黃佳慧,韓永麟,等. 優化YOLOv4算法的安檢X線圖像檢測網絡[J]. 計算機系統應用,2021,30(12):116-122.
[4] 曹洋,張莉,孟俊熙,等. 針對X線安檢場景的多目標違禁品識別算法[J]. 激光與光電子學進展,2022,59(10):324-332.
[5] MERY D, MONDRAGON G, RIFFO V, et al. Detection of regular objects in baggage using multiple X-ray views[J]. Insight- Non-Destructive Testing and Condition Monitoring,2013,55(1):16-20.
[6] 張偉烽. 基于深度學習的X線安檢圖像危險品檢測算法及其應用[D]. 深圳:中國科學院大學(中國科學院深圳先進技術研究院),2022.
[7] 任杰. 基于YOLOv5的X線安檢圖像違禁品檢測[D]. 北京:中國地質大學,2021.
[8] 代偉,劉洪. 基于神經網絡的中文語音識別技術[J]. 四川師范大學學報(自然科學版),2022,45(1):131-135.
[9] 林秀麗,李均利,田竟民,等. 基于卷積神經網絡的算法選擇研究[J]. 四川師范大學學報(自然科學版),2022,45(6):830-838.
[10] 郭逸凡,裴瑄,王大寒,等. HyperSegUNet:基于超網絡的超參自學習醫學圖像分割模型[J]. 四川師范大學學報(自然科學版),2024,47(1):127-135.
[11] 劉星宇,程建,牛藝曉,等. 基于AGA-RBF神經網絡模型的葉綠素a質量濃度預測研究[J]. 四川師范大學學報(自然科學版),2024,47(5):670-675.
[12] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE,2016:779-788.
[13] 楊高坤. 單階段法目標檢測技術研究[J]. 電子世界,2021(3):77-78.
[14] 魏澤發,崔華. 基于 SqueezeNet 卷積神經網絡的車輛檢測[J]. 物聯網學報,2020,4(3):120-125.
[15] KANG JC, ZHAO L J, WANG K T, et al. Research on an improved YOL0v8 image segmentation model for crop pests[EB/OL]. (2023-04-13)[2023-10-24]. http://166.62.7.99/assets/defaulV/article/2023/04/13/article_1681397118. pdf.
[16] 袁紅春,陶磊. 基于改進的Yolov8商業漁船電子監控數據中魚類的檢測與識別[J]. 大連海洋大學學報,2023,38(3):533-542.
[17] LI Y T, FAN Q S, HUANG H S, et al. A modified YOLOv8 detection network for UAV aerial image recognition[J]. Drones,2023,7(5):304.
[18] 吳健生,王健全,付美霞,等. 基于改進Faster-RCNN算法的帶鋼缺陷檢測[J]. 鞍鋼技術,2022(6):23-28.
[19] GIRSHICK R. Fast R-CNN[EB/OL]. Computer Science,2015. https://ar5iv.labs.arxiv.org/html/1504.08083.
[20] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems,2016,39(6):1137-1149.
[21] 趙留陽. 基于改進的Faster-RCNN的中藥檢測[J]. 現代信息科技,2022,6(17):71-74.
[22] 劉德祥,梁苗,王鈺棋. 改進Faster-RCNN的工程車輛識別方法[J]. 城市勘測,2023(1):110-113.
[23] HE K M, GKIOXARI G, DOLLR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE,2017:2980-2988.
[24] 游江川. 基于改進Mask-RCNN的路面裂縫檢測[J]. 電視技術,2022,46(6):7-9.
[25] 路斯棋,管鳳旭,賴海濤,等. 基于卷積神經網絡的雙階段水下圖像增強方法[J/OL]. 北京航空航天大學學報,(2022-01-15)[2023-08-22].https://doi.org/10.13700/j.bh.1001-5965.2022.1003.
[26] AKAY S, KUNDEGORSKI M E, DEVEREUX M, et al. Transfer learning using convolutional neural networks for object classification within X-ray baggage security imagery[C]//2016 IEEE International Conference on Image Processing (ICIP).Phoenix: IEEE,2016:1057-1061.
[27] MERY D, SVEC E, ARIAS M, et al. Modern computer vision techniques for X-ray testing in baggage inspection[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems,2017,47(4):682-692.
[28] AKCAY S, BRECKON T P. An evaluation of region based object detection strategies within X-ray baggage security imagery[C]//2017 IEEE International Conference on Image Processing (ICIP). Beijing: IEEE,2017:1337-1341.
[29] AKCAY S, KUNDEGORSKI M E, WILLCOCKS C G, et al. Using deep convolutional neural network architectures for object classification and detection within X-ray baggage security imagery[J]. IEEE Transactions on Information Forensics and Security,2018,13(9):2203-2215.
[30] 吉祥凌,吳軍,易見兵,等. 基于深度學習的管制物品自動檢測算法研究[J]. 激光與光電子學進展,2019,56(18):76-86.
[31] 郭守向,張良. Yolo-C:基于單階段網絡的 X 光圖像違禁品檢測[J]. 激光與電子學進展,2021,58(8):67-76.
[32] 張友康,蘇志剛,張海剛,等. X線安檢圖像多尺度違禁品檢測[J]. 信號處理,2020,36(7):1096-1106.
[33] LI J C, LIU Y H, CUI Z C. Segmentation and attention network for complicated X-ray images[C]//2020 35th Youth Academic Annual Conference of Chinese Association of Automation (YAC). Zhanjiang: IEEE,2020:727-731.
[34] 李文強,陳莉,謝旭,等. 改進 YOLOv5 的X光圖像違禁品檢測算法[J]. 計算機工程與應用雜志,2023,59(16):170-176.
[35] 張京愛,王江濤. 基于多尺度卷積神經網絡和類內mixup操作的磁瓦表面質量識別[J]. 計算機應用,2021,41(1):275-279.
[36] RAMACHANDRAN P, ZOPH B, LE Q V. Searching for activation functions[EB/OL]. (2017-10-27)[2023-10-24]. https://arxiv.org/pdf/1710.05941v1.pdf.
[37] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. Fort Lauderdale: JMLR,2011:315-323.
[38] MA N N, ZHANG X Y, LIU M, et al. Activate or not: learning customized activation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Nashville: IEEE,2021:8028-8038.
[39] WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE,2020:11531-11539.
[40] MERY D, RIFFO V, ZSCHERPEL U, et al. GDXray: the database of X-ray images for nondestructive testing [J]. Journal of Nondestructive Evaluation,2015,34(4):42.
[41] MIAO C J, XIE L X, WAN F, et al. SIXray: a large-scale security inspection X-ray benchmark for prohibited item discovery in overlapping images[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE,2019:2114-2123.
A Contraband Detection Method for X-ray Security ImagesBased on Improved YOLOv[STHZ]8[STBZ]
MAO Weiyang1, YANG Jun1,2, LIU Xudong1, LIANG Daozheng1
(1. School of Computer Science, Sichuan Normal University, Chengdu 610101, Sichuan;
2. Key Laboratory of Visual Computing and Virtual Reality, Sichuan Normal University, Chengdu 610101, Sichuan)
The efficiency of manual security checks is low and prone to errors. Implementing automatic security checks based on artificial intelligence is the development trend of security checks. The YOLOv8 object detection model has been improved to address the issues of low detection accuracy and high missed detection rate for a small number of categories in X-ray prohibited item detection. On the basis of YOLOv8n, the network structure was modified, attention mechanism was introduced, and a YOLOv8n-ECA object detection model with Efficient Channel Attention (ECA) was proposed to better extract the features of prohibited items in X-ray images. At the same time, a series of data augmentation methods such as image rotation were used to expand the sample size for a small number of category samples. Experiments were conducted on a self-building X-ray security inspection image dataset, and the results showed that the improved algorithm enhanced detection accuracy by 6% compared to the original YOLOv8n model, increased detection speed by 15.7% compared to the original YOLOv8n model, and reduced the missed detection rate of a small number of categories.
YOLOv8n; ECA attention; deep learning; X-ray images; prohibited goods inspection
(編輯 鄭月蓉)