令狐蓉
(山西工程職業(yè)學院交通工程系,山西 太原 030001)
隨著社會的不斷發(fā)展,城市軌道交通在人們生活中占據(jù)著越來越重要的作用。據(jù)統(tǒng)計,廣州地鐵客運量排在全國首位,2022 年達到231 874 萬人。面對如此巨大的客運量,安檢的自動化、實時性、高準確率是很有必要的[1]。
傳統(tǒng)的目標檢測算法面對背景龐雜、行李亂放、違禁品多種多樣等情況,能力不足,難以滿足客運的要求。2012 年,Alex Krizhevsky 等[2]設計的AlexNet 在ImageNet 挑戰(zhàn)賽上奪得冠軍,大幅提升了圖像分類的準確度,深度學習重新迎來春天,開始在各個領域開花結果,但在安檢領域的應用相對較少。YOLO 系列[3]是目標檢測領域知名度最高的算法,其憑借出色的實時檢測性,在不同的領域均有廣泛應用。YOLO 系列算法將問題概括為一個回歸問題,一次完成,是一種端對端的卷積神經(jīng)網(wǎng)絡。本文選擇YOLOv5m 算法來進行安檢違禁品識別,并增加置換注意力(Shuffle Attention,SA)模塊[4],以提高檢測準確率。
YOLOv5 算法主要包含Input(輸入端)、Backbone(主干網(wǎng)絡)、Neck(多尺度特征融合網(wǎng)絡)和Prediction(檢測頭)[5]。Input 部分是行李經(jīng)過X 射線安檢后采集到的圖像;Backbone 部分包含多種卷積、池化、歸一化、激活函數(shù)等操作,主要是進行圖像的特征提??;Neck 部分主要是進行多尺度特征融合,增加主干特征的可接受性,豐富上下文信息;Prediction 部分采用分類、定位、置信度共3 個分支,用于獲取目標的類別、位置和置信度。
YOLOv5m 算法結構見圖1。Backbone 主要由CBS(Conv+BatchNorm+SiLU)、跨階段局部(Cross Stage Partial,CSP)、共享壓縮分析森林(Shared Packed Parse Forest,SPPF)結構組成,CBS 由卷積、歸一化、SiLU 激活函數(shù)構成。Backbone 采用的是帶有殘差(Res)組件的CSP1 結構。Neck 包括特征金字塔網(wǎng)絡(Feature Pyramid Networks,F(xiàn)PN)和路徑聚合網(wǎng)絡(Path Aggregation Network,PAN)結構設計,采用的是不帶Res 組件的CSP2結構。目標檢測任務的損失函數(shù)由分類損失、定位損失和置信度損失的加權得到。在訓練過程中,輸入圖像采用Mosaic 數(shù)據(jù)增強、自適應錨框計算、自適應圖片縮放等方式,提高了模型的泛化能力,減少了計算量。

圖1 YOLOv5m 算法結構圖
南京大學楊育彬教授等提出SA 模塊[4],高效地結合這兩種注意力機制,并引入了特征分組與通道置換,得到了一種超輕量型的注意力機制。
SA 模塊結構見圖2,它采用置換單元,高效組合上述兩種類型的注意力機制。首先將輸入沿著通道維度拆分為多組,然后對每一組特征詞用置換單元刻畫特征在空間和通道兩個維度上的依賴性,最后所有特征進行集成并通過通道置換操作進行組件特征合并[6]。

圖2 SA 模塊結構圖
本文將SA 模塊嵌入到Prediction 部分之前,即在CSP2 和Conv 之間添加,改進后的YOLOv5m 算法的Prediction 部分結構見圖3。

圖3 改進后的YOLOv5m 算法的Prediction 部分結構圖
本文采用趙才榮教授公開的刀具和液體容器X射線(Cutters and Liquid Containers X-ray,CLCXray)數(shù)據(jù)集[7]。CLCXray 數(shù)據(jù)集包含9 565 張X 射線安檢圖像,包括5 種刀具和7 種液體容器,共有12個類別。5 種刀具包括刀片、匕首、刀、剪刀、瑞士軍刀,7 種液體容器包括易拉罐、紙盒飲料、玻璃瓶、塑料瓶、真空杯、噴罐、錫罐。
本文采用mAP50∶95和mAP50作為算法模型的評價指標,平均精度均值(mean Average Precision,mAP)是準確率-召回率(Precision-Recall,P-R)曲線下的面積。
1)mAP50∶95。在不同閾值(從0.5 到0.95,步長0.05)下的mAP。
2)mAP50。計算每一類別的交并比(Intersection over Union,IoU)設為0.5 時的平均精度(Average Precision,AP),對所有類別的AP 求平均值。
YOLOv5m 算法模型的性能及其加入SA 模塊后的YOLOv5m 算法模型的性能實驗結果見表1,同時與趙才榮教授團隊提出的ATSS 模型的性能進行對比。

表1 不同算法模型的性能對比
從表1 中可以看出,YOLOv5m 算法模型比ATSS+LAreg 算法模型和ATSS+LAcls 算法模型在mAP50∶95上分別提升了2 個百分點和1.2 個百分點;而YOLOv5m 算法模型在添加SA 模塊后,mAP50∶95和mAP50分別提升了0.8 個百分點和1.2 個百分點。結果表明,基于SA 模塊改進的YOLOv5m 算法模型在CLCXray 數(shù)據(jù)集中的違禁品檢測識別中有一定的優(yōu)越性。圖4 為檢測識別效果圖。

圖4 檢測識別效果圖
針對城市軌道交通X 射線安檢違禁品的檢測識別,本文在YOLOv5m 算法基礎上,增加了SA 模塊,分別對空間和通道的特征進行操作,經(jīng)過在CLCXray 數(shù)據(jù)集上進行實驗驗證,結果表明改進后的算法能顯著提高檢測識別精度。但是改進后的算法在易拉罐、玻璃瓶、噴罐等類別上的檢測識別效果不理想,下一步研究可以圍繞易拉罐、玻璃瓶、噴罐3 個類別的圖像進行改進。