孫嘉傲,董乙杉,郭靖圓,李明澤,李帥超,盧樹華,2
1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 102600
2.公安部安全防范技術(shù)與風(fēng)險(xiǎn)評(píng)估重點(diǎn)實(shí)驗(yàn)室,北京 102600
當(dāng)前,X射線違禁品安檢是維護(hù)機(jī)場(chǎng)和交通安全最廣泛使用的安全措施之一,但大多X射線安檢機(jī)主要依靠人工視覺從拍攝的圖像中識(shí)別違禁品,存在安檢人員疏忽而導(dǎo)致漏檢和錯(cuò)檢的弊端。同時(shí),X射線圖像與自然圖像不同,缺乏紋理信息,且色彩信息較為單調(diào),此外物體堆積密集、遮擋嚴(yán)重等因素,使傳統(tǒng)的物體檢測(cè)方法效果欠佳[1]。近年來,卷積神經(jīng)網(wǎng)絡(luò)[2]廣泛應(yīng)用于圖像處理及模式識(shí)別等領(lǐng)域,準(zhǔn)確率和魯棒性顯著提升,研究人員嘗試將其用于檢測(cè)X射線違禁品圖像,效果亦普遍優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法[3-4]。
最近,R-CNN[5]、Fast R-CNN[6]、Faster R-CNN[7]等二階段與SSD[8-9]、YOLO[10-17]系列、SqueezeDet[18]、CenterNet[19]和Pelee[20]等單階段目標(biāo)檢測(cè)方法在X光違禁品圖像的研究取得顯著進(jìn)展,此外,諸多優(yōu)化策略用來提升算法的監(jiān)測(cè)性能。針對(duì)違禁品圖像數(shù)據(jù)集與其內(nèi)含正樣本數(shù)量的有限性,Akcay等[2]探究了R-CNN與R-FCN在X射線安檢圖像目標(biāo)檢測(cè)的適用性,提出網(wǎng)絡(luò)遷移學(xué)習(xí),解決單目標(biāo)和多目標(biāo)檢測(cè)問題,與傳統(tǒng)的滑動(dòng)窗口驅(qū)動(dòng)CNN方法相比效果更佳。Akcay等[21]通過比較各種X射線圖像檢測(cè)網(wǎng)絡(luò),得到AlexNet作為支持向量機(jī)的特征提取器優(yōu)于其他機(jī)器學(xué)習(xí)方法。Gaus等[22]使用Faster R-CNN、Mask R-CNN與RetinaNet評(píng)估遷移學(xué)習(xí)方法及其對(duì)違禁物品檢測(cè)的可轉(zhuǎn)移性。針對(duì)傳統(tǒng)圖像處理算法候選區(qū)域分割困難問題,Wu等[23]采用基于YOLO的模型對(duì)X射線安檢圖像中的違禁品進(jìn)行檢測(cè),在不同復(fù)雜度的背景下準(zhǔn)確率均有所提升。為解決違禁品圖像信息重疊問題,Miao等[24]在提出SiXray數(shù)據(jù)集時(shí)同時(shí)提出類平衡層次改進(jìn)框架用于檢測(cè)違禁品,減少負(fù)采樣帶來的噪聲。基于違禁品的物理尺寸特點(diǎn),Chang等[25]提出了一種困難負(fù)樣本選擇方案,以更好地區(qū)分違禁品,避免訓(xùn)練數(shù)據(jù)集的過度擬合。針對(duì)人體安檢隱匿違禁物品的問題,李連偉等[26]提出人體安檢隱匿違禁物的高性能實(shí)時(shí)檢測(cè)算法,展現(xiàn)出良好的性能優(yōu)勢(shì)。為降低物品堆疊對(duì)違禁品檢測(cè)的影響,Zhang等[27]在YOLOX網(wǎng)絡(luò)框架下進(jìn)行改進(jìn)和訓(xùn)練,加入雙重注意力機(jī)制和回歸損失分類策略,為大規(guī)模自動(dòng)檢測(cè)違禁品研究提供參考。上述研究展現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展與良好性能,不斷提升X光圖像違禁品檢測(cè)精度與速度,改善了小目標(biāo)檢測(cè)、物體遮擋以及噪聲干擾等問題,但X光違禁品圖像仍然面臨空間大尺度變化、復(fù)雜背景干擾篩查效率較低等問題,在面向?qū)嶋H應(yīng)用時(shí),檢測(cè)精度與速度平衡性需要進(jìn)一步提高。
為解決上述問題,受文獻(xiàn)[28-31]的啟示,本文以YOLOv5為基線網(wǎng)絡(luò),同時(shí)考慮網(wǎng)絡(luò)計(jì)算成本,采用空間自適應(yīng)特征融合(adaptively spatial feature fusion,ASFF)與多尺度特征融合(bidirectional feature pyramid network,BiFPN)并引入注意力機(jī)制(coordinate attention,CA),提出一種輕量改進(jìn)的YOLOv5違禁品檢測(cè)模型。模型在3大數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試,檢測(cè)精度與速度優(yōu)于當(dāng)前大部分先進(jìn)算法,可顯著提升基線網(wǎng)絡(luò)的性能。
所提模型以YOLOv5網(wǎng)絡(luò)為基線,在Backbone部分使用GhostConv替換Conv,降低計(jì)算量,并融合注意力機(jī)制模塊CA;在Neck部分使用BiFPN_Concat替換Concat,并引入ASFF,進(jìn)行空間自適應(yīng)與多尺度特征融合,根據(jù)違禁品圖像特點(diǎn)在檢測(cè)時(shí)調(diào)整非極大抑制閾值,使網(wǎng)絡(luò)更好地適應(yīng)檢測(cè)任務(wù);Detect部分使用3個(gè)檢測(cè)頭針對(duì)不同大小的違禁品進(jìn)行檢測(cè),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 所提模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of proposed model
為提取違禁品多尺度信息,所提模型引入ASFF融合機(jī)制,其結(jié)構(gòu)如圖2所示,通過自適應(yīng)加權(quán)融合PANet輸出的3個(gè)特征圖像,充分利用網(wǎng)絡(luò)中深層特征的語義信息與底層特征的空間信息,并通過可學(xué)習(xí)的參數(shù)抑制梯度反向傳播過程中特征的不一致性。其中,ASFF的輸入來自PANet在1/8、1/16、1/32不同尺度下的特征圖,以ASFF-3為例,通過1×1卷積將1級(jí)和2級(jí)的特征圖壓縮成與3級(jí)相同的通道數(shù),后分別通過4倍上采樣與2倍上采樣形成與3級(jí)相同維度的特征圖,基本原理如下所述。

圖2 ASFF融合機(jī)制圖Fig.2 ASFF channel mechanism
為提高網(wǎng)絡(luò)對(duì)違禁品目標(biāo)位置的感知能力,引入坐標(biāo)注意力機(jī)制如圖3所示。不同于2維全局池化的通道注意力機(jī)制,引入所提模型的輕量CA模塊將通道注意力分解為2個(gè)1維特征編碼過程,分別沿2個(gè)空間方向聚合特征,在骨干特征提取網(wǎng)絡(luò)的高層位置獲得違禁品圖像全局感受野并編碼精確的位置信息,以增強(qiáng)違禁品類別特征的表達(dá),模塊機(jī)制具體如圖3。
1.3.1 坐標(biāo)信息嵌入
給定違禁品的輸入特征圖X,使用2個(gè)空間范圍的池核(H,1)、(1,W)分別沿水平坐標(biāo)與垂直坐標(biāo)對(duì)每個(gè)通道進(jìn)行編碼,其輸出(h)、(w)如公式(3)、(4)所示:
1.3.2 注意力機(jī)制生成
公式(3)、(4)啟用全局感受野并編碼精確的位置信息,生成聚合特征映射后,首先Concat高度與寬度的輸出送至1×1的卷積變換函數(shù)F1,得到特征圖f如公式(5)所示:
式中,σ為Sigmoid函數(shù)。最后,將輸出的gh與gw分別展開作為注意力權(quán)重,坐標(biāo)注意力Y的輸出yc(i,j)為公式(8):
為提升違禁品目標(biāo)的檢測(cè)效率,引入Ghost卷積能夠降低圖像中的像素冗余,有效改善基線網(wǎng)絡(luò)堆疊大量Conv帶來的龐大計(jì)算量。所提模型保留了網(wǎng)絡(luò)底層輸入通道數(shù)為3的卷積以維持特征的完整輸入,輕量化的同時(shí)兼顧特征提取的全面性。Ghost卷積首先減少卷積的輸出通道數(shù)量,后用先前卷積生成的特征圖通過線性變化得到剩余特征圖,將所有輸出通道結(jié)合輸出。
給定違禁品特征圖輸入X∈?c×h×w,生成n個(gè)違禁品特征圖的卷積層操作Y表示為公式(9):
式中,?為卷積運(yùn)算;b為偏置項(xiàng);為n個(gè)通道的輸出特征圖;該層的卷積濾波器;h'和w'分別為輸出數(shù)據(jù)的高度和寬度,卷積核大小為k。為進(jìn)一步獲得所需的n個(gè)特征映射,Y'中的每個(gè)固有特征通過線性運(yùn)算生成s個(gè)Ghost特征yij如公式(10)所示:
式中,為Y'中的第i個(gè)固有特征映射;Φi,j為用于生成第j個(gè)Ghost特征映射yij的第j個(gè)(最后一個(gè)除外)線性運(yùn)算,最后一個(gè)Φi,s用于保留內(nèi)在特征映射的身份映射,256卷積核結(jié)構(gòu)圖如圖4所示。

圖4 Ghost卷積操作示意圖Fig.4 Ghost convolution operations
Ghost模塊可以選擇主卷積內(nèi)核大小,模塊內(nèi)采用普通卷積,首先生成固有的特征映射,后利用線性運(yùn)算增強(qiáng)特征和通道數(shù),保持多樣性。
所提模型引入BiFPN實(shí)現(xiàn)所提模型深淺層特征雙向融合,增強(qiáng)不同網(wǎng)絡(luò)層之間特征信息的傳遞,使特征復(fù)用趨于絕對(duì)化,而非平均化。在所提模型的FPN與PAN結(jié)構(gòu)的Concat中引入權(quán)重特征融合機(jī)制,首先調(diào)整通道數(shù)和寬高,將網(wǎng)絡(luò)的Concat全部替換BiFPN_Concat,為發(fā)揮特征融合的優(yōu)勢(shì),設(shè)計(jì)2分支與3分支BiFPN分別聚合不同深度的特征,其結(jié)構(gòu)如圖5所示。

圖5 BiFPN特征網(wǎng)絡(luò)圖Fig.5 BiFPN feature network
實(shí)驗(yàn)采用PyTorch1.9深度學(xué)習(xí)框架,編程語言為Python3.8,在Ubuntu18.04系統(tǒng)上運(yùn)行,GPU為雙NVIDIA GTX 1080 Ti,電腦內(nèi)存為32 GB,顯存為11 GB,初始學(xué)習(xí)率為0.01,循環(huán)學(xué)習(xí)率為0.01,學(xué)習(xí)率動(dòng)量為0.937,權(quán)重衰減系數(shù)為0.000 5,Batchsize設(shè)置為16,Epoch設(shè)置為300次。
HiXray[32]數(shù)據(jù)集是由國際機(jī)場(chǎng)安檢員手動(dòng)標(biāo)注的現(xiàn)實(shí)機(jī)場(chǎng)日常安檢數(shù)據(jù)集,適用于小物體檢測(cè)、遮擋物體檢測(cè)等多類檢測(cè)任務(wù)。此數(shù)據(jù)集包含45 364張X射線圖像,訓(xùn)練集與測(cè)試集的比例為4∶1。數(shù)據(jù)集內(nèi)含有8類,共計(jì)102 928個(gè)常見違禁品,分別為:PO1(鋰離子方形電池)、PO2(鋰離子圓柱形電池)、WA(水)、LA(筆記本電腦)、MP(手機(jī))、TA(平板電腦)、CO(化妝品)、NL(廢金屬打火機(jī))。
OPIXray[33]數(shù)據(jù)集是由安檢人員手動(dòng)標(biāo)注的機(jī)場(chǎng)檢查數(shù)據(jù)集,主要針對(duì)被遮擋的違禁物品。此數(shù)據(jù)集包含8 885張X射線圖像,其中7 019張圖像用于訓(xùn)練,1 776張圖像用于測(cè)試。數(shù)據(jù)集內(nèi)包含5類常見刀具:FO(折疊刀,1 993支)、ST(直刀,1 044支)、SC(剪刀,1 863支)、MU(多功能刀,1 978支)、UT(工具刀,2 042支)。數(shù)據(jù)集根據(jù)遮擋程度將測(cè)試集分為3個(gè)子集,并將它們分為3個(gè)等級(jí):OL1(沒有或輕微遮擋)、OL2(部分遮擋)、OL3(嚴(yán)重或完全遮擋),級(jí)別越高,圖像中違禁品周圍的遮擋更嚴(yán)重。
SIXray數(shù)據(jù)集是由安檢員提供圖像級(jí)類別標(biāo)注的地鐵安檢數(shù)據(jù)集,適合實(shí)時(shí)分類、檢測(cè)和分割應(yīng)用。此數(shù)據(jù)集包含1 059 231張X射線圖像,其中8 929張圖像針對(duì)6個(gè)不同類別進(jìn)行手動(dòng)標(biāo)注:Gun(槍)、Knife(刀)、Wrench(扳手)、Pilers(鉗子)、Scissors(剪刀)、Hammer(錘子),在視角和重疊方面具有多樣性。此數(shù)據(jù)集根據(jù)正負(fù)樣本比例的不同分為3個(gè)子集:SIXray10、SIXray100和SIXray1000,其中與現(xiàn)實(shí)最為接近的子集為SIXray100,使用標(biāo)注的8 929張圖像按8∶1∶1分為訓(xùn)練集、測(cè)試集、驗(yàn)證集實(shí)驗(yàn)。
所提模型在HiXray、OPIXray與SIXray等3個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與當(dāng)前部分先進(jìn)方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表1、表2和表3所示,在HiXray、OPIXray與SIXray數(shù)據(jù)集上準(zhǔn)確率分別為83.3%、94.2%、92.8%的檢測(cè)效果均為最優(yōu)。較以SSD為基礎(chǔ)的檢測(cè)器分別提升10.2、19.6、9.9個(gè)百分點(diǎn),較以FCOS為基礎(chǔ)的檢測(cè)器在HiXray、OPIXray數(shù)據(jù)集分別提升6.0、11.1個(gè)百分點(diǎn),較殘差網(wǎng)絡(luò)在SiXray數(shù)據(jù)集中提升16.0個(gè)百分點(diǎn)。此外,所提模型在以YOLO系列為網(wǎng)絡(luò)架構(gòu)的違禁品檢測(cè)方法中也具有先進(jìn)性,較當(dāng)前現(xiàn)有最優(yōu)結(jié)果分別提升1.7、3.2、0.5個(gè)百分點(diǎn)。具體違禁品類別上,在HiXray數(shù)據(jù)集的PO1、PO2、WA、MP、CO、NL類別、OPIXray數(shù)據(jù)集的所有類別、SIXray數(shù)據(jù)集的Wrench與Scissors類別,此檢測(cè)模型在眾多方法中結(jié)果最佳。上述結(jié)果可歸因于所提模型在多個(gè)尺度上能夠自適應(yīng)地聚合不同級(jí)別的特征,有效地關(guān)注圖像特征的不同屬性,提高違禁品檢測(cè)性能。值得指出的是,在HiXray數(shù)據(jù)集中,Cosmetic與Nonmetallic_Lighter類別上的檢測(cè)精度明顯低于其他類別,與兩類別在數(shù)據(jù)集內(nèi)的圖像數(shù)量、物品特點(diǎn)等因素有關(guān)。

表1 HiXray數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比表Tabel 1 Comparison table of experimental results in HiXray dataset 單位:%

表2 OPIXray數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比表Tabel 2 Comparison table of experimental results in OPIXray dataset 單位:%

表3 SiXray數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比表Tabel 3 Comparison table of experimental results in SiXray dataset 單位:%
為驗(yàn)證所提模型的運(yùn)行效率,本文算法與基線模型復(fù)現(xiàn)代碼在3個(gè)大型違禁品檢測(cè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),檢測(cè)時(shí)間與準(zhǔn)確率對(duì)比結(jié)果如表4所示,在HiXray、SiXray數(shù)據(jù)集中,檢測(cè)時(shí)間分別較改進(jìn)前增加0.9 ms、0.2 ms,在OPIXray數(shù)據(jù)集中,檢測(cè)時(shí)間減少0.2 ms,可見,加入相關(guān)改進(jìn)策略后,檢測(cè)幀率并未明顯下降。SiXray數(shù)據(jù)集包含1 059 231張違禁品圖像,HiXray數(shù)據(jù)集包含45 364張違禁品圖像,均取自于真實(shí)的違禁品檢測(cè)場(chǎng)景,是現(xiàn)有2個(gè)規(guī)模較大、違禁品種類繁多且被廣泛使用的數(shù)據(jù)集[24,32]。數(shù)據(jù)集分別著眼于正負(fù)樣本比例與含違禁品行李內(nèi)的對(duì)象堆疊狀態(tài)構(gòu)建,圖像具有多重遮擋、高復(fù)雜度、規(guī)律性弱等特點(diǎn)。SiXray數(shù)據(jù)集內(nèi)的對(duì)象分布與真實(shí)場(chǎng)景一致,正樣本與負(fù)樣本比例約為118∶1,違禁品類別為刀具、錘子、扳手典型違禁品,HiXray數(shù)據(jù)集違禁品種類傾向于日常生活中的常見情形,對(duì)象分布于每一張圖像中。二者給模型的訓(xùn)練與測(cè)試帶來較高挑戰(zhàn),模型在以上兩個(gè)數(shù)據(jù)集的檢測(cè)速度變化能夠真實(shí)反映其在日常檢測(cè)含有違禁品行李時(shí)的實(shí)時(shí)性影響,由此可見,改進(jìn)后的模型具有一定的泛化能力,在真實(shí)世界中也能取得良好的檢測(cè)效果。

表4 檢測(cè)時(shí)間與準(zhǔn)確率對(duì)比表Tabel 4 Comparison of detection time and accuracy
從以上可以看出,所提模型在3個(gè)數(shù)據(jù)集上均取得了最優(yōu)結(jié)果,表明其泛化性能較為優(yōu)異,另外檢測(cè)速率在不同數(shù)據(jù)集上表現(xiàn)略有差異,總體仍具有較好的競(jìng)爭力。綜上,本文所提算法較好地兼顧了檢測(cè)準(zhǔn)確率和效率平衡,且泛化性較好,是一種性能優(yōu)良的違禁品檢測(cè)模型。
為驗(yàn)證所提模型有效性,以YOLOv5為基線模型,分別在HiXray、OPIXray和SIXray等3個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。從表5可以看出,在HiXray數(shù)據(jù)集、OPIXray數(shù)據(jù)集、SiXray數(shù)據(jù)集中,分別引入ASFF、CA、Bi、Gh模塊后,檢測(cè)器性能均有小幅提升,將模塊結(jié)合在一起并調(diào)整后,檢測(cè)器的性能分別提升1.7、5.4、0.5個(gè)百分點(diǎn)。ASFF模塊著眼于多尺度特征間的差異性,使網(wǎng)絡(luò)自主學(xué)習(xí)各尺度特征圖融合的空間權(quán)重以抑制特征尺度的差異性;CA模塊實(shí)現(xiàn)跨通道信息的捕獲,以提高有效特征信息的權(quán)重;BiFPN網(wǎng)絡(luò)通過可學(xué)習(xí)的權(quán)重學(xué)習(xí)不同輸入特征的重要程度,充分發(fā)揮出YOLOv5基線網(wǎng)絡(luò)與各模塊綜合作用的優(yōu)勢(shì),準(zhǔn)確率分別提高到83.3%、94.2%、92.8%。從HiXray數(shù)據(jù)集、OPIXray數(shù)據(jù)集、SIXray數(shù)據(jù)集上進(jìn)行的所有消融實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果可以看出,綜合引入ASFF、CA、Bi、Gh模塊對(duì)檢測(cè)器性能有較大提升,基于不同數(shù)據(jù)集的不同特點(diǎn),所提模型能夠較好地學(xué)習(xí)特征并檢測(cè)X光圖像中的違禁品,具有應(yīng)用性廣、實(shí)時(shí)性強(qiáng)、準(zhǔn)確度高等特點(diǎn)。

表5 數(shù)據(jù)集上的消融實(shí)驗(yàn)研究Tabel 5 Experimental study of ablation on dataset
圖6為基線模型與所提模型的數(shù)據(jù)集結(jié)果可視化對(duì)比圖,第1行圖為基線模型檢測(cè)結(jié)果,第2行圖為改進(jìn)后的檢測(cè)結(jié)果,縱向?qū)Ρ瓤芍趶?fù)雜背景下多尺度特征違禁品的檢測(cè)中,改進(jìn)后的模型能夠準(zhǔn)確檢測(cè)出隱藏違禁品,表明改進(jìn)策略的有效性。

圖6 數(shù)據(jù)集結(jié)果可視化對(duì)比圖Fig.6 Dataset result visualization comparison chart
本文以YOLOv5為基線網(wǎng)絡(luò),引入空間自適應(yīng)與多尺度特征融合策略,改進(jìn)違禁品尺度差異性問題,采用注意力機(jī)制模塊CA抑制背景干擾問題,使用GhostConv替換普通Conv降低網(wǎng)絡(luò)消耗,所提模型在當(dāng)前應(yīng)用較為廣泛的HiXray、OPIXray、SIXray等3個(gè)公開數(shù)據(jù)集上的mAP分別提升1.7、5.4、0.5個(gè)百分點(diǎn),超過了當(dāng)前諸多先進(jìn)方法,改進(jìn)后的網(wǎng)絡(luò)模型兼顧檢測(cè)精度與檢測(cè)速度平衡性,且具有較好的泛化性,是一種性能優(yōu)良的違禁品檢測(cè)模型。