基于ScoreCAM的X光安檢違禁品檢測

2022-12-30 07:51:40張海剛湯圣濤孫紅星楊金鋒

計算機工程與設計 2022年12期

趙晴，張海剛，湯圣濤，毛亮，孫紅星，楊金鋒

(1.深圳職業技術學院粵港澳大灣區人工智能應用技術研究院，廣東深圳 518055；2.遼寧科技大學電子與信息工程學院，遼寧鞍山 114051；3.杭州市特種設備檢測研究院電梯檢驗一所，浙江杭州 310051)

0 引言

X光的透射成像模式會將待測物體從3D空間“壓縮”到2D空間，并且成像顏色單調，差異較小，而日常行李中的物品多雜亂無序，經X光的透射，目標間形成遮擋，不利于目標檢測。同時物品大小形狀各異，姿態復雜多樣，尺度間的差異容易導致檢測模型忽略小尺寸目標，嚴重影響違禁物品識別的可靠程度。

張友康等[1]改進SSD算法，提出非對稱卷積多視野神經網絡，提高了復雜背景下的多尺度違禁品目標檢測精度。郭守向等[2]結合復合骨干網絡思想，改進Yolo[3-6]算法，構建了Yolo-C目標檢測網絡，加入特征增強模塊，融合級聯后特征圖的特征，提高了違禁品目標識別精度。康佳楠等[7]改進Faster R-CNN，采用多層特征提取和多通道區域建議，融合圖像深層和淺層的特征信息，使圖像特征更全面，違禁品檢測精度更高。姚少卿等[8]使用輕量化分割網絡，設計空洞卷積和非對稱卷積模塊，違禁品識別精度和速度都得到了提高。蘇志剛等[9]加入空間金字塔卷積[10,11]，引入注意力機制監督特征提取過程，在U-Net模型基礎上使用逐級上采樣操作，完成了多目標違禁品識別任務。他們通常用候選框的方式來顯示檢測結果，需要大量的標注數據進行訓練，屬于強監督方法。弱監督方法通過建立模型，依靠圖像類別標注信息學習類別間的共性，可以避免人工標注X光安檢圖像時可能引入的不精確甚至是錯誤標注。

本文提出了適合X光安檢圖像違禁品檢測的網絡模型，改進ResNet50網絡，以弱監督算法ScoreCAM(Score-Weighted CAM)[12]為基礎，完成違禁品定位并實現可視化。設想了4種添加可變形卷積模型的形式，擴大感受野后，在全局視野下捕捉小目標，調整卷積核的形態，預測被遮擋的違禁品特征，能有效應對X光安檢圖像中目標多姿態變化、遮擋和小目標漏檢的技術難題，提高違禁品檢出率。

1 安檢違禁品檢測模型

本文提出適合X光安檢違禁品圖像檢測的模型框架，如圖1所示，改進的ResNet50模型結構如圖2所示。訓練階段將分好類的圖片送入弱監督網絡模型，加入可變形卷積模塊，進行多分類預測，得到分類權重。測試階段將訓練好的權重送入弱監督網絡模型，使用ScoreCAM算法，針對安檢違禁品存在的多姿態、小目標問題，在弱監督網絡模型加入可變形卷積模塊、空洞卷積模塊，便可完成多分類、目標定位、目標檢測任務。上述框架實現的關鍵所在是如何使模型生高質量的類別熱力圖。

圖1 X光安檢違禁品模型

圖2 改進ResNet50模型

模型的主干網絡采用ResNet50，它在深度神經網絡中增加了殘差模塊，通過學習多個網絡層輸入、輸出之間的殘差，保證了輸入信息的完整性。殘差網絡結構即使面對網絡層數不斷加深，也能在一定程度上減小網絡的過擬合程度和計算量，同時保證網絡的特征提取能力。ResNet50基礎模型分別用1×1，3×3，1×1的卷積堆疊，為了提高對目標的檢測效果，在模型中加入了可變形卷積和空洞卷積，重點關注3×3的卷積，并設計了4種可變形卷積結構。

1.1 ScoreCAM

卷積神經網絡(convolutional neural network，CNN)具有優秀的圖像語義信息提取能力，圖像中各目標的位置、輪廓等信息是完整包含在圖像本身之中的，對CNN目標特征進行可視化，可以使本來只能用于分類的CNN具有目標檢測能力。CNN一般由特征提取器與分類器組成，特征提取器負責提取圖像特征，分類器依據特征提取器提取的特征進行分類，CNN深層特征圖富含高度抽象的類別特征，ScoreCAM基于深層特征圖進行可視化來解釋CNN模型。ScoreCAM采取特征融合權重與特征圖線性加權融合的方式生成類激活映射圖，考慮到梯度的不穩定性，在線性權重的設計中增加了置信度，不再和GradCAM(Gradient-weighted CAM)[13]一樣依賴梯度，權重設置更加合理，對安檢違禁品的定位效果進一步得到提升。

(1)

其中

(2)

此過程將最后一層特征圖的各個通道看成一種特殊掩碼，進行上采樣操作，再與輸入圖像逐像素相乘，在CNN中預測相應通道的類別重要程度。

ScoreCAM的類別激活圖計算方式如下

(3)

其中

(4)

ScoreCAM的流程如圖3所示，階段一主要對特征圖進行提取，提取到的特征圖進行逐通道遍歷，針對每層的特征圖使用上采樣和歸一化操作，階段二把前一階段的通道作為掩碼，與輸入圖像逐像素相乘，在CNN中得到各類別對應的響應值CIC，并將CIC作為特征融合權重。階段三將階段一所提取的特征圖與CIC線性加權求和，得到最終可視化的結果。

圖3 ScoreCAM流程

在安檢違禁品檢測中，利用ScoreCAM的類別判別能力定位出違禁品區域，實現可視化，給出解釋的同時標注出違禁品位置。

1.2 可變形空洞卷積模塊

卷積神經網絡中卷積核的幾何結構一般都是固定的矩形，針對幾何變換方面的建模能力是有限的。在實際安檢情境中，同種類的違禁品可能會存在不同的形態、大小以及視角等的變化，傳統的卷積無法較好處理這些問題，很可能造成漏檢，從而帶來巨大的安全隱患。

可變形卷積[14]的卷積核在每一個元素上額外增加了一個方向參數，這樣卷積核就能在訓練過程中擴展到很大的范圍?？勺冃尉矸e概括了多種尺度、長寬比和旋轉的各種變換，可變形卷積采樣位置如圖4所示。在X光安檢中運用可變形卷積，卷積核的形狀可以更接近違禁品特征。

圖4 可變形卷積采樣位置

為進一步加強可變形卷積對幾何變換學習的能力，能夠學習各種不同形態、尺寸的違禁品特征，加入了調制機制，可變形卷積v2[15]不僅能對輸入進行偏移，還可以調整各位置輸入的權重。給定一個有K個采樣位置的卷積核，wk和pk分別表示第k個位置的權重和預先設定好的偏移，令x(p) 和y(p) 分別表示輸入特征圖x和輸出特征圖y中位置p的特征，可調節的可變形卷積可以定義為

(5)

式中： Δpk和Δmk是第k個位置上的可學習的偏移和調節參數，調節參數Δmk∈[0,1]， Δpk為任意值?？勺冃尉矸ev2不僅學習了偏移還學習了采樣點的權重。

空洞卷積引入膨脹率參數，用來定義卷積核之間的間距，設置不同的膨脹率，得到不同的感受野，空洞卷積以低成本增加輸出單元上的感受野，同時還不需要增加卷積核大小，當多個空洞卷積一個接一個堆疊在一起時，這種方式是非常有效的。

在X光安檢具體情況中，違禁品常常隨機分布在圖像的任意位置，并且存在尺寸很小的情況，想要將小目標檢測出來，有一定的難度。為解決這個問題，在空洞卷積的基礎上再對卷積進行可變形操作，一方面卷積核的形狀更加貼近目標違禁品特征，另一方面擴大了感受野，擁有更加豐富的語義信息，融合后不僅能學習到整體輪廓，對細節部分也能獲取更多信息，增加了小目標違禁品的檢出率。

對在何處增加可變形卷積模型，本文設想了4種形式，并進行了實驗對比，卷積不同的修改位置如圖5所示。第一種形式是把ResNet50的Layer2至Layer4的conv2中3×3普通卷積都換成了可變形卷積，更多的可變形卷積可以更好學習目標多姿態形態，但同時也帶來了更大的計算量。第二種形式僅將ResNet50的Layer4的conv2中3×3普通卷積換成了可變形卷積，將最后最關鍵的輸出層改為可變形卷積，能獲取最關鍵的語義信息，同時對原有網絡結構改動少，較好保留了原網絡的優點，運算速度也大大優于第一種形式。第三種形式將ResNet50的Layer4的conv2中3×3普通卷積換成了空洞卷積，擴大了感受野，運算速度最快，接近第二種形式。第四種形式將ResNet50的Layer4的conv2中3×3普通卷積換成了可變形空洞卷積，卷積核貼近目標違禁品特征基礎上進行膨脹，輸出層尺度小，擁有感受野大，語義信息豐富，對原網絡改動不大，運算速度也優于第一種形式。

圖5 卷積不同的修改位置

2 實驗

2.1 實驗環境和數據集

實驗所用工作站配置了NVIDIA GeForce RTX 2070 GPU顯卡，Intel(R) Core(TM) i7-9700 CPU @ 3.00 GHz，內存16 G，操作系統是Windows 10，使用pytorch深度學習框架和python語言編寫程序。

本文采集圖像所使用的安檢機可以將32 mm的鋼板穿透，單根實心銅芯的分辨能力是0.08 mm，成像方式是雙能偽著色成像。為更全面模擬真實的X光安檢情況，在各個采集階段，違禁品和包裹的擺放位置進行了水平旋轉和翻轉，進行多次采集。包裹背景分為有背景填充、無背景填充，填充物包括USB數據線、耳機、書本、塑料瓶等常見物品。由于神經網絡需要大量數據進行訓練，為保證數據集的數量充足并具有多樣性，本文所用的安檢圖像數據集經數據增強后共有23 250張安檢違禁品圖片，分為7類，有充電寶、叉子、仿真手槍、水果刀、打火機、鉗子、剪子，具體數據見表1。這7類違禁品的X光圖像涵蓋了常見的違禁品圖像基本特征，水果刀、仿真手槍和鉗子屬于金屬類，打火機、充電寶屬于混合物類，叉子、剪刀屬于小目標類。數據集樣本如圖6所示。

表1 X光安檢違禁品數據集

圖6 數據集樣本

2.2 評價指標

由于使用弱監督方法，并沒有對數據用候選框進行標注。但為了對結果進行定量比較，本文做了補充實驗。

為了更合理體現弱監督算法的有效性，首先將測試圖片中的違禁品目標進行像素級別的語義分割，然后將弱監督算法生成的熱力圖轉為掩模圖像，再將掩模圖像轉為二值圖像，進行歸一化，最后使用語義分割準確性評價指標對實驗結果進行評價，評估過程如圖7所示。

圖7 評估過程

實驗為了評估X光安檢違禁品檢測的準確性和檢測速度，采用以下5個評價指標：像素準確率(pixel accuracy，PA)、平均像素準確率(mean pixel accuracy，MPA)、平均交并比(mean intersection over union，MIoU)、F1分數(F1 score，F1)、頻權交并比(frequency weighted intersection over union，FWloU)。

在語義分割中，準確率又稱為像素準確率，定義為預測類別正確的像素數占總像素數的比例。計算方式如下

(6)

平均像素準確率分別計算每個類被正確分類像素數的比例，計算方式如下

(7)

平均交并比定義為模型對每一類預測的結果和真實值的交集與并集的比值，求和再平均的結果。計算方式如下

(8)

F1分數是衡量模型精確度的一種指標，又被稱為平衡F分數(balanced score)，定義為精確率和召回率的調和平均數。計算方式如下

(9)

頻權交并比是根據每一類出現的頻率設置權重，權重乘以每一類的IoU并進行求和。計算方式如下

(10)

式中：TP(true positive)是預測正確的正樣本，FP(false positive)是預測錯誤的正樣本，TN(true negative)是預測正確的負樣本，FP(false positive)是預測錯誤的負樣本，n是類別數。

2.3 對比實驗

本文將ResNet-50作為基本框架，原網絡最后一層全連接層的輸入個數為2048，本文實驗所用數據集共有7類，在用預訓練的ResNet50模型進行遷移訓練時，我們需要對網絡的最后一層進行替換，替換成我們想要的輸出分類數目7。在ImageNet大規模數據集訓練好的深度學習模型上引入微調(Fine-tune)技術，在訓練階段加入了可變形卷積，具體是將原網絡中layer4中每個bottleneck中conv2里3×3的卷積換為可變形卷積。為避免訓練時梯度下降算法陷入局部最小值，使用余弦退火學習率，通過突然提高學習率，來“跳出”局部最小值并找到通向全局最小值的路徑，加速模型的收斂，即使后期下降使得loss變小，也能較好地穩步靠近局部最優點。在神經網絡做分類問題時，使用交叉熵作為損失函數。

圖8 訓練結果

測試階段在弱監督網絡模型中使用ScoreCAM算法，加入可變形空洞卷積，使用訓練中第90個epoch得到的權重作為驗證階段網絡的權重，最終得到驗證結果。

為了選出更好的特征提取網絡，我們在常用的Resnet網絡和Vgg網絡做了對比實驗，均采用ScoreCAM算法和訓練中第90個epoch對應的權重，實驗結果如圖9和表2所示。從圖9可以觀察到，除了Vgg19的結果沒有被準確檢測，其它的都被檢測到了，Resnet18和Resnet34的結果中，熱力圖覆蓋了過多無關區域，Resnet50的結果對違禁品目標覆蓋較為全面且無關區域較少，Resnet101的結果中熱力圖覆蓋違禁品的區域不如Resnet50準確，并且Resnet101網絡層數多，訓練成本較大。

圖9 不同的特征提取網絡比較實驗

從表2的刪除和插入實驗中發現，Resnet50的插入值最大，刪除值低至1.76，僅次于Resnet101，可以得到和圖9一致的結論。綜合比較后，Resnet50網絡層數適中，違禁品檢測和定位效果佳，于是本文選用Resnet50作為特征提取網絡，結合弱監督方法模型實現違禁品的檢測和定位。

表2 不同的特征提取網絡刪除和插入實驗

為了驗證ScoreCAM算法在X光安檢違禁品檢測中的有效性，本文將ScoreCAM算法與常用的GradCAM算法做了實驗比較，均采用Resnet50特征提取網絡和訓練中第90個epoch對應的權重，結果如圖10所示。GradCAM檢測和定位效果不如ScoreCAM，ScoreCAM的插入值高于GradCAM，刪除值低于GradCAM，因此ScoreCAM的結果優于GradCAM。

圖10 ScoreCAM結果對照實驗

為了驗證所改進方法的有效性，我們進行了諸多比較實驗，使用ScoreCAM算法，在弱監督網絡模型中不同的層分別加入可變形卷積、空洞卷積以及可變形空洞卷積，測試了小目標類違禁品，卷積不同修改位置實驗結果如圖11所示，定量結果如表3所示。

從圖11中可以發現，GradCAM定位不準，沒有獲取目標所在熱力圖，造成了漏檢，ScoreCAM的結果成功檢測并覆蓋了目標物體，覆蓋目標面積相比GradCAM擴大了很多。在ScoreCAM中加入DCN Layer2-4后，目標物體覆蓋面積進一步加大，但無關區域覆蓋過多，改用DCN Layer4后，無關區域覆蓋面積有所減少。在ScoreCAM改用DCN Layer4后再加入空洞卷積，形成的結果圖顯示熱力圖幾乎完全包圍了目標物體，而且無關區域已經所剩無幾，取得了很好的效果，ScoreCAM+DCN Layer4+dilation4效果最佳，通過上述比較，可以得出ScoreCAM算法結合可變形空洞卷積在安檢違禁品檢測上可以在一定程度上解決小目標漏檢以及定位不準問題，可顯著提高小目標檢測能力和定位能力。

圖11 小目標對比實驗

從表3中可以進一步發現，總體來說隨著可變形卷積和空洞卷積的增加，各項數值均有提升，上文圖5設想的第一種形式把ResNet50的Layer2至Layer4的conv2中3×3普通卷積都換成了可變形卷積，過多的可變形卷積增加了模型的復雜度，帶來了更大的計算量，實驗結果也并不使人滿意。第二種形式將ResNet50的Layer4的conv2中3×3普通卷積換成了可變形卷積，PA提升了1.2%，MIoU提升了0.4%，說明適當增加可變形卷積可以提高小目標檢測率。第三種形式將ResNet50的Layer4的conv2中3×3普通卷積換成了空洞卷積，實驗結果大幅提升，說明增加空洞卷積可以提高小目標檢測率。第四種形式將ResNet50的Layer4的conv2中3×3普通卷積換成了可變形空洞卷積，設置了不同的膨脹值，實驗結果進一步提升。dilation為4時，較第二種形式PA提升了3.3%，MPA提升了8.3%，MIoU提升了5%，F1提升了6.5%，FWIoU提升了3.3%。dilation設置更大時實驗結果圖和實驗數據改進很小，結合表3以及模型復雜度比較，最終發現ScoreCAM+DCN Layer4+dilation4最為合適，由此也可驗證可變形空洞卷積有效提高了違禁品目標的定位能力和小目標檢測能力。

表3 卷積修改結果對比/%

圖12以及表4顯示了大目標對比實驗的結果，通過對比發現ScoreCAM+DCN Layer4+dilation4比ScoreCAM的MPA提升了15.8%，MIoU提升了8.3%，F1提升了8.7%，FWIoU提升了0.6%，大幅提升的實驗數據說明ScoreCAM算法結合可變形空洞卷積在安檢違禁品檢測上不僅可以在一定程度上解決小目標漏檢以及定位不準問題，也可以提高了較大目標的檢測能力和定位能力，進一步說明了本文算法的有效性。

表4 大目標卷積修改結果對比/%

圖12 大目標對比實驗

為了驗證可變形空洞卷積模塊在別的特征提取網絡以及弱監督算法中依舊有效，本文做了相關對比實驗。在表5中，均采用ScoreCAM算法和訓練中第90個epoch對應的權重，使用不同的特征提取網絡進行實驗，實驗發現ResNet50的刪除和插入值優于ResNet101和ResNet152，在加入了DCN Layer4+dilation4后，ResNet101和ResNet152的檢測效果也得到了相應的提升，但ResNet50+DCN Layer4+dilation4的刪除和插入值依舊最佳，插入值高于其它網絡，刪除值在所有網絡中最低，違禁品目標的檢測和定位效果均得到了一定程度的提升，綜合比較，ResNet50+DCN Layer4+dilation4的效果最佳，驗證了可變形空洞卷積模塊的有效性。在表6中，均采用ResNet50和訓練中第90個epoch對應的權重，使用不同的弱監督算法進行實驗，在加入DCN Layer4+dilation4后，不同的弱監督算法的刪除值均有所降低，違禁品目標的檢測和定位效果也更好。實驗結果表明，可變形空洞卷積模塊在別的特征提取網絡以及弱監督算法中依舊有效。

表5 不同特征提取網絡中驗證可變形空洞卷積

表6 不同的弱監督算法中驗證可變形空洞卷積

3 結束語

本文提出了一種弱監督機制下的X光安檢圖像違禁品檢測模型，改進ResNet50，在ScoreCAM算法中融合可變形空洞卷積模塊，避免了人工標注，能有效應對多姿態、遮擋和小目標漏檢的技術難題。算法有效改善了檢測性能，但同時速度也有所下降，隨著網絡的增大，GPU占用率也有所增加。現實生活中旅客行李雜亂，違禁品種類數量繁多，形態各異，模型在解決這個問題上還不成熟，因此下一步工作是改進模型解決多目標違禁品檢測漏檢、遮擋的問題，來進一步提高違禁品檢測準確率。