蔣甜甜,葉學義,李 剛,楊夢豪,陳華華
(杭州電子科技大學 通信工程學院,浙江 杭州 310018)
人們對自身安全問題的持續關注,促進了在公共場所以及一些重點場所安檢技術的發展。傳統的安檢技術包括X 射線探測器、金屬探測器[1]以及人工檢測[2],它們在人體健康和隱匿目標檢測方面存在一定限制。由于毫米波輻射是非電離輻射[3],對衣物穿透性強[4],能夠在不傷害人體情況下進行安全檢查,因而毫米波安檢技術越發受到關注;且隨著成像技術和計算機視覺的飛速發展,毫米波安檢技術逐漸與人工智能方法相結合。因為主動毫米波(Active Millimeter Wave,AMMW)[5]圖像質量要高于被動毫米波(Passive Millimeter Wave,PMMW)[6],對AMMW 圖像(包括陣列和線掃毫米波成像設備)的隱匿目標檢測逐漸成為主流。
當前AMMW 圖像隱匿目標檢測已經進行了較為深入的研究,根據采用的方法不同,毫米波圖像隱匿目標檢測可以分為傳統方法和深度學習方法[7]。用傳統方法檢測毫米波圖像隱匿目標[8-9],雖然可以達到對目標有效檢測,但模型泛化能力弱。隨著深度學習在目標檢測領域取得顯著成果,采用深度卷積神經網絡對毫米波圖像隱匿目標檢測逐漸增多。基于深度卷積神經網絡目標檢測方法主要有兩種模型:基于區域提取兩步(Regions with CNN features,R-CNN)模型和一步回歸(You Only Look Once,YOLO)模型。在基于區域提取兩步R-CNN 模型中,對毫米波圖像隱匿目標檢測算法研究大多采用Faster-RCNN[10],通過改進Faster-RCNN 解決小數據集問題以及提升對于小目標的檢測[1,11-12],但實時性與YOLO模型相比具有明顯劣勢。為了提升檢測效率,近年來采用YOLO 模型對毫米波圖像隱匿目標檢測逐漸增多,致力于在滿足安檢實時性的前提下,提高檢測性能[13-15]。由于注意力機制可以加強與任務相關的信息關注,在增加少量參數情況下達到良好的檢測結果,并且YOLO 模型不斷改進,YOLOv5 與注意力機制相結合的目標檢測方法在其他目標領域已經取得了顯著優勢[16-17]。
相較于YOLOv3[18]和YOLOv4[19],YOLOv5[20]具有更好的檢測性能和優越的實時性。在YOLOv5 4 種模型中,YOLOv5s 參數量最少、實時性更強、模型更靈活。由于當毫米波圖像中隱匿目標與背景紋理區分度較低時容易漏檢,以及公共場所對安檢實時性要求,選擇YOLOv5s 作為毫米波圖像隱匿目標檢測的基本模型,構建并提出基于全局通道注意增強的毫米波圖像目標檢測模型,具體創新點如下:
(1)全局通道注意力增強器(Global Channel Attention Booster,GCAB),在坐標注意力(Coordinate Attention,CA)[21]位置方向上引入全局通道注意模塊,生成GCAB,并與YOLOv5s 有效結合,提升對與背景紋理區分度較低的隱匿目標檢測。
(2)重新聚類生成錨框,利用K-means++聚類算法[22]根據毫米波圖像隱匿目標尺寸重新聚類生成新錨框,解決了原有錨框對與人體相對較小隱匿目標檢測不適問題。
基于全局通道注意增強的檢測模型整體框架如圖1所示,其中灰色方框為提出的GCAB 模塊。模型主要包含3 部分:主干、頸部和頭部。主干包含5 級特征層,除第一級特征層外,其余每級特征層皆由CBS 和C3 模塊組成。CBS 模塊由Conv、BN 和SiLU[23]構成,通過下采樣,將語義信息由低級向高級轉化;C3 借鑒了跨階段區域網絡(Cross Stage Partial Network,CSPNet)[24],由CBS、BottleNeck 和Contact 組成,主要用于特征的提取。頸部借鑒了聚合路徑網絡(Path Aggragation Network,PANet)[25],融合了主干網絡的第3~5 級特征圖,以獲得更多的上下文信息。頭部采用3 個檢測頭,分別用來檢測大、中、小隱匿目標。模型在主干和頸部C3 模塊之后加入GCAB模塊,通過對上一級特征層的隱匿目標特征信息加強,有利于下一級特征層對隱匿目標特征提取。在主干和頸部連接處加入GCAB 模塊,加強淺層細節。由于原檢測部分對所有通道處理看似公平但不合理,因此在頭部檢測之前,利用GCAB 模塊來加強重要通道特征權值。

圖1 模型整體框架
通道數的增加導致通道間相互信息減少,而每個通道被看作是一個特征檢測器,因而加強通道信息關注有利于檢測目標。同時,位置信息也不可缺失。CA 注意力機制既能生成通道注意力,又能生成與方向相關的位置注意力。但CA 是在位置信息嵌入的基礎上進行注意力生成的,減弱了全局通道注意力的生成。因此,提出在CA 與輸入特征進行加權之前,加入全局通道特征注意,增強全局通道信息關注,生成GCAB 模塊。
GCAB 模塊包含CA 和全局通道特征注意兩部分。算法流程圖如圖2 所示,其中,灰色方框表示全局通道特征注意部分,其余方框表示CA 部分。對于CA 部分,輸入特征圖Fin∈RC×H×W分別在X(X為特征圖寬度方向)和Y(Y為特征圖高度方向)方向上進行一維全局平均池化,定義池化后高度為h時輸出特征圖Zh(h)∈RC×1×1和寬度為w時輸出特征圖Zw(w)∈RC×1×1公式如下:

圖2 GCAB 計算流程
其中,C、H和W分別為特征圖的通道數、高度和寬度。Fin(h,i)和Fin(j,w)分別為輸入Fin在高度為h時和寬度為w時的局部特征。
式(1)和式(2)分別在X和Y方向上生成的聚合特征圖為Zw∈RC×1×W和Zh∈RC×H×1,然后Contact 拼接特征圖Zw和Zh,經過Conv2d 的1×1 卷積將通道數減少為,從而減少計算量,再經過BN 歸一化和非線性性激活,得到在X和Y方向特征圖Z∈R(C/r)×1×(W+H):
其中,[,]是級聯操作,F1是1×1 卷積操作,δ是非線性激活函數,r是減少率。
隨后將Z按空間維度分解成X和Y方向上特征圖fw∈R(C/r)×1×W和fh∈R(C/r)×H×1,再由1×1 的卷積恢復通道數為C,最后經過Sigmoid 激活函數分別得到對Y方向和X方向通道加強特征gh∈RC×H×1和gw∈RC×1×W:
其中,Fh和Fw為1×1 卷積操作,σ為Sigmoid 激活函數。
全局通道特征注意模塊如圖3 所示。將CA 在X和Y方向上生成的通道加強特征作為此模塊輸入。由于在X和Y方向上處理相同,選擇只對其中一個方向作詳細描述。以X方向上的處理為例,首先對在X方向上通道加強特征gw進行一維全局平均池化,得到特征圖g∈RC×1×1:

圖3 全局通道特征注意模塊計算流程
再經過兩個1×1 的卷積,先壓縮通道數為原通道數的1/r,再恢復成原通道數,最后經過Sigmoid 激活函數得到以X方向為基礎的全局通道加強特征權重xw∈RC×1×1:
其中,F1為改變通道數為C/r的卷積操作,F2為恢復通道數為C的卷積操作,r與CA 中減少率相同。
最后將在X方向上通道加強特征gw和以X方向為基礎的全局通道加強特征權重xw相乘,得到在X方向上加強的全局通道特征權重X∈RC×1×W:
同理,得到在Y方向上加強的全局通道特征權重Y∈RC×H×1,最后將在X和Y方向上加強的全局通道特征權重X、Y和輸入特征圖Fin相乘,得到全局通道增強后特征圖Fout∈RC×H×W:
在YOLOv5s 中,采用錨框擬合真值標簽框,并根據錨框偏移量計算得到預測框,所以錨框尺寸選擇是影響目標檢測結果的一個因素。YOLOv5s 原始錨框是根據COCO 數據集[26]由K-means 算法[27]得到的,COCO 數據集中目標可以分成小尺寸(分辨率小于32×32)、中尺寸(分辨率大于32×32 且小于96×96)和大尺寸(分辨率大于96×96)3 種。而毫米波數據集中隱匿目標相對于人體較小,通常在COCO 數據集小中尺寸目標范圍內。因此,采用YOLOv5s 原錨框不適合對毫米波隱匿目標檢測。
為了提高YOLOv5s 回歸盒的能力,采用K-means++聚類算法分別對陣列圖像數據集和線掃圖像數據集重新聚類生成新錨框,結果如表1 第一行和第二行所示,表1 第三行表示YOLOv5s 原始錨框。將表1 中前兩行與第三行對比可以看出,用K-means++聚類算法對毫米波圖像數據集聚類出新錨框尺寸在原始錨框檢測小中目標范圍內,進一步驗證了毫米波數據集中隱匿目標尺寸處于COCO 數據集小中尺寸目標范圍以及原始錨框不適合對毫米波數據集隱匿目標檢測。

表1 K-means++聚類新錨框尺寸與原錨框尺寸對比結果 (px)
為了驗證本文方法對不同成像設備的毫米波數據集中隱匿目標的檢測能力,實驗采用兩種主動毫米波數據集:陣列圖像數據集和線掃圖像數據集(分別來自目前僅有的兩種實際應用的主動毫米波圖像采集設備)。為了得到更好的模型性能,選擇訓練集、驗證集和測試集比例為8:1:1(即整個數據集中訓練集占80%、驗證集占10%、測試集占10%)。
陣列圖像數據集中每個模特通過陣列設備掃描產生正面和背面各一張圖像,圖像分辨率為1 024×2 048,如圖4 所示,實驗選取24 700 張圖像,以正面或背面單張圖像劃分訓練集、驗證集和測試集。

圖4 陣列圖像數據集
線掃圖像數據集中每個模特由線掃設備旋轉掃描產生正面和背面各9 張不同角度的圖像,圖像分辨率為400×762,如圖5 所示,圖中方框為目標真值框,其中(a)為模特正面的順時針成像9 張圖,(b)為模特背面的逆時針成像9 張圖。實驗選取38 240 張圖像并將正面9 張圖像和背面9 張圖像各合為一組,然后再劃分訓練集、驗證集和測試集。

圖5 線掃圖像數據集
實驗采用訓練輪次為180,輸入圖片大小在訓練中調整為640 px×640 px,批次大小為32,優化器采用隨機梯度下降法。在實驗中所用評估參數為精度(P)、召回率(R)和平均精度(mAP)。P表示在所有預測為真的時候,正確預測標簽所占的比例。R表示預測為真當中的正確預測占所有真實標簽的比例。AP 表示在不同置信度閾值下精度和召回率圍成的面積,mAP 表示所有類別平均的平均精度,用來判斷模型優劣。由于對毫米波圖像隱匿目標檢測時,不需要更精確的輪廓位置,當預測框和目標框面積的交并比(Intersection over Union,IOU)為0.5 時便判定檢測到目標,因而評價標準采用IOU=0.5 時指標。
2.3.1 對比實驗
為了驗證本文方法有效性,將其與主流檢測模型在陣列毫米波圖像數據集上做對比實驗,包括Faster RCNN、YOLOv3、YOLOv4、YOLOV5s、YOLOv5m、YOLOv6[28]、YOLOv7[29]、YOLOv8[30]。對比的性能指標有P、R、mAP@.5、模型參數量和平均單張圖像推理時間(表示圖像歸一化后輸入模型到得到輸出結果的時間,不包括非最大抑制比處理時間),實驗結果如表2 所示。

表2 不同檢測模型實驗對比結果
由表2 可得,本文方法與其他主流檢測模型相比,R和mAP@.5 均為最優,比最差的YOLOv3 分別增加了5.79% 和4.48%,比YOLOv5m 分別增加了0.64% 和0.39%。在參數量和單張圖像推理時間上比YOLOv3 分別少54.3 M(M 表示百萬)和2.8 ms,比YOLOv5m 少13.6 M 和0.8 ms。與后續的YOLOv6s、YOLOv7 和YOLOv8s 相比,本文方法在P、R和mAP@.5 上仍優異。相比于原YOLOv5s,本文方法在增加0.2 M 參數量和0.2 ms的單張圖像推理時間基礎上,P、R和mAP@.5 分別增加了0.63%、1.37%和1.12%。上述結果表明,本文方法比原YOLOv5s 增加了隱匿目標檢測數量,減少了誤檢數量且模型性能最好;在單張圖像推理時間上與現有主流檢測模型相比,實時性依然出色。
實驗結果在毫米波圖像上表現如圖6 所示,其中行表示不同樣本,列分別表示標簽圖、YOLOv5s 檢測結果圖、K-mean++聚類生成新錨框后檢測結果圖以及采用本文方法所得檢測結果圖。在標簽圖上的方框表示隱匿目標的真值框,在其余圖上方框表示隱匿目標檢測框。從樣本1 到樣本4 檢測結果可以看出,本文方法在原YOLOv5s 檢測基礎上增加了隱匿目標檢測,其中包含了與背景紋理區分較低的隱匿目標。

圖6 陣列圖像數據集檢測結果
2.3.2 消融實驗
為了驗證K-means++聚類算法和GCAB 模塊有效性,在YOLOv5s 中融合CA 模塊、改進后GCAB 模塊、Kmeans++聚類算法以及GCAB模塊+K-means++聚類算法進行消融實驗,實驗結果如表3所示(加粗字體為每列最優值)。

表3 消融實驗對比結果
由表3 可知,改進后GCAB 模塊的檢測性能優于CA 模塊,P和mAP@.5 分別增加了0.49%和0.15%;且YOLOv5s 單獨融合K-means++聚類算法或GCAB 模塊后檢測性能得到提升,與之相比,同時融合GCAB 模塊和K-means++聚類算法后檢測性能得到進一步提升,P、R和mAP@.5 比原YOLOv5s 分別增加了0.63%、1.37% 和1.12%。結合圖6 和表3 結果可知,融合Kmeans++聚類算法后,樣本1 和樣本2 增加了臀部和大腿處隱匿目標檢測;在此基礎上融合GCAB 模塊后,在樣本1 和樣本2 上的檢測結果和融合K-means++聚類算法時檢測結果相同,同時增加了樣本3 和樣本4 在后腰和胸前與背景紋理區分較低的隱匿目標檢測。說明GCAB 模塊增加了對與背景區分度較低的隱匿目標檢測,K-means++聚類算法生成新錨框后增加了對隱匿目標檢測,與YOLOv5s 原錨框相比更適合對與人體相對較小的隱匿目標檢測。
在線掃圖像數據集上,分別采用本文方法與現有主流檢測模型作對比,包括YOLOv3、YOLOv4、YOLOv5s、YOLOv5m、YOLOv6s、YOLOv7、YOLOv8s。對比性能指標有P、R、mAP@.5、模型參數量和平均單張圖像推理時間,實驗結果如表4 所示(加粗字體為每列最優值)。

表4 不同模型實驗對比結果
由表4 可得,本文方法在P、R和mAP@.5 均優于其他主流檢測模型,比最差的YOLOv3 分別增加了1.93%、5.67%和3.39%,比YOLOv5m 分別增加了0.02%、0.24% 和0.18%。在參數量和單張圖像推理時間上比YOLOv3 分別少54.3 M 和2.8 ms,比YOLOv5m 少13.6 M 和0.8 ms。與后續YOLOv6s、YOLOv7 以及YOLOv8s 相比,本文方法所得結果仍優異。相比于原YOLOv5s,本文方法在增加0.2 M 參數量和0.2 ms 的單張圖像推理時間基礎上,P、R和mAP@.5 分別增加了1.08%、0.38%和0.68%。上述結果表明,本文方法比原YOLOv5s 增加了隱匿目標檢測數量,減少了誤檢數量且模型性能最好;在單張圖像推理時間上與現有主流檢測模型相比,實時性依然出色。
實驗結果在毫米波圖像上表現如圖7 所示,其中行表示不同樣本,列分別表示標簽圖、YOLOv5s 檢測結果圖以及采用本文方法所得檢測結果圖。在標簽圖上的方框表示隱匿目標的真值框,其余圖上方框表示隱匿目標檢測框。從樣本1 到樣本3 檢測結果可以看出,本文方法在原YOLOv5s 檢測基礎上,增加了在人體手腕、胳膊肘和腋下部位與背景紋理區分度較低的隱匿目標檢測。

圖7 線掃圖像數據集檢測結果
本文將YOLOv5s 模型與GCAB 和K-means++聚類算法相結合,提出了基于全局通道注意力增強毫米波圖像目標檢測方法。其中,通過GCAB 提升與背景紋理區分度較小時隱匿目標的檢測能力,并利用K-means++聚類算法根據毫米波圖像數據集重新聚類生成更適合對與人體相對較小隱匿目標檢測的新錨框。實驗在陣列圖像數據集和線掃圖像數據集上的結果表明,與現有主流檢測模型相比較,本文方法在增加少量參數的基礎上,精度和召回率上表現較好且mAP@.5 最高,模型性能最好。平均單張圖像推理時間達到1 ms,與現有主流方法相比,實時性仍然優異。由上述結果可知,本文方法在滿足實時性的情況下,提升了檢測性能。