吳靖,趙爾敦,林卓成,秦文清
基于注意力與特征融合的工程機械目標(biāo)檢測方法
吳靖,趙爾敦,林卓成,秦文清
(華中師范大學(xué),武漢 430079)
針對施工環(huán)境中工程機械目標(biāo)大小不一、相互遮擋、工作形態(tài)各異等問題,提出一種基于注意力與特征融合的目標(biāo)檢測方法(AT–FFRCNN)。在主干網(wǎng)絡(luò)中采用ResNet50和特征路徑聚合網(wǎng)絡(luò)PFPN,融合不同尺度的特征信息,在區(qū)域建議網(wǎng)絡(luò)(RPN)和全連接層引入注意力機制,提高目標(biāo)識別的能力,在損失函數(shù)中使用廣義交并比(GIoU),提高目標(biāo)框的準(zhǔn)確性。實驗表明,文中提出方法檢測準(zhǔn)確率比其他方法有較大提高,檢測平均準(zhǔn)確率(mAP)達(dá)到90%以上。能夠較好地完成工程機械目標(biāo)的檢測任務(wù)。
目標(biāo)檢測;Faster R–CNN;注意力機制;特征融合
在施工現(xiàn)場中,工程機械目標(biāo)常常是釀成安全事故的隱患,存在倒塌、側(cè)翻等不穩(wěn)定的因素,因此對工程機械進(jìn)行目標(biāo)檢測是實現(xiàn)生產(chǎn)安全的重要一環(huán)。智能化的視頻監(jiān)控和影像分析可以實時了解施工現(xiàn)場的施工進(jìn)度、秩序以及安全性。
近年來,基于深度學(xué)習(xí)目標(biāo)檢測方法的研究發(fā)展十分迅速,主要分為一階段和兩階段的檢測方法。一階段的檢測方法主要代表有YOLO[1]系列方法、CenterNet[2]、RetinaNet[3]、SSD[4]等,其特點是速度較快,候選框的生成和分類同時進(jìn)行,將目標(biāo)圖片直接送入網(wǎng)絡(luò)即可生成預(yù)測框;兩階段的檢測方法有R–CNN[5]、Fast R–CNN[6]、Faster R–CNN[7]等,不同于一階段的檢測方法,兩階段方法將候選框的生成和分類分開進(jìn)行,整體網(wǎng)絡(luò)由提取區(qū)域建議網(wǎng)絡(luò)RPN和公共特征層二者相結(jié)合而構(gòu)成,檢測精度相對較高。
施工場景的目標(biāo)檢測有以下難點:塔吊、挖機、吊車等工程機械目標(biāo)形態(tài)、顏色各異;真實施工場景監(jiān)控攝像頭的位置距離目標(biāo)較遠(yuǎn),拍攝到的目標(biāo)尺寸相差較大;目標(biāo)與建筑物、目標(biāo)與目標(biāo)之間會出現(xiàn)相互遮擋的情況;受天氣的影響,會存在光照不足或者背光的情況,導(dǎo)致目標(biāo)不明顯。
為了解決上述檢測難點,文中基于Faster R–CNN提出一種基于注意力與特征融合的工程機械目標(biāo)檢測方法(AT–FFRCNN),其特點如下:在主干特征提取網(wǎng)絡(luò)采用ResNet50,在特征提取網(wǎng)絡(luò)之后加上特征路徑聚合網(wǎng)絡(luò)(PFPN),讓網(wǎng)絡(luò)能更好地學(xué)習(xí)不同尺度的特征;在區(qū)域建議網(wǎng)絡(luò)(RPN)中引入注意力機制模塊CABM(AT–RPN),實現(xiàn)對與目標(biāo)有關(guān)的特征通道和空間位置賦予更多的關(guān)注,并在全連接層引入注意力機制進(jìn)行增強(AT–FC),對目標(biāo)建議框周圍的建議框的特征向量賦予不同的權(quán)值并且進(jìn)行融合,來更新目標(biāo)建議框的特征向量;采用K–means聚類算法對樣本集進(jìn)行聚類,采用更適用于此問題的先驗錨框(Anchor Box)寬高比(該問題場景計算出寬高比為1∶1.4、1∶1.7、1.5∶1);回歸損失函數(shù)采用為廣義交并比損失(GIoU),解決SmoothL1沒有考慮預(yù)測框與真實框的重疊問題。
文中提出的AT–FFRCNN算法框架見圖1,算法步驟如下。
1)首先將圖片送入特征提取模塊,經(jīng)過主干網(wǎng)絡(luò)ResNet–50和特征路徑聚合網(wǎng)絡(luò)PFPN后得到特征圖。
2)接著將得到的特征圖經(jīng)過3×3的卷積之后得到特征圖,隨后將特征圖送入融合注意力機制的區(qū)域建議網(wǎng)絡(luò)AT–RPN,得到區(qū)域建議框。
3)將區(qū)域建議框映射到特征圖上,得到一系列的特征矩陣,再對特征矩陣進(jìn)行感興趣區(qū)域池化,固定其尺寸大小。后將池化后的特征矩陣與目標(biāo)建議框送入基于關(guān)系增強的全連接層,融合周圍目標(biāo)建議框,獲取位置信息更精準(zhǔn)的目標(biāo)建議框,最后再送入分類與回歸模塊進(jìn)行目標(biāo)檢測。
文中將Faster R?CNN的特征提取網(wǎng)絡(luò)由VGG16[8]替換成ResNet50[9],雖然能夠提取到更為精細(xì)的特征,提高了檢測大目標(biāo)的檢測效果。由于加深了網(wǎng)絡(luò)的層數(shù),也丟失了較多的淺層語義特征[10],最終導(dǎo)致無法精準(zhǔn)地檢測出小目標(biāo)。為了解決這個問題,文中基于特征金字塔網(wǎng)絡(luò)FPN和實例分割網(wǎng)絡(luò)(PANet)的思想[11],構(gòu)造一種特征路徑聚合網(wǎng)絡(luò)(PFPN),其結(jié)構(gòu)見圖2。特征路徑聚合網(wǎng)絡(luò)PFPN主要由特征金字塔(FPN)和自下而上的路徑聚合(Path aggregation,PA)組成。PFPN的具體工作流程如下。

圖1 AT–FFRCNN算法框架示意圖

由于PFPN添加了自下而上的路徑聚合過程,相較于原始的FPN,能夠更好地保留淺層特征信息,增加特征的表達(dá)能力,更有利于小目標(biāo)的檢測。這是因為FPN雖然增加了自上而下的特征融合操作,能夠保留一定的淺層特征信息,但是由于主干網(wǎng)絡(luò)較深,淺層特征信息經(jīng)過了太長的路徑到達(dá)深層,丟失的淺層信息仍然較多,如圖2中長點劃線所示。在增加了自下而上的路徑聚合后,更好地保留了淺層特征信息,如圖2中圓點線所示。

AT–RPN網(wǎng)絡(luò)在RPN網(wǎng)絡(luò)的基礎(chǔ)上引入了注意力模塊CBAM[12],提高RPN網(wǎng)絡(luò)的目標(biāo)分類與回歸能力,獲取更精細(xì)的目標(biāo)候選框。CBAM包含通道注意力[13-14]和空間注意力,這兩個部分相互連接、相互補充,能夠突出圖像中的目標(biāo)特征抑制非目標(biāo)部分(背景)的特征,而且還能突出目標(biāo)的空間位置信息。

圖2 PFPN網(wǎng)絡(luò)結(jié)構(gòu)




在AT–RPN網(wǎng)絡(luò)之后,存在目標(biāo)建議框與其交并比IoU較大的周圍建議框,這些周圍建議框與目標(biāo)建議框之間存在一定的關(guān)系,其含有的位置信息能夠幫助該目標(biāo)建議框修正位置。為了使目標(biāo)建議框的位置信息更精準(zhǔn),文中提出在RoI池化之后的全連接層引入注意力機制[15],構(gòu)造了一種基于關(guān)系增強的全連接層AT–FC。AT–FC的原理見圖3,運用注意力機制計算得出周圍建議框與目標(biāo)建議框位置信息的關(guān)系大小(權(quán)值),然后將這些周圍建議框與其對應(yīng)的權(quán)值相乘,以加權(quán)求和的方式融合并更新目標(biāo)建議框。通過AT–FC更新之后,目標(biāo)建議框的位置信息將更加精確。

圖3 建議框融合算法
基于注意力機制的周圍建議框融合算法步驟如下。



5)將更新后目標(biāo)建議框特征向量送入后續(xù)全連接層,進(jìn)行目標(biāo)分類和位置回歸定位。

損失函數(shù)由2部分組成,分別是區(qū)域建議網(wǎng)絡(luò)RPN的損失和分類與回歸模塊的損失。
1.6.1 區(qū)域建議網(wǎng)絡(luò)RPN損失
RPN網(wǎng)絡(luò)包含錨框的分類與回歸,其損失函數(shù)為:



1.6.2 分類與回歸模塊損失
文中使用的損失函數(shù)為:



文中收集了施工現(xiàn)場中3類機械目標(biāo)的樣本數(shù)據(jù)集,本數(shù)據(jù)集共包含有塔吊(crane)、挖機(excavator)和吊車(hoist)3類機械設(shè)備的圖片共1 415張,其中991張為訓(xùn)練集,283張為驗證集,141張為測試集。
文中實驗采用帶動量的隨機梯度下降法(Stochasitc Gradient Descent,SGD)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為0.005,學(xué)習(xí)率更新策略采用的是Step,動量系數(shù)為0.9,學(xué)習(xí)率調(diào)整倍數(shù)為0.33,建議框融合算法閾值為0.7。
2.2.1 結(jié)果對比


與Faster R–CNN不同,AT–FFRCNN算法提出了多種模塊,在文中的數(shù)據(jù)集下進(jìn)行消融實驗,探求各模塊對實驗效果的影響,實驗對比結(jié)果見表1。表1中,mAP表示目標(biāo)檢測的評價精確率。由表1可知,F(xiàn)aster R–CNN網(wǎng)絡(luò)的mAP值為77.8%,而將主干網(wǎng)絡(luò)調(diào)整為ResNet50之后,mAP值提升了3.9%;在此基礎(chǔ)之上加入特征金字塔網(wǎng)絡(luò)FPN后,mAP值又提升了1.8%;引入文中構(gòu)造的特征路徑聚合網(wǎng)絡(luò)FPFN后,mAP值則提升了1.9%。后繼續(xù)通過K–means算法對樣本聚類,修改RPN網(wǎng)絡(luò)的錨框?qū)捀弑群螅琺AP值又提升了2.8%,最后在引入GIoU回歸損失后,mAP值達(dá)到了90.2%。
表1 不同改進(jìn)下的mAP對比

Tab.1 mAP comparison under different improvements
2.2.2 不同錨框?qū)捀弑鹊膶嶒灲Y(jié)果對比
利用文中K–mean聚類算法對錨框?qū)捀弑冗M(jìn)行調(diào)整的多組實驗結(jié)果見表2。從表2中可以得出,錨框的寬高比例并不是越多越好,也即K–means對樣本聚的簇不是越多越好,最適合文中問題場景的錨框?qū)捀弑葹?∶1.4、1∶1.7、1.5∶1,隨著寬高比例數(shù)量的增加,模型的檢測精度mAP值會變低。對比表格的第1行和第2行可知,相較于Faster R–CNN的默認(rèn)錨框?qū)捀弑龋褂肒–means聚類算法對錨框?qū)捀弑冗M(jìn)行調(diào)整后,網(wǎng)絡(luò)模型的檢測精度mAP值比初始Faster R–CNN提高了3.5%。
表2 不同錨框?qū)捀弑认碌臋z測mAP

Tab.2 Detection mAP with different anchor box aspect ratios
2.2.3 不同算法模型實驗結(jié)果對比
為了驗證文中提出AT–FFRCNN算法的效果,文中也與當(dāng)前其他目標(biāo)檢測算法進(jìn)行了對比,不同網(wǎng)絡(luò)模型實驗結(jié)果評價指標(biāo)見表3。
從表3中可以看出,F(xiàn)aster R–CNN在使用文中數(shù)據(jù)集進(jìn)行訓(xùn)練并在驗證集上進(jìn)行驗證得到的AP50和AP75值分別為86.7%和68.9%,mAP值為77.8%。文中AT–FFRCN算法的AP50和AP75值相較于Faster R–CNN分別提高了10.5%、20.4%,并且mAP值達(dá)到了95.4%,在原來的基礎(chǔ)上提升了17.8%。同其他目標(biāo)檢測算法比較,文中AT–FFRCN算法的各項指標(biāo)均提高了不少,相較于SSD,AP50提高了13%,AP75提高了22.5%,mAP提高了20.1%,相較于YOLOV3,AP50、AP75、mAP則分別提高了9.4%、19.8%、17.3%,這也充分證明該算法在Faster R–CNN基礎(chǔ)上的改進(jìn)是有效的,能夠解決文中引言中提出的問題。
表3 不同網(wǎng)絡(luò)模型實驗結(jié)果評價指標(biāo)對比

Tab.3 Comparison of evaluation indicators of experimental results of different network models
注:評價指標(biāo)AP50和AP75分別表示預(yù)測框與真實框交并比IoU值大于0.5和大于0.75的檢測精度。
2.2.4 檢測效果示例
圖4是文中算法與Faster R?CNN檢測效果圖,其中圖4a為Faster R–CNN算法的檢測效果,圖4b為AT–FFRCNN算法對應(yīng)的檢測效果。可以看出,AT–FFRCNN檢測出的工程機械目標(biāo)準(zhǔn)確率更高,位置信息也更準(zhǔn)確,并且能夠識別出尺寸較小和不明顯的目標(biāo),針對Faster R–CNN在復(fù)雜場景目標(biāo)遮擋、交叉的特殊情況下的漏檢、錯檢問題有顯著改善。

圖4 2種算法的檢測效果
為實現(xiàn)對施工現(xiàn)場工程機械目標(biāo)的準(zhǔn)確檢測,文中提出了基于一種基于多尺度特征融合的施工目標(biāo)檢測方法AT–FFRCNN。該方法采用了ResNet50作為主干特征提取結(jié)構(gòu),結(jié)合構(gòu)造的特征路徑聚合網(wǎng)絡(luò)PFPN,提高了對不同尺寸目標(biāo)的檢測精度;使用GIoU和K–means錨框?qū)捀弑染垲愃惴ǎ瑥浹a了目標(biāo)定位不準(zhǔn)確的問題;在區(qū)域建議網(wǎng)絡(luò)和全連接層引入注意力機制進(jìn)行增強(AT–FC),提高了復(fù)雜環(huán)境中目標(biāo)檢測的能力。文中對設(shè)計的算法進(jìn)行了相關(guān)對比實驗,實驗結(jié)果表明,文中提出的算法能實現(xiàn)對施工隱患目標(biāo)更精準(zhǔn)的檢測,滿足了實際應(yīng)用的需求。
[1] REDMON J, DIVVALA S, GIRSHICK R, et al. You only Look Once: Unified, Real-Time Object Detection[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2016, 10: 779-788.
[2] DUAN KAIWEN, BAI SONG, XIE LINGXI, et al. CenterNet: Keypoint Triplets for Object Detection[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision, 2019: 6568-6577.
[3] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[4] LIU WEI, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[C]// European conference on computer vision, Springer, Cham, 2016: 21-37.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[6] GIRSHICK R. Fast R-Cnn[C]// Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.
[7] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[8] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]// International Conference on Learning Representations, 2015: 4011-4019.
[9] HE KAIMING, ZHANG XIANGYU, REN SHAOQING, et al. Deep Residual Learning for Image Recognition[C]// Conference on Computer Vision and Pattern Recognition. IEEE, 2015: 1212-1231.
[10] ZAGORUYKO S, LERER A, LIN T Y, et al. A MultiPath Network for Object Detection[J]. Computer Vision and Pattern Recognition, 2016,23(4):1604.
[11] LIU SHU, QI LU, QIN HAIFANG, et al. Path Aggregation Network for Instance Segmentation[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[12] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[13] HU Jie, SHEN Li, SUN Gang, et al. Squeeze-and-Excitation Networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[14] WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2020, Issue: 11531-11539.
[15] YANG JIANWEI, LU JIASEN, LEE S, et al. Graph R-CNN for Scene Graph Generation[C]// Proceedings of 15th European Conference on Computer Vision. Munich, Germany, 2018:670-685.
[16] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[C]// Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition, 2019: 658-666.
Object Detection Method of Construction Machinery Based on Attention and Feature Fusion
WU Jing, ZHAO Er-dun,LIN Zhuo-cheng,QIN Wen-qing
(Central China Normal University, Wuhan 430079, China)
The work aims to propose an object detection method based on attention and feature fusion (AT-FFRCNN) aiming at the problems of different size, mutual occlusion and different working forms of construction machinery objects in the construction environment.ResNet50 and feature path aggregation network PFPN were used in the backbone network to fuse feature information of different scales, and an attention mechanism was introduced into the region proposal network (RPN) and fully connected layer to improve the ability of target recognition, and generalized intersection over union (GIoU) was used in the loss function to improve the accuracy of the object box.Experiments indicated that the detection accuracy of the proposed method was greatly improved compared with other methods, and the average detection accuracy (mAP) reached more than 90%. The proposed method can complete the detection task of the construction machinery better.
object detection; Faster R-CNN; attention mechanism; feature fusion
TP391
A
1001-3563(2022)15-0061-07
10.19554/j.cnki.1001-3563.2022.15.007
2022–06–09
吳靖(1997—),男,華中師范大學(xué)碩士生,主攻深度學(xué)習(xí)、機器視覺。
趙爾敦(1972—),男,博士,華中師范大學(xué)副教授,主要研究方向為機器視覺。
責(zé)任編輯:曾鈺嬋