毛峰 凌永標 郭尹 江志強 耿浩 任佳銳



摘要:針對電力安全施工中施工人員著裝不規范問題,筆者采用智能視覺計算中的目標檢測技術,對施工人員是否佩戴安全帽以及穿著工作服是否規范的情況進行自動檢測,提出一種基于多尺度注意力網絡(MAR-CNN)的著裝不規范檢測方法。該方法針對安全帽及著裝等目標大小不一的多尺度特性,在Faster R-CNN網絡的基礎上,結合了特征金字塔(FPN)思想,設計了多尺度注意力(MA)網絡模塊。此外,該注意力機制可以有效抑制背景特征,增強檢測對象的特征,有效緩解施工現場背景復雜帶來的錯檢漏檢現象。在電網施工現場數據集上的實驗結果表明筆者所提方法具有有效性。
關鍵詞:目標檢測;著裝檢測;電力安全;多尺度網絡;注意力機制
中圖分類號:TP381? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)21-0004-04
開放科學(資源服務)標識碼(OSID):
電力建設施工具有工人多、工作內容繁多和危險系數大等特點,因此為了保障現場人員的人身安全及預防危險,佩戴安全帽及安全著裝顯得尤為重要。然而,存在有小部分施工人員防范意識薄弱,經常不戴安全帽或未規范著裝進入施工現場,更有甚者在施工過程中摘除安全帽和脫掉工作服,給電力施工建設帶來危險。電網安全施工監管急需對施工全過程中工人不規范著裝進行自動化檢測和報警的解決方案。
隨著人工智能深度學習的發展,計算機視覺的研究廣泛應用于智能視頻監控、機器人導航、工業檢測、智慧醫療等諸多領域,通過相關技術的應用可以有效減少對人力資源的消耗,具有重要的現實意義。目標檢測正是計算機視覺的一個熱門方向。筆者利用目標檢測技術對施工現場工人的一些不規范著裝進行全程自動化地檢測,可以有效地提升智能電網現場作業安全管控的能力。
為了實現電力施工人員著裝不規范的自動化檢測,筆者收集并標注了一批電力施工現場的工人規范著裝與不規范著裝的數據集。圖1展示了一對電力施工人員著裝規范與不規范的示例。筆者標注施工人員安全帽正常佩戴和未佩戴、工作服穿戴規范和不規范這幾種典型類別,其中“aqm”表示安全帽正常佩戴,“aqmqs”表示安全帽未佩戴,“gzf”表示工作服穿戴規范,“gzfyc”表示工作服穿戴不規范。
筆者提出一種基于多尺度注意力網絡(MAR-CNN)的著裝不規范檢測方法。該方法針對安全帽及著裝等目標大小不一的多尺度特性,在Faster R-CNN網絡的基礎上,結合了特征金字塔(FPN)思想,設計了多尺度注意力(MA)網絡模塊。此外,該注意力機制可以有效抑制背景特征,增強檢測對象的特征,有效緩解施工現場背景復雜帶來的錯檢漏檢現象。
1 相關工作
1.1 經典的目標檢測網絡
目標檢測是計算機視覺中的一個重要任務,近年來得到了廣泛的研究。目前,基于深度學習的目標檢測框架主要分為兩大類:一類是兩階段目標檢測算法,這類算法以區域卷積神經網絡R-CNN[1]為代表;另一類是單階段目標檢測算法,以SSD[4]等為代表,從回歸的角度出發,研究目標檢測問題。而兩階段目標算法是一種將目標檢測統一為區域建議加分類器的框架,即將檢測任務分為回歸任務和分類任務。一般來說,兩階段目標算法在許多公共基準數據集上可以獲得更好的檢測性能。
Ross Girshick等人將候選區域[5]與CNN結合起來,提出一種目標檢測算法R-CNN[1]。R-CNN利用了Selective Search[6] 獲得候選區域,之后對候選區域的大小進行處理后,進行特征提取,再使用分類器判別是否屬于特定的類別。對于選定的候選框,使用回歸器進一步調整邊界位置。而Fast R-CNN[2]將R-CNN的多個步驟整合在一起,對于候選區域的提取仍然使用的是Selective Search算法。Faster R-CNN[3]主要是通過使用RPN網絡代替Selective Search算法,RPN網絡通過在特征圖上做滑窗操作,使用預定義好尺度的錨框映射到原圖,得到候選區域,實現端到端的目標檢測。Cascade R-CNN[7]提出一種multi-stage的網絡,利用前一個階段的輸出進行下一階段的訓練,階段越往后使用更高的IoU閾值,保證樣本數量的情況下產生更高質量的檢測框。
1.2 多尺度網絡
目標大小尺度不一的問題一直是目標檢測的主要難點之一。多尺度圖像金字塔是一種常用的改進方案[8]。在圖像金字塔策略的基礎上,SNIP[9]提出一種尺度歸一化方法。但是,他們的推理速度較慢。另外一些方法利用不同空間分辨率的多層次特征來緩解尺度變化,或者直接根據骨干網絡提出的金字塔特征層次結構作為檢測器進行預測[7,12]。ION[10]連接不同層的特征,以生成更好的特征圖進行預測。為了彌補底層特征中語義的缺失,FPN網絡[11]提出一種自上而下地融合多尺度特征的路徑,以在高層特征中整合強語義信息。PANet[15]在FPN上增加了一個額外的自底向上的路徑聚合網絡;STDL[12]提出一個利用跨尺度特性的尺度轉換模塊;M2det[13]提出一個U形模塊來融合多尺度特征。
1.3 注意力網絡模塊
注意力網絡模塊的核心思想是基于原有的數據找到其之間的關聯性,根據重要程度不同賦予不同的權重。自注意力機制是注意力機制的改進,其減少了對外部信息的依賴,更擅長捕捉數據或特征的內部相關性,能夠有效提高模型訓練的并行性和效率。SENet[14]通過顯式建模通道之間的相互依賴性自適應地重新校準通道的特征響應,可以利用小的計算代價獲取大的性能提升。Huet等人[15]提出一種應用自注意力機制的目標關系模塊,對一組目標以及它們之間的關系進行建模,提高對象的識別能力。DANet[16]通過融合并行的通道注意力模塊和位置注意力模塊的結果來捕獲豐富的上下文相關性,自適應地將局部特征與其全局相關性相結合。SANet[17]通過池化層實現多尺度特征聚合,同時生成軟全局注意掩碼,增強像素級密集預測的目標。
針對電力施工現場存在的場景復雜導致的尺度變化多樣性等問題,筆者結合了特征金字塔(FPN)思想,設計了多尺度注意力(MA)網絡模塊,提出了一個多尺度注意力網絡。
2 多尺度注意力網絡(MAR-CNN)
本文基于對目標檢測網絡和區域建議生成網絡共享全圖像卷積特征的Faster R-CNN網絡結構進行設計。為了對一張既具有高分辨率又具有較強語義信息的特征圖進行預測,網絡結合了在以特征金字塔為基礎結構對每一層級的特征圖分別進行預測的FPN結構。針對電力施工場景中,隨著施工規模、地點的不同,目標尺度豐富以及背景復雜這一現象,本文設計出一個多尺度注意力(MA)模塊。
2.1 多尺度注意力(MA)模塊
為了緩解目標尺度變化較大帶來的障礙,筆者參考了現有的一些多尺度信息融合的方式,并在融合中增加通道注意力,詳細結構如圖2所示。
受相互學習思想[18]的啟發,Pang等人[19]提出了一種聚合交互策略(AIM),以更好地利用多層次特征,避免因分辨率差異較大而對特征融合造成干擾。單級特征只能表征尺度特定的信息。在自上而下的路徑中,淺層特征的細節表現能力由于深層特征的不斷積累而減弱。受上述思想啟發,本文融合相鄰層的特征,因為它們的抽象程度更接近,同時獲得了豐富的尺度信息。如圖2所示,可分為三種融合方式。第一種,將來自ResNet網絡第一層的特征與第二層的特征進行融合,首先將高低層特征分別采樣到對方分辨率大小,再分別進行融合,然后將融合過后的特征再次進行融合(此時融合后特征分辨率與低層特征分辨率相同),再增加一條殘差連接,將特征與低層特征融合。第二種,融合方式同第一種,只是此時選取ResNet網絡三層相鄰特征進行融合,最終特征大小分辨率與中間層特征相同。第三種,同前兩種方式,選取ResNet網絡第三層的特征與第四層的特征進行融合,最終特征大小分辨率與高層特征相同。
另外,由于電力施工場景背景較為復雜,常施工于城市街道、鄉村街道、農田等各種不同場景下,為了抑制這種背景帶來的不利影響,筆者在尺度信息融合過程中,使用了Squeeze-and-Attention模塊(SA)[17]。SA模塊擴展于SE模塊[14]并引入了通道注意力機制,通過通道之間的相關性把重要的特征增強,不重要的特征減弱,從而讓提取的特征指向性更強,對網絡性能帶來了一定的性能提升。
2.2 基于多尺度注意力的目標檢測網絡
MAR-CNN目標檢測網絡的整體結構見圖3,主干網絡選取ResNet101網絡,將主干網絡后四層獲取到的特征送入多尺度注意力模塊,經過MA模塊后得到特征:[Cii∈1,2,3,4]。
再結合帶有top-down結構和橫向連接的FPN[11]結構設計,以此融合具有高分辨率的低層特征和具有豐富語義信息的高層特征。此時,筆者得到特征[Pii∈1,2,3,4],再使用RPN網絡進行預測。RPN網絡實際分為2條分支,一個分支通過softmax分類用來判斷anchors是否為需要檢測的物體,另一分支用于計算對于anchors的邊界框回歸的偏移量,以獲得精確的proposals。而最后的proposal層則負責綜合前景anchors和與其對應邊界框回歸的偏移量獲取最后的proposals,同時剔除太小和超出邊界的 proposals。RPN 提高了區域建議質量,從而提高了整體目標檢測精度。另外,圖3中Res_layer [ii∈1,2,3,4]表示的是不同的ResNet層,FC為全連接層。
3 實驗
3.1 實驗環境
實驗代碼基于PyTorch深度框架。在訓練階段,采用數據增強技術來避免過擬合問題。筆者的網絡在Tesla P100-PCIE-16GB上訓練了20個epoch。經實驗證明,20個epoch已經可以使模型收斂。骨干網絡參數(ResNet-101)使用ImageNet數據集上預先訓練的相應模型進行初始化。筆者使用動量SGD優化器,其權重衰減為0.0001,初始學習速率為0.02,動量為0.9。
3.2 數據集
本文實驗所使用的數據來源于真實電力施工場景。筆者針對電力施工人員工作服穿戴、安全帽佩戴情況,共實地收集了5431張圖片,并從中劃分4888張圖片作為訓練集,其余作為驗證集。數據共包括4類對象,表1列舉出筆者制作的數據集的具體檢測對象分布情況,其中數量表示的是每一類檢測目標的標注框數量而非圖片數量。每一張圖片中可能包含多個標注框。筆者的數據集存在的挑戰主要是由真實場景中施工現場的多樣性帶來了目標對象的尺度變化較大,另在街道中施工時,行人及旁觀者也將被進行檢測,這對筆者的檢測效果帶來了一定的挑戰。
3.3 對比實驗
3.3.1 與其他現有方法對比
將MAR-CNN方法與其他的方法在真實施工場景數據集上進行比較,筆者將Faster R-CNN[3]、SSD[4]、Cascade R-CNN[7]、GFL[20]、ATSS[21]5種目標檢測方法以及MAR-CNN方法的實驗結果展示在表2中。從表中數據,可以說明筆者方法的有效性。在真實施工場景的數據集上,筆者的方法針對施工人員佩戴安全帽和穿戴工作服的檢測結果具有一定的可靠性,從而更大程度地對施工人員的人身安全進行保護。
為了更好地說明,筆者繪制了實驗過程中的loss變化圖,以及各類方法的mAP結果圖,如圖4和圖5。圖4中,橫坐標為訓練迭代次數。如圖5所示,本文方法的收斂速度與效果是圖中最好的,橫坐標表示為訓練epoch次數。從各個數據對比中可以看出,本文方法與其他方法相比較,達到了最優的性能。
3.3.2 模塊有效性對比實驗
MAR-CNN是基于Faster R-CNN[3]網絡結構,結合FPN[11]思想,并使用了帶有通道注意力的信息融合模塊。
筆者首先討論MAR-CNN對比帶有FPN[11]思想的Faster R-CNN[3]網絡的效果。如表3所示,從檢測結果可以看出,MAR-CNN方法的檢測精度更高一些。其中AP0.5表示在訓練和測試中使用的閾值。AP0.5是指當檢測框與標注框重疊的交并比超過0.5即認為檢測到目標時的平均精度,AP0.75表示閾值為0.75。
同時,筆者對不同尺度目標的檢測精度進行了分析,如表4所示。表4中選用的IoU為0.5,目標的標注面積小于322為小目標,用APs來表示;目標的標注面積介于322和962之間的稱為中等目標,用APm來表示;目標的標注面積大于962的稱為大目標,用APl來表示。如表4所示,筆者的方法在三種尺度的目標上檢測精度均高于帶有FPN[11]思想的Faster R-CNN[3]網絡的檢測精度,這也從側面說明了本文所提的MA模塊的有效性。
其次,筆者對不同的檢測類別結果也做了分析,并將結果展示于表5中,此時檢測框與標注框重疊的交并比的閾值設定為0.7。從表5中,筆者可以發現,安全帽未佩戴的檢測精度整體較低,這是因為未佩戴的情況大多為施工現場的非工作人員以及極少部分的工作人員,導致安全帽未佩戴的情況更加豐富,其中一個表現就是尺度變化更豐富。相對于帶有FPN[11]思想的Faster R-CNN[3]網絡,筆者的方法在這個類別上的檢測效果也可以達到小幅度的提升,從而說明本文方法的有效性。
為了更直接地說明筆者所提方法中各模塊的有效性,針對網絡中有無FPN思想、有無聚合交互策略(AIM)以及有無通道注意力機制做了對比實驗,并將實驗結果展示在表6中。另外,筆者選擇SE模塊作為注意力機制替換SA時,AP0.75僅有0.42,AP0.5僅為0.71。從而更加直觀地說明多尺度注意力(MA)模塊的有效性。
4 結論
為了進一步提升電力施工現場的安全性,保障現場人員的人身安全,筆者設計出一種多尺度信息融合目標檢測算法MAR-CNN,對電力施工人員著裝不規范的典型情況進行自動檢測。為了得出更可靠的結果,筆者收集了真實場景的施工現場圖片,制作出一個電網施工人員著裝數據集,并在這個數據集上驗證了筆者方法的有效性。
參考文獻:
[1] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:580-587.
[2] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision.December 7-13,2015,Santiago,Chile.IEEE,2015:1440-1448.
[3] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[4] Liu W,Anguelov D,Erhan D,et al.SSD:single shot MultiBox detector[M]//Computer Vision – ECCV 2016.Cham:Springer International Publishing,2016:21-37.
[5] Hosang J,Benenson R,Dollár P,et al.What makes for effective detection proposals?[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(4):814-830.
[6] Uijlings J R R,Sande K,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[7] Cai Z W,Vasconcelos N.Cascade R-CNN:delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:6154-6162.
[8] Liu S,Qi L,Qin H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:8759-8768.
[9] Singh B,Davis L S.An analysis of scale invariance in object detection - SNIP[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:3578-3587.
[10] Bell S,Zitnick C L,Bala K,et al.Inside-outside net:detecting objects in context with skip pooling and recurrent neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2874-2883.
[11] Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017:936-944.
[12] Zhou P,Ni B B,Geng C,et al.Scale-transferrable object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:528-537.
[13] Zhao Q J,Sheng T,Wang Y T,et al.M2Det:a single-shot object detector based on multi-level feature pyramid network[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:9259-9266.
[14] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141.
[15] Hu H,Gu J Y,Zhang Z,et al.Relation networks for object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:3588-3597.
[16] Fu J,Liu J,Tian H J,et al.Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:3141-3149.
(下轉第14頁)
(上接第7頁)
[17] Zhong Z L,Lin Z Q,Bidart R,et al.Squeeze-and-attention networks for semantic segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:13062-13071.
[18] Ying Zhang, Tao Xiang, Timothy M Hospedales, et al. Deep mutual learning. In CVPR, pages 4320–4328, 2018.
[19] Pang Y W,Zhao X Q,Zhang L H,et al.Multi-scale interactive network for salient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:9410-9419.
[20]? Xiang Li, Wenhai Wang, Lijun Wu,et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. arXiv preprint arXiv:2006.04388, 2020.
[21] Zhang S F,Chi C,Yao Y Q,et al.Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:9756-9765.
【通聯編輯:唐一東】