基于Transformer改進YOLO v4的火災檢測方法

2021-12-07 12:37:20王國睿

智能計算機與應用 2021年7期

摘要：針對火災檢測算法檢測多尺度火焰和煙霧精度低，且實時性差的問題，提出了一種基于Transformer改進YOLO v4的火災檢測方法。首先，結合MHSA（Multi-Head Self-Attention）改進了CSPDarknet53主干網絡，建模全局依賴關系以充分利用上下文信息。此外，基于MHSA改進了PANet模塊進行多尺度特征圖融合，獲取更多的細節特征。為驗證改進方法的有效性，與YOLO v4、YOLO v3等算法進行比較。實驗證明，不僅能夠檢測多尺度目標，且視頻監控場景下達到實時性，具有準確率高、誤報率低、檢測實時性等優點，滿足監控視頻場景下的火災檢測任務。

關鍵詞：深度學習; 注意力機制; YOLO v4算法; 火災檢測

文章編號： 2095-2163（2021）07-0086-05中圖分類號：TP183文獻標志碼： A

Fire detection method based on Transformer improved YOLO v4

WANG Guorui

（College of Computer Science and Engineering， Shandong University of Science and Technology， Qingdao

Shandong 266590， China）

【Abstract】Aiming at the problem of low accuracy and poor real-time performance of? the fire detection algorithms in detecting multi-scale flames and smoke， a fire detection method based on Transformer improved YOLO v4 is proposed. First， combined with MHSA （Multi-Head Self-Attention） to improve the CSPDarknet53 backbone network，? global dependencies is modeled to make full use of context information. In addition， based on MHSA， the PANet module is improved to perform multi-scale feature map fusion to obtain more detailed features. In order to verify the effectiveness of the improved method， it is compared with YOLO v4， YOLO v3 and other algorithms. Experiments have proved that it can not only detect multi-scale targets， but also achieve real-time performance in video surveillance scenarios. It has the advantages of high accuracy， low false alarm rate， and real-time detection， which can meet the fire detection tasks in surveillance video scenarios.

【Key words】deep learning; attention mechanism; YOLO v4 algorithm; fire detection

0 引言

隨著社會的不斷發展，各類災害對公共安全與社會財富的危險性也相應地有所增加，其中火災較為常見，防范與及時發現火災越來越受到重視。傳統的火災檢測方法，通常是采集溫度、煙霧傳感器數據進行火災檢測，缺點是誤報率比較高、實時性較差。基于圖像識別的火災檢測方式，因其具有響應快、事后追溯直觀等特點，被廣泛應用于監控視頻場景下的火災檢測與實時報警任務。

近年來，深度學習技術在圖像分類、目標檢測等計算機視覺領域得到廣泛應用，并取得豐碩的研究成果。基于深度學習的火災檢測方法主要通過CNN進行特征提取獲取火災圖像特征，然后進行分類與回歸獲得檢測結果。文獻[1]提出基于改進YOLO v3[2]的火災檢測與識別方法，通過改進YOLO v3解決小目標識別性能不足的問題。文獻[3]提出嵌入DenseNet[4]結構和空洞卷積模塊改進YOLO v3的火災檢測方法，通過在Darknet-53[5]中嵌入空洞卷積模塊來擴展感受野，提升對多尺度目標火災的特征提取效果，其本質是充分利用上下文信息。文獻[6]采用Anchor-Free網絡結構的實時火災檢測算法，優點是避免了Anchor方法中超參數過多、網絡結構復雜的缺點，主干網絡選取MobileNetV2[7]，同時引入了特征選擇模塊。上述火災檢測方法存在以下問題：

（1）主干網絡多為圖像分類任務設計的，未針對目標檢測任務對進行優化，導致算法缺乏魯棒性。

（2）通過堆疊卷積模塊擴展網絡深度，雖然獲得良好的檢測效果，但難以達到實時性。

（3）針對火災小尺度目標檢測任務性能不足。

在此基礎上，通過借鑒Bottleneck Transformer[8]算法設計思想，提出了一種改進YOLO v4[9]的火災檢測方法，主要改進點如下：

（1）在原CSPDarknet53[10]中引入了MHSA（Multi-Head Self-Attention）層，有效地將目標之間的信息與位置感知相關聯，增強網絡全局依賴關系建模的能力，充分利用多尺度上下文信息，提升火災小目標的檢測能力。

（2）采用同樣的方式對PANet[11]模塊進行優化，改善多尺度特征融合能力，獲取更多特征細節。

實驗表明，改進的YOLO v4算法在監控視頻場景下檢測精度達到94%，檢測速度達到26幀/s，優于現有的其他火災檢測算法，滿足監控視頻場景下的火災檢測。

1 YOLO v4與 MHSA原理

1.1 YOLO v4算法原理

YOLO v4算法是一種端到端的實時目標檢測框架，其網絡結構如圖1所示，該網絡主要包括CSPDarknet53、SPP附加模塊[12]、PANet路徑聚合模塊、YOLO v3 頭部。

在Darknet53基礎上引入CSP結構，減少了計算量并增強梯度表現，主要思想：在輸入block之前，分為2個部分。其中，一個部分直接通過一個短路進行連接，該方式降低了20%的計算量，提高了計算能力。同時使用Mish[13]激活函數，在PANet中使用了Leaky relu激活函數，通過上述方式使得YOLO v4的檢測精度更高。

SPP附加模塊與PANet路徑聚合網絡稱為Neck結構，優化了多尺度特征融合的能力。研究中，SPP附加模塊采用5×5、9×9、13×13三種不同尺度的最大池化操作，擴展了感受野。PANet路徑聚合網絡主要通過從底向上的路徑增強、自適應特征池化、全連接融合的方式形成新的不同尺度特征圖。

1.2 MHSA模塊網絡結構

近年來，Transformer不僅在NLP領域取得可觀成果，同時在CV領域獲取巨大成功，比如圖像分類任務的ViT[14]、目標檢測任務的DETR[15]和Deformable DETR[16]模型，均是基于Transformer思想設計的。UC Berkeley和Google基于Transformers結構設計了BoTNet[8]，是一種簡單且功能強大的Backbone。通過僅在ResNet的最后3個bottleneck blocks中用多頭注意力層（Multi-Head Self-Attention， MHSA）替換3×3空間卷積，如圖2所示。MHSA層如圖3所示，引入相對位置編碼不僅考慮內容信息，而且考慮不同位置的要素之間的相對距離，有效地相關聯物體之間的信息與位置感知。

2 改進的YOLOv4火災檢測方法

2.1 網絡結構改進

2.1.1 特征提取主干網絡的改進

主干網絡由5個采用CSP單元模塊組成，分別為CSPRes1、CSPRes2、CSPRes8-1、CSPRes8-2、CSPRes4，每個模塊中有多個殘差單元構建，參見圖1。引入CSP結構單元，一定程度降低計算量，但難以建模全局依賴關系。本文借鑒了Bottleneck Transformer結構對主干網絡改進，采用MHSA層替換3×3空間卷積層。通過上述方式不僅增強網絡全局依賴關系建模的能力，同時減少了參數，降低了計算時延。

對主干網絡的改進主要思路為2點：

（1）使用卷積從大圖像中學習抽象和低分辨率的特征圖。

（2）使用全局（all2all）Self-Attention來處理和聚合卷積捕獲高層語義信息。

采用這種混合設計的方式，通過使卷積進行空間下采樣并結合注意力模型集中在較小的分辨率上，同時可以有效地處理大尺度圖像。具體改進思路如下：

（1）首先改進網絡中CSPRes8-1與CSPRes8-2，CSPRes8-x模型，輸入經過一層3×3卷積層處理后分成2個分支，第一分支僅經過一層1×1點卷積層處理，第二分支先經過一層1×1點卷積層處理以及循環經過8個ResBlock Bottleneck模塊，緊接著經過一層1×1點卷積層，并與第一分支輸入的特征圖進行拼接，再將拼接后的特征圖經過1×1點卷積處理后輸出。將模塊中3×3卷積層替換為MHSA層，如圖4所示。

（2）主干網絡中CSPRes4與CSPRes8-x模塊結構相似，主要區別在于ResBlock Bottleneck結構不同，CSPRes4模塊中ResBlock Bottleneck模塊先經過3×3卷積層，然后是1×1點卷積處理。其次，CSPRes4經過4個ResBlock Bottleneck模塊循環。具體改進方式將ResBlock Bottleneck模塊中3×3卷積層替換為MHSA層，如圖5所示。

2.1.2 PANet模塊改進

PANet路徑聚集模塊為YOLO v4的Neck，參見圖1。對PANet的改進，同樣借鑒Bottleneck Transformer設計思想，將網絡中部分3×3 CBL單位替換為MHSA層，如圖6所示。

2.2 火災檢測方法流程

火災檢測方法以改進的YOLOv4網絡結構為基礎，火災檢測的主要流程如下：

（1）對構建的火災檢測訓練集進行預處理，標簽轉換為YOLOv4標準訓練集格式。

（2）將經過預處理的訓練集圖像輸入到改進的CSPDarknet53網絡進行特征提取。

（3）獲取CSPRes8-1層、CSPRes8-2層為輸出第一、第二尺度的特征，CSPRes4層經過SPP處理獲取第三尺度的特征。

（4）上述三種尺度特征經過PANet層進行特征融合，獲取76×76、38×38、19×19三種尺度的最終輸出特征。

（5）分別將3種尺度特征輸入的YOLOv4檢測層，經過多輪訓練生成最終的網絡權值。

（6）測試階段，將測試圖像輸入到YOLOv4網絡中，調用訓練得到的網絡權值進行預測，并輸出火災檢測結果。

3 實驗結果與分析

3.1 火災檢測數據集

由于公開火災數據集較少，通過采集互聯網數據與視頻監控數據兩種方式，構建涵蓋室內、野外、工廠、城市高樓、隧道等多個場景的火災檢測數據集。采集約5萬張圖片，通過數據清洗，12 886張用于構建數據集，如圖7所示。

3.2 實驗環境與模型訓練

基于Ubuntu 18.04 操作系統，硬件配置為2塊Intel 至強 E5 CPU，顯卡為6塊 16GB NVIDIA Tesla P100，內存500 GB。采用python與PyTorch深度學習框架搭建模型。

訓練參數：初始學習率為0.001、動量初始值為0.9、權重衰減率為0.000 5，批處理大小為64，迭代次數為8 000，采用步階衰減學習率調度策略。

3.3 實驗結果分析

改進的YOLO v4分別與YOLO v3、YOLO v4對比實驗，主要對比精確率、召回率、平均精度（mAP）和檢測時間，見表1。

分析可知，改進YOLO v4算法相比YOLO v3、YOLO v4，精確率方面提升11.2%、7.4%，召回率方面提升8.9%、6.3%，mAP提升9%、4.8%。改進后的YOLO v4，檢測速度比YOLO v3與YOLO v4均有大幅度提升，檢測速度達到27幀/s。火災檢測結果如圖8所示。

實驗表明改進的火災檢測算法能夠檢測大尺度與小尺度的火焰與煙霧目標，既是在存在干擾目標、目標遮擋的復雜場景下，依然能夠有效檢測目標，具有檢測精度高、誤檢率低、魯棒性等優點。

4 結束語

針對YOLO v4火災檢測性能不足的問題，借鑒Bottleneck Transformer結構設計思想，引入MHSA層對YOLO v4主干網絡CSPDarknet和PANet模塊進行改進。由于火災檢測數據集較少，采集了大量圖片與視頻火災數據，構建多場景火災檢測數據集。

通過對比YOLO v4、YOLO v3火災檢測方法表明，本文改進后的方法比現有的火災檢測方法具有更好的魯棒性、更低的誤檢測率，檢測精度與實時性均有良好的性能。測試集上達到94.6%的準確率、85.6%的召回率、87.3%的mAP。未來的研究工作中，重點研究結合Transformer改進網絡進行優化，提升檢測效果與實時性，以及擴展現有的火災檢測數據集，增加火災樣本的多樣性，提升檢測算法的泛化能力。

參考文獻

[1]任嘉鋒，熊衛華，吳之昊，等. 基于改進YOLOv3的火災檢測與識別[J]. 計算機系統應用， 2019， 28（12）：171-176.

[2]REDMON J， FARHADI A. YOLOv3： An incremental improvement[J]. arXiv preprint arXiv：1804.02767， 2018.

[3]張為，魏晶晶. 嵌入DenseNet結構和空洞卷積模塊的改進YOLO v3火災檢測算法[J]. 天津大學學報（自然科學與工程技術版）， 2020， 53（9）：100-107.

[4]HUANG G， LIU Z， LAURENS V， et al. Densely Connected Convolutional Networks[J]. arXiv preprint arXiv：1608.06993， 2016.

[5] REDMON J. Darknet： Open source neural networks in C[EB/OL]. [2013-2016]. http：//pjreddie.com/darknet/.

[6]晉耀，張為. 采用Anchor-Free網絡結構的實時火災檢測算法[J]. 浙江大學學報（工學版）， 2020， 54（12）：163-169.

[7]SANDLER M， HOWARD A， ZHU M， et al. MobileNetV2： Inverted residuals and linear bottlenecks[J]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Salt Lake City， UT， USA： IEEE， 2018：4510-4520.

[8]SRINIVAS A， LIN T Y， PARMAR N， et al. Bottleneck transformers for visual recognition[J]. arXiv preprint arXiv：2101.11605， 2021.

[9]BOCHKOVSKIY A， WANG C Y， LIAO H. YOLOv4： Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv：2004.10934，2020.

[10]WANG C Y， LIAO H， YEH I H， et al. CSPNet： A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）. Seattle， WA， USA ：IEEE，2019：1571-1580.

[11]CHEN Yunian， WANG Yanjie， ZHANG Yang， et al. PANet： A context based predicate association network for scene graph generation[C]// 2019 IEEE International Conference on Multimedia and Expo （ICME）. Shanghai， China：IEEE， 2019：508-513.

[12]HE Kaiming， ZHANG Xiangyu， REN Shaoqing， et al. Spatial pyramid pooling in deep Convolutional Networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2014， 37（9）：1904-1916.

[13]MISRA D. Mish： A self regularized non-monotonic neural activation function[J]. arXiv preprint arXiv：1908.08681，2019.

[14]DOSOVITSKIY A， BEYER L， KOLESNIKOV A， et al. An image is worth 16x16 words： Transformers for image recognition at scale[J]. ICLR2021，Vienna， Austria：[s. n.]， 2020：1-21.

[15]CARION N， MASSA F， SYNNAEVE G， et al. End-to-end object detection with transformers[M]//VEDALDI A， BISCHOF H， BROX T， et al. Computer Vision-ECCV 2020. ECCV 2020. Lecture Notes in Computer Science. Cham ：Springer， 2020，12346：213-229.

[16]ZHU Xizhou， SU Weijie， LU Lewei， et al. Deformable DETR： Deformable transformers for end-to-end object detection[J]. arXiv preprint arXiv：2010.04159， 2020.

[17]ZHENG Zhaohui， WANG Ping， LIU Wei， et al. Distance-IoU loss： Faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence，2020，34（7）：12993-13000.

作者簡介：王國睿（2000-），男，本科生，主要研究方向：圖像視覺。

收稿日期： 2021-04-27