面向火焰檢測的輕量化維度注意力卷積YOLOv5s方法

2025-04-11 00:00:00井望

電腦知識與技術 2025年8期

摘要：針對YOLOv5s在復雜背景下難以提取火焰細節特征的問題，本文構建了一種輕量化維度注意力卷積模塊。該模塊采用分組異構卷積塊，在保證模型輕量化的同時提取火焰特征，并在其分支網絡上加入輕量化維度注意力機制，增強模型對重要特征的關注，抑制噪聲信息的干擾。將該模塊集成至YOLOv5s后進行多次實驗，實驗結果表明，所構建的模塊在保持模型輕量化的同時，顯著提高了檢測精確度，mAP50指標增加了6.9%，mAP50-95指標增加了6.6%。

關鍵詞：YOLOv5s；火焰檢測；輕量化維度注意力卷積；分支網絡；特征提取

中圖分類號：TP399" "文獻標識碼：A

文章編號：1009-3044（2025）08-0022-04

開放科學（資源服務）標識碼（OSID）

0 引言

近些年，火災的防范日益受到人們的重視，特別是在人員密集場所，一旦發生火災，將會對人們的生命財產安全造成極大的損失。因此，在火災防范過程中，如何快速有效地檢測出早期火災信號成為亟待解決的問題之一。

對于火災的防范措施，傳統的監測手段包括人工巡查、溫度傳感器、煙霧傳感器和光傳感器等方法[1]。雖然這些方法在實施過程中在一定程度上能夠實現火災的早期發現，但存在成本較高、傳感器安裝困難和檢測精確性欠佳等問題，因此限制了它們的廣泛應用。

隨著計算機視覺技術的快速發展，特別是基于深度學習技術的火災檢測方法逐漸被廣泛應用，主要原因在于該方法具有檢測速度快、靈敏度高和易于實現等優點。在基于深度學習技術的火災檢測中，主要任務是對火焰或煙霧進行視覺檢測。其中，火焰的檢測方法可以分為基于火焰圖像分類和基于火焰檢測兩類。

在基于火焰圖像分類的方法中，研究者主要采用人工特征提取[2]、卷積神經網絡[3-5]、Transformer[6]等方法進行火焰圖像的分類。例如，丁毓峰等人[2]利用人工特征提取方法對火焰和煙霧的形態、紋理等進行特征提取，構成特征向量，然后將其輸入到一種單隱層前饋神經網絡中完成火焰煙霧圖像的分類；顏佳文等人[5]提出了一種基于改進型VGG網絡的火焰圖像識別方法，通過基于批標準化層的結構化剪枝技術對VGG網絡進行輕量化處理，大幅降低了模型的參數量；梁秀滿等人[6]通過一種基于CNN-Transformer雙流網絡模型對燒結火焰進行識別，采用兩種不同的網絡模型提取燒結火焰的特征，實現燒結火焰分類的目的；Almeida等人[3]提出了一種基于輕量級卷積神經網絡的野火識別方法，該方法通過對卷積神經網絡的優化，使其能夠更好地在邊緣設備中使用；Nguyen等人[4]提出了一種融合了注意力機制的火焰圖像識別方法，該方法將輕量化卷積和注意力機制相結合，在火焰識別任務中表現出色。

而在基于火焰檢測的方法中，研究者主要使用Faster R-CNN[7]、YOLO[8]等方法對圖像中的火焰部分進行識別檢測，并將火焰進行框選，從而實現檢測和識別火焰的目的。例如，Barmpoutis等人[9]將Faster R-CNN與基于LDS（線性動態系統，Linear Dynamical Systems，簡稱LDS）的多紋理分析相結合，以實現較高精度的火焰檢測；姚藝蓮等人[10]提出了一種基于YOLOv5的輕量級火焰實時檢測方法，通過多種輕量化技術和注意力機制提升了檢測精度；王雷等人[11]通過替換YOLOv3中的Darknet-53結構和采用空洞卷積，實現了較高的檢測精度和檢測速度。

盡管已有多種輕量化火焰檢測方法被提出，并在實驗中展現了較為優異的性能，但如何進一步優化火焰檢測方法以適應更為復雜的環境依然是一個難點。因此，本文選取YOLOv5s[12]作為基線方法，對其進行改進和優化，以提升其在復雜環境下的檢測性能。選取YOLOv5s的原因在于其網絡模型在各種應用場景中均表現出較為穩定的性能，因此對其進行改進和優化，可以更好地應用于各種復雜環境下的火焰檢測。

總體上，本文的工作如下：1）采用了一種輕量化維度注意力機制，以增強模型對復雜環境下火焰特征的關注能力，在保證模型輕量化的同時提高了模型的檢測精度；2）對YOLOv5s中的部分卷積模塊進行優化改進，構建了一種輕量化維度注意力卷積模塊，在顯著提升模型檢測精確度的同時降低了模型的參數量；3）利用復雜場景下的火焰數據集對改進優化后的模型進行多次消融實驗，以實驗證明方法的有效性。

1 方法改進

基線方法YOLOv5s雖然可以廣泛用于各種場景，特別是用于火焰的實時檢測，但其模型結構中的部分卷積塊存在難以提取火焰細節特征的問題。因此，本文對其進行優化改進，構建了一種輕量化維度注意力卷積YOLOv5s（Lightweight Dimension Attention Convolutional YOLOv5s，簡稱LDAC-YOLOv5s），旨在進一步提升YOLOv5s在火焰檢測中的性能。

1.1 輕量化維度注意力機制

對于通過RGB攝像頭獲取的火焰圖像，其火焰特征極易受到光照、背景參照物、角度等因素的不利影響。針對上述問題，本文受TA思想[13]和CA思想[14]的啟發，采用了一種即插即用的輕量化維度注意力機制（Lightweight Dimensional Attention Mechanism，簡稱LDAM），以幫助模型在訓練時更容易提取火焰的重要特征。

LDAM的總體結構如圖1所示。在LDAM中，本文重點采用相同權重的3×3卷積核來幫助模型關注不同維度下的火焰重要特征，其具體步驟如下，1）維度池化。采用維度全局平均池化（Dimension Global Average Pooling，DGAP）和維度全局最大池化（Dimension Global Max Pooling，DGMP）分別對輸入的特征圖進行池化處理，以提取H（縱向）維度和W（橫向）維度下的全局特征；2）特征合并。將相同維度下的特征圖進行合并，并通過維度置換的方式輸入至3×3卷積層中，以實現特征的合并提取；3）權重特征圖生成。采用權重相同的3×3卷積核對不同維度下的火焰特征進行自適應提取，并生成相應的權重特征圖；4）特征圖處理。將卷積層輸出的兩組權重特征圖經維度置換后與原始特征圖進行元素相乘，得到兩組特征圖；5）輸出整合。將處理后的兩組特征圖進行元素相加，作為LDAM的最終輸出。

通過LDAM，模型可以更加關注火焰的重要特征，從而實現進一步提升模型檢測精度的目的。

1.2 輕量化維度注意力卷積模塊

YOLOv5s中的部分卷積模塊采用傳統卷積方法，盡管可以實現特征的提取，但在復雜場景下對火焰特征的提取能力有限。此外，其部分卷積層的步長設置為2，這會使模型忽略一些重要的細節特征。針對上述問題，本文受分組卷積[15]思想和InceptionNet[16]思想的啟發，在LDAM基礎之上構建出一種輕量化維度注意力卷積模塊（Lightweight Dimensional Attention Convolutional Module，LDACM）。LDACM的設計目標是提升模型的特征提取能力，同時控制計算量和參數量，確保模型具有輕量化。具體的LDACM結構如圖2所示。

對于LDACM，其具體組成部分包括如下，1）特征圖拼接：在對原始特征圖進行特征提取之前，需對特征圖進行通道維度分組，然后對分為兩組的特征圖進行橫向維度拼接，以促進不同組之間的信息交流；2）并聯卷積層：在原有的常規卷積層基礎之上，并聯一個3×3的卷積層，其步長固定為1，以達到更好學習火焰特征的目的，避免其細節信息的丟失；3）注意力機制：為進一步提取火焰的細節特征，本文在分支2網絡中加入LDAM注意力機制，以促進模型檢測性能的進一步提高；4）特征融合：每個分支網絡輸出的特征圖進行維度重構，重構成橫向維度和縱向維度均為1的特征張量。進行上述操作后，再將兩組張量進行橫向拼接，經平均池化后完成分支網絡的特征融合；5）特征圖輸出：對于完成特征融合的張量進行維度重構，重構成一組特征圖作為輸出。

總體上，上述結構不僅幫助模型進一步提取火焰的細節特征，也在一定程度上保證了模型的輕量化。這里需要注意的是，在LDACM中的K×K卷積是原YOLOv5s中所采用的卷積核大小，每層卷積核的大小并不固定。除此之外，卷積層中還包含了SiLU激活函數[17]和批標準化層[18]。為保證分支1和分支2輸出的特征圖大小一致，因此在分支2的3×3卷積層之前加入一個平均池化層。

2 實驗結果及分析

2.1 實驗數據集

本文實驗所采用的火焰數據集可分為兩部分，一部分為通過網絡收集的火焰圖片；另一部分為本文自行采集的火焰圖片，兩部分合計共10 431張圖片。其中，訓練集為8 037張圖片，驗證集為2 394張圖片。數據集涵蓋了各種場景，包括室內外場景，如客廳、學校教室、停車場、森林等。

對于火焰圖片的標注，采用Labelimg工具進行標注，標簽格式為txt。在模型訓練和驗證時，圖片分辨率統一設置為640×640。

2.2 實驗環境配置

硬件平臺配置如下：CPU為英特爾I5-9400F；GPU為英偉達RTX 4060Ti（8GB）；內存為DDR4 32GB。

軟件平臺配置如下：操作系統為Ubuntu 22.04 LTS；編程語言為Python 3.10；深度學習框架為Pytorch 2.2.0（CUDA版）；GPU加速框架為CUDA 12.3；其他依賴庫包括Torchvision 0.17.0、Torchaudio 2.2.0等。

為驗證本文方法的有效性，以YOLOv5s作為基線方法，并進行多次消融實驗。訓練周期均設置為50 epochs。為避免超參數差異對實驗結果產生影響，本文所采用的其他超參數設置與基線方法YOLOv5s模型提供的超參數一致[12]，因此不再贅述。

2.3 實驗評價指標

對于實驗中的模型性能評價指標，本文采用了模型復雜度指標和模型檢測精確度指標。模型復雜度包含模型參數量Parameters（單位為百萬）和模型計算量FLOPs（單位為十億）。模型檢測精確度包含mAP50指標（IOU閾值在50%的平均精度）和mAP50-95指標（IOU閾值在50%到95%的平均精度）。對于模型復雜度的兩個指標，其值越大表明模型越復雜，值越小表明模型輕量化程度越高；對于模型檢測精確度的兩個指標，其值越大表明模型的檢測精確度越高，值越小表明模型的檢測精確度越低。

2.4 消融實驗

表1展示了基線方法YOLOv5s與改進方法LDAC-YOLOv5s在模型參數量、計算量以及檢測精確度方面的對比。實驗結果表明，加入LDACM后，模型參數量降低了約12.8%，盡管計算量略有增加（上升了約5.7%），但其檢測精確度顯著提升，mAP50提升6.9%，mAP50-95提升6.6%。這表明改進后的模型更能專注于火焰重要特征的學習，使得其學習效率更高。

表2的實驗結果表明，單獨應用橫向維度注意力機制（LDACW）或縱向維度注意力機制（LDACH）時，均能使模型在mAP50和mAP50-95兩種指標上有所提升。然而，當兩者結合使用時，其檢測精確度進一步提高，mAP50提升至76.6%，mAP50-95提升至42.0%。這表明，在使用雙向維度注意力機制時，模型能更加準確地關注火焰重要特征，從而提升模型檢測性能。

表3的實驗結果表明，使用張量拼接方法（LDACY-YOLOv5s）相比于不使用張量拼接方法（LDACN-YOLOv5s），其模型在mAP50指標和mAP50-95指標上分別提升了1.4%和1.3%。其背后的原因在于張量拼接有效促進了不同組特征圖之間的信息交流，提升了模型的特征提取能力。該方法雖然使模型在計算量方面有所增加，但在參數量方面保持了不變。

在表4中，本文針對LDACM中使用不同類型的池化方法對模型是否造成影響進行了相應實驗，以驗證加入平均池化方法的有效性。實驗結果表明，相比于加入最大池化，在使用平均池化時，模型的mAP50指標和mAP50-95指標均有所提升，mAP50指標上升了1.3%，mAP50-95指標上升了1.7%。檢測精度上升的原因在于，使用平均池化可以有效抑制部分噪聲對模型訓練的影響，同時使模型在訓練過程中更容易學習到火焰的重要特征。

為進一步驗證本文方法的適用性和有效性，除基線方法YOLOv5s外，本文在另外兩種YOLOv5模型中均加入了LDACM，并對其進行了多次實驗。

表5的實驗結果顯示，LDACM在YOLOv5n和YOLOv5m中均能使模型檢測性能顯著提升。對于YOLOv5n，LDACM使其參數量減少了12.5%，mAP50指標增加了5.6%，mAP50-95指標提升了4.0%。對于YOLOv5m，LDACM使其參數量減少了9.7%，mAP50指標增加了2.7%，mAP50-95指標增加了3.3%。上述實驗結果表明，LDACM不僅適用于YOLOv5s模型，還能在不同規模的YOLOv5模型中發揮有效作用，以適應不同場景的需求。

圖3為基線方法YOLOv5s和LDAC-YOLOv5s火焰檢測效果的可視化展示。其中，圖3（a）為未被檢測的原始火焰圖片。通過對比，在使用基線方法YOLOv5s檢測時，圖3（b）中左圖的真實火焰并未檢測出，出現了誤判現象，而對于圖3（b）中的右圖，YOLOv5s同樣出現了誤判，將樹木燃燒產生的煙霧誤判成了火焰。在使用LDAC-YOLOv5s檢測時，圖3（c）左圖的火焰被成功檢測了出來，并且在圖3（c）右圖中，LDAC-YOLOv5s并未將煙霧誤判成火焰。總體而言，相比YOLOv5s，LDAC-YOLOv5s在復雜背景下的火焰檢測性能更為優異，也更為適用于實際場景中的火焰檢測任務。

3 結論

本文針對基線方法YOLOv5s在復雜環境下的火焰特征提取不足的問題，采用了一種輕量化維度注意力機制，并在此基礎之上建立了一種輕量化維度注意力卷積模塊。該模塊在幫助原有模型減少參數量的同時，增強了模型對火焰重要特征的關注，抑制了噪聲，提高了模型的泛化性能。

通過多次實驗證明，輕量化維度注意力卷積模塊雖然使得模型增加了少許計算量，但在mAP50指標和mAP50-95指標方面有著顯著的提升，并且在一定程度上降低了模型參數量。同時，輕量化維度注意力卷積模塊不僅可以幫助YOLOv5s顯著提升檢測精確性，還能幫助YOLOv5m和YOLOv5n提升檢測精確性。

未來，作者將對其計算成本做進一步優化，使模型更加輕量化，在保證檢測精確性的同時更適用于邊緣設備使用。

參考文獻：

[1] 祝玉華，司藝藝，李智慧.基于深度學習的煙霧與火災檢測算法綜述[J].計算機工程與應用，2022，58（23）：1-11.

[2] 丁毓峰，徐鑫.基于POS-KELM的森林火災圖像識別方法[J].數字制造科學，2020，18（4）：283-288.

[3] ALMEIDA J S，HUANG C X，NOGUEIRA F G，et al.EdgeFireSmoke：a novel lightweight CNN model for real-time video fire–smoke detection[J].IEEE Transactions on Industrial Informatics，2022，18（11）：7889-7898.

[4] NGUYEN D L，PUTRO M D，JO K H.Lightweight convolutional neural network for fire classification in surveillance system[J].IEEE Access，2023，11：101604-101615.

[5] 顏佳文，林獻坤，潘溢洲.基于稀疏化卷積網絡剪枝的火焰圖像識別方法[J/OL].重慶工商大學學報（自然科學版），2023：1-8.（2023-10-11）.https：//kns.cnki.net/kcms/detail/50.1155.n.20231009.1408.002.html.

[6] 梁秀滿，安金銘，曹曉華，等.基于CNN-Transformer雙流網絡的燒結火焰燃燒狀態分類[J].應用光學，2023，44（5）：1030-1036.

[7] GIRSHICK R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision （ICCV）.December 7-13，2015，Santiago，Chile.IEEE，2015：1440-1448.

[8] 米增，連哲.面向通用目標檢測的YOLO方法研究綜述[J/OL].計算機工程與應用，2024：1-19.（2024-07-08）. https：//kns.cnki.net/kcms/detail/11.2127.tp.20240705.1328.006.html.

[9] BARMPOUTIS P，DIMITROPOULOS K，KAZA K，et al.Fire detection from images using faster R-CNN and multidimensional texture analysis[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics，Speech and Signal Processing （ICASSP）.May 12-17，2019，Brighton，UK.IEEE，2019：8301-8305.

[10] 姚藝蓮，裴東，蒲向榮.基于YOLOv5的輕量級火焰視頻流實時檢測算法[J].光電子·激光，2023，34（11）：1150-1157.

[11] 王雷，趙清華，張芯睿.面向火災的多尺度目標檢測算法[J].計算機仿真，2024，41（1）：271-276.

（下轉第28頁）

（上接第25頁）

[12] JOCHER G， STOKEN A， BOROVEC J， et al. ultralytics/yolov5-v6.0[EB/OL]. https：//github.com/ultralytics/yolov5/tree/v6.0， 2021.

[13] MISRA D，NALAMADA T，ARASANIPALAI A U，et al.Rotate to attend：convolutional triplet attention module[C]//2021 IEEE Winter Conference on Applications of Computer Vision （WACV）.January 3-8，2021，Waikoloa，HI，USA.IEEE，2021：3138-3147.

[14] HOU Q B，ZHOU D Q，FENG J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.June 20-25，2021，Nashville，TN，USA.IEEE，2021：13708-13717.

[15] IOANNOU Y，ROBERTSON D，CIPOLLA R，et al.Deep roots：improving CNN efficiency with hierarchical filter groups[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.July 21-26，2017，Honolulu，HI，USA.IEEE，2017：5977-5986.

[16] SZEGEDY C，LIU W，JIA Y Q，et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.June 7-12，2015，Boston，MA，USA.IEEE，2015：1-9.

[17] ELFWING S， UCHIBE E， DOYA K. Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning[EB/OL].（2017-02-10）[2024-08-30].https：//arxiv.org/abs/1702.03118.

[18] IOFFE S， SZEGEDY C. Batch Normalization： Accelerating Deep Network Training by Reducing Internal Covariate Shift[EB/OL].（2015-02-11）[2024-08-30].https：//arxiv.org/abs/1502.03167.

【通聯編輯：唐一東】