基于YOLOX輕量化網絡的公路監控場景煙霧識別

2022-10-17 08:09:20杜漸宋建斌胡弘毅符鋅砂

交通運輸研究 2022年4期

杜漸，宋建斌，胡弘毅，符鋅砂

（1.招商新智科技有限公司，北京 100073；2.華南理工大學土木與交通學院，廣東廣州 510641）

0 引言

截至2020 年末，我國公路總里程已達到519.81 萬km[1]。公路運營安全受到全社會的廣泛關注，高速公路特別是隧道路段一旦發生火災，若不能第一時間發現險情，往往容易演變成重特大交通事故，給人民群眾生命財產安全造成極大的威脅[2]。因此，火災煙霧的及時識別與報警對于道路運營管理非常重要。隨著我國高速公路的監控系統由初期的重點路段監控逐步發展為全路段無盲點的視頻監控覆蓋，基于監控視頻圖像對公路火災事件進行識別研究非常重要。

早期多采用傳統圖像處理方式提取圖像特征，建立煙霧識別模型。胡燕等[3]根據煙霧運動特征，通過Harris 檢測算法尋找特征點，計算運動矢量信息，實現多特征煙霧識別。劉鵬[4]融合背景差分法和RGB 顏色特征檢測獲取圖像中的疑似煙霧區域，并采用Adaboost 分類器檢測煙霧面積與邊界。類似地，袁雯雯等[5]提出基于改進高斯混合模型（Gaussian Mixture Model,GMM）的林火煙霧識別算法，融合背景差分法提取場景光照特征，檢測場景中相對完整的動態煙霧區域。然而傳統圖像處理方法的特征提取能力有限，建立的模型泛化能力不強，對于不同的場景，模型的檢測效果往往差別很大。隨著深度學習的發展，卷積神經網絡（Convolutional Neural Networks,CNN）[6]在目標檢測領域中發展出Faster R-CNN[7],YOLO[8]等識別網絡，不少學者也在煙霧識別研究中應用了深度學習方法。楊明瀟[9]通過人工采集和公開林火煙霧數據集訓練Faster R-CNN,SSD 和VGG神經網絡，基于神經網絡構建了煙霧識別可視化平臺，識別準確率達到75%。馮路佳等[10]提出了一種基于目標區域的卷積神經網絡火災煙霧識別方法，構建2 層的火災煙霧識別模型，提取煙霧目標區域并輸入識別層，通過卷積神經網絡精細提取煙霧的深層特征后進行分類，完成火災煙霧的識別。Saponara等[11]基于YOLOv2網絡構建了室內火災識別系統對固定場景火災進行識別報警。卷積神經網絡特別是深度卷積神經網絡，由于具有多層線性與非線性映射參數，對圖像數據的特征提取能力相較于傳統手工特征提取方法有了很大提高，但由于網絡層數多，造成網絡參數量大，計算復雜度高，網絡參數和中間層輸出占用大量計算資源和顯存，導致深度卷積神經網絡在邊緣端需要布設多臺設備才能同時處理多臺公路監控攝像機的圖像輸入，同時為訓練出精度滿足實際識別要求的卷積神經網絡而需要導入大量圖像數據，故對訓練樣本的標注質量也有較高要求。

針對公路場景煙霧識別的精度問題，本文基于目前目標檢測領域的新型網絡YOLOX[12]進行研究，深入分析其結構與特征提取優勢，同時人工收集公路場景煙霧圖像結合部分Smoke100K 數據集作為訓練數據集，采用數據增強方法對數據集進行擴充，提高訓練集的多樣性，從而提高網絡在不同場景下的識別能力。針對深層卷積網絡計算資源占用過多的問題，利用深度可分離卷積方法壓縮網絡主體結構，實驗階段構建并對比分析不同結構網絡的煙霧識別精確度，旨在搭建滿足精確度要求且計算資源占用盡量小的模型，實現基于視頻圖像的公路場景火災煙霧智能識別及工程應用。

1 研究方法

近年來，目標識別網絡在交通行業的應用越來越普遍，YOLO 系列識別網絡在車輛識別[13]、行人識別[14]、交通標志檢測[15]等任務中取得了較好的效果。然而對于公路場景下的煙霧識別，由于煙霧的形狀不固定，公開的訓練數據集較少，傳統的目標識別網絡對煙霧的識別效果一般，因此在煙霧識別任務中對目標識別網絡的特征提取能力有更高的要求。同時，由于公路場景一般由多攝像頭同時監控，若模型參數過于龐大，對硬件算力和存儲需求較高，將直接導致計算成本大幅增加，因此追求模型精度的同時必須盡量減少網絡的參數量與中間層輸出。

YOLOX 網絡在YOLOv5[16]的基礎上對模型網絡作了優化，在特征提取部分采用了CSPDarknet網絡[17]，獲取特定特征層作特征融合后，在分類回歸層中采用了YOLOHead[12]方法，對傳統YOLO網絡的分類回歸層結構作了優化調整。本文針對公路場景下的煙霧識別問題，構建了小型煙霧圖像數據集，網絡訓練過程中在圖像預處理上采用Mosaic 數據增強方法[17]，提升了數據的多樣性，同時為了實現網絡輕量化，采用深度可分離卷積的方法壓縮主干網絡，構建nano網絡，降低了部分精度但大大精簡了網絡結構的總參數量。本文就YOLOX 主干網絡、模型輕量化方法進行分析。

1.1 主干網絡

YOLOX 的主干網絡包括3 部分，分別是特征提取層CSPDarknet 網絡、特征融合層以及分類回歸層YOLOHead。

1.1.1 特征提取

CSPDarknet 網絡是通過堆疊多個Resblock body 模塊對圖像特征進行提取，具體結構見表1。首先輸入640×640 的RGB 三通道圖像并通過Focus對圖像尺寸和通道數進行調整。利用4個堆疊的Resblock body 模塊作特征提取。Resblock body模塊由卷積層與CSPlayer 層組成，其中CSPlayer層優化了參數數量并保留了較好的特征提取能力。最終CSPDarknet 的輸出是第2,3,4 個Resblock body模塊的輸出特征圖。

表1 CSPDarknet結構

1.1.2 特征融合

CSPDarknet 輸出的3 個特征圖會輸入至特征融合層，用作特征融合與加強特征提取。特征融合層采用YOLOv4 的Panet 結構[17]，輸入特征圖通過卷積層調整尺寸，通過上、下采樣層（UpSampling2D,DownSampling2D）作特征融合。特征融合層的有效輸出是部分CSPlayer層的輸出特征圖，特征融合層的具體結構見圖1。最終用于分類回歸層的有效特征圖為輸出特征圖6,7,8。

1.1.3 分類回歸

完成特征融合與加強特征提取后，3 張輸出特征圖將分別輸入至分類回歸層YOLOHead，最終輸出網絡識別結果，包括物體識別的種類和標注框的坐標。傳統YOLO 系列識別網絡的分類回歸層通過1×1 卷積層實現分類和回歸同時處理，但YOLOHead 具有2 條卷積分支，其中一條卷積分支用于實現物體分類（Cls），輸出物體識別類型；另一條卷積分支用于判斷特征點中物體是否存在（Obj）和回歸標注框坐標（Reg）。YOLOHead的具體結構如圖2所示。

1.2 深度可分離卷積

Sifre等[18]提出的深度可分離卷積是網絡輕量化的重要方法。該方法將標準卷積操作拆分為深度卷積和逐點卷積兩個步驟。通過深度可分離卷積方法，在盡量減少網絡精度損失的同時，可大大精簡網絡參數，減少運算量。

標準卷積過程中，取N組具有相同尺寸（Dk×Dk×C）的卷積核對輸入圖像進行卷積，假設需要的特征圖尺寸為（W×H×N）,卷積核參數總量（P）和卷積操作的總運算量即內積運算量（CA）的計算公式分別如式（1）、式（2）所示。

標準卷積操作如圖3（a）所示，假設輸入的圖像尺寸為10×10×3，通過3×3×3 的卷積核可以卷積獲得1個8×8×1的特征圖，若堆疊256組具有相同尺寸的卷積核則可以對輸入圖像卷積獲得8×8×256 的輸出特征圖。對于該標準卷積操作，根據式（1）、式（2），該卷積層參數量為3×3×3×256，共6 912；內積運算量為3×3×3×256×8×8，共442 368。

深度可分離卷積則包含2個步驟，如圖3（b）所示。第1 步是深度卷積。深度卷積的卷積核為單通道形式（3×3×1），取3 組卷積核對圖像進行標準卷積操作，此時獲取的特征層尺寸維度為8×8×3，深度卷積的卷積核參數量為3×3×1×3，共27；總運算量為3×3×1×3×8×8，共1 728。第2 步是逐點卷積。逐點卷積的卷積核為3 通道但尺寸為1×1，采用256組相同的1×1×3的卷積核對深度卷積的輸出圖像進行標準卷積操作，即可獲得與標準卷積方法相同的8×8×256 輸出特征圖，逐點卷積的卷積核參數量為1×1×3×256，共768；總運算量為1×1×3×256×8×8，共49 152。在完整的深度可分離卷積過程中，卷積層總參數量為27+768=795，內積運算量為1728+49152=50880。相較于標準卷積，深度可分離卷積的卷積層總參數量與內積運算量均顯著減少。

兩種方法各自需要的卷積層參數量、內積運算量如表2 所示。深度可分離卷積方法可壓縮網絡規模和減少運算量，在利用相同寬和高的卷積核獲取固定尺寸特征圖的過程中，深度可卷積方法的總參數量與內積運算量均為標準卷積方法的1/N+1/Dk2，是實現輕量化的關鍵。nano 網絡是在普通YOLOX 網絡的基礎上運用深度可分離卷積方法精簡參數構建的輕量化網絡。

表2 兩種卷積方法對比

2 實驗

2.1 煙霧數據集

本文搜集了多個高速公路路段不同監控場景、不同攝像機視角下的煙霧圖像樣本，同時為了增加樣本場景的多樣性，數據集中加入了公開數據集Smoke100K[19]的部分煙霧數據圖像。數據集共有圖像5 367 張，對圖像中的煙霧部分進行了人工標注，按照7∶1∶2 劃分為訓練集、驗證集和測試集，部分樣本實例及標注形式如圖4所示。數據集導入網絡訓練前，采用Mosaic 數據增強方法對數據集進行擴充。

2.2 數據增強

由于實驗收集標注的煙霧數據集為小型數據集，訓練樣本量較少且存在重復場景，為了增加煙霧樣本的多樣性，豐富目標的背景，本文在圖像數據預處理過程中采用了Mosaic 數據增強方法[17]，盡量避免網絡在訓練過程中陷入過擬合，以提高網絡的識別精確度與泛化能力。

Mosaic 數據增強對訓練集的具體操作如圖5所示。首先從總的訓練數據集中隨機抽取一批圖像，然后從該批圖像中隨機選出4 張，再對4 張圖像分別進行隨機裁剪、放縮、旋轉操作，最后拼接為新的圖像并作為網絡訓練的輸入圖像。需要注意的是，處理過程中的圖像是含有標注框坐標信息的，因此獲取的新圖像同樣含有煙霧標注框的坐標信息。

2.3 實驗設置

本實驗的機器配置如下：一個NVIDIA GTX-3060-12G 圖形處理器（GPU）和一個AMD Ryzen 7 5800X 中央處理器（CPU）。基于深度學習框架Pytorch 搭建YOLOX 目標檢測模型，即根據結構與參數量的不同搭建YOLOX-m,YOLOX-s,YOLOX-tiny 和YOLOX-nano 共4 種目標檢測模型。在訓練階段導入煙霧數據集測試之前，為了提高網絡的泛化能力，預訓練權重采用經由大型數據集COCO[20]訓練的模型參數，梯度下降優化策略采用Adam 優化器。實驗過程中采用兩階段訓練法：第1 階段凍結網絡主體參數，僅訓練網絡分類層參數，初始學習率設置為0.00 1；第2階段訓練網絡所有參數，初始學習率設置為0.00 01。實驗過程中兩階段各訓練60 個迭代（epoch），共訓練120 個迭代。需要對原始圖像作預處理，壓縮為640×640 的RGB 圖像，同時不同參數規模的網絡每批次輸入的最大圖片數量也有所不同：對于YOLOX-m 和YOLOX-s，第1 階段每批次輸入圖像數為64，第2 階段每批次輸入圖像數為16；對于YOLOX-tiny和YOLOX-nano，第1階段每批次輸入圖像數為128，第2 階段每批次輸入圖像為32。通過實驗設置可以發現，網絡結構越精簡、參數量越少的網絡同一批次能處理的圖像數量越多。

2.4 實驗結果與分析

本節對YOLOX 不同規模的目標檢測網絡（m,s,tiny,nano）進行對比。以精確度（Precision）作為實驗結果評價指標，具體網絡參數與實驗結果如表3所示。識別效果實例見圖6。

表3 YOLOX不同規模網絡的實驗結果對比

由實驗結果可知：

（1）4 種規模的YOLOX 在公路場景下的煙霧識別精確度均達到90%以上。其中，tiny,s,m 網絡的識別精確度達到了95%以上，可以滿足實際運營管理要求。就同系列YOLOX 的網絡精度與規模而言，本次實驗結果符合目標檢測網絡的一般性結果，即：結構層數越多、參數量越多的卷積神經網絡特征提取能力越強，模型的泛化能力越強，識別精確度越高。

（2）4 種網絡的精確度差異不超過10%。測試過程中每秒識別幀數（Frames Per Second,FPS）均大于30，但網絡模型大小與總參數量差異極大，tiny網絡和nano網絡在普通YOLOX 網絡基礎上作了極大的精簡，tiny 網絡模型大小及總參數量是m 網絡的1/5，nano 網絡模型大小及總參數量僅為m 網絡的1/25，說明在相同硬件條件下輕量化模型tiny 和nano 能處理更多的輸入圖像。由于目前高速公路運營管理部門普遍設置多攝像頭同時對公路交通狀況進行監控，而輕量化網絡模型能同時處理多攝像頭傳輸圖像，因此能有效減少需要布置的圖像處理設備數量，在滿足識別精確度的前提下降低設備成本。

綜上所述，YOLOX 網絡模型在煙霧識別精度與速度方面均滿足使用要求，輕量化模型tiny網絡和nano 網絡在模型大小和參數量指標上較m網絡和s 網絡有較大改善，能更好地完成多圖像并行處理的識別任務，滿足對多交通視頻流同時進行煙霧識別的工程應用需求。

3 結語

本文通過收集并標注多公路監控場景下的煙霧圖像數據集，結合Smoke100K 部分數據集，整理形成公路場景煙霧數據集；搭建并訓練了多種結構不同層數的YOLOX 目標識別網絡，對YOLOX 系列網絡的主體結構與輕量化方法進行了分析。在訓練過程中采用Mosaic 數據增強手段對數據集進行擴充，有效地提高了模型的泛化能力。通過導入煙霧圖像測試集，從網絡識別精度、模型大小及總參數量等指標的角度對4種YOLOX 識別網絡進行對比分析，結果表明YOLOX 系列模型均能較好地完成煙霧識別任務，精確度均達到90%以上，m,s 和tiny 網絡的識別精度達到95%以上，說明YOLOX 網絡結構具有較強的煙霧特征提取能力，可以滿足公路運營監控對火災煙霧事件的識別精度要求。同時，基于深度可分離卷積方法構建的輕量化網絡nano，煙霧識別精度比m 網絡和s 網絡略低，但模型規模遠小于m 網絡和s 網絡；nano 網絡較m 網絡的識別精度低8.35%，但模型大小及總參數量僅為m 網絡的1/25，說明輕量化模型對計算資源的占用較少，在識別精度滿足公路運營監控要求的前提下適當壓縮模型規模，可以增加同批次輸入網絡的圖像數量，使煙霧識別模型在邊緣端得到更好的應用。

此外，受Mosiac 數據增強方法的啟發，在今后的研究中將從對樣本數據集作特征提取的角度進一步探究輕量化模型在樣本不足條件下的訓練精度問題。同時，注意到由于參數量減少會降低輕量化模型的特征提取能力進而影響識別精度，后續將繼續深入研究模型輕量化與識別精度的平衡問題，分析網絡各層的特征提取能力，進一步提高公路場景下煙霧識別效率。