周昆陽 鄭澤斌 向陽 趙夢婷 唐宇亮 邵葉秦
摘要:交通信號燈倒計時數字的快速檢測和準確識別可以提高駕駛的安全性,減少交通事故的發生。針對目標檢測算法在交通信號燈倒計時數字檢測與識別中準確率較低、漏檢率較高的問題,提出一種基于改進YOLOv4的交通信號燈倒計時數字檢測與識別算法。首先將YOLOv4的主干網絡CSPDarkNet53替換為CSPResNet50vd,并將CSPResNet50vd中stage4的3×3標準卷積替換為可變形卷積。實驗表明,改進的YOLOv4算法達到79.34%的mAP和9.59%的漏檢率。相較于YOLOv4,mAP提高2.58%,漏檢率降低1.84%,檢測速度提升了22.65%,有效地提高了識別準確率和檢測速度、降低了漏檢率。
關鍵詞:交通信號燈倒計時數字檢測與識別;YOLOv4;可變形卷積
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)04-0007-03
交通信號燈倒計時數字是車輛行駛過程中的重要信息,受環境等因素影響,目前的目標檢測模型對交通信號燈倒計時數字的識別準確率低、漏檢率高,存在巨大的安全隱患。因此,準確、高效的交通信號燈倒計時數字檢測與識別算法是輔助駕駛和自動駕駛的重要研究方向。
隨著神經網絡的不斷發展,國內外已經開展了一系列基于神經網絡的交通信號燈檢測和識別研究[1-2]。近年來基于YOLO(You only look once)模型的交通信號燈倒計時數字檢測與識別成為新的研究方向。目前,基于YOLO模型的交通信號燈倒計時數字檢測與識別的研究較少,并且目標檢測模型準確性較低、漏檢率較高。
本文提出了一種基于改進YOLOv4的交通信號燈倒計時數字檢測與識別算法。為了提升模型檢測準確率,本文以YOLOv4算法為基礎,將YOLOv4主干網絡CSPDarkNet53替換為CSPResNet50vd,并將CSPResNet50vd中stage4的3×3標準卷積替換為可變形卷積。本文算法能夠有效地檢測并識別出交通信號燈倒計時數字,具有較高的識別準確率。
1 YOLOv4介紹
YOLOv4[3]是Alexey Bochkovskiy等提出的目標檢測算法,YOLOv4在YOLOv3[4]的基礎上進行了特征提取網絡、激活函數、特征金字塔、網絡訓練等改進,保證準確率的同時降低了計算量。但傳統的YOLOv4對于倒計時這類小目標檢測效果較差。
2 基于改進YOLOv4的交通信號燈倒計時數字檢測與識別算法
2.1算法基本思路
為了實現交通信號燈倒計時數字檢測與識別,本文使用CSPResNet50vd替換YOLOv4主干網絡CSPDarkNet53,并將CSPResNet50vd中stage4的3×3標準卷積替換為可變形卷積。改進的YOLOv4算法能夠更加準確地檢測并識別出倒計時數字。算法流程圖如圖1所示。
DCN表示可變形卷積。3*Conv3×3表示3個3×3卷積,其中第一個3×3卷積stride=2,其余兩個3×3卷積步長=1。
2.2 特征提取網絡結構改進
為了提高YOLOv4對交通信號燈倒計時數字的檢測與識別能力,本文使用CSPResNet50vd作為YOLOv4的特征提取網絡。
2.2.1 CSPResNet50vd
本文選擇CSPResNet50vd作為特征提取網絡。ResNet50vd是指擁有50個卷積層的ResNet-D網絡,如表1所示。輸入圖像首先經過3個3×3卷積和1個最大池化,圖片大小變為原來的[14],之后依次經過stage1、stage2、stage3、stage4進一步地提取特征。每個stage都由1個block1和k個block2組成(其中stage1的k=2,stage2的k=3,stage3的k=5,stage4的k=2)。block1和block2如圖2所示。
為了進一步提高ResNet50vd對小物體檢測的準確率,本文在ResNet50vd網絡中嵌套CSPNet[5]結構,構建CSPResNet50vd網絡。本文特征提取網絡部分的CSPNet結構如圖3所示。
本文將CSPNet分別嵌套在stage1、stage2、stage3、stage4中,以有效地增強卷積神經網絡的學習能力,提高模型的準確率。
2.2.2 可變形卷積
為了進一步提高特征提取網絡的目標檢測能力,本文將CSPResNet50vd網絡stage4中3×3的標準卷積替換成3×3的可變形卷積[6](deformable convolution,DCN)。
可變形卷積和標準卷積相比增加了一個偏移量。如圖4所示[6],其中(a)為標準卷積核,(b)、(c)、(d)為可變形卷積。
可變形卷積的偏移量通過一個平行的標準卷積核計算得到,如圖5所示。首先通過一個平行卷積核得到可變形卷積需要的偏移量,然后將偏移量作用在卷積核上。加上偏移量的學習,可變形卷積大小和位置可以根據當前圖像進行動態調整。本文中平行的標準卷積核大小與可變形卷積核大小相等。
2.3 去除重疊框
在進行預測時候,YOLOv4對于同一個物體可能會給出多個預測框。本文使用Matrix NMS[7]去除重復檢測框。這里Matrix NMS的IOU閾值設為0.45,評分的閾值為0.2。
2.4 損失函數
本文的損失函數由三種損失函數: 坐標偏差損失Losscoord(使用GIOU Loss), 置信度損失Lossconf (使用二值交叉熵的Lossconf_obj和Lossconf_noobj)和Lossclass(采用二值交叉熵Loss), 按照2:1:1比例加權得到。
3 實驗結果與分析
3.1 實驗數據與平臺
本文從網絡上獲取倒計時圖片共1125張,標注完成后,900張作為訓練集,225張作為測試集。數據集共有20類,包括紅燈和綠燈倒計時數字各10類。
模型運行在百度AI Studio平臺,CPU是Intel(R) Xeon(R) Gold 6271C CPU @ 2.60GHz,GPU為Tesla V100顯存16GB,內存32GB。深度學習框架為PaddlePaddle 1.8.4。
3.2 實驗結果分析
為了比較不同模型的性能,本文采用平均精度均值(Mean Average Precision, mAP)、漏檢率(Missing detection rate, MDR)、單張圖片檢測時間(infer time)作為衡量指標。
3.2.1 CSPResNet50vd作用
本文直接將YOLOv4特征提取網絡CSPDarkNet53替換為CSPResNet50vd會導致模型mAP下降。由于CSPResNet50vd參數量比CSPDarkNet53少,本文使用可變形卷積(DCN)替換CSPResNet50vd中stage4中的3×3標準卷積,模型的mAP達到79.34%,超越YOLOv4基本相同,并且檢測速度比YOLOv4快7.75ms,實驗結果如表2所示。
為了體現可變形卷積的優勢,本文將經過標準卷積特征提取后的特征圖和經過可變形卷積特征提取后的特征圖進行對比,如圖6所示。
從圖中可以看出,將標準卷積替換為可變形卷積,交通信號燈倒計時數字的特征更加明顯,可以有效地提高網絡對交通信號燈倒計時數字的檢測能力。
3.2.2與其他模型對比
為了衡量本文方法的性能,本文對比了最新的單階段目標檢測模型。文獻[8]中提出兩種交通信號燈倒計時數字識別方法。方法一將YOLOv3的特征提取網絡更換為MobileNet,雖然檢測速度上優于本文的YOLOv4模型,但mAP比本文YOLOv4模型低24%;方法二文獻[8]對YOLOv3的特征提取網絡進行改進,將DarkNet53中殘差模塊連接的3×3卷積核、步長為2的卷積結構替換成下采樣塊。表3展示了本文方法和其他檢測模型的結果對比。從實驗結果可以得出,本文的模型在mAP和漏檢率上都優于其他的檢測模型。
3.2.3檢測效果展示
圖7展示了本文方法和YOLOv4在不同場景下交通信號燈倒計時數字檢測效果。本文方法在實際檢測中得到準確的結果。
4 結束語
本文通過對YOLOv4的主干網絡進行改進,將YOLOv4主干網絡CSPDarkNet53網絡替換為CSPResNet50vd,并將CSPResNet50vd中stage4中的3×3標準卷積替換為可變形卷積。實驗結果表明,本文的方法可以有效地提高交通信號燈倒計時數字檢測的準確率和速度,相較于主流目標檢測算法有著更高的準確率和更低的漏檢率。
參考文獻:
[1] 張煥增,李茂強,劉英杰.基于視覺的軌道交通信號燈識別算法研究[J].電子制作,2020(18):53-55.
[2] 劉影,姚振鑫.基于NVIDIA Jetson TX2的實時交通信號燈檢測算法[J].農業裝備與車輛工程,2020,58(7):49-53,65.
[3] BOCHKOVSKIY A, WANG Chien-yao, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23). https://arxiv.org/abs/ 2004.10934.
[4] Redmon J,Farhadi A.YOLOv3:an incremental improvement[EB/OL].2018:arXiv:1804.02767[cs.CV].https://arxiv.org/abs/1804.02767
[5] Wang CY, Liao HY,Yhe L, et al. CSPNet: A New Backbone that Can Enhance Learning Capability of CNN[C].Proceedings of the IEEE Conference on Computer Vision and P-attern recognition.Berlin,Germany:Springe,2019:8124-8233.
[6] 包俊,劉宏哲.融合可變形卷積網絡的魚眼圖像中的目標檢測[J/OL].計算機工程:1-10[2021-01-01].https://doi.org/10.19678/j.issn.1000-3428.0057485.
[7] Xinlong W, Rufeng Z, Tao K, et al.SOLOv2: Dynamic and Fast Instance Segmentation[EB/OL].(2021-03-25).https://arxiv.org/abs/2003.10152.
[8] 葛壯壯.基于嵌入式GPU的交通燈及數字檢測與識別研究[D].成都:電子科技大學,2020.
收稿日期:2021-08-11
基金項目:南通市科技計劃項目(MS12020078)。江蘇省大學生創新訓練計劃項目“基于視頻的電瓶車駕駛員智能頭盔系統”(校企合作) (201910304158H);江蘇省大學生創新訓練計劃項目“基于紅外圖像的船舶駕駛員違章行為自動識別”(校企合作)(202010304180H);江蘇省大學生創新訓練計劃項目“具有預約功能的園區無人送貨小車 ”(省級一般項目)(202010304122Y) ;江蘇省大學生創新訓練計劃項目“面向老年人的基于手勢識別的智能手機使用助手”(省級重點項目)(202110304047Z) ;江蘇省大學生創新訓練計劃項目“5G環境下基于手勢智能識別的遠程機械臂控制系統”(省級重點項目)(202110304050Z)。
作者簡介:周昆陽(2000—),男,本科,主要研究方向為圖像處理;鄭澤斌(2000—),男,本科;向陽(2000—),男,本科;趙夢婷(2001—),女,本科;邵葉秦(1978—),博士,副教授。