關鍵詞:深度學習 交通標志識別注意力機制多尺度特征融合YOLOv5s中圖分類號:U463.6;TP391.41 文獻標志碼:A DOI: 10.20104/j.cnki.1674-6546.20240263
【Abstract】To achieve more efficient detection of smalltraffic sign targetsundercomplex urban stret background conditions,this paperproposesanimprovedYOLOv5salgorithm.Thisenhancementisachievedbyicorporatinga Convolution Block Attention Module (CBAM) Spatial Channel Attention Mechanism,an Adaptive Spatial Feature Fusion (ASFF) module, andanimproved loss function fordetection boxes.Thevalidationresultsonthe T1OoKtrafic signdatasetdemonstrate that the proposed algorithm achieves a mean Average Precision (mAP) of 84.5% in traffic sign recognition.
Keywords:Deep learning,Traffic signrecognition,Attention mechanism,Multi-scale feature fusion,O5s
【引用格式】付蓉萍,付建勝,梁旺陽.基于改進YOLOv5s-CBAM-ASFF算法的交通標志識別研究[J].汽車工程師,2025(8): 22-28.FURP,FUJS,LIANGWY.Research on Traffic SignRecognition Based on the ImprovedYOLOv5s-CBAM-ASFFAlgorithm[J].Automotive Engineer,2025(8):22-28.
1前言
在城市街道場景中,交通標志的識別往往存在復雜的背景干擾和標志被部分遮擋等因素,嚴重影響檢測速度和準確性。傳統的手工特征提取方法,如索貝爾(Sobel)邊緣檢測特征、哈爾(Haar)特征、方向梯度直方圖(HistogramofOrientedGradient,HOG)特征等,因其泛化能力有限且計算復雜度高,在實時交通標志識別場景中表現不佳。
深度學習技術的興起與發展使其在目標檢測領域的應用日益廣泛。單階段檢測算法如YOLO(YouOnlyLookOnce)5和單步多框檢測器(SingleShotMultiBoxDetector,SSD)在交通標志檢測任務中取得了顯著成果。深度學習有助于解決城市街道復雜背景條件下的交通標志識別問題,是自動駕駛和無人駕駛技術性能提升的主要途徑]
廖璐明等提出一種融合空間變化網絡與注意力機制的交通標志識別系統,有效提升了識別性能;江金洪等在YOLOv3基礎上引入深度可分離卷積技術,改進損失函數,進而提高檢測精度;黃志強等[提出輕量化的YOLOv3-tiny模型,通過引入注意力機制提高了識別的準確性;郭繼峰等針對YOLOv4算法進行改進,采用深度可分離卷積和焦點(Focal)損失函數,解決模型參數量大和樣本不均衡問題,進而提升了檢測精度;查超能等在YOLOv5中引入Transformer和自適應空間特征融合(AdaptiveSpatialFeatureFusion,ASFF)機制,有效解決了雨天環境下的交通標志識別問題;尹靖涵等[13]通過數據增強、K-均值(K-Means)先驗框和全局非極大值抑制(Global Non-Maximum Suppression,GNMS)機制來提升YOLOv5模型的識別精度。
盡管前述算法在提升交通標志識別精度方面取得了一定進展,但在城市街道的復雜環境下實現交通標志的識別仍面臨諸多挑戰。本文致力于解決城市街道復雜背景下的交通標志小目標識別問題,提出一種基于YOLOv5s的改進算法。通過在頸部(Neck)網絡中引人卷積塊注意模塊(ConvolutionalBlockAttentionModule,CBAM)空間通道注意力機制,增強對細節特征的識別精度。在檢測頭網絡中添加ASFF機制模塊,實現特征優化組合。此外,采用完全交并比(CompleteIntersectionoverUnion,CIoU)損失函數替代廣義交并比(Generalized Intersection over Union,GIoU)損失函數以提高模型訓練的收斂速度和識別能力。最后,在交通標志數據集TT100K(Tsinghua-Tencent100K上進行模型的訓練與測試。
2 YOL0v5網絡模型
YOLOv5采用模塊化思想,提供了不同規模的模型來適應不同的應用需求,YOLOv5s是該系列中模型規模最小的版本,具有相對較窄的特征映射通道。隨著模型復雜度的逐級提升,其他3個變體在深度和寬度上均有所增加,從而在一定程度上提高了檢測精度,但這是以增加計算資源消耗為代價的。為了在確保網絡輕量化的同時實現交通標志的快速檢測與識別,本文采用YOLOv5s作為基礎模型。
YOLOv5網絡結構主要分為4個部分:輸人層(Input)、主干層(Backbone)、頸部層(Neck)和預測層(Prediction)[4],如圖1所示。Input負責接收輸入圖像并將其標準化,為后續處理提供統一的數據格式;Backbone利用深度卷積神經網絡從輸入圖像中有效提取關鍵特征;Neck網絡采用特征金字塔網絡(FeaturePyramidNetwork,FPN)結構,通過多尺度特征融合策略增強模型對不同尺寸目標的檢測能力;Prediction模塊負責在特征映射上生成錨框(AnchorBox),并輸出用于目標檢測的邊界框,同時提供檢測對象的類別名稱和相應的置信度。這種分層和模塊化的設計,使YOLOv5能夠在保持高檢測速度的同時,實現對目標的快速準確識別。
圖1YOLOv5網絡結構示意
其中,Backbone網絡中的Focus為聚焦模塊,CBL模塊集成了卷積(Conv)模塊、批歸一化(BatchNormalization,BN)模塊和線性修正單元(RectifiedLinearUnit,ReLU)激活函數,Conv模塊中的Act為激活函數(ActivationFunction),ResUnit為殘差單元(ResidualUnit)。進一步地,跨階段部分(CrossStagePartial,CSP)網絡細分為CSP1和CSP2兩個階段:CSP1常用于模型的Backbone部分,CSP2常用于模型的Neck部分。此外,空間金字塔池化(SpatialPyramidPooling,SPP)模塊常采用最大池化(MaxPooling)操作。Neck網絡中的Concat為拼接模塊,Upsample為上采樣操作模塊。
3改進的YOLOv5網絡模型
本文基于注意力機制和多尺度特征融合方法從3個方面對YOLOv5s網絡進行交通標志識別的性能改進,如圖2所示:在Neck網絡中的CSP2模塊引進CBAM空間通道注意力機制;在檢測頭網絡中各層級部分加入ASFF模塊;將檢測框損失函數由GIoU改進為CIoU混合函數。
圖2YOLOv5s-CBAM-ASFF整體框架示意
3.1注意力機制的改進
本文通過引入注意力機制增強模型對交通標志小自標的細節提取能力。CBAM空間通道注意力機制[15]由通道注意力模塊(ChannelAttentionModule,CAM)和空間注意力模塊(SpatialAttentionModule,SAM)組成,使神經網絡能夠自適應地聚焦于輸入數據中最重要的部分。
本文將空間通道注意力機制模塊加人YOLOv5s中Neck網絡的CSP2模塊,以增強模型對輸入特征的敏感度。CBAM空間通道注意力模塊如圖3所示。通道注意力模塊:模型首先分別通過全局平均池化(GlobalAveragePooling,GAP)和全局最大池化(GlobalMaxPooling,GMP)處理特征圖的通道維度,隨后,通過 1×1 的卷積操作將綜合特征表示轉化為初始權重,再引入Sigmoid非線性激活函數對初始權重進行變換,從而實現對通道特征的有效加權??臻g注意力模塊:模型首先對特征圖進行通道池化操作,以提取空間的代表性特征;然后,將經過池化的特征圖與原始特征圖進行通道維度堆疊,形成新的特征表示;隨后,模型再通過一個 7×7 卷積核(ConvolutionalKernel),以生成每個空間位置的權重;最后,通過Sigmoid激活函數對空間權重進行非線性變換,以增強模型對重要空間特征的識別能力。其表達式為:
W=σ(fMLPw1+fMLPw2)
W′=σ[fconvfcat(w3,w4)]
式中: W 為通道注意力權重, W′ 為空間注意力權重,σ 為Sigmoid激活函數 ,fMLP 為 1×1 卷積函數, w1?w2 w3,w4 為池化的權重向量 ,fconv 為 7×7 卷積函數 ,fcat 為向量堆疊函數。
特征 碧 能 Sigmoid Sigmoid 7×7 Conv 通道池化Conv CAM SAM
3.2 自適應空間特征融合機制的添加
YOLOv5s結構中路徑聚合網絡(PathAggregationNetwork,PANet)模塊常被采納為特征融合的內核。PANet通過自底向上與自頂向下的雙路徑機制實現跨層級融合,通過不同層級特征圖之間的語義關聯來增強目標檢測的準確性,但該方法在處理特征圖時并未深入挖掘利用多尺度特征的潛力。由此,本文在檢測頭網絡中引入一種ASFF機制,通過在多尺度特征圖之間進行融合,來增強模型對各種尺寸目標的識別性能。
ASFF的結構如圖4所示,其中Level1、Level2和Level3分別代表不同層級的融合策略:Level1專注于最精細的尺度,利用高分辨率特征圖來捕捉小尺寸目標的細節;Level2采用中等分辨率,旨在識別中等尺寸的自標,同時降低計算成本;Level3關注最粗的尺度,通過最低分辨率的特征圖來識別大尺寸目標的整體輪廓。在ASFF框架下,特征融合的權重會根據各層級對任務的貢獻進行自適應調整,從而優化融合效果。此外,ASFF通過空間域的篩選機制,有效排除了不協調的特征響應,提升了特征融合的一致性。
圖4ASFF結構示意
本文通過引入ASFF模塊,使網絡能夠直接在不同層級對特征進行空間濾波,從而只保留有用的信息進行融合,進而篩選出對目標檢測有益的特征,實現特征的高效整合。通過這種方式,ASFF不僅提升了特征的表達能力,還增強了模型對復雜場景的適應性。
3.3 改進損失函數
YOLOv5算法采用GIoU損失函數,該函數通過綜合考量預測框與真實框的重疊面積、形狀和大小,為模型提供更為全面的優化目標。位置回歸損失的評價指標交并比(IntersectionoverUnion,IoU)通過計算2個邊界框的交集與并集的比值衡量其相似性。GIoU損失函數進一步優化了邊界框的位置預測,使得模型能夠實現更高的精度和魯棒性,基于GIoU的損失函數 LGIoU 的計算公式為:
其中:
式中: A 為真實框, A1 為預測框, B 為包含 A 和 A1 的最小凸集, IIoU 為交集與并集的比值。
GIoU損失函數雖然在處理預測框和真實框不相交的情況時表現出色,但預測框完全包含在真實框內時,GIoU損失函數會退化為傳統的IoU損失函數,無法進一步區分預測框和真實框的相對位置關系,從而限制其優化潛力。因此,本文引入CIoU[19]損失函數和焦點損失函數相融合來替代原有GIoU函數,進而實現對交通標志錨點框的精確定位。CIoU損失函數優化了模型對自標形狀和位置的識別能力,特別是在交通標志識別領域的街道復雜場景下。首先,通過式(4)計算出預測框和真實框之間的交集和并集區,再計算出中心點距離 ρ(b,bgt) 對角線距離 Ψc ;其次,通過IoU損失函數值計算權重參數 α 和 u ,衡量預測框和真實框的縱橫比的一致性;最后,結合上述因素計算CIoU損失函數值。此外,焦點損失函數通過定義預測概率 Pt 有效緩解各樣本類別不平衡的問題,確保模型對預測框的置信度正確可信,進一步提升模型對小目標或稀有類別的檢測準確性,使模型在處理具有高度相似性或低頻出現的交通標志時,表現出卓越的性能。因此,CIoU損失函數在目標檢測任務中的應用,不僅增強了模型的泛化能力,也提高了其在實際應用中的可靠性,基于CIoU的損失函數 LGIoU 的計算公式為:
其中:
最終損失值為:
式中: b,b 分別為預測框和真實框的中心點坐標, ∣c∣ 為最小包圍框的對角線長度, w,h 分別為預測框的寬度、高度, Wgt?hgt 分別為真實框的寬度、高度, αt 為平衡因子, γ 為調節因子。
4驗證結果及分析
4.1驗證數據集
本文所選用的數據集為中國交通標志開源數據集TT100K。TT100K具有龐大的數據量和豐富的語義信息,其數據樣本是通過高清攝像頭在真實街道環境中拍攝獲得的,能夠真實還原復雜的城市街道背景。圖5展示了TT100K數據集中的樣本圖像,包含多樣的城市街道元素。在TT100K數據集中,本文進一步篩選出45類具有重要語義信息的交通標志,如圖6所示,包括限速指示牌、禁止通行指示牌和禁止停車指示牌等。本文將增強后的11584份數據樣本按照8:1:1的比例劃分為訓練集、驗證集和測試集,分別包含8901張、1341張和1342張圖像,圖7所示為45類交通標志在增強后數據集中的數量分布情況。
圖5TT100K數據集樣本
圖645類交通標志
圖7交通標志種類數量分布情況
4.2 評價指標
為了驗證模型對交通標志的識別性能,本文采用精確率(Precision)、召回率(Recall)平均精度均值(mean Average Precision,mAP)和 F1 分數( Score)作為評價指標評估網絡性能:
式中: GTP?GFP?GFN 分別為真正例、假正例、假負例數量, M 為檢測目標的類別總數, 100% 為第 k 個類別的平均精度(Average Precision,AP)。
4.3 驗證環境
本文選擇PyTorch深度學習框架,并采用Python作為編程語言,驗證環境如表1所示,在模型訓練階段,設置輪次(epoch)為200次,批量大?。˙atch_size)為16。選擇隨機梯度下降(StochasticGradientDescent,SGD)法,并對其進行了學習率優化,初始學習率設定為0.01。此外,為評估模型性能,將置信度閾值統一設定為0.5。為提高網絡模型的訓練效率,本文采用LabelImg軟件對交通標志圖像進行標注。
4.4 驗證結果分析
改進算法驗證結果如圖8所示。由圖8可知,本文提出的YOLOv5s-CBAM-ASFF算法模型在多個關鍵性能指標上均有顯著提升:mAP達到 84.5% 與YOL0v5s算法相比,提升了9.7百分點, F1 分數由69.3% 提升至 82.2% ,而且在精確率和召回率方面均有較好的表現。這充分說明YOLOv5s-CBAM-ASFF算法能更準確地對交通標志進行識別。
表1驗證環境參數
(c)評估指標驗證結果
圖8改進算法模型驗證結果
4.5 消融試驗
為了驗證不同策略對網絡性能的影響,本文選擇在頸部網絡引進CBAM空間通道注意力機制模塊,并在檢測頭網絡添加ASFF模塊開展消融試驗。在相同環境下,構建YOLOv5s、YOLOv5s-CBAM、YOLOv5s-ASFF和YOLOv5s-CBAM-ASFF算法模型并比較其識別結果,如表2所示。
結果表明,4種模型均可完成復雜環境下的交通標志檢測識別任務。其中,YOLOv5s-CBAM-ASFF的交并比閾值為0.5時的 mAP(mAP@0.5) 和 F1 分數相較于Y0L0v5s網絡模型分別提高了9.7百分點和12.9百分點,同時,精確率和召回率也高于其他3種模型。
表2消融試驗結果
4.6 對比試驗
為了驗證本文改進算法的可行性,將其與SSD算法[2]、中心點檢測網絡(CenterNet)[21]、YOLOv3、YOLOv4、YOLOv5s等主流算法進行對比驗證,試驗參數與本文模型參數保持一致,差異參數保持默認
設置,結果如表3所示。
表3對比試驗結果
由表3可知,改進算法各性能參數保持在相對較高的水平,充分展現了其優化后的性能優勢。
5 結束語
針對復雜的城市街道背景條件下交通標志的小目標識別問題,本文基于YOLOv5s網絡模型提出了一種改進的YOLOv5s-CBAM-ASFF算法。通過引入空間通道注意力機制和添加多尺度特征融合模塊,并采用CIoU損失函數替代GIoU損失函數進行優化,進而去除復雜的背景干擾和有效融合多尺度特征信息,進一步提高對小目標的識別能力。在TT100K數據集上的驗證結果表明,與原始YOLOv5s模型相比,YOLOv5s-CBAM-ASFF算法的精確率 P 、召回率R、平均精度均值mAP和 F1 分數分別實現了8.4百分點、10.9百分點、9.7百分點和12.9百分點的顯著提升。
在未來的工作中,考慮到自然場景的復雜性和多樣性,需要進一步研究雨雪天氣、遮擋和不同光照強度等環境因子的影響,并豐富交通標志數據集中的交通標志種類和數量,訓練和增強模型性能,以滿足更多場景應用需求。
參考文獻
[1]WILLIAMMM,ZAKIPS,SOLIMANBK,etal.Traffic Signs Detection and Recognition System Using Deep Learning[C]//Proceedings ofthe 2O19 Ninth International Conference on Intelligent Computing and Information Systems (ICICIS). Cairo,Egypt: IEEE,2019:160-166.
[2]ROBERTS L.Machine Perception of Three-Dimensional Solids[D].Massachusetts,USA:Massachusetts Institute of Technology,1963.
[3]LIENHARTR,MAYDTJ.AnExtendedSetofHaar-Like FeaturesforRapid ObjectDetection[C]//Proceedingsof the 2002International Conference on Image Processing. Rochester,NY,USA:IEEE,2002.
[4]DALAL N,TRIGGSB.Histograms of Oriented Gradients for Human Detection[Cl// Proceedings of the 2Oo5 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, California, USA: IEEE, 2005:886-893.
[5]REDMON J,FARHADI A. YOLOv3:An Incremental Improvement[EB/OL]. (2018-04-08)[2022-11-20]. hts: //arxiv.org/abs/1804.02767.
[6] LIU W,ANGUELOV D, ERHAN D,et al. SSD: Single Shot MultiBox Detector[M]// LEIBE B, MATAS J, SEBE N, et al. Computer Vision-ECCV 2016. Lecture Notes in Computer Science. Cham: Springer,2016: 21-37.
[7]伍曉暉,田啟川.交通標志識別方法綜述[J].計算機工程 與應用,2020,56(10):20-26. WU XH, TIAN Q C. Survey of Traffic Sign Recognition[J]. Computer Engineering and Applications,2020,56(10): 20- 26.
[8] 廖璐明,張偉,王亞剛.基于注意力機制的交通標志識別 [J].小型微型計算機系統,2021,42(6):1262-1266. LIAO L M,ZHANG W,WANG Y G. Traffic Sign Recognition Based on Attention Mechanism[J]. Journal of Miniaturization for Microcomputers,2021,42(6):1262- 1266.
[9]江金洪,鮑勝利,史文旭,等.基于YOLOv3算法改進的 交通標志識別算法[J].計算機應用,2020,40(8):2472- 2478. JIANGJH,BAO SL,SHIWX,et al.Improvement of Traffic Sign Recognition Algorithm Based on YOLOv3[J]. Computer Applications,2020,40(8): 2472-2478.
[10]黃志強,李軍.基于空間通道注意力機制與多尺度融合 的交通標志識別研究[J].南京郵電大學學報(自然科學 版),2022,42(2):93-102. HUANG Z Q,LI J.Research on Traffic Sign Recognition Based on Spatial Channel Attention Mechanism and MultiScale Fusion[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition),2022,42 (2): 93-102.
[11]郭繼峰,孫文博,龐志奇,等.一種改進YOLOv4的交通 標志識別算法[J].小型微型計算機系統,2022,43(7): 1471-1476. GUO JF, SUN W B,PANG ZQ,et al.An Improved YOLOv4 Algorithm for Traffic Sign Recognition[J]. Journal of Miniaturization for Microcomputers,2022,43(7):1471- 1476.
[12]杏超能 羅素云 何佳 雨天下基干注音力機制與特征融 合的交通標志識別[J].重慶埋工大學學報(目然科學), 2023,37(11): 20-31. ZHACN,LUOSY,HE J.Traffic SignRecognitionBased on Attention Mechanism and Feature Fusion under Rainy Conditions[J].JournalofChongqingUniversityof Technology (Natural Science),2023,37(11): 20-31.
[13]尹靖涵,瞿紹軍,姚澤楷,等.基于YOLOv5的霧霾天氣 下交通標志識別模型[J].計算機應用,2022,42(9):2876- 2884. YIN JH,QU S J,YAO Z K,et al. A Traffic Sign Recognition Model Based on YOLOv5 in Hazy Weather[J]. Computer Applications, 2022,42(9): 2876-2884.
[14] SHI X H,HU J,LEI X Y,et al. Detection of Flying Birds in Airport Monitoring Based on Improved YOLOv5[C]// Proceedingsofthe 6th International Conferenceon Intelligent Computing and Signal Processing.Xi'an, China: IEEE,2021: 1446-1451.
[15]WOO S,PARKJ,LEEJY,etal.CBAM:Convolutional Block Attention Module[C]// Proceedings of the European ConferenceonComputerVision(ECCV). Munich, Germany: Springer,2018: 3-19.
[16] LIU S T,HUANG D, WANG YH.Learning Spatial Fusion for Single-Shot Object Detection[EB/OL]. (2019-11-25) [2024-09-08]. https://arxiv.org/abs/1911.09516.
[17] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized Intersection Over Union:A Metric and a Loss for Bounding Box Regression[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USA: IEEE,2019: 658-666.
[18] YU JH, JIANGY N,WANG ZY,et al.UnitBox: An Advanced Object Detection Network[C]// Proceedings of the 24th ACM International Conference on Multimedia. Amsterdam,TheNetherlands:ACM,2016:516-520.
[19] WANG X F, SONG J. ICIoU: Improved Loss Based on Complete Intersection Over Union for Bounding Box Regression[J]. IEEE Access,2021,9: 105686-105695.
[20] LIU W,ANGUELOV D, ERHAN D,et al. SSD: Single Shot MultiBox Detector[C]// European Conference on Computer Vision. Cham,Switzerland: Springer,2016.
[21] ZHOU X Y,WANG D Q, KRAHENBUHL P. Objects as Points[EB/OL]. (2019-04-25)[2024-09-08]. https://arxiv. org/abs/1904.07850. (責任編輯斛畔)
修改稿收到日期為2024年9月8日。