基于改進YOLOv7的交通路口目標識別算法

2024-06-16 00:00:00江晟張仲義汪宗洋于晴

吉林大學學報(理學版) 2024年3期

關鍵詞：深度學習

摘要：針對交通路口車輛目標檢測算法存在精確度低、少檢、漏檢等問題，提出一種基于改進YOLOv7的交通路口目標識別算法. 該算法

首先利用前饋式卷積注意力機制CBAM從通道注意力和空間注意力兩者提升網絡對關鍵特征的注意力，提高網絡的運行速率，優化網絡的特征提取能力；其次采取空間層

到深度層連接全維動態卷積組成一個新的學習模塊，以此結構改進YOLOv7特征學習方式，提升特征表達能力；最后在實際采集的交通路口數據集上進行實驗. 實驗結果表

明，該方法在對應數據集上平均精度達到96.1%，訓練耗時降低至16.71 h，因此針對交通路口小目標檢測有明顯的識別優勢.

關鍵詞：深度學習；目標檢測；卷積神經網絡；注意力機制；全維動態卷積

中圖分類號： TP301.6" 文獻標志碼： A" 文章編號： 1671-5489（2024）03-0665-09

Target Recognition Algorithm of Traffic IntersectionBased on Improved YOLOv7

JIANG Sheng1， ZHANG Zhongyi1，2， WANG Zongyang2， YU Qing1

（1. School of Physics， Changchun University of Science and Technology， Changchun 130022， China;

2. Institute of Deep Perception Technology， Wuxi 214000， Jiangsu Province， China）

Abstract： Aiming at the problems of low accuracy， under-detection， and missed detection in the vehicle target detection algorithm at traffic intersections，

we proposed a target recognition algorithm of traffic intersection based on improved YOLOv7." Firstly， the algorithm" used the feed-forward convolutional attention mechanism CBAM to

enhance the network’s" attention to key features from both channel attention and spatial attention， improve the network’s running" speed， and optimize the network’s feature extraction capabilities.

Secondly， a new learning module was formed by connecting the" spatial layer to depth" layers to form a" full-dimensional dynamic convolution， which improved the YOLOv7 feature learning method

and enhanced the feature expression ability. Finally， the experiments were conducted on the actual collected traffic intersection dataset. The experimental results show that the proposed method

achieves an average accuracy of 96.1% on the corresponding dataset， and the training time is reduced to 16.71 h. Therefore， it has obvious recognition advantages

for small target detection at traffic intersections.

Keywords： deep learning; target detection; convolutional neural network; attention mechanism; full-dimensional dynamic convolution

收稿日期： 2023-06-12.

第一作者簡介：江" 晟（1985—），男，漢族，博士，副教授，從事多維智能感知與協同控制的研究， E-mail： js1985_cust@163.com.

通信作者簡介：張仲義（1999—），男，漢族，碩士，從事光電傳感與探測技術的研究， E-mail： yuanqing288@icloud.com.

基金項目：吉林省科技發展計劃重點研發項目（批準號： 20210203214SF）.

近年來，隨著神經網絡技術的不斷深化［1］，基于深度卷積神經網絡提出的深度學習算法因其精確度高、準確度高、使用方便，具備

從靜態或動態視頻中快速檢測出車輛目標及其相關特征信息［2］等特點，實現了對路口交通流進行快速檢測的良好功能，逐漸成為主流目標檢測算法［3］.

但在目前的交通流量目標檢測任務中，存在大量的遠景小目標，其在圖像中的分辨率和信息有限，使得對小目標的精確檢測識別成為一項具有挑戰性的任務. 為更好地解決該

問題，歐陽繼紅等［4］提出了一種改進多尺度特征融合的目標檢測方法，該方法將網絡的學習參數作為特征間的平衡因子進行加權融合，從而提高模型多尺度特征融合能力，

有效提高了模型的檢測精度；逄晨曦等［5］通過采用注意力改進的自適應空間特征融合策略生成金字塔形表示，在不影響小目標識別的情況下，提高了中、大目標的檢測精

度；姚慶安等［6］用改進的帶孔空間金字塔池化增加多維度目標的分割，用注意力細化模塊捕獲線索特征學習，并加入基于注意力機制的特征融合有隊列地監督重要通道特征的學習，引

導高、低階特征融合，在面對多像素目標語義分割時效果較好；" Singh等［7］提出了SNIPER模型，通過只處理目標周圍的背景區域減少訓練時間，提高

SNIP［8］的訓練效率，但這種多尺度特征訓練的方法引用了大量的跨步卷積或池化層，導致細粒度信息的丟失和較低的特征學習能力. 因此， Sunkara等［9］提出了SPD-Conv

結構，通過引入由空間層到深度層結構連接非跨步卷積層的結構代替跨步卷積和池化，提升了對低分辨率場景的檢測能力，降低了網絡復雜度，提升了模型運行速度，但

網絡中的所有卷積均是靜態卷積，靜態卷積核共享權值［10］，導致模型特征學習能力下降. 針對靜態卷積， Chen等［11］在基于CondConv［12］的基礎上，通過

使用一組K個并行卷積核，對每個單獨輸入的x，根據關注度動態聚合多個并行卷積核，共享輸出通道，相比于CondConv，在注意力機制上采取GAP+FC+ReLU+FC+Sofma

x的方法，提取注意力分配給不用的卷積核上，提升了特征表示能力，但其忽略了卷積核的其他維度. Li等［13］提出了全維動態卷積，通過采取多維注意力機制和并行

策略，賦予了卷積核動態屬性，有更強的特征表達能力，但引用過多的動態卷積后會提升模型的大小，增加網絡復雜度.

針對上述問題，本文采用一階段算法YOLO（you only look once）系列最新的YOLOv7［14］網絡，在原網絡結構上進行改進，將改進后的網絡與原有網絡進行檢測對比

，對比結果表明，改進后的網絡相比原網絡的檢測效果有明顯提升，應用價值更廣.

1" YOLOv7網絡模型

YOLOv7是最新YOLO系列的檢測器，相同體量下比YOLOv5精度更高，速度快120%，其傳輸幀數達161 幀/s；

同時在GPU V100上進行測試，平均精度為56.8%的模型可達30 幀/s. 無論是速度還是精度，都取得了較優異的檢測效果.

YOLOv7的網絡結構由輸入（Input）、骨干網絡（Backbone）、中間網絡（Neck）和檢測頭（Head）四部分組成，其網絡結構如圖1所示.

1.1" 骨干網絡

YOLOv7的骨干網絡由CBS層、 ELAN層和MP層組成. 圖像輸入后首先經過4個CBS卷積層， CBS層由卷積（Conv）層、歸一化（BN）層和損失函數（SiLu）層組成.

當特征圖經過4個CBS后，其特征尺寸由640×640×32壓縮至160×160×128，然后送至ELAN層［8］， ELAN層是一個高效的網絡結構，由多個CBS構成，第一條分支是經過一個CB

S卷積改變通道數量，第二條分支首先經過一個CBS卷積層改變通道數量，其次經過4個CBS卷積層進行特征提取，然后將結果疊加得到最后的特征提取結果.

ELAN層輸入前后特征圖尺寸大小保持不變，通道數量增加至輸入的一倍. 其通過控制最短和最長的梯度路徑，使網絡能充分學習特征，具有很強的魯棒性. ELAN的結構如圖2所示.

經過ELAN層后特征圖將會送入MP層， MP-1層通道數保持不變， MP-2層通道數增加至原來的一倍. MP層主要由最大池化層（Maxpool）和CBS卷

積層組成，第一條分支是特征圖先經過最大池化層，進行下采樣操作，然后經過CBS卷積層，

改變通道數量；第二條分支先經過一個卷積層改變通道數量，然后進行下采樣操作，最后將結果疊加在一起.

經過Backbone網絡后，將會輸出3個特征圖C3，C4，C5，其大小分別為80×80×512，40×40×1 024，20×20×1 024.

1.2" 中間網絡與檢測頭網絡

YOLOv7的Neak部分可視為一個pafpn結構，將Backbone網絡生成的3個特征圖按其尺寸大小分別進行多尺度特征融合. 首先通過SPPCSPC模塊， SPPCSPC模塊利用不同尺度的最

大池化獲得不同的感受野，用于區分大目標和小目標，其結構如圖3所示.

然后自頂向下經過CBS層、 UPSample層、 ELAN-Z層等依次與C4和C3進行融合，得到P3，P4，P5，其中UPSample層是一個上采樣模塊，

它所使用的采樣方式是最近鄰插值nearest算法，其結構如圖4所示.

而ELAN-Z結構與ELAN結構類似， ELAN-Z結構如圖5所示. 由圖5可見，它的第二條分支所選取的輸出數量不同， ELAN模塊選取3個輸出進行最后相加，而ELAN-Z選

取5個輸出進行相加，從而提高特征提取的能力；然后自底向上經由MP-2層、 ELAN-Z層與P4，P5進行融合，最后pafpn將輸出P′3，

P′4，P′5. 通過RepConv層調整通道數，用卷積去預測objectness，class和bbox三部分.

RepConv層有兩種情況：一種是訓練（train），另一種是推理（deploy）. 在訓練時，其結構有3條分支：分別是3×3卷積層+BN層，作用是特征提?。?1×1卷積層+BN層，作

用是特征平滑；最后一條分支是Identity，由一個BN層構成. 最后將3條分支疊加在一起.

在推理時，將訓練時的第二條和第三條分支都轉化為3×3的卷積，然后進行矩陣融合，權重相加， 3條分支融合成1條分支，其中只包含1個3×3卷積，結構如圖6所示.

在YOLOv7的Backbone和Neck中都不同程度地采用了跨步卷積層和Maxpooling層. 而在卷積神經網絡（convolutional neural network， CNN）中，使用跨步卷積或池化操作雖

然會一定程度上增大感受野，但在降維過程中會使網絡忽略一些關鍵的特征信息，易丟失特征細節信

息，常會導致小目標丟失，出現漏檢的現象，從而無法滿足檢測的精度，同時還會增加網絡深度，使整個網絡計算量變大，影響時空效率等問題；同時，對于傳統的CNN網絡，

傳統卷積層是單個靜態卷積核，傳統靜態卷積中所有樣本共享一個卷積核，特征表達能力較差，因此在一定程度上影響了CNN網絡的準確性，并且不能有效地進行推理.

2" 模型優化設計

在目標檢測任務中，目標檢測模型不僅要在各種場景下準確地對各類目標進行檢測，而且還

要降低網絡參數和復雜度，提高網絡的運行速度，進而提高目標檢測的速度，達到實時檢測的目的. 基于此，本文提出一種改進YOLOv7算法網絡結構的方法.

2.1" 空間-深度層設計

針對YOLOv7結構中的特征圖，對任何大小的S×S×C1中間特征映射X，將子特征映射序列切片為如下部分：

f0，0=X［0∶S∶scale，0∶S∶scale］，（1）

f1，0=X［1∶S∶scale，0∶S∶scale］，…，（2）

fscale-1，0=X［scale-1∶S∶scale，0∶S∶scale］，（3）

f0，1=X［0∶S∶scale，1∶S∶scale］，f1，1，…，（4）

fscale-1，1=X［scale-1∶S∶scale，1∶S∶scale］，（5）

f0，scale-1=X［0∶S∶scale，scale-1∶S∶scale］，f1，scale-1，…，（6）

fscale-1，scale-1=X［scale-1∶S∶scale，scale-1∶S∶scale］.（7）

例如scale=2，如圖7所示，可得到4個子圖f0，0，f0，1，f1，0，f1，1，每個特征子圖的尺寸為S2，S2

，C1，并下采樣2倍. 然后按通道維度連接子特征映射，得到一個新的特征映射 X′Sscale，Sscale，scale

2C1，相比于特征映射f0，0，f0，1，f1，0，f1，1，空間維度減少一個scale，通道維度增加一個比例因子scale2.

2.2" 全維動態卷積優化

全維動態卷積是采取多維注意力機制和并行策略，在任何卷積層沿內核空間的4個維度學習卷積內核的注意力，運算公式如下：

y=（αw1⊙αf1⊙αc1⊙αs1⊙w1+…+αwn⊙αfn⊙αcn⊙αsn⊙wn）*x，（8）

其中： αwi∈

瘙綆表示卷積核wi的關注標量； αsi∈

瘙綆 k×k， αci∈

瘙綆 cin和αfi∈

瘙綆 cout表示3個新

引入的關注點，分別沿卷積核wi核空間的空間維度、輸入通道維度和輸出通道維度計算； ⊙表示沿著核空間不同維度的乘法運算.

圖8為全維動態卷積的多種注意力機制結構. 全維動態卷積通過對空間大小、輸入通道數量和輸出通道數量賦予了動態屬性，從而極大減少了額外的參數，提升了卷積核自

身的感受野，有更強的特征表達能力.

2.3" 卷積注意力機制設計

CBAM（convolutional block attention module）是一個輕量級的注意力模塊，由通道注意力模塊CAM（channel attention mechanism）和空間注意

力模塊SAM（space attention mechanism）組成. CAM可使網絡提高對圖像的前景和一些關鍵位置區域的注意力； SAM使網絡關注圖片上下文中語義信息豐富的位置. 圖9為CBAM的結構.

對于特征圖F∈

瘙綆 C×H×W， Mc∈

瘙綆 C×1×1表示通道注意力模塊輸出的通道權重數據為1×1×C， F′表示通道注意力的輸出； M

s∈

瘙綆 1×H×W表示空間注意力模塊輸出的空間權重數據為2×H×W，將通道注意力所輸出的結果F

′與空間注意力權重相乘后即得到CBAM輸出結果F″，公式如下：

F′=Mc（F）F，（9）

F″=Ms（F′）F′.（10）

2.4" 目標檢測模型優化

YOLOv7是一種基于卷積神經網絡的一階段算法，本文在骨干網絡與檢測頭之間的特征提取部分加入卷積注意力機制CBAM，如圖10所示. 卷積注意力機制CBAM通過通道注意力機制模塊CA

M和空間注意力機制模塊SAM分別沿通道和空間兩個獨立維度依次推斷圖片的注意力，然后將注意力圖乘以輸入的特征圖，進行自適應特征細化，優化了網絡感興趣特征的表現.

為改善網絡訓練速度，優化網絡的特征學習能力，減少細節特征丟失，本文采用帶有C2濾波器的非跨步全維動態卷積層連接空間-深度層的方式，在檢測頭之前添加該

結構，以進一步對特征X′進行轉換，轉換方式為

X″Sscale，Sscale，C2.（11）

從而減少YOLOv7網絡結構中跨步卷積和池化層的使用，降低網絡復雜度，提升網絡性能；同時利用全維動態卷積代替傳統網絡中的靜態卷積，提升卷積核自身的感

受野，盡可能保留所有判別特征的信息，獲得更高的特征學習率. 改進的YOLOv7網絡結構如圖11所示.

3" 實驗驗證

實驗流程如圖12所示. 通過自研的雷視一體機對交通路口進行拍攝，收集一段時間內的交通目標數據；將圖片輸入數據預處理模塊對圖片進行處理，處理后的圖片輸入YOLOv7網絡進行訓練，在

反復前向、后向傳播后，訓練完畢得到滿足要求的權重模型. 進行檢測時，將圖片輸入到訓練獲得的模型中進行推理，最后得到檢測結果.

3.1" 數據集的制作

本文數據集包括訓練集、測試集和驗證集，數據集制作過程如下：先利用由江蘇省無錫市集萃深度感知技術研究所提供的雷視一體機對路口進行監控并錄制視頻，從錄制視頻中截取

一定數量的圖片，圖片中涵蓋行人、非機動車、小型機動車、大型機動車4種交通目標；然后利用Vott軟件對數據集進行標注，分別為4類識別目標，其中“0”為行人， “1”為非機

動車， “2”為小型機動車， “3”為大型機動車，每一行是一個目標，第一個元素是類別，后面4個數據是經過歸一化后的數據，分別表示中心橫坐標X、中心縱坐標Y、標注框寬度W、標注框高度H.

通過對所截取圖片的篩選和檢查，從截取總數6 000張中選取4 800張圖片作為訓練集，其中包括多個路口場景，如圖13所示的不同路口、白天、夜晚、雨天等場景，以此增加

數據集的多樣性，進而提升模型的魯棒性. 然后按上述要求對圖片進行標注. 此外，剩余的1 200張圖片不進行標注，作為測試集對網絡性能進行測試.

3.2" 實驗設定與訓練

實驗環境配置如下：操作系統為Windows10/ubuntu18.04， CPU為Intel（R） Core i5-10400F/Intel（R） Core（TM） i9-9900， GPU為NVIDA GeForce RTX3060/NVIDA GeForce RTX2080Super，

編程語言為Python3.7， GPU加速環境為CUDA 11.6/CUDA 11.4，顯存為12 GB/8 GB.

實驗訓練參數設置如下： epochs設為300，表示對訓練集的全部樣本訓練300次； batch-size設為8，表示每次訓練時在訓練集中取8個訓練樣本進行訓練； img-size設為640

×640，表示輸入圖片像素大小為640×640.

3.3" 結果分析

在300輪的訓練后，利用得到的最佳權重參數模型對待檢測目標樣本進行推理驗證，結果如圖14所示. 由圖14（A）可見，未檢測出公交車的存在；由圖14（C）可見，未檢測

出周圍處于圖像暗部的車輛，同時一些停止在車道線上的車輛也未能檢測出；由圖14（E）可見，在夜晚燈光較暗的情況下，在車道線上的小車對大車有一定的遮擋，導致模型未對該大車進

行有效識別；由圖14（G）可見，改進前模型將騎電瓶車的交通目標誤識別為行人，而且識別出的行人置信度較低. 而圖14（B），（D），（F），（H）

識別出了未能被檢測出的目標，并且相對提高了對目標的置信度，有效改善了少檢、漏檢和誤檢的現象，提高了目標檢測的精度；由圖14（I），（K），（M），（O）可見，

遠處的目標很小，可供學習的特征較少，使改進前的網絡模型對小目標檢測能力較差; 由圖14（J），（L），（N），（P）可見，

改進后的模型能更深入地挖掘特征信息，保證特征的完整性，尤其是對一些關鍵特征的學習，進而識別出了遠處的車輛，提升了小目標檢測能力.

表1列出了不同網絡模塊的推理結果.

由表1可見，改進后的網絡模型平均精確度（mAP）比改進前有一定提高；同時，改進前的網絡模型較復雜，導致整個網絡運行效率低，訓練時間較長，

且目標檢測的精度也較低，易出現目標漏檢或誤檢等問題. 但經過改進后，本文模型的訓練時間大幅度下降，運行效率提高，改進前模型未被檢測出的目標均被成

功檢測出，且在交通數據集下平均精度相比于YOLOv7（SPD-Conv）有一定提升.

行人、非機動車和機動車的相對檢出提升率列于表2. 由表2可見，行人在圖中相對于其他目標較小，網絡檢測時易漏檢，改進后的模型檢測性能更強，尤其是對小目標的檢測；在進行

非機動車檢測時，改進前的模型有時會誤檢，將非動車目標識別為行人，而改進后的模型更精確，行人目標和非機動目標分屬不同類，二者不同；對于機動車目標，由于

目標較多會導致模型漏檢和誤檢，改進后的模型具有更強的檢測性能，能更好地識別交通目標.

實驗結果表明，改進后的算法增強了特征學習能力和特征表達能力，對在目標檢測中出現的少檢、漏檢等問題有一定改善；同時在對小目標進行檢測時，能有效檢測出像素點

較少的道路遠處的小目標，提升了網絡對小目標的檢測能力，進一步提高了網絡模型的檢測精度和準確度.

綜上所述，針對交通路口目標識別中存在的精確度低、少檢、漏檢等問題，本文提出了一種基于深度學習的交通目標識別方法. 該方法通過在原有的YOLOv7網絡基礎上，采用前饋式卷積注意

力機制CBAM提升對通道和空間的注意力，以提高對關鍵特征的注意力，降低網絡復雜度，提高網絡運行效率；同時采用SPD層與非跨步全維動態卷積ODConv相連接的方式，提升卷積神

經網絡對特征的學習能力和表達能力，提升了網絡對小目標的檢測精度，進而提升了整個網絡的性能. 實驗結果表明，改進后的目標檢測網絡在不同時間段、不同環境下的檢測能力有

一定提升，對環境具有一定的魯棒性，實現了對交通路口目標識別精度的提升.

參考文獻

［1］" 侯學良，單騰飛，薛靖國. 深度學習的目標檢測典型算法及其應用現狀分析［J］. 國外

電子測量技術， 2022， 41（6）： 165-174. （HOU X L， SHAN T F， XUE J G. Analysis of Typical Algorithms and Application Status of Deep Learning Object Dete

ction ［J］. Foreign Electronic Measurement Technology， 2022， 41（6）： 165-174.）

［2］" 李明熹，林正奎，曲毅. 計算機視覺下的車輛目標檢測算法綜述［J］. 計算機工程與應用， 2019， 55（24）： 20-28. （

LI M X， LIN Z K， QU Y. Overview of Vehicle Target Detection Algorithms under Computer Vision ［J］. Computer Engineering and Applications， 2019， 55（24）： 20-28.）

［3］" ALSHEMALI B， KALITA J. Improving the Reliability of De

ep Neural Networks in NLP： A Review ［J］. Knowledge-Based Systems， 2020， 191： 105210-1-105210-9.

［4］" 歐陽繼紅，王梓明，劉思光. 改進多尺度特征的YOLO＿v4目標檢測方法［J］. 吉林大學學報（理學版）， 2022， 60（6）： 1349-1355. （

OUYANG J H， WANG Z M， LIU S G. YOLO_v4 Object Detection Method with Im

proved Multi-scale Features ［J］. Journal of Jilin University （Science Edition）， 2022， 60（6）： 1349-1355.）

［5］" 逄晨曦，李文輝. 基于注意力改進的自適應空間特征融合目標檢測算法［J］. 吉林大學學報（理學版）， 2023， 61（3）： 557-566. （

PANG C X， LI W H. Adaptive Spatial Feature Fusion Object Detection Algorit

hm Based on Attention Improvement ［J］. Journal of Jilin University （Science Edition）， 2023， 61（3）： 557-566.）

［6］" 姚慶安，張鑫，劉力鳴，等. 融合注意力機制和多尺度特征的圖像語義分割［J］. 吉林大學學報（理學版）， 2022， 60（6）： 1383-1390. （

YAO Q A， ZHANG X， LIU L M， et al. Image Semantic Segmentation Based o

n Fusion of Attention Mechanism and Multi-scale Features ［J］. Journal of Jilin University （Science Edition）， 2022， 60（6）： 1383-1390.）

［7］" SINGH B， NAJIBI M， DAVIS L S. Sniper： Efficient Multi-scale Training ［C

］//Proceedings of the 32nd International Conference on Natural Information Processing Systems. New York： ACM， 2018： 9333-9343.

［8］" SINGH B， DAVIS L S. An Analysis of Scale Invariance in Object Detection Sni

p ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2018： 3578-3587.

［9］" SUNKARA R， LUO T. No More Strided Convolutions or Pooling： A New CNN Building Block for Low-Resolution Images and Small Objects ［C］//

Machine Learning and Knowledge Discovery in Databases： European Conference. New York： ACM， 2022： 443-459.

［10］" 孫志軍，薛磊，許陽明，等. 深度學習研究綜述［J］. 計算機應用研究， 2012， 29（8）： 2806-2810. （

SUN Z J， XUE L， XU Y M， et al. A Review of Deep Learning Research ［J］. Computer Application Research， 2012， 29（8）： 2806-2810.）

［11］" CHEN Y P， DAI X Y， LIU M C， et al. Dynamic Convolution： Attention over Convo

lution Kernels ［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2020： 11030-11039.

［12］" YANG B， BENDER G， LE Q V， et al. Condconv： Conditionally Parameterized Convol

utions for Efficient Inference ［C］//Proceedings of the 33rd International Conference on Neural Information Processing Systems. New York： ACM， 2019： 1307-1318.

［13］" LI C， ZHOU A J， YAO A B. Omni-dimensional Dynamic Convolut

ion ［EB/OL］. （2022-09-16）［2023-03-15］. https：//arxiv.org/abs/2209.07947.

［14］" WANG C Y， BOCHKOVSKIY A， LIAO H Y M. YOLOv7： Trainable Bag-of-Freebies Sets

New State-of-the-Art for Real-Time Object Detectors ［EB/OL］. （2022-07-06）［2023-04-01］. https：//arxiv.org/abs/2207.02696.

（責任編輯：韓" 嘯）