














【摘要】針對現有自動駕駛模型對小樣本及重疊樣本識別精度不高的問題,提出了一種基于改進YOLOv8s的輕量級目標檢測模型。使用多尺度特征提取設計了C2f-Faster模塊,替換YOLOv8s骨干網絡與頸部網絡的C2f模塊;融合內部交并比(Inner-IoU)與基于最小點距離交并比(MPDIoU)損失函數,提出Inner-MPDIoU損失函數。模型的對比試驗、消融試驗結果表明:交并比為0.5時模型平均精度(mAP@0.5)提升3.5個百分點,準確率達到95.2%,參數量下降25%。通過數據的可視化分析,進一步驗證了改進模型對于復雜場景的有效性。
主題詞:自動駕駛 深度學習 目標檢測 YOLOv8s 損失函數
中圖分類號:TP391.41" "文獻標志碼:A" "DOI: 10.19620/j.cnki.1000-3703.20240513
Research on Improved Multi-Target Tracking Detection of YOLOv8s
in Autonomous Driving Scenario
Wang Xuanhui1, Wu Ying1, Shao Kaiyang2, Xie Deyan1, Dong Jianye3
(1. College of Science and Information Science, Qingdao Agricultural University, Qingdao 266109: 2. College of Mechanical and Electrical Engineering, Qingdao Agricultural University, Qingdao 266109; 3. The 22nd Research Institute of China Electronics Technology Group Corporation, Qingdao 266109)
【Abstract】In order to solve the problem that the existing autonomous driving models do not have high recognition accuracy for small samples and overlapping samples, a lightweight object detection model based on improved YOLOv8s is proposed. A C2f-Faster module is designed by using multi-scale feature extraction to replace the C2f module of YOLOv8s backbone network and neck network. The Inner-MPDIoU loss function is proposed by fusing the Inner-IoU and MPDIoU-based loss function based on the minimum point distance (MPDIoU). The results of the comparative test and ablation experiment of the model show that when the cross-union ratio is 0.5, the average accuracy of the model (mAP50) is increased by 3.5 percentage points, the accuracy reaches 95.2%, and the number of parameters decreases by 25%. Through the visual analysis of the data, the effectiveness of the improved model for complex scenarios is further verified.
Key words: Autonomous driving, Deep learning, Object detection, YOLOv8s, Loss function
【引用格式】 王軒慧, 吳穎, 邵凱揚, 等. 基于改進YOLOv8s的自動駕駛多目標跟蹤檢測研究[J]. 汽車技術, 202X(XX): XX-XX.
WANG X H, WU Y, SHAO K Y, et al. Research on Improved Multi-Target Tracking Detection of YOLOv8s in Autonomous Driving Scenario[J]. Automobile Technology, 202X(XX): XX-XX.
1 前言
自動駕駛技術已經成為中國智能化發展的新動力,為智能交通的高質量發展提供了技術支持[1]。面對復雜多變的駕駛場景,實現高效、精確的目標檢測仍是一項極具挑戰性的任務[2]。
目前,深度學習技術在自動駕駛目標跟蹤檢測任務中應用廣泛。Av?ar等[3]利用深度學習技術檢測跟蹤環形交叉口的移動車輛,但無法平衡算法的精度與復雜性。XU等[4]通過使用標準化注意力模塊改善了YOLOv5對交通環境中微小物體的檢測能力,但難以處理困難小樣本及重疊樣本。Mahaur等[5]提出了實時小目標檢測模型iS-YOLOv5,但模型存在識別精度不高、漏檢等問題。Bao等[6]引入高效多尺度注意力(Efficient Multi-scale Attention,EMA)和可變卷積(Deformable Convolution Network,DCN),擴大了模型的感受野,但計算負擔較大、實時性能較低。
為了解決上述問題,本文提出一種改進的YOLOv8s模型,使用FasterNet網絡[7]的Faster模塊替代YOLOv8s中主干與頸部的C2f模塊。同時,為了顯著提高模型的檢測精度,將內部交并比(Inner Intersection over Union,Inner-IoU)損失函數[4]與基于最小點距離交并比(Minimum Point Distance based Intersection over Union,MPDIoU)損失函數[5]融合,提出Inner-MPDIoU損失函數,增強模型處理細節的能力。最后,通過對比不同模型、消融試驗及數據可視化分析,驗證模型在不同復雜場景的檢測性能。
2 基于改進YOLOv8s的網絡結構
2.1 網絡整體架構
改進的YOLOv8s網絡結構由骨干(Backbone)網絡、頸部(Neck)網絡、檢測頭(Head)3部分組成,如圖1所示。
Backbone采用DarkNet53[6]框架,使用基本卷積(Convolution)單元提取輸入特征的局部空間信息;空間金字塔池化(Spatial Pyramid Pooling Fast,SPPF)模塊進行局部特征和全局特征融合;C2f-Faster模塊通過引入區域候選網絡(Region Proposal Network,RPN)提高檢測的準確性和速度。
Neck部分采用路徑聚合網絡(Path Aggregation Network and Feature Pyramid Networks,PAN-FPN)結構,實現多尺度特征融合。
Head部分使用解耦頭(Decoupled-Head)結構,將分類和檢測分離,同時,采用無錨(Anchor-Free)檢測機制提升檢測效果。結合Inner-IoU與MPDIoU損失,將Inner-MPDIoU作為模型的損失函數。
2.2 特征提取模塊
原始YOLOv8s的Backbone使用C2f模塊,該模塊由基本卷積構成多個瓶頸結構,瓶頸結構間采用跳躍連接,并使用Split操作拆分特征圖。跳躍連接與Split操作的大量應用,導致網絡復雜度與參數計算量大幅增加。
FasterNet網絡結構如圖2所示,通過使用部分卷積(Partial Convolution)處理輸入通道的部分信息,降低計算量的同時,減少了內存訪問的頻率。通常,將浮點運算次數(FloatingPoint Operations,FLOPs)作為網絡計算復雜的評價標準。由于部分卷積的FLOPs僅為常規卷積的1/16,內存訪問量僅為常規卷積的1/4,所以可利用部分卷積的優勢,借助特征圖的部分冗余性進一步減少計算冗余和內存訪問,在各類視覺任務中保持高準確率與檢測速度。因此,部分卷積更適用于實時、快速的車輛檢測場景。
因此,本文將部分卷積引入C2f模塊,形成C2f-Faster模塊,對輸入數據進行特征提取。使用部分卷積降低目標檢測的計算量與參數量,提高模型的推理速度與檢測準確率。
2.3 損失函數
完整交并比(Complete Intersection over Union,CIoU)損失函數常用于YOLOv8s的目標檢測和邊界框回歸,其表達式為:
[LCIoU=1-nIoU+ρ2Bgt,BprC2+αvv=4πarctanwgthgt-arctanwprhpr2α=v1-nIoU+v] (1)
式中:ρ2(Bgt,Bpr)為預測框與真實框中心點的歐氏距離,Bgt=(xgt,ygt,wgt,hgt)為真實框參數,Bpr=(xpr,ypr,wpr,hpr)為預測框參數,C為兩個檢測框的最小閉包區域的對角線長度,v為修正因子。
當預測邊界框與地面真實邊界框長寬比相同、寬度和高度不同時,基于邊界框回歸的CIoU損失函數將失效,同時限制了收斂速度和檢測精度的提升。因此,為了解決自動駕駛場景下小目標及多目標跟蹤檢測問題,以及CIoU損失函數失效和漏檢問題,嘗試使用MPDIoU損失函數替代CIoU損失函數,進一步加強模型的準確性和魯棒性。
為了識別重疊物體,在YOLOv8s模型中使用MPDIoU作為損失函數,計算最小點距離,減少損失函數的自由度。MPDIoU損失函數可表示為:
[LMPDIoU=A∩BA∪B-d21w2+h2-d22w2+h2d21=(xB1-xA1)2+(yB1-yA1)2d22=(xB2-xA2)2+(yB2-yA1)2] (2)
式中:([xA1],[yA1])、([xA2],[yA2])分別為A左上和右下坐標,([xB1],[yB1])、([xB2],[yB2])分別為B左上和右下坐標,[d21]、[d22]分別為A、B左上角間和右下角間歐氏距離的定位目標。
MPDIoU損失函數使預測框向真實框靠近,在預測框與真實框的中心點重疊、長寬比一致(長、寬數值不同)時,由于MPDIoU損失的懲罰項不為0,所以不會退化為交并比(Intersection over Union,IoU)損失。因此,相較于CIoU損失函數,MPDIoU損失更能減少損失函數自由度,保證檢測精度[9]。
將Inner-IoU損失函數[6]應用于現有基于IoU的邊界框回歸損失函數,降低損失并加快函數收斂速度。Inner-IoU損失函數可表示為LInner-IoU=1-LInner,其中,LInner為輔助邊框的IoU。通過使用輔助邊界框計算IoU損失,加快邊界框的回歸過程。同時,針對不同的數據集與檢測器,Inner-IoU引入比例因子比率,控制輔助邊界框的尺寸,提升了模型泛化的能力。
因此,本文結合Inner-IoU與MPDIoU損失,將Inner-MPDIoU損失函數替代原損失函數CIoU,解決損失函數在目標檢測任務中表現不佳的問題。在自動駕駛的多目標檢測中,Inner-MPDIoU損失函數使模型全面地學習目標框,提高了模型對行人、路標、車輛等小目標的敏感性,降低模型漏檢率的同時,提升模型的泛化能力。
3 試驗環境及評價指標
3.1 構建數據集
本文選取KITTI[10]與BDD100K[11]公開數據集測試改進模型的性能。多場景數據集包含不同數量的車輛、行人,且存在遮擋與阻斷,能夠滿足自動駕駛復雜場景下檢測任務的需求。
在KITTI數據集中,3D物體檢測圖像分為9類,本文使用其中6類,并對其進行歸一化處理。對數據集進行預處理,將原數據集中行人(Pedestrian)、坐著的人(Person_sitting)合并為坐著的個體,刪除雜項(Misc)和無需關注(DontCare)項[12]。將數據集中7 480張圖片分為訓練集、測試集和驗證集,劃分比例為7∶1.5∶1.5,即訓練集5 236張,測試集1 122張,驗證集1 122張。
使用相同方法對BDD100K數據集進行劃分,將79 863張圖片劃分為驗證集10 000張,測試集10 000張,訓練集69 863張。
3.2 環境設置及模型訓練
本文模型訓練使用英特爾至強Platinum 8352V處理器,主頻為2.10 GHz,圖像處理器為英偉達GeFrce RTX 4090,顯存容量為24 GB,以Python作為編程語言。模型訓練的超參數設置[13]如表1所示。
3.3 模型評價指標
在目標檢測任務中,精確度(Precision)P為檢測到的物體中真正目標的占比[14];召回率(Recall)R為所有被檢測出的正確值與錯誤值中,正例所占比例[15]。由于二者通常高低變化相差較大,所以在二者變化不顯著時,以IoU閾值為0.5時模型的均值平均精度(mean Average Precision,mAP)mAP@0.5作為模型的評價標準[16]。
[P=TPTP+FPR=TPTP+FPAAP=i=1n-1ri+1-riPinterri+1AmAP=1ki=1kAPi] (3)
式中:[AAP]為平均精度,[AmAP]為均值平均精度,TP為真正例,TN為真反例,FP為假正例,FN為假反例,r為按升序排列的Precison插值段第一個插值處對應的Recall值。
4 試驗結果與分析
4.1 對比試驗
為了驗證本文模型的有效性,將本文模型與原始YOLOv8n、YOLOv8s等多個模型進行對比試驗,結果如表2所示。
由對比可知,本文模型與YOLOv8x的表現一致,準確率能夠達到95.3%。同時,模型參數量大幅下降,模型的計算量也相應降低,本文模型可以部署于邊緣設備中,高效執行目標檢測相關任務。
4.2 消融試驗
為了進一步驗證模型中各模塊的有效性,使用KITTI數據集進行消融試驗[17],結果如表3所示。
由表3結果可知,在YOLOv8s中結合MPDIoU和Inner-IoU損失函數,mAP@0.5提升3.5個百分點,模型的泛化能力顯著提升;C2f-Faster模塊使參數量下降25%,同時精度也提升了2.3個百分點。
模型改進前、后的mAP@0.5對比結果,如圖4所示,改進后的模型性能優于相同原理的其他模型。因此,本文模型在提升準確率的同時,降低模型計算量和參數量,并提高計算速度,能夠達到輕量化和高精度效果。
4.3 魯棒性試驗
由于BDD100K數據集體量較大,試驗迭代次數設置為100次[18],訓練批次(Batch)為64[19],其他參數與KITTI試驗保持一致,結果如圖5所示。
對比結果可知,原始模型的平均精度在100輪處收斂于0.5,本文模型能夠收斂于0.52。改進后模型的收斂幅度更大、速度更快、損失更低,進一步證明了本文模型能夠達到高效、精準檢測效果。
4.4 可視化分析
為了驗證模型的性能,對Grad-CAM熱紅外圖像[20]、實際檢測以及復雜場景檢測結果進行數據可視化分析。
對比改進前、后目標跟蹤識別狀態,Gard-CAM結果如圖6所示。除了目標車輛,原始模型的注意力移向了后面的高樓與遠處的天空,識別結果極易發生偏移與混淆,易受背景的干擾(見圖6a)。而本文模型在識別過程中,注意力集中于預定類別(如車輛),所以效果較好。
模型的實際場景檢測結果如圖7所示,原始模型在識別遮擋階段目標、重疊目標時容易發生漏檢現象(見圖7a),而本文模型通過改進損失函數,增強了對小目標、重疊物體的識別能力,漏檢現象得到明顯改善。
針對復雜場景,從車流、視角和干擾3方面對本文模型性能進行檢測,結果如圖8所示。其中,圖8a為車流密度較小且車輛距離較遠的視角,圖8b的車流密度較大且視野較近,圖8場景中路標、人流、房屋等干擾因素較多且為夜間狀態。檢測結果表明,隨著車輛、車流密度、燈光等干擾增加,本文模型依然能夠保持較好的識別效果,進一步驗證本文模型的魯棒性。
因此,本文模型不僅在檢測準確率、檢測速度等方面優于傳統模型,而且模型輕量化降低了計算復雜性和冗余性,可嵌入車輛自動駕駛輔助系統,輔助實現真實復雜場景的檢測任務。
5 結束語
為了提高自動駕駛目標識別跟蹤的可靠性與準確率,本文提出了一種基于改進YOLOv8s的輕量級目標檢測模型。通過C2f-Faster模塊實現多尺度特征提取,設計Inner-MPDIoU損失函數,解決了原始模型檢測中重疊目標漏檢問題。
本文模型能夠作為輔助系統嵌入公路攝像頭系統更好地服務于駕駛者,實時統計并分析車輛的狀態與路面情況,具有較好的應用前景。未來,將繼續優化系統性能,拓展模型應用場景,向更智能、更精準的方向發展。
參 考 文 獻
[1] 周恒恒, 高松, 王鵬偉, 等. 基于深度強化學習的智能車輛行為決策研究[J]. 科學技術與工程, 2024, 24(12): 5194-5203.
ZHOU H H, GAO S, WANG P W, et al. Intelligent Vehicles Behavior Decision-Making Based on Deep Reinforcement Learning[J]. Science Technology and Engineering, 2024, 24(12): 5194-5203.
[2] 戢楊杰, 張馨雨, 楊紫茹, 等. 多智能網聯汽車軌跡規劃: 現狀與展望[J]. 機械工程學報, 2024, 60(10): 129-146.
JI Y J, ZHANG X Y, YANG Z R, et al. Multi-Intelligent Connected Vehicle Trajectory Planning: Current Status and Future Prospects[J]. Journal of Mechanical Engineering, 2024, 60(10): 129-146.
[3] AV?AR E, AV?AR Y ?. Moving Vehicle Detection and Tracking at Roundabouts Using Deep Learning with Trajectory Union[J]. Multimedia Tools and Applications, 2022, 81(5): 6653-6680.
[4] XU L Y, ZHAO Y F, ZHAI Y H, et al. Small Object Detection in UAV Images Based on YOLOv8sn[J]. International Journal of Computational Intelligence Systems, 2024, 17(1): 223-223.
[5] MAHAUR B, MISHRA K K. Small-Object Detection Based on Yolov5 in Autonomous Driving Systems[J]. Pattern Recognition Letters, 2023, 168: 115-122.
[6] BAO D C, GAO R J. YED-YOLO: An Object Detection Algorithm for Automatic Driving[J]. Signal, Image and Video Processing, 2024, 18(10): 7211-7219.
[7] HU Z C, WANG Y, WU J P, et al. Improved Lightweight Rebar Detection Network Based on YOLOv8s Algorithm[J]. Advances in Computer, Signals and Systems, 2023, 7(10): 107-117.
[8] CHEN J R, KAO S H, HE H, et al. Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023.
[9] HAMZENEJADI M H, MOHSENI H. Fine-Tuned YOLOv5 for Real-Time Vehicle Detection in UAV Imagery: Architectural Improvements and Performance Boost[J]. Expert Systems with Applications, 2023, 231.
[10] 李臻, 蘭天然, 蔣朝陽, 等. 基于KITTI數據集的無人車單目慣性SLAM算法評估[J]. 實驗技術與管理, 2022, 39(2): 50-55+72.
LI Z, LAN T R, JIANG C Y, et al. Evaluation of Monocular Inertial SLAM Algorithm for Unmanned Vehicles Based on KITTI Dataset[J]. Experimental Technology and Management, 2022, 39(2): 50-55+72.
[11] YU F, CHEN H F, WANG X, et al. BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020.
[12] 趙奇慧, 劉艷洋, 項炎平. 基于深度學習的單階段車輛檢測算法綜述[J]. 計算機應用, 2020, 40(增刊2): 30-36.
ZHAO Q H, LIU Y Y, XIANG Y P. A Review of Single-Stage Vehicle Detection Algorithm Based on Deep Learning[J]. Journal of Computer Applications, 2020, 40(S2): 30-36.
[13] 范昊飛. 基于深度學習的多目標同步分類關鍵技術研究[D]. 南京: 南京郵電大學, 2023.
FAN H F. Research on Key Technologies of Multi-Objective Synchronous Classification Based on Deep Learning[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2023.
[14] 劉云翔, 馬海力, 朱建林, 等. 基于感受野注意力卷積的自動駕駛多任務感知算法[J]. 計算機工程與應用, 2024, 60(20): 133-141.
LIU Y X, MA H L, ZHU J L, et al. Multi-Task Perception Algorithm for Autonomous Driving Based on Receptive Field Attention Convolution[J]. Computer Engineering and Applications, 2024, 60(20): 133-141.
[15] 陳梓延, 王曉龍, 何迪, 等. 基于改進YOLOv8的輕量化車輛檢測網絡[J/OL]. 計算機工程(2024-06-06)[2024-8-23]. https://doi.org/10.19678/j.issn.1000-3428.0069122.
CHEN Z Y, WANG X L, HE D, et al. Lightweight Vehicle Detection Network Based on Improved YOLOv8[J/OL]. Computer Engineering (2024-06-06)[2024-8-23]. https://doi.org/10.19678/j.issn.1000-3428.0069122.
[16] 岳旭生, 李軍, 王耀弘, 等. 基于改進YOLOv5s的水面漂浮小目標檢測算法[J/OL]. 中國艦船研究(2024-06-06)[2024-8-23]. https://doi.org/10.19693/j.issn.1673-3185.03689.
YUE X S, LI J, WANG Y H, et al. Detection Algorithm for Floating Small Targets on Water Surface Based on Improved YOLOv5s[J/OL]. Chinese Journal of Ship Research (2024-06-06)[2024-8-23]. https://doi.org/10.19693/j.issn.1673-3185.03689.
[17] 王雪秋, 高煥兵, 郟澤萌. 改進YOLOv8的道路缺陷檢測算法[J]. 計算機工程與應用, 2024, 60(17): 179-190.
WANG X Q, GAO H B, JIA Z M. Improved Road Defect Detection Algorithm Based on YOLOv8[J]. Computer Engineering and Applications, 2024, 60(17): 179-190.
[18] 高德勇, 陳泰達, 繆蘭. 改進YOLOv8n的道路目標檢測算法[J]. 計算機工程與應用, 2024, 60(16): 186-197.
GAO D Y, CHEN T D, MU L. Improved YOLOv8n Road Target Detection Algorithm[J]. Computer Engineering and Applications, 2024, 60(16): 186-197.
[19] 楊志淵, 羅亮, 吳天陽, 等. 改進YOLOv8的輕量級光學遙感圖像船舶目標檢測算法[J]. 計算機工程與應用, 2024, 60(16): 248-257.
YANG Z Y, LUO L, WU T Y, et al. Improved Ship Target Detection Algorithm for Lightweight Optical Remote Sensing Image of YOLOv8[J]. Computer Engineering and Applications, 2024, 60(16): 248-257.
[20] 孔立斌. 基于熱力圖與加權特征的車輛目標檢測算法的研究[D]. 廣州: 廣東工業大學, 2021.
KONG L B. Research on Vehicle Target Detection Algorithm Based on Heat Map and Weighted Features[D]. Guangzhou: Guangdong University of Technology, 2021.
(責任編輯 瑞 秋)
修改稿收到日期為2024年8月23日。