袁旻頡 羅榮芳 陳靜 蘇成悅
DOI:10.19850/j.cnki.2096-4706.2024.01.025
收稿日期:2023-10-18
摘? 要:針對行人及車輛的多目標檢測和跟蹤中檢測精度不足及跟蹤目標丟失和身份切換問題,文章提出一種改進YOLOv5與改進Deep SORT相結合的多目標檢測跟蹤算法。檢測階段使用Varifocal Loss替換二元交叉熵損失函數結合CA注意力機制和DIoU_NMS算法。跟蹤階段將Deep SORT的REID模塊特征提取網絡替換為EfficientNetV2-S。在COCO數據集檢測上,map@0.5達到78%,比原始模型提升4.5%,在MOT16數據集跟蹤上,MOTA達到58.1,比原始模型提升5.7,IDswitch減少了516次相當于減少了55.1%,測試結果表明該算法有較好的實際應用價值。
關鍵詞:深度學習;目標檢測;目標跟蹤;計算機視覺
中圖分類號:TP391.4? ? 文獻標識碼:A? ? 文章編號:2096-4706(2024)01-0121-05
Research on Pedestrian and Vehicle Detection and Tracking Based on Deep Learning
YUAN Minjie1, LUO Rongfang1, CHEN Jing1, SU Chengyue1,2
(1.School of Physics and Optoelectronic Engineering, Guangdong University of Technoology, Guangzhou? 510006, China; 2.School of Advanced Manufacturing, Guangdong University of Technoology, Jieyang? 515548, China)
Abstract: This paper proposes a multi-objective detection and tracking algorithm combining improved YOLOv5 and improved Deep SORT to address the issues of insufficient detection accuracy, lost tracking targets, and identity switching in pedestrian and vehicle's multi-target detection and tracking. Replacing binary cross entropy loss function with Varifocal Loss in the detection phase, combined with CA attention mechanism and DIoU_NMS algorithm. During the tracking phase, replace the feature extraction network of the REID module of Deep SORT with EfficientNetV2-S. In COCO dataset detection, map@0.5 reaches 78%, an improvement of 4.5% compared to the original model. On the MOT16 dataset tracking, the MOTA reaches 58.1, an improvement of 5.7 compared to the original model. The IDswitch is reduced by 516 times, which is equivalent to a reduction of 55.1%. The test results show that the algorithm has good practical application value.
Keywords: Deep Learning; object detection; object tracking; computer vision
0? 引? 言
傳統交通系統需大量人力提取監控信息,效率低,實時性差,資源耗費大,需加入人工智能技術加以改善。目標檢測和跟蹤技術近年不斷取得突破,成為交通系統應用的熱點。Girshick等人于2014年發布的RCNN[1]是最早的基于卷積神經網絡的兩階段目標檢測模型,隨后REN的Faster RCNN[2]等改進算法被提出。2016年REDMON等人提出YOLO[3]模型,這類基于卷積神經網絡的單階段目標檢測模型效果極佳。隨后YOLOX [4],YOLOv6 [5],YOLOv7 [6]等目標檢測算法相繼被提出,文獻[7]基于多尺度注意力網絡識別行人,文獻[8]提出一種改進YOLOX的車輛檢測方法。2016年Bewley提出了基于深度學習的跟蹤算法SORT [9],2017年Bewley發布了它的改進版本Deep SORT [10]。文獻[11]運用孿生網絡進行目標跟蹤,文獻[12]提出一種自適應特征融合的目標跟蹤算法,文獻[13]是一種使用YOLOv5和DeepSORT的行人跟蹤算法。文獻[14]優化DeepSort對車輛實現跟蹤。
復雜場景下會出現目標重復檢測、遮擋、丟失、特征難以表達導致檢測跟蹤失敗等問題。本文提出將損失函數替換為Varifocal Loss [15],結合CA注意力機制[16]和DIoU_NMS的改進YOLOv5模型,使用EfficientNetV2 [17]作為REID模塊的特征提取網絡的改進DeepSORT模型,將改進的YOLOv5與改進的DeepSORT結合的一種接縫檢測和嵌入(joint detecting and embedding, JDE)跟蹤算法[18],能有效提升檢測精度和跟蹤效果。
1? 材料和方法
1.1? 數據集處理
將COCO數據集2017版的人和車輛標簽數據提取出來進行翻轉、裁剪、尺度變換數據增強用于訓練檢測模型。共67 847張訓練集圖片和2 869張測試集圖片,訓練集中行人類標簽實例數共262 465個,車輛類標簽實例數共43 867個,測試集中行人類標簽實例數共11 004個,車輛類標簽實例數共1 932個。跟蹤階段reid模塊的重識別模型訓練使用Market-1501數據集,該數據集包含751類行人。MOT16數據集[19]的2,4,5,9,10,11,13號視頻為跟蹤數據集,將數據集中分別代表行人、駕駛員、車輛以及靜止的人的1,2,3,7號標簽提取出來,其他標簽信息刪除。
1.2? 檢測模型改進
1.2.1? Varifocal Loss
本文將Vari focal Loss替換YOLOv5的分類損失和置信度損失使用的二元交叉熵損失。Vari Focal Loss[15]是一種密集目標檢測器,作用是預測IACS(IoU-Aware Classification Score),相比二元交叉熵損失能更好地解決密集目標檢測器訓練中前景和背景不平衡的問題,Vari Focal Loss提出一種變焦思路對正負樣本進行不對稱處理,其定義如公式為:
(1)
其中p為預測的IACS,q為IoU得分。對前景點即正樣本q為預測包圍框和它的ground truth(真實包圍框)之間的IoU,對背景點即負樣本q為0,γ因子能縮放損失。正樣本比負樣本少應保留它們的學習信息,因此Vari Focal Loss僅減少了負例(q=0)的損失貢獻。
1.2.2? 注意力機制改進
本文分別選用ECA[20]、CA[16]注意力機制替換YOLOv5骨干網絡中的C3層,實驗對比各自效果,最終選擇效果最優的CA注意力機制。
Coordinate Attention(CA)將橫縱向的位置信息都進行編碼使網絡關注到大范圍位置信息的同時計算量不大。流程如圖1所示。
改進的YOLOv5網絡結構如圖2所示。分為輸入端、骨干網絡(Backbone)、Neck網絡和輸出端。輸入端對輸入圖像進行歸一化、統一尺寸、數據增強等操作;骨干網絡為基準網絡對輸入數據特征提??;Neck網絡進一步提升特征的表達能力,輸出端即head端以分類回歸實現預測檢測。其中C3-CA即本文將CA注意力機制替換YOLOv5的C3層。
1.2.3? DIoU_NMS
原始YOLOv5采用NMS算法,預測階段會預測出多個預測框,需將重復預測及置信度低的框去除,NMS將置信度最高的預測框與其他框進行IoU比對,移除超過預定閾值的框,除該置信度最高的框外,再將其余的框重復操作,直到所有框滿足閾值。因為實際場景中會出現大量重疊目標,導致IoU超過閾值而被NMS去除,本文采用DIoU[21]替換掉NMS中的IoU,DIoU更符合目標框回歸機制,能一并考慮目標與anchor間距和重疊率及尺度,其定義如式(2):
(2)
其中b,bgt分別為預測框與真實框的中心點,ρ為計算兩點間的歐式距離,c為同時包含預測框與真實框的最小閉包區域的對角線距離。
1.3? 跟蹤模型改進
DeepSORT模型采用勻速線性的卡爾曼濾波器預測目標下一幀的運動狀態,對預測的位置信息與檢測結果進行級聯匹配和IoU匹配,更新卡爾曼濾波預測的信息,再重復上述步驟。主要流程如圖3所示。
其中級聯匹配利用了馬氏距離和reid外觀特征重識別,本文將reid外觀特征重識別模塊的特征提取網絡替換為EfficientNetV2-S。
EfficientNetV2比Resnet訓練速度更快,采用Fused-MBConv網絡模塊和漸進式學習策略,EfficientNetV2-S網絡結構如表1所示。
1.4? 評估指標
1.4.1? 檢測評估指標
本文檢測評估指標采用mAP@0.5(mean Average Precision at IoU=0.5),其定義為將IoU設為0.5時計算每類所有圖片的平均精度AP(Average Percision)即AP50,再將所有類別求平均。
1.4.2? 跟蹤評估指標
本文跟蹤評估指標采用:跟蹤準確度(MOTA)、跟蹤精度(MOTP)和目標ID變換次數(IDs),MOTA和MOTP的定義分別為式(3)與式(4)[19]。
(3)
(4)
其中t為當前幀為第t幀;mt,nt,st,gt,ct分別為第t幀時的漏檢目標數、誤檢目標數、ID切換數,出現的總目標數和成功匹配目標數; 為第t幀時目標i的預測位置與真實位置的間距。
2? 實驗及結果分析
2.1? 環境和參數
表2為實驗的硬件環境和使用的深度學習框架。
檢測階段Vari focal Loss損失函數使用的參數是α,γ分別設為0.5和1;batch_size設16,epochs為100,以YOLOv5 m為預訓練模型,采用LambdaLR學習率調度器,初始學習率取0.01,循環學習率取0.2,warmup_epoch取3。
跟蹤階段reid模塊訓練重識別模型epoch為300,采用warm up+CosineAnnealingLR的學習率衰減法,warmup_epoch取5,初始學習率取0.1,循環學習率取0.1,跟蹤測試取NMS的IoU閾值為0.5,MAX_AGE取70。
2.2? 檢測結果對比
依次在YOLOv5上加入四種注意力機制消融實驗與使用Varifocal Loss和DIoU_NMS的YOLOv5實驗,同時與Faster R-CNN進行對比,實驗結果如表3所示。
結果表示在本文處理的COCO數據集下結合CA注意力機制Varifocal Loss和DIoU_NMS的YOLOv5相比于原始YOLOv5在行人目標上AP50提升了3.3%,在車輛目標上AP50提升了5.7%,mAP@0.5提升了4.5%,驗證了改進對檢測效果有明顯提升。
2.3? 跟蹤結果對比
分別將YOLOv5與DeepSORT,YOLOv5與改進DeepSORT,改進YOLOv5與DeepSORT,改進YOLOv5與改進DeepSORT結合對比,在MOT16數據集進行跟蹤測試對比,實驗結果如表4所示。
結果顯示本文對YOLOv5和DeepSORT的改進策略對跟蹤結果都有提升,MOTA提升了5.7,MOTP提升了0.6,IDswitch即IDs減少了516次相當于減少了55.1%的ID變化率。驗證了改進對跟蹤效果有提升。
將跟蹤結果可視化,如圖4分別為YOLOv5結合DeepSORT以及改進YOLOv5結合改進DeepSORT的效果截圖,可見本文算法ID為70號、49號、35號的小目標被成功跟蹤,被49號目標遮擋的目標和被建筑物遮擋的13號、81號目標也被成功跟蹤。
3? 結? 論
本文針對城市中行人和車輛目標,將YOLOv5結合DeepSORT的多目標檢測跟蹤算法進行改進,將YOLOv5分類損失和置信度損失的損失函數替換為Varifocal Loss,提升了訓練的擬合度,結合CA注意力機制提升檢測模型的特征提取能力,使用DIoU_NMS更好地篩選預測框。將DeepSORT的reid模塊中的特征提取網絡替換為EfficientNetV2-S,通過重新訓練目標重識別模型,提升了DeepSORT的重識別能力。由實驗結果可知,改進算法在COCO數據集的檢測效果以及在MOT-16上的跟蹤效果有所提升,在遮擋場景及多目標場景下目標ID變換次數和目標丟失數顯著減少。在目標檢測算法上加入跟蹤技術有較好的實際應用價值。
參考文獻:
[1] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE conference on computer vision and pattern recognition.Columbus:IEEE,2014:580-587.
[2] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[3] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once: Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:779-788.
[4] GE Z,LIU S T,WANG F,et al. Yolox: Exceeding Yolo Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].[2023-09-27].https://arxiv.org/abs/2107.08430.
[5] LI C Y,LI L L,JIANG H L,et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications [J/OL].arXiv:2209.02976 [cs.CV].[2023-09-28].https://arxiv.org/abs/2209.02976.
[6] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:7464-7475.
[7] 武鑫森.基于深度學習的行人屬性識別及應用 [J].現代信息科技,2023,7(17):61-65+70.
[8] 徐慧智,蔣時森,王秀青,等.基于深度學習的車載圖像車輛目標檢測和測距 [J].吉林大學學報:工學版,2023:1-13.
[9] BEWLEY A,GE Z Y,OTT L,et al. Simple online and realtime tracking [C]//2016 IEEE international conference on image processing (ICIP).Phoenix:IEEE,2016:3464-3468.
[10] WOJKE N,BEWLEY A,PAULUS D. Simple online and realtime tracking with a deep association metric [C]//2017 IEEE international conference on image processing (ICIP).Beijing:IEEE,2017:3645-3649.
[11] 苗宗成,高世嚴,賀澤民,等.基于孿生網絡的目標跟蹤算法 [J].液晶與顯示,2023,38(2):256-266.
[12] 朱冰,劉琦,余瑞星.復雜場景下自適應特征融合的圖像運動目標跟蹤算法研究[J].航空兵器,2023,30(2):125-130.
[13] 張夢華.基于Yolov5和DeepSort的視頻行人識別與跟蹤探究 [J].現代信息科技,2022,6(1):89-92.
[14] 金立生,華強,郭柏蒼,等.基于優化DeepSort的前方車輛多目標跟蹤 [J].浙江大學學報:工學版,2021,55(6):1056-1064.
[15] ZHANG H Y,WANG Y,DAYOUB F,et al. VarifocalNet:An IoU-aware Dense Object Detector [C]//2021 IEEE/CVF conference on computer vision and pattern recognition.Nashville:IEEE,2021:8510-8519.
[16] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF conference on computer vision and pattern recognition. 2021:Nashville:IEEE,2021:13708-13717.
[17] TAN M X,LE Q V. EfficientNetV2:Smaller Models and Faster Training [J/OL].arXiv:2104.00298 [cs.CV].[2023-09-28]. https://arxiv.org/abs/2104.00298.
[18] WANG Z D,ZHENG L,LIU Y X,et al. Towards real-time multi-object tracking[J/OL].arXiv:1909.12605[cs.CV].[2023-09-28].https://arxiv.org/abs/1909.12605v2.
[19] MILAN A,LEAL-TAIX? L,REID I,et al. MOT16:A benchmark for multi-object tracking [J/OL].arXiv:1603.00831 [cs.CV].[2023-09-28].https://arxiv.org/abs/1603.00831v2.
[20] WANG Q L,WU B G,ZHU P F,et al. ECA-Net:Efficient channel attention for deep convolutional neural networks [J/OL].arXiv:1910.03151 [cs.CV].[2023-09-28].https://arxiv.org/abs/1910.03151v1.
[21] ZHENG Z H,WANG P,LIU W,et al. Distance-IoU loss:Faster and better learning for bounding box regression[J/OL].arXiv:1911.08287 [cs.CV].[2023-09-28].https://arxiv.org/abs/1911.08287v1.
作者簡介:袁旻頡(1999—),男,漢族,廣東東莞人,工程師,碩士,主要研究方向:計算機視覺、機器學習、圖像處理;羅榮芳(1965—),男,漢族,江西吉水人,副教授,博士,主要研究方向:信息處理、人工智能技術、生物特征識別技術等;陳靜(1980—),女,漢族,廣東廣州人,副教授,博士,主要研究方向:機器學習、圖像處理等;蘇成悅(1961—),男,漢族,湖南長沙人,教授,博士,主要研究方向:應用物理。