

摘 要 針對多目標因相互交錯或被遮擋以及檢測目標外觀外貌和背景顏色相近等現象 導致目標跟蹤的漏檢 錯檢ID 分配紊亂等問題 提出了一種改進YOLOv5 DeepSORT和 跟蹤算法 為加強網絡對全局上下文特征的提取能力 文章提出優化DeepSORT 的特征提取網絡模型 并通過去掉1 層卷積層 增加4 層殘差層以及采用自適應平均池化層和增加網絡的深度與寬度 對行人提取更加深層次的語義信息 最后 通過實驗驗證了DeepSORT 目標跟蹤算法的優越性 其能夠準確地對目標進行跟蹤 具有一定的理論探索意義和實用價值
關鍵詞 多目標跟蹤 行人識別
中圖法分類號 文獻標識碼A
1 引言
隨著計算機視覺技術[1] 的高速發展,目標檢測與跟蹤技術[2] 已經應用到各個領域中,如自動駕駛、智慧交通以及公共安全監管等。目標跟蹤算法可以分為2 大類,分別為單目標跟蹤[3] 和多目標跟蹤[4] 。單目標跟蹤算法是在每張圖片中只跟蹤一個目標,而多目標跟蹤算法則是連續跟蹤視頻或者圖像幀中的多個目標,多目標跟蹤更多的是解決相似度計算和數據關聯的問題。2016 年,Redmon[5] 提出了一種One?Stage 方法,即YOLO 算法,其雖犧牲了檢測準度和定位精度,但是檢測速度大幅提高,從而達到實時的目標檢測要求。SORT 算法[6]( Simple Online andRealtime Tracking)是一個非常簡單實用的多目標跟蹤算法。在SORT 算法中,僅僅通過IOU 來進行匹配,雖然速度極快,但是存在大量身份ID 互換的現象。DeepSORT 算法[7] 在SORT 算法的基礎上引入了級聯匹配和匈牙利算法將目標軌跡的預測框與檢測框進行了數據關聯匹配。通過這個擴展,模型能夠更好地應對目標被長時間遮擋的情況,將ID switch 指標降低了45%。但在實際場景中,面對行人目標姿態變化、光照強度低、背景環境復雜,以及目標間的軌跡交錯和遮擋等問題,仍然存在目標漏檢、丟失跟蹤以及ID 易互換的現象。針對上述問題,本文提出改進YOLOv5 和DeepSORT 算法。
2 YOLOv5 算法
Ultralytics 等提出的YOLOv5 模型的性能和檢測準確度與YOLOv4 不相上下, 相較于YOLOv4,YOLOv5 的網絡結構更加簡單,參數量也更少,其圖像自適應縮放策略和錨框自適應策略使YOLOv5 無論是訓練、預測還是推理速度都明顯優于YOLOv4。整個YOLOv5 網絡結構分成4 部分,即Input,Backbone,Neck,Head。
(1)Input 輸入端。YOLOv5 繼承了YOLOv4 所使用的Mosaic 數據增強方式,豐富了檢測數據集,同時采用自定義不同長寬錨框的自適應錨框機制,從而實現了既能增加數據集的復雜度,又能減少GPU 的內存使用的目標。
(2) Backbone 主干網絡。YOLOv5s 的Backbone網絡是1 個由CSPDarknet53 構成的卷積神經網絡,它包含53 個卷積層,并使用了CSP(Cross?Stage PartialNetworks)模塊來加快訓練和提高準確性。
(3) Neck 頸部網絡。在YOLOv4 的Neck 結構中,采用的都是普通的卷積操作,YOLOv5 的Neck 網絡使用了“ FPN + PAN” 結構, 且YOLOv5 借鑒了CSPnet 的設計思想,將YOLOv4 使用的CBL 模塊更換為CSP2 結構,從而保留更多特征信息,加強了網絡特征融合能力。
(4)Head 輸出端。Head 輸出端是YoLOv5 模型中最后一層卷積層,它的作用是將融合后的多尺度特征圖進行分類和回歸預測,得到目標的位置、類別和置信度等信息。
3 DeepSORT 算法改進
DeepSORT 算法是在整個SORT 算法的基礎上進行改進,其借鑒行人重識別領域的ReID 網絡結構,利用特征提取網絡與目標檢測框中的特征,當目標因遮擋又重新出現后,可以利用特征提取網絡的前后特征對比,重新跟蹤目標,從而避免出現ID 互換現象。但在實測過程中發現,DeepSORT 原始特征網絡在行人重疊時容易出現ID 互相切換的現象,以及造成目標跟丟的情況。為解決此問題,重構DeepSORT 外觀特征提取網絡模型,在不改變訓練速度的基礎上,進一步提升DeepSORT 外觀特征提取能力。改進外觀特征提取網絡表如表1 所列。
4 實驗及結果分析
4.1 改進特征提取網絡訓練
本文使用Market?1501 數據集對改進的行人重識別網絡進行訓練,將訓練好的模型導出后用于后續的實驗,通過記錄每一次迭代的行人外觀模型訓練結果的損失函數值及誤差值來驗證外觀模型的訓練效果。特征提取網絡訓練結果圖如圖1 所示。
從圖1 的Loss 以及Top1?Error 曲線變化可知前Epoch20,模型的損失值和Top1?Error 下降較為迅速,在Epoch20 之后,Loss 值和Top1?Error 錯誤率曲線逐漸平緩,當模型迭代40 次時,訓練集的Loss 值和Top1?Error 錯誤率趨近于2% ,驗證集的Loss 值和Top1?Error 錯誤率分別趨近52%和15%。在Epoch60時模型收斂,此時該模型能夠較好地提取更深層次的人體外觀特征信息。
4.2 多目標跟蹤算法效果對比
目標跟蹤算法選擇在MOT16 數據集上進行測試,選擇MOT Challenge 指標作為評分標準,與其他幾種經典跟蹤算法進行對比實驗,并給出了相應的實驗結果。目標跟蹤算法實驗對比如表2 所列。
4.3 目標跟蹤算法實驗示例分析
選擇MOT16?02 和MOT16?04 視頻對改進模型進行測試。MOT?16?02 視頻圖、MOT?16?04 視頻圖如圖2、圖3 所示。
從圖3 可以看出,該場景行人密集,光線陰暗,背景復雜,在MOT?16?02 視頻經過人群短暫交錯后,在第403 幀和第469 幀中各行人的ID 信息仍保持不變;在MOT?16?04 視頻中Id 為1 的目標男子在視頻從左往右走動時,經過燈光的遮擋重新出現,檢測到其ID 始終沒有發生改變,并且在Id 為73 的行人經過人群密集處后,檢測到其ID 依舊為73。這表明該算法在光線較暗的情況下依舊能夠有效地跟蹤到行人目標,并保持他們的ID 值不變,不易發生ID 互換現象。
5 結束語
本文在YOLOv5 和DeepSORT 算法的基礎上進行改進,提出結合GAM 注意力機制, 加強網絡對上下文的特征的提取能力,同時優化DeepSORT 的外觀特征提取網絡,將128 維提升至1 024 維和采用不同殘差神經層加強對目標外觀的提取。在保證精度的前提下,大幅減少行人因重疊導致身份互換現象,最終優化后的模型在MOTA 上提高了0.729%,MOTP 提高了1.541%,IDSW 下降了130,足以證明該模型可以快速有效地實現行人識別與跟蹤,完成在復雜場景下的跟蹤任務。
參考文獻:
[1] 方佳樂.計算機視覺技術在人工智能領域的應用研究[J].中國高新科技,2021(20):40?41.
[2] 王曉燕,韓笑,王雪婷.圖像處理領域運動目標跟蹤技術綜述[J].科學技術創新,2018(25):97?98.
[3] LU X,LI F,TANG J,et al. A new performance index formeasuring the effect of single target Tracking with Kalmanparticle filter[J].International Journal of Modern Physics C,2022,33(9):11?20.
[4] REDMON J,FARHADI A.YOLO9000:Better,Faster,Stronger[J].CoRR,2016:242?248.
[5] 馬琳琳,馬建新,韓佳芳,等.基于YOLOv5s 目標檢測算法的研究[J].電腦知識與技術,2021,17(23):100?103.
[6] BEWLEY A,ZONGYUAN G,RAMOS F,et al.Simple onlineand realtime Tracking [ C ] / / International Conference onImage Processing,2016:3464?3468.
[7] WOJKE N, BEWLEY A, PAULUS D. Simple Online andRealtime Tracking with a Deep Association Metric[J].IEEE,2017,21(2):3645?3649.
作者簡介:
黃振桂(1998—),碩士,研究方向:目標檢測與跟蹤。