劉兆波
(長安大學 汽車學院,陜西 西安 710016)
目標檢測追蹤是自動駕駛領域感知技術中的 重要一環[1]。在現有技術中,基于相關濾波和卷積神經網絡方法在目標追蹤領域大量運用。目標追蹤分為單目標追蹤和多目標追蹤,單目標追蹤Siamese類包括Siames-FC[2]模型等,使用度量學習來進行特征提取和目標位置預測。GOTURN[3]模型采用雙端卷積網絡的方法提取目標特征,再預測目標位置,ADnet[4]算法則將深度強化學習算法直接作為追蹤器進行目標追蹤。在多目標檢測中,DeepSort[5]存在重識別網絡模型權重較大,在邊緣設備部署成本較高,目標遮擋后難以持續追蹤目標等問題。本文使用改進后的YOLOv5算法識別結果輸出作為DeepSort算法輸入,替換了重識別網絡,改善了損失函數,提升了目標追蹤準確度和精度。
在目標追蹤算法中,需要輸入目標物的位置和分類信息等進行運算。YOLOv5為一階段端到端的目標檢測算法,實時性好。本文選擇YOLOv5作為道路環境的目標檢測算法基礎模型,并進行改進。
本文選擇寬度和深度最小的YOLOv5s進行改進,其主要由輸入、Backbone網絡、Neck網絡和檢測端組成。預處理需要對數據集進行選擇數據增強、自適應錨框計算以及自適應圖像填充處理。
在Backbone網絡中,本文選擇用MobileNetV3中的基礎結構進行替換,以達到壓縮模型便于部署的效果。Neck網絡由特征金字塔(Feature Pyramid Network, FPN)結構和路徑像素聚合(Pixel Aggrega-tion Network, PAN)結構組成,可以對目標特征和位置信息充分提取并在不同層間進行交流。檢測端獲取不同層次的特征圖后在原圖上進行不同尺寸的目標預測。
YOLOv5原先的損失函數為GIoU Loss,其沒有考慮檢測框之間中心距離和長寬比例。在此基礎上,CIoU有效彌補了GIoU的缺點,即當檢測框和預測框在包含關系時會退化成IoU的問題。

式中,IoU為檢測框和預測框交并比;A為兩者之間最小矩形面積;u為兩者并集。
CIoU除此之外還考慮了檢測框和預測框的中心距離和高寬比為

式中,c為檢測框和預測框間最小矩形的對象線長度;β為正平衡參數;v為衡量兩者間長寬比的參數。
本文采用GIoU與CIoU線性加權結合的方式,QIoU定義為

式中,λ為平衡系數,可以在加快收斂的同時提高回歸精度。
本文采用MobileNetV3對YOLOv5網絡中的Backbone網絡進行替換和優化。YOLOv5網絡的Backbone網絡原有的由瓶頸結構和三個Conv模塊組成的模塊C3[6](Concentrated-Comprehensive Convolution Block)在提升目標檢測準確率的同時也增加了模型計算量和權重大小,在被MobileNet的基礎模塊替換后可以起到壓縮模型加快推理的效果。YOLOv5結合MobileNet流程圖如圖1所示。

圖1 YOLOv5結合MobileNet流程圖
DeepSort算法是由多目標跟蹤經典算法簡單的在線實時跟蹤(Simple Online and Realtime Tracking, SORT)改進而來,使用了重識別網絡對目標進行特征提取,保留目標間的不同特征信息,以減少在遮擋后出現身份跳變的情況。同時采用卡爾曼濾波算法逐幀處理軌跡,使用級聯匹配算法、IoU匹配算法和匈牙利算法進行匹配。
在DeepSort算法中,對于傳入的目標使用狀態 空 間I=(x,y,γ,n,x˙,y˙,γ˙,n˙)描述 其 位置和 寬 高比等信息。算法先使用重識別網絡對目標進行特征提取,再采用馬氏距離對目標的卡爾曼濾波預測值和本幀獲取的目標進行關聯程度計算,如式4所示:

式中,d(1)(i,j)為目標i和j之間的馬氏距離;dj為第j個目標框的坐標;yi為第i個檢測器對目標位置的卡爾曼濾波計算結果;d(1)(i,j)為運動信息匹配結果;為目標位置與平均追蹤位置之間的協方差矩陣。當d(1)(i,j)小于閾值時,則認為成功關聯。
在復雜道路環境中,車輛周圍目標物可能與車輛存在較快的相對運動和遮蓋,此時單憑馬氏距離判斷關聯容易出現誤判情況,可以引入余弦距離進行輔助判斷。余弦距離的引入需要重識別網絡對目標的特征進行提取,對當前目標物的表觀特征和已有軌跡和目標之間的維度差異進行關聯衡量為

式中,d(2)(i,j)為目標i和j之間的余弦距離;rj為每個目標dj所提取的特征向量,||rj||=1。此外向量庫保留最近Lk幀內每個軌跡k的特征向量,而超過Lk的特征向量不被考慮,且隨著Lk的增大,其對于結果的貢獻程度降低。當d(2)(i,j)小于閾值時,則認為成功關聯。
對于兩者是否關聯采用線性加權馬氏距離與余弦距離進行判斷為

式中,λ為調節兩種度量方式對關聯影響的超參數,當ci,j位于所設定的兩種閾值內,則為成功關聯。
當目標在級聯匹配失敗后,則繼續進行IoU匹配,通過計算目標和已有軌跡的交并比進行判斷。當已有軌跡和目標在規定幀內未再次被匹配則自動放棄,最終可得到當前目標追蹤軌跡,算法流程圖如圖2所示。

圖2 DeepSort流程圖
在DeepSort原先的重識別網絡中,卷積神經網絡的輸入大小為128×64像素,面對復雜的道路環境則會變得難以適應。為了更加有效提取不同長寬比的目標物如行人、信號燈和斑馬線等,換成輸入大小為160×160像素的圖片,同時將重識別網絡用MobileNet V3[7]進行替換,并重新進行訓練。
圖3的bneck結構中引入了SE結構,可以對通道內重要的特征進行提取加強,對于不重要特征如背景等進行抑制。本文在bneck模塊起始端添加了Channel Shuffle結構,可以加強特征圖通道內的信息交流,增強對特征的提取。

圖3 MobileNet V3的bneck結構
表1為重識別CNN網絡的結構,與原先網絡相比模型權重更小且提取目標特征更精確。

表1 重識別CNN結構
本文使用的實驗室硬件平臺包括:Intel(R)Core (TM) i7-7700 CPU@3.60 GHZ、英偉達RTX 2070 SUPER等。軟件環境包括:Windows10系統、Cuda11.0、Pytorch、Opencv 3.6.0等。數據集為在高速路、城市道路和鄉村道路所采集的視頻流,包括早高峰、午低谷和晚高峰時段,有白天、夜晚和雨天等環境背景。隨機選取905幀的視頻流進行目標檢測追蹤實驗。
目標檢測評價指標有參數數量(params)、每秒浮點運算次數(FLOPs)、均值評價精度mAP(mean Average Precision)和權重大小。
表2為YOLOv5和本文改進后YOLOv5的目標檢測結果對比分析。改進后的網絡在檢測精度上略微提升,計算量和權重大小有所降低,起到壓縮模型,加速推理的作用。

表2 目標檢測對比
目標追蹤評價指標有身份準確率IDP、身份查全率IDR、查全率Rcll、準確率Prcn、真實軌跡數量GT、命中的軌跡占全程80%以上MT、部分追蹤PT、誤檢FP、漏檢FN、身份變換數IDs、追蹤準確度MOTA、追蹤精度MOTP和MOTAL。其中部分重要評價指標計算方式為

圖4為連續兩幀的目標追蹤對比圖,其中“cyclist-36”的“cyclist”表示識別該目標的種類,“36”表示該目標被追蹤的序號。

圖4 目標檢測追蹤對比圖
表3為未經修改的DeepSort+YOLOv5和本文優化后的目標追蹤結果對比,包括了上述評價指標。

表3 目標追蹤對比
從表3可以得出,優化后的算法在權重大小下降的同時在追蹤準確度MOTA、追蹤精度MOTP上均有所提升。在追蹤過程中的身份變換上,改進后的算法降低,且漏檢和錯減數量同時減少。
本文對目標追蹤DeepSort進行了改進,結合YOLOv5算法進行車載道路環境目標追蹤。使用MobileNetV3網絡主要模塊替換了DeepSort重識別網絡和YOLOv5的Backnone網絡,起到了壓縮模型加速推理同時提升目標追蹤效果的作用。采用CIoU和GIoU損失函數相結合的方法,彌補了GIoU在一些情況下退化成IoU的缺陷同時加速收斂。實驗結果表明優化后的算法在模型權重下降的同時對目標追蹤準確度和精度均有所上升。