改進ＹＯＬＯｖ５和ＤｅｅｐＳＯＲＴ的多目標跟蹤算法

2023-07-21 12:24:34黃振桂

計算機應用文摘 2023年14期

摘要針對多目標因相互交錯或被遮擋以及檢測目標外觀外貌和背景顏色相近等現象導致目標跟蹤的漏檢錯檢ID 分配紊亂等問題提出了一種改進YOLOv5 DeepSORT和跟蹤算法為加強網絡對全局上下文特征的提取能力文章提出優化DeepSORT 的特征提取網絡模型并通過去掉1 層卷積層增加4 層殘差層以及采用自適應平均池化層和增加網絡的深度與寬度對行人提取更加深層次的語義信息最后通過實驗驗證了DeepSORT 目標跟蹤算法的優越性其能夠準確地對目標進行跟蹤具有一定的理論探索意義和實用價值

關鍵詞多目標跟蹤行人識別

中圖法分類號文獻標識碼A

１引言

隨著計算機視覺技術［１］的高速發展，目標檢測與跟蹤技術［２］已經應用到各個領域中，如自動駕駛、智慧交通以及公共安全監管等。目標跟蹤算法可以分為２大類，分別為單目標跟蹤［３］和多目標跟蹤［４］。單目標跟蹤算法是在每張圖片中只跟蹤一個目標，而多目標跟蹤算法則是連續跟蹤視頻或者圖像幀中的多個目標，多目標跟蹤更多的是解決相似度計算和數據關聯的問題。２０１６年，Ｒｅｄｍｏｎ［５］提出了一種Ｏｎｅ?Ｓｔａｇｅ方法，即ＹＯＬＯ算法，其雖犧牲了檢測準度和定位精度，但是檢測速度大幅提高，從而達到實時的目標檢測要求。ＳＯＲＴ算法［６］（ＳｉｍｐｌｅＯｎｌｉｎｅａｎｄＲｅａｌｔｉｍｅＴｒａｃｋｉｎｇ）是一個非常簡單實用的多目標跟蹤算法。在ＳＯＲＴ算法中，僅僅通過ＩＯＵ來進行匹配，雖然速度極快，但是存在大量身份ＩＤ互換的現象。ＤｅｅｐＳＯＲＴ算法［７］在ＳＯＲＴ算法的基礎上引入了級聯匹配和匈牙利算法將目標軌跡的預測框與檢測框進行了數據關聯匹配。通過這個擴展，模型能夠更好地應對目標被長時間遮擋的情況，將ＩＤｓｗｉｔｃｈ指標降低了４５％。但在實際場景中，面對行人目標姿態變化、光照強度低、背景環境復雜，以及目標間的軌跡交錯和遮擋等問題，仍然存在目標漏檢、丟失跟蹤以及ＩＤ易互換的現象。針對上述問題，本文提出改進ＹＯＬＯｖ５和ＤｅｅｐＳＯＲＴ算法。

２ＹＯＬＯｖ５算法

Ｕｌｔｒａｌｙｔｉｃｓ等提出的ＹＯＬＯｖ５模型的性能和檢測準確度與ＹＯＬＯｖ４不相上下，相較于ＹＯＬＯｖ４，ＹＯＬＯｖ５的網絡結構更加簡單，參數量也更少，其圖像自適應縮放策略和錨框自適應策略使ＹＯＬＯｖ５無論是訓練、預測還是推理速度都明顯優于ＹＯＬＯｖ４。整個ＹＯＬＯｖ５網絡結構分成４部分，即Ｉｎｐｕｔ，Ｂａｃｋｂｏｎｅ，Ｎｅｃｋ，Ｈｅａｄ。

（１）Ｉｎｐｕｔ輸入端。ＹＯＬＯｖ５繼承了ＹＯＬＯｖ４所使用的Ｍｏｓａｉｃ數據增強方式，豐富了檢測數據集，同時采用自定義不同長寬錨框的自適應錨框機制，從而實現了既能增加數據集的復雜度，又能減少ＧＰＵ的內存使用的目標。

（２）Ｂａｃｋｂｏｎｅ主干網絡。ＹＯＬＯｖ５ｓ的Ｂａｃｋｂｏｎｅ網絡是１個由ＣＳＰＤａｒｋｎｅｔ５３構成的卷積神經網絡，它包含５３個卷積層，并使用了ＣＳＰ（Ｃｒｏｓｓ?ＳｔａｇｅＰａｒｔｉａｌＮｅｔｗｏｒｋｓ）模塊來加快訓練和提高準確性。

（３）Ｎｅｃｋ頸部網絡。在ＹＯＬＯｖ４的Ｎｅｃｋ結構中，采用的都是普通的卷積操作，ＹＯＬＯｖ５的Ｎｅｃｋ網絡使用了“ ＦＰＮ＋ＰＡＮ” 結構，且ＹＯＬＯｖ５借鑒了ＣＳＰｎｅｔ的設計思想，將ＹＯＬＯｖ４使用的ＣＢＬ模塊更換為ＣＳＰ２結構，從而保留更多特征信息，加強了網絡特征融合能力。

（４）Ｈｅａｄ輸出端。Ｈｅａｄ輸出端是ＹｏＬＯｖ５模型中最后一層卷積層，它的作用是將融合后的多尺度特征圖進行分類和回歸預測，得到目標的位置、類別和置信度等信息。

３ＤｅｅｐＳＯＲＴ算法改進

ＤｅｅｐＳＯＲＴ算法是在整個ＳＯＲＴ算法的基礎上進行改進，其借鑒行人重識別領域的ＲｅＩＤ網絡結構，利用特征提取網絡與目標檢測框中的特征，當目標因遮擋又重新出現后，可以利用特征提取網絡的前后特征對比，重新跟蹤目標，從而避免出現ＩＤ互換現象。但在實測過程中發現，ＤｅｅｐＳＯＲＴ原始特征網絡在行人重疊時容易出現ＩＤ互相切換的現象，以及造成目標跟丟的情況。為解決此問題，重構ＤｅｅｐＳＯＲＴ外觀特征提取網絡模型，在不改變訓練速度的基礎上，進一步提升ＤｅｅｐＳＯＲＴ外觀特征提取能力。改進外觀特征提取網絡表如表１所列。

４實驗及結果分析

４．１改進特征提取網絡訓練

本文使用Ｍａｒｋｅｔ?１５０１數據集對改進的行人重識別網絡進行訓練，將訓練好的模型導出后用于后續的實驗，通過記錄每一次迭代的行人外觀模型訓練結果的損失函數值及誤差值來驗證外觀模型的訓練效果。特征提取網絡訓練結果圖如圖１所示。

從圖１的Ｌｏｓｓ以及Ｔｏｐ１?Ｅｒｒｏｒ曲線變化可知前Ｅｐｏｃｈ２０，模型的損失值和Ｔｏｐ１?Ｅｒｒｏｒ下降較為迅速，在Ｅｐｏｃｈ２０之后，Ｌｏｓｓ值和Ｔｏｐ１?Ｅｒｒｏｒ錯誤率曲線逐漸平緩，當模型迭代４０次時，訓練集的Ｌｏｓｓ值和Ｔｏｐ１?Ｅｒｒｏｒ錯誤率趨近于２％，驗證集的Ｌｏｓｓ值和Ｔｏｐ１?Ｅｒｒｏｒ錯誤率分別趨近５２％和１５％。在Ｅｐｏｃｈ６０時模型收斂，此時該模型能夠較好地提取更深層次的人體外觀特征信息。

４．２多目標跟蹤算法效果對比

目標跟蹤算法選擇在ＭＯＴ１６數據集上進行測試，選擇ＭＯＴＣｈａｌｌｅｎｇｅ指標作為評分標準，與其他幾種經典跟蹤算法進行對比實驗，并給出了相應的實驗結果。目標跟蹤算法實驗對比如表２所列。

４．３目標跟蹤算法實驗示例分析

選擇ＭＯＴ１６?０２和ＭＯＴ１６?０４視頻對改進模型進行測試。ＭＯＴ?１６?０２視頻圖、ＭＯＴ?１６?０４視頻圖如圖２、圖３所示。

從圖３可以看出，該場景行人密集，光線陰暗，背景復雜，在ＭＯＴ?１６?０２視頻經過人群短暫交錯后，在第４０３幀和第４６９幀中各行人的ＩＤ信息仍保持不變；在ＭＯＴ?１６?０４視頻中Ｉｄ為１的目標男子在視頻從左往右走動時，經過燈光的遮擋重新出現，檢測到其ＩＤ始終沒有發生改變，并且在Ｉｄ為７３的行人經過人群密集處后，檢測到其ＩＤ依舊為７３。這表明該算法在光線較暗的情況下依舊能夠有效地跟蹤到行人目標，并保持他們的ＩＤ值不變，不易發生ＩＤ互換現象。

５結束語

本文在ＹＯＬＯｖ５和ＤｅｅｐＳＯＲＴ算法的基礎上進行改進，提出結合ＧＡＭ注意力機制，加強網絡對上下文的特征的提取能力，同時優化ＤｅｅｐＳＯＲＴ的外觀特征提取網絡，將１２８維提升至１０２４維和采用不同殘差神經層加強對目標外觀的提取。在保證精度的前提下，大幅減少行人因重疊導致身份互換現象，最終優化后的模型在ＭＯＴＡ上提高了０．７２９％，ＭＯＴＰ提高了１．５４１％，ＩＤＳＷ下降了１３０，足以證明該模型可以快速有效地實現行人識別與跟蹤，完成在復雜場景下的跟蹤任務。

參考文獻：

［１］方佳樂．計算機視覺技術在人工智能領域的應用研究［Ｊ］．中國高新科技，２０２１（２０）：４０?４１．

［２］王曉燕，韓笑，王雪婷．圖像處理領域運動目標跟蹤技術綜述［Ｊ］．科學技術創新，２０１８（２５）：９７?９８．

［３］ＬＵＸ，ＬＩＦ，ＴＡＮＧＪ，ｅｔａｌ．ＡｎｅｗｐｅｒｆｏｒｍａｎｃｅｉｎｄｅｘｆｏｒｍｅａｓｕｒｉｎｇｔｈｅｅｆｆｅｃｔｏｆｓｉｎｇｌｅｔａｒｇｅｔＴｒａｃｋｉｎｇｗｉｔｈＫａｌｍａｎｐａｒｔｉｃｌｅｆｉｌｔｅｒ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＭｏｄｅｒｎＰｈｙｓｉｃｓＣ，２０２２，３３（９）：１１?２０．

［４］ＲＥＤＭＯＮＪ，ＦＡＲＨＡＤＩＡ．ＹＯＬＯ９０００：Ｂｅｔｔｅｒ，Ｆａｓｔｅｒ，Ｓｔｒｏｎｇｅｒ［Ｊ］．ＣｏＲＲ，２０１６：２４２?２４８．

［５］馬琳琳，馬建新，韓佳芳，等．基于ＹＯＬＯｖ５ｓ目標檢測算法的研究［Ｊ］．電腦知識與技術，２０２１，１７（２３）：１００?１０３．

［６］ＢＥＷＬＥＹＡ，ＺＯＮＧＹＵＡＮＧ，ＲＡＭＯＳＦ，ｅｔａｌ．ＳｉｍｐｌｅｏｎｌｉｎｅａｎｄｒｅａｌｔｉｍｅＴｒａｃｋｉｎｇ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，２０１６：３４６４?３４６８．

［７］ＷＯＪＫＥＮ，ＢＥＷＬＥＹＡ，ＰＡＵＬＵＳＤ．ＳｉｍｐｌｅＯｎｌｉｎｅａｎｄＲｅａｌｔｉｍｅＴｒａｃｋｉｎｇｗｉｔｈａＤｅｅｐＡｓｓｏｃｉａｔｉｏｎＭｅｔｒｉｃ［Ｊ］．ＩＥＥＥ，２０１７，２１（２）：３６４５?３６４９．

作者簡介：

黃振桂（１９９８—），碩士，研究方向：目標檢測與跟蹤。

改進ＹＯＬＯｖ５ 和ＤｅｅｐＳＯＲＴ 的多目標跟蹤算法

改進ＹＯＬＯｖ５和ＤｅｅｐＳＯＲＴ的多目標跟蹤算法