基于深度學習和顏色特征的行人跟蹤算法?

2024-04-17 07:29:24曹建榮韓發通朱亞琴

計算機與數字工程 2024年1期

曹建榮李凱尚碩韓發通莊園朱亞琴

（山東建筑大學信息與電氣工程學院濟南 250101）

1 引言

近年來，得益于深度學習和計算機視覺的發展，視頻中運動目標識別與跟蹤進入新的發展階段［1～2］，目標跟蹤作為計算機視覺最重要的子任務之一，被廣泛應用到各個領域，例如視頻監控、運動目標分析、動作識別和流量統計等［3］。為了完成行人跟蹤任務，首先要在一幀中定位人體初始位置并提取相關信息，為每個行人賦予唯一的ID 號，在后續幀中保持該對象的ID號不發生跳變［4］。

早期目標跟蹤算法主要集中在對單目標跟蹤研究。1950年提出的光流法［5］，它是對視頻中像素的變化進行建模，在相鄰幀之間尋找像素位置的變化來實現目標跟蹤。但是，光流法的局限性比較大，對光照變化比較敏感。Camshift［6］算法是利用顏色直方圖的概率分布進行追蹤，其運行速度較快，但是在背景顏色相近時，會出現跟蹤誤報。卡爾曼濾波算法能夠對行人位置進行觀測估計，可以利用人體目標的動態信息，預測出下一時刻目標的位置。基于Kalman［7］濾波的目標跟蹤認為物體的運動模型服從高斯分布，用物體的動態信息估計運動狀態，將得到的狀態與觀察模型對比，利用誤差來更新目標運動狀態，該算法的運行效率不高。早期跟蹤算法主要針對單目標軌跡跟蹤，無法適應場景中多個目標。

隨著深度學習和計算機視覺的發展，目前主流的多目標跟蹤框架主要分為兩種［8］：第一種是基于檢測器的跟蹤（Tracking-by-Detection），先用檢測器進行目標檢測，然后將檢測結果進行關聯匹配。第二種是將檢測和跟蹤聯合（Detection-Free Tracking），在第一幀中手動初始化一定數量的對象，然后在后續幀中定位這些對象。基于檢測器的跟蹤首先利用目標檢測器如Faster R-CNN［9］和YOLO［10］等算法檢測定位視頻幀中的行人，并提取行人的運動特征或顏色紋理等特征來區分不同的行人及背景，然后建立跟蹤模型并進行行人軌跡預測，最后根據行人的運動模型或外觀模型等特征完成匹配。Bewley 等提出的Sort［11］跟蹤算法，是一種簡單的在線實時行人跟蹤算法，首先檢測出視頻中的行人，再利用卡爾曼濾波器預測行人軌跡，最后利用匈牙利算法進行線性分配。其優點是跟蹤速度快，缺點是該算法幾乎不對遮擋環境下行人進行處理，因此該算法的ID Switch 較多。針對Sort 跟蹤算法中目標ID 切換頻繁的問題，該團隊又提出的Deep-Sort［12］跟蹤算法，在Sort 跟蹤算法基礎上加入了深度外觀特征和級聯匹配，利用一個輕量級的卷積神經網絡去提取行人的外觀特征并保存下來，最后結合級聯匹配，在遮擋的環境下大量降低行人的ID Switch 現象，但是該算法要用卷積神經網絡去提取行人的深度外觀特征，因此該算法的運行速度會變慢。Chen等［13］提出的MOTDT算法從檢測和跟蹤結果輸出中收集候選者來處理不可靠的檢測，并且用大規模行人重識別數據集訓練深度外觀網絡，但是整體準確率不高。Wang等［14］針對檢測后再提取特征，提出一種檢測和ReID 融為一體的網絡，減少了重新提取行人外觀特征的時間，算法運行效率變高。

基于檢測器的跟蹤算法在提取行人外觀特征時，因行人遮擋可能會造成行人特征混淆，本文針對行人存在遮擋的情況下，用坐標判斷行人是否發生遮擋，如果存在遮擋則劃分遮擋區域，用非遮擋區域提取行人外觀特征。針對卷積神經網絡提取特征速度慢的問題，本文提出使用行人HSV 顏色特征，將顏色特征量化并提取顏色直方圖，最后轉化為一維向量，可以有效提升精度和速度。

2 基于深度學習和顏色特征的行人跟蹤算法

2.1 算法總框架

本文跟蹤算法首先使用預訓練好的yolov5m_c模型檢測視頻中的行人，輸出帶有行人框的視頻流，根據行人框的坐標來判斷行人之間是否存在遮擋，若行人之間存在遮擋，則將行人遮擋區域像素設為0，提取非遮擋區域HSV 顏色特征作為行人特征，若不存在遮擋，則直接提取矩形框中行人的HSV 顏色特征。提取HSV 顏色特征后，量化HSV分量并提取顏色直方圖，最終用一維向量表示。在跟蹤階段利用每個行人框質心的變化來預測下一幀該行人的質心和行人框大小，匹配階段利用IOU匹配結合行人的外觀特征完成匹配，最后由匈牙利算法完成分配。本文的算法總框架如圖1所示。

圖1 本文跟蹤算法框架

2.2 yolov5行人檢測算法

yolov5 是一種單階段目標檢測算法，其按照模型大小分為yolov5s、yolov5m、yolov5l、yolov5x 四種，隨著模型深度和寬度的增加，檢測效果和精度也會增加。yolov5 將目標檢測視為一種回歸任務［15］，能夠端到端進行訓練和檢測，yolov5 在yolov4 的基礎上添加了一些新的改進，使其在檢測精度和檢測速度方面有了很大的提升。yolov5 網絡結構分為主干特征提取網絡、特征融合部分和檢測輸出三部分。主干特征提取網絡采用CSPDarknet53，經過一系列卷積層和殘差塊完成圖像特征提取，最終得到三個不同尺寸大小的特征層輸出。特征融合部分不僅采用特征金字塔網絡還采用路徑聚合結構，目的是充分融合各個特征層的特征，有利于目標的預測。在檢測輸出端有三個尺度的預測輸出，分別對應小型、中型和大型目標的輸出。基于檢測器的跟蹤算法中，檢測器檢測的質量對跟蹤的準確率影響較大，在本文行人跟蹤中，首先使用預訓練好的yolov5m_c 目標檢測算法檢測視頻中的行人，輸出帶有行人框的視頻流，然后再進行跟蹤。

2.3 行人特征提取區域

在行人跟蹤中，準確提取行人的特征是完成跟蹤的前提，傳統算法提取的Harr 特征［16］和SIFT 特征［17］僅用于未遮擋環境下行人的匹配，在遮擋的情況下會出現錯誤匹配的情況。在實際的跟蹤任務中，會存在行人之間的遮擋問題［18］，為了避免行人之間的特征發生混淆，在本文中用行人非遮擋區域的HSV顏色特征完成匹配。

首先根據行人框的坐標信息來判斷行人之間是否存在遮擋，假設視頻幀中的行人由左到右分為G與G，行人G左上角的坐標為G，右下角的坐標為G，行人G左上角的坐標為G，右下角的坐標為G，如果G且G則行人G與行人G之間存在遮擋，此時將對遮擋的行人框進行分割，如圖2 所示，將行人框劃分為遮擋區域和特征區域，遮擋區域的像素設置為0，將行人非遮擋區域作為該行人的特征區域。如果不存在遮擋，則直接提取行人的HSV顏色特征。

圖2 行人遮擋區域劃分

2.4 行人HSV顏色特征提取

HSV 顏色模型對顏色的描述簡潔完備，H 為色調，S 為飽和度，V 一般稱為明度［19］。相比RGB 顏色空間，HSV顏色空間能夠非常直觀地表達顏色的明暗、色調以及鮮艷程度，且與人類視覺系統對顏色感知的自然描述一致。這些特點使得HSV 顏色特征更適合圖像處理。在特征提取階段針對行人之間有遮擋的情況下，分割出行人非遮擋區域提取HSV 顏色特征，行人無遮擋的情況下則直接提取HSV 顏色特征。對行人特征區域進行HSV 顏色特征提取的流程圖如圖3所示。

圖3 行人HSV顏色特征提取流程

首先獲取行人框圖像，由于不同的檢測框大小不同，而一幅圖像中顏色直方圖只與圖像中顏色的組成分布有關，為了后續的特征匹配，需要對提取出來的行人框進行統一預處理，將圖片裁剪到64*128 統一像素大小，然后將圖像從RGB 顏色空間轉換到HSV 顏色空間。為了方便后續計算，采用量化的方法，量化H、S、V 三分量為8、3、3，量化方法如式（1）所示，構造顏色特征直方圖，并表示為一維向量，G是長度為72bin的一維特征向量［20］。

量化公式：

2.5 行人軌跡預測

在本文中，行人軌跡預測框的位置和大小是由前兩幀行人跟蹤框質心變化來確定的，由于第一幀只有檢測框，沒有跟蹤框，首先要初始化跟蹤對象［21］。從第三幀開始行人軌跡預測，假設當前為第t幀，其前一幀為t-1，前兩幀為t-2。假設第t-2幀行人IDi跟蹤框左上角坐標表示為(xi1,t-2,yi1,t-2) ，右下角的坐標為(xi2,t-2,yi2,t-2) ，那么第t-2 幀行人IDi質心坐標Ci,t-2如式（2）所示：

其中，第t-2 幀行人IDi質心Ci,t-2的橫縱坐標可表示為

同理，假設第t-1 幀行人IDi跟蹤框的左上角坐標表示為(xi1,t-1,yi1,t-1)，右下角的坐標為(xi2,t-1,yi2,t-1)，則第t-1幀行人IDi質心Ci,t-1坐標表示為

最后，根據第t-2 幀到第t-1 幀質心坐標的變化?xi和?yi，以及第t-1 幀行人IDi跟蹤框的w、h和Ci,t-1，可預測第t幀行人IDi的質心Ci,t坐標和行人IDi的位置。第t幀行人IDi質心坐標Ci,t可表示為

2.6 行人跟蹤與匹配

在本文中使用IOU 匹配和行人HSV 顏色特征進行跟蹤匹配，只有當前幀的行人軌跡預測框和當前幀的行人檢測框匹配成功才能完成跟蹤。IOU匹配階段，首先計算行人檢測框和行人預測框兩兩之間的IOU，經過1-IOU 得到代價矩陣，將代價矩陣輸入到匈牙利算法中完成線性匹配，IOU 匹配的特點是速度快，但是在行人受到遮擋，或者長時間檢測不到行人時，IOU匹配會重新給該行人賦予ID號，為了減少ID 切換次數，本文在遮擋情況下引入行人的外觀顏色特征，結合行人的HSV 顏色特征進行特征匹配，以減少行人ID 切換次數。在行人HSV顏色特征匹配階段，利用之前提取的行人HSV顏色特征得到的一維特征向量計算檢測框和預測框之間的余弦相似度，通過1 減余弦相似度［22］得到余弦距離，使用余弦距離來衡量檢測框和預測框之間的行人相似度，余弦距離公式如式（13）所示：

其中G與Gi,pre計算的是檢測框與預測框的余弦相似度，余弦距離則是1 減余弦相似度。通過余弦距離來度量當前幀行人檢測框和行人預測框相似程度，在遮擋情況下準確匹配行人ID，如果最小余弦距離小于所設定的閾值t，則代表當前幀行人i預測框與行人i檢測框匹配成功，完成跟蹤任務。

3 實驗與結果分析

3.1 實驗環境

本文實驗操作系統為Windows，硬件環境CPU為Intel（R）Core（TM）i7-7700 顯卡為GeForce GTX 1050TI，軟件平臺為python3.9+pytorch1.10 深度學習框架。

3.2 評價指標

實驗中采用MOT 評價指標［23］，所用的評價指標和含義如下所示，MOTA（%）：多目標跟蹤準確度，該度量結合了三個錯誤源，誤報、錯過目標和身份轉換；IDF1（%）：正確識別的檢測與平均真實數和計算檢測數之比。MOTP（%）：多目標跟蹤精度，標注框和預測框的不匹配程度；ID Sw：跟蹤對象ID切換的次數；IDP（%）：識別準確率；IDR（%）：識別召回率；平均FPS：平均每秒運行的幀數。

3.3 不同目標檢測權重實驗

在基于檢測器的跟蹤算法中，檢測質量的好壞非常影響跟蹤質量，為了研究不同的檢測效果對跟蹤質量的影響，本文選擇使用在coco數據集預訓練的yolov5s.pt、yolov5m.pt和在Crowdhuman 行人數據集訓練好的yolov5m_c.pt 權重進行實驗，實驗結果如表1所示。

表1 不同檢測模型之間對比

由表1 可以看出，針對較大模型的檢測權重，檢測質量好跟蹤準確率高，在大模型中有針對性訓練后，跟蹤準確率提高較大，并且ID切換次數變少。

3.4 多行人跟蹤實驗

在日常環境中，行人跟蹤的場景是復雜多變的，為了驗證算法在真實場景下跟蹤的適用性與準確性，本文選取了一段真實的監控視頻，該視頻中監控攝像頭固定，共有274 幀，視頻中有多個行人，并且部分行人在行走過程中存在遮擋情況，本文選取Sort 和DeepSort 算法進行可視化對比，部分實驗結果對比如圖4～6所示。

圖4 Sort跟蹤算法

圖5 DeepSort跟蹤算法

圖6 Ours跟蹤算法

本文算法在第8幀時檢測到視頻中共有5個行人，完成行人軌跡初始化并建立跟蹤對象，每個行人由不同顏色的跟蹤框和ID號組成。在第26幀時因為行人之間的遮擋原因，未檢測到行人ID3（棕色框）和行人ID5（綠色框），到第90 幀后重新檢測到行人ID3（棕色框）和ID5（綠色框），并且他們的ID 號保持不變。從第164 幀到第231 幀，行人ID5（綠色框）一直在ID4（藍色框）的遮擋下，但在跟蹤中卻能始終保持其ID 號唯一。本文算法在整個跟蹤過程中沒有發生任何ID Switch 現象，跟蹤精度較高。而Sort 跟蹤算法和DeepSort 跟蹤算法在第164 幀到第231 幀跟蹤過程中，在遮擋環境下改變了被遮擋人的ID號，發生了一系列的ID跳變現象，當遮擋結束后，前方行人的跟蹤框ID 號跳變到后方被遮擋行人的身上。

3.5 公開數據集測試

為了測試本文算法的跟蹤性能，本文選擇在公開數據集MOT-16［24］數據集進行跟蹤測試，MOT-16 是2016 年提出的多目標跟蹤MOT Challenge 系列的一個衡量多目標檢測跟蹤方法標準的數據集，該數據集訓練集包含7 個視頻片段，測試集包含7 個視頻片段。不僅含有固定機位拍攝，而且還有動態機位拍攝。MOT-16 數據集視頻背景較為復雜，畫面比較豐富，人員比較密集，行人間遮擋嚴重。部分實驗結果如圖7～9所示。

圖7 Sort跟蹤算法結果圖

圖8 DeepSort跟蹤算法結果圖

本文跟蹤算法在行人的外觀和運動方向相似時會發生ID Switch現象，如圖9 第182 幀到308 幀，兩個行人的運動方向和外觀比較相似所以發生了ID Switch 現象，圖中被遮擋住的行人ID32（紅色框）跳轉到了外觀相似的黑衣行人身上。當運動方向相反且顏色外觀差別較大時，不容易發生ID Switch。如圖第308 幀到第342 幀，右側ID23（白衣服）和ID42（黑衣服），雖然在中間ID23 會被ID42遮擋，但當遮擋結束后，ID23（白衣服）并沒有發生跳變。但是Sort 和DeepSort 跟蹤算法在遮擋過程中發生了ID切換、跟蹤不準確現象。

圖9 Ours跟蹤算法結果圖

3.6 不同算法之間對比

為了對比該算法的優越性，本文選擇在多目標跟蹤數據集MOT-16 訓練集上與常見的基于檢測器跟蹤算法Sort、MOTDT 和DeepSort 算法進行對比。目標檢測使用的檢測權重是yolov5m_c 模型，該模型是在Crowdhuman數據集預訓練得到。所有的實驗使用相同權重、相同數據集和同一硬件平臺。實驗結果如表2所示。

表2 不同算法之間對比

由上表所示，本文算法在公開數據集MOT-16數據集上MOTA 為49.78%，相比于Sort、MOTDT 和DeepSort 算法分別提高1.51%、0.85%和0.33%；在IDF1分數上分別高于Sort、MOTDT和DeepSort算法7.07%、1.03%和3.46%；在ID Switch 上比Sort 算法降低了33%，比MOTDT算法降低59%，但是比DeepSort 算法略高，是因為HSV 顏色特征比深度學習提取的特征對光線變化等更加敏感。本文算法的識別精確率是最高的。由于本文實驗硬件設備較低端并且目標檢測模型較大，本文的平均FPS僅有7.24frame/s。Sort 算法在跟蹤過程中對遮擋的人幾乎不做任何處理，故其運行速度最快，但也是ID Switch 最高的。而DeepSort 算法和MOTDT 算法在提取行人深度外觀信息時都會用到卷積神經網絡，算法大多耗時在了提取外觀特征，導致其運行速度變慢，本文的算法兼顧了精度和速度，在這幾個算法中表現較佳。

4 結語

本文在兼顧跟蹤精度與跟蹤速度的前提下，提出了一種基于深度學習和顏色特征的行人跟蹤算法，算法首先使用yolov5 目標檢測算法檢測出視頻幀中的行人，并根據行人框之間的坐標關系選擇合適的特征提取方式，有效解決行人特征匹配時的特征混淆問題。為了驗證算法的有效性，在公開數據集MOT-16 上進行實驗，實驗結果表明，本文提出的跟蹤算法與經典的Sort 和DeepSort 算法對比，不僅在跟蹤精度上有所提升，并且在運行速度上比DeepSort 快。盡管該算法在相同的實驗條件下具有優越性，但是仍然存在較多的ID Switch 現象，下一步的工作是進一步研究該算法ID Switch 較多的原因，降低ID Switch現象，進而提高跟蹤準確率。