一種新的行人多目標跟蹤算法

2021-04-15 03:48:30樊璐張軼

計算機應用與軟件 2021年4期

樊璐張軼

(四川大學計算機學院四川成都 610064)

0 引言

行人檢測和跟蹤是計算機視覺行業長久以來一直著力解決的問題之一，解決該問題有助于多個行業和技術的發展，包括智能視頻監控、人機交互、智能輔助駕駛、自動駕駛、機器人主動視覺等[14]。行人檢測即在圖像或者視頻中識別出行人同時標注每個行人的位置。行人檢測的方法一般分為基于模板匹配以及基于統計學習兩種方法。基于模板匹配的方法即構建一個可以描述所有行人特征的模板，例如:方向梯度直方圖(HOG)[21]行人特征描述子結合支持向量機(SVM)進行行人檢測；可變型組件模型(DPM)[19]與HOG特征描述子結合解決了檢測中遮擋的問題；局部二值模式(LBP)[23]也可以與HOG和SVM結合成為一個魯棒的行人檢測器。2012年AlexNet[16]在計算機視覺競賽ILSVRC奪得桂冠之后，深度學習開始在計算機視覺領域大行其道。深度學習通過大量的標注數據、深層的網絡結構獲取圖像的深層特征，從而大大提高了目標識別的精度。對于行人檢測的深度學習研究也有了很多成果，比如使用CNN結合部位檢測以及DPM進行行人檢測[13],使用單一部位檢測及其組合進行行人檢測[10]。

傳統的目標跟蹤算法有均值漂移(meanshift)[13]算法、CamShift[22]算法、卡爾曼濾波跟蹤算法[25]。2014年提出的KCF[11]算法將相關濾波引入到目標跟蹤鄰域，利用跟蹤的目標信息訓練出一個相關濾波器在圖像中計算響應值，響應值最高處便是跟蹤目標所在的地方。由單目標跟蹤擴展到多目標跟蹤的算法有基于流網絡的方法[18]、基于k最短路徑的方法等[17]，但這些多目標跟蹤方法往往存在較多的缺點，比如漏檢測、匹配失敗等問題。近年來效果比較好的多目標跟蹤方法多是基于track-by-detection框架[12]，將檢測與跟蹤結合，能夠達到很好的跟蹤效果。

本文同樣采用track-by-detection框架，針對行人檢測進行優化并得到定位準確率和識別率都較高的檢測算法，隨后比較并提出更好的目標匹配方法，結合兩者構成本文的跟蹤框架，取得了比較好的跟蹤結果。本文主要貢獻如下：(1) 基于YOLO網絡優化并訓練得到了精確率很高的行人檢測器;(2) 基于孿生網絡的思想，提出了匹配網絡實現檢測目標與跟蹤軌跡之間的匹配;(3) 針對目標跟蹤會出現的目標漂移問題，采用靈活的目標模板更新策略;(4) 為了降低目標匹配時的計算量過大、時間過長的問題，對算法進行了優化，降低了計算量。

1 行人檢測算法與目標匹配方法

1.1 行人檢測算法選擇

傳統的行人檢測方法存在著許多缺點：使用底層特征，行人特征表達能力不夠；特征可分性較差，易發生誤檢；泛化能力較差，不能適應不同的場景。因此，本文選取深度學習方法作為行人檢測器。目前主流目標檢測算法包括Faster-CNN、YOLO和SSD。Faster R-CNN[6]作為RCNN目標識別網絡發展的最新成果，加入了RPN網絡，在精度方面達到很高水平。不同于Faster-RCNN的two-stage結構，YOLO[7]將圖像劃分為數個網格，一次性預測每個格子包含目標的包圍框、定位置信度以及所有類別的預測向量，從而完成目標識別，該算法大大提高了目標識別的速度。SSD[8](Single Shot MultiBox Detector)在YOLO的基礎上，除了最后的特征圖之外又選擇了另外5個特征圖進行預測，提高了對不同尺度目標的識別精度。由于目標跟蹤對實時性的要求比較高，因此本文選擇了耗時最小的YOLO算法作為行人檢測器。

本文中采用最新的YOLOv3[1]結構，該結構添加了多個尺度融合的方式進行目標檢測，提高了對于小目標的識別精度。YOLOv3的檢測過程和網絡結構如圖1所示。

圖1 YOLO行人檢測網絡框架

該網絡結構接收輸入圖像，使用DarkNet53提取圖像特征，為了更好地適應不同尺度的檢測，網絡使用了特征金字塔(Feature Pyramid Network，FPN)方式對不同尺度的特征圖進行融合，得到三幅包含不同尺度信息的特征圖，分別在三幅特征圖上預測目標邊界并計算類別概率實現目標的識別和定位。

1.2 行人檢測算法訓練

在訓練YOLO進行行人檢測時，使用在ImageNet上訓練的模型作為預訓練參數。訓練數據集選擇INRIA數據集，其中訓練集包含614幅正樣本圖像，包含行人1 237個，負樣本圖像1 218幅；測試集包含288幅正樣本圖像，包含行人589個，負樣本圖像453幅。數據集涵蓋了行人檢測中出現的光照、遮擋、姿態等各種不同的情況。同時，還通過翻轉、縮放、裁剪、移位等數據增強方法，提高數據集的數量，從而提高檢測算法的魯棒性。

首先計算IoU(Intersection over Union)：

(1)

式中：Pred表示預測框;GT表示真實框。IoU值表示預測框與真實框的重疊程度。

計算得每個檢測框的最終置信度：

conf=P(object)×IoU

(2)

式中：P(object)表示該檢測框包含目標的概率。對于每個框再計算目標為行人的概率:

P(person)=P(person|object)×conf

(3)

由于本文中使用YOLO只進行行人目標檢測，因此采用了式(4)中的binary cross-entropy loss取代本來的softmax cross-entropy loss，更好地提升單目標檢測的精度。

Eclass=-[y×log(p)+(1-y)×log(1-p)]

(4)

式中：y表示目標的標簽，行人標簽為1，背景標簽為0;p表示目標預測為行人的概率。式(5)所示的YOLO的損失函數綜合了預測框與真實框的誤差、IoU誤差和分類誤差。檢測過程過程如圖2所示。

(5)

圖2 YOLO行人檢測過程

實驗證明經過本文的訓練，YOLO行人檢測達到了很高的精度，能檢測到各種場景中的行人目標。然而，檢測方法對各個目標之間并沒有區分度，因此并不能將檢測目標劃分到各自應該在的跟蹤軌跡中。所以檢測算法需要結合一個匹配算法，才能最終實現跟蹤。

1.3 多目標匹配

以往在多目標跟蹤中，經常使用匈牙利算法進行檢測目標與跟蹤軌跡之間的匹配。匈牙利算法即圖論中的最大匹配算法。該算法利用檢測和跟蹤軌跡模板之間的匹配程度，從第一個檢測目標開始為其匹配一個最佳的跟蹤軌跡，并通過遞歸計算，找到盡可能多的匹配目標。若某個目標或者某個跟蹤軌跡最終沒有找到匹配，則進行相應的處理。該方法有兩個缺點:一是對于匹配程度計算方法的準確率要求較高；二是其找到的最大匹配有可能不是真實的最佳匹配，會嚴重影響跟蹤的準確率。

KM算法是對匈牙利算法的一個改進，為目標和軌跡構成的二分圖分配權重，權重來自于計算得到的目標-軌跡之間的匹配程度，該算法從匹配的角度大大提高了匈牙利算法的準確度。然而，KM算法仍舊無法解決計算匹配程度不準確對多目標跟蹤精度的影響。由于孿生網絡[24]在圖像檢索方面的優勢早已被證明，近年來，該方法也多次被應用于單目標跟蹤，用于匹配前后幀的單一目標。本文也采用該思想，與之不同的是，本文設計了匹配網絡來提取行人特征并實現多個目標與多個軌跡之間的匹配。本文匹配網絡主要原理可表達如下：

f(z,x)=g(φ(z),φ(x))

(6)

式中：z和x分別表示目標模板圖像和檢索圖像;φ表示使用匹配網絡來提取特征;g表示計算特征之間的相似度;f表示比較相似度的結果。事實證明，匹配網絡具有良好的圖像匹配效果。

本文同樣利用該網絡結構在圖像匹配中的優點，在獲得行人檢測的結果之后，使用匹配網絡將檢測結果與跟蹤模板進行匹配，獲得快速魯棒的跟蹤效果。對于檢測到的每一個目標，將其轉換為128×128的大小，送入到匹配網絡中提取特征，然后計算檢測目標的特征與跟蹤軌跡模板的特征之間的相似度。本文采用了如圖3所示的匹配網絡結構，其中特征提取網絡的結構如圖4所示。

圖3 本文的匹配網絡結構

圖4 匹配網絡中的特征提取部分結構

經過匹配網絡，每個目標得到一個512×6×6大小的特征圖。在計算特征之間的相似度時，本文選用式(7)計算得到相似度。

(7)

式中：A和B分別表示目標圖像特征以及跟蹤軌跡模板特征中對應的向量。最終，對相似度矩陣進行求和得到最終相似度，如式(8)所示。其中xi指由式(7)得到的余弦距離組成的相似度矩陣中的元素。

Similarity=∑xi

(8)

為了最大化匹配網絡對于不同行人的分辨能力，本文使用大量的行人數據集進行訓練。由于普通的行人數據集一般都來自于不同的場景，匹配網絡可能學習到的是場景之間的分辨能力，而忽略了對于行人之間的分辨能力。因此為更加適合目標跟蹤的需求，本文選取了MOT數據集中幾個多目標行人跟蹤的圖像序列訓練匹配網絡。首先根據MOT數據集提供的標注信息裁剪出所有的行人目標，然后將在同一個跟蹤序列的目標歸為一類，獲得數個不同行人的圖像集，并按照2∶1的比例分為訓練集和測試集。由于本文的匹配網絡是基于行人檢測算法的結果，因此匹配網絡不再負責目標和背景之間的區別，而只專注于行人與行人之間的差別，也就是說，數據集中不再添加隨機選取的背景圖像作為負樣本。在訓練時，每次隨機選取數據集中的兩個圖像，將其歸一化到128×128的大小，經過匹配網絡獲取特征并由余弦距離計算相似度，采用式(9)所示的對比損失函數作為訓練的損失函數，其中:當兩幅圖像來自同一個行人的數據集時，y取1;否則y取-1。

LContrastive=log(1+exp(-y×Similarity))

(9)

經過多次的迭代訓練，匹配網絡在測試集上達到了很高的正確率，為本文的行人多目標跟蹤算法精度提供了保證。

2 多目標跟蹤

在選取了合適的行人檢測算法并訓練得到正確率足夠高的匹配網絡之后，本文的主要框架已經大致完成。但是，多目標跟蹤是一個相當復雜的場景，需要解決的問題如下:第一，跟蹤模板的更新問題，頻繁更新模板會造成目標偏移，不更新模板又會造成匹配失敗。第二，計算量問題，檢測結果與模板進行兩兩匹配需要大量計算，影響算法的實時性，需要限制搜索范圍。第三，丟失的目標重新出現，位置發生變化，需要擴大搜索范圍。

2.1 模板更新

以往的孿生網絡跟蹤方法，對于模板多采取不更新的策略，這是由于在跟蹤時存在定位的偏差，預測框和真實框的IoU值會比較低，預測框會包含較多的背景信息，較少的目標信息，這時如果進行模板更新，在之后的跟蹤過程中，模板與背景的相似度越來越高，陷入惡性循環，最終丟失目標。然而，由于行人移動的靈活性，行人轉動、由遠到近運動、由近到遠運動、進出室內室外造成的光照變化都會造成檢測目標與初始模板的相似度降低，導致目標跟蹤失敗。因此，本文提出了更加靈活的模板更新策略，將初始模板和更新模板結合起來，取得了不錯的效果。

對于每一個跟蹤目標，本文保存其初始模板，添加一個更新模板，在跟蹤過程中，每隔固定時間就要更新一次更新模板，間隔幀數使用Interval表示。跟蹤時，首先比較初始模板和檢測目標的相似度，也就類似原始的孿生網絡跟蹤。由于目標的變化，初始模板與目標的相似度可能逐漸降低，當低于設定的閾值時，比較更新模板與目標的相似度，此時的更新模板與當前幀最多相差設定的間隔幀數，因此可以成功匹配。這時更新模板已經比初始模板更能描述目標的特征，因此將更新初始模板為當前使用的更新模板。此外，由于本文采用了魯棒性強的檢測算法，跟蹤過程不需要擔心模板向背景偏移。綜上，本文的每一條跟蹤軌跡結構包含如下四個方面：(1) 目標出現總幀數;(2) 目標初始模板;(3) 目標更新后模板;(4) 目標連續丟失的幀數。

2.2 優化計算

雖然本文采用的行人識別算法和孿生網絡匹配算法在速度上都很快，但是當跟蹤行人目標較多時，計算量會快速增加，影響到算法的整體速度。因此本文添加位置約束算法降低計算量。

位置約束即根據跟蹤軌跡在上一幀的位置，限定匹配算法在當前幀的匹配范圍。以往的位置約束算法都是使用歐氏距離來限定，圖像在x軸和y軸的距離在這種距離計算方法中是等價的。但是由于行人往往寬度與高度差別比較大，因此在圖像上，行人橫向移動速度往往大于縱向速度，因此本文考慮到目標本身的寬度和高度，在x軸和y軸設定不同的距離限制，為每個跟蹤軌跡和檢測目標都設置一個位置權重，計算如下：

locWeight(Pm,Trackn)=

(10)

式中：Pi表示第i個行人檢測目標;Trackn表示第n個跟蹤軌跡;x、y、width、height分別表示跟蹤框或者檢測框的中心坐標和尺寸；λx和λy分別表示x軸和y軸距離范圍權重。在本文算法中，λx和λy分別取2和1。在約束算法下，跟蹤軌跡在當前幀最相似的目標得分計算如下：

Pmax=argmax(locWeight(Pm,Trackn)sim(Pm,Trackn))

(11)

式中：sim(·)表示相似度計算，如果最高得分大于設定閾值，則對應的檢測目標即為是軌跡的最新位置,否則認為跟蹤軌跡丟失，丟失計數增加1，如式(12)所示。

(12)

然而由于目標在跟蹤過程中會出現丟失的情況，在重新查找時，該目標可能位置發生變化，出現在搜索區域之外，此時要擴大目標的搜索范圍。本文根據目標連續丟失的幀數調整λx和λy，動態選擇搜索范圍，取得了良好的效果。

(13)

(14)

2.3 行人多目標跟蹤算法流程

解決了上述問題，本文提出的基于孿生網絡匹配的多目標跟蹤算法已經完成。算法流程如算法1所示。

算法1行人多目標跟蹤算法

輸入:圖像幀，跟蹤軌跡集合traces。

輸出:更新后的跟蹤軌跡集合traces。

1. 進行行人檢測，得到行人數量n

2. if(n!=0)

3. 提取行人特征

4. if(traces==0)

5. 新增trace

6. else在位置約束下與初始模板匹配，得到匹配度

7. if匹配度大于閾值

8. 成功匹配,更新trace

9. else在位置約束下與更新模板匹配，得到匹配度

10. if匹配度大于閾值

11. 成功匹配，更新trace

12. else 新增trace

13. 更新未匹配trace的丟失幀數

3 實驗

本文旨在構建一個快速魯棒的行人多目標跟蹤算法，因此選擇從MOT多目標跟蹤數據集中選擇帶有標注的行人多目標跟蹤序列，具體包括MOT16-02、MOT16-04、MOT16-05、MOT16-09、MOT16-10、MOT16-11。選取的數據集涵蓋了移動攝像拍攝序列、靜態攝像頭拍攝序列、室內場景、室外場景、不同光照場景、大目標行人和小目標行人等情況，如圖5所示,確保能夠準確測試出行人檢測的準確率、孿生網絡匹配的準確率以及多目標跟蹤的效果。此外，由于MOT數據集本身并不是專用來進行行人多目標跟蹤的，在數據集中還包含了汽車、自行車、摩托車等本文實驗不需要的標注數據，因此要對標注數據進行處理，只保留標簽為1(表示行人)和標簽為7(表示靜止的人)的標注數據。本文的實驗均在配有GTX-1050Ti與英特爾酷睿i5-8300H 2.3 GHz的Windows 10操作系統電腦上進行。

圖5 MOT數據集示例

3.1 行人檢測實驗

為了選擇更加合適的行人檢測器，由于YOLOv3、mobileNet[4]-SSD和VGG16-SSD都是實時性比較好的檢測器，因此本文選擇這三種方法訓練比測試在MOT數據集上的準確率，結果如圖6所示。

圖6 行人檢測算法對比

可以看到，YOLOv3行人檢測器的精度要遠超mobileNet-SSD和VGG16-SSD，并且該算法在實時性上也達到了很高的速度。

3.2 多目標匹配算法

對于匹配網絡的實驗測試，本文選擇將MOT數據集中的行人截取出來，按照跟蹤軌跡的標簽進行分類，獲取多個行人圖像組。任意選取兩幅行人圖像送入匹配網絡獲取特征，使用余弦距離計算相似度，如果相似度大于設定的閾值，則說明匹配網絡判斷這兩幅圖像來自同一個行人的圖像序列，否則認為是不同的行人。然后根據這兩幅行人圖像的標簽判斷匹配網絡是否判斷錯誤。數據集中共存在539條行人跟蹤軌跡，經過提取，得到相同數量的行人數據集。對匹配網絡進行數次實驗，設定不同閾值獲取實驗結果，如圖7所示。

圖7 不同閾值下匹配網絡行人匹配精度

由實驗結果可知，當閾值設置低于10時，發生誤匹配的幾率增大，準確率較低。而行人的運動變化使得相似度降低，匹配精度隨著閾值增大而下降。因此，本文在算法中選取閾值為10。

由于行人運動雖然靈活但是速度并不快，經過大量實驗證明，行人多目標跟蹤中，目標距離視點一般在5～15 m，目標在圖像中高度一般在100到300像素，當選取時間間隔為5幀時，能捕捉到大部分目標的外觀變化，因此本文選擇5幀作為固定間隔，即將式(13)、式(14)中的Interval設置為5。

3.3 行人多目標跟蹤實驗

對于多目標跟蹤，本文選擇MOT-01、MOT-03、MOT-06、MOT-07、MOT-08、MOT-12數據集，依然去除標注信息中的非行人信息。因為本文算法是基于檢測的多目標跟蹤，因此每個圖像序列在測試時都不給定初始跟蹤框。對于每個數據集獲得的結果如表1。

表1 本文算法多目標跟蹤結果

MOTA(multiple object tracking accuracy)代表多目標檢測精度，考慮了跟蹤時所有幀中對象匹配錯誤，主要是FN(false negatives)、FP(false positives)、IDSW(ID Switch)，計算公式如下：

(15)

MOTP(multiple object tracking precision)表示檢測器的定位精度：

(16)

式中：d表示預測框與真實框的IoU距離;t表示在當前幀匹配成功的數目。

MT表示至少在80%匹配成功的跟蹤軌跡；ML表示在小于20%的時間成功匹配的跟蹤軌跡；FP表示錯誤匹配的目標數；FN表示沒有匹配成功的目標數；ID switch表示每條軌跡分配的ID發生變化的次數。部分跟蹤結果如圖8所示。

圖8 MOT16部分跟蹤結果

本文算法與其他多目標跟蹤器對比結果表2所示。可以看到，MOTP只比HDTR算法稍差，也達到了很高的精度；MOTP在所有算法中最高，證明了本文算法的檢測精度；MT指標也高于大部分算法，證明了本文在長時間跟蹤的效果；FN證明本文發生誤檢的情況比較少。綜合來看，本文算法在多個評價指標都達到了不錯的水平，是一個合格的行人多目標跟蹤器。除此之外，本文算法在實驗硬件條件下能達到最高每秒3幀，在所有算法中也有競爭力。

表2 多目標跟蹤結果對照

4 結語

針對行人多目標跟蹤的難題，本文對YOLO行人檢測算法進行了優化，并解決了多目標匹配的問題。首先，設計并訓練了行人檢測器以及用來提取行人特征的匹配網絡，并使用余弦距離來計算特征之間的相似度;其次，本文還解決了多目標跟蹤中出現的誤匹配、目標變化造成匹配失敗、目標匹配計算量大以及目標丟失無法再次找回等問題。實驗證明，雖然在算法實時性并不能達到很高的水平，但是算法在精度上有一定的提升，可以應用于多個場景的行人多目標跟蹤。此外，本文算法在MOT-01數據集的表現不佳，后續工作將改進本文算法以提高在光線較暗的場景中的檢測和匹配精度。