目標關聯學習的端到端多目標檢測與跟蹤聯合方法

2022-05-18 06:27:24殷一皓吳浩銘石美鳳

重慶理工大學學報(自然科學) 2022年4期

馮欣，殷一皓，吳浩銘，石美鳳

(重慶理工大學計算機科學與工程學院，重慶 400054)

0 引言

隨著人工智能的不斷發展與計算機硬件性能的逐漸提高，以深度卷積神經網絡為基礎的深度學習方法在計算機視覺的各個應用上都取得了極大的成功，自動駕駛視覺感知是深度學習技術得以大力發展的應用領域，其包含目標檢測、多目標跟蹤等技術，能夠實現目標位置、移動方向、速度的自動感知，為駕駛車輛自動避障、目標交互等重要應用提供有力的技術支撐［1］。

多目標跟蹤從跟蹤方式上主要分為在線跟蹤與離線跟蹤。其中，在線跟蹤要求當前幀的跟蹤結果只與當前幀及前幀中的信息相關。而離線跟蹤的跟蹤可利用所有幀的信息，從而能夠獲得全局最優解。因此，在線跟蹤通常用于實時的應用情況，而離線跟蹤通常用于對一段視頻的離線分析，如目標行為分析等。由于可利用信息較少，在線跟蹤方法要同時滿足高跟蹤精度和低時延是極具挑戰的。本文主要面向自動駕駛場景下的實時多目標跟蹤，提出了一種高效的在線跟蹤方法。

目前主流的多目標跟蹤方法是基于trackingby-detection 的跟蹤框架，即通過檢測結果進行跟蹤。近些年，基于深度學習的tracking-by-detection跟蹤方法取得了不錯的跟蹤效果。這類方法通常通過3 步實現跟蹤結果:①對每幀圖像進行目標檢測，得到所有目標的位置和邊框;②在得到目標區域的基礎上，使用特征描述方法或進行表觀特征的提取;③通過計算目標間表觀特征的相似度進行幀間目標的匹配以得到每個目標的跟蹤結果。因此，在這樣的框架下，目標檢測結果的準確性對于后續跟蹤結果的好壞有很大的影響。

近年來，深度神經網絡推動目標檢測算法快速發展。其中，基于錨框(anchor)的多階段檢測算法，如Faster R-CNN［2］、Mask R-CNN［3］等在檢測精度上有很大優勢;基于錨框(anchor)的單階段檢測算法，如SSD［4］、YOLO［5-6］、RetinaNet［7］等目標檢測算法是適合實時應用的目標檢測算法;基于關鍵點的無錨框(anchor-free)目標檢測算法，如CornerNet［8］、CenterNet［9］等綜合了速度與精度，是目前目標檢測領域的研究熱點?？紤]到目標檢測對后續目標跟蹤的重要性，提出了一種多尺度特征融合的目標中心點的目標檢測方法。

基于每一幀得到的目標定位結果，多目標跟蹤問題可歸為數據關聯問題，即跨幀關聯相同目標。以往大多數tracking-by-detection 的跟蹤算法通常利用傳統特征提取算法獲取目標特征描述來實現目標之間的匹配，如像素模板［10］、顏色直方圖［11］、基于梯度表示的HOG［12］特征和基于混合顏色及紋理特征的協方差矩陣［13］等目標特征提取方法。然而，這些通過傳統特征提取算法所獲得的目標特征描述卻很難處理被遮擋或光照變化情況下的目標以及非剛性目標，如姿態變化較大的行人目標等。因此往往會聯合采用基于空間關系的目標匹配方法，通過交并比(intersection over union，IOU)［14］、光流法［15］獲取幀間目標的空間關系進行目標空間上的匹配。

相對于傳統的特征提取方法，基于深度卷積神經網絡如ResNet、VGG 的特征提取方法雖然能夠提取到目標的高級語義特征以進行更準確的目標匹配，但ResNet、VGG 等常用骨干網絡有著較多的網絡參數，會導致跟蹤效率的低下。針對實時跟蹤應用場景下有著較高的實時性要求，提出了一個基于目標關聯學習的端到端目標檢測與多目標跟蹤聯合方法，使用一個輕量級的骨干網絡便能同時對圖像中所有目標進行檢測與特征提取，避免了重復使用特征提取網絡依次對所有目標進行特征提取的方式，有效提高了目標特征提取的效率。不同于tracking-by-detection 框架，本文在對目標進行檢測的同時，從最具有區分性目標特征的提取層進行了對目標表觀特征的提取。基于目標檢測下的特征提取過程不增加任何計算量，提高了整個跟蹤過程的效率。在目標匹配跟蹤過程中，通過目標關聯網絡分支學習目標間的相似度，直接得到匹配跟蹤結果，并與基于目標中心點的檢測網絡形成端到端的高效目標檢測與跟蹤方法。同時，也考慮了目標間的空間關系，通過交并比在空間上對目標進行匹配，有效地防止了2 個不同目標因外觀相似造成的錯誤匹配情況。

1 相關工作

DeepSORT［16］是最早的基于深度學習的tracking-by-detection 跟蹤方法。DeepSORT 在檢測過程中采用了Faster R-CNN 的檢測思想，即通過RPN網絡來減少負樣本以提高檢測精度。在檢測到目標后，DeepSORT 采用了基于行人重識別數據預訓練的卷積神經網絡來提取目標的表觀特征，通過計算目標特征的余弦相似度實現目標間的匹配。除了目標表觀特征的匹配，DeepSORT 還根據目標當前位置來預測目標在下一幀的位置，并結合交并比進一步預測目標匹配的可能性。DeepSORT采用了精確度較高的二階段目標檢測網絡，同時考慮了目標的表觀特征和位置信息以獲得更加準確的跟蹤結果。然而，DeepSORT 的目標特征提取網絡需要多次輸入目標區域圖像以提取目標的表觀特征。這種情況下，當目標個數過多時，算法的跟蹤效率就會大大降低。這對于在線跟蹤來說，是一個必須要解決的難題。

為了提高基于深度學習的tracking-by-detection 算法的效率，Mitzel 等［17］采用了目標關聯的思想對目標進行匹配。該方法在目標檢測之后，通過目標檢測網絡提取目標的表觀特征，再根據不同幀間目標特征得到目標特征組合矩陣，最后，通過關聯匹配網絡學習目標間的相似度，實現目標間的匹配及跟蹤結果。Mitzel 等在特征提取時考慮了圖片的背景信息，同時通過直接計算目標之間的匹配相似度加強了對目標可區分性表觀特征的提取;其關聯匹配網絡可直接輸出目標間的匹配結果，實現了較高效的跟蹤效果。但和Deep-SORT 一樣，Mitzel 等同樣使用了多個卷積神經網絡進行目標檢測和跟蹤，并且采用了參數量較大的VGG 網絡作為特征提取骨干網絡，這些因素仍然限制了該方法的跟蹤效率。

2 基于目標關聯學習的端到端目標檢測與跟蹤深度神經網絡框架

為了進行高效的目標檢測和幀間多目標關聯匹配，提出了一種端到端的目標關聯學習網絡。該網絡為一個端到端的多任務網絡，通過一個高效的骨干網絡同時實現目標檢測和目標跟蹤任務。該方法的整體框架如圖1 所示。

圖1 基于目標關聯學習的端到端多目標檢測與跟蹤方法總體框架

1)首先，該網絡通過2 個孿生的骨干網絡DLA34［18］分別接受時間上連續的兩幀It1、It2。為了增加更多不同的訓練數據對及防止2 張圖片中同一目標的變化過大，2 張圖像間的幀間間隔不定但不得超過最大幀間間隔數30 幀。

2)輕量級骨干網絡DLA34 通過共享參數方式(孿生)同時提取兩幀中所有目標的高級語義特征，結合基于中心點的目標檢測方法的訓練去學習預測場景中所有目標的中心點位置Ct1、Ct2。

3)基于預測的中心點位置，回溯網絡的特征層，找到目標對應特征區域的特征向量作為目標的表觀特征，即Ft1、Ft2。

4)將從不同幀提取的目標表觀特征向量進行兩兩組合得到目標表觀特征矩陣Ft1，t2，并通過目標關聯網絡的訓練來預測兩兩目標間的特征相似度，最終得到目標相似度匹配矩陣Mt1，t2，從而實現前后幀的多目標跟蹤。

2.1 基于中心點的目標檢測

在目標檢測階段，采用了基于中心點的目標檢測方法。其動機主要來源于以下3 個方面:①目標的中心點往往是目標特征的聚集點。在網絡的高層特征層上，中心特征點在原圖上的感受野區域相對于其他特征點往往包含了更多的目標區域，因此中心點提取到的表觀特征包含了更豐富的表觀信息。②在目標檢測基礎上的多目標跟蹤方法更關注于目標中心點位置及目標的特征區分能力，而通用目標檢測方法主要學習目標的區域定位和類別識別，因此，有必要采用適合于多目標跟蹤的目標檢測框架。③目前，基于關鍵點的目標檢測算法已取得了極大的發展，如CenterNet，CornerNet 等。這些方法已證明比基于anchor 的目標檢測方法更高效且準確。通過對基于關鍵點的目標檢測方法研究，針對多目標跟蹤問題，設計并實現了一種輕量化的中心點目標檢測方法。

基于中心點的目標檢測方法采用了輕量化的DLA34 網絡結構，其網絡參數量遠小于目前常用的特征提取骨干網絡ResNet101。如圖2 所示，DLA34 結構主要由迭代深度聚合(IDA)和層次深度聚合(HDA)構成，綠色箭頭即表示IDA 結構。

圖2 基于中心點的目標檢測方法框架圖

在圖2 中，該結構融合了相鄰模塊內的最后一層特征層，通過對不同尺度的特征層進行融合，使更深層的特征層的目標語義信息更加豐富;圖2中綠色模塊中均包含HDA 結構，該結構將各個模組內不同通道的特征圖融合，實現對各濾波器提取的不同角度的特征進行融合。圖2 中紅色箭頭表示的特征層融合過程加入了可變形卷積［19］操作，以使網絡能夠對姿態變化較多的目標提取魯棒特征，在文獻［8］中已證明加入可變形卷積的DLA34 網絡的檢測結果要優于不加入可變形卷積的DLA34，因此，基于檢測跟蹤(tracking-by-detection)的多目標跟蹤方法在骨干網絡中加入可變形卷積后的檢測預測結果對于后續的跟蹤匹配階段是更加有利的。最終，基于中心點的目標檢測網絡的輸出特征分辨率大小為原圖的1/4，特征圖上的每個特征點將用于回歸和分類預測。

基于中心點的目標檢測網絡的損失函數包括中心關鍵點的預測損失Lcenter、中心點位置預測的偏移損失Loffset以及目標區域范圍的預測損失Lbbox3 個部分，它們的定義如式(1)—(3)所示。

式中:Yp表示預測的熱圖上每個特征點屬于目標中心點的概率;Y 表示真實熱圖上的特征點是目標中心點的概率。Lcenter計算預測的熱圖上每個特征點與真實熱圖上每個特征點之間的交叉熵。真實熱圖通過高斯核得到，即以目標中心均值為0，峰值為1 的中心點，沿遠離中心的方向上各點的標注值按照高斯分布依次遞減。該損失函數采用了focal loss，能夠有效解決正負樣本不平衡的問題。中心點位置偏移損失:

式中:Cp表示預測的目標中心偏移值;C 表示原圖上的目標中心坐標;S 表示最終特征層相對于原圖的下采樣次數。Loffset通過L1 loss 計算在下采樣過程中目標中心坐標因無法整除而造成的坐標偏移與預測的坐標偏移間的差異損失。

目標長寬范圍的損失主要訓練目標的長寬參數預測。其定義如下:

式中:Bp表示目標的預測長寬;B 表示目標的真實長寬。Lbbox通過L1 loss 計算預測的目標長寬與實際目標長寬的差異損失。

2.2 基于中心點目標檢測網絡特征層的目標特征提取

對于在每一層特征層上目標的中心特征點來說，其包含的目標表征信息是最豐富的?；谥行狞c的目標檢測網絡后，可以得到每個目標的中心點位置，進而得到目標相對于整張圖大小的相對中心點位置。傳統tracking-by-detection 的多目標跟蹤方法通常通過額外訓練一個網絡來提取目標特征，這樣往往會大幅度增加算法的計算復雜度。本文中提出從基于中心點的目標檢測的網絡推理預測的同時提取目標的特征，從而在不增加計算量的情況下提取目標的中心點特征。即根據目標的相對中心點位置從各個特征層提取目標的中心點對應位置的特征向量。顯然，每個目標都有其最合適的特征提取層，通過聚類各個目標對應合適的感受野大小選取了對于目標最具有區分性的特征層(包含不同尺度)，融合不同尺度的特征層的目標特征，使目標的表觀特征具有尺度不變性。

目標大小與合適感受野的關系如圖3 所示，紅色代表目標的邊框，綠色代表最合適的感受野大小，(a)中的目標因為像素較少導致語義信息不足，需要加入部分背景信息作為目標的額外表觀特征，因此較小目標的感受野區域比目標的實際區域要大許多。而對于(b)中較大的目標，因其像素較多而語義信息充足，因此其感受野區域能夠包含目標的原像素即可。為了獲取目標不同尺度的特征從而得到更加魯棒的目標表觀特征，選擇了如圖4 所示綠色虛線框中的4 個模塊，分別是不同層次特征層中的最后一層作為目標的表觀特征提取層，且在每個特征提取層后分別經過一個3×3 的卷積層以改變特征圖的通道數，使提取到的特征向量長度保持一致。最后，將從這4 個特征層提取到的特征向量拼接在一起，得到目標的表觀特征向量，如式(4)所示。

圖3 目標大小與合適感受野

圖4 目標表觀特征提取

式中:f 表示不同特征提取層經過3×3 卷積后再通過目標相對中心點位置Cr提取得到的特征向量，其維度均為130 維。將不同特征提取層提取到的特征向量通過首尾相連的方式得到目標最終特征向量F，其維度為520 維。

為了使后續目標關聯網絡的輸入大小一致，必須保持每張圖像得到的目標表觀特征向量個數一致，對于圖像中的目標數未達到設定的最大目標數Nm的情況，通過添加零向量來對目標表觀特征向量個數進行補充。通過統計訓練集中圖像所包含的最大目標數量，設置總目標個數Nm=80 且假設測試集中的目標個數同樣不超過80 個。

2.3 目標關聯網絡分支

目標關聯網絡分支連接在特征提取層之后，用于學習預測目標間表觀特征向量的相似度。如圖5 所示，骨干網絡提取到前后幀所有目標的特征后，通過前后幀目標兩兩組合的方式得到前后幀的目標表觀特征矩陣Ft1，t2∈R80×80×1040。將此矩陣輸入到由1*1 卷積堆疊構成的目標關聯網絡中，經過多層卷積及通道縮減操作，最終得到幀間目標的相似度匹配矩陣Mt1，t2∈R80×80。關聯網絡中1*1 點卷積的設計使關聯網絡對幀間目標進行相似度計算，有效降低了網絡的計算量。網絡卷積的輸出通道數量依據512、256、128、64、1逐漸減小，以使目標表觀特征矩陣能夠逐漸映射得到相似度匹配矩陣。

圖5 目標關聯網絡預測過程

由于圖像序列的跟蹤過程中往往存在前幀目標在后幀中消失或者新的目標在后幀中出現的情況，因此，在相似度匹配矩陣中增加一列新的向量來表示目標消失的可能性。目標關聯網絡分支的匹配損失函數設計如式(5)所示。

式中:Lm用于計算目標關聯網絡預測的相似度匹配矩陣中每一行與真實相似度匹配矩陣中每一行的交叉熵;i 表示行的索引;Yi表示真實的相似度匹配矩陣第i 行;表示預測的相似度匹配矩陣第i 行。真實相似度匹配矩陣的構成如圖6 所示。圖中2 張圖像分別為視頻序列的前后幀。相似度匹配矩陣的列代表前幀的目標序號，行代表后幀的目標序號。X 表示目標數不足而填充的表觀特征為零向量的目標，DP 表示目標消失的可能性，兩兩目標的值表示目標間的相似度。圖6 中前后圖像的目標匹配結果為前幀目標1、2 與后幀目標1、3 匹配，前幀目標3、4 消失，后幀目標2 為新出現的目標，目標X 不會與任何目標進行匹配。

圖6 真實匹配矩陣

2.4 多目標跟蹤過程

雖然通過對相似度匹配矩陣使用匈牙利算法能夠得到兩幀中目標間的匹配跟蹤結果，但是對當前幀進行目標跟蹤時，若僅考慮前一幀的目標表征信息是不充分的。在進行目標跟蹤時，除了目標的表觀特征匹配，還將軌跡中多個目標的表觀特征與當前需跟蹤的目標的表觀特征進行匹配，其中軌跡表示跟蹤序列中屬于同一目標的目標集合。通過這種匹配方式，對于每條軌跡中偶爾出現的錯誤匹配不會影響到后續目標的正確匹配，增強了目標匹配的魯棒性。同時，還考慮了目標之間的空間關系，即通過前后幀目標間邊框的交并比進一步約束目標間的匹配。通過將目標的表觀特征匹配、目標的整個軌跡匹配以及目標空間關系約束相加融合得到最終前后幀目標的匹配矩陣。

對于目標的出現和消失情況，若一條軌跡在fum=5 幀中沒有任何目標與其匹配，則認為該軌跡所對應的目標已經消失。此外，考慮到目標可能出現誤檢測的情況，因此，對于沒有任何軌跡與檢測到的目標進行匹配的情況，則設該目標為待定目標;如果接下來連續2 幀都有目標與其匹配，則將該待定目標確認為新出現的目標，同時加入作為已確定軌跡?；谀繕似ヅ浣Y果，目標跟蹤策略如下:

步驟1檢測當前幀所有目標。若當前幀為初始幀，為每個對象新建一個已確定軌跡，將對象的特征向量分別加入對應的已確定軌跡中，跳轉到步驟4;若當前幀不是初始幀，將目標與軌跡進行相似度匹配，得到目標與軌跡的表觀匹配矩陣。

步驟2通過IOU 計算目標與軌跡的空間匹配矩陣，結合表觀匹配矩陣得到當前目標與已匹配軌跡的最終匹配矩陣。對匹配矩陣使用匈牙利算法，可得到未匹配的目標、未匹配的已確定軌跡、未匹配的待確定軌跡、匹配到的已確定軌跡和目標以及匹配到的待確定軌跡和目標。

步驟3對于未匹配目標，設定為待確定軌跡;對于未匹配的已確定軌跡，則將其未匹配次數加一，如果軌跡的未匹配次數大于fum，則認為該軌跡所對應的目標已經消失，并刪除該軌跡;對于未匹配的待確定軌跡，刪除該軌跡;對于匹配到的已確定軌跡和目標，則將匹配到的目標加入軌跡中，若軌跡中的目標數大于m，則刪除軌跡中最早加入的目標;對于匹配到的待確定軌跡和目標，將匹配的目標加入軌跡中且其連續匹配數加一，若待確定軌跡的連續匹配數大于等于3，則變為已確定軌跡。

步驟4對下一幀圖像進行跟蹤，跳轉到步驟1。

3 實驗與分析

考慮到自動駕駛場景下最頻繁出現的行人目標，使用目前多目標跟蹤領域廣泛使用的多目標行人跟蹤數據集MOT17。由于MOT17 的測試集中不包含真實跟蹤標簽，而測試集的評價結果只能有限次地在MOT Challenge 官網提交。因此，為了更好的對本算法進行評價，在進行消融實驗時選取了訓練集中一個較長的視頻序列作為驗證集。

3.1 多目標行人跟蹤數據集MOT17

相對于其他目標，作為分剛體目標的行人目標擁有豐富的姿態變化，因此對該類目標進行準確檢測［20］和跟蹤是目前該領域的難點。MOT17的訓練集和測試集各包含7 個視頻序列，每個視頻序列均在不同的場景下拍攝，且每個場景的背景都較復雜，行人的數量多且密集，最多時高達80人。同時，行人間存在頻繁地交互及遮擋現象，某些場景下的行人目標較小，還有些視頻含有拍攝鏡頭不斷移動的情況。復雜的背景以及過多的小目標使得目標檢測算法很難對所有目標進行精準檢測，鏡頭移動造成的目標差異過大、多個目標的頻繁交互以及遮擋等情況使得跟蹤算法很難對目標保持精準跟蹤，因此在MOT17 數據集上實現多目標跟蹤具有很大的挑戰性。

3.2 評測標準

多目標跟蹤中最重要的評價指標為MOTA，該指標表示了多目標跟蹤的跟蹤準確性，其由3 個部分組成，分別為FP、FN、ID Switch。FP 為誤判數，表示錯誤檢測的目標數。FN 為缺失數，表示某個已知軌跡本能匹配某個目標，卻未與該目標匹配的次數。ID-Switch 為誤匹配數，表示某個已知軌跡錯誤的匹配到了不屬于該軌跡的目標的次數。MOTP 表示跟蹤到的目標的位置與真實位置的誤差，該指標衡量了跟蹤估計目標位置精確度的能力。Hz 表示算法每秒鐘能處理的幀數，該指標在本文中衡量了多目標跟蹤算法的跟蹤速度。除了上述較重要的指標外，還有IDF1、MT 和ML，分別表示正確識別的檢測與平均真實數和計算檢測數之比、預測軌跡占該正確軌跡的80%的軌跡相對所有軌跡的比例、預測軌跡的丟失數占該正確軌跡的20%的軌跡相對所有軌跡的比例。

3.3 訓練細節

實驗環境是Ubuntu 16.04，使用單張RTX 2080Ti 對模型進行訓練。訓練步驟分為3 步，第1步:凍結目標關聯網絡分支以及特征提取層后的3×3 卷積層的參數，使用CrowHuman 行人檢測數據集，通過目標中心點檢測損失函數訓練骨干網絡DLA34，輸入的圖片分辨率大小為512×512。訓練的batchsize 大小為64，訓練周期數為140。初始學習率設置為0.025，在第90、120 個周期時分別降低10 倍學習率。第2 步:將第1 步得到的模型作為預訓練模型，凍結目標關聯網絡分支以及特征提取層后的3×3 卷積層的參數，使用MOT17 數據集，通過目標中心點檢測損失函數訓練骨干網絡DLA34，輸入的圖片分辨率大小為544×960，batchsize 大小為16，訓練周期數設置為70。初始學習率設置為0.000 125，在第60 個周期時降低10 倍學習率。第3 步:凍結骨干網絡的參數，使用MOT17 數據集，通過匹配損失函數訓練目標關聯分支以及特征提取層后的3×3 卷積層，輸入的圖像分辨率大小為544×960，batchsize 大小為3，訓練周期數為35。初始學習率設置為0.01，在第13、22、28、35 個周期時分別降低10 倍學習率。

3.4 實驗結果與分析

為了獲取目標不同尺度的特征，結合各個目標的感受野區域考慮，選擇在骨干網絡中第4、8、16、32 倍下采樣分辨率特征層中的最后一層作為目標表觀特征的提取層。為了探究不同的特征提取層對于跟蹤結果的影響，選擇如圖4 紅色虛線框所示的更高層的特征提取層來進行對比。對于不同特征提取層的選取，在MOT17 測試集上的實驗結果如表1 所示，↑表示該指標的值越高越好，↓表示該指標的值越低越好。從表1 中可以看出，使用更高層的特征提取層的目標表觀特征進行匹配跟蹤時的ID Switch 個數有明顯增加，跟蹤過程中出現了更多誤匹配的現象。因此，相對于本文選取的特征提取層，更高層的特征提取層并不能提取到更有區分性的表觀特征。

表1 特征提取層選取

在跟蹤過程中，考慮了軌跡允許存在的最大目標數以及軌跡允許存在的連續最大未匹配次數。對于軌跡中允許存在的最大目標數，若個數過多會造成軌跡中最早加入的目標與后續目標的位移與姿態相差過大而很難進行正確匹配，若個數較少會造成軌跡中最后加入的錯誤匹配目標繼續匹配到錯誤的目標。對于軌跡允許存在的連續最大未匹配次數，若次數過多則會造成本已經消失的軌跡再次與目標進行匹配，若次數過少會因軌跡對應目標偶爾出現的遮擋情況被判定軌跡已經消失而無法再次參與匹配。對于這2 個參數的不同設定，在MOT17 測試集上的實驗結果如表2所示，當軌跡中的最大目標數為5 且軌跡允許存在的連續最大未匹配次數為5 時，達到最高的跟蹤準確度。

表2 跟蹤參數設定

表3 為目前先進的在線和離線跟蹤方法的結果。雖然離線跟蹤比在線跟蹤使用了更多的目標跟蹤信息，但本文的方法在各個指標下仍然超越了離線跟蹤方法?？梢钥吹剑瑢τ贛OT17 測試集，本文提出的方法在3 個指標上均優于其他方法，且在其他指標上仍然具有競爭力。同時，考慮了包括目標檢測過程的整個跟蹤過程的預測速度，對于部分論文，其跟蹤速度指標僅計算了跟蹤匹配的過程，未考慮目標檢測的時間消耗，因此對于包含目標檢測過程的整個多目標跟蹤過程，部分方法的跟蹤速度要小于其原文的跟蹤速度。

表3 各種算法的結果

4 結論

提出了一種基于目標關聯學習的端到端多目標檢測與跟蹤方法。該方法使用單一的骨干網絡同時實現了視頻幀中的目標檢測及對目標的表觀特征提取。不同于傳統的“tracking-by-detection”方法訓練額外的網絡來提取目標特征，該方法的目標特征提取過程不增加任何計算量。目標特征提取后，設計了目標關聯網絡分支來直接學習目標間的特征關聯性，從而得到目標之間的匹配跟蹤結果。整個跟蹤過程基于一個端到端的網絡結構，避免了重復輸入檢測后的目標進入特征提取網絡進行特征提取，有效增加了跟蹤速度，同時，基于目標感受野的特征提取層選取以及關聯網絡分支對兩兩目標進行相似度預測的方式，有效增加了多目標跟蹤的準確性。

雖然也考慮了基于空間的目標IOU 匹配方法，但是目標檢測邊框的準確性會對匹配結果造成嚴重的影響，因此，未來會考慮目標間新的空間關系來進行目標間更準確的空間信息匹配，并結合表觀特征進行更加準確的多目標跟蹤。