999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的視覺多目標跟蹤算法綜述

2021-07-14 16:21:30盧煥章張路平胡謀法
計算機工程與應用 2021年13期
關鍵詞:關聯深度特征

張 瑤,盧煥章,張路平,胡謀法

國防科技大學 電子科學學院 自動目標識別重點實驗室,長沙410073

隨著人工智能技術的飛速發展,基于計算機視覺技術的智能監控系統、自動駕駛領域較以往取得了重大的突破,進一步減少了人力資源的浪費,提高了安防和交通領域的安全性。視覺多目標跟蹤技術是這些領域中的關鍵基礎性技術之一,視覺多目標跟蹤算法的準確魯棒性對于進一步提升高層智能應用的安全有效性具有重要意義。然而,當前視覺多目標跟蹤技術還面臨著較大的挑戰,首先,視覺多目標跟蹤需要解決單目標跟蹤中存在的諸如目標形變、場景環境變化等挑戰之外,還面臨著由于目標數量不確定所帶來的實時目標數量更新及維持目標各自身份(Identity,ID)的任務,因此視覺多目標跟蹤還需要處理更為復雜關鍵的問題諸如:目標數量不確定、頻繁目標遮擋、同類目標的相似度區分等。具體來說,在安防監控和自動駕駛應用中,目標頻繁進出視野是普遍且正常的行為,這就導致了多目標跟蹤所面對的目標數量是不確定的,這就要求多目標跟蹤算法必須具備實時檢測定位場景中出現的感興趣目標數量。在場景復雜的情況下,背景對于目標的遮擋,以及目標與目標的遮擋會造成目標遮擋再出現時目標身份切換(ID switch,IDs),這就要求算法必須提取到魯棒的目標特征,在短時和長時的遮擋過后,保持遮擋前后目標ID一致性。多目標跟蹤任務要求維持同一目標的ID,同類目標表觀相似度較高且具備相似的行為,對穩定維持正確目標ID 帶來了進一步的挑戰,算法必須具備提取同類目標可分性特征。

視覺多目標跟蹤的目的是利用數字圖像處理技術穩定跟蹤圖像序列中的多個感興趣目標,得到各個目標在每一時刻正確位置。近幾年隨著基于深度學習檢測算法的精度較傳統算法性能大幅度提高,視覺多目標跟蹤隨之取得了較大的突破?;谏疃葘W習的視覺多目標跟蹤算法的應用基本覆蓋了空海地多個典型場景[1-3],但較為詳細的關于視覺多目標跟蹤綜述論文較少,已有的相關綜述[4-5]一部分是基于傳統方法的在雷達領域應用較多且運算比較復雜的數據關聯算法,與當前主流的多目標跟蹤方法存在較大的差異,另一部分較新的關注了基于深度學習的視覺多目標跟蹤方法,重點是基于檢測的多目標跟蹤方法[6-7]。本文根據視覺多目標跟蹤框架的不同,將基于深度學習的視覺多目標跟蹤方法分為DBT與JDT兩類算法展開論述,闡述深度學習在兩種框架中的模塊功能及優缺點,結合公開數據集對比分析基于深度學習的視覺多目標跟蹤方法,通過進一步提升檢測器性能、更好地在多目標跟蹤任務中融合單目標跟蹤、拓展基于深度學習的數據關聯等方面提升多目標跟蹤的性能。

本文第1 章首先對基于深度學習的視覺多目標跟蹤技術及相關數據集進行總體概述,在第2 章和第3 章分別闡述基于深度學習的DBT與JDT兩種視覺多目標跟蹤框架,第4章對近年來在公開數據集中性能優異的視覺多目標跟蹤方法進行實驗比較分析,第5章基于前面的討論,對未來可能研究方向進行展望。

1 基于深度學習的視覺多目標跟蹤概述

基于深度學習的視覺多目標跟蹤算法從不同的角度有不同的綜述方法,本文結合該領域最新技術的發展趨勢,從算法分類、相關數據集、算法評價指標三個方面對基于深度學習的視覺多目標跟蹤進行概述。

1.1 基于深度學習的視覺多目標跟蹤算法分類

隨著深度學習技術在與視覺多目標跟蹤相關任務中的應用且取得的巨大成功,當前基于深度學習的視覺多目標跟蹤技術框架呈現較為兩階段模式,即基于目標檢測結果進行數據關聯實現多目標跟蹤的DBT 模式。DBT 是當前基于深度學習的視覺多目標跟蹤中的主流方法,但是從深度神經網絡的結構來看,DBT中的子模塊如特征提取等可以融合在目標檢測網絡中,基于DBT中子模塊的融合,聯合檢測跟蹤,即JDT模式,用一個深度網絡框架實現視覺多目標跟蹤是近兩年發展的新趨勢。

基于上述分析,本文將基于深度學習的視覺多目標跟蹤技術分為基于深度學習的DBT與基于深度學習的JDT 模式,再具體分析兩種模式的結構,闡述深度學習在這兩種框架中實現的功能,具體分類結構如圖1 所示。同時先將文中典型的基于深度學習的DBT算法及JDT 算法的特點、優缺點等整理成表1[8-11]和表2[12-15]所示,后續在文中再對各個流派中的算法進行詳細展開,拓展分析。

圖1 基于深度學習的視覺多目標跟蹤算法分類

表1 基于深度學習的DBT算法

表2 基于深度學習的JDT算法

1.2 數據集

深度學習相較于傳統機器學習方法的優勢在于自動學習給定數據中適用于指定任務的特征,數據集對于基于深度學習的計算機視覺方法非常重要。因此,對當前在視覺多目標跟蹤任務中常用的數據集進行搜集概述得到結果如表3 所示。當前90%以上的視覺多目標跟蹤算法應用領域都集中在行人和車輛目標,行人和車輛多目標跟蹤數據集成為主流,這也與近十年來視覺多目標跟蹤算法數據集引用頻率結果相對應。Multiobject Tracking(MOT)行人數據集[16-18]由于更新頻率高,數據集場景更貼合現實等因素,許多最新的性能表現優秀的算法都在MOT數據集中進行驗證,MOT數據集已經成為了視覺多目標跟蹤領域最令人關注的數據集,因此,本文重點對MOT數據集進行闡述。

表3 視覺多目標跟蹤數據集總結

MOT 數據集源于MOTChellenge 多目標跟蹤挑戰賽,針對目標檢測器性能對最終評價指標影響過大,將賽道分為基于公開檢測的賽道和基于私人檢測的賽道,MOT數據集詳情如表4所示。其中MOT15是采集舊的數據集視頻進行修正,而MOT16是全新的數據集,相對MOT15 行人密度更高、難度更大,MOT17 的視頻內容與MOT16一致,但提供了3個檢測器檢測結果,MOT20是最新發布的MOT 數據集,增加了8 個全新的稠密人群視頻系列,行人密度進一步增加。

表4 MOT數據集

1.3 評價指標

為了客觀公平地比較視覺多目標跟蹤算法的性能表現,設置合理精確的評價指標尤為重要。目前視覺多目標跟蹤算法中使用的指標有經典的CLEAR MOT指標[19]、較新的ID 指標[20],再加上多數跟蹤正確軌跡(Mostly Tracked trajectories,MT)、多數跟蹤失敗軌跡(Mostly Lost trajectories,ML),其中CLEAR MOT 評價指標是最為重要的體現算法性能的評價指標,下面對CLEAR MOT進行介紹。

CLEAR MOT 根據目標跟蹤框與觀測框IOU 閾值及目標跟蹤的正確穩定性,建立基礎的評估指標如下所示。

錯誤正樣本(False Positive,FP):整個視頻中被預測為正的負樣本數。

錯誤負樣本(False Negatives,FN):整個視頻中被預測為負的正樣本數。

IDs:跟蹤過程中目標ID切換總數。

基于這3個基礎性指標,構建最常用的多目標跟蹤準確度(Multiple Object Ttacking Accuracy,MOTA)和多目標跟蹤精度(Multiple Object Ttacking Precision,MOTP)如式(1)和(2)所示:

其中,GT是所有真實值的數目,dt,i和ct分別表示匹配對之間的距離度量和第t幀匹配成功的檢測框數目。MOTA基于FN、FP、IDs綜合判定跟蹤錯誤次數,體現跟蹤算法的準確度,而MOTP 則更偏向于檢測器,主要根據目標預測框和真實值的邊界框重疊度計算跟蹤精度。

2 基于深度學習的DBT算法

DBT的一般流程圖如圖2所示,由于相似度分析與特征提取同步進行,因此下面根據深度學習在目標檢測、特征提取、數據關聯3 個主模塊中實現的功能和在多目標跟蹤中提高的性能效果展開論述。

圖2 DBT框架視覺多目標跟蹤流程圖

2.1 基于深度學習目標檢測的DBT算法

隨著卷積神經網絡(Convolution Neural Networks,CNN)模型不斷發展完善[21],深度學習在圖像分類任務的優異表現甚至超過人類,基于CNN的目標檢測算法也隨之取得了飛速的發展。從2014年至今,Region-based Convolutional Neural Networks(R-CNN)系列檢測器[22-24]、Single Shot MultiBox Detector[25](SSD)、You Only Look Once(YOLO)系列檢測器[26-29]等一批優秀的開源深度神經網絡,大幅度增強了目標檢測能力?;趩螏瑘D像檢測能力的增強,多目標跟蹤任務呈現出從初始的關注計算量復雜的數據關聯優化算法如聯合概率數據關聯[30](Joint Probabilistic Data Association,JPDA)和多假設跟蹤[31](Multiple Hypothesis Tracking,MHT)趨向于依賴于檢測結果的DBT框架。

SORT[9]是最早利用卷積神經網絡檢測行人的多目標跟蹤算法之一,該算法在傳統的匈牙利關聯算法基礎上,將Aggregate Channel Feature(ACF)檢測替換為Faster R-CNN 目標檢測網絡,在MOT15 行人數據集上取得了驚人的突破,將多目標跟蹤準確度提高了18.9%,算法的運行速度高達60 Hz。該算法的突出表現,引起了研究者的廣泛關注,但是該算法的數據關聯部分僅簡單地依賴于檢測框的交并比(Intersetion over Union,IOU),造成對于目標的相互遮擋適應性不強,密集行人的跟蹤效果較差,它的后續改良版本是DeepSort[10],與SORT相比,進一步提取穩定的表觀特征,提高了目標遮擋情況下算法的表現,但也大幅度降低了算法的運行速度。針對Faster R-CNN檢測器帶來的復雜計算量以及檢測質量不佳的問題,Yu 等[32]通過去池化[33]和提取多尺度特征[34]技術改進適用于多目標跟蹤任務的Faster R-CNN,使得檢測模塊的精度和速度上進一步提高,同時證明了在具備高質量檢測結果后可以減少多目標跟蹤數據關聯部分的復雜度而可以達到相近的多目標跟蹤結果。

SSD、YOLO 等深度網絡檢測器同樣被一些學者引入視覺多目標跟蹤。Zhang 等[35]、Lu 等[36]使用單階段的SSD作為檢測器,分別實現了對單類目標和多類目標的多目標跟蹤任務,由于YOLO 系列具有更快的檢測速度,后續的YOLO版本更是在目標檢測精度與目標速度上達到了均衡,也常被用為視覺多目標跟蹤的檢測模塊。Kim 等[37]針對行人密集情況下進行多目標跟蹤的計算花銷過大,引入YOLO算法在檢測階段進一步降低了計算量。高新聞等[38]將YOLO v3 作為檢測器,結合SORT 算法的框架,成功地將SORT 算法應用于實際的交通異常監控中,但是對于場景中目標較多的情況下產生較多的IDs。

2.2 基于深度學習特征提取的DBT算法

視覺多目標跟蹤任務中,通常關注目標的表觀特征和運動特征,下面分為基于深度學習的表觀特征提取和運動特征提取進行展開。

2.2.1 基于深度學習的表觀特征提取

面向目標跟蹤任務,基于深度學習的表觀特征提取的是目標同類可分性特征,提取的表觀特征是更類似于視覺身份重識別(Re-identification,REID)領域所提取的特征。目前,基于行人的REID 已經取得了較大的進展[39],根據表觀特征提取網絡結構可劃分為基于經典的CNN和基于孿生網絡[40]兩類。

Wang等[41]首先提出了在多目標跟蹤中使用深度學習提取表觀特征的方法,提出了一個自編碼器網絡,用于改進提取的視覺特征,將多目標關聯任務轉換為最小生成樹問題,提取到的特征大幅改善了多目標跟蹤算法的性能,實驗結果表明了基于深度學習的表觀特征提取對于視覺多目標跟蹤性能的提升。受此啟發,Kim 等[8]嘗試在傳統的數據關聯算法中基于深度學習方法提取表觀特征,使用預先訓練的CNN 將提取的視覺特征嵌入到MHT算法中,實驗表明傳統的MHT數據關聯算法MOTA 較之前提高了3 個百分點,但是MHT 固有的隨目標數量增加所帶來的復雜計算量仍限制其進一步提升性能。受到深層骨干網絡對于圖像分類的加成作用啟發,Yu等[32]使用改進的GoogleNet[42]在大規模REID數據集中進行預訓練,將獲得的表觀特征與空間運動特征相結合獲得更為精確的代價矩陣。SORT 的改進版是DeepSORT,其改進在于加入了基于ResNet 網絡[43]提取的預訓練表觀特征向量,將特征之間的余弦距離作為代價矩陣嵌入SORT 算法,較好地解決了SORT 算法中存在的明顯IDs 問題。后續許多學者如Mahmoudi 等[44]、Bea等[45]、Fang等[46]、Sheng等[47]、Chen等[48]也都采用類似的GoogleNet、ResNet、InceptionNet[49]等CNN 網絡,通過改變任務相關的訓練數據,改進相關的損失函數,學習得到具備同類目標之間可區分的表觀特征,嘗試提取更為魯棒的表觀特征,但是特征提取骨干網絡的加深并未給多目標跟蹤性能帶來進一步突破性的提升。除了改善升級骨干網絡之外,候建華等[50]引進視覺注意力機制,有效克服了遮擋問題后,針對其在特征融合階段易丟失不同通道空域結構信息的不足進行了改進,提出用交并比代替加權池化進行特征融合,提高了關聯精度。目前通過經典CNN獲取目標表觀特征效果最顯著的是文獻[51]提出的AP_HWDPL_p,它利用多個CNN 的特征融合得到目標的表觀特征,同時為每個目標對象保留歷史外觀模型,在MOT 數據集上的獲得了較為靠前的排名,但是設計的CNN結構過于復雜,運算量巨大。

除了經典的CNN 網絡之外,孿生網絡是當前提取同類目標可區分表觀特征的代表性網絡。Kim 等[52]提出了使用對比損失進行訓練的孿生網絡如圖3所示,當前獲取目標REID 特征的主流方式是基于損失函數的REID算法,通過改進損失函數,獲取更具同類目標區分度的表觀特征。其中,Zhang等[53]提出了一個損失函數,稱為SymTriplet損失,獨特點在于這個網絡結構具有三條相同的CNN支路,訓練階段輸入三個圖像目標,形成兩個正負對,通過SymTriplet使得網絡學習到同一目標獨特的表觀特征。Leal-Taixé 等[54]提出了一種Siamese CNN,輸入兩個包含目標的圖像塊,輸出兩個圖像中目標屬于同一目標的概率,使用類似的輸出對網絡進行訓練以學習到最具代表性的表觀特征。Son等[55]提出了一種新的類孿生網絡體系結構,稱為Quad-CNN,該模型在三條CNN 支路的基礎上又增加了一條支路,采取類似的損失函數訓練網絡,網絡使用學習到的嵌入表觀特征進行兩次檢測,正確判決了檢測結果為同一目標的概率。隨著孿生網絡結構分支從兩個到四個的增加以及對應損失函數的改進結果表明了多支路的孿生網絡對于跟蹤任務具備更好的適用性。除了CNN 網絡外,魏穎等[56]嘗試用生成對抗網絡學習到目標的主要特征與精細特征,并同樣用生成對抗網絡生成多目標運動軌跡,實驗表明該試驗減少了IDs,但是準確度的提升并不高。

圖3 孿生網絡結構圖

2.2.2 基于深度學習的運動特征提取

除了表觀特征外,運動特征也是多目標跟蹤中常提取的有效特征,但是通過深度學習提取運動特征通常網絡結構更為復雜,計算量較大。因此,大多數的多目標跟蹤算法中更趨向于基于深度學習提取更精確的表觀特征,采用較為簡單的傳統方法提取運動特征作為輔助特征。

但為了解決在復雜場景下,表觀特征難以獲取的情況,僅利用運動特征完成跟蹤任務非常必要。一些學者利用深度學習方法進行運動特征提取作了許多工作。Rosello等[57]在算法中用強化學習框架得到運動特征,沒有采用任何視覺信息,因此作者認為該算法可以改善經典算法性能受視覺特征影響很大的不足,但由于在訓練數據集上進行測試,因此實驗結果并不可靠。此外,Babaee 等[58]提出了一種長短時記憶網絡(Long Shot Memory Network,LSTM),該LSTM學習圖像目標序列過去的運動特征,再預測當前目標的運動特征,結合IOU使用貪婪算法得到多目標跟蹤結果,由于網絡學習到了大量過去幀的目標運動,該方法有效地減少了目標IDs頻率。

2.3 基于深度學習數據關聯的DBT算法

DBT模式中,優化算法和關聯代價是數據關聯的兩大關鍵部分。目前,基于深度學習的數據關聯算法偏向于獲取有效的深度特征提升關聯度量部分,在優化算法提升較少。

2.3.1 基于深度學習數據關聯DBT算法分析

當前,基于深度學習的數據關聯方法更多的是設計合理的融合表觀特征和運動特征的代價矩陣,從而簡單的進行相鄰幀的匹配[59]。直接基于深度學習用于數據關聯算法執行跟蹤算法仍處于起步階段,Xu 等[60]提出的TrctrD15 算法直接根據視覺多目標跟蹤的評價指標特性設置損失函數,設計了一個深度匈牙利網絡,輸入相鄰幀目標之間的距離矩陣,直接輸出有利于提高評測指標的代價矩陣,這種訓練方式提升了多目標跟蹤的性能指標,但是將匈牙利算法替換為深度匈牙利網絡帶來了更多的計算,影響算法的運行速度。針對各種數據關聯階段計算量復雜的問題,Pang 等[11]提出的TubeTK 克服了提取REID 特征帶來了計算量,直接通過對目標的時空位置和局部移動軌跡進行編碼,一步到位跟蹤多個目標,不受外部檢測結果的影響,也得到了當時最先進的性能。基于深度循環神經網絡(Recurrent Neural Network,RNN)在運動預測和狀態更新任務上表現良好,使用RNN 網絡或其衍生網絡可以更好地保留歷史信息,得到更準確的目標關聯結果。Fang 等[61]提出的RAR15 在RNN 的基礎上,提出一個循環自回歸網絡(Recurrent Autoregressive Network,RAN),通過耦合內外存儲結構描述隨時間變化的多目標表觀和運動狀態變化,通過RAN的外層記憶每個軌跡的先前輸入,而內部存儲結構處理外部存儲結構學習總結長期跟蹤軌跡并關聯檢測,其有效性在MOT15及MOT16中高度擁擠和遮擋場景中得到驗證,但RAN 結構對于長期跟蹤存在優勢,對于存在視野中時間較短的目標跟蹤效果較差。Kim 等[62]針對結合長期表觀模型也難以有效解決目標嚴重遮擋和多次漏檢情況下的困境,提出一種新型的雙線型LSTM 改進長期表觀模型,改進在于將傳統LSTM中的加性耦合改變為乘性耦合,跟蹤性能有部分提升,但沒有完全學習好目標的時空特征。Milan等[63]、Yoon等[64]類似地利用RNN及其衍生網絡得到幀間目標的關聯信息實現多目標跟蹤數據關聯問題。

楊博等[65]在基于紅外目標特性的基礎上,由于目標的特殊性,其采取兩層數據關聯的方式,在未借助深度學習的情況下獲得了更為精確的結果,提高了算法的抗干擾性能,但手工特征較差,效果有待進一步加強?;谶@種策略,高燕[66]和方嵐等[67]在分層關聯策略基礎上,進一步通過深度學習提高提取外觀特征的手段,改善了長時多目標跟蹤及遮擋情況下的跟蹤準確度。

2.3.2 基于深度學習數據關聯算法輕量化分析

通過2.3.1小節基于深度學習的數據關聯方法研究距離現實應用還存在一定距離,主要體現在算法進行特征提取關聯度量的過程存在較為復雜的計算量,在實際算法進行邊緣化設備部署時算法的性能往往不佳。

關聯度量過程的主要計算量來自于基于深度學習神經網絡的特征提取,因此通過對當前神經網絡主流輕量化方法列舉如表5 所示。主流的神經網絡輕量化可以運用到多目標跟蹤的數據關聯部分,用以提升算法的運行速度。

表5 主流神經網絡輕量化趨勢

另一方面,從數據關聯DBT算法自身設計出發,從SORT 中可知,通過單純引入簡單的特征可以實現快速的檢測目標數據關聯,缺點在于存在較多的IDs,而此后的DBT類算法著重于提高多目標跟蹤算法的跟蹤準確度及減少IDs,引入各種復雜的表觀特征根及運動特征,加之各種深度學習模塊技巧的堆疊,多目標跟蹤算法設計得越來越臃腫。DBT類算法中,由于檢測模塊與數據關聯模塊的分離,使得兩個模塊之間的融合度較差,檢測模塊與數據關聯模塊中存在較多的冗余,因此,JDT類算法框架可以降低兩者間的冗余,通過共享同一網絡結構,降低算法復雜度的同時通過增加子模塊之間的耦合度還可以進一步增加算法的準確度。

3 基于深度學習的JDT算法

近兩年興起的JDT類算法框架在減輕了DBT類框架復雜度的同時,也提高了多目標跟蹤的精度。它的策略是在DBT的基礎上對部分功能模塊進行一定程度上的融合,降低分階段處理帶來的算法復雜性同時增加功能模塊之間的耦合度。總體來說有三個方向,首先結合深度神經網絡的特性,改造檢測網絡,將跟蹤任務融入進檢測網絡,使網絡學習到序列幀目標之間的關聯概率;其次,利用單目標跟蹤任務與多目標跟蹤任務之間強烈的關聯性,融合單目標跟蹤領域優秀的算法;此外,在一個網絡中同時學習到表觀和運動特征,實現深度特征的融合。

3.1 基于深度目標檢測網絡改進的JDT算法

從上述分析可知,多目標跟蹤的結果對于前端的目標檢測網絡依賴性很高,為了進一步實現算法的簡潔性,實現檢測跟蹤兩階段的權值共享,改進高性能的目標檢測網絡用以實現多目標跟蹤算法成為了近年提高多目標跟蹤評價指標的研究熱點。

文獻[68]最先嘗試改進目標檢測網絡加入跟蹤分支,將兩階段的R-FCN[69]目標檢測網絡的第一階段所獲得的多尺度特征圖進行交互,第二階段增加了一個偏移量回歸的任務,即將多目標跟蹤任務轉換為相鄰兩幀圖像目標位置的相對偏移量的匹配問題,實驗驗證算法有效地提高了視覺多目標跟蹤的精度和速度。但是實質上仍然是兩階段的多目標跟蹤算法,為了進一步融合跟蹤模塊,Bergmann 等[12]提出全新的聯合檢測跟蹤Tracktor++框架,將類似Faster R-CNN中的RPN模塊用數據中的跟蹤框與真實框替代,利用簡單輕量的數據關聯算法實現跟蹤框和觀測框的匹配,用一個深度檢測網絡生成整個跟蹤序列結果,在當時MOT 挑戰賽排名居于前列,第一次將目標檢測和數據關聯兩個模塊融合,融合之后檢測模塊對于最終的跟蹤結果更為關鍵。因此,受Tracktor++框架啟發,Zhang 等[70]進一步改進檢測網絡,增加預測光流特征模塊,學習相鄰幀偏移量。Huang 等[71]也在改進運動模型、表觀模型和數據關聯部分后,進一步提高了Tracktor++框架的性能表現,這種模式的局限性還是在于功能模塊之間的融合度不高。因此,Peng 等[72]提出的CTrack 將目標檢測、特征提取、相似度計算3個任務集成到同一個端對端的網絡結構中,借助鏈式結構和成對注意力回歸技術使得CTrack變得簡單快速有效。

針對Trackor++模式,上述改進的不足在于,目標檢測算法都是基于錨框,除了在檢測小目標和目標數量較多情景下效果不好之外,還帶來了更多的計算量。

Zhou 等[73]受到JDT 模式的啟發,通過將Faster R-CNN變換為基于無錨框模式的CenterNet設計了一種多目標跟蹤算法,即CenterTrack[15],將多目標跟蹤問題轉化為非常簡單的基于目標中心點的跟蹤,同時實現了二維和三維多目標跟蹤,包括人和車輛,在MOT、KITTI等數據集上均取得了SOTA 的成績。但是其局限性在于CenterTrack 并未提取重識別特征,在目標長時丟失情況下IDs 情況較多。同時為了解決CenterTrack 對帶標注數據的需求,Karthik等[74]提出的UnsupTrack采用無監督的方式預測生成標簽并結合CenterTrack,無需跟蹤監督就在流行的公開數據集上實現了最新的性能。

3.2 基于單目標跟蹤融合的JDT算法

單目標跟蹤任務與視覺多目標跟蹤任務具有強相關性,單目標跟蹤算法中具備單個目標跟蹤所應具備的運動與表觀特征,隨著單目標跟蹤領域的快速發展,近年來融合單目標跟蹤進行多目標跟蹤的算法也不斷出現。

Zhu 等[75]提出的DMAN 將基于改進版ECO[76]的單目標跟蹤模塊嵌入多目標跟蹤的網絡結構中,利用網絡中包含目標定位和分類信息的響應圖信息提取到目標特征,實現了端對端的多目標跟蹤。Chu 等[77]提出的FAMNet和Yin等[78]提出的UMA Tracker,類似地利用單目標跟蹤中的孿生網絡模塊隱式獲得目標特征,在數據關聯模塊分別采取時空注意力機制、降低多幀關聯復雜度等方式,得到了較好的跟蹤結果,但這種機制不可避免的在目標較多及目標隨意進出的場景下效果不佳。此外,Feng 等[79]針對遮擋問題導致的目標軌跡碎片過多,提出了LSST,借鑒單目標跟蹤領域中快速精確的SiamRPN 框架獲取短期的軌跡特征,結合基于REID 算法提取的表觀特征具備長期穩定的特點,在抗遮擋性上算法表現良好。賀思遠[80]基于馬爾科夫決策,針對交通道路場景將目標檢測、單目標跟蹤、數據關聯有效結合,借助快速相關濾波跟蹤及高性能神經網絡,使得算法在速度和精度上均有較好的表現,但是缺乏在當前主流數據集上的驗證。Chu 等[13]提出的KCF 算法結構比較復雜,設計了Instance-aware SOT,并對檢測結果進行校正,及時更新模型等多種手段在MOT 挑戰賽上名列前茅,局限性還是體現在實際應用上的算法速度不佳。

融合單目標跟蹤融合任務的JDT 模式優勢和劣勢都很明顯,當場景中的目標數量較少時,基于單目標跟蹤強大的特征提取和定位能力,對于目標虛警漏警等問題具備一定的魯棒性,同時可以有效減少常見的目標遮擋問題。但是基于單目標跟蹤融合模式的多目標跟蹤主要問題在于當目標數量增加時,對于每一個目標都要添加一個單目標跟蹤器,效率方面面臨的問題極大,因此,如何更有效地融合單目標跟蹤還需要進一步研究。

3.3 基于深度特征融合復用的JDT算法

基于DBT 算法的分析可知,在目標檢測網絡中提取的深度特征和數據關聯所依賴的深度表觀特征存在差異性,為了增加神經網絡的復用性以實現特征融合復用,一些學者研究在網絡中融合檢測相關深度特征和REID特征或融合表觀特征和運動特征。

Wang 等[14]提出了一個JDE 模型,在基于YOLO v3檢測算法的基礎上,將原本基于預訓練模型得到的表觀特征提取網絡嵌入為深度檢測網絡中的一部分,實現端對端的視覺多目標跟蹤。JDE 將表觀模型嵌入單階的目標檢測網絡中共享網絡權值,以便模型可以同時輸出檢測結果及對應的表觀特征,基于這種融合策略提高了多目標跟蹤的準確度和實時性。在JDE 初步將檢測框架與REID融合的基礎上,Zhang等[81]提出FairMot,由于JDE 錨框的存在,當目標密集度密集度較高時,降低了多目標跟蹤的準確度,采用類似CenterTrack 的無錨框設計,進一步提高了算法的MOTA 及運行速度。Liang等[82]分析視覺多目標跟蹤任務與REID 中存在的差異,指出任務的差異導致了與任務相關的特征學習不準確,提出一個互相關網絡,有效促使各個分支學習與任務相關的表觀學習,并將整個網絡集成為一個CSTrack跟蹤網絡,這個端對端的網絡充分實現了模塊間的特征共享,有效提高了多目標跟蹤的精度。

隨著圖神經網絡(Graph Neural Networks,GNN)不斷取得突破,GNN 開始應用于特征融合并在多目標跟蹤中取得了較大的進展。王亞新[83]將CNN與GNN融合于數據關聯模塊實現了端對端的多目標跟蹤網絡,改善了目標遮擋和目標之間相互遮擋時的跟蹤精度。Liu等[84]提出的GSMTracktor 設計一種新穎的圖形表示,既考慮單目標的特性,又考慮目標之間的關系,同時專門設計圖形匹配模塊以減輕不可靠關系的影響。Shan等[85]提出的FUFET 同樣利用GNN 解決目標位置、外觀和歷史信息特性的融合,解決不同幀中同一目標特征不一致的問題。Wang等[86]提出的GSDT結合GNN在時間和空間域中對可變大小的目標進行建模,整體學習用于檢測和數據關聯的可區分特征,在MOT 系列數據集中進行廣泛實驗證明了基于GNN的JDT模式的有效性。

在一個網絡中生成多種深度特征并進行相似度計算策略提高了多目標跟蹤的準確性和速度,但是不同特征之間融合比較的有效性還待改善?;贕NN的特征融合近年在多目標跟蹤領域的應用取得了較大的突破,但是網絡的復用和特征的融合生成難度較大,仍然有待進一步研究。

4 實驗分析

為了對當前基于深度學習的視覺多目標跟蹤算法進行比較分析,本章通過MOTChelleng挑戰賽結果進行分析比對,探究驗證基于深度學習的視覺多目標跟蹤算法性能表現。結合以下條件,設計實驗分析表格如表6~9 所示。由第2 章介紹,MOTA 和MOTP 數值越大越好,FN、FP、IDs越小越好。

(1)由于MOT17 數據集內容與MOT16 一致,MOT20 參與測試的算法還較少,因此選擇MOT15 和MOT16數據集分析算法。

(2)CLEAR MOT評價指標雖然存在著過于依賴檢測器的表現,但是研究表明這是當前最為符合人類視覺判斷的參考指標。

(3)由于基于公共檢測和基于私人檢測的算法差異性過大,因此分開討論算法性能,由于現實中應用場景更廣的是在線多目標跟蹤算法,這里僅分析在線多目標算法。

4.1 整體分析

通過表6~9 列舉了不同多目標跟蹤算法在MOT15和MOT16 上的CLEAR MOT 指標分數,根據數據進行總體分析如下:

表6 基于公共檢測多目標跟蹤算法MOT15 CLEAR MOT評價指標(按MOTA排序)

表7 基于私人檢測多目標跟蹤算法MOT15 CLEAR MOT評價指標(按MOTA排序)

表8 基于公共檢測多目標跟蹤算法MOT16 CLEAR MOT評價指標(按MOTA排序)

表9 基于私人檢測多目標跟蹤算法MOT16 CLEAR MOT評價指標(按MOTA排序)

(1)從基于公共檢測和私人檢測來看,基于私人檢測的多目標跟蹤算法在準確度和精度上大幅領先基于公共檢測的多目標跟蹤算法,多目標跟蹤對于前端的檢測算法依賴性很高,提高檢測器的性能對于提高多目標跟蹤表現至關重要。

(2)從式(1)可知,MOTA 由FN、FP、IDs 共同決定,但在檢測結果中FN比FP和IDs相比往往多至少一個量級,即使公共檢測的方法在一定程度上減少了FN,但是私人構建和訓練的檢測器在減少FN最有效。

(3)IDs 指標對于多目標跟蹤算法準確度MOTA 影響相對較少,但在實際應用中IDs的表現是考核算法的重要指標,大部分基于公共檢測的多目標跟蹤算法重點工作即在減少IDs綜合提高MOTA,基于私人檢測的算法在得到了較好的檢測,相對而言IDs表現并不令人滿意。

(4)Hz指標受限于測試的硬件及軟件平臺不一致,不能作為絕對的算法速度判斷,但考慮到比賽挑戰者大多采用當時性能最好的硬件做算法測試,因此,整體看來,當前的絕大部分多目標跟蹤算法難以滿足實時多目標跟蹤和邊緣設備部署的要求,難以落地。

4.2 基于深度學習的多目標跟蹤算法優劣勢

(1)基于DBT算法

在MOT15 數據集中的公共檢測是基于傳統的DPM 行人檢測器,而基于私人檢測的多目標跟蹤算法僅通過改進檢測器為深度神經網絡檢測器后,算法的準確度大大提高,整體均優于基于DPM的公共檢測算法,基于深度學習對于檢測器的加持對于跟蹤效果提升明顯。基于深度學習進行REID表觀特征提取或運動特征提取作為數據關聯的代價矩陣,可以得到更為穩定魯棒的特征,增強算法數據關聯的準確性,僅通過REID深度神經網絡提取的表觀特征DeepSort 相比Sort 大大減少了IDs。當前基于深度學習進行數據關聯的算法還不能實時應用,大部分算法就是在后端使用簡單的匈牙利數據關聯算法,但是,基于深度匈牙利算法的TrctrD算法排名前列說明了深度學習對于提升數據關聯階段的能力。

基于深度學習的DBT模式最明顯的劣勢還是在運行速度方面,除了早期的Sort等僅利用IOU進行數據關聯的多目標跟蹤算法,算法處理過程簡單,運算速度極快,但是包括檢測效果和IDs 等表現都很差,基于DBT模式的多目標跟蹤功能算法難以實現精度和速度均衡。

(2)基于JDT算法

JDT模式與DBT模式的最大不同就是在DBT四階段中基于深度神經網絡進行部分階段融合,Tracktor++直接將數據關聯階段用兩階段檢測網絡的RPN網絡替代,促進了檢測與跟蹤的融合,提高跟蹤準度?;贕NN 的多目標跟蹤算法在榜單排名前列在于GNN 對于特征的融合效果更好,但是GNN 也帶來了更多的復雜計算。由于單目標跟蹤領域的快速發展,出現了大量在精度和速度都表現優異的算法,同時基于深度學習和相關濾波具有目標的位置信息,運動信息及分類信息,基于單目標跟蹤的KCF 在MOT15 和MOT16 都排名前列顯示了將單目標跟蹤拓展至多目標跟蹤的可能,但是,隨著場景內目標增多,勢必為多個目標增加跟蹤器,算法的速度也會越來越慢。

5 總結與展望

本文概述了近年來基于深度學習的視覺多目標跟蹤算法,分為DBT與JDT兩大類算法進行分析,結合公開數據集對算法進行驗證,發現DBT類算法結構簡單,可解釋較高,但是各子模塊之間關聯度較低,導致算法在跟蹤準確度與速度上都有較大的提升空間,而JDT類算法通過融合多模塊聯合學習,對跟蹤性能提升顯著。重點闡述了深度學習在DBT類與JDT類算法各子模塊所實現的功能與優缺點,分析顯示DBT 類算法通過在傳統子模塊中嵌入深度學習模塊使得目標檢測、特征提取、數據關聯等模塊對于目標跟蹤增益巨大,但隨之帶來了算法速度的損失;深度學習神經網絡是JDT類算法得以發展的關鍵,通過融合多模塊聯合學習,實現了在線端對端的多目標跟蹤算法,其中,檢測器性能對JDT類算法跟蹤表現起著關鍵作用,從公開數據集的算法排名結果顯示當前JDT類算法基本占據了榜前TOP5。通過以上對比分析與總結,目前多目標跟蹤總體是從DBT類算法向JDT發展,分階段實現算法的準確度和速度的均衡。然而,當前多目標跟蹤還存在對多目標頻繁遮擋、目標數量較多等場景下算法表現不佳的問題。未來可以開展的工作包括以下幾個方面:

(1)數據集的制備與性能基準的構建。當前視覺多目標跟蹤公開的數據集關注的場景絕大部分集中在場景相對簡單的行人和車輛,在目標類別更多樣、目標更密集、氣候變化等復雜因素下進行數據集獲取、清洗、標注、深加工等是未來可繼續開展的方向。此外,通過分析可知,當前多目標跟蹤的評價指標過分依賴于檢測器,建立更有效的性能基準以評測出層出不窮的多目標跟蹤算法全面性能,為性能優化和提升提供支持,也是未來值得研究的方向之一。

(2)多目標跟蹤算法各個環節能力的提升。從文中分析結果可知,傳統的目標檢測、特征提取、數據關聯等方法基于深度學習的改進具有極大的性能提升,但隨之明顯損失了算法的性能。因此,傳統方法與深度學習類方法融合互補的再深入研究也是未來可推進的工作,這一方面取決于深度學習可解釋性的研究推進,也取決于傳統方法的適應性改進,從多目標跟蹤算法解決實際問題出發的視角尋求原理性的突破,例如新的網絡結構、新的訓練方法、新的代價函數等以解決密集多目標跟蹤的不準確、IDs頻繁等痛點問題。

(3)多目標跟蹤算法在具體場景中的落地。通過文中分析當前絕大多數算法缺少落地可實現性,這一問題未來可研究的方向有兩方面:一方面提升算法實現的實時性,包括輕量化網絡結構及其實現、硬件平臺的適配優化、硬件加速等技術的提升;另一方面,針對特定問題的專用數據集的制備、針對性訓練,提高泛化能力的針對性,深入研究遷移學習、強化學習等方法,降低算法對專用數據集的依賴,提升算法的泛化能力。

猜你喜歡
關聯深度特征
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
主站蜘蛛池模板: 中国国语毛片免费观看视频| 国产成人免费手机在线观看视频 | 午夜视频在线观看免费网站| 国模沟沟一区二区三区| 婷婷亚洲综合五月天在线| 黄色一及毛片| 国产流白浆视频| 日韩视频福利| 波多野结衣的av一区二区三区| 亚洲黄色激情网站| 国产v精品成人免费视频71pao| 国产乱肥老妇精品视频| vvvv98国产成人综合青青| 9啪在线视频| 91在线精品免费免费播放| 中文精品久久久久国产网址| 一级毛片网| 91青青草视频在线观看的| 亚洲欧美日韩中文字幕在线一区| 久久亚洲高清国产| 亚洲欧洲日韩综合| 亚洲午夜片| AV片亚洲国产男人的天堂| 国内毛片视频| 无码专区在线观看| a毛片在线播放| a级毛片免费在线观看| 亚洲综合片| 国产区成人精品视频| 青青草国产精品久久久久| 青青青伊人色综合久久| 亚洲一区波多野结衣二区三区| 国产精选自拍| 日韩视频免费| 久久久亚洲色| 中文字幕1区2区| 精品99在线观看| 97se亚洲| 色精品视频| 免费A∨中文乱码专区| 热re99久久精品国99热| 精品午夜国产福利观看| www.av男人.com| 伊人91视频| 国产又爽又黄无遮挡免费观看| 欧美精品成人一区二区在线观看| 免费毛片网站在线观看| 亚洲欧美自拍中文| 91精品网站| 在线观看无码av免费不卡网站 | 性视频一区| 欧美日韩成人| 91精选国产大片| 欧美午夜精品| 手机精品福利在线观看| 强奷白丝美女在线观看| 亚洲一区第一页| 欧美成人综合在线| m男亚洲一区中文字幕| 久久情精品国产品免费| 日韩精品免费在线视频| 精品综合久久久久久97超人该| 成人免费午间影院在线观看| 亚洲丝袜中文字幕| 91无码网站| 亚洲中文字幕手机在线第一页| 久久精品国产免费观看频道| 国产精品手机在线观看你懂的| 久草视频精品| 青青草综合网| 91麻豆国产视频| 中文字幕66页| 中文字幕人妻av一区二区| 在线播放国产一区| 久久激情影院| 国产精品99一区不卡| 高清无码手机在线观看| 亚洲第一香蕉视频| 日日摸夜夜爽无码| 久久午夜影院| 亚洲欧美在线看片AI| 精品偷拍一区二区|