視頻目標(biāo)跟蹤綜述

2022-01-22 10:34:31張豐，馮平

計(jì)算機(jī)時(shí)代 2022年1期

張豐，馮平

摘? 要：研究近年來主流的目標(biāo)跟蹤算法。通過文獻(xiàn)閱讀和歸納對(duì)比，分析了使用生成式模型和判別式模型的目標(biāo)跟蹤算法。結(jié)果顯示，對(duì)于存在復(fù)雜干擾因素的場(chǎng)景，采用第二類模型的目標(biāo)跟蹤算法的跟蹤效果更好。文章為視頻跟蹤領(lǐng)域的研究者們提供了一個(gè)關(guān)于目標(biāo)跟蹤算法的客觀分析。

關(guān)鍵詞：目標(biāo)跟蹤; 深度學(xué)習(xí); 相關(guān)濾波; 計(jì)算機(jī)視覺

中圖分類號(hào)：TP399? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? ?文章編號(hào)：1006-8228（2022）01-32-04

Overview on video target tracking

Zhang Feng， Feng Ping

（Guizhou University of Finance and Economics， Guiyang， Guizhou 550025， China）

Abstract： This paper focuses on the mainstream target tracking algorithms in recent years， and analyzes the target tracking algorithms using generative and discriminative models through literature reading and inductive comparison. The results show that for the scenes with complex interference factors， the target tracking algorithms using the second kind of model have better tracking effect. This paper provides an objective analysis of target tracking algorithms for researchers in the field of video tracking.

Key words： target tracking; deep learning; correlation filtering; computer vision

0 引言

根據(jù)人們對(duì)感知覺的研究發(fā)現(xiàn)，人們通過視覺、聽覺、味覺、嗅覺和膚覺來接受外部的刺激，其中視覺是人們獲取外部刺激的最主要途徑，約占80%。為了讓計(jì)算機(jī)可以與人一樣擁有視覺的能力，計(jì)算機(jī)視覺這一學(xué)科被提出。

視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺的一個(gè)重要研究方向，這個(gè)技術(shù)在人們?nèi)粘Ｉ钪幸灿泻芏鄳?yīng)用。例如：智能視頻監(jiān)控、現(xiàn)代化軍事、基于視頻的人機(jī)交互、智能交通系統(tǒng)、智能視覺導(dǎo)航、三維重建、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等方面[1]。目標(biāo)跟蹤的任務(wù)是在給定第一幀目標(biāo)的位置和狀態(tài)后，在后續(xù)幀中能識(shí)別，跟蹤到目標(biāo)的位置狀態(tài)。這個(gè)任務(wù)可以分為四個(gè)步驟。①運(yùn)動(dòng)模型：以給定的目標(biāo)框?yàn)橹行脑谄涓浇啥鄠€(gè)候選框。②特征提取：對(duì)生成的候選框進(jìn)行特征的提取和分析。③觀測(cè)模型：根據(jù)提取和分析的結(jié)果選出優(yōu)的候選框，這是最重要的一個(gè)步驟，也是研究者的主要研究的地方。④模型更新：由于目標(biāo)是動(dòng)態(tài)的，不能只以固定一幀里的目標(biāo)作為參考模型，要及時(shí)地更新。

現(xiàn)實(shí)環(huán)境中進(jìn)行跟蹤任務(wù)會(huì)由于環(huán)境的改變或者目標(biāo)的運(yùn)動(dòng)而出現(xiàn)難點(diǎn)。

⑴ 光照的變化：在進(jìn)行跟蹤時(shí)，現(xiàn)場(chǎng)燈光明暗的變化會(huì)使目標(biāo)可提取的特征減少。

⑵ 遮擋：當(dāng)目標(biāo)被障礙物部分或者完全遮擋，這時(shí)候可獲取的信息會(huì)變少。

⑶ 背景混雜：當(dāng)目標(biāo)出現(xiàn)在周圍環(huán)境比較復(fù)雜的地方，會(huì)有許多背景因?yàn)榕c目標(biāo)的特征相似而被誤認(rèn)。

⑷ 快速運(yùn)動(dòng)：當(dāng)目標(biāo)快速運(yùn)動(dòng)時(shí)會(huì)產(chǎn)生運(yùn)動(dòng)模糊的情況，影響特征提取。

⑸ 尺度變化：由于目標(biāo)與拍攝設(shè)備的距離發(fā)生變化，因此目標(biāo)在視頻中大小也會(huì)發(fā)生變化，會(huì)影響目標(biāo)的選定。

⑹ 姿態(tài)變化：當(dāng)目標(biāo)在運(yùn)動(dòng)過程中肢體發(fā)生變化，這會(huì)使目標(biāo)的外觀有比較大的改變，從而影響跟蹤。

這些問題都不會(huì)單獨(dú)出現(xiàn)，一個(gè)跟蹤任務(wù)中目標(biāo)可能會(huì)發(fā)生其中幾種情況，因此研究一個(gè)強(qiáng)魯棒性和高精確性的算法是十分重要的。

1 目標(biāo)跟蹤算法

隨著目標(biāo)跟蹤技術(shù)的發(fā)展，大量的算法涌現(xiàn)。我們可以根據(jù)其在觀察模型中采用的方法不同把這些算法分為兩大類，一種是生成式模型和判別式模型。其中判別式模型里面又分為基于相關(guān)濾波的和基于深度神經(jīng)網(wǎng)絡(luò)的模型。

1.1 生成式模型

生成式模型是最早期的目標(biāo)跟蹤的模型，運(yùn)用這個(gè)模型的算法有光流法、粒子濾波、Meanshift算法，Camshift算法等[2]，生成式模型首先會(huì)對(duì)目標(biāo)進(jìn)行特征提取然后根據(jù)特征來構(gòu)建目標(biāo)的模型，最后用該模型去與每一幀圖片進(jìn)行匹配，挑選與模型最相似的地方作為該幀圖片中目標(biāo)的位置。根據(jù)建立模型的方法可以把生成式模型分為基于核的算法，基于子空間的算法和基于稀疏表示的算法。生成式模型有一個(gè)嚴(yán)重的缺點(diǎn)就是其模型沒有進(jìn)行更新一直使用任務(wù)開始時(shí)構(gòu)建的模型，沒有考慮到任務(wù)過程中環(huán)境變化對(duì)目標(biāo)狀態(tài)的影響，當(dāng)有的幀中目標(biāo)比較清晰的時(shí)候，可以比較好的找到目標(biāo)。但當(dāng)目標(biāo)出現(xiàn)被遮擋或者處于環(huán)境光線條件不好的情況下，用這個(gè)模型來追蹤效果就不盡如人意了。

1.2 判別式模型

判別式模型是目前研究目標(biāo)跟蹤的主流模型，這個(gè)模型把目標(biāo)跟蹤問題轉(zhuǎn)化為了一個(gè)二分類問題，通過模型把目標(biāo)與背景進(jìn)行分離，從而獲得目標(biāo)。這一種模型能很好的解決目標(biāo)處于環(huán)境條件復(fù)雜的狀況下的跟蹤問題，而這個(gè)模型中根據(jù)使用的特征不同分為基于相關(guān)濾波和基于深度學(xué)習(xí)的兩種算法。

1.2.1 基于相關(guān)濾波的跟蹤算法

相關(guān)濾波本來是用于信號(hào)處理的，用來描述兩個(gè)信號(hào)的相關(guān)性。文獻(xiàn)[3]首先把這技術(shù)用于目標(biāo)跟蹤領(lǐng)域并提出了MOSSE算法，該算法首先在首幀中提取目標(biāo)的單通道灰度特征用來訓(xùn)練濾波器，再在下一幀中提取特征并與濾波器相乘，得到最大響應(yīng)點(diǎn)從而確定目標(biāo)的位置，最后再把該幀的特征用于訓(xùn)練濾波器從而進(jìn)行下一幀中目標(biāo)的確定。后來文獻(xiàn)[4]在MOSSE的基礎(chǔ)上進(jìn)行了改進(jìn)提出了CSK算法，該算法采用循環(huán)矩陣去進(jìn)行采樣從而獲得大量的循環(huán)樣本使濾波器更好的學(xué)習(xí)而且加入核函數(shù)使得高維空間中難以計(jì)算的值可以在低維空間中進(jìn)行運(yùn)算加快了模型的速度。這兩種算法都是采用的單通道的數(shù)據(jù)作為輸入的。而文獻(xiàn)[5]提出了KCF算法采用了多通道的HOG特征作為輸入并且利用了循環(huán)矩陣在傅里葉空間可對(duì)角化的性質(zhì)極大的減少運(yùn)算量，這個(gè)算法與之前算法相比，準(zhǔn)確率有了明顯的提高，但是由于該算法把目標(biāo)框預(yù)先設(shè)定好，當(dāng)目標(biāo)出現(xiàn)尺度變化或姿態(tài)變化時(shí)不能有效的進(jìn)行跟蹤。

對(duì)于尺度自適應(yīng)這個(gè)問題，文獻(xiàn)[6]提出了SAMF算法，該算法采用了尺度池的方法來應(yīng)對(duì)跟蹤中目標(biāo)的尺度自適應(yīng)問題，并且提出把HOG特征，灰度特征和CN特征三者進(jìn)行了結(jié)合來代替單特征的輸入。文獻(xiàn)[7]中提出了DSST算法，該算法解決尺度自適應(yīng)這問題提出采用了兩個(gè)濾波器的方法，把定位任務(wù)和尺度估計(jì)任務(wù)分開，先確定目標(biāo)的中心位置，再根據(jù)中心點(diǎn)周圍的響應(yīng)來確定目標(biāo)的尺度，這樣把任務(wù)分成兩部分可以使速度加快而且也便于單用其中一個(gè)功能來與其他算法相結(jié)合。在使用濾波器的算法中，由于進(jìn)行快速傅里葉變換時(shí)會(huì)導(dǎo)致圖像信號(hào)缺失從而出現(xiàn)邊界效應(yīng)，文獻(xiàn)[8]中的SRDCF算法采用了空間正則來解決這個(gè)問題，先獲得稍大的信號(hào)，然后通過引入懲罰機(jī)制，消除距離響應(yīng)中心最遠(yuǎn)的信號(hào)。

1.2.2 基于深度學(xué)習(xí)的跟蹤算法

在目標(biāo)跟蹤的任務(wù)中，獲取目標(biāo)的特征是一個(gè)關(guān)鍵的問題，而深度學(xué)習(xí)在其他領(lǐng)域中已經(jīng)表現(xiàn)出了其強(qiáng)大的特征提取和表達(dá)能力，因此深度學(xué)習(xí)開始被應(yīng)用到了目標(biāo)跟蹤領(lǐng)域，目前比較常用的神經(jīng)網(wǎng)絡(luò)模型有AlexNet，VggNet，ResNet，YoLo，GAN。一開始研究者采取的策略是用深度特征替換之前通過濾波器得到的特征，文獻(xiàn)[9]中提出的DeepSRDCF算法就是在相關(guān)濾波算法SRDCF的基礎(chǔ)上使用深度特征來替代原本的手工特征。而文獻(xiàn)[9]中提出的HCF算法采用的是KCF的框架，把其中的HOG特征替換成經(jīng)過VGG網(wǎng)絡(luò)訓(xùn)練完的深度特征。后來出現(xiàn)了深度網(wǎng)絡(luò)與濾波相結(jié)合的方法，文獻(xiàn)[10]中的C-COT算法先用VGG網(wǎng)絡(luò)同時(shí)提取目標(biāo)多通道的特征，并且每個(gè)通道都對(duì)應(yīng)有一個(gè)濾波器，然后把經(jīng)過濾波的特征圖進(jìn)行卷積和加權(quán)的工作，最后在采用插值的方法來獲得最后的響應(yīng)圖，這個(gè)方法的準(zhǔn)確率高但是由于網(wǎng)絡(luò)太過大速度比較慢。后來文獻(xiàn)[11]提出了ECO算法，通過降低濾波器的維度以及在不影響特征多樣的情況下減少特征的數(shù)量來使模型加速。

從這些算法的實(shí)現(xiàn)結(jié)果來看，深度特征的運(yùn)用可以使跟蹤結(jié)果更準(zhǔn)確，同時(shí)還知道了淺層的網(wǎng)絡(luò)比較適合目標(biāo)定位，而深層的網(wǎng)絡(luò)比較適合確定目標(biāo)范圍。

隨后的目標(biāo)跟蹤任務(wù)就不只是采用替換特征的方法，而是直接使用深度學(xué)習(xí)的方法，但是深度神經(jīng)網(wǎng)絡(luò)需要通過大量的數(shù)據(jù)訓(xùn)練才能擁有較強(qiáng)的特征提取能力。文獻(xiàn)[12]提出通過線下訓(xùn)練與在線微調(diào)的方法來解決獲取樣本數(shù)據(jù)量這個(gè)問題，這是首次運(yùn)用深度學(xué)習(xí)的跟蹤算法，從此基于深度學(xué)習(xí)的跟蹤算法也慢慢發(fā)展起來。此后文獻(xiàn)[13]提出了一種基于分類的深度學(xué)習(xí)跟蹤算法MDNet，該算法采用小型VGG網(wǎng)絡(luò)，而且作者認(rèn)為不同訓(xùn)練視頻中目標(biāo)之間有共性的特征，因此采用了多域訓(xùn)練的方式來進(jìn)行跟蹤訓(xùn)練，這個(gè)算法在速度與應(yīng)對(duì)目標(biāo)被遮擋的問題時(shí)表現(xiàn)不佳，因此文獻(xiàn)[14]在MDNet的基礎(chǔ)上加入GAN網(wǎng)絡(luò)提出VITAL算法，通過GAN網(wǎng)絡(luò)來生成遮擋情況下的正樣本從而使分類器擁有應(yīng)對(duì)目標(biāo)被遮擋的問題。文獻(xiàn)[15]提出孿生神經(jīng)網(wǎng)絡(luò)（SiamFC），該算法把跟蹤看成是解決相似性問題，采用兩個(gè)Alexnet網(wǎng)絡(luò)組成雙分支結(jié)構(gòu)網(wǎng)絡(luò)，其中一個(gè)分支用于提取樣本圖像特征，另一個(gè)分支用于提取搜索圖像的特征，做相似性比較，取響應(yīng)最大的地方作為目標(biāo)中心。由于這個(gè)算法只能獲得目標(biāo)中心，不能很好地應(yīng)對(duì)尺度變化問題，因此文獻(xiàn)[15]在文獻(xiàn)[16]的基礎(chǔ)上加入了RPN網(wǎng)絡(luò)，解決了這個(gè)問題。

2 常用數(shù)據(jù)集

為了使神經(jīng)網(wǎng)絡(luò)更好的進(jìn)行工作，必須做的一步就是調(diào)參，而調(diào)參的過程需要有大量的數(shù)據(jù)。因此一個(gè)優(yōu)秀的數(shù)據(jù)集可以使網(wǎng)絡(luò)更好的運(yùn)行，下面將介紹幾個(gè)常用的數(shù)據(jù)集及其評(píng)價(jià)指標(biāo)。

⑴ OTB：2013年Wu等人在CVPR上提出了OTB2013數(shù)據(jù)集，這個(gè)數(shù)據(jù)集里包含了51個(gè)視頻序列，有灰度和彩色圖像，都是以日常場(chǎng)景為背景，再把目標(biāo)跟蹤常見的困難呈現(xiàn)出來。2017年作者把OTB2013進(jìn)行擴(kuò)容，把視頻序列增加到了100個(gè)形成OTB2017。OTB數(shù)據(jù)集的評(píng)價(jià)指標(biāo)有精確圖（Precision Plot）、成功率圖（Succes Plot）、OPE、TRE、SRE。

⑵ VOT：VOT數(shù)據(jù)集是指每年視覺目標(biāo)跟蹤競賽中舉辦方提供的數(shù)據(jù)集，里面通常含有60個(gè)彩色視頻序列，每年都會(huì)替換部分視頻。該數(shù)據(jù)集有一個(gè)特別的機(jī)制，即當(dāng)程序跟丟目標(biāo)的五幀后，會(huì)把程序初始化，使數(shù)據(jù)集得到充分利用。VOT數(shù)據(jù)集中的評(píng)價(jià)指標(biāo)主要有Accuracy、Robustness。

⑶ Temple Color 128：TColor-128數(shù)據(jù)集是在2015年提出，全為彩色視頻序列，若算法只適用于彩色可以采用該數(shù)據(jù)集，評(píng)價(jià)標(biāo)準(zhǔn)與OTB相似。

⑷ LaSOT：LaSOT數(shù)據(jù)集主要收錄的是長時(shí)間的視頻序列，里面含有70個(gè)類別，1400個(gè)視頻序列。該數(shù)據(jù)集主要從YouTube上獲取，主要是生活的場(chǎng)景。該數(shù)據(jù)集提供了一致的可視化邊界標(biāo)注，給使用者提供了便利。主要評(píng)價(jià)指標(biāo)有精度、標(biāo)準(zhǔn)化精度、成功率。

⑸ UAV123：UAV123數(shù)據(jù)集是一個(gè)當(dāng)一場(chǎng)景的數(shù)據(jù)集，全部視頻序列都是由無人機(jī)拍攝的。整個(gè)數(shù)據(jù)集由123個(gè)視頻序列，其視頻特點(diǎn)為視角的變化多，背景干凈。

3 展望

目前，目標(biāo)跟蹤中的算法有專注跟蹤速度和專注于跟蹤精度的，前者的準(zhǔn)確性不高容易造成目標(biāo)的丟失，后者的速度不夠不能很好的用于實(shí)際的場(chǎng)景中，因此一個(gè)能同時(shí)把準(zhǔn)確性和速度同時(shí)兼顧的算法是未來的一個(gè)研究方向。另外，通過淺層網(wǎng)絡(luò)提取出來的特征在面對(duì)目標(biāo)形變等問題使會(huì)影響跟蹤，所以現(xiàn)在目標(biāo)跟蹤算法中運(yùn)用的網(wǎng)絡(luò)越來越深了，雖然網(wǎng)絡(luò)的加深可以是目標(biāo)的特征更加突出，但是圖像的特征分辨率會(huì)變低信息就會(huì)被忽視，而且越深的網(wǎng)絡(luò)耗時(shí)也越多，對(duì)需要實(shí)時(shí)的跟蹤任務(wù)會(huì)造成困難，因此我覺得如何把深淺網(wǎng)絡(luò)的優(yōu)勢(shì)結(jié)合再進(jìn)行跟蹤也是以后的一大發(fā)展趨勢(shì)。最后，目前的算法都只是在短時(shí)間的跟蹤中取得良好的成績。但當(dāng)面對(duì)長時(shí)間任務(wù)時(shí)表現(xiàn)不好，在長時(shí)間任務(wù)中目標(biāo)會(huì)經(jīng)常出現(xiàn)短期消失或長時(shí)間消失的情況，算法在追蹤失敗后難以重新識(shí)別和追蹤目標(biāo)，因此設(shè)計(jì)一個(gè)在長期任務(wù)中能穩(wěn)定跟蹤的算法也是一個(gè)研究趨勢(shì)。

4 總結(jié)

目標(biāo)跟蹤領(lǐng)域的研究開始了十多年，從最早的生成式算法，到基于相關(guān)濾波的算法再到現(xiàn)在的基于深度學(xué)習(xí)算法，已經(jīng)取得了很大的進(jìn)步，在很多行業(yè)里面也有很好的應(yīng)用，越來越多的人也開始重視目標(biāo)跟蹤的發(fā)展。本文介紹了在目標(biāo)跟蹤領(lǐng)域具有代表性的幾個(gè)算法，簡要的分析算法的原理和優(yōu)缺點(diǎn)，以及對(duì)目標(biāo)跟蹤領(lǐng)域未來的發(fā)展進(jìn)行了展望，目標(biāo)跟蹤技術(shù)仍有很大的發(fā)展空間，一個(gè)有強(qiáng)魯棒性，高精確性和高速的算法仍然被人們所期待，相信在研究者共同努力下，完成這個(gè)任務(wù)的時(shí)間不會(huì)太久。

參考文獻(xiàn)（References）：

[1] 盧湖川，李佩霞，王棟.目標(biāo)跟蹤算法綜述[J].模式識(shí)別與人工智能，2018，31（1）：61-76

[2] 孟琭，楊旭.目標(biāo)跟蹤算法綜述[J].自動(dòng)化學(xué)報(bào)，2019，45（7）：1244-1260

[3] Bolme DS，Beveridge JR， Draper BA，et al. Visual object?tracking using adaptive correlation filters[C]. IEEE Computer Society? Conference on Computer Vision and Pattern Recognition，2010：2544-2550

[4] Henriques J F， Caseiro R， Martins P， et al.： Exploiting the Circulant Structure of Tracking-by-Detection with Kernels[M].Fitzgibbon A， Lazebnik S， Perona P， Sato Y， Schmid C，editor，Computer Vision-Eccv 2012， Pt Iv，2012：702-715

[5] Henriques J F， Caseiro R， Martins P， et al. High-Speed Tracking with Kernelized Correlation Filters[J]. Ieee Transactions on Pattern Analysis and Machine Intelligence，2015，37（3）：583-596

[6] LI Y，ZHU J K.A Scale Adaptive Kernel Correlation Filter Trac-ker with Feature Integration //Proc of the European Conference on Computer Vision. Berlin，Germany： Springer，2014：254-265

[7] Danelljan M， Hager G， Khan F S， Felsberg M. Accuratescale estimation for robust visual tracking.In：Proceed-ings British Machine Vision Conference. London， England：BMVA Press，2014，65：1-11

[8] DANELLJAN M， HAGERG， KHAN F S， et al.Learning-spatially regularized correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.2015：4310-4318

[9] DANELLJAN M，HGER G，KHAN F S，et al.Learning?Spatia-lly Regularized Correlation Filters for Visual Tracking //Proc ofthe IEEE International Conference on Computer Vision.Washing-ton，USA：IEEE，2015：4310-4318

[10] DANELLJAN M， ROBINSON A， KHAN F S， et al.Beyond Co-rrelation Filters： Learning Continuous Convolution Operators forVisual Tracking //Proc of the European Conference on Computer Vision. Berlin，Germany： Springer，2016：472-488

[11] DANELLJAN M， BHAT G， KHAN F S， et al.ECO：Efficient Convolution Operators for Tracking[C/OL]. [2017-10-21].https：//arxiv.org/pdf/1611.09224pdf.

[12] Wang NY， Yeung DY. Learning a deep compact image representation for visual tracking. In： Proceedings of the 26th International Conference on Neural Information Pro-cessing Systems.Lake Tahoe， Nevada： Curran Associates Inc.，2013：809?817

[13] Nam H，Han B. Learning Multi-Domain ConvolutionalNeural Networks for Visual Tracking[J]，2015

[14] Song Y B， Ma C， Wu X H， Gong L J， Bao L C， Zuo W M，et.al. Visual tracking via adversarial learning. In： Proceedings of the 2018 IEEE Conference on Computer Vision and Pat-tern Recognition. Salt Lake City， Utah， USA：IEEE，2018：1084?1093

[15] Bertinetto L， Valmadre J， Henriques J F， et al. Fully-convolutional siamese networks for object tracking[C]. European conference on computer vision，2016：850-865

[16] Li B， Yan J， Wu W， et al. High performance visual tracking with? siamese region proposal network[C].Proceedings of the IEEE Conference of Computer Vision and Pattern Recognition，2018