李均利,尹 寬,儲誠曦,汪鴻年
(1.四川師范大學 計算機科學學院,四川 成都 610101;2.寧波大學 信息科學與工程學院,浙江 寧波 315211)
目標跟蹤是在給定的視頻序列中,對感興趣的目標進行檢測,并在整個視頻序列中對該目標的位置進行實時跟蹤,找到目標物體并提取出目標位置后進行進一步的分析應用。跟蹤系統通常會給出目標在給定視頻序列初始幀中的位置框,根據目標的初始狀態進而對其進行跟蹤。目標跟蹤中主要有以下幾個模塊:1)目標檢測;2)目標分類;3)目標跟蹤,如圖1所示。目標跟蹤在軍事領域、視頻監控、人機交互和交通監測等領域都發揮著重要的作用[1-2]。在目標跟蹤中,由于物體形態的多變性、運動速度過快、光照變化、背景變化以及物體被遮擋或多個目標相互遮擋[3]等復雜情況,目前尚未找到一個魯棒的算法能夠完美地解決這些復雜情形。
經典的目標跟蹤方法往往分為基于生成式的跟蹤和基于判別式的跟蹤。生成式跟蹤算法是通過提取目標特征找到能夠表征目標的外觀模型,利用生成的模型在圖像區域進行匹配,找到與其最匹配的區域,即為目標[4];常見的基于生成式的跟蹤算法有meanshift[5-6]、粒子濾波[7]、卡爾曼濾波[8]以及基于特征點的光流算法。而在目標跟蹤的過程中,經常會有目標特征與背景相似的情況出現,僅僅對跟蹤目標進行建模已經不能滿足目標跟蹤算法的需求。S Avidan[9]提出了基于判別式的目標跟蹤算法,把目標跟蹤問題轉換成為一個對目標和背景進行區分的二分類問題,通過在線或離線學習的檢測器對目標和背景進行區分,進而找到目標的位置。判別式算法在跟蹤過程中能夠很好適應復雜的變化,因此,基于判別式的跟蹤逐漸成為主流。

圖1 目標跟蹤主要模塊
Fig.1 Main module of object tracking
Collins和Lin在早期提出過一種基于檢測的跟蹤(Tracking by detection)[10],也是一種有效的基于判別式的跟蹤算法。基于檢測的跟蹤首先要對目標進行檢測,提取出目標物體的幾何物理信息后對其進行位置的跟蹤,因此,目標檢測和目標跟蹤通常都會聯系在一起出現。典型的基于檢測的目標跟蹤算法包括基于支持向量機(SVM)[11]的算法,基于隨機森林分類器[12]的算法和基于boosting[13-14]的算法。這些算法為了更好的適用于跟蹤,都采取了在線學習的策略。為了能夠直接預測目標的位置,在基于大量圖像特征的情況下,采用了一種Structured Output SVM和Gaussian Kernels策略[15]。
同時,對于不同的應用場景,目標跟蹤也有不同的分類:根據跟蹤視頻背景的不同,可以分為基于靜態背景的目標跟蹤和基于動態背景的目標跟蹤;根據跟蹤目標數量的不同,可以分為單目標跟蹤和多目標跟蹤;根據光照強弱不同,可以分為強光照下目標跟蹤和弱光照下目標跟蹤;根據是否具有跟蹤目標的先驗信息,可以分為基于監督學習、基于半監督學習和基于無監督學習[16]的目標跟蹤。
推動目標跟蹤技術不斷向前發展的正是對于其實時性、準確性和健壯性的不斷追求,在目前的科學研究和實際應用中,目標跟蹤的質量還不能達到我們預期的設想,所以研究人員在不斷地改進和尋找新方法來提高目標跟蹤的質量。為了獲得較好的跟蹤效果,在目標跟蹤中就需要選擇合適的特征和高效的分類器,由于環境的復雜和目標本身的復雜性,有大量的特征可供選擇,本文將會介紹幾個目標檢測中常見的特征,如顏色、紋理和梯度特征[17]。
用于目標跟蹤的視頻序列是將3D現實世界投影到2D圖像平面上,會有信息損失、噪聲以及成像過程中的光照變化、場景變化等影響。目標跟蹤面臨一系列的挑戰,可以將目標跟蹤面臨的挑戰和難點總結為以下十類:1)光照變化;2)遮擋;3)復雜背景影響;4)尺度變化;5)顏色變化;6)目標形變;7)前景/背景變化;8)攝像頭角度變化;9)目標身份切換;10)目標消失后重現。
目標跟蹤中存在著各種挑戰和難點,跟蹤技術的發展正是圍繞這些挑戰和難點而不斷展開,使得該領域的研究有著強大的活力,吸引著科研人員不斷為之努力,并且不斷地推動其向前發展。對于不同的挑戰,研究者提出了大量的相關算法。例如Zdenek Kalal將檢測器、在線學習機制和跟蹤器有機結合在一起,提出一種TLD算法[18],在跟蹤目標發生部分遮擋或全遮擋時,TLD也能準確快速地跟蹤到目標,并且魯棒性強;Informatik[19]在TLD的檢測器中引入了滑動窗口,對TLD中檢測器的方差濾波器、組合分類器和最近鄰分類器三個階段進行了改進,提高了TLD算法的精度;Zhou[20]利用Kalman濾波器對TLD檢測器當前幀目標的區域進行預測,再利用馬爾科夫模型對目標運動方向進行預測,提高了TLD的跟蹤效果。
這些挑戰對目標跟蹤的效果會產生一定的影響,同時也激發了新方法和新技術的產生,提高了跟蹤的適用范圍和跟蹤精度等。但目前跟蹤技術還不能完全解決各種難點和挑戰。
通常,每個目標都具有其獨特的特征,在目標檢測和跟蹤中,通過檢測到目標特定的特征即可完成對目標的檢測和跟蹤。特征的選取對目標跟蹤的效果極其重要,若特征選取不當,可能出現跟蹤不到目標或者誤判目標的情況。以下是目標跟蹤中常用特征。
在對彩色視頻圖像進行目標跟蹤時,通常會選取顏色特征進行目標檢測。顏色特征也是目標跟蹤中使用最廣泛的一種特征。顏色特征受到圖像質量、方向、大小、遮擋的影響較小,在圖像處理中,有RGB、CMYK、LUV、HSV、HSL等顏色空間表征,但在目標跟蹤中,常采用RGB和HSV顏色特征。
RGB顏色空間由紅色(R)、綠色(G)、藍色(B)三個顏色通道組成[21]。對于不同目標的顏色,其R、G、B取不同的值。RGB可以直接、簡單地識別出特定的目標,但RGB特征對于光照比較敏感[22],且RGB顏色空間各通道間有一定的相關性,對跟蹤效果會有一定影響。HSV[23]空間通過色度(H)、飽和度(S)、亮度(V)來表征圖像的顏色特征,并且相互獨立,不產生影響,可以處理顏色的相關性,對光照和顏色的處理更加方便,對于光照也具有更強的魯棒性[24-26]。
紋理特征是對目標外觀的微觀變化進行表征的一種特征,可描述目標圖像中反復出現的局部模式和排列規則[27]。如局部二值模式(Local Binary Pattern,LBP)[28]是目標跟蹤中一種常見的紋理特征算法,其特點是計算簡單、表征效果好,在目標檢測和人臉識別方面應用廣泛。LBP特征首先將圖像灰度化,取中心點像素灰度值為閾值,對該像素為中心的領域進行閾值操作,灰度大于中心像素值的點置為1,反之置為0;再將閾值操作后的鄰域像素點的二進制數按照順時針的順序轉化為十進制數,即 LBP 值。基本的LBP編碼計算公式為
,
(1)
式中,gc為中心店像素(xc,yc)的灰度值;N為領域像素個數;gp為鄰域點p的灰度。
研究表明,紋理特征具有對顏色、亮度不敏感的特點,對噪聲有較強的抵抗力,且具有旋轉不變性和灰度不變性。
梯度特征[29]是對視頻圖像中目標的局部梯度分布進行統計,進而表征物體的外觀。目前使用得比較廣泛的梯度特征是HOG特征[30]。HOG特征的思想是根據梯度幅值在梯度方向上進行分塊統計,利用HOG特征可以很好的表達目標物體的輪廓信息。HOG特征計算公式為
Gx(x,y)=H(x+1,y)-H(x-1,y),
(2)
Gy(x,y)=H(x,y+1)-H(x,y-1),
(3)
式中,Gx(x,y)、Gy(x,y)、H(x,y)分別表示輸入圖像中像素點(x,y)處的水平方向梯度、垂直方向梯度和像素值,像素點(x,y)處的梯度幅值和梯度方向為
(4)
(5)
梯度特征常用在行人檢測中,它對于光照、顏色、目標形變具有較高的魯棒性,但是無法表達出目標物體準確尺寸、角度。
在目標檢測和跟蹤中還有諸如光流[31]、輪廓等特征[16],特征的選擇對目標檢測的質量有著重要的影響,在具體應用中,常常會采取多個特征同時進行檢測的方法,在一定程度上會提高目標檢測的精度,但是帶來的代價是計算開銷增大以及實時性會受到一定影響。表1對幾個跟蹤特征的優缺點進行了對比。

表1 跟蹤特征對比Tab.1 Tracking feature comparison
連續兩幀圖像幀之間具有很強的相關性,靜止的物體在兩幀圖像中幾乎沒有發生變化。因此對兩幀進行差分運算時,靜止物體的像素灰度值的差值就很小,而運動物體的像素灰度值的差值就有明顯變化[32]。幀間差分法[33]就是利用這個原理對目標視頻序列進行幀間差分運算,通過與設定閾值進行比較,當差分值大于設定閾值時判定該物體為運動物體,即前景目標;差分值小于設定閾值時判定物體為靜止物體,即背景點。幀間差分法計算公式為
D(x,y)=fT(x,y)-fT-1(x,y),
(6)
式中,fT(x,y)表示第T幀像素值,fT-1(x,y)表示第T-1幀像素值,T表示閾值,當D(x,y)比閾值T大時即判定為前景點,反之則為背景點。
幀間差分法方法簡單,運算量小,易于實現,適合于動態變化的情況。但其受閾值選取的影響較大,若閾值設置過高,會出現漏檢運動物體的情況,若閾值設置過低,可能會誤判運動物體,閾值的合理選取非常重要,同時對于運動較慢的情況,幀間差分法效果并不理想。
背景差分法[34]適合于靜態背景的場景。首先提取出目標視頻的靜態背景圖像,然后將當前幀與背景圖像進行差分運算,通過與設定的閾值進行比較來判別背景點和運動點[35]。背景差分法的原理是運動的物體與背景的像素差值較大,而靜態物體本身就屬于背景,差分運算后像素差值差異小。背景差分法計算公式為
D(x,y)=fT(x,y)-fb(x,y),
(7)
其中,fT(x,y)表示當前幀像素值,fb(x,y)表示背景圖像像素值,T表示閾值,當D(x,y)的值大于閾值T時則判定為前景點,反之則為背景點。背景差分法適用于靜態背景的情況,具有運算量小、易于實現的特點;但是對于場景變化、光照變化等具有很高的敏感性。
光流法[36]是對圖像中運動物體進行檢測的一種重要的方法。光流法的原理是用圖像中的光流場來表征圖像的運動,這類似于空間中用運動場來表征物體運動;對圖像中每個像素點求得其光流矢量,從而來得到圖像的運動場,如果圖像中不存在運動目標,那么整個圖像的光流場應該是連續的;若圖像中存在有運動目標,則運動目標的光流矢量與周圍背景的運動矢量應該是有顯著的不同,通過這種方法,即可檢測出圖像中的運動目標。
光流法在攝像機運動的情況下也適用,并且可以計算出運動物體的實時速度,但是光流法對光照敏感,若整個圖像中無運動物體,而光照發生變化,也可觀察到光流,會誤判運動物體,而在像素灰度變化較小的區域,則有可能觀察不到運動物體。表2總結了幾個目標檢測方法的特點。
表2 目標檢測方法對比
Tab.2 Comparison of object detection methods

優點缺點幀間差分法方法簡單,運算量小,適合動態變化對閾值的依賴強背景差分法運算量小,易于實現,適合靜態變化對場景變化、光照變化敏感光流法可檢測物體運動速度,攝像機運動情況仍適用對光照敏感
基于特征的跟蹤方法是一種不考慮跟蹤目標整體情況,將目標物體的特征點作為跟蹤目標的方法。該方法只對從目標物體上提取出來的顯著特征進行跟蹤,假定目標物體可由一定的特征進行表達,在跟蹤過程中,只要跟蹤到了該特征即完成了對目標物體的跟蹤,在目標被遮擋的情況下有很好的效果。在選取特征時,通常會選取具有平移、旋轉、縮放不變性的特征,例如顏色、質心、角點、hu矩等。在實際應用中,可以采用多個特征對同一目標進行表征,效果更佳,例如在紅外目標跟蹤中,由于紅外圖像信噪比低、易受背景影響等特點,往往會采用多特征融合[37-38]的方法進行紅外目標跟蹤,有效地提高了跟蹤質量。
基于特征的跟蹤算法對目標物體的尺度、形狀和光照的變換不敏感;在存在遮擋的情況下,只要有部分特征點可見,即可完成對目標的跟蹤。
基于區域的跟蹤是事先獲得包含跟蹤目標的區域,通常用一個略大于目標的矩形區域進行表征,也可以用不規則的形狀表征;在獲得目標區域后,利用跟蹤算法對目標進行跟蹤。
基于區域的跟蹤算法在沒有遮擋的情況下能夠獲得精度較高且穩定的跟蹤效果,但是在出現較大遮擋或者目標有較大變形時效果不理想,該算法的計算量大、耗時大,尤其是目標區域設置得過大時耗時尤其嚴重。
基于輪廓的跟蹤是用一組閉合曲線描述運動目標的方法,該方法通過粗略勾畫輪廓,以閉合的輪廓曲線作為匹配模板,在圖像中后續幀圖像進行目標邊緣提取,匹配兩個輪廓曲線,以實現跟蹤目標。Snake輪廓算法是目前常見的一種基于輪廓跟蹤的算法,其原理是利用一條可變形的參數化的曲線來表征運動目標的輪廓,且能動態迭代,實現輪廓跟蹤。
基于輪廓的跟蹤計算量不大,匹配速度快,準確率也高,但是對于運動目標形變大、存在遮擋情況會使提取的輪廓不精準,影響跟蹤效果。
基于模型的跟蹤[39]需要具有一定的先驗信息,利用先驗信息對目標進行建模,并在對目標的匹配跟蹤過程中不斷地更新模型。這種方法對于在運動過程中幾乎只發生平移、旋轉的剛體來說效果較好,對于在運動中會發生較大形變、存在遮擋的情況則跟蹤效果不佳。
基于模型的跟蹤算法模型跟蹤匹配精度高,受觀測視角影響小;但是計算復雜、耗時多,從而導致實時性不高。
受到近年來壓縮感知和稀疏表示技術在圖像去噪、圖像去模糊和圖像修復等計算機視覺領域的成功應用的啟發,基于稀疏表示的算法在跟蹤領域也得到了成功應用。Mei[40]首次提出一種將稀疏表示理論用于跟蹤領域的L1范式最小化的目標跟蹤算法。該算法思路是在粒子濾波框架下,將一組目標模板和單位模板(單位矩陣的列向量)作為基函數來線性表示每一個候選目標。當候選目標為跟蹤結果時,其能夠以較低的重構誤差僅由基函數中的目標模板進行線性表示而獲得,因而基函數中的單位模板在整個線性表示中的系數接近零,在此可以假設線性表示的系數是稀疏的,并可利用 L1 范式最小化求解這些系數。每一個目標候選在粒子濾波下的權重可以計算為使用目標模板和對應的系數重構該目標候選時所得到的重構誤差,并將具有最大權重的目標候選取定為跟蹤結果。
最常用的算法是利用稀疏表示建模目標的外觀,合理地選擇目標模板和遮擋模板建模跟蹤目標及如何設計快速有效的跟蹤算法是這類算法的關鍵。
貝葉斯濾波(Bayesian Filtering)是在貝葉斯估計理論的基礎上提出來的濾波方案[41]。其原理是利用所有已知信息來構造系統狀態變量的后驗概率密度,即:用系統模型預測狀態的先驗概率密度,再使用最近的測量值進行修正,得到后驗概率密度。比較典型的算法包括卡爾曼濾波(Kalman Filter)和粒子濾波(Partical Filter)。
卡爾曼濾波是一種特殊的貝葉斯濾波,對于估計一個動態系統最優狀態適用,在觀測到的系統狀態參數存在噪聲、觀測值不準確的情況下,卡爾曼濾波仍然能夠實現對狀態真實值的最優估計。卡爾曼濾波的基本思路是:首先建立一描述隨機動態變量隨時間變化的先驗模型;然后對隨機變量進行實時觀測,利用卡爾曼濾波方程組實時獲得目標狀態基于全局信息的最優估計[8,42],卡爾曼濾波只適用于高斯線性系統。對于非線性系統,人們提出來一種基于蒙特卡羅思想的粒子濾波方法[43-44]。
粒子濾波的基本思想是用一組樣本(或稱粒子)來近似表示系統的后驗概率分布,然后使用這一近似的表示來估計非線性系統的狀態[43-45]。利用這種思想,粒子濾波在濾波的過程中可以對任意形式的概率進行處理,解決了卡爾曼濾波只能對線性高斯分布的概率問題適用的局限。表3總結了幾個跟蹤算法的特點。
在目標跟蹤過程中存在各種復雜的情況,經典的跟蹤算法并不能很好地解決各種復雜情況。在相關濾波(Correlation Filter)和深度學習(Deep Learning)的方法出現后,由于它們具有更高的魯棒性和解決各種復雜情況的能力,目標跟蹤技術領域近年來幾乎被相關濾波和深度學習方法所占領,其在目標跟蹤中的應用得到了飛速的發展。
相關濾波在目標跟蹤領域的應用開始于2010年,Bolme提出的誤差最小平方和濾波器(MOSSE)[46]首次將相關濾波引入到目標跟蹤當中,MOSSE通過一個最小平方和濾波器來實現對目標物體的跟蹤,取得了很好的效果,之后基于相關濾波的跟蹤大都是在此基礎上改進的。

表3 跟蹤方法對比Tab.3 Comparison of tracking methods
基于相關濾波的目標跟蹤框架一般總結為如下幾點:
1) 通過在第一幀給定目標位置。
2) 提取的圖像塊訓練得到相關濾波器。對于隨后的每一幀,利用從上一幀目標位置區域提取得到的圖像塊用來進行目標檢測。
3) 從原始輸入數據中提取圖像塊的特征,利用余弦窗口進行邊緣平滑。
4) 利用離散傅里葉變換進行相關濾波操作。
5) 經過傅里葉變換后可得到置信圖,其中具有最大響應的位置就是跟蹤目標的位置。
6) 提取該位置目標外觀,對濾波器進行訓練和更新。
基于相關濾波的目標跟蹤具有高效率、高魯棒性的特點,相比于經典的目標跟蹤算法性能有大幅提升,很快就廣泛運用在了目標跟蹤領域,自從MOSSE方法提出后,大量的相關濾波方法也相繼提出。Henriques在2010年提出了一種基于檢測的核循環結構的CSK[47]算法,Kaihua Zhang在2014年提出了一種利用時空上下文信息進行跟蹤的STC[48]算法。Henriques在2014年又提出了一種將核函數引入到跟蹤器中的KCF[49]算法,在當時獲得了極大的關注;除此之外,大量的相關濾波算法如Danelljan的CN[50]、DSST[51],Zhang的STC[52],Ma的LCT[53]等算法在不同程度上對相關濾波算法做出了改進,取得了不錯的效果,使得基于相關濾波的跟蹤算法不斷地在向前發展。
在基于相關濾波的跟蹤中,值得一提的是C-COT[54]算法和ECO[55]算法,它們都是由Danelljan團隊提出的,其中C-COT算法在VOT2016中取得了排名第一的好成績。傳統的相關濾波跟蹤模型多采用單一分辨率的手工特征或CNN特征,但由于目標尺度變化等因素影響,單一分辨率特征輸出結果可能會存在擾動,影響跟蹤效果。C-COT使用深度神經網絡VGG-Net提取特征,通過立方插值,將不同分辨率的特征圖插值到連續空間域,再應用Hessian矩陣求得亞像素精度的目標位置。C-COT的核心過程可以總結為:1)對于跟蹤目標,利用VGG-Net提取不同分辨率的特征,如圖2(a);2)利用訓練得到的多個連續卷積操作濾波器分別對特征圖進行卷積運算,如圖2(b);3)經過步驟2)后得到響應圖,如圖2(c);4)將圖2(c)的響應圖進行加權平均,得到多個分辨率置信度之和,即為最終的置信圖,置信圖極大值的位置即為目標預測位置,如圖2(d)。
ECO算法是Dnelljan在其C-COT算法的基礎上進行改進而成的,對于影響相關濾波跟蹤算法效率和導致過擬合情況的3個主要因素:模型大小、訓練集大小和模型更新策略,ECO算法提出了3個對應的解決措施。對于模型大小,ECO提出了對卷積操作進行因式分解(Factorized Convolution Operator)的辦法,通過提取特征子集進行降維,從而減少模型參數;對于訓練集冗余的問題,提出了生成樣本空間模型(Generative Sample Space Model)的策略,將類似的樣本歸并到一個Component,訓練樣本從多個Component中選擇;在模型更新策略選擇上,ECO選擇了一種稀疏更新的策略,摒棄了在每一幀中進行更新的辦法,將更新間隔設置為6,有效避免了模型漂移問題。ECO創新性的改進使其獲得了更加優秀的跟蹤效果,目前為止ECO在相關濾波跟蹤算法中仍處于領先地位。
圖2 C-COT主要結構
Fig.2 Main structure of C-COT
深度學習近年來是計算機科學的一個研究熱點,作為機器學習的一個新的研究方向,在人工智能領域的許多問題上都有較大突破。在計算機視覺、自然語言處理、音視頻處理等領域都有所應用且取得了很好的效果。
深度學習的概念是來源于對人工神經網絡的研究,是大數據時代對神經網絡的一種新的發展。1988年Rumelhart、Hinton和Williams提出了基于反向傳播的神經網絡算法(BP)[56],但這個網絡在隨著層數增加會出現過擬合或者陷入局部最小現象,此后神經網絡的研究進展相對比較緩慢,直到2006年,Hinton在國際頂尖學術刊物《Science》發表了他在深度置信網絡領域的研究成果[57],首次提出了深度網絡與深度學習的概念,至此深度學習的研究逐漸開始火熱起來,很快在學術界和工業界都變得如火如荼,不斷地取得顯著的成果。
科研人員在2011年將深度學習技術應用在語音識別問題上,將其準確率提高了20%~30%,取得了突破性的進展[58],僅一年后,研究人員又將基于卷積神經網絡的深度學習技術使用在大規模圖像分類問題上,性能上取得了很大的突破[59];鑒于此,國內外科研工作者開始嘗試將深度學習技術引入目標檢測[60-61]和視頻分類[62-63]領域,最終也取得了顯著的效果。
深度學習技術首次運用在目標跟蹤領域是在2013年,由王乃巖提出的DLT[64]算法表明了深度學習技術在目標跟蹤中能夠取得比傳統方法更加準確的效果。由于深度學習在訓練階段需要大量樣本,而在目標跟蹤過程中僅僅提供第一幀中的bounding-box數據作為訓練數據,樣本嚴重不足,DLT算法突破性地采用了“離線預訓練+在線微調”的策略,即先使用棧式降噪自編碼器(SDAE)在大規模的自然圖像數據集上進行無監督預訓練來獲得通用的物體表征能力,預訓練的網絡結構如圖3(b)所示,一共堆疊了4個降噪自編碼器,降噪自編碼器對輸入加入噪聲,通過重構出無噪聲的原圖來獲得更魯棒的特征表達能力。然后在跟蹤過程中根據跟蹤物體的情況進行微調,從而解決了訓練樣本的缺失問題,在線跟蹤部分結構如圖3(c)所示,取離線SDAE的encoding部分疊加sigmoid分類層組成了分類網絡,利用第一幀獲取正負樣本,對分類網絡進行微調獲得對當前跟蹤目標和背景更有針對性的分類網絡。在跟蹤過程中,對當前幀采用粒子濾波(particle filter)的方式提取一批候選的patch,這些patch輸入分類網絡中,置信度最高的成為最終的預測目標。DLT算法在CVPR2013中的29個跟蹤器中排名第五,自此深度學習在目標跟蹤領域中的應用拉開了大幕,此后越來越多的深度神經網絡模型例如自動編碼機(ADE)[65]、卷積神經網絡(CNN)[66]、循環神經網絡(RNN)[67]等都開始在目標跟蹤領域嶄露頭角,并取得了不錯的效果。

圖3 DLT主要結構
Fig.3 Mainstructure of C-COT
DLT算法在離線預訓練階段的訓練目標是圖片重構,這與在線跟蹤要區分目標和背景的需求相差較大,H Nam在2016年使用針對分類的卷積神經網絡提出了一種MDNet[68]算法,提出了分域訓練,針對每一類目標單獨構建一個用于對應類別進行二分類的全連接層。王乃巖在2015年也對他的DLT算法提出了一種改進的SO-DLT[69]算法,這是Large-Scale CNN網絡在目標跟蹤中的一次成功應用;同年,Wang也將CNN特征應用在物體跟蹤中,提出了FCNT[70]算法;C Ma[71]等人提出了一種將深度學習與相關濾波結合的目標跟蹤方法,也取得了顯著的效果;David[72]在2016年提出一個深度學習框架,第一次將基于深度學習的目標跟蹤做到了100 fps以上,Chu[73]等人在2017年提出一個基于CNN的多目標跟蹤框架,取得了很好的效果;Huang等人也提出了一種只在經歷外觀變化較大情況下才利用深度特征進行定位而通常情況下只利用簡單特征進行定位的EAST[74]算法,在一定程度上減少了計算量,提高了算法的實時性。A He[75]等人在Luca Bertinetto的SiamFC算法基礎上,將圖像分類任務中的語義特征與相似度匹配任務中的外觀特征互補結合,提高了跟蹤的效果;J Choi[76]等人提出了一種訓練了多個自編碼器來進行數據壓縮的算法,提高了算法的魯棒性,且跟蹤速度也令人十分滿意。
隨著神經網絡研究的深入,目標跟蹤的效果也得到了極大的提升,但其需要大量的訓練數據作為支撐,通常在目標跟蹤中數據存在兩個問題:1)每一幀中正樣本高度重疊,它們無法捕獲物體豐富的變化表征;2)正負樣本之間存在嚴重的不均衡分布的問題;Y Song等人提出了一種VITAL[77]算法,利用生成對抗網絡(GAN)在特征空間進行正樣本擴增,使其能夠捕獲目標物體在一定時間范圍內的外觀變化,獲得更加魯棒的跟蹤效果;對于正負樣本不均衡的問題,提出了一個高階敏感損失來減小簡單負樣本對于分類器訓練的影響。VITAL核心結構如圖4所示,在最后一層卷積層和全連接層之間加入GAN,用來生成不同時序的一系列mask,作用在特征上可以獲得不同外觀變化的特征,mask的學習是通過選擇masks中loss最大的作為最終mask,這樣可以降低具有判別力特征的影響從而獲得魯棒的效果。
從2015年以來的三年,深度學習在目標跟蹤中掀起了一場熱潮,大量基于深度學習的目標跟蹤方法不斷地提出,ICCV、ECCV、CVPR三大計算機視覺頂級會議中目標跟蹤領域的論文呈現出了被深度學習占領的趨勢,深度學習在目標跟蹤中帶來了極大的突破,其強大的特征表達能力可以自動學習到反映目標的良好特征,而不再需要耗時耗力的進行手工設計,在跟蹤精度方面也有顯著提高。然而其仍然有一系列問題存在,例如在訓練階段缺少數據,深度學習模型在訓練時需要大量的數據,而在目標跟蹤中訓練的數據往往只有第一幀中提供的bounding-box作為訓練數據,數據的量級最多也就只有幾百個,遠不滿足深度學習數據量級;其次就是深度學習模型難以滿足目標跟蹤的實時性要求,目標跟蹤對實時性的期待極高,深度學習模型由于其規模龐大的深度網絡,在計算上帶來了很大的開銷,運算的速度難以達到目標跟蹤的要求,且深度學習模型對硬件(如GPU)也有一定的要求。所以深度學習在目標跟蹤中的應用也并不是一帆風順,還有一系列的問題需要去解決。縱觀目前深度學習在目標跟蹤中帶來的顯著提升,其依然是一個令人有所期待的發展趨勢,也有顯著的研究空間。

圖4 VITAL主要結構
Fig.4 Main structure of VITAL
本文概述了目標跟蹤的發展、技術流程以及常用的技術方法。目前目標跟蹤技術的發展中,現有的傳統方法已經不能很好地適用于當前需求。由于現實生活中,跟蹤目標自身形態的變化、運動的復雜,背景環境的復雜,各種遮擋現象的存在以及在多目標跟蹤中各個目標之間的相互遮擋等等復雜的情況,一個能夠適應各種復雜情況的跟蹤算法亟待提出,當前存在的各種算法大多只在特定的環境條件下能夠發揮出理想的效果,目前所提各種方法是在理想實驗環境中獲得的,應用于工業生產還有一段很長的路。目前目標跟蹤的發展方向是朝著設計一種能夠自動提取目標特征、自動檢測運動目標、自動跟蹤運動目標并能夠對跟蹤目標的信息及行為進行一定的預測分析的跟蹤器所進行的。
當前基于相關濾波和深度學習的目標跟蹤成為了一個研究熱點,其不論是在精度或是魯棒性上,表現都比經典的跟蹤方法有顯著提升。在最近兩年的各類挑戰中,基于深度學習和相關濾波的跟蹤器表現突出,性能遙遙領先其他算法,但是其仍然還有很長的路要走,其跟蹤效果仍然不能夠完美地適應各種復雜變化。特征的合理選取、網絡結構的合理構造,對于深度學習和相關濾波在目標跟蹤中的表現有著極大的影響,在人工智能、機器學習等技術飛速發展的背景下,相信目標跟蹤能夠從中獲得技術上的新突破,并反之能推動其更深入的發展。