劉 藝,李蒙蒙,鄭奇斌,秦 偉,任小廣
1.國防科技創新研究院,北京100071
2.軍事科學院,北京100091
視頻目標跟蹤是計算機視覺領域的重要問題,指利用視頻或圖像序列的上下文信息,對目標的外觀和運動信息進行建模,從而對目標運動狀態進行預測并標定位置的技術。視頻目標跟蹤在視頻監控、無人駕駛等實際環境中有著廣泛的應用。盡管近年來關于視頻目標跟蹤算法的研究取得了很大的進展,但是由于跟蹤目標的外觀變化、尺寸變化、物體遮擋、運動模糊、跟蹤背景干擾等因素的影響,現有方法的效果仍未達到理想狀態。根據是否涉及背景環境,可以將視頻目標跟蹤面臨的挑戰分為目標自身因素和背景因素兩方面。目標自身變化帶來的挑戰主要有外形變化、尺度變化、運動模糊和目標旋轉等;除了目標自身變化帶來的挑戰,背景因素的影響也較為顯著,主要包括遮擋與消失、光照變化和相似背景干擾等。具體分類如圖1所示。

圖1 視頻目標跟蹤面臨的挑戰Fig. 1 Challenges of video object tracking
按照跟蹤方法的不同,本文將視頻目標跟蹤算法分為基于相關濾波的視頻目標跟蹤算法和基于深度學習的視頻目標跟蹤算法?;谙嚓P濾波的視頻目標跟蹤算法在跟蹤的過程中主要利用相關濾波器計算模板圖像和預測圖像之間的相似度來確定目標位置;而基于深度學習的視頻目標跟蹤算法主要是通過訓練深層網絡來學習目標特征,完成視頻目標跟蹤。相關濾波方法最早源自信號領域,旨在通過卷積操作判斷兩個信號的相似程度。文獻[5]首次將相關濾波引入到視頻目標跟蹤問題中,提出了誤差平方和最小濾波器(minimum output sum of squared error,MOSSE)算法,之后基于相關濾波的算法逐漸成為了視頻目標跟蹤領域的主流方法。但是,隨著AlexNet 網絡的提出,基于深度學習的視頻目標跟蹤算法逐漸興起,近幾年受到了廣泛關注,已經產生了很多性能優異的算法模型。
本文對視頻目標跟蹤算法的研究做詳細的總結,為從事視頻目標跟蹤方面研究的學者了解相關領域的進展提供參考。首先從核相關濾波算法、尺度自適應相關濾波算法和多特征融合相關濾波算法三方面描述了基于相關濾波的視頻目標跟蹤算法,從基于孿生網絡的視頻目標跟蹤算法和基于卷積神經網絡的視頻目標跟蹤算法兩個角度總結了近幾年基于深度學習的視頻目標跟蹤算法,然后概述了視頻目標跟蹤領域常用的數據集和評價指標,最后總結了全文并探討了該領域未來的發展趨勢。
MOSSE 算法是最典型的基于相關濾波的視頻目標跟蹤算法,其主要思想是將視頻目標跟蹤問題抽象為模板圖像與候選區域的相似度匹配問題。該類算法在跟蹤過程中首先訓練一個濾波器,然后利用該濾波器對候選區域的特征做卷積操作,輸出響應值,響應最大值在候選區域中對應的位置即為跟蹤目標下一幀所在位置。相關濾波算法的流程如下所示。
(1)用邊界框在視頻第一幀中標定跟蹤目標,生成模板圖像;
(2)提取模板圖像的特征圖F;
(3)利用高斯函數生成特征圖F的輸出響應圖G;

(5)后續圖像特征圖經過傅里葉變換之后與相關濾波器相乘,結果進行逆傅里葉變換,生成輸出響應圖,獲得當前幀跟蹤目標的位置;
(6)利用當前幀的目標位置訓練更新相關濾波器,用于之后的預測。
MOSSE 算法雖然具有669 frame/s 的實時速度,且針對亮度、尺寸和形狀等不嚴格的變形具有很好的魯棒性,但是也具有準確度不高等缺陷。針對此問題,研究學者提出了一系列基于MOSSE算法的優化策略與改進算法,其中一類重要的改進算法是基于核函數的相關濾波算法。
文獻[7]針對MOSSE算法中訓練樣本數量較少,容易產生過擬合的問題提出了CSK(circulant structure with kernels)算法,該算法在MOSSE算法的基礎上增加了正則化項,采用循環矩陣進行稠密采樣,有效解決了濾波器過擬合的問題;此外,該算法還引入了核技巧,提高了在高維空間中的分類速度。文獻[8]在CSK 算法的基礎上提出了KCF/DCF(kernelized/dual correlation filter)算法,該算法把視頻目標跟蹤問題抽象為目標檢測問題。首先利用嶺回歸方法訓練了一個目標檢測器,然后利用訓練的目標檢測器預測候選位置是否為下一幀目標的位置。此外,該算法利用循環矩陣在傅里葉空間對角化的性質將矩陣運算轉化為向量的Hadamad 運算(即元素的點乘),提高了算法的運算速度;同時引入了高斯核函數,將低維空間中的線性不可分問題轉化為高維空間中的線性可分問題。KCF/DCF算法進一步引進了基于多通道的方向梯度直方圖(histogram of oriented gradient,HOG)進行特征提取,進一步提升了算法的跟蹤精度。KCF/DCF算法雖然在跟蹤速度和跟蹤精度兩方面都有了很大改進,但是其對尺度變化較大的視頻目標跟蹤效果不太理想,主要是由于其僅采用單一尺度的候選圖像。針對此問題,相關學者提出多尺度縮放策略用于解決尺度變化較大的視頻目標跟蹤問題。
近幾年,一些核相關濾波視頻目標跟蹤算法也相繼被提出。文獻[13]針對KCF/DCF算法在目標遮擋和尺度變化問題中的局限性提出了一個基于核相關濾波的魯棒跟蹤算法。該算法針對目標遮擋問題提出了損失辨別和重定位策略,根據當前幀和第一幀的相似度判定目標是否被遮擋,當目標被遮擋時,算法在一定范圍內重新定位目標;此外,該算法針對尺度變化問題引入了多尺度濾波器以緩解目標漂移問題。文獻[14]針對衛星數據中目標較小且目標與背景相似的問題提出了一個混合核相關濾波算法(hybrid kernel correlation filter,HKCF)。該算法利用光流和方向梯度直方圖兩個互補的特征進行自適應融合以檢測目標變化。文獻[15]為了提高視頻目標跟蹤算法在遇到背景雜波、遮擋等問題時的魯棒性,提出了一種基于自適應更新策略和再檢測技術的關聯跟蹤算法。該算法的自適應更新策略根據跟蹤結果的置信度自適應調整模板更新系數,當目標遭受遮擋時,利用再檢測策略對目標進行重新檢測,不僅降低了目標漂移概率,還提高了算法的糾錯能力。
在跟蹤過程中由于目標與相機的距離經常發生變化導致跟蹤目標尺度不一。為適應目標尺度縮放的問題,文獻[10]提出的SAMF(scale adaptive with multiple features tracker)算法提出了尺度池策略,其主要思想是對候選區域的目標做七個尺度的縮放,再與上一幀樣本進行匹配,選擇相似度最高的候選區域作為最終的跟蹤目標。尺度池策略的引入使得算法能夠在小范圍內實現尺度自適應,提高了跟蹤精度。文獻[11]提出的DSST(discriminative scale space tracker)算法將視頻目標跟蹤看成平移跟蹤和尺度跟蹤兩個問題,算法除了訓練平移濾波器之外,還訓練了尺度濾波器以解決目標尺度變化的問題。尺度濾波器以目標位置為中心進行空間位置采樣,距離原始目標越近抽樣越精細,獲得33 個不同尺度的樣本。文獻[12]在DSST算法的基礎上提出了一種魯棒的旋轉估計算法。該算法基于等角度間隔策略在目標中心區域進行采樣,并訓練角度濾波器,結合DSST 算法中的平移濾波器和尺度濾波器形成了一個由三層濾波器組成的跟蹤器,實現了對旋轉目標的精確跟蹤。
結合卷積神經網絡深層特征的相關濾波跟蹤算法具有較好的跟蹤性能,但是無殘差的卷積神經網絡深層特征缺乏目標局部信息,容易受到相似物和背景噪聲的影響。針對此問題,文獻[16]提出尺度自適應的視頻目標跟蹤算法。該算法從ResNet網絡的不同層提取特征生成響應圖,然后基于AdaBoost 算法進行融合,再利用尺度濾波器估計目標尺寸,實現準確跟蹤。文獻[17]提出了一種可變尺度因子學習方法,該方法克服了常用的多尺度搜索方法中固定尺度因子的局限性,其次使用多尺度縱橫比方法替換固定尺度縱橫比方法進一步緩解目標尺度變化問題。
尺度池策略和尺度自適應方法的提出使得基于相關濾波的視頻目標跟蹤算法在目標尺度縮放、目標外觀變化等挑戰下的跟蹤精度得到較大提升,但是如何得到一個合適的尺度濾波器對候選圖像進行采樣仍是該領域面臨的難題。
文獻[18]認為提取合適的特征能夠顯著提升模型的跟蹤效果。因此,通過多特征融合的方法來提高視頻目標跟蹤精度成為了當下研究的熱點。
在早期的視頻目標跟蹤算法中,主要采用顏色直方圖或者單通道的灰度特征來辨別目標。該類方法簡單高效,但是學習到的目標信息較少,跟蹤精度較低。為了提高算法跟蹤精度,文獻[7-8,11]采用了HOG 特征,該特征是在圖像的局部方格單元上進行操作,對圖像幾何變化和光照變化都具有較好的魯棒性。文獻[21]將RGB 三通道細化為11 種顏色,在跟蹤過程中將11 維顏色特征降為兩維,自適應選擇顏色特征。文獻[22-24]則根據不同的顏色特征方法進行視頻目標跟蹤。
自深度學習快速發展以來,基于深度特征的相關濾波跟蹤算法得到了廣泛的研究和發展。文獻[25]將SRDCF(spatially regularized discriminative correlation filters)算法中的傳統手工特征替換為基于卷積神經網絡的深度特征,提出了deepSRDCF算法,取得了較好的跟蹤效果。C-COT(continuous convolution operator tracker)算法結合深度特征和傳統的手工特征共同進行跟蹤。首先采用深度網絡VGGNet進行特征提取,然后將提取的深度特征與HOG 和顏色直方圖等手工特征進行融合實現視頻目標跟蹤,深淺層特征的融合顯著提升了算法的跟蹤精度。
采用深層特征的視頻目標跟蹤算法雖然在性能上得到了顯著的提升,但是跟蹤速度卻明顯地下降。針對此問題,ECO(efficient convolution operators)算法深入分析了影響算法速度的三個主要原因:模型復雜度、訓練集尺寸和模型更新策略。并針對不同的原因提出了相應的解決方案:(1)跟蹤過程中僅選擇貢獻較大的濾波器進行線性組合,減少模型參數,實現快速跟蹤;(2)去除冗余樣本,簡化訓練集;(3)提出間隔N幀更新一次模型,提升算法的實時性。針對當前的跟蹤算法僅使用深度網絡中淺層特征的問題,UPDT(unveiling the power of deep tracking)算法系統地闡述了深層和淺層特征對視頻目標跟蹤的影響,并指出深層特征能提升網絡的魯棒性,淺層特征能獲得更好的定位精度,提出了一種深淺層特征自適應融合的跟蹤算法。深層和淺層特征的優缺點如表1所示。文獻[31]針對基于深度互相關操作的視頻目標跟蹤算法容易被相似物干擾且對目標邊界的辨別能力較弱等問題提出了一種可學習模塊,稱為不對稱卷積模型(asymmetric convolution module,ACM)。ACM 可以在大規模數據的離線訓練中學習如何更好地捕捉語義相關信息,有效地融合目標和搜索區域中不同尺寸的特征圖,結合先驗信息和視覺特征,可以很容易地集成到現有跟蹤器中,具有較好的泛化性能。

表1 深層特征與淺層特征的對比Table 1 Comparison of deep and shallow features
多特征融合算法的提出顯著提升了基于相關濾波視頻目標跟蹤算法的跟蹤精度和魯棒性,尤其是傳統手工特征和深層特征的融合,使得在運動模糊、目標旋轉等復雜情況下視頻目標跟蹤算法的魯棒性也能得到較大提升。
基于相關濾波的算法是視覺目標跟蹤領域中發展較為成熟的一類算法,具有速度快、精度高等優點,但是該類算法通常采用手工淺層特征,因此魯棒性較差?,F對典型的基于相關濾波的視頻目標跟蹤算法進行簡單對比,如表2所示。

表2 基于相關濾波的視頻目標跟蹤算法Table 2 Video object tracking algorithms based on correlation filter
基于孿生網絡的視頻目標跟蹤算法自提出以來得到了研究學者們的廣泛關注。孿生網絡架構如圖2所示,輸入1和輸入2分別代表模板圖像和搜索區域圖像,經過兩個結構相同、參數共享的子網絡之后生成相應的特征圖,然后通過計算生成兩個圖像的相似度。由于孿生網絡可以進行離線訓練,可以使用大規模的圖像數據集進行預訓練,很好地緩解了視頻目標跟蹤領域中訓練樣本數量較少的問題。

圖2 孿生網絡架構Fig. 2 Architecture of siamese network
SiamFC(fully-convolutional siamese networks)算法是由Bertinetto等人提出的全卷積孿生網絡。它首次將孿生網絡引入到視頻目標跟蹤領域,把視頻目標跟蹤問題轉化為圖像匹配問題,通過選擇與模板圖像最相似的候選圖像實現對目標的跟蹤。
SiamFC網絡的兩個輸入分別為模板圖像和搜索區域。其中模板圖像通常是視頻第一幀選定的跟蹤目標,跟蹤期間模板圖像不進行更新;搜索區域一般以上一幀目標所在位置為中心選出固定尺寸大小的區域。在跟蹤過程時,算法對目標圖像進行多種尺度縮放,并以不同尺寸的滑動窗口在整個搜索區域進行滑動匹配。兩個分支骨干網的結構相同,參數共享,骨干網對兩個輸入進行相同的變換后,將提取的特征圖送入到相似性度量函數中,利用式(1)得到相似度。

其中,一般為卷積操作,()為卷積核。
SiamFC 算法雖然具有實時的跟蹤速度,但是跟蹤精度并不理想,主要原因在于SiamFC算法并不能較好地處理目標尺度變化問題。因此,為了更精確地跟蹤目標,文獻[33]在SiamFC 算法的基礎上提出了SiamRPN(siamese region proposal network)算法。SiamRPN 算法引入了候選區域生成網絡(region proposal network,RPN)模塊。該模塊取代了傳統的多尺度檢測方法,實現了高精度跟蹤。RPN 網絡架構有兩個分支:分類分支和回歸分支。分類分支用于區分目標和背景,實現對目標的檢測分類;回歸分支用于對目標邊界框回歸預測,實現對目標的精確定位。SiamMask算法把視頻目標跟蹤與實例分割結合起來,在SiamRPN 算法的基礎上對RPN 模塊進行了擴展,增加了目標二值掩碼分支,該分支通過一個兩層神經網絡得到目標的實時像素級標注信息,進一步完成目標的精確定位。C-RPN(siamese cascaded region proposal networks)算法利用特征轉換模塊融合多層特征,并將融合后的特征圖輸入到不同的RPN 模塊中,采用多RPN 模塊級聯的方式進行候選區域選擇,該方法不僅可以充分利用深層特征和淺層特征,還可以精確地計算目標邊界框、定位目標。SPM-Tracker(series-parallel matching tracker)算法將視頻目標跟蹤分為兩個階段:粗略匹配階段和精細匹配階段。粗略匹配階段采用SiamRPN 網絡,分離目標和相似干擾物;精細匹配階段通過兩層全連接網絡分類相似物體,選出真正的目標。文獻[37]在SiamFC 的基礎上提出了一種融合注意力機制的孿生網絡視頻目標跟蹤算法。該算法通過融合注意力機制,由神經網絡學習模板圖像的通道相關性和空間相關性,增大前景貢獻,抑制背景特征,提升網絡對目標特征的辨別力。文獻[38]針對SiamFC在嚴重遮擋、旋轉、光照變化和尺度變化等情況下容易造成跟蹤失敗的問題,提出了一種融合擾動感知模型的孿生神經網絡視頻目標跟蹤算法。該算法將孿生網絡提取的淺層特征和深層語義特征進行有效融合,提高了特征表征能力;此外,該算法引入了顏色直方圖特征的擾動感知模型,通過加權融合的方式獲得目標響應圖,以此來實現目標跟蹤。
為了進一步提升算法的跟蹤速度,文獻[39]提出了一種目標感知模塊,并將其與SiamFC 框架結合。目標感知模塊選擇當前跟蹤目標所需通道,同時去除非必要的通道,提高了跟蹤速度。為了降低目標漂移概率,DaSiamRPN(distractor-aware siamese region proposal network)算法提出了干擾物感知模型,降低了目標漂移到相似干擾物的概率;同時提出了局部-全局搜索策略,當目標跟蹤失敗時,以目標消失位置為中心重新檢測目標,實現長時跟蹤。DSiam(dynamic siamese network)算法提出了動態孿生網絡,在SiamFC架構上增加了形變學習層,利用視頻前幾幀圖像學習目標外觀變化,抑制背景噪聲干擾,提升長時跟蹤精度。DCFNet(discriminant correlation filters network)算法提出了一種輕量級的端到端網絡架構。首先利用預訓練的卷積網絡進行特征提取,然后利用相關濾波器層進行目標匹配和跟蹤。為了降低跟蹤成本,該架構將卷積層設置成輕量級的網絡,將相關濾波器層的計算轉換到傅里葉頻域中進行。在測試階段,DCFNet的跟蹤速度可達60 frame/s,實現了實時跟蹤。CFNet(correlation filter network)算法提出一個非對稱的網絡架構,首先“訓練圖像”和“測試圖像”經過相同的卷積層進行特征變換,然后“訓練圖像”通過相關濾波操作學習線性模板,通過互相關操作對“測試圖像”進行搜索,最后通過實驗證明兩層的CFNet可以較好地平衡跟蹤精度和跟蹤速度,在跟蹤精度較理想的情況下,跟蹤速度可以達到75 frame/s。文獻[45]針對跟蹤目標在平面內旋轉的問題展開研究,提出了旋轉等變孿生網絡(rotation-equivariant siamese networks,RE-SiamNets),以無監督的方式估計目標旋轉方向變化,促進算法跟蹤性能。文獻[46]針對現有視頻目標跟蹤算法目標邊界框精度不高,且算法耦合嚴重、各階段難以移植的問題提出了一種精確通用的跟蹤模塊,稱為AR(alpha-refine)。該模塊以孿生網絡架構為基礎,兩個分支分別對模板圖像和測試圖像進行特征提取,然后利用相關模塊進行特征融合,在跟蹤過程中將邊界框設定為目標尺寸的2倍。比普通跟蹤器更小的邊界框可以讓跟蹤器更關注目標空間信息,有利于精確定位。該模塊輕量級的設計降低了跟蹤成本,但具體效能仍與完整的跟蹤框架相關。
跟蹤算法中使用的孿生子網絡相對較淺,目標信息利用率不高,若直接將子網絡替換為深度網絡,算法性能也并不能得到顯著提升,這主要是由于深度網絡一般都具有填充操作,但是在跟蹤過程中填充操作將引入目標位置偏差,影響跟蹤效果。針對此問題,文獻[47]提出了內部裁剪殘差單元來增強SiamRPN 的性能,該方法刪除了受填充操作影響的特征,把深度網絡有效地應用到了視頻目標跟蹤領域。文獻[48]提出了具有空間感知采樣策略的SiamRPN++算法,該策略較好地解決了填充操作帶來的負面影響,同時采用了多SiamRPN級聯策略,增強了算法的判別能力。
為了更加充分地利用孿生網絡對稱性的優勢,SASiam(semantic features and appearance features siamese network)算法提出了基于雙重孿生網絡的視頻目標跟蹤算法。該算法由語義分支對和外觀分支對組成,語義分支對生成的語義特征用于圖像分類,外觀分支對生成的外觀特征用于相似度匹配。SiamBM(better match in siamese network)算法在SA-Siam算法的基礎上添加了旋轉角度模塊來預測目標的旋轉。SA-Siam++算法提出了一種基于語義和外觀雙分支孿生網絡的跟蹤方法,雙分支網絡分別是通過沙漏-通道注意力機制提取語義信息的語義分支網絡和采用SiamFC 算法提取外觀特征的外觀分支網路,提高了算法的跟蹤性能。
近幾年,基于孿生網絡的算法由于其思想簡單,架構可伸縮,在視頻目標跟蹤領域取得了快速的發展。該類算法在跟蹤速度較為可觀的情況下,有效提升了跟蹤器對背景和相似干擾物的辨別能力,是視頻目標跟蹤領域未來研究的重點。
文獻[52]提出了一種基于深度學習的支持向量機算法(deep learning support vector machines,DLSVM),該算法利用圖像識別領域預訓練的卷積神經網絡(convolutional neural network,CNN)對目標進行特征提取,利用支持向量機分類器進行跟蹤。該算法由于不需要大量訓練樣本學習網絡模型,因此在一定程度上提高了算法的執行效率,但是直接將圖像識別領域的神經網絡應用到視頻目標跟蹤領域中并不能達到預期效果,主要原因在于圖像分類關注類間差異,忽視類內區別,而視頻目標跟蹤關注目標實例與背景間的差異,同時需要消除同類別其他實例物體的干擾。針對此問題,文獻[53]提出了針對視頻目標跟蹤的多域卷積神經網絡(multi-domain network,MDNet)。MDNet 網絡最終生成一個二維向量分別表示該邊界框中物體為目標或者背景的概率,該網絡架構較小,參數較少,具有很好的實時性。文獻[54]提出了一種基于樹狀結構的CNN跟蹤算法。該算法在樹狀結構的不同分支中維護多個CNN 網絡,并對CNN網絡生成的結果進行加權平均來估計目標外觀的變化。文獻[55]針對MDNet 算法采樣密集的問題提出了行為驅動策略,通過捕獲目標的運動信息,搜索高質量的候選樣本,提高算法泛化性能。
SANet(structure-aware network)算法結合了CNN和循環神經網絡(recurrent neural network,RNN),其中CNN負責類間判別,區分目標類與背景,RNN負責類內選擇,區分目標實例與相似干擾物。Siam R-CNN(siamese R-CNN)算法結合了孿生網絡和Faster RCNN,孿生網絡用于特征提取,Faster R-CNN 用于候選區域生成。ATOM(accurate tracking by overlap maximization)算法結合了兩層深度回歸網絡和IoUNet網絡(intersection-over-union network),前者用于目標粗略定位,生成候選區域,后者用于目標精細定位和尺度估計。文獻[60]針對現有跟蹤器網絡架構越來越龐大、跟蹤代價越來越高昂,在資源有限的應用中部署越來越受限的問題,提出一種輕量級的神經網絡跟蹤架構(LightTrack)。該架構使用神經網絡架構搜索(neural architecture search)方法自動設計輕量級模型,首先將所有可能的架構編碼為骨干超網絡和頭部超網絡,骨干超網絡在ImageNet 數據集上進行訓練,然后利用測試數據進行微調,而頭部超網絡則直接使用測試數據進行訓練。所有超網絡只訓練一次,然后每個候選架構直接從超網絡中繼承權重。此外,該算法構建了新的搜索空間,促使算法搜索更緊湊的神經架構。該算法在跟蹤性能和計算成本之間取得了較好的平衡。
基于卷積神經網絡的視頻目標跟蹤算法雖然可以利用不同的網絡架構提取不同深度的目標特征,但是由于網絡架構龐大,模型參數較多,該類算法的跟蹤代價通常較大,因此輕量級的跟蹤模型具有十分重要的研究意義。
隨著對視頻目標跟蹤算法的深入研究,傳統的數據集已經不能有效地評估算法的綜合性能,為此,研究人員提出了更多高質量的數據集。這些數據集除了能夠有效評估算法的性能,也進一步推動了視頻目標跟蹤領域的發展。下面總結該領域常用的數據集及其特點。表3按照時間線給出了常用視頻目標跟蹤數據集的信息,其中數據集包括:OTB-2013、OTB-2015、VOT2013、VOT2014、VOT2015、V0T2016、VOT2017、VOT2018、VOT2019、UAV123、UAV20L、TrackingNet、GOT-10K、LaSOT。

表3 視頻目標跟蹤領域常用數據集Table 3 Datasets widely used in field of video object tracking
隨著數據集的不斷更新,更加準確高效的評價指標也在不斷完善,優異的評價指標可以更加公平客觀地反映算法的優劣。在視頻目標跟蹤算法中最常用的評價指標為精確度、交并比、成功率和跟蹤速度等。
精確度(precision plot)主要評估的是目標中心位置誤差,指跟蹤目標中心位置與目標真值中心位置之間的平均歐氏距離小于給定閾值的視頻幀占整個視頻序列幀數的百分比,公式如式(2)所示。

其中,是視頻序列長度,為跟蹤目標與目標真值之間的距離誤差,為設定的閾值。跟蹤精度雖然能直觀地反映算法的優劣,但是不能很好地處理目標尺寸發生變化的情況。因此,在OTB 數據集中同時采用了成功率指標。
成功率(success plot)主要依據的是交并比,指當某一幀圖像的交并比大于規定閾值時,則認為該幀跟蹤成功,跟蹤成功的幀數占整個視頻序列的百分比設置為成功率,公式如式(3)所示。

其中,為某一幀的交并比,為設定的閾值。
交并比(intersection over union,IoU)是指“預測圖像”與“目標真值圖像”之間面積的交集與并集的比值,如式(4)和圖3所示。

圖3 交并比計算圖Fig. 3 Calculation graph of IoU

其中,和分別代表“預測圖像”和“目標真值圖像”。
成功率指標可以很好地評估目標尺寸變化情況,但是并不能很好地體現跟蹤目標與目標真值未重疊和目標旋轉等問題。當跟蹤目標與目標真值未重疊時,簡單地認為跟蹤失敗并不能提供有用信息,導致算法無法在下一幀作出有效改進;當目標發生旋轉時,某一幀預測圖像與目標真值重疊率很高,但是角度相差較大,此時回歸效果很差,卻被誤判為跟蹤成功,導致成功率不可信。針對以上問題,文獻[74]提出了GIoU(generalized intersection over union)指標,如式(5)所示。

其中,代表包圍和的最小面積框。GIoU是指用傳統的IoU 減去“‘從中去除和的面積框’與‘’之間的比值”。該指標通過引入同時覆蓋預測圖像和目標真值圖像的最小封閉面積框,使得兩者即使不重疊,預測圖像也會逐漸移向目標真值。
視頻目標跟蹤領域中算法的實時性很重要,通常用跟蹤速率(單位為frame/s)來評估算法實時性能。
盡管近些年視頻目標跟蹤技術取得了快速發展,但是在復雜的應用場景中,現有的視頻目標跟蹤算法仍未取得理想效果?,F對視頻目標跟蹤領域存在的問題進行簡單總結與展望,希望可以為相關學者的研究提供思路。
(1)基于相關濾波的視頻目標跟蹤算法把視頻目標跟蹤問題抽象為模板圖像與候選區域的相似度匹配問題,因此模板圖像的選擇更新策略對算法的跟蹤精度具有顯著影響,加大對模板圖像的關注和研究具有重要意義。
(2)基于深度學習的視頻目標跟蹤算法主要依托深度網絡架構實現視頻目標跟蹤,因此網絡架構的設計和構建非常重要。網絡架構較深會限制算法長時跟蹤性能,參數較多會降低算法跟蹤效率,耦合性較高會加大算法改進優化難度,因此,設計輕量級的、耦合性較低的視頻目標跟蹤模塊或者算法具有較大現實意義和應用價值。
(3)現有的視頻目標跟蹤數據集涵蓋的類別較多,視頻序列場景豐富,雖然可以綜合評估算法性能,但是不能針對性地評估應用在某一具體領域的跟蹤算法。因此,為了更有效地評估實用可靠的跟蹤算法,根據具體應用領域制作相應的數據集和評價指標具有一定的必要性。