張豐,馮平
摘? 要: 研究近年來主流的目標跟蹤算法。通過文獻閱讀和歸納對比,分析了使用生成式模型和判別式模型的目標跟蹤算法。結果顯示,對于存在復雜干擾因素的場景,采用第二類模型的目標跟蹤算法的跟蹤效果更好。文章為視頻跟蹤領域的研究者們提供了一個關于目標跟蹤算法的客觀分析。
關鍵詞: 目標跟蹤; 深度學習; 相關濾波; 計算機視覺
中圖分類號:TP399? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)01-32-04
Overview on video target tracking
Zhang Feng, Feng Ping
(Guizhou University of Finance and Economics, Guiyang, Guizhou 550025, China)
Abstract: This paper focuses on the mainstream target tracking algorithms in recent years, and analyzes the target tracking algorithms using generative and discriminative models through literature reading and inductive comparison. The results show that for the scenes with complex interference factors, the target tracking algorithms using the second kind of model have better tracking effect. This paper provides an objective analysis of target tracking algorithms for researchers in the field of video tracking.
Key words: target tracking; deep learning; correlation filtering; computer vision
0 引言
根據人們對感知覺的研究發現,人們通過視覺、聽覺、味覺、嗅覺和膚覺來接受外部的刺激,其中視覺是人們獲取外部刺激的最主要途徑,約占80%。為了讓計算機可以與人一樣擁有視覺的能力,計算機視覺這一學科被提出。
視頻目標跟蹤是計算機視覺的一個重要研究方向,這個技術在人們日常生活中也有很多應用。例如:智能視頻監控、現代化軍事、基于視頻的人機交互、智能交通系統、智能視覺導航、三維重建、虛擬現實、增強現實等方面[1]。目標跟蹤的任務是在給定第一幀目標的位置和狀態后,在后續幀中能識別,跟蹤到目標的位置狀態。這個任務可以分為四個步驟。①運動模型:以給定的目標框為中心在其附近生成多個候選框。②特征提取:對生成的候選框進行特征的提取和分析。③觀測模型:根據提取和分析的結果選出優的候選框,這是最重要的一個步驟,也是研究者的主要研究的地方。④模型更新:由于目標是動態的,不能只以固定一幀里的目標作為參考模型,要及時地更新。
現實環境中進行跟蹤任務會由于環境的改變或者目標的運動而出現難點。
⑴ 光照的變化:在進行跟蹤時,現場燈光明暗的變化會使目標可提取的特征減少。
⑵ 遮擋:當目標被障礙物部分或者完全遮擋,這時候可獲取的信息會變少。
⑶ 背景混雜:當目標出現在周圍環境比較復雜的地方,會有許多背景因為與目標的特征相似而被誤認。
⑷ 快速運動:當目標快速運動時會產生運動模糊的情況,影響特征提取。
⑸ 尺度變化:由于目標與拍攝設備的距離發生變化,因此目標在視頻中大小也會發生變化,會影響目標的選定。
⑹ 姿態變化:當目標在運動過程中肢體發生變化,這會使目標的外觀有比較大的改變,從而影響跟蹤。
這些問題都不會單獨出現,一個跟蹤任務中目標可能會發生其中幾種情況,因此研究一個強魯棒性和高精確性的算法是十分重要的。
1 目標跟蹤算法
隨著目標跟蹤技術的發展,大量的算法涌現。我們可以根據其在觀察模型中采用的方法不同把這些算法分為兩大類,一種是生成式模型和判別式模型。其中判別式模型里面又分為基于相關濾波的和基于深度神經網絡的模型。
1.1 生成式模型
生成式模型是最早期的目標跟蹤的模型,運用這個模型的算法有光流法、粒子濾波、Meanshift算法,Camshift算法等[2],生成式模型首先會對目標進行特征提取然后根據特征來構建目標的模型,最后用該模型去與每一幀圖片進行匹配,挑選與模型最相似的地方作為該幀圖片中目標的位置。根據建立模型的方法可以把生成式模型分為基于核的算法,基于子空間的算法和基于稀疏表示的算法。生成式模型有一個嚴重的缺點就是其模型沒有進行更新一直使用任務開始時構建的模型,沒有考慮到任務過程中環境變化對目標狀態的影響,當有的幀中目標比較清晰的時候,可以比較好的找到目標。但當目標出現被遮擋或者處于環境光線條件不好的情況下,用這個模型來追蹤效果就不盡如人意了。
1.2 判別式模型
判別式模型是目前研究目標跟蹤的主流模型,這個模型把目標跟蹤問題轉化為了一個二分類問題,通過模型把目標與背景進行分離,從而獲得目標。這一種模型能很好的解決目標處于環境條件復雜的狀況下的跟蹤問題,而這個模型中根據使用的特征不同分為基于相關濾波和基于深度學習的兩種算法。
1.2.1 基于相關濾波的跟蹤算法
相關濾波本來是用于信號處理的,用來描述兩個信號的相關性。文獻[3]首先把這技術用于目標跟蹤領域并提出了MOSSE算法,該算法首先在首幀中提取目標的單通道灰度特征用來訓練濾波器,再在下一幀中提取特征并與濾波器相乘,得到最大響應點從而確定目標的位置,最后再把該幀的特征用于訓練濾波器從而進行下一幀中目標的確定。后來文獻[4]在MOSSE的基礎上進行了改進提出了CSK算法,該算法采用循環矩陣去進行采樣從而獲得大量的循環樣本使濾波器更好的學習而且加入核函數使得高維空間中難以計算的值可以在低維空間中進行運算加快了模型的速度。這兩種算法都是采用的單通道的數據作為輸入的。而文獻[5]提出了KCF算法采用了多通道的HOG特征作為輸入并且利用了循環矩陣在傅里葉空間可對角化的性質極大的減少運算量,這個算法與之前算法相比,準確率有了明顯的提高,但是由于該算法把目標框預先設定好,當目標出現尺度變化或姿態變化時不能有效的進行跟蹤。
對于尺度自適應這個問題,文獻[6]提出了SAMF算法,該算法采用了尺度池的方法來應對跟蹤中目標的尺度自適應問題,并且提出把HOG特征,灰度特征和CN特征三者進行了結合來代替單特征的輸入。文獻[7]中提出了DSST算法,該算法解決尺度自適應這問題提出采用了兩個濾波器的方法,把定位任務和尺度估計任務分開,先確定目標的中心位置,再根據中心點周圍的響應來確定目標的尺度,這樣把任務分成兩部分可以使速度加快而且也便于單用其中一個功能來與其他算法相結合。在使用濾波器的算法中,由于進行快速傅里葉變換時會導致圖像信號缺失從而出現邊界效應,文獻[8]中的SRDCF算法采用了空間正則來解決這個問題,先獲得稍大的信號,然后通過引入懲罰機制,消除距離響應中心最遠的信號。
1.2.2 基于深度學習的跟蹤算法
在目標跟蹤的任務中,獲取目標的特征是一個關鍵的問題,而深度學習在其他領域中已經表現出了其強大的特征提取和表達能力,因此深度學習開始被應用到了目標跟蹤領域,目前比較常用的神經網絡模型有AlexNet,VggNet,ResNet,YoLo,GAN。一開始研究者采取的策略是用深度特征替換之前通過濾波器得到的特征,文獻[9]中提出的DeepSRDCF算法就是在相關濾波算法SRDCF的基礎上使用深度特征來替代原本的手工特征。而文獻[9]中提出的HCF算法采用的是KCF的框架,把其中的HOG特征替換成經過VGG網絡訓練完的深度特征。后來出現了深度網絡與濾波相結合的方法,文獻[10]中的C-COT算法先用VGG網絡同時提取目標多通道的特征,并且每個通道都對應有一個濾波器,然后把經過濾波的特征圖進行卷積和加權的工作,最后在采用插值的方法來獲得最后的響應圖,這個方法的準確率高但是由于網絡太過大速度比較慢。后來文獻[11]提出了ECO算法,通過降低濾波器的維度以及在不影響特征多樣的情況下減少特征的數量來使模型加速。
從這些算法的實現結果來看,深度特征的運用可以使跟蹤結果更準確,同時還知道了淺層的網絡比較適合目標定位,而深層的網絡比較適合確定目標范圍。
隨后的目標跟蹤任務就不只是采用替換特征的方法,而是直接使用深度學習的方法,但是深度神經網絡需要通過大量的數據訓練才能擁有較強的特征提取能力。文獻[12]提出通過線下訓練與在線微調的方法來解決獲取樣本數據量這個問題,這是首次運用深度學習的跟蹤算法,從此基于深度學習的跟蹤算法也慢慢發展起來。此后文獻[13]提出了一種基于分類的深度學習跟蹤算法MDNet,該算法采用小型VGG網絡,而且作者認為不同訓練視頻中目標之間有共性的特征,因此采用了多域訓練的方式來進行跟蹤訓練,這個算法在速度與應對目標被遮擋的問題時表現不佳,因此文獻[14]在MDNet的基礎上加入GAN網絡提出VITAL算法,通過GAN網絡來生成遮擋情況下的正樣本從而使分類器擁有應對目標被遮擋的問題。文獻[15]提出孿生神經網絡(SiamFC),該算法把跟蹤看成是解決相似性問題,采用兩個Alexnet網絡組成雙分支結構網絡,其中一個分支用于提取樣本圖像特征,另一個分支用于提取搜索圖像的特征,做相似性比較,取響應最大的地方作為目標中心。由于這個算法只能獲得目標中心,不能很好地應對尺度變化問題,因此文獻[15]在文獻[16]的基礎上加入了RPN網絡,解決了這個問題。
2 常用數據集
為了使神經網絡更好的進行工作,必須做的一步就是調參,而調參的過程需要有大量的數據。因此一個優秀的數據集可以使網絡更好的運行,下面將介紹幾個常用的數據集及其評價指標。
⑴ OTB:2013年Wu等人在CVPR上提出了OTB2013數據集,這個數據集里包含了51個視頻序列,有灰度和彩色圖像,都是以日常場景為背景,再把目標跟蹤常見的困難呈現出來。2017年作者把OTB2013進行擴容,把視頻序列增加到了100個形成OTB2017。OTB數據集的評價指標有精確圖(Precision Plot)、成功率圖(Succes Plot)、OPE、TRE、SRE。
⑵ VOT:VOT數據集是指每年視覺目標跟蹤競賽中舉辦方提供的數據集,里面通常含有60個彩色視頻序列,每年都會替換部分視頻。該數據集有一個特別的機制,即當程序跟丟目標的五幀后,會把程序初始化,使數據集得到充分利用。VOT數據集中的評價指標主要有Accuracy、Robustness。
⑶ Temple Color 128:TColor-128數據集是在2015年提出,全為彩色視頻序列,若算法只適用于彩色可以采用該數據集,評價標準與OTB相似。
⑷ LaSOT:LaSOT數據集主要收錄的是長時間的視頻序列,里面含有70個類別,1400個視頻序列。該數據集主要從YouTube上獲取,主要是生活的場景。該數據集提供了一致的可視化邊界標注,給使用者提供了便利。主要評價指標有精度、標準化精度、成功率。
⑸ UAV123:UAV123數據集是一個當一場景的數據集,全部視頻序列都是由無人機拍攝的。整個數據集由123個視頻序列,其視頻特點為視角的變化多,背景干凈。
3 展望
目前,目標跟蹤中的算法有專注跟蹤速度和專注于跟蹤精度的,前者的準確性不高容易造成目標的丟失,后者的速度不夠不能很好的用于實際的場景中,因此一個能同時把準確性和速度同時兼顧的算法是未來的一個研究方向。另外,通過淺層網絡提取出來的特征在面對目標形變等問題使會影響跟蹤,所以現在目標跟蹤算法中運用的網絡越來越深了,雖然網絡的加深可以是目標的特征更加突出,但是圖像的特征分辨率會變低信息就會被忽視,而且越深的網絡耗時也越多,對需要實時的跟蹤任務會造成困難,因此我覺得如何把深淺網絡的優勢結合再進行跟蹤也是以后的一大發展趨勢。最后,目前的算法都只是在短時間的跟蹤中取得良好的成績。但當面對長時間任務時表現不好,在長時間任務中目標會經常出現短期消失或長時間消失的情況,算法在追蹤失敗后難以重新識別和追蹤目標,因此設計一個在長期任務中能穩定跟蹤的算法也是一個研究趨勢。
4 總結
目標跟蹤領域的研究開始了十多年,從最早的生成式算法,到基于相關濾波的算法再到現在的基于深度學習算法,已經取得了很大的進步,在很多行業里面也有很好的應用,越來越多的人也開始重視目標跟蹤的發展。本文介紹了在目標跟蹤領域具有代表性的幾個算法,簡要的分析算法的原理和優缺點,以及對目標跟蹤領域未來的發展進行了展望,目標跟蹤技術仍有很大的發展空間,一個有強魯棒性,高精確性和高速的算法仍然被人們所期待,相信在研究者共同努力下,完成這個任務的時間不會太久。
參考文獻(References):
[1] 盧湖川,李佩霞,王棟.目標跟蹤算法綜述[J].模式識別與人工智能,2018,31(1):61-76
[2] 孟琭,楊旭.目標跟蹤算法綜述[J].自動化學報,2019,45(7):1244-1260
[3] Bolme DS,Beveridge JR, Draper BA,et al. Visual object?tracking using adaptive correlation filters[C]. IEEE Computer Society? Conference on Computer Vision and Pattern Recognition,2010:2544-2550
[4] Henriques J F, Caseiro R, Martins P, et al.: Exploiting the Circulant Structure of Tracking-by-Detection with Kernels[M].Fitzgibbon A, Lazebnik S, Perona P, Sato Y, Schmid C,editor,Computer Vision-Eccv 2012, Pt Iv,2012:702-715
[5] Henriques J F, Caseiro R, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. Ieee Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596
[6] LI Y,ZHU J K.A Scale Adaptive Kernel Correlation Filter Trac-ker with Feature Integration //Proc of the European Conference on Computer Vision. Berlin,Germany: Springer,2014:254-265
[7] Danelljan M, Hager G, Khan F S, Felsberg M. Accuratescale estimation for robust visual tracking.In:Proceed-ings British Machine Vision Conference. London, England:BMVA Press,2014,65:1-11
[8] DANELLJAN M, HAGERG, KHAN F S, et al.Learning-spatially regularized correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.2015:4310-4318
[9] DANELLJAN M,HGER G,KHAN F S,et al.Learning?Spatia-lly Regularized Correlation Filters for Visual Tracking //Proc ofthe IEEE International Conference on Computer Vision.Washing-ton,USA:IEEE,2015:4310-4318
[10] DANELLJAN M, ROBINSON A, KHAN F S, et al.Beyond Co-rrelation Filters: Learning Continuous Convolution Operators forVisual Tracking //Proc of the European Conference on Computer Vision. Berlin,Germany: Springer,2016:472-488
[11] DANELLJAN M, BHAT G, KHAN F S, et al.ECO:Efficient Convolution Operators for Tracking[C/OL]. [2017-10-21].https://arxiv.org/pdf/1611.09224pdf.
[12] Wang NY, Yeung DY. Learning a deep compact image representation for visual tracking. In: Proceedings of the 26th International Conference on Neural Information Pro-cessing Systems.Lake Tahoe, Nevada: Curran Associates Inc.,2013:809?817
[13] Nam H,Han B. Learning Multi-Domain ConvolutionalNeural Networks for Visual Tracking[J],2015
[14] Song Y B, Ma C, Wu X H, Gong L J, Bao L C, Zuo W M,et.al. Visual tracking via adversarial learning. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pat-tern Recognition. Salt Lake City, Utah, USA:IEEE,2018:1084?1093
[15] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]. European conference on computer vision,2016:850-865
[16] Li B, Yan J, Wu W, et al. High performance visual tracking with? siamese region proposal network[C].Proceedings of the IEEE Conference of Computer Vision and Pattern Recognition,2018