夏 翔,張曉林,李嘉茂
(1.中科院上海微系統與信息技術研究所 上海200050;2.上海科技大學 信息科學與技術學院,上海201210)
結合尺度預測的核相關濾波器目標跟蹤方法
夏 翔1,2,張曉林1,2,李嘉茂1
(1.中科院上海微系統與信息技術研究所 上海200050;2.上海科技大學 信息科學與技術學院,上海201210)
視覺目標跟蹤問題中,被跟蹤目標的尺度變化普遍存在。為解決這一難題,本文在核相關濾波器目標跟蹤方法的基礎上提出了一種能結合尺度預測的目標跟蹤方法,簡稱為KCFSE。該方法使用兩種更新策略不同的嶺回歸模型。在實際跟蹤過程中,先采用可塑性強的模型跟蹤目標的位置偏移。然后,以此位置為中心,構建圖像金字塔,利用穩定相強的模型預測目標的尺度變化。對10組視頻序列進行的實驗測試表明,該方法在處理尺度變化的被跟蹤目標時性能明顯優于其他目標跟蹤算法。
:視覺目標跟蹤;核相關濾波器;尺度預測;多尺度目標跟蹤
目標跟蹤是計算機視覺領域的一個基本問題,其主要應用于視頻監控,人機交互與機器人視覺感知等場景[1]。目標跟蹤可分為短時間目標跟蹤與長時間目標跟蹤,單目標跟蹤與多目標跟蹤。文中主要研究最普遍的短時間單目標跟蹤:給定視頻序列,以及序列第一幀的目標位置與尺寸等初始狀態,通過計算確定后續幀中目標的狀態[2]。時至今日,目標跟蹤問題依然面臨許多挑戰,包括背景干擾,光照變化,目標尺度變化,目標形變,目標遮擋,目標快速運動等[2]。
按照Wang等[10]的框架,目標跟蹤方法可以分為運動模型,目標的特征表示,觀測模型,模型更新,多方法聚合5個環節。早年的目標跟蹤方法聚焦于運動模型,如卡爾曼濾波和粒子濾波。近年來,在目標表示與觀測模型等環節涌現了許多優秀的算法,其中的研究熱點是判別式目標跟蹤方法[3]。這一類方法力圖將目標跟蹤問題構建為背景與目標間的分類問題,使用二元分類器來進行目標跟蹤,也被稱為基于檢測的跟蹤。Kalal等[5]在提出跟蹤-學習-檢測(TLD)目標跟蹤算法時,最早將學習與檢測的概念引入到目標跟蹤問題中。Hare等[6]提出了基于結構化輸出的支持向量機(Struck)目標跟蹤算法。Zhang[7]等將壓縮感知方法(CT)應用于目標跟蹤問題。Bolme等提出了一種在灰度圖像上學習最小輸出平方誤差和(MOSSE)的相關濾波器方法,最早將相關濾波器引入目標跟蹤問題。在此基礎上,Henriques等[1]在核空間使用相關濾波器進行目標跟蹤,并利用核矩陣的循環特性簡化計算步驟,設計了基于核函數的循環結構跟蹤器(CSK)。該方法擁有出色的計算效率,平均跟蹤速度可達數百幀每秒(FPS)。在后續工作中,Henriques等[4]進一步采用梯度方向直方圖(HOG)替代灰度圖像作為目標的特征表示,提出了核相關濾波器(KCF)目標跟蹤方法。KCF算法使用了大量的正負目標樣本進行訓練,從而在面對背景干擾,目標形變與光照變化等挑戰時既有較高的計算效率,又有優秀的跟蹤結果。然而,KCF算法在跟蹤時局限于預測目標的位置,并沒有對目標的尺度變化進行預測,這在一定程度上限制了算法的跟蹤性能。
文中在KCF算法的基礎上,提出一種尺度預測的方法,并使用兩種回歸模型分別計算目標的位置和尺度信息,從而實現能夠進行多尺度檢測的相關濾波器目標跟蹤方法(KCFSE)。
1.1 問題建模
判別式目標跟蹤方法可以分為訓練和檢測兩個步驟。訓練是指根據初始狀態或上一幀跟蹤結果得到樣本集,對檢測器進行訓練從而確定其參數;檢測是指利用訓練得到的參數對當前幀圖像進行計算,從而確定目標的位置和尺寸,得到跟蹤結果。
經典的判別式目標跟蹤方法通常使用二元分類器來對目標和背景進行分類。然而,二元分類器雖然有效,但對于樣本的處理卻失于簡單。事實上,當訓練集的樣本容量擴大,有大量樣本既含有目標信息也含有背景信息。如果采用簡單的二元分類器,無法準確地表現出這些樣本的價值。在此,使用嶺回歸方法(正則化的最小二乘回歸,RLS)為問題建模。給定訓練樣本集{(xi,yi)|i=1,…,m},樣本中xi為圖像塊的特征表示,yi為對應的標簽。記正則化系數為λ,嶺回歸模型的參數為w,則目標訓練過程可表示為求解使得總殘差最小的線性回歸函數f(x)=<w,x>:

對于回歸問題,標簽yi的取值可以是連續的,這里我們采用連續高斯函數來為樣本標簽賦值,取值范圍為(0,1]區間。當樣本位于目標中心位置時標簽取值為1,當樣本遠離目標時標簽取值接近于0。
在上述嶺回歸問題的基礎上,可以使用核函數κ(x1,x2)將樣本的特征表示從低維空間的x映射到高維空間的φ(x)。核函數κ(x1,x2)滿足κ(x1,x2)=<φ(x1),φ(x2)>。則帶核函數的嶺回歸問題(KRLS)可表示為:



其中:α為αi所組成的向量,y為yi所組成的向量,I為單位矩陣,K為核矩陣滿足Kij=κ(xi,xj)。由于涉及矩陣求逆操作,直接求解α的計算復雜度較高。
若已經通過對樣本集的訓練得到參數α,則在當前幀的檢測中,對于新輸入的待檢測圖像塊z,回歸函數的響應f(z)可表示為

1.2 循環矩陣
本節以一維特征為例說明循環矩陣的性質。對于圖像塊等二維特征,這些性質同樣滿足[4]。假設樣本的特征表示x=[x1x2x3… xn]T為n維向量。以xT作為首行行向量,并以xT向右循環移位后的向量作為后續其他行的行向量,可以得到如下循環矩陣:

可以證明,所有的循環矩陣都可以通過離散傅里葉變換(DFT)矩陣對角化[13],即滿足:

其中:F為離散傅里葉變換矩陣,FFH=I,為x的離散傅里葉變換,滿足

在下文中,所有符號^均用于表示對應向量的離散傅里葉變換。通過循環矩陣的這一性質,我們可以方便地計算循環矩陣的逆矩陣:

1.3 訓練與檢測
我們以上一幀的跟蹤結果作為基礎樣本(x1,y1),通過對基礎樣本中目標的特征表示x1進行循環移位,以此得到整個樣本集{(xi,yi)|i=1,…,m;xi=Pi-1xi},其中P為置換矩陣。此時,核矩陣的計算可以表示為Kij=κ(xi,xj)=κ(Pi-1x1,Pj-1x1)。 可以證明,如果核函數κ(xi,xj)是酉變換不變的,則核矩陣K是循環矩陣[1],滿足:

向量kxx的元素滿足。
滿足酉變換不變性質的核函數包括徑向基函數核,點積核等[4]。在KCF算法的實現中,使用高斯核函數進行計算:

在此基礎上,將循環矩陣的性質應用于式(3),可以快速計算訓練得到的回歸系數:

將循環矩陣的性質應用于式(4),可以快速計算輸入的待檢測特征zi=Pi-1z的回歸響應:

其中:向量 kxz的元素滿足…,m,f(z)的元素 f(zi)為檢測器在輸入特征表示zi處的響應。f(zi)取得最大值時的zi即代表了被跟蹤目標的預測位置,此時以zi的位置為中心重新采樣,即可得到新的基礎樣本模板xnewtpl。
當新一幀目標跟蹤完成,回歸模型需要根據跟蹤結果進行更新。KCF算法采用線性插值對模型進行更新。記第t幀跟蹤完成后,樣本的模板和系數分別為和,則:

然而,在回歸模型更新策略的選擇時,我們必須在模型的穩定性和可塑性之間做出權衡[11]。以式(14)(15)為例,學習因子μ的設定直接影響模型的性能。如果μ取值較大,則模型能及時適應被跟蹤目標的形變,但是同時隨著時間推移,模型也更容易產生漂移。反之如果μ取值較小,則模型可以有效避免漂移實現穩定跟蹤,但是當目標發生形變時,模型難以快速適應目標的形變。Ma等在處理長時間目標跟蹤問題時,引入兩種回歸模型以便有效判斷是否跟蹤失敗和是否重新檢測[11]。這一方法為文中處理短時間目標跟蹤問題時平衡目標形變和模板漂移兩個因素帶來了啟示。
另一方面,KCF算法著重關注目標位置的跟蹤,并未考慮目標尺度的變化。但是在目標跟蹤的實際應用場景中,被跟蹤對象的尺度變化是普遍現象。以文獻[2]所提供的數據集TB-50為例,49個視頻序列中有37個存在不同程度的尺度變化。因此,在核相關濾波器的基礎上結合尺度預測功能,可以有效提升目標跟蹤方法的通用性和靈活性。
基于上述兩點考慮,本文提出一種結合尺度預測的核相關濾波器目標跟蹤方法,采用兩個KRLS模型,分別注重模型的穩定性和可塑性,以可塑性強的模型用于目標位置的跟蹤,以穩定性強的模型用于目標尺度變化的預測,從而實現方法整體的均衡性。
2.1 回歸模型的設計與更新策略


表1 KCFSE目標跟蹤算法流程
2.2 尺度預測



為驗證文中算法的有效性,從文獻[2]所提供的TB-50數據集中選取10組場景復雜且存在尺度變化的視頻序列作為測試對象,利用文獻 [2]提供的benchmark,對文中所實現的算法的性能進行時間魯棒性評估(TRE)。
3.1 實驗環境與參數設定
KCFSE算法基于 visual studio 2013和 Open CV2.4.9實現,采用HOG作為樣本的特征表示,benchmark的測試平臺為matlab2013b,所有實驗均在Intel Core i3-3220 CPU,主頻3.30 GHz,4GB內存配置的windows7 64bit PC系統上完成。對所有測試的視頻序列,KCFSE算法的參數保持一致。對于特征維度為m×n維的樣本,標簽yi賦值的高斯函數標準差。所有的輸入特征在檢測前都通過疊加漢寧窗以去除邊緣效應。正則化參數λ取0.000 1,高斯核函數κ (xi,xj) 的標準差σ取0.6,學習因子μ取0.012,尺度因子取1.05,總備選尺度數N取21,尺度預測時用于濾波的高斯函數標準差為8.0。Rs模型更新的閾值Ts取0.5。
3.2 性能評估指標
為了評估目標跟蹤方法的性能,本文采用跟蹤成功曲線圖(Success Plot)作為評估指標。跟蹤成功與否的判斷標準在于跟蹤結果和數據集真值之間的重合部分面積(overlap)的比例。記表示跟蹤結果的矩形框為rt,表示數據集真值的矩形框為ra,則重合面積所占的比例為:

其中:∩和∪分別表示對區域的交集運算和并集運算,area()表示求區域像素數運算。
當重合面積比例Ratio大于給定閾值TR時,我們便可以認為對應幀的目標跟蹤是成功的[2]。相比于中心位置誤差(Center Location Error,CLE),重合面積比例作為評估指標的優勢在于評估結果不會受到被跟蹤目標尺寸大小的影響。通過比較跟蹤成功幀的數量和占整個視頻序列總幀數的比例,可以衡量不同算法在該視頻序列中的跟蹤性能。為不失公正性,我們可以將閾值TR取值從0到1變化時所對應的所有跟蹤成功幀的比例記錄下來,從而得到跟蹤成功曲線圖。通過比較該圖的曲線下面積(Area Under Curve,AUC),我們可以更加客觀地評價各個目標跟蹤算法的性能。
3.3 實驗結果
分別將KCFSE算法和基于相關濾波器的經典KCF算法,CSK算法,以及其他3種經典目標跟蹤算法CT,TLD,Struck放在10組場景復雜且存在尺度變化的視頻序列下進行測試。這10組視頻序列的基本情況如表2所示。各種算法在測試集下對應實驗結果的跟蹤成功曲線圖和AUC如圖1所示。

表2 實驗測試使用的視頻序列

圖1 本文算法(KCFSE)與其他算法在不同屬性數據集下的測試結果
根據圖1可以看到,相比于未考慮尺度的經典KCF算法,本文提出的KCFSE算法在處理存在尺度變化的跟蹤目標時可以在跟蹤性能上獲得明顯的提升。相比于其他代表性的基于檢測的目標跟蹤算法,KCFSE算法基本保持了KCF算法在應對光照變化,目標遮擋等條件時的優勢。典型的跟蹤過程如圖2所示。

圖2 部分算法在測試視頻序列上的跟蹤過程示例
在經典的核相關濾波器目標跟蹤方法的基礎上,文中提出了一種結合尺度預測的目標跟蹤方法KCFSE。通過采用兩種更新策略不同的回歸模型,實現了方法在模型的可塑性和穩定性這兩方面的平衡。可塑性強的模型被用于跟蹤目標位置的偏移,穩定性強的模型被用于預測目標尺度的變化。對10組視頻序列進行的實驗測試表明,文中提出的KCFSE方法在處理被跟蹤目標的尺度變化時性能明顯優于經典KCF算法和其他目標跟蹤算法。后續工作將著手于將文中提出的方法應用于長時間多目標跟蹤等領域。
[1]Henriques J F,Caseiro R,Martins P,et al. Exploiting the circulant structure of tracking-bydetection with kernels[C].Computer Vision-ECCV 2012.Springer Berlin Heidelberg,2012:702-715.
[2]Wu Y,Lim J,Yang M H.Online object tracking: A benchmark[C].Proceedings of the IEEE conference on computer vision and pattern recognition. 2013:2411-2418.
[3]Smeulders A W M,Chu D M,Cucchiara R,et al. Visual tracking:An experimental survey[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(7):1442-1468.
[4]Henriques J F,Caseiro R,Martins P,et al.Highspeed tracking with kernelized correlation filters[J]. Pattern Analysis and Machine Intelligence,IEEE Transactions on,2015,37(3):583-596.
[5]Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(7): 1409-1422.
[6]Hare S,Saffari A,Torr P H S.Struck:Structured output tracking with kernels[C].Computer Vision (ICCV),2011 IEEE International Conference on. IEEE,2011:263-270.
[7]Zhang K,Zhang L,Yang M H.Real-time compressive tracking [C].Computer Vision-ECCV 2012. Springer Berlin Heidelberg,2012:864-877.
[8]Bibi A,Ghanem B.Multi-Template Scale-Adaptive Kernelized Correlation Filters[C].Proceedings of the IEEE International Conference on Computer Vision Workshops.2015:50-57.
[9]張雷,王延杰,劉艷瀅,等.基于相關濾波器的視覺目標跟蹤方法[J].光電子·激光,2015(7):1349-1357.
[10]Wang N,Shi J,Yeung D Y,et al.Understanding and diagnosing visual tracking systems[C].Proceedings of the IEEE International Conference on Computer Vision.2015:3101-3109.
[11]Ma C,Yang X,Zhang C,et al.Long-term correlation tracking[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015:5388-5396.
[12]Sch lkopf B,Smola A J.Learning with kernels: support vector machines,regularization,optimization,and beyond[M].MIT press,2002.
[13]Gray R M.Toeplitz and circulant matrices:A review [M].Now Publishers Inc,2006.
Kernelized correlation filter based visual tracking with scale estimation
XIA Xiang1,2,ZHANG Xiao-lin1,2,LI Jia-mao1
(1.Shanghai Institute of Microsystem and Information Technology,Chinese Academy of Science,Shanghai 200050,China;2.School of Information Science and Technology,Shanghaitech University,Shanghai 201210,China)
Scale variance of the object is universal in visual tracking applications.To solve this problem,we propose a novel KCF based tracking algorithm with scale estimation called KCFSE.In this algorithm,two regression model with different updating strategies are used.During the tracking procedure,the regression model with more plasticity is adopted at first to detect the spatially shift of the object. Afterwards,an image pyramid is built around the position detected and the regression model with more stability is adopted to estimate the the scale variance of the object.Experiments on 10 video sequence show that KCFSE outperforms other classic tracking algorithms as well as KCF when the scale of the tracked object is variant.
visual tracking;kernelized correlation filter;scale estimation;multi-scale object tracking
TN911.73
:A
:1674-6236(2017)02-0130-06
2016-04-11稿件編號:201604101
中國科學院戰略性先導科技專項(XDB02080005);上海市科技人才計劃項目(14YF1407300)
夏 翔(1990—),男,浙江寧波人,碩士研究生。研究方向:計算機視覺,圖像處理。