樊佳慶,宋慧慧,張開華*
(1.江蘇省大數據分析技術重點實驗室(南京信息工程大學),南京210044;2.南京信息工程大學大氣環境與裝備技術協同創新中心,南京210044)
(*通信作者電子郵箱zhkhua@gmail.com)
視覺跟蹤是計算機視覺領域一個重要的基礎問題。本文只考慮單目標跟蹤,即第1幀中的跟蹤目標單一且在接下來的幀中跟蹤該目標。盡管人們對跟蹤已研究多年,但是由于不同的干擾因素,如遮擋、光照、快速移動、運動模糊姿勢變化等都會對跟蹤產生較大影響,所以它仍是一個非常具有挑戰性的計算機視覺任務。
近年來,相關濾波類[1-2]跟蹤方法因其能利用快速傅里葉變換進行相關濾波運算,從而大大提高跟蹤速度和精度,故引起了廣泛關注。在相關濾波的基礎上涌現出了大量簡單、有效的實時跟蹤算法[3-9]。
Bolme等[1]首先把相關濾波引入視覺目標跟蹤領域,提出了速度極快的最小誤差輸出平方和(Minimum Output Sum of Squared Error,MOSSE)跟蹤算法。接著,Henriques等[2]提出循環結構核檢測跟蹤(Circulant Structure of tracking-bydetection with Kernels,CSK)算法,它通過對單幅圖像的密集采樣獲得循環樣本,最終實現較好的跟蹤結果。為了進一步提升CSK的性能,Henriques等[4]接著提出了核化相關濾波(Kernelized Correlation Filter,KCF)算法,利用簡單的方向梯度直方圖(Histogram of Oriented Gradients,HOG)特征取得了不錯的跟蹤效果并且達到了遠超實時的跟蹤速度。
在此基礎上,Bertinetto等[6]提出了實時補充學習(Sum of template and pixel-wise learners,Staple)跟蹤,利用顏色直方圖作為全局特征,再結合局部方向梯度直方圖特征HOG構造相關濾波跟蹤器,取得了較好的實時跟蹤效果。但是,Staple方法并沒有考慮每層響應的穩定性,即每層響應的權重是一致的,這樣就使得噪聲很大的響應給跟蹤結果帶來較大的負面影響。比如,在周圍有類似物體干擾的情況下,目標就很容易跟丟。
針對上述問題,本文在實時補充學習(Staple)跟蹤的基礎上加入了響應穩定性權重,提出了通道穩定性加權的Staple(Channel Stability-weighted Staple,CSStaple)跟蹤算法。如圖1所示,本文首先使用標準相關濾波獲得每層通道響應,然后,利用每個通道響應的峰值計算出穩定性權重,接著,把這些權重乘上對應的通道響應,最終和顏色直方圖響應相結合得出跟蹤結果。

圖1 CSStaple算法原理圖Fig.1 Schematic diagram of CSStaple algorithm
本文所提跟蹤算法由加入通道穩定性權重的相關濾波算法模塊和顏色直方圖補充學習模塊組成,最后將兩者的響應結果加權線性組合,得出最終的跟蹤結果。
本文首先通過傳統相關濾波算法得出多通道跟蹤結果rchannel,尺寸是m×n×c(其中:m是響應的高度,n是響應的寬度,c是響應的層數),然后通過峰值檢測算法檢測出每一層的前若干個峰值向量:

其中i∈{1,2,…,c}是該層的序號。接著通過式(2)求出該層的權重:

當該層響應噪聲較大時,因為高噪聲的響應具有較低的判別能力,所以應該得到較低權重,這樣也就削弱了該層響應在最終響應中的影響力。相反地,當該層響應的波動較小時,本文認為這是一個比較理想的響應層,所以賦予較大權重,該層響應在最終響應中的影響也較大。
本文利用標準的相關濾波框架,訓練出一個嶺回歸分類器。目標是找到一個函數f(z)=wTz,使得在循環樣本{xi}上的檢測結果和回歸目標{yi}之間的最小平方誤差最小,即:

進一步地,利用核技巧[10],本文直接得出式(3)的閉式解:

式中:kxx是x和它自己的核相關;“^”表示離散傅里葉變換;而F-1表示離散傅里葉逆變換。
本文采用一種在線更新的策略來更新學到的參數αt,通過:

式中:ηcf是相關濾波分類器的學習率;珘αt利用當前t幀的跟蹤結果通過式(4)計算得到。最終,當輸入新一幀即t+1幀圖片zt+1時,它每層的檢測響應結果即:

每層響應與式(2)中每層的穩定性權重wi相乘并相加之后,便可得到層通道穩定性加權后的相關濾波響應:

為了找到一個較好的顏色分類器,本文使用一種特殊形式的特征表示,對于每個RGB像素u∈R3,其特征表示為:


其中bins是直方圖柱的數量。之后,本文在目標區域ΩoR2和背景區域ΩbR2上使用一個線性回歸目標函數:

式中β是系數向量。
再把特征表示式(7)代入目標函數,得到:

式中 Ni(Ωa) = {u ∈ Ωa|k[u] = i},a ∈ {o,b}。令,得到目標函數的閉式解:

為了自適應目標的表觀變化,類似相關濾波分類器,本文使用一種簡單的在線更新策略來更新分類器系數:

在檢測階段,t+1幀時,輸入圖片之后,就能得到它在像素點u處的顏色直方圖響應,即:

得到穩定性加權的相關濾波響應rcf和顏色直方圖響應rch之后,本文采用一種線性加權的結合方式得到最終的響應:

其中:η是融合因子;r中的最大值的位置就是跟蹤結果。
在這部分中,首先介紹了實現的細節,然后詳細分析了本文設計的跟蹤器CSStaple與當前先進的跟蹤器在OTB50[11]、OTB100[12]測試集上的性能對比實驗結果。
在相關濾波部分,本文使用簡單的HOG特征并設置它的單元尺寸為4×4,設置學習率ηcf=0.01。在顏色直方圖方面,直接使用RGB特征,顏色直方圖柱子數量設定為32,顏色分類器的學習率為0.04。另外,設置固定區域大小為150×150,融合因子 η =0.5。
在OTB50的50個視頻上,首先將本文的跟蹤器CCStaple與5個先進的跟蹤器進行一次通過型(One Pass Evaluation,OPE)成功率對比實驗,并對實驗結果進行分析。之后,又分析了基于屬性的成功率性能對比結果。
2.2.1 與先進跟蹤器對比
在OTB50上,本文選取了5個先進的跟蹤器進行對比實驗,包括:層和空間可靠性判別相關濾波(Channel and Spatial Reliability Discriminative Correlation Filter,CSR-DCF)跟蹤[13]、對沖深度跟蹤(Hedged Deep Tracking,HDT)[14]、核化相關濾波(KCF)跟蹤[4]、對偶線性結構化 SVM跟蹤(Dual Linear Structured SVM Tracker,DLSSVM)[15]、補充學習(Staple) 跟蹤[1]。總的對比實驗結果如圖2所示,使用的是成功率這一指標。其中本文提出的CSStaple跟蹤算法最優,分別超過基準算法Staple、核化相關濾波(KCF)跟蹤算法2.5個百分點和10.4個百分點。
2.2.2 基于屬性分析的對比
本文在OTB50上進行了屬性分析的對比實驗。所有的視頻被分為11種不同的屬性,即:光照變化、尺度變化、遮擋、形變、運動模糊、平面內旋轉、快速移動、平面外旋轉、脫離視線、背景混亂以及低像素。平面內旋轉、遮擋這兩種屬性下的成功率如圖3所示。在平面內旋轉屬性下,HDT取得了58.0%的曲線下面積(Area Under Curve,AUC)得分,本文的跟蹤器比它高出1.8個百分點。本文的跟蹤器在遮擋屬性中也取得了最佳的表現,在圖像背景混亂或部分遮擋等強干擾下,原基準跟蹤器Staple表現不好,跟蹤成功率較低。而本文的CSStaple加入了通道穩定性權重之后,自動減小響應十分混亂的通道的權重,而賦予響應振蕩較小的通道以較大權重,使得最終加權之后的響應變得更為可靠,所以本文的跟蹤器能在這兩種屬性下表現相對更優。

圖2 OTB50上不同跟蹤器對比Fig.2 Comparison of different trackers on OTB50

圖3 OTB50上平面內旋轉、遮擋兩種屬性下成功率Fig.3 Success rate under two attributes of in-plane rotation and occlusion on OTB50
在OTB100上本文選取了5個先進的跟蹤器進行了成功率對比實驗,包括:層和空間可靠性判別相關濾波(CSRDCF)跟蹤[13]、長期相關跟蹤(Long-term Correlation Tracking,LCT)[5]、對沖深度跟蹤(HDT)[14]、核化相關濾波(KCF) 跟蹤[4]、補充學習(Staple)跟蹤[6]。各跟蹤器在 OTB100 上的成功率如圖4所示。
由圖4可以看出,CSStaple在這100個視頻上表現得最好,甚至超過了很多最新的跟蹤算法比如Staple和CSR-DCF;在實時跟蹤算法中,Staple的 AUC得分為57.9%,LCT的AUC得分為56.2%,本文跟蹤方法的AUC得分為58.8%,相比Staple和LCT分別提高了0.9個百分點和2.2個百分點。

圖4 OTB100上不同跟蹤器對比Fig.4 Comparison of different trackers on OTB100
本文在補充學習(Staple)跟蹤器的基礎上加入了通道穩定性權重估計,提出了通道穩定性加權的補充學習(CSStaple)跟蹤器。改進后的跟蹤器能較好地解決背景干擾、場景混亂等問題,因而在跟蹤標準測試集 OTB50和OTB100上取得了較高的結果,甚至優于一些基于深度學習的跟蹤器。但是,本文方法對于強烈光照變化、低分辨率像素等其他常見問題處理得不太理想,后續將針對強烈光照變化、低分辨率像素等問題再進行進一步的研究。