董艷兵
(1.中國科學院上海微系統與信息技術研究所,上海200050;2.上海科技大學信息科學與技術學院,上海201210;3.中國科學院大學北京101407)
目標跟蹤是計算機視覺中非常有挑戰性的任務之一,它的目的是估計一個目標在圖像序列里的位置。它在很多應用中有扮演了很重要的角色,比如人機交互,監控和機器人[1-2]。有一些因素,比如光照變化,遮擋,背景雜亂和變形使這個任務變得復雜。近些年來,相關濾波[3]已經被證明比那些非常復雜的方法更有競爭力,因為使用非常少的計算資源就可以達到很高的幀率和性能。這主要是利用了兩個圖像塊的卷積等價于在頻域逐元素進行相乘。因此通過在頻域對問題進行建模,對于圖像的多次平移,可以通過一次計算得到理想的線性分類器的輸出。從而使得相關濾波在目標跟蹤中得到非常廣泛的使用。
目標跟蹤是跟蹤一個目標在圖像序列中的軌跡,要求跟蹤算法是無模型,短期以及因果性,具體含義是:
1)無模型(model-free):唯一的訓練樣本就是第一幀中目標的位置,用矩形框表示。
2)短期(short-term):當跟蹤器沒有跟蹤到物體時,不進行重新檢測操作。
3)因果性(causality):跟蹤器不使用任何將來的圖像幀來進行計算。
在文獻[4]中,作者將一個跟蹤系統分解成5個部分,每部分如下:
1)運動模型:基于上一幀估計出來目標的位置,運動模型會在當前幀產生一個候選區域的集合。
2)特征提取器:提取每個候選區域的特征。
3)觀測模型:估測模型會基于從候選區域提取的特征去判斷候選區域是否為目標。
4)模型更新器:模型更新器控制著更新觀測模型的方法和頻率,平衡著模型的適應性和漂移程度。
5)集成后處理:當一個跟蹤系統由多個跟蹤器組成時,集成后處理會使用集成學習的方法從多個跟蹤器的結果中得到最終的結果。
目標跟蹤任務中,測試視頻序列有著多樣性的屬性,用來檢測跟蹤器的準確性和魯棒性,常見的屬性有:光照變化,大小變化,遮擋,變形,運動模糊,快速運動,平面內旋轉,平面外旋轉,不在視野內,背景雜亂和低分辨率。
現在目標跟蹤任務常用的數據庫有Online Tracking Benchmark(OTB)和 Visual Object Tracking(VOT)。其中
1)OTB:兩個版本,分貝是OTB2013和OTB100[5],有彩色視頻序列和灰度視頻序列
2)VOT:從 2013[6]年開始,每年有一個挑戰賽(Challenge),會更新數據集。
表1中列舉了OTB和VOT數據庫包含的視頻序列。

表1 視頻個數
相關濾波是一種訓練一個線性分類器用來區分圖像塊和它的平移是否為目標的算法,它很適合目標追蹤這個任務,因為在頻域的定義為目標追蹤提供了快速的解,使得跟蹤器每幀都可以訓練一次。這種方法使用在樣本上訓練的濾波器對目標的外觀進行建模,基于第一幀中以目標為中心的跟蹤窗口選擇要跟蹤的對象,然后跟蹤和濾波器的訓練就在一起進行了。通過在下一幀對濾波器和搜索窗口做相關操作來跟蹤目標,相關系數中最大值對應的位置就是目標的新位置,然后基于這個新的位置就可以對濾波器進行在線更新。
為了快速地構造一個跟蹤器,相關性在頻域通過快速傅里葉變換(FFT)計算,首先輸入圖像和濾波器的2維FFT可以定義為,其中f和h分別為輸入特征和濾波器,為FFT。卷積定理表明空間域的相關操作在頻域就是逐元素相乘。使用☉顯示地表示逐元素相乘,*表示復數共軛,那么相關操作在頻域就可以表示為:

在MOSSE[7]方法中,需要一個訓練圖像fi和輸出yi的集合,通常情況下,yi由高斯函數產生,這個高斯函數以fi中的目標為中心,用Yi表示yi的FFT,由公式(1)可以得到

式(2)中的除法是逐元素的操作。
在MOSSE中通過最小化實際的輸出和理想的輸出來求解H,這個最小化問題的形式是

式(3)的閉式解為

MOSSE中在計算的過程中使用的fi為灰度圖。
在KCF[8-9]中,將濾波器的求解問題轉化為一個嶺回歸問題,如下所示。


在KCF中,引入了核函數到(5)中,并且通過使用FFT加速了計算。在計算時使用的特征有Histogram of Oriented Gradient(HOG)[10]和灰度圖,并且推導出了特征為多通道時的FFT計算公式。
在圖1中給出了一個訓練樣本(高為240,寬為320)在水平(left或者 right)和豎直(down或者 up)方向上經過不同循環移動的得到的新的訓練樣本,從圖中可以看出當移動像素個數不多時(20,20或者-20,-20),產生的樣本和正常平移產生的樣本比較相似,但當移動像素個數比較大時(120,320),產生的樣本已經將目標拆成不同的部分,這樣的樣本是不合理的,這就是邊界效應(boundary effect),KCF中通過在樣本上余弦窗來環節這種效果,現在有很多工作提出了更加復雜的方法來處理邊界效應。

圖1 不同的循環移位的圖片
在跟蹤算法中,主要目的是跟蹤目標的位置,同時目標的大小[11]對結果有很大的影響,如果目標縮小,濾波器就會學習到大量背景信息,如果目標擴大,濾波器只會考慮目標的局部紋理,這兩種情況都有可能出現非預期的結果,導致漂移和失敗。
在SAMF中,作者結合了HOG特征和Color Name(CN)去學習濾波器,然后計算在不同尺度下濾波器的最大響應值,從而找到目標正確的大小。
在DSST[12]中,作者訓練了兩個相關濾波器:平移濾波器和尺度濾波器,首先使用平移濾波器估計目標的位置,然后再使用尺度濾波器估計目標的大小,尺度表示如圖2所示,其中有S個尺度,每個尺度特征為d維。為了加快計算,作者使用了PCA對樣本的特征降維。
在文獻[1]中,作者通過分析跟蹤算法不同部分的性能,發現特征表示對于跟蹤算法的影響是最大的。近些年來,神經網絡[13-14]在計算機視覺領域取得了極大的進步,凸顯了神經網絡強大的特征表示能力。

圖2 不同尺度對應的特征
在 DeepSRDCF[15]中,作者使用了在 ImageNet[16]上預訓練的VGG網絡提取的特征來訓練相關濾波器,取得了比傳統手動設計的特征有更好的性能,但由于神經網絡參數多,一次前向過程需要更多的時間,從而實時性無法保障,這也是神經網絡類的方法需要去解決的問題。
盡管使用從預訓練的網絡中提取的特征可以提高跟蹤的性能,但這些特征是在其他任務中訓練的,比如分類,對于跟蹤不一定是最好的。在CFNet和DCFNet中,相關濾波器被嵌入到神經網路中,作為神經網絡的一層,可以反向傳播,端到端的訓練,使得訓練得到的特征更適合跟蹤任務。圖3是DCFNet的網絡結構。

圖3 DCFNet網絡結構
我們將在OTB2013上對上面介紹的方法進行評測,評價指標有重疊精度(Overlap Precision,OP),距離精度(Distance Precision,DP)和幀率(Fames Per Second,FPS)。OP表示一個視頻序列中對目標預測出來的位置,大小與實際的位置,大小的Intersection Of Union(IOU)大于一個閾值的幀數的比例。DP表示對目標預測出來的位置與實際的位置的歐氏距離小于一個閾值的比例。FPS表示跟蹤算法一秒能夠處理的幀數。
這 里 給 出 KCF,SAMF,DSST,DeepSRDCF,DCFNet在距離閾閾值為20個像素,重疊閾值為0.5時的OP,DP,以及每種方法的FPS,如表2所示。

表2 不同方法的OP,DP和FPS
從表2中可以看出,深度特征的引入使得OP和DP都有很大的提升,而且引入多尺度的信息后,OP有了明顯的提高,從FPS中可以看出,KCF最快,SAMF和DSST引入了多尺度計算,FPS下降,DeepSRDCF使用了預訓練的網絡來計算特征,需要很大的時間消耗,因而無法做到實時。

圖4 不同距離閾值曲線

圖5 不同重疊閾值曲線
圖4和圖5展示了在距離閾值從0到50間隔為1取值時的DP曲線和重疊閾值從0到1間隔為0.05取值時的OP曲線。
本研究介紹了目標跟蹤的定義,常用的數據庫,和基于相關濾波的目標跟蹤的經典方法和最新的進展,并給出來了在OTB2013數據庫上的評測結果和簡短的分析。相關濾波目前仍是目標跟蹤的主流方向,近些年來,深度學習和相關濾波的結合使得目標跟蹤的性能有了很大的提升,但同時需要消耗更多的時間,如何減小計算時間是我們接下來的研究方向。