劉巧元 王玉茹 張金玲 殷明浩
視頻跟蹤作為計(jì)算機(jī)視覺的重要研究方向,近年來備受關(guān)注,它的主要任務(wù)是根據(jù)已知視頻序列中目標(biāo)的初始狀態(tài),通過系列算法估計(jì)出目標(biāo)的運(yùn)動(dòng)軌跡.視頻跟蹤方法在高級(jí)人機(jī)交互[1]、安全監(jiān)控[2]和行為分析[3]等方面具有潛在的經(jīng)濟(jì)價(jià)值和廣泛的應(yīng)用前景.
視頻跟蹤方法從最初的差分法[4]、光流法[5]到現(xiàn)在各類目標(biāo)跟蹤算法百花齊放的態(tài)勢(shì)已有40多年的發(fā)展歷史;自引入機(jī)器學(xué)習(xí)算法以來,視頻跟蹤算法更是得到了突飛猛進(jìn)的發(fā)展.目前視頻目標(biāo)跟蹤主要有三大發(fā)展方向:深度學(xué)習(xí)方向[6?8]、相關(guān)濾波方向[9?11]和其他傳統(tǒng)策略[12?13].基于深度學(xué)習(xí)的視頻跟蹤方法大多關(guān)注神經(jīng)網(wǎng)絡(luò)的構(gòu)建與深度特征的提取,但深度神經(jīng)網(wǎng)絡(luò)內(nèi)部參數(shù)較多,訓(xùn)練時(shí)間較長(zhǎng),所以這類方法跟蹤速度相對(duì)較慢,很難達(dá)到實(shí)時(shí)跟蹤;而基于相關(guān)濾波器的跟蹤方法卻因速度快、效果好的特點(diǎn)吸引了眾多研究者的目光,逐步成為視頻跟蹤算法發(fā)展的主要方向.由于該系列方法興起不久,且發(fā)展速度較快,所以目前尚缺少相關(guān)綜述性文獻(xiàn).
相關(guān)濾波器基于判別式框架,與經(jīng)典的支持向量機(jī)(Support vector machine,SVM)[14]等分類算法一樣同屬于監(jiān)督學(xué)習(xí).與SVM 等二分類算法不同的是,基于相關(guān)濾波器的跟蹤方法將訓(xùn)練樣本標(biāo)簽連續(xù)化以形成置信圖,求得圖中響應(yīng)最大的位置即為目標(biāo).鑒于這種方法能有效提高跟蹤算法的精度和魯棒性,許多改進(jìn)算法被相繼提出,并取得了突破性進(jìn)展.
本文第1節(jié)介紹相關(guān)濾波器的基本理論,第2節(jié)介紹近年來針對(duì)跟蹤難題提出的相關(guān)濾波跟蹤算法,第3節(jié)介紹針對(duì)跟蹤策略提出的相關(guān)濾波跟蹤算法,第4節(jié)展示并分析所論述跟蹤算法的實(shí)驗(yàn)結(jié)果,第5節(jié)對(duì)各種方法尚存在的問題進(jìn)行分析,總結(jié)并闡述未來的發(fā)展趨勢(shì).
相關(guān)濾波器通常也稱為判別相關(guān)濾波器(Discriminative correlation filters,DCF),是視頻跟蹤領(lǐng)域應(yīng)用最為廣泛的算法之一.計(jì)算機(jī)方向?qū)W者把信號(hào)處理學(xué)中計(jì)算兩種信號(hào)相關(guān)性的思路引入到視頻跟蹤的研究當(dāng)中,將目標(biāo)與待檢測(cè)區(qū)域比作信號(hào),并做相關(guān)計(jì)算,求得相關(guān)性最大的區(qū)域,即為目標(biāo)區(qū)域.
相關(guān)濾波方法認(rèn)為,每個(gè)被良好檢測(cè)的目標(biāo)區(qū)域都可為跟蹤提供有效信息,且以這些目標(biāo)區(qū)域作為訓(xùn)練樣本所訓(xùn)練出來的模型會(huì)更可靠,具體做法如下:
步驟1.對(duì)已跟蹤出的多個(gè)目標(biāo)位置提取特征,訓(xùn)練出一個(gè)濾波器模板;
步驟2.用訓(xùn)練出的濾波器與新一幀中的待檢測(cè)區(qū)域特征做相關(guān),相關(guān)響應(yīng)最大的位置即為新一幀中目標(biāo)的預(yù)測(cè)位置;
步驟3.以目標(biāo)預(yù)測(cè)位置為中心提取特征,反過來進(jìn)一步訓(xùn)練濾波器模型,并重復(fù)上述步驟進(jìn)行后續(xù)的目標(biāo)跟蹤與模型訓(xùn)練,進(jìn)而實(shí)現(xiàn)模型的在線訓(xùn)練與目標(biāo)的實(shí)時(shí)跟蹤.
本節(jié)簡(jiǎn)單介紹基于相關(guān)濾波器跟蹤算法的起源及發(fā)展過程中用到的經(jīng)典計(jì)算策略.
基于相關(guān)濾波器的目標(biāo)跟蹤算法最早于2010年[15]提出,MOSSE(Minimum output sum of squared error)方法開創(chuàng)了相關(guān)濾波器應(yīng)用于目標(biāo)跟蹤問題的先河.最初的相關(guān)濾波器模型相對(duì)簡(jiǎn)單,由于使用快速傅里葉變換方法輔助計(jì)算,所以速度較快,可達(dá)到669幀/s,雖然在處理各類跟蹤問題時(shí)效果欠佳,但具有里程碑式的意義,為近年來相關(guān)濾波的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ).
按照上面提到的思路,相關(guān)濾波跟蹤算法的目標(biāo)就是訓(xùn)練一個(gè)最優(yōu)的濾波模板,使其在目標(biāo)上的響應(yīng)最大,可表示為

其中,f為輸入圖像,h為濾波模板,g為響應(yīng)輸出,?為卷積操作,式(1)可進(jìn)一步展開為

由于卷積計(jì)算耗時(shí)較大,所以MOSSE方法利用快速傅里葉方法,將f和h表示在傅里葉頻域內(nèi),把卷積轉(zhuǎn)化為點(diǎn)乘,這樣可以極大地減少計(jì)算量,則式(1)變?yōu)?/p>

MOSSE方法對(duì)初始跟蹤框進(jìn)行隨機(jī)仿射變換,生成m個(gè)樣本{fi|i∈1,···,m},再利用高斯函數(shù)生成以fi的中心位置為峰值的響應(yīng)圖gi,最后利用如下目標(biāo)函數(shù)訓(xùn)練出最優(yōu)的相關(guān)濾波模板.

自MOSSE方法提出以后,基于相關(guān)濾波器的跟蹤算法受到了廣泛的關(guān)注,經(jīng)典方法CSK(Circulant structure of tracking-by-detection with kernels)[16]和KCF(Kernelized correlation filters)[17]都是在MOSSE的基礎(chǔ)上進(jìn)行改進(jìn)得出的,其中用到的循環(huán)矩陣和嶺回歸策略巧妙有效,有力推進(jìn)了相關(guān)濾波在跟蹤領(lǐng)域的發(fā)展,彌補(bǔ)了MOSSE方法存在的不足,改善了跟蹤效果.
本小節(jié)主要對(duì)循環(huán)矩陣和嶺回歸的計(jì)算方法做簡(jiǎn)單介紹.
1.2.1 循環(huán)矩陣
跟蹤初始階段的樣本數(shù)量有限,可通過對(duì)單個(gè)樣本使用循環(huán)矩陣生成的新樣本豐富樣本庫,進(jìn)而訓(xùn)練出更好的相關(guān)濾波模板,該方法最早在CSK[16]算法中被提出,樣本轉(zhuǎn)化在傅里葉頻域中進(jìn)行.
定義一個(gè)中心位于目標(biāo)的估計(jì)位置的圖像塊為基礎(chǔ)樣本,如圖1所示.

圖1 循環(huán)采樣示意圖Fig.1 Sketch map of circular sampling
對(duì)基礎(chǔ)樣本進(jìn)行循環(huán)位移操作,以實(shí)現(xiàn)對(duì)目標(biāo)周圍的連續(xù)采樣.若將樣本表示成向量形式,可得到循環(huán)矩陣如下:

其中,第1行代表基礎(chǔ)樣本,下面各行代表經(jīng)過循環(huán)位移得到的采樣.
循環(huán)矩陣具備一個(gè)非常好的特性,即可以通過離散傅里葉變換矩陣F實(shí)現(xiàn)對(duì)角化.

其中,x為基礎(chǔ)樣本,為經(jīng)過離散傅里葉變換的基礎(chǔ)樣本,=Fx.通過這種方法矩陣相乘可根據(jù)循環(huán)矩陣的性質(zhì)轉(zhuǎn)化為元素點(diǎn)乘,并在有效降低時(shí)間復(fù)雜度的同時(shí)提升跟蹤速度.
1.2.2 嶺回歸
不同于MOSSE以最小二乘作為目標(biāo)函數(shù),CSK[16]和KCF[17]等經(jīng)典相關(guān)濾波方法均采用了嶺回歸分類策略,最小化目標(biāo)函數(shù)

其中,f為濾波器,i為樣本個(gè)數(shù),x為樣本,λ為正則化參數(shù),y為樣本標(biāo)簽,ω為濾波器系數(shù).嶺回歸目標(biāo)函數(shù)在最小二乘的基礎(chǔ)上加入了正則項(xiàng)λ‖ω‖2,其優(yōu)點(diǎn)是能夠放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價(jià)獲得更符合實(shí)際、更可靠回歸系數(shù),通過對(duì)式(7)求偏導(dǎo)化簡(jiǎn)目標(biāo)函數(shù),最終可獲得封閉解.
當(dāng)f為線性時(shí),f(z)=wTz,可得到封閉解如下:

其中,X為第1.2.1節(jié)提到的循環(huán)矩陣,I為單位矩陣,根據(jù)循環(huán)矩陣的性質(zhì),矩陣間的乘除計(jì)算可化簡(jiǎn)為元素間的點(diǎn)乘或點(diǎn)除.
當(dāng)f為非線性時(shí),引入核函數(shù)k,將樣本從低維空間映射到高維的核空間,則,在低維空間不可分的情況到高維空間之后變得線性可分了,仍可得到封閉解為

這種方法可快速檢測(cè)到目標(biāo)的位置.
最初基于相關(guān)濾波的跟蹤方法跟蹤速率較快,但在復(fù)雜背景、目標(biāo)形變、長(zhǎng)時(shí)遮擋、尺度變換等復(fù)雜情況下表現(xiàn)不佳,所以近年來的相關(guān)濾波跟蹤算法主要針對(duì)這幾類跟蹤難題提出了相應(yīng)的改進(jìn)策略,跟蹤效果得到了很大的改善.本節(jié)詳細(xì)介紹并分析針對(duì)這幾種跟蹤難題提出的相關(guān)濾波跟蹤方法.
在復(fù)雜的自然環(huán)境中,目標(biāo)的機(jī)動(dòng)性較大,對(duì)目標(biāo)的區(qū)分和跟蹤都相對(duì)困難,最簡(jiǎn)便有效的方法是使用顏色特征對(duì)目標(biāo)進(jìn)行區(qū)分.經(jīng)典的KCF[17]算法將MOSSE[15]方法的灰度特征替換為多通道的彩色特征,使得跟蹤效果得到很大提升.如果在跟蹤過程中有效利用顏色特征,那么訓(xùn)練出的模型往往能夠具有很強(qiáng)的魯棒性.
基于自適應(yīng)顏色屬性的視頻跟蹤方法(Color names,CN)[18]是2014年Danelljan基于CSK方法提出的一種擴(kuò)展方法,該方法不僅使用了顏色特征,還將傳統(tǒng)的RGB三通道特征結(jié)合亮度細(xì)分為黑、藍(lán)、棕、灰、綠、橙、粉、紫、紅、白和黃11種特征,可有效解決跟蹤過程中由復(fù)雜背景導(dǎo)致的目標(biāo)定位不準(zhǔn)確的問題,但由于通道過多導(dǎo)致計(jì)算量增大,該方法采用自適應(yīng)顏色屬性策略對(duì)特征進(jìn)行降維,使整體跟蹤效果得到提升,速度可達(dá)100幀/s以上.通過最小化如下目標(biāo)函數(shù)實(shí)現(xiàn)樣本分類.

其中,?為核函數(shù)的投影方式,j為幀數(shù),y為樣本標(biāo)簽,(m,n)為樣本中心位置,每一幀的誤差權(quán)重β可有效增加算法的魯棒性,該目標(biāo)函數(shù)同樣需要將各參數(shù)從時(shí)域轉(zhuǎn)換到傅里葉頻域中進(jìn)行計(jì)算.
為加快跟蹤速度,該方法利用如式(11)所示的PCA(Principal component analysis)方法實(shí)時(shí)選擇當(dāng)前幀中比較顯著的顏色用于跟蹤,同時(shí)為當(dāng)前幀p找到一個(gè)合適的降維映射,訓(xùn)練出最好的投影矩陣B.具體方法為

其中,ηdata為僅由當(dāng)前幀決定的重構(gòu)誤差,α為重構(gòu)誤差對(duì)應(yīng)權(quán)重,ηsmooth為新舊幀間投影矩陣的重構(gòu)誤差,B為降維投影矩陣,b為矩陣B中的單個(gè)向量,λ為單個(gè)向量對(duì)應(yīng)權(quán)重.
實(shí)驗(yàn)表明,采用自適應(yīng)降維方法可將初始的11維降低至2維,可同時(shí)提高跟蹤精度與計(jì)算速度,CN方法雖然在多種跟蹤難題中的表現(xiàn)都優(yōu)于CSK方法,但與目前很多算法的效果相比,仍存在很大差距,該算法思想僅可視為一個(gè)過渡算法.
針對(duì)目標(biāo)形變問題,2016年牛津大學(xué)的Bertinetto等[19]提出了Staple方法,開創(chuàng)了模板類特征(HOG)與統(tǒng)計(jì)類特征(顏色直方圖)相結(jié)合的先河.HOG特征對(duì)運(yùn)動(dòng)模糊和照度很魯棒,但是對(duì)形變不夠魯棒;而顏色直方圖特征不考慮每一個(gè)像素的位置信息,可有效處理物體形變問題但對(duì)光照不魯棒.由于單獨(dú)使用上述任一特征的表示模型判別能力都不夠強(qiáng),且這兩種特征性質(zhì)互補(bǔ),所以該方法在嶺回歸的框架下,結(jié)合使用HOG特征和顏色直方圖特征,設(shè)計(jì)目標(biāo)表示方法,并應(yīng)用在跟蹤方法中.該方法優(yōu)于同時(shí)期的其他復(fù)雜模型方法,速度可以達(dá)到80幀/s以上.主要貢獻(xiàn)在于提出了一種有效的特征融合方法,并沒有單純用融合特征去跟蹤目標(biāo)得到打分,而是從打分的角度進(jìn)行融合.當(dāng)輸入一張圖片后,對(duì)目標(biāo)圖片提取HOG特征,用來訓(xùn)練濾波器,然后根據(jù)相關(guān)濾波器的學(xué)習(xí)規(guī)則學(xué)習(xí)得到濾波模板并更新;與此同時(shí),使用顏色直方圖特征對(duì)濾波模板進(jìn)行學(xué)習(xí),并使用同樣的方式對(duì)學(xué)習(xí)到的模板進(jìn)行更新.
在跟蹤過程中,首先基于上幀學(xué)習(xí)到的位置標(biāo)出大致目標(biāo)位置,然后利用訓(xùn)練出的兩個(gè)濾波器模板對(duì)目標(biāo)區(qū)域做兩個(gè)響應(yīng)圖,最后用線性方法將得到的兩個(gè)響應(yīng)圖融合成最終響應(yīng)圖,進(jìn)而最終確定目標(biāo)位置.使用的線性方法如下:

大部分跟蹤方法尤其是相關(guān)濾波跟蹤方法在訓(xùn)練過程中都忽略對(duì)尺度的估計(jì)或使用統(tǒng)一的尺度處理不同尺度的樣本,導(dǎo)致在目標(biāo)發(fā)生大尺度形變時(shí)較易發(fā)生目標(biāo)丟失或目標(biāo)偏移,例如KCF方法的目標(biāo)框從始至終大小未發(fā)生變化.多數(shù)方法設(shè)計(jì)主要集中于目標(biāo)定位,也有少數(shù)方法的設(shè)計(jì)是針對(duì)尺度變化,但跟蹤速度較慢,很難達(dá)到實(shí)時(shí).
2014年Danelljan等[20]基于MOSSE框架提出DSST(Discriminative scale space tracking)方法,首次在相關(guān)濾波跟蹤方法中同時(shí)使用位置濾波器和尺度濾波器,分別進(jìn)行目標(biāo)定位和尺度評(píng)估.
DSST方法中的位置濾波器基于上一幀確定的目標(biāo)框獲取候選框,在確定目標(biāo)位置后,尺度濾波器以當(dāng)前目標(biāo)框的大小為基準(zhǔn),基于33種較精細(xì)的不同尺度候選框確定新的目標(biāo)尺度.整個(gè)聯(lián)合相關(guān)濾波器基于三維尺度空間,大小為M×N×S,其中M,N為相關(guān)濾波器的長(zhǎng)寬,S為相關(guān)濾波器的尺度大小;訓(xùn)練樣本基于特征金字塔被構(gòu)造為一個(gè)大小為M×N×S的立方體,它滿足以目標(biāo)位置和尺度為中心的立體高斯分布,尺度參數(shù)的更新和之前使用學(xué)習(xí)率更新相關(guān)濾波參數(shù)的方式相同,相關(guān)響應(yīng)最大的位置即為目標(biāo)位置.DSST方法雖然速度較慢,當(dāng)目標(biāo)發(fā)生巨大形變時(shí)效果不佳,但聯(lián)合相關(guān)濾波器和立體化訓(xùn)練樣本思路新穎獨(dú)特,精度方面獲得了2014年VOT競(jìng)賽的冠軍.2017年Danelljan等[21]基于該文又發(fā)表了一篇擴(kuò)展論文,加入了一些加速方法后,速度有所提升.
2015年Zhang等[22]提出了JSSC(Tracker using joint scale-spatial correlation filters)方法,該方法提出了一種聯(lián)合尺度空間的自適應(yīng)框架,同時(shí)考慮不同尺度的多個(gè)循環(huán)矩陣,使用結(jié)合核函數(shù)的嶺回歸方法訓(xùn)練模型,同時(shí)檢測(cè)目標(biāo)的位置和尺度信息.
該方法采用模板匹配策略,首先假設(shè)不同尺度采樣的匹配打分符合混合高斯分布,在嶺回歸中最大限度的減少樣本響應(yīng)和匹配打分之間的差異來訓(xùn)練模型.在訓(xùn)練階段,比較計(jì)算不同尺度間的樣本使跟蹤算法能夠敏感于目標(biāo)尺度的變換.在檢測(cè)階段,利用先驗(yàn)概率對(duì)樣本進(jìn)行線性插值計(jì)算,進(jìn)而確保對(duì)目標(biāo)連續(xù)的尺度估計(jì).經(jīng)實(shí)驗(yàn)分析,使用5種不同尺度的采樣訓(xùn)練出的相關(guān)濾波模板效果最優(yōu),最終跟蹤效果相對(duì)于上面提到的DSST方法有明顯改善.同年Zhang等[23]在JSSC方法的基礎(chǔ)上又延伸出了RAJSSC(Joint scale-spatial correlation tracking with adaptive rotation estimation)方法.在原方法的基礎(chǔ)上,從目標(biāo)旋轉(zhuǎn)的角度對(duì)跟蹤算法進(jìn)行改進(jìn),將目標(biāo)模板從直角坐標(biāo)系轉(zhuǎn)換到極坐標(biāo)系以保留旋轉(zhuǎn)目標(biāo)中的循環(huán)矩陣信息,使跟蹤器能夠在方向空間對(duì)物體的旋轉(zhuǎn)進(jìn)行建模,進(jìn)而減少由于目標(biāo)旋轉(zhuǎn)對(duì)跟蹤效果造成的影響.
一般的相關(guān)濾波跟蹤方法在處理長(zhǎng)時(shí)間遮擋問題時(shí)較為敏感,因?yàn)樗鼈兇蠖家?00~500幀短時(shí)記憶跟蹤為主,遮擋結(jié)束后容易丟失目標(biāo)或發(fā)生目標(biāo)位置偏移.針對(duì)該問題,2015年Ma等[24]提出長(zhǎng)時(shí)記憶相關(guān)濾波跟蹤(Long-term correlation tracking,LCT)方法.
長(zhǎng)時(shí)記憶跟蹤即跟蹤器在較長(zhǎng)的時(shí)間內(nèi)都能保持準(zhǔn)確穩(wěn)定的跟蹤,最常用的策略是給普通跟蹤器搭配一個(gè)檢測(cè)器,在發(fā)現(xiàn)跟蹤出錯(cuò)的時(shí)候調(diào)用自帶的檢測(cè)器重新檢測(cè)并矯正跟蹤器.LCT方法延續(xù)了DSST方法中聯(lián)合使用位置濾波器和尺度濾波器的思想,但與DSST不同的是,在位置濾波器中,通過考慮目標(biāo)周圍臨時(shí)的上下文信息訓(xùn)練回歸模型,即在提取特征后加入檢測(cè)區(qū)域內(nèi)目標(biāo)和背景的空間權(quán)重關(guān)系,以此來對(duì)抗嚴(yán)重形變、長(zhǎng)時(shí)遮擋等跟蹤難題,有效地緩解了可塑性–穩(wěn)定性窘境,這樣就可以保證在學(xué)習(xí)新知識(shí)的同時(shí),還能保持對(duì)舊知識(shí)的記憶;而在尺度相關(guān)濾波器中,該方法使用大小相同但尺度不同的圖像塊,提取HOG特征構(gòu)造尺度特征金字塔,與目標(biāo)回歸模型做相關(guān),響應(yīng)最大的圖像塊的尺度即為最優(yōu)尺度.
為防止目標(biāo)丟失導(dǎo)致的跟蹤失敗,該方法通過比較響應(yīng)最大值與指定閾值,決定是否使用K近鄰在線分類器進(jìn)行再檢測(cè)并矯正跟蹤器.LCT方法可有效處理遮擋和目標(biāo)移出視野的情況,在保證精度的同時(shí),速度可達(dá)到27幀/s.
由于標(biāo)準(zhǔn)的DCF方法在利用循環(huán)矩陣生成多樣化樣本時(shí),會(huì)不可避免地引發(fā)邊緣效應(yīng)進(jìn)而導(dǎo)致過擬合,所以2015年Danelljan等[25]對(duì)DCF方法進(jìn)行了改進(jìn),提出了考慮空間信息的SRDCF(Spatially regularized correlation filters)方法,在目標(biāo)函數(shù)中將普通正則項(xiàng)改為空間懲罰正則項(xiàng),期望抑制離中心較遠(yuǎn)的特征對(duì)跟蹤的影響.通過此種方式依然采用HOG特征用于目標(biāo)跟蹤,很好地解決了邊緣效應(yīng)問題,并成為當(dāng)年效果最好的跟蹤方法之一,但速度較慢,4幀/s左右.
目標(biāo)函數(shù)相對(duì)于式(7)僅第2項(xiàng)發(fā)生了改變,即加入了空間懲罰正則項(xiàng).

其中,懲罰權(quán)重ω由空間位置決定,并滿足高斯分布,是決定相關(guān)濾波系數(shù)的一個(gè)重要參數(shù).
圖2是加入懲罰正則項(xiàng)前后相關(guān)濾波系數(shù)對(duì)比示意圖.從圖2可以看出,越接近邊界的位置,懲罰越大,越接近中心的位置,懲罰越小,以此來更加突顯目標(biāo),同時(shí)減小邊界對(duì)跟蹤的影響.
最小化目標(biāo)函數(shù)(15)的求解過程仍是在傅里葉域中進(jìn)行,由于加入了空間正則項(xiàng),破壞了DCF中的矩陣塊對(duì)角結(jié)構(gòu),故該方法迭代使用Gauss-Seidel方法進(jìn)行在線學(xué)習(xí)優(yōu)化,進(jìn)而得到新的相關(guān)濾波系數(shù).

圖2 加入懲罰正則項(xiàng)前后相關(guān)濾波系數(shù)對(duì)比示意圖Fig.2 Schematic diagram of correlation filtering coefficients before and after adding penalty regular
2015年以前的相關(guān)濾波方法使用的特征主要集中于HOG梯度直方圖、顏色直方圖及邊界等手工特征.提取手工特征的方法是人為規(guī)定的,僅適用于指定情況,模型適應(yīng)性較差.而提取深度特征仿照的是人腦對(duì)信息的多層逐步遞增的處理模式,可以通過學(xué)習(xí)大量數(shù)據(jù)得到更有效、泛化能力更強(qiáng)的信息表達(dá),采用深度特征訓(xùn)練的模型適應(yīng)性更強(qiáng),已成功應(yīng)用于行為識(shí)別、圖像分割等問題的求解中,并獲得了很好的效果.
DeepSRDCF(Convolutional features for spatially regularized correlation filter)[26]方法分別在標(biāo)準(zhǔn)DCF和SRDCF框架下證明了深度特征的有效性,詳細(xì)論證了多種人工特征及各層深度特征對(duì)跟蹤效果的影響.大多數(shù)深度學(xué)習(xí)方法更偏重于使用預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)中全連接層提取的特征,然而,各卷積層提取的特征包含更多的結(jié)構(gòu)和語義信息,判別能力更強(qiáng),訓(xùn)練出的模型更適用于圖像分類問題,其中較淺層次的卷積層提取的特征包含更多的視覺信息,因而更適用于跟蹤問題.
該方法使用ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的CNN深度神經(jīng)網(wǎng)絡(luò)來提取特征,以待檢測(cè)區(qū)域RGB圖像作為輸入,逐層輸出卷積特征,通過實(shí)驗(yàn)對(duì)比,在相關(guān)濾波跟蹤框架中單獨(dú)使用各層深度特征得到的結(jié)果.可以看出,使用CNN深度特征尤其是底層特征(第一層特征)解決跟蹤問題的效果更好,遠(yuǎn)遠(yuǎn)超過應(yīng)用手工特征的相關(guān)濾波方法.DeepSRDCF方法首次將深度特征引入視頻跟蹤領(lǐng)域,雖然深度特征參數(shù)較多,導(dǎo)致在提高跟蹤精度的同時(shí)速度有所下降,但仍具有里程碑式的意義.
雖然深度特征使得視頻跟蹤方法的效果得到很大提升,但大多數(shù)方法采用的都是預(yù)訓(xùn)練好的深度特征.2017年Wang等[27]提出DCFNet(Discriminant correlation filters network)方法,認(rèn)為預(yù)訓(xùn)練網(wǎng)絡(luò)訓(xùn)練出來的深度特征或手工特征是獨(dú)立于整個(gè)相關(guān)濾波跟蹤過程的,會(huì)對(duì)所訓(xùn)練模型的適應(yīng)性造成影響,故該方法自己構(gòu)造出一種端到端的輕型網(wǎng)絡(luò)框架,通過將相關(guān)濾波看成一層網(wǎng)絡(luò)加入到孿生網(wǎng)絡(luò)中,訓(xùn)練出最適合相關(guān)濾波跟蹤的特征,在優(yōu)化整個(gè)網(wǎng)絡(luò)的過程中,謹(jǐn)慎地反向傳播誤差并輸出目標(biāo)位置的概率熱圖,進(jìn)而實(shí)現(xiàn)在學(xué)習(xí)卷積特征的同時(shí)跟蹤目標(biāo).
DCFNet網(wǎng)絡(luò)在DCF框架下構(gòu)造級(jí)聯(lián)特征提取過程,最小化目標(biāo)函數(shù)為

其中,g為通過DCF得到的響應(yīng),為期望響應(yīng),該響應(yīng)圖在真實(shí)目標(biāo)位置響應(yīng)最大.然后對(duì)目標(biāo)函數(shù)進(jìn)行一系列的求導(dǎo)過程,來實(shí)現(xiàn)誤差的反向傳播,進(jìn)而訓(xùn)練整個(gè)網(wǎng)絡(luò),詳細(xì)推導(dǎo)過程見文獻(xiàn)[27].
DCFNet將相關(guān)濾波器融入到訓(xùn)練網(wǎng)絡(luò)中的想法新穎獨(dú)特,通過端到端的方法,針對(duì)性地學(xué)習(xí)出適合相關(guān)濾波跟蹤的特征,所學(xué)出特征的性能能夠與廣泛使用的HOG特征相媲美,在維持跟蹤精度的同時(shí),大幅度提高跟蹤速度,跟蹤速度可達(dá)到89幀/s.
追蹤過程中通常會(huì)遇到樣本損壞的問題,例如錯(cuò)誤的跟蹤預(yù)測(cè)、擾動(dòng)、局部或全遮擋都會(huì)導(dǎo)致樣本不同程度的受損,受損樣本進(jìn)入訓(xùn)練集,必然會(huì)使模型泛化能力和判別能力下降.SRDCFdecon(Spatially regularized correlation filters with decontaminated training set)[28]方法針對(duì)這一問題在SRDCF框架的基礎(chǔ)上,對(duì)訓(xùn)練樣本集進(jìn)行了改進(jìn),通過評(píng)估樣本的質(zhì)量來動(dòng)態(tài)管理訓(xùn)練集,可有效增強(qiáng)模板的泛化能力.該方法第一次提出聯(lián)合優(yōu)化外觀模型參數(shù)和樣本權(quán)重,最小化損失函數(shù),其中目標(biāo)函數(shù)如下:

其中,αk為每個(gè)樣本的權(quán)重,L為針對(duì)訓(xùn)練樣本的損失函數(shù),θ是外觀模型參數(shù),x為訓(xùn)練樣本,y為預(yù)期標(biāo)簽,第2項(xiàng)控制變化速度與第3項(xiàng)一起都屬于正則項(xiàng).值得一提的是,在該目標(biāo)函數(shù)中,權(quán)重為一個(gè)連續(xù)的數(shù)值,因?yàn)樵谀繕?biāo)發(fā)生輕微遮擋或微小變化時(shí),訓(xùn)練樣本沒有完全受損,仍含有有用信息,這時(shí)讓權(quán)重連續(xù)化能夠更準(zhǔn)確地定義訓(xùn)練樣本的性質(zhì).
僅憑前一幀的信息決定一個(gè)樣本的重要性往往不夠客觀.對(duì)于泛化能力較強(qiáng)的模板,在更新樣本時(shí),應(yīng)該考慮到包括更早幀中的信息在內(nèi)的所有有用信息.該方法利用所有先前幀目標(biāo)的信息,將樣本的權(quán)重規(guī)定為指定變化趨勢(shì),即當(dāng)前幀樣本權(quán)重最大,向前逐漸減小直至不.具體方法為

其中,ρk為第k幀的權(quán)重,在每一幀迭代中,都重新決定樣本的權(quán)重,進(jìn)而糾正跟蹤錯(cuò)誤.實(shí)驗(yàn)證明,該方法可有效提高跟蹤精度,但速度較慢,為3幀/s.
在驗(yàn)證了深度特征可有效提升模型適應(yīng)性以后,Danelljan等[29]進(jìn)一步改進(jìn)了DeepSRDCF方法并提出C-COT(Continuous convolution operators for visual tracking)方法,并獲得了2016年VOT競(jìng)賽的冠軍.
不同于使用單一分辨率特征的常用方法,Danelljan等發(fā)現(xiàn)由不同卷積層得到的特征圖分辨率大小不同,即高層分辨率較小特征和低層分辨率較高特征,因此這兩種特征可在跟蹤中發(fā)揮不同的作用.該方法嘗試使用插值運(yùn)算,將離散的特征圖轉(zhuǎn)化到連續(xù)空間域中進(jìn)行計(jì)算,有效結(jié)合不同層次的深度特征訓(xùn)練模型,再次提高了模型的適應(yīng)性.其目標(biāo)函數(shù)在基礎(chǔ)SRDCF的目標(biāo)函數(shù)式(15)的基礎(chǔ)上改進(jìn)為

與基本公式不同的是,式(19)中的Sf為濾波模板與插值后樣本做相關(guān)計(jì)算后的得分,即使用從不同卷積層訓(xùn)練得到的濾波模板進(jìn)行運(yùn)算,得到不同的置信圖,對(duì)所有的置信圖進(jìn)行加權(quán)求和,得到最終的置信圖.最終置信圖中最大值所在的位置即為要跟蹤的目標(biāo)所在的位置.
該方法對(duì)深度神經(jīng)網(wǎng)絡(luò)的各層及各層的不同組合提取的特征進(jìn)行了逐一試驗(yàn).經(jīng)測(cè)試,融合第0層、第1層和最后一層提取的深度特征,應(yīng)用在視頻跟蹤問題中效果最好,并且離散特征連續(xù)化的策略對(duì)跟蹤算法效果的提升也起到了重要作用.
事實(shí)上,直接在DCF跟蹤器中融合多維特征導(dǎo)致表示模型參數(shù)增多,例如C-COT就需連續(xù)更新800000個(gè)參數(shù),模板泛化能力較差,極易導(dǎo)致過擬合,在增加計(jì)算復(fù)雜度的同時(shí),減慢了跟蹤速度.DCF跟蹤器雖使用大量訓(xùn)練樣本集,但實(shí)際上可使用的樣本數(shù)量有限,通常的做法是丟棄最老的樣本,這很容易使跟蹤結(jié)果擬合于最近的變化,導(dǎo)致跟蹤偏移.DCF跟蹤器逐幀更新模型,受孿生網(wǎng)絡(luò)(無需更新模型)啟發(fā),文獻(xiàn)[29]認(rèn)為逐幀更新為過渡更新模型,反而會(huì)導(dǎo)致模板泛化能力下降,敏感于目標(biāo)的突然改變,導(dǎo)致跟蹤速度和算法魯棒性的降低.
2017年ECO(Efficient convolution operators)[9]方法在C-COT方法的基礎(chǔ)上,主要提出三個(gè)策略,有效解決了上述問題:1)提出多項(xiàng)式卷積計(jì)算,用PCA方法訓(xùn)練投影矩陣對(duì)融合特征進(jìn)行降維,僅考慮能量值最大的特征,減少了參數(shù)個(gè)數(shù);2)提出生成樣本空間模型,用混合高斯的方法合并樣本集中最相似的兩個(gè)訓(xùn)練樣本,減少了訓(xùn)練樣本的個(gè)數(shù),減輕了重復(fù)計(jì)算相似樣本帶來的計(jì)算負(fù)擔(dān);3)拋棄逐幀更新模型的策略,每隔固定幀數(shù)更新一次,節(jié)省了無效更新浪費(fèi)的時(shí)間.
ECO方法通過上述策略訓(xùn)練的模型泛化能力較強(qiáng),在有效提高目標(biāo)跟蹤速度的同時(shí),精度也有所提高.
本節(jié)主要從精度和速度兩方面分析相關(guān)濾波系列跟蹤算法;首先展示文中所述方法在兩大常用數(shù)據(jù)集(OTB(Online object tracking:a benchmark)[30]和VOT(Visual object tracking)[31])上的測(cè)試結(jié)果,然后著重討論并分析該系列算法在不斷完善的過程中在性能和速度方面發(fā)生的改變.
OTB數(shù)據(jù)集是評(píng)價(jià)視頻跟蹤算法的重要公測(cè)數(shù)據(jù)集之一,于2013年被首次提出,包含50個(gè)涉及背景復(fù)雜、目標(biāo)旋轉(zhuǎn)、尺度變換、目標(biāo)快速移動(dòng)、目標(biāo)變形、目標(biāo)遮擋等多種跟蹤難題的視頻序列,可對(duì)目標(biāo)跟蹤方法進(jìn)行全面系統(tǒng)的評(píng)價(jià).
該數(shù)據(jù)集主要有以下三種評(píng)價(jià)方式:1)一次性魯棒評(píng)估(One pass evaluation,OPE).傳統(tǒng)評(píng)估方式,即從頭到尾跑一遍視頻序列,以第1幀的真實(shí)目標(biāo)位置作為初始位置.2)時(shí)間魯棒評(píng)估(Temporal robustness evaluation,TRE).從不同的視頻幀開始跟蹤,或隨機(jī)跟蹤視頻序列的一個(gè)片段.3)空間魯棒評(píng)估(Spatial robustness evaluation,SRE).以不同的目標(biāo)框做初始開始跟蹤,通過對(duì)初始真實(shí)目標(biāo)框采用中心轉(zhuǎn)移、角度變換、尺度大小變換等不同方式得到不同的目標(biāo)框.
SRE對(duì)算法的魯棒性要求最高,為增強(qiáng)說服力,本文在該數(shù)據(jù)集上采用SRE的方式對(duì)上述跟蹤算法進(jìn)行對(duì)比;同時(shí),以成功率S做為評(píng)價(jià)指標(biāo),從不同角度分析實(shí)驗(yàn)結(jié)果,具體做法為:計(jì)算跟蹤框和真實(shí)框的重疊率,對(duì)重疊率大于閾值的幀進(jìn)行計(jì)數(shù),由于使用指定閾值,不能公平地對(duì)比不同的跟蹤器,成功率展示的是閾值為0~1的成功幀數(shù)的比率,比率曲線下覆蓋面積的大小可用來對(duì)不同的跟蹤器進(jìn)行性能排序.
本文在OTB數(shù)據(jù)集上對(duì)比分析了上述提到的ECO,CSK,KCF,CN,Staple,DSST,LCT,SRDCF,DeepSRDCF,CCOT,DCFNet,SRDCFdecon等12種跟蹤方法.雖然上述方法目前僅從有限的角度對(duì)相關(guān)濾波跟蹤算法進(jìn)行了改進(jìn),為方便分析總體性能及未來改進(jìn)方向,本文分別從尺度變換、目標(biāo)旋轉(zhuǎn)、低分辨率、光照變化、運(yùn)動(dòng)模糊、復(fù)雜背景、快速移動(dòng)、目標(biāo)形變、移除視野等角度綜合展示了各種跟蹤方法的SRE成功率排序,對(duì)比圖如圖3所示.
VOT數(shù)據(jù)集是評(píng)價(jià)目標(biāo)跟蹤方法的又一重要數(shù)據(jù)集,包含60多個(gè)視頻片段,涵蓋了尺度變換、相機(jī)移動(dòng)、光照變化、運(yùn)動(dòng)變換、遮擋等多種跟蹤問題,雖然涉及到的跟蹤問題與OTB略有重疊,但評(píng)價(jià)方式不同,該數(shù)據(jù)集通過期望平均覆蓋率(Expected average overlap,EAO)評(píng)估跟蹤算法的精確度和魯棒性,為OTB數(shù)據(jù)集提供了有效的補(bǔ)充評(píng)估.
上述基于相關(guān)濾波器的視頻跟蹤算法在VOT數(shù)據(jù)集上以EAO為評(píng)價(jià)標(biāo)準(zhǔn)的對(duì)比與排序如圖4所示.由于CN,LCT,DCFNet和CSK方法沒有提供跟蹤結(jié)果,而RAJSSC僅提供了VOT結(jié)果,故本文分別僅對(duì)其他9種方法的結(jié)果做了逐一比較,另外比較了目前深度學(xué)習(xí)類跟蹤方法中極具代表性的TCNN[32]方法.
從OTB數(shù)據(jù)集上的測(cè)試結(jié)果可以看出,近年來基于相關(guān)濾波的各種跟蹤方法效果被逐步改善,雖然早期的CSK方法效果不盡如人意,卻是所有相關(guān)濾波跟蹤方法的基礎(chǔ).從結(jié)果對(duì)比圖可以看出,之后的算法每加入一種改進(jìn)策略,跟蹤效果就提升一點(diǎn):CN方法加入了對(duì)顏色特征的改進(jìn)策略,不僅在復(fù)雜背景的情況下優(yōu)于CSK方法,在尺度變換、目標(biāo)快速移動(dòng)等情況下跟蹤效果都有一定的改善,但影響不是十分顯著,僅提高了0.1的成功率;相比而言,針對(duì)目標(biāo)形變提出的Staple方法則帶來了很大程度的改進(jìn),在目標(biāo)形變、復(fù)雜背景等情況下,效果甚至強(qiáng)于使用深度特征的跟蹤算法,相對(duì)于最初的相關(guān)濾波方法,提高了近0.3的成功率;DSST方法針對(duì)目標(biāo)尺度變化提出了相應(yīng)的改進(jìn)策略,效果有所改善,但不是很多;旨在處理長(zhǎng)時(shí)跟蹤的LCT方法在目標(biāo)旋轉(zhuǎn)方面表現(xiàn)不錯(cuò),但在處理低分辨率目標(biāo)時(shí)效果不佳;總體來說,Danelljan等提出的系列方法均處于排名上游,目前ECO算法不僅在相關(guān)濾波系列跟蹤方法中綜合效果最好,在所有目標(biāo)跟蹤算法綜合效果也是最好,在大部分的視頻跟蹤問題中都能得到很好的效果,平均成功率可達(dá)到0.7以上,但在目標(biāo)快速移動(dòng)、光照變化、目標(biāo)形變等視頻難題中雖然速度占優(yōu)勢(shì),但效果不如C-COT或其他跟蹤算法,還有一定的改進(jìn)空間.

圖3 各種基于相關(guān)濾波跟蹤方法成功率對(duì)比曲線圖Fig.3 Various success ratio comparison curve based on correlation filter tracking methods

圖4 各種基于相關(guān)濾波跟蹤方法的EAO等級(jí)圖Fig.4 Various EAO level maps based on correlation filtering tracking methods
VOT數(shù)據(jù)集上的測(cè)試結(jié)果再次確認(rèn)了各相關(guān)濾波算法性能的排名,在整個(gè)VOT 2016競(jìng)賽中,結(jié)合相關(guān)濾波器的CCOT方法的EAO值為0.331,排名第1,優(yōu)于僅結(jié)合深度學(xué)習(xí)的第2名方法TCNN[32](EAO為0.325).如圖4所示,其他相關(guān)濾波跟蹤方法排名也比較靠前.深度特征的影響力毋庸置疑,在相關(guān)濾波跟蹤方法中直接使用深度特征的DeepSRDCF方法要明顯優(yōu)于大部分跟蹤方法;除此之外,針對(duì)尺度變換的改進(jìn)RAJSSC方法的效果要明顯優(yōu)于DSST方法,可知模板匹配策略的有效性;利用不同分辨率深度特征的CCOT使得跟蹤算法效果又得到了很大的提升;在此基礎(chǔ)上,采用優(yōu)化訓(xùn)練集和模型更新次數(shù)策略的ECO方法的跟蹤性能評(píng)價(jià)指標(biāo)EAO被提升至0.358,優(yōu)于2016最好方法CCOT,盡管在目標(biāo)遮擋方面還存在一定的改進(jìn)空間,卻是2017年度跟蹤方法中效果最好的方法.
從基于相關(guān)濾波的跟蹤算法提出至今,隨著跟蹤策略的不斷改進(jìn)和完善,算法的跟蹤速度也發(fā)生了很大改變.
最初的MOSSE算法僅使用單通道的灰度特征,相對(duì)簡(jiǎn)單,跟蹤精度不高但跟蹤速度較快,可達(dá)到669幀/s;之后的算法在MOSSE的基礎(chǔ)上逐漸演變得更復(fù)雜,跟蹤速度也相應(yīng)降低,CSK方法和KCF方法在MOSSE方法的基礎(chǔ)上,引入了循環(huán)矩陣和嶺回歸策略,并使用多通道的彩色特征,使跟蹤精度得到了顯著提高,但跟蹤速度分別降至362幀/s和172幀/s;CN方法和Staple方法對(duì)跟蹤使用的手工特征分別做出了相應(yīng)改進(jìn),改善跟蹤效果的同時(shí)速度分別降至152幀/s和80幀/s;SRDCF方法修改嶺回歸目標(biāo)函數(shù),有效解決了邊緣效應(yīng)導(dǎo)致的過擬合現(xiàn)象,卻導(dǎo)致跟蹤速度大幅下降至4幀/s;隨著將深度特征引入跟蹤算法,跟蹤速度越來越慢,演化到C-COT方法時(shí)跟蹤速度已經(jīng)降至0.3幀/s,研究人員也終于對(duì)跟蹤速度引起了關(guān)注,2017年Danelljan等提出的ECO算法旨在改善跟蹤效果的同時(shí)提高跟蹤速度,簡(jiǎn)化特征并減少模型更新的次數(shù),使采用深度特征的跟蹤算法速度提升至6幀/s,采用手工特征的跟蹤算法速度提升至60幀/s;同年提出的DCFNet方法將相關(guān)濾波最為卷積網(wǎng)絡(luò)的最后一層,跟蹤速度可達(dá)到89幀/s.
從相關(guān)濾波系列跟蹤方法的演變過程可以看出,這是一個(gè)先從簡(jiǎn)到繁,又從繁到簡(jiǎn)的過程,不變的是跟蹤精度始終在持續(xù)提高,大多數(shù)跟蹤難題都已得到很好的解決.
相關(guān)濾波器因在傅里葉域計(jì)算速度快、效果好等優(yōu)點(diǎn),已被成功應(yīng)用于各種計(jì)算機(jī)視覺問題中.事實(shí)證明,將相關(guān)濾波器引入跟蹤方法可更好地應(yīng)對(duì)跟蹤問題中的各種挑戰(zhàn),提高跟蹤的準(zhǔn)確性和魯棒性,進(jìn)而實(shí)現(xiàn)長(zhǎng)時(shí)在線跟蹤.綜合目前基于相關(guān)濾波跟蹤方法的發(fā)展現(xiàn)狀,本文認(rèn)為該方法未來研究方向如下:1)分析各層深度特征的作用及重要性,有效結(jié)合最優(yōu)深度特征和人工特征來彌補(bǔ)彼此的不足,進(jìn)而提高模型對(duì)特征的表達(dá)能力;2)自適應(yīng)更新相關(guān)濾波模型,增強(qiáng)模型對(duì)目標(biāo)變化的適應(yīng)能力;3)優(yōu)化相關(guān)濾波目標(biāo)函數(shù),從根本上提升算法的檢測(cè)性能.