田應(yīng)仲,劉伊芳,李 龍
(1.上海大學(xué) 機(jī)電工程與自動化學(xué)院,上海 200444;2.上海市智能制造及機(jī)器人重點(diǎn)實(shí)驗(yàn)室,上海 200444)
計(jì)算機(jī)視覺是人工智能的一個研究熱點(diǎn),具有極大的理論研究價值[1-3]。目標(biāo)跟蹤是計(jì)算機(jī)視覺研究的熱門方向之一,在各行各業(yè)都發(fā)揮著重要的作用,比如智能交通系統(tǒng)、無人駕駛領(lǐng)域、移動機(jī)器人等[4-6]。目標(biāo)跟蹤主要根據(jù)視頻給定的第一幀確定一個區(qū)域作為目標(biāo),在接下來的幀中繼續(xù)得到目標(biāo)的運(yùn)動及位置信息,持續(xù)跟蹤該目標(biāo),并輸出目標(biāo)的位置。
核相關(guān)濾波(kernel correlation filter)視覺跟蹤算法[7]通過循環(huán)矩陣構(gòu)造正負(fù)訓(xùn)練樣本,將時域的卷積轉(zhuǎn)換到頻域的點(diǎn)乘完成濾波器的訓(xùn)練,降低計(jì)算復(fù)雜度從而顯著提高計(jì)算速度,因此受到廣泛關(guān)注。但是,核相關(guān)濾波算法存在一定局限性。循環(huán)樣本會帶來不必要的邊界效應(yīng),目標(biāo)搜索區(qū)域?qū)⑹艿较拗啤4送猓瑐鹘y(tǒng)核相關(guān)濾波跟蹤算法還存在未能充分利用顏色特征、模板單一、搜索框不能適應(yīng)目標(biāo)尺度變化等問題。
現(xiàn)實(shí)環(huán)境復(fù)雜多變,難以預(yù)測,存在遮擋、光照變化、背景模糊、尺度變化、外觀變形、快速運(yùn)動等挑戰(zhàn),給視覺跟隨跟隨算法的研究帶來了較大困難。針對現(xiàn)實(shí)環(huán)境存在光照變化、目標(biāo)尺度變化等干擾因素的影響,提出了多特征的核相關(guān)濾波自適應(yīng)尺度變化型跟蹤算法。此外,核相關(guān)濾波器沒有充分運(yùn)用目標(biāo)的背景信息,在面對遮擋、環(huán)境復(fù)雜等挑戰(zhàn)時,容易跟蹤失敗,為此提出了聯(lián)合判別式的背景感知與干擾判別策略。
全文首先簡要介紹核相關(guān)濾波算法[7]的原理,然后從兩個方面來改進(jìn)核相關(guān)濾波算法,分別是多特征的自適應(yīng)尺度變化策略和聯(lián)合背景感知干擾判別策略。最后通過公開視頻訓(xùn)練集OTB-50[8]仿真實(shí)驗(yàn),驗(yàn)證改進(jìn)后算法的效果。
核相關(guān)濾波[7]基本理論是判斷兩個信號的相似性,如果兩個信號越相似,說明相關(guān)度越高。在目標(biāo)跟蹤領(lǐng)域,運(yùn)用核相關(guān)濾波跟蹤器,便是通過每幀的圖像和第一幀標(biāo)定的目標(biāo)做匹配,得到響應(yīng)值最大的區(qū)域。假設(shè)目標(biāo)塊像素為向量x=[x1,x2,…,xn]T,把向量x作為基礎(chǔ)樣本,通過循環(huán)移位操作得到樣本集[9],這樣就得到了訓(xùn)練分類器所需要的正負(fù)樣本。由循環(huán)移位構(gòu)造的訓(xùn)練樣本集可以換算到傅里葉頻域?qū)崿F(xiàn)高度對角化,避開矩陣求逆運(yùn)算,提高運(yùn)算速度。循環(huán)矩陣可以表示為公式(1):
(1)
在通過循環(huán)移位操作獲取正負(fù)訓(xùn)練樣本后,需要對這些樣本進(jìn)行訓(xùn)練,生成目標(biāo)跟隨的分類器。樣本訓(xùn)練是一個嶺回歸過程或正則化最小二乘問題,這個過程有一個簡單的閉式解。核相關(guān)濾波算法的目的是讓訓(xùn)練樣本集與標(biāo)簽集{yi}的回歸誤差的平方和最小,也就是使式(2)損失函數(shù)值最小[10]。

(2)
其中,λ‖w‖2是懲罰項(xiàng),λ是正則化系數(shù),用來防止目標(biāo)模型出現(xiàn)過擬合的現(xiàn)象,n是訓(xùn)練樣本總數(shù)。
令線性回歸函數(shù)式(2)導(dǎo)數(shù)等于0,可得唯一最優(yōu)解的閉合形式如下:
w=(XTX+λI)-1XTy
(3)
訓(xùn)練和更新濾波器的公式為:
(4)
其中,⊙表示逐元素相乘,可通過傅里葉反變換輕松得到空間域w。利用快速傅里葉變換的優(yōu)勢,計(jì)算效率大幅提升。
目標(biāo)檢測的方程如下:

(5)

(6)
其中,訓(xùn)練樣本是z,^是傅里葉變換,⊙是元素間點(diǎn)乘,*是對應(yīng)元素的共軛變換,F(xiàn)-1是傅里葉逆變換,λ是正則化參數(shù)。
通過以上證明過程,時域計(jì)算成功轉(zhuǎn)化到頻域,避免了大量運(yùn)算,進(jìn)而降低計(jì)算復(fù)雜度,核相關(guān)濾波器跟蹤速度達(dá)到飛躍增長。
針對跟蹤過程中背景模糊、低像素等問題,提出多特征融合方案。針對目標(biāo)受到較長時間遮擋的問題,提出一種模板庫策略,即用多模板替代原有的單一模板。針對目標(biāo)尺度發(fā)生變化的問題,提出一種自適應(yīng)尺度變化策略,讓目標(biāo)框尺寸隨目標(biāo)改變,可避免目標(biāo)識別出現(xiàn)誤差。
在跟蹤器中,將各種簡單而有效的特征融合進(jìn)濾波器,可以有效地提高濾波器的判別能力。通過大量特征因子的調(diào)研,最終選定漸變直方圖特征(HOG)、顏色特征(color-naming)和色度飽和度亮度特征(HIS)。利用顏色特征對目標(biāo)快速形變的不敏感特性、漸變直方圖特征對光照變化不敏感的特性以及色度飽和度亮度特征對顏色信息的補(bǔ)充[11],各類特征優(yōu)勢互補(bǔ),提升跟蹤器的精度。
漸變直方圖是視覺組合中最受歡迎的視覺功能之一,它從圖像中提取31維梯度信息來確定特征。顏色特征越來越廣泛應(yīng)用在目標(biāo)檢測領(lǐng)域,它采用11維的顏色向量。色度飽和度能進(jìn)一步豐富顏色的表征。將三種特征線性組合,提高算法的魯棒性。首先構(gòu)造一個得分函數(shù)f(x)。f(x)是特征圖像?x在通道上的線性函數(shù)。
f(x)=γhogfhog(x)+γcolorfcolor(x)
(7)
直方圖分?jǐn)?shù)是從特征圖像φx計(jì)算得到,并定義在一個有限網(wǎng)絡(luò)上:
fhog(x,β)=g(φx,β)
(8)
直方圖特征在空間排列是不會發(fā)生變化的,所以可采用平均特征像素的線性函數(shù)。
(9)
或者是圖像的得分平均值ζ(β,φ)[u]=βTφ[u]

(10)
顏色分?jǐn)?shù)fcolor(x,h)是從特征圖像?x計(jì)算得到,并定義在另一個有限網(wǎng)絡(luò)上。?x是特征圖像,h[u]是模板函數(shù)。
(11)
系數(shù)γhog和γcolor分別代表HOG特征和顏色特征的權(quán)重,隱含在h和β中。本節(jié)采用訓(xùn)練損失函數(shù)的方法尋找最優(yōu)參數(shù),假設(shè)融合后的結(jié)構(gòu)參數(shù)為θ=(h,β),每幀圖片損失的線性加權(quán)值是L(θ;XT)。
(12)
理想情況下,上式可寫成:

(13)
表示通過結(jié)構(gòu)化的學(xué)習(xí)優(yōu)化目標(biāo)約束,樣本采用核相關(guān)濾波器中具有循環(huán)移位特征的樣本。學(xué)習(xí)模型采用嶺回歸方法可得:
(14)
(15)
令λcolor=1-a,λhog=a,采用得分函數(shù)的凸組合來獲得參數(shù)h和β。其中a是訓(xùn)練集中選用的參數(shù),可根據(jù)實(shí)際情況測試得到,本實(shí)驗(yàn)中a=0.5。
多特征融合后,在提高準(zhǔn)確率的同時,也會加大特征維度,影響跟蹤速度,為此考慮加入主成分分析方法[12]。主成分分析可以對高維特征向量降維,去除冗余部分,加快濾波器的訓(xùn)練速度,并且保留其中主要特征。
此外,核相關(guān)濾波算法采用的是單一模板。單一模板無法應(yīng)對目標(biāo)物體非剛性變形的復(fù)雜場景,因此提出構(gòu)造模板庫。模板庫的構(gòu)造機(jī)制是通過采集跟蹤過程中目標(biāo)不同姿態(tài)構(gòu)造樣本模板庫,用多模板庫替代原有的單一模板,并及時更新模板庫。
在視頻訓(xùn)練的第一幀,給定跟蹤目標(biāo)作為模板,后續(xù)幀采集的圖像不斷與原有模板進(jìn)行對比,可得到評價分?jǐn)?shù)。
(16)
其中,Ci表示前i幀時的模板庫,xt表示t幀檢測的目標(biāo)結(jié)果,f表示t幀檢測結(jié)果與模板庫匹配的評價函數(shù),scoret表示一個視頻訓(xùn)練集的平均評價分?jǐn)?shù)。當(dāng)scoret大于一個設(shè)定的臨界τc時,認(rèn)定xt即是跟蹤目標(biāo)的描述,于是xt將會加入模板庫,該模板庫得到實(shí)時的更新。
假設(shè)xt和xt-1兩個相鄰幀都滿足條件,加入目標(biāo)模板庫,但是由于視頻具有連貫性,xt和xt-1可能非常相似,如果都允許加入目標(biāo)訓(xùn)練庫,造成模板庫的大量冗余。為此,需要挑選相鄰幀的相似姿態(tài)進(jìn)行融合,或挑選出姿態(tài)變化較大的樣本進(jìn)入模板庫。同時,為了避免給濾波器造成過大的負(fù)擔(dān),給模板庫T數(shù)量設(shè)置上限N。分兩類進(jìn)行討論,第一種,當(dāng)模板數(shù)量i小于模板庫數(shù)量上限N時,模板庫仍有剩余空間,用式(17)進(jìn)行判斷,符合條件的樣本繼續(xù)加入模板庫。

(17)

另一種情況,當(dāng)模板數(shù)量i等于模板庫數(shù)量上限N時,模板庫已滿。此情況下,不再新加模板,只對模板庫已有模板不斷融合,提高模板庫質(zhì)量。式(18)將符合條件的樣本xt與模板庫中最相似模板進(jìn)行融合。
(18)
式(18)第一行表示在模板庫中選出與樣本xt相似度最高的模板k'。第二行表示對模板庫中k'和樣本xt進(jìn)行融合,將融合后的結(jié)果Tk'替代原有模板k',進(jìn)而更新模板庫。因此,模板庫機(jī)制在遇到連續(xù)遮擋類問題時,為避免目標(biāo)模板庫錯誤,則停止更新。構(gòu)建模板庫可以有效地識別不同姿勢下的目標(biāo)對象,提升跟蹤算法的魯棒性。
圖1中可以看出傳統(tǒng)核相關(guān)濾波算法并沒有應(yīng)對目標(biāo)物體尺度變化的機(jī)制。當(dāng)物體的外觀發(fā)生尺度變化時,跟隨器的識別框依舊保持初始幀標(biāo)定的大小,未能隨著目標(biāo)尺度的變化而變化。在圖1(a)中,汽車由遠(yuǎn)及近,汽車與攝像頭的距離越來越近,汽車外觀尺度越來越大,直到視頻訓(xùn)練集的后期,跟隨器的識別框無法再獲取目標(biāo)的全部圖像信息,給濾波器的模板庫帶來誤差。與之相反,在圖1(b)中,女子在商場中由近及遠(yuǎn),女子和攝像頭的距離越來越遠(yuǎn),女子外觀尺度越來越小,視頻訓(xùn)練集的后期,跟隨器的識別框無法再獲取目標(biāo)的圖像信息,造成目標(biāo)漂移。通過上面的實(shí)驗(yàn)可以看出,需要提出一種自適應(yīng)尺度變化,來滿足現(xiàn)實(shí)情況中目標(biāo)尺度變化的挑戰(zhàn)。

圖1 傳統(tǒng)核相關(guān)濾波算法跟隨尺度變化場景
本節(jié)采用一個簡單有效的特征金字塔方法。第一步,對目標(biāo)位置中心M×N區(qū)域內(nèi)做多尺度采樣,提取anM×anN的圖像塊當(dāng)做訓(xùn)練樣本,其中n為特征金字塔層數(shù),a為尺度因子,保證訓(xùn)練樣本的尺寸。第二步,將所有的樣本調(diào)整到相同的大小構(gòu)造特征金字塔。設(shè)定特征金字塔的層數(shù)為s,則ft(s)表示特征金字塔第s層訓(xùn)練樣本的特征向量。在特征圖像中,目標(biāo)所在區(qū)域?yàn)閒,提取f1,f2,…,ft作為訓(xùn)練樣本,每一層都有d維的特征向量。當(dāng)構(gòu)造好特征金字塔后,選用基于核相關(guān)濾波器的最小化分類誤差準(zhǔn)則,通過最小化代價函數(shù)訓(xùn)練尺度濾波器。

其中,hl為尺度濾波器的第l層通道;g為尺度濾波器的期望輸出;fl為第l層通道訓(xùn)練樣本;?為空間中循環(huán)樣本的元素相乘;f,g和h都是d維M×N大小的矩陣;λ是正則化參數(shù),防止過擬合。
將式(19)轉(zhuǎn)換頻域,通過離散傅里葉變化可得:

(20)

計(jì)算尺度濾波器和候選圖像塊特征金字塔的相關(guān)響應(yīng)公式為:
(21)

求取最大響應(yīng)結(jié)果y就是目標(biāo)位置s:
s=max(F-1(Yt))
(22)
由于對每個像素求解d×d線性方程組,計(jì)算量太大,無法應(yīng)用于在線學(xué)習(xí)的跟蹤器,所以此處給予近似,對式(20)的分子分母分別更新。

(23)
(24)
其中,η是尺度濾波器的學(xué)習(xí)速率。
在跟蹤過程中,如果出現(xiàn)目標(biāo)出視野范圍,或者長時間目標(biāo)被障礙物遮擋(目標(biāo)長時間失蹤)的問題,模板會出現(xiàn)更新錯誤。再或者,當(dāng)跟蹤器出現(xiàn)漂移時,不正確的目標(biāo)會對濾波模板進(jìn)行錯誤修正,從而引起濾波模板的精確度越來越低,并最終造成跟蹤失敗。因此,需要對模板更新進(jìn)一步設(shè)置條件,來防止模板過擬合。
由于傳統(tǒng)核相關(guān)濾波算法的訓(xùn)練樣本是通過循環(huán)移位構(gòu)造而來,循環(huán)移位構(gòu)造的負(fù)樣本和正樣本具有相同的地位,并且樣本只有剛性變化。在面對環(huán)境目標(biāo)旋轉(zhuǎn)等挑戰(zhàn)時,核相關(guān)濾波器的判別能力明顯不足。此外,核相關(guān)濾波器沒有充分運(yùn)用目標(biāo)的背景下信息,減少了對背景感知能力。在面對環(huán)境背景復(fù)雜等挑戰(zhàn)時,核相關(guān)濾波器容易漂移。所以,本節(jié)在第2節(jié)的基礎(chǔ)上進(jìn)一步改進(jìn),提出基于聯(lián)合判別式的背景感知與干擾判別機(jī)制。以目標(biāo)對象的相近區(qū)域?yàn)檎龢颖荆阅繕?biāo)的背景區(qū)域?yàn)樨?fù)樣本,分別開展訓(xùn)練,使濾波器具有更強(qiáng)的判別能力,此外,根據(jù)響應(yīng)圖實(shí)時判斷遮擋系數(shù),自適應(yīng)更新模型,以適應(yīng)運(yùn)動模糊、背景模糊,遮擋等干擾。
算法以目標(biāo)為中點(diǎn)并聯(lián)合目標(biāo)周圍一定區(qū)域內(nèi)的上下文信息共同建立模型,當(dāng)跟蹤過程中目標(biāo)受到遮擋時,可以通過構(gòu)建的上下文信息模型中參照物的位置信息找到目標(biāo)中心位置。利用目標(biāo)周圍背景的相關(guān)區(qū)域在時間軸上相鄰幀間的相關(guān)性,通過在圖像低階特征上進(jìn)行建模,來計(jì)算最大似然概率,其中概率最大值即為預(yù)測的目標(biāo)位置。所以跟蹤問題就可以等效為通過計(jì)算置信圖中最大似然概率c(x)。目標(biāo)置信圖函數(shù)為:
c(x)=P(x|y)
(25)
其中,x是目標(biāo)所在位置,y是跟蹤區(qū)域,c(x)是最大值作為目標(biāo)所在的位置。
以目標(biāo)所在中心提取附近上下文背景信息:
Xc=v(c)=(I(z),z)|z∈Sc(x*)
(26)
其中,x*是目標(biāo)所在位置x的中心,Sc(x*)是x*的附件上下文背景信息,I(z)是灰度值。
目標(biāo)置信度函數(shù)可表達(dá)成條件概率形式:

(27)
其中,P(x|v(z),y)表示在跟蹤區(qū)域中存在目標(biāo)的概率值,P(v(z)|y)表示上下文背景信息先驗(yàn)概率模型,表達(dá)式為:
P(v(z)|y)=I(z)wσ(z-x*)
(28)
wσ是高斯加權(quán)函數(shù):

(29)
其中,σ是x的方差,a為修正系數(shù)。
進(jìn)一步可以表示為:

(30)
為了將概率模型的結(jié)果規(guī)范化,上式引入規(guī)則化常數(shù),由此可建立背景感知模型。
將目標(biāo)圖像作為正樣本,目標(biāo)周圍采集的一系列圖像是負(fù)樣本:
(31)
其中,正樣本是f(x0),負(fù)樣本是f(xi),背景樣本數(shù)量是k,濾波器參數(shù)是w。由于背景樣本標(biāo)簽值是0,回歸目標(biāo)是y,合并化簡后可得:
(32)

(33)
式(31)是關(guān)于(wy')的凸函數(shù),求解式最小值,可令一階導(dǎo)數(shù)為0得:
(34)
其中,A是循環(huán)矩陣,可表示為如下形式:

(36)
(37)
上下文背景感知可以增強(qiáng)濾波器模型的判別能力,抑制背景響應(yīng)值,降低噪聲干擾。


(38)
仿真實(shí)驗(yàn)部分用公開數(shù)據(jù)集OTB(object tracking benchmark)[8]。OTB主要的評估方式:一次通過的評估(one-pass evaluation,OPE)。采用精確度和成功率兩個標(biāo)量來評價跟蹤算法性能。精確度采用中心位置誤差進(jìn)行評估,中心位置誤差指算法跟蹤到的目標(biāo)中心位置與實(shí)際目標(biāo)中心位置之間的平均歐氏距離。目標(biāo)跟蹤精確度是跟蹤過程每一幀中心位置誤差小于指定閾值的幀數(shù)占總幀數(shù)百分比的平均值。通常情況下,閾值設(shè)定為20像素。成功率是通過重疊率來評估,重疊率是指跟蹤器預(yù)測的目標(biāo)框與真實(shí)框的重疊面積與兩個目標(biāo)框的面積比。
通過OTB-50實(shí)驗(yàn)定量分析Ours算法,并與四種流行跟蹤算法fDSST[13]、Staple[14]、CSK[15]、KCF[7]相比較,如圖2所示。由OTB-100中的測試結(jié)果可以看出,Ours在精確率和成功率上都排名第一,平均準(zhǔn)確性達(dá)到了81.6%,相比于KCF提高了16.1%,平均成功率達(dá)到了79.5%,相比于KCF提高了38.5%。本節(jié)實(shí)驗(yàn)從定量的角度與其他四種算法進(jìn)行比較,可以看出跟蹤效果明顯提升。

(a)準(zhǔn)確率曲線

(b)成功率曲線圖2 OPE跟蹤性能對比曲線
在對核相關(guān)濾波的目標(biāo)跟蹤算法原理剖析的基礎(chǔ)上,針對算法中存在的各類不足進(jìn)行改進(jìn),進(jìn)而提高目標(biāo)跟蹤算法在復(fù)雜條件下的準(zhǔn)確性和實(shí)時性,同時也為機(jī)器視覺的發(fā)展做出積極貢獻(xiàn)。