李厚彪,樊慶宇,耿廣磊
(電子科技大學(xué)數(shù)學(xué)科學(xué)學(xué)院 成都 611731)
目標(biāo)追蹤在計(jì)算機(jī)視覺領(lǐng)域占據(jù)著重要的地位。目標(biāo)追蹤的主要任務(wù)包括:感興趣運(yùn)動(dòng)目標(biāo)的檢測(cè)、視頻幀到幀之間的連續(xù)追蹤和追蹤目標(biāo)的行為分析等[1-2]。
當(dāng)前目標(biāo)追蹤所面臨的一些挑戰(zhàn)主要包括光照變化、背景混雜、部分遮擋、完全遮擋以及它們的混合。為了解決這些問題,各種不同的追蹤算法相繼被提出來,如在線學(xué)習(xí)方法(online learning)和基于稀疏表示(sparse representation)的追蹤算法。在線學(xué)習(xí)方法大致又可分為:生成方法(generative approaches, GA)和判別方法(discriminative approaches, DA)。GA是一種搜索與追蹤目標(biāo)最相似的區(qū)域方法,如文獻(xiàn)[3]使用積分直方圖的健壯片段跟蹤,減弱了部分遮擋和姿勢(shì)變化等因素對(duì)追蹤效果的影響,有效降低了計(jì)算代價(jià);另外,為更好地實(shí)現(xiàn)魯棒性追蹤,基于增量學(xué)習(xí)的目標(biāo)追蹤算法[4]和基于核的目標(biāo)追蹤算法[5]相繼被提出來。盡管生成方法在一定程度上能實(shí)現(xiàn)追蹤,但是不能有效解決長(zhǎng)時(shí)間部分遮擋、完全遮擋、目標(biāo)外形劇烈變化等追蹤問題。DA可看作是一種二分類問題,主要利用已知的訓(xùn)練樣本訓(xùn)練出一個(gè)分類器,用于判別目標(biāo)和背景。文獻(xiàn)[6]提出在線多實(shí)例學(xué)習(xí)的目標(biāo)追蹤算法,該方法不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)方法,主要區(qū)別為用于訓(xùn)練時(shí)的陽(yáng)性樣本(positive sample)數(shù)量大于陰性樣本(negative sample)數(shù)量;文獻(xiàn)[7]提出超像素追蹤方法,該法使用超像素特征的結(jié)構(gòu)信息能更好判別目標(biāo)和背景,在一定程度上適應(yīng)姿勢(shì)改變、運(yùn)動(dòng)模糊及短時(shí)間的部分遮擋等情況,但該方法的計(jì)算代價(jià)較高且只用了簡(jiǎn)單的HIS顏色特征并未考慮更好的顏色特征;文獻(xiàn)[8]提出基于核空間的稠密采樣追蹤算法,使用循環(huán)矩陣和快速傅里葉變換在核空間里實(shí)現(xiàn)了快速學(xué)習(xí),大大提高了追蹤系統(tǒng)的實(shí)時(shí)性。
文獻(xiàn)[9]提出稀疏表示在人臉識(shí)別中的應(yīng)用(sparse representation based classification, SRC),對(duì)噪聲污染和人臉部分遮擋獲得較好的識(shí)別率,相比之前提出的SVM、KNN、PCA和LDA等線性分類器,不僅表現(xiàn)出更優(yōu)的識(shí)別效果,且有更強(qiáng)的抗干擾能力。受其啟發(fā),文獻(xiàn)[10]提出稀疏表示在目標(biāo)追蹤方面的應(yīng)用,此后不斷得到發(fā)展,如稀疏表示追蹤[10-15](L1Tracker)、聯(lián)合表示追蹤[16](L2Tracker)、同時(shí)稀疏表示追蹤[17](Lp,qTracker)、核稀疏表示追蹤[18-19](KSR Tracker)和混合稀疏表示追蹤[20-21]等。
本文提出了同時(shí)稀疏表示的自適應(yīng)追蹤算法,該算法采用子空間學(xué)習(xí)(subspace learning)和無(wú)監(jiān)督學(xué)習(xí)(K-means)相結(jié)合的模板更新方法, 避免了模板更新太快而引入較大的誤差;另外算法使用同時(shí)稀疏表示來刻畫粒子之間的關(guān)系,克服了傳統(tǒng)稀疏表示假設(shè)粒子之間是相互獨(dú)立的缺陷;最后根據(jù)噪聲(如遮擋,光照變化等)能量的大小自適應(yīng)的選擇模型。大量的實(shí)驗(yàn)結(jié)果表明該算法可實(shí)現(xiàn)魯棒性追蹤。
目前,粒子濾波方法已被成功應(yīng)用到目標(biāo)追蹤中:若追蹤過程中第(t-1)幀的追蹤目標(biāo)狀態(tài)為粒子則第t幀的追蹤目標(biāo)可能的狀態(tài)記為且第t幀的觀測(cè)為其中yt為第t幀的觀測(cè)值。稀疏表示追蹤給出了的具體形式,并根據(jù)最小重構(gòu)誤差得到目標(biāo)的追蹤結(jié)果yt。

式中,e表示高斯噪聲;I表示瑣碎模板。文獻(xiàn)[15,22]提出的稀疏表示追蹤模型為:

式中,D=[T,I]表示追蹤模板;x=[z,e]T;λ表示正則參數(shù),用來平衡保真項(xiàng)和正則項(xiàng)。若考慮粒子之間的關(guān)系,則可給出稀疏追蹤模型[17]:

盡管上述模型在一定程度上解決了部分遮擋、光照變化、姿勢(shì)改變和背景混雜等影響,但太過簡(jiǎn)單地考慮噪聲的分布情況,因此面對(duì)一些復(fù)雜的噪聲分布情況可能會(huì)出現(xiàn)跟蹤失敗。為此下面假設(shè)噪聲服從高斯拉普拉斯分布,即:

式中,S表示拉普拉斯噪聲;E表示高斯噪聲。給出同時(shí)稀疏追蹤模型:

式中,X=[Z,E]T。但對(duì)于一個(gè)給定的視頻序列,目標(biāo)并不總處于被污染狀態(tài),設(shè)已追蹤到目標(biāo)對(duì)應(yīng)的拉普拉斯噪聲為St(表示S的第t列),因此可給出自適應(yīng)的同時(shí)稀疏追蹤模型為:


式中,τ為給定噪聲能量的閾值;1λ和2λ為模型的正則參數(shù),分別用來控制表示系數(shù)X的稀疏程度以及噪聲S的能量大小。
模型求解:式(6)和式(7)的目標(biāo)函數(shù)是一個(gè)凸優(yōu)化。使用交替方向乘子方法(alternating direction method multipliers, ADMM)求解優(yōu)化問題(7)如下:
首先,將約束問題變?yōu)闊o(wú)約束問題:


式中,V1,V2,V3為對(duì)偶變量,式(9)進(jìn)一步優(yōu)化為:

式(10)的增廣拉格朗日函數(shù)為:

式中,β表示拉格朗日乘子;式(11)可分解為3個(gè)子優(yōu)化問題:

因此根據(jù)極值原理,只需要對(duì)上述子問題求一階導(dǎo)數(shù),可獲得式(11)的最優(yōu)解:

同理,對(duì)于式(6)得到以下解:

這樣通過對(duì)子問題的分析與求解,獲得了式(6)和式(7)解的一般形式,數(shù)值求解見算法1和2。
算法1:?jiǎn)栴}(6)的ADMM求解算法
初始化:k=0,X(0),Y,正則參數(shù)λ1,λ2,對(duì)偶變量拉格朗日乘子收斂誤差ε,懲罰因子β。

輸出:最優(yōu)解(k+1)X
算法2:?jiǎn)栴}(7)的ADMM求解算法
初始化:k=0,X(0),S(0),Y,正則參數(shù)λ1,λ2,對(duì)偶變量拉格朗日乘子收斂誤差ε,懲罰因子β。

輸出:最優(yōu)解X(k+1),S(k+1)
模板更新的好壞直接影響追蹤的性能。在稀疏追蹤模型中提出了用目標(biāo)模板和瑣碎模板相結(jié)合的模板更新方法,對(duì)于每一個(gè)追蹤的目標(biāo)y,如果y與模板的相似性很高,則不更新,否則將y引入模板中并剔除模板中權(quán)重較小的向量。引入瑣碎模板是為了更好地解決目標(biāo)遮擋問題,這種模板更新方法雖然在一定程度上可以減弱跟蹤漂移現(xiàn)象,但是模板維數(shù)較高,提高了模型的計(jì)算代價(jià),從而降低了追蹤系統(tǒng)的實(shí)時(shí)性。下面用子空間學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的模板更新方法來降低模板的維數(shù),并且能避免模板更新過快而引入較大的誤差。
若給定當(dāng)前模板T,已追蹤到的目標(biāo)y以及噪聲能量相似度τ,則拉普拉斯噪聲S=Y-TZ-E。如果則對(duì)模板T進(jìn)行更新:首先分別對(duì)T和y進(jìn)行奇異值分解:

進(jìn)一步給出τ的等價(jià)定義,令c=mean(T),則:

式中,τ等價(jià)為目標(biāo)與模板均值的反余弦,即余弦夾角。文獻(xiàn)[4]提出增量子空間學(xué)習(xí)追蹤算法,同理可使用奇異向量u,s,v去增量更新U,S,V,從而得到新的奇異向量U*,S*,V*。新的模板可表示為:

考慮模板的維數(shù)較大,給定初始類個(gè)數(shù)為k,使用無(wú)監(jiān)督學(xué)習(xí)K-means方法訓(xùn)練模板:

式中,i表示第i個(gè)樣本;當(dāng)Ti*屬于類k時(shí),rik=1,否則rik=0;uk為所有屬于類k的樣本的平均值。因此新的模板變?yōu)門new=[u1,u2,…,uk]。
本文提出的模板更新不同于傳統(tǒng)的模板更新,它強(qiáng)調(diào)選擇對(duì)目標(biāo)追蹤具有重要貢獻(xiàn)的模板,而避免使用瑣碎模板,并通過K-means算法對(duì)模板進(jìn)行無(wú)監(jiān)督訓(xùn)練,大大剔除了模板的冗余信息,從而提高了追蹤的實(shí)時(shí)性。
在目標(biāo)追蹤過程中,假設(shè)第(t-1)幀的目標(biāo)狀態(tài)為qt-1,第t幀的所有觀測(cè)為Yt。目標(biāo)狀態(tài)更新和觀測(cè)更新可以表示為:

式中,狀態(tài)qt由6個(gè)仿射參數(shù)決定且彼此之間相互獨(dú)立,即qt=[tx,ty,θ,ε,μ,ρ],θ、ε、μ、ρ分別表示旋轉(zhuǎn)角度、規(guī)模大小、長(zhǎng)寬比和傾斜度;[tx,ty]表示二維旋轉(zhuǎn)參數(shù);wt表示第t幀的粒子權(quán)重;表示第t幀的目標(biāo)狀態(tài),可以由服從均值為qt-1、方差為δ2的高斯分布函數(shù)決定;而p(Yt|qt)可由同時(shí)稀疏L(p,q)的最小重構(gòu)誤差得到:

在實(shí)際中wt通過粒子濾波算法自適應(yīng)更新得到,細(xì)節(jié)見文獻(xiàn)[15];方差δ=0.05,仿射參數(shù)由仿射矩陣逆變換得到。對(duì)應(yīng)的自適應(yīng)同時(shí)追蹤算法,見算法3。
算法3:自適應(yīng)同時(shí)稀疏追蹤算法
輸入:第t幀所有侯選粒子初始追蹤目標(biāo)模板Dt、最大迭代次數(shù)Loop、收斂誤差tol、余弦夾角閾值α、正則參數(shù)λ1,λ2。
1)根據(jù)式(13)計(jì)算追蹤目標(biāo)yt與模板均值的相似性,記為sim
2)判斷sim與α的大小,并自適應(yīng)地選擇模型進(jìn)行追蹤
3)IF sim<α
4)選擇算法1進(jìn)行求解并獲得稀疏系數(shù)矩陣X
5)ELSE sim≥α
6)選擇算法2求解得到稀疏系數(shù)X和噪聲S
7)根據(jù)式(12),式(14)~式(15)自適應(yīng)更新模板
下面通過數(shù)值試驗(yàn)把本文提出的算法與其他5種具有很好追蹤性能的算法進(jìn)行比較,這5種追蹤算法分別為核技巧的循環(huán)矩陣追蹤(circulant structure of kernels, CSK)[8]、加速梯度追蹤(accelerated proximal gradient, L1APG)[14]、多任務(wù)追蹤(multi-task tracking, MTT)[17]、稀疏原型追蹤(sparse prototype tracking, SPT)[23]以及稀疏聯(lián)合追蹤(sparse collaborative method, SCM)[21]。所有的實(shí)驗(yàn)均基于Matlab 2012a,計(jì)算機(jī)內(nèi)存為2 GB,CPU為Intel(R)Core(TM)i3。實(shí)驗(yàn)數(shù)據(jù)來源于文獻(xiàn)[20]。
本次實(shí)驗(yàn)選擇了14種不同的具有追蹤挑戰(zhàn)性的視頻,其中包括遮擋、光照變化、背景混雜、姿勢(shì)改變、低分辨率和快速運(yùn)動(dòng)等影響追蹤結(jié)果的因素,如表1所示。其中OV表示目標(biāo)丟失,BC表示背景混雜,OCC表示完全遮擋,OCP表示部分遮擋,OPR表示旋轉(zhuǎn)出平面,LR表示低分辨率,F(xiàn)M表示快速運(yùn)動(dòng),SV表示大小變化。
在實(shí)驗(yàn)中參數(shù)設(shè)置如下: 正則參數(shù)λ1=0.1,λ2=0.1,懲罰因子β=0.1,余弦角度閾值αmin=20,αmax=35,模板最大基向量個(gè)數(shù)為15,粒子采樣數(shù)為600,圖像塊的大小為25×25,實(shí)驗(yàn)最大迭代次數(shù)Loop=20。參數(shù)1λ,2λ均通過交叉驗(yàn)證方法得到,且2λ參數(shù)的調(diào)節(jié)滿足如下規(guī)則,若噪聲S的能量較大(即目標(biāo)遭受較大的遮擋、外形變化或光照變化),此時(shí)2λ的值應(yīng)該較小,反之則較大。

表1 各種不同具有挑戰(zhàn)性的追蹤視頻
本文實(shí)驗(yàn)采用的評(píng)價(jià)方法有3種,且每種評(píng)價(jià)方法都能在一定程度上解釋追蹤性能的好壞,分別為局部中心誤差(center local error)、重疊率(overlap ratio)、曲線下的面積(area under curve, AUC)。
給定幀的真實(shí)目標(biāo)框Rg(ground truth)和追蹤目標(biāo)框Rt(tracked target bounding),設(shè)它們的中心位置分別為:pg=(xg,yg)和pt=(xt,yt),則局部中心誤差為重疊率為:

式中,area(?)表示在該區(qū)域的所有像素;AUC每一點(diǎn)的值表示重疊率大于給定閾值η時(shí)該視頻追蹤的成功率。特別地設(shè)定η=0.5,當(dāng)重疊率OR>0.5時(shí)則認(rèn)為該幀追蹤成功。相關(guān)追蹤結(jié)果如表2~4所示,表2中AOR表示總的平均重疊率,表3中ACLE表示總的平均中心誤差,表4中ASR表示總的平均成功率,表中最好的兩個(gè)結(jié)果分別用紅色和藍(lán)色表示。各算法追蹤性能如圖1~3所示,圖1中平均重疊率越大表示追蹤性能越好,圖2中平均中心誤差越小表示追蹤性能越好,圖3中曲線與x軸圍成的面積越大表示追蹤性能越好。

表2 基于平均重疊率的各種不同算法性能的對(duì)比

(續(xù)表)

表3 基于平均局部中心誤差的各種不同算法性能的對(duì)比

表4 基于平均成功率的各種不同算法性能的對(duì)比


圖1 各種不同追蹤算法的平均重疊率


圖2 各種不同追蹤算法的平均中心誤差


圖3 各種不同追蹤算法的AUC曲線
為了方便描述,將本文提出的追蹤算法簡(jiǎn)記為ASSAT算法(adaptive simultaneous sparse representation appearance tracking algorithm)。
1)背景混雜和快速運(yùn)動(dòng)情形:圖4分別給出了快速運(yùn)動(dòng)和背景混雜的追蹤效果,視頻Deer包含快速運(yùn)動(dòng)因素。從Singer2可看到大部分算法都無(wú)法有效追蹤到結(jié)果,在幀240時(shí),有很多算法的追蹤框偏離目標(biāo),漂移現(xiàn)象很嚴(yán)重,如SCM,CSK,MTT,L1APG,SPT等,只有ASSAT算法可以有效追蹤到目標(biāo)。在幀366時(shí)(視頻結(jié)束)本文提出的依然可以有效追蹤到目標(biāo),大大減弱了追蹤漂移現(xiàn)象。在視頻SUV中,開始時(shí)所有追蹤算法均能有效追蹤到目標(biāo),在幀560時(shí),只有SCM, CSK和ASSAT算法可以追蹤到目標(biāo),在第945幀時(shí)只有ASSAT可以有效追蹤到目標(biāo)。對(duì)于視頻Deer而言,可以看到除了MTT算法大部分算法均能有效追蹤到目標(biāo),另外可以看到SCM算法不太穩(wěn)定,因在幀40時(shí)SCM算法偏離了追蹤目標(biāo),出現(xiàn)跟蹤漂移現(xiàn)象。ASSAT算法可以有效追蹤背景混雜的視頻序列是因?yàn)槠洳捎昧送瑫r(shí)稀疏表示方法,該方法通過模板基的選擇來刻畫粒子之間的關(guān)系,對(duì)噪聲污染較大的粒子給與了較低的稀疏權(quán)重,因此具有很強(qiáng)的噪聲抗干擾性。

圖4 基于快速運(yùn)動(dòng)和背景混雜視頻下的追蹤效果
2)姿勢(shì)改變和光照變化情形:圖5和圖6分別給出了姿勢(shì)改變和光照變化的追蹤效果。從圖5中的Deduk視頻可以看出所有的追蹤算法都能有效追蹤到目標(biāo)(人臉),但是ASSAT可以更加準(zhǔn)確地追蹤到人臉目標(biāo),而對(duì)于Skater2視頻,大部分算法都無(wú)法準(zhǔn)確跟蹤到目標(biāo),因?yàn)槟繕?biāo)姿勢(shì)改變的太過頻繁且改變的幅度較大,在第90幀時(shí)只有LIAPG, CSK和ASSAT算法可較為準(zhǔn)確的追蹤的目標(biāo),但在幀435時(shí)只有ASSAT和CSK能夠追蹤到目標(biāo),盡管追蹤的不太精確。圖6可以看到幾乎所有算法都可以對(duì)光照變化產(chǎn)生一定的抗干擾性,除了LIAPG和CSK算法有一些不太穩(wěn)定。因此對(duì)于姿勢(shì)改變不大的情況ASSAT算法還是可以有效的追蹤到目標(biāo)。


圖5 基于姿勢(shì)改變和旋轉(zhuǎn)視頻下的追蹤效果

圖6 基于光照變化視頻下的追蹤效果
3)目標(biāo)遮擋情形:圖7展示了目標(biāo)遮擋對(duì)跟蹤性能的影響,在Girl視頻序列中可看到在幀458和幀500時(shí),大部分算法都出現(xiàn)了跟蹤漂移現(xiàn)象,不能有效追蹤到目標(biāo),除了ASSAT,LIAPG和MTT算法,從Subway也可看到在幀41時(shí),只有SCM, L1APG和ASSAT算法可有效追蹤到目標(biāo),而在幀175時(shí),除了SCM和ASSAT算法其他算法都出現(xiàn)了很大的跟蹤漂移。通過比較可看出ASSAT算法能更好的解決目標(biāo)遮擋問題,這是因?yàn)樵撍惴紤]了遮擋對(duì)追蹤的影響,它就像一個(gè)濾波器在追蹤之前對(duì)噪聲進(jìn)行了有效剔除,去除了可能對(duì)追蹤效果產(chǎn)生影響的不穩(wěn)定的因素(遮擋、光照變化、背景混雜和姿勢(shì)改變等)。

圖7 基于目標(biāo)遮擋視頻下的追蹤效果
下面詳細(xì)介紹模型中提到的拉普拉斯噪聲和模板更新準(zhǔn)則對(duì)追蹤效果的具體影響。
傳統(tǒng)的模板更新方法是直接通過追蹤目標(biāo)與模板的相似度進(jìn)行更新,若相似度大于給定的閾值,則認(rèn)為目標(biāo)遭遇了較大的噪聲污染,因此需要將追蹤目標(biāo)替代原始權(quán)值較小的模板向量,這樣替換其實(shí)是比較粗糙的,因?yàn)橐肓溯^大的噪聲誤差,這樣就給下一幀目標(biāo)的追蹤造成了很多不確定性,而本文提出的新的模板更新方法則削弱了噪聲影響。具體表現(xiàn)如下:
1)新的模板更新方法有效權(quán)衡原始模板向量和新的追蹤目標(biāo)之間的權(quán)重,通過遺忘因子實(shí)現(xiàn)模板更新(具體見文獻(xiàn)[4]);
2)新的模板更新方法引入了K-means方法,可以有效地降低冗余模板向量,提高追蹤的實(shí)時(shí)性,通過式(18)可看到類中心的計(jì)算是通過加權(quán)平均得到的,因此也可有效地減弱噪聲。
下面給出具體實(shí)驗(yàn)分別比較模板更新和拉普拉斯對(duì)實(shí)驗(yàn)效果的影響。實(shí)驗(yàn)數(shù)據(jù)選擇序列Skater2,Dudek, SUV,Walking2,Subway,Deer等。

表5 比較拉普拉斯對(duì)實(shí)驗(yàn)結(jié)果的影響
從表5可以看出除了Walking2序列,加入拉普拉斯噪聲后其追蹤效果要優(yōu)于MTT算法。但是原始模板更新的方法限制了它的追蹤性能,而提出的新模板更新方法促進(jìn)了ASSAT算法的追蹤性能。

表6 比較模板更新對(duì)實(shí)驗(yàn)結(jié)果的影響
從表6中可以看出僅使用模板更新的ASSAT方法和IVT方法的追蹤效果差不多,對(duì)于Skater2,Subway序列兩種方法效果都不好,原因是這兩種序列含有較大的遮擋,對(duì)于僅考慮模板更新而沒有考慮拉普拉斯噪聲的ASSAT算法是無(wú)法有效追蹤到目標(biāo)的,IVT也是一樣。但兩者結(jié)合會(huì)取得更好的追蹤效果。事實(shí)上,對(duì)于這種含有較大遮擋的情況,若不考慮拉普拉斯噪聲,可歸結(jié)到噪聲因素影響了式(5)中解X的稀疏結(jié)構(gòu),如圖8所示。

圖8 拉普拉斯噪聲對(duì)解X的影響
圖8表示目標(biāo)在遮擋情況不同的情況下噪聲選擇對(duì)解的影響。圖8的第一行表示考慮拉普拉斯噪聲時(shí)所得到的解,可以看到解是稀疏的,此時(shí)解是最優(yōu)的;圖8的第二行表示未考慮拉普拉斯噪聲時(shí)所得到解,此時(shí)解是稠密的,非最優(yōu)解,因此保持解的稀疏結(jié)構(gòu)直接影響算法的追蹤性能。
為了提高追蹤系統(tǒng)的實(shí)時(shí)性,下面考慮自適應(yīng)Lp稀疏表示目標(biāo)追蹤算法,該算法與前面提出的算法一樣,也考慮了噪聲分布的影響,且模板更新采用在線增量學(xué)習(xí)與K-means相結(jié)合的模板更新方法,唯一不同的是,模型中認(rèn)為粒子之間的影響是相互獨(dú)立的,可以分別通過稀疏模型進(jìn)行求解,且使用了LASSO求解算法,根據(jù)粒子濾波框架理論和最大后驗(yàn)概率求出最優(yōu)追蹤結(jié)果。數(shù)值試驗(yàn)結(jié)果表明該算法相對(duì)于目前存在的較好的追蹤算法取得了更好的追蹤效果,表現(xiàn)為精確性更高、實(shí)時(shí)性更好。
假設(shè)噪聲分布服從高斯拉普拉斯分布:噪聲n服從高斯分布噪聲s服從拉普拉斯分布侯選目標(biāo)y可以寫成:

通常在噪聲污染較小的情況下,認(rèn)為侯選目標(biāo)y可由模板T的少量基的線性組合來表示,這就意味著求解系數(shù)x是稀疏的,因此稀疏表示模型變?yōu)椋?/p>

同前面分析一樣,令:

式中,τ是一個(gè)閾值,當(dāng)噪聲能量大于τ時(shí),此時(shí)需要考慮拉普拉斯噪聲的影響,反之則忽略拉普拉斯噪聲的影響。因此最終模型如下:

式(21)的求解可以采用交替迭代的方法,每一次迭代都使用一次LASSO算法,令:

式中,shrink是一個(gè)緊縮算子。
目標(biāo)狀態(tài)的更新和預(yù)測(cè)是目標(biāo)追蹤算法的核心問題。前面介紹了增量學(xué)習(xí)與K-means相結(jié)合的模板更新方法,本節(jié)提出的算法依然采用這種模板更新機(jī)制。類似的給出了自適應(yīng)Lp模型的追蹤算法4。
算法4:自適應(yīng)Lp模型追蹤算法
輸入:第t幀侯選粒子最大迭代次數(shù)Loop、收斂誤差tol、閾值區(qū)間[α,β]、正則參數(shù)λ1、λ2。
1)初始化i=0,j∈[1,m],拉普拉斯噪聲
2)根據(jù)式(13)計(jì)算追蹤目標(biāo)yt與模板均值的相似性,記為sim
3)迭代

4)迭代直到i>Loop 或者

6)通過式(12)~式(15)更新目標(biāo)模板T,并得到新模板T*
輸出:追蹤目標(biāo)yopt和新的模板T*
選取20種不同的視頻序列(http://cvlab. hanyang.ac.kr/trackerbenchmark/datasets.html),實(shí)驗(yàn)中模板基的個(gè)數(shù)設(shè)定為15,最大迭代次數(shù)和收斂誤差分別為L(zhǎng)oop=5,tol=0.001,閾值區(qū)間α=20,β=28。使用LASSO算法[24]求解L1模型,在默認(rèn)的情況下正則參數(shù)λ1=0.2,λ2=0.1,實(shí)際中通過交叉驗(yàn)證的方法可以設(shè)置參數(shù)λ2∈(0.000 5,0.5)。
將算法4和目前9種比較好的算法進(jìn)行比較,除了前面的CSK算法[8]、L1APG算法[14]、MTT算法[17]、SPT算法[23]和SCM算法[21]、再增加DFT算法[25]、ORIA算法[26]、IVT算法[4]、ASLSA算法[7]。
表7和表8給出了在20種不同情境下的定量數(shù)據(jù)展示。表7中AOR表示平均重疊得分,F(xiàn)ps表示每秒追蹤的幀數(shù),F(xiàn)ps越大表示追蹤的越快即說明該算法的實(shí)時(shí)性越好。本文提出的算法AOR=0.74和ACLE=6.5是最好的,而Fps=9.53排名第三,這表明算法4在保證追蹤精度的同時(shí)實(shí)時(shí)性也較好。

表7 10種追蹤算法的追蹤性能的定量分析表

表8 10種追蹤算法的ACLE比較

(續(xù)表)
圖9展示了目標(biāo)遭受快速運(yùn)動(dòng)、尺度變化和姿勢(shì)旋轉(zhuǎn)等噪聲影響的追蹤實(shí)驗(yàn)結(jié)果。對(duì)于視頻Football,很明顯本文算法可成功追蹤到目標(biāo),其他算法都丟失了目標(biāo)(見幀318和幀362);對(duì)于視頻Skater2,大部分算法都不能準(zhǔn)確追蹤到目標(biāo),在幀10時(shí),每一種追蹤算法都可以捕捉到目標(biāo),但在幀200時(shí),因?yàn)槟繕?biāo)形態(tài)改變太多,此時(shí)已經(jīng)沒有算法可以準(zhǔn)確捕捉到目標(biāo)了,在幀435時(shí),只有本文的算法、CSK和ASLSA算法可以捕捉到目標(biāo)的一部分;對(duì)于視頻Deer和Surfer,可很清楚地看到本文的算法,SCM, SPT, ASLSA和L1APG算法可有效捕捉到目標(biāo)。其原因歸結(jié)于本文的算法綜合考慮了噪聲的影響,且將噪聲部分進(jìn)行很好地剔除,使得目標(biāo)可以被模板稀疏表示,因而追蹤成功。
在實(shí)驗(yàn)中所有的參數(shù)都通過交叉驗(yàn)證的方法得到,在追蹤過程中參數(shù)λ1不靈敏,一般可據(jù)經(jīng)驗(yàn)設(shè)置在區(qū)間0.05~0.5,本文設(shè)置為0.1。難點(diǎn)是參數(shù)λ2的調(diào)整,因參數(shù)λ2直接影響拉普拉斯噪聲能量的大小,一般相對(duì)來說,λ2越大拉普拉斯噪聲能量越小。本文只給出了參數(shù)λ2的經(jīng)驗(yàn)調(diào)整范圍,當(dāng)目標(biāo)遭受較大的噪聲污染時(shí),如完全遮擋,此時(shí)λ2通常取較小的值一般在0.000 5~0.01之間,反之參數(shù)λ2取值在0.01~0.5之間。

圖9 幾種追蹤算法在快速運(yùn)動(dòng)和姿勢(shì)旋轉(zhuǎn)視頻中的追蹤效果
本文提出了同時(shí)稀疏表示的自適應(yīng)追蹤算法,該方法考慮了拉普拉斯噪聲的影響,并根據(jù)噪聲的能量大小自適應(yīng)的選擇稀疏模型。另外,模型使用了2種稀疏表示:同時(shí)稀疏(Lp,q)法,綜合考慮了粒子之間的關(guān)系,使用ADMM方法對(duì)模型進(jìn)行求解;對(duì)Lp模型,認(rèn)為粒子之間的影響是相互獨(dú)立的,可以分別通過LASSO算法分別求解;不同情境下的大量實(shí)驗(yàn)表明,這兩種方法均得到了穩(wěn)定的結(jié)果。
[1]LI A, LIN M, WU Y, et al. NUS-PRO: a new visual tracking challenge[J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2016, 38(2): 335-349.
[2]YANG H, SHAO L, ZHENG F, et al. Recent advances and trends in visual tracking: a review[J]. Neurocomputing, 2011,74(18): 3823-3831.
[3]ADAM A, RIVLIN E, SHIMSHONI I. Robust fragments-based tracking using the integral histogram[J].IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006, 1: 798-805.
[4]ROSS D A, LIM J, LIN R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3): 125-141.
[5]LIWICKI S, ZAFEIRIOU S, TZIMIROPOULOS G, et al.Efficient online subspace learning with an indefinite kernel for visual tracking and recognition[J]. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(10):1624-1636.
[6]BABENKO B, YANG M H, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011, 33(8): 1619-1632.
[7]YANG F, LU H, YANG M H. Robust superpixel tracking[J].IEEE Transactions on Image Processing, 2014, 23(4):1639-1651.
[8]HENRIQUES J F, CASEIRO R, MARTINS P, et al.Exploiting the circulant structure of tracking by detection with kernels[C]//Computer Vision-ECCV. [S.l.]: Springer,2012, 7575: 702-715.
[9]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2):210-227.
[10]MEI X, LING H. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011, 33(11): 2259-2272.
[11]SUN B, LIU Z, SUN Y, et al. Multiple objects tracking and identification based on sparse representation in surveillance video[C]//IEEE International Conference on Multimedia Big Data. Beijing: IEEE Computer Society, 2015.
[12]WANG D, LU H, BO C. Online visual tracking via two view sparse representation[J]. IEEE Signal Processing Letters, 2014, 21(9): 1031-1034.
[13]LI Y, HE Z, YI S, et al. The robust patches-based tracking method via sparse representation[C]//International Conference on Security, Pattern Analysis, and Cybernetics.Wuhan: IEEE, 2014.
[14]DUAN X, LIU J, TANG X. Visual tracking via weighted sparse representation[C]//International Conference on Intelligent Computing and Internet of Things. Harbin:IEEE, 2015.
[15]BAO C, WU Y, LING H, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//IEEE Conference on Computer Vision and Pattern Recognition.Providence: IEEE, 2012.
[16]LU X, YAO H, SUN X, et al. Real-time visual tracking using L2 norm regularization based collaborative representation[C]//IEEE International Conference on Image Processing. Melbourne: IEEE, 2013.
[17]AHUJA N. Robust visual tracking via multi-task sparse learning[C]//Computer Vision and Pattern Recognition.Providence: IEEE, 2012.
[18]YAN Q, LI L, WANG C, et al. Kernel sparse representation for object tracking[C]//International Conference on Multimedia Information Networking and Security. Beijing:IET, 2013.
[19]WANG L, YAN H, LV K, et al. Visual tracking via kernel sparse representation with multikernel fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(7): 1132-1141.
[20]WU Y, LIM J, YANG M H. Online object tracking: a benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE,2013.
[21]ZHONG W, LU H, YANG M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Transactions on Image Processing, 2014, 23(5): 2356- 2368.
[22]MEI X, LING H. Robust visual tracking using L1minimization[C]//IEEE 12th International Conference on Computer Vision. Kyoto: DBLP, 2009.
[23]WANG D, LU H, YANG M H. Online object tracking with sparse prototypes[J]. IEEE Transactions on Image Processing, 2013, 22(1): 314-325.
[24]MAIRAL J, BACH F, PONCE J, et al. Online dictionary learning for sparse coding[C]//International Conference on Machine Learning. Quebec: DBLP, 2009.
[25]LEARNEDMILLER E, SEVILLALARA L. Distribution fields for tracking[C]//Computer Vision and Pattern Recognition. Providence: IEEE, 2012.
[26]HE J, ZHANG D, BALZANO L, et al. Iterative Grassmannian optimization for robust image alignment[J].Image and Vision Computing, 2014, 32(10): 800-813.