茅正沖,陳海東
江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫214122
目標(biāo)跟蹤是計算機(jī)視覺領(lǐng)域中關(guān)注的重點(diǎn),在智能視頻監(jiān)控、自動泊車系統(tǒng)、臨床醫(yī)學(xué)救助、虛擬成像等多個領(lǐng)域被廣泛應(yīng)用[1]。在實(shí)際工程應(yīng)用中,跟蹤目標(biāo)不僅受到外部環(huán)境諸如光照變換等影響,而且還會伴有自身形態(tài)的變換[2]。如何解決多種復(fù)雜環(huán)境及目標(biāo)本身多樣變化所導(dǎo)致的目標(biāo)丟失的問題仍充滿了挑戰(zhàn)[3]。
Bolme 等[4]首次在目標(biāo)跟蹤領(lǐng)域內(nèi)引入相關(guān)濾波理論,提出采用單通道灰度特征的最小輸出平方誤差和(Minimum Output Sum of Squared Error Filter,MOSSE)算法;Henriques[5-6]在MOSSE 的基礎(chǔ)上引入了循環(huán)矩陣和核技巧提出了核循環(huán)結(jié)構(gòu)跟蹤器(Circulant Structure of tracking-by-detection with Kernels,CSK),后又在CSK 的基礎(chǔ)上擴(kuò)展了多通道特征,采用方向梯度直方圖(Histogram of Oriented Gradient,HOG)表征外觀模型提出了核化相關(guān)濾波器(Kernelized Correlation Filters,KCF)算法,在實(shí)時性和精度上有很大的提升;Danelljan[7]等提出使用顏色命名(Color Name,CN)特征來改進(jìn)目標(biāo)外觀模型,通過主成分分析(Principal Component Analysis,PCA)降維來降低運(yùn)算量。
文獻(xiàn)[8]提出了一種融合CN和HOG特征的相關(guān)濾波跟蹤算法。
最近的研究發(fā)現(xiàn),通過修改用于訓(xùn)練的常規(guī)CF 模型,可以克服算法固有的一些局限性。Danelljan[9-10]考慮到特征值的多重維度,在單通道MOSSE 的基礎(chǔ)上重構(gòu)了最小代價函數(shù),提出三維濾波器來定位和預(yù)估尺度的判別式尺度空間跟蹤器(Discriminative Scale Space Tracking,DSST)。但當(dāng)目標(biāo)背景較復(fù)雜時,由于余弦窗和搜索區(qū)域的限制,導(dǎo)致學(xué)不到太多的背景信息。Mueller[11]等提出了(Context-Aware,CA)框架,該框架可以與許多相關(guān)跟蹤器集成,如文獻(xiàn)[12]中提出的自適應(yīng)尺度的多特征融合(Scale Adaptive Multi-feature Fusion,SAMF)跟蹤算法結(jié)合后SAMF_CA 算法體現(xiàn)了高效性,但實(shí)時性較差。文獻(xiàn)[13]提出給每一幀的目標(biāo)和上下文信息賦予權(quán)重,挑出可靠的上下文信息用于訓(xùn)練和更新濾波器系數(shù)的自步上下文感知相關(guān)濾波跟蹤算法,該算法在快速移動,旋轉(zhuǎn)等問題能有效地檢測出目標(biāo),但當(dāng)目標(biāo)尺度持續(xù)變化后,濾波器僅能學(xué)習(xí)到少量部分目標(biāo)或過多的背景樣本。
本文的主要創(chuàng)新和貢獻(xiàn)點(diǎn)如下:
(1)引入上下文感知框架,將上下文信息送入核相關(guān)濾波器中學(xué)習(xí),使得目標(biāo)位置產(chǎn)生高響應(yīng),上下文區(qū)域趨于零響應(yīng)。
(2)提出一種區(qū)分平移濾波器的在線學(xué)習(xí)尺度濾波器的方法,利用一組不同尺度采樣目標(biāo)外觀來訓(xùn)練模型并估計最佳尺度。
(3)針對相關(guān)濾波類的跟蹤算法誤差會隨時間積累,導(dǎo)致目標(biāo)模型越來越差,本文提出一種利用幀差均值來評估目標(biāo)的表觀狀態(tài)以自適應(yīng)更新率的策略。

其中,λ為正則化系數(shù)。根據(jù)文獻(xiàn)[4]求解w可表示為:

其中,X是循環(huán)樣本xi的集合矩陣,y為期望目標(biāo)回歸矩陣,I是單位矩陣。

其中,K是以為元素的核矩陣。
對于當(dāng)前幀的圖像塊z分類器響應(yīng)為:

在相關(guān)濾波跟蹤中由于循環(huán)樣本的特性容易造成邊界效應(yīng),雖然通過余弦窗口能有效地限制,但與此同時背景信息會減少,當(dāng)出現(xiàn)快速移動,背景混亂等情況下,目標(biāo)周圍的上下文信息顯得十分重要。
在式(1)的基礎(chǔ)上,在目標(biāo)樣本周圍采樣n個背景樣本作為上下文信息,循環(huán)位移得到Xi,以使目標(biāo)樣本處具有高響應(yīng)值和背景樣本處響應(yīng)值接近于零為約束條件來訓(xùn)練分類器[14]。因此加入上下文感知框架后的目標(biāo)函數(shù)的嶺回歸為:

X0表示目標(biāo)位置處的循環(huán)位移樣本,λ2為抑制背景樣本回歸值趨于零的正則化參數(shù)。
通過將原始目標(biāo)區(qū)域上與加入上下文信息的背景樣本疊加,為了方便推導(dǎo),需將式(5)優(yōu)化為以下矩陣形式:


由于多通道特征比單通道特征具有更好的表觀性,本文采用HOG特征與具有較好補(bǔ)償性的灰度特征進(jìn)行級聯(lián),非線性映射后的需對偶域中求解:

由循環(huán)矩陣的特殊性質(zhì)可得:


上式圖像之間的相關(guān)性可以使用線性核進(jìn)行加速運(yùn)算。在下一幀圖像中目標(biāo)位置檢測公式最終簡化為:

針對跟蹤中目標(biāo)的尺度變換問題,文獻(xiàn)[12]中提到的SAMF 跟蹤算法,該方法僅需一個濾波器,在平移濾波器的基礎(chǔ)上提取尺度金字塔,對縮放后圖像塊進(jìn)行檢測,但該方法每個尺度檢測都需要提取特征,且采用CN+HOG 的級聯(lián)特征導(dǎo)致計算量更大,為了維持實(shí)時性采用較粗尺度池也導(dǎo)致無法準(zhǔn)確獲得最佳尺度,本文算法將跟蹤劃分為平移跟蹤和尺度跟蹤,可以更加靈活地采用不同的方法。
本文采用的判別式尺度濾波器學(xué)習(xí)每個特征通道的濾波器,訓(xùn)練得到最佳尺度濾波器h,最小化代價函數(shù)為:

其中,m代表特征維度,g為期望輸出,f代表當(dāng)前幀的特征圖,λ3為正則項(xiàng)系數(shù)。
通過Parseval可在傅里葉域內(nèi)求解公式(12)為:

對于每一幀尺度模板的更新策略如下:

其中,η為學(xué)習(xí)速率。在下一幀中,可通過求解:

尺度池中的最大響應(yīng)得分則為當(dāng)前幀的最佳尺寸。
本文利用子網(wǎng)格插值的方法,使用較粗糙的特征網(wǎng)格即較少的尺度濾波長度S用于訓(xùn)練和檢測樣本,減小執(zhí)行的傅里葉運(yùn)算次數(shù),最終通過三角函數(shù)插值將相應(yīng)圖插值回原長度(S=33),得到最佳的尺度大小。
在實(shí)際應(yīng)用中,目標(biāo)隨時發(fā)生不同程度的變化或遇到各種各樣的問題,采用原有的固定學(xué)習(xí)率來適應(yīng)變化容易導(dǎo)致模板的漂移從而導(dǎo)致目標(biāo)丟失跟蹤失敗。因此需采用一種新的策略能隨目標(biāo)形態(tài)的形變程度及環(huán)境的變化為增加或減小更新率,本文使用相鄰幀圖像的像素差值來評估模型變化的情況,計算輸入尺寸為M×N的第t幀圖像與前一幀圖像之間的幀差均值[15]為:

文獻(xiàn)[15]中利用幀間均值對相鄰兩幀圖像變化的大小進(jìn)行判斷,故本文以此為基礎(chǔ)對η做以下處理:

輸入:圖像序列,初始化目標(biāo)跟蹤目標(biāo)及目標(biāo)尺度
輸出:預(yù)測目標(biāo)位置和尺度
初始化:確定第一幀跟蹤目標(biāo)的狀態(tài)
fort=1:N(N為視頻序列總幀數(shù))
ift>1
位置預(yù)測:
步驟1 在目標(biāo)處及周圍提取以CN和GREY特征級聯(lián)的圖像樣本塊X0及背景樣本Xi
步驟2 根據(jù)式(8)計算跟蹤濾波器的目標(biāo)模型
步驟3 利用式(11)計算跟蹤濾波器的輸出響應(yīng),確定最大位置即目標(biāo)位置pt
尺度預(yù)測:
步驟4 以當(dāng)前幀的目標(biāo)位置pt為中心提取多尺度圖像塊
步驟5 使用式(12)計算尺度濾波器模板
步驟6 根據(jù)式(15)計算尺度濾波器的響應(yīng)值,最大響應(yīng)尺度即第t幀的最佳尺度
模板更新:
步驟7 利用式(16)評估當(dāng)前幀模型變化情況并采用式(17)分段學(xué)習(xí)率調(diào)整模型
end
為了驗(yàn)證本文算法的有效性,本文采用三種性能指標(biāo)進(jìn)行評估,分別是時間魯棒性評估(Temporal Robustness Evaluation,TRE)、一次通過評估(One-Pass Evaluation,OPE)以及空間魯棒性評估(Spatial Robustness Evaluation,SRE),實(shí)驗(yàn)結(jié)果如圖1 所示。其中Success rate和Precesion分別是指覆蓋重疊率大于0.5且平均中心位置誤差小于20 像素時,算法成功跟蹤的幀數(shù)與視頻總幀數(shù)的比值。采用OTB[16]數(shù)據(jù)集中包含11種不同場景的挑戰(zhàn)50 組視頻綜合評估算法。實(shí)驗(yàn)中,參與比較的算法分別為CSK[3]、DCF[4]、DSST[6]和SAMF_CA[9]這4種相關(guān)濾波框架算法。
本文算法實(shí)驗(yàn)的硬件平臺為IntelCore i5-8300H 2.30 GHz CPU,8 GB 內(nèi)存的筆記本,軟件平臺為Matlab2014a。本文中尺度濾波器尺度數(shù)為S=17,尺度濾波器參數(shù)λ3=0.01,上下文采樣數(shù)k為4,正則化參量λ1=10-4,λ2=25,HOG特征仍沿用DCF中的參數(shù)。

圖1 OPE、SRE、TRE的精度圖與成功率
如圖1,在OPE實(shí)驗(yàn)下,本文算法的成功率為0.739,比第一名SAMF_CA略有下降0.6%,距離精度為0.811,比SAMF_CA 提升了1.5%,比DSST提升了5%,比DCF提升了6.2%。在SRE 實(shí)驗(yàn)中本文算法較SAMF_CA 的成功率略有提升但不大,比第三名DSST提升了2.4%左右,比DCF 提升了9.8%,在距離精度下本文算法相較SAMF_CA 顯著提升了3.4%。在TRE 實(shí)驗(yàn)中成功率與SRE 實(shí)驗(yàn)中較相似,SAMF_CA 與本文算法保持較小精度差,但比其他算法都提升了很多,在精度圖中本文算法依然能保持第一,而DCF超過了DSST排在第三。整體可見本文算法在加入上下文感知框架后精度上有明顯的提升,加入尺度濾波器后在成功率也與現(xiàn)階段較好的SAMF_CA保持較小的差距甚至超越,在TRE和SRE下結(jié)果說明本文算法具有較好的抗漂移能力和魯棒性。在表1 中可發(fā)現(xiàn)本文算法幀速率為41.2,相比于DCF來說速度下降很多但仍能保持很好的實(shí)時性,比起同樣基于感知上下文框架的SAMF_CA 和本文所使用的尺度濾波器的DSST速度都快很多。

表1 5種跟蹤算法的速度對比
3.3.1 尺度變換性能分析
圖2 在Girl 數(shù)據(jù)集中目標(biāo)由開始向后移動,所有算法都能保持跟蹤,在第78幀中DSST、SAMF_CA及本文算法能自適應(yīng)尺度框,能較好地學(xué)習(xí)到目標(biāo)信息,在第283 幀也并未有出現(xiàn)目標(biāo)丟失,而在Car4 數(shù)據(jù)集中,CSK及DCF學(xué)習(xí)過多背景信息后造成目標(biāo)漂移。
3.3.2 抗遮擋性能分析
圖3 在Woman 數(shù)據(jù)集中目標(biāo)從右側(cè)移動在108 幀時經(jīng)過車輛且一半身體被遮擋,在第108幀后目標(biāo)走過車輛,目標(biāo)整體重新出現(xiàn)在畫面中,除CSK其余算法都很好地應(yīng)對。在David3 數(shù)據(jù)集中目標(biāo)經(jīng)過樹時,全身被短時間遮擋到第96 幀恢復(fù),所有算法都有效地跟蹤到了。通過實(shí)驗(yàn)發(fā)現(xiàn)算法具有較好的抗遮擋性。
3.3.3 快速運(yùn)動性能分析
圖4 在Boy 數(shù)據(jù)集中第508 幀時CSK 出現(xiàn)較小的偏差但仍能保持在跟蹤范圍內(nèi),其他算法都能跟蹤到。在Jumping 數(shù)據(jù)集中目標(biāo)剛開始跳繩移動時,DSST、DCF 及CSK 就丟失目標(biāo),在第40 幀目標(biāo)到達(dá)最高點(diǎn)后返回到原位置時,DCF 又重新捕捉到目標(biāo)。當(dāng)目標(biāo)發(fā)生快速移動時,目標(biāo)位置會在短時間內(nèi)偏移一段位移,由于余弦窗的效果目標(biāo)搜索范圍變小,訓(xùn)練樣本變少,加入上下文框架發(fā)現(xiàn)在應(yīng)對快速移動的狀況時具有較好的效果。

圖2 五種算法在Girl和Car4上的跟蹤效果圖

圖3 五種算法在Woman和David3上的跟蹤效果圖

圖4 五種算法在Boy和Jumping上的跟蹤效果圖
3.3.4 目標(biāo)形變性能分析
圖5 在Bolt 數(shù)據(jù)集中目標(biāo)從起跑線開始出發(fā),SAMF_CA 跟蹤框已脫離目標(biāo),CSK 稍有偏出,在加速過程中DCF及本文算法能實(shí)現(xiàn)對目標(biāo)的跟蹤,在第241幀目標(biāo)減速時DCF 目標(biāo)框出現(xiàn)偏移。在Trellis 數(shù)據(jù)集中目標(biāo)在面對鏡頭時向左向右旋轉(zhuǎn),使得目標(biāo)外觀產(chǎn)生形變,除CSK 以外算法都能應(yīng)對小形變。實(shí)驗(yàn)結(jié)果表明單HOG 特征對處理目標(biāo)形變有明顯效果,多特征融合時簡單的級聯(lián)易造成目標(biāo)特征的混亂而影響濾波器的訓(xùn)練。
3.3.5 光照變換性能分析
圖6 在Skating 數(shù)據(jù)集中第51 幀、81 幀及378 幀都出現(xiàn)了光照變換,光線由暗轉(zhuǎn)亮又變暗,除SAMF 稍有偏出,其余算法能保持對目標(biāo)的跟蹤。在Singer2 數(shù)據(jù)集中,CSK 起初有點(diǎn)偏移,在第59 幀出現(xiàn)明顯的光亮?xí)r,目標(biāo)出現(xiàn)立刻丟失,其他算法都能有效地應(yīng)對此類況。結(jié)果同樣表明了有效的外觀表征十分重要,簡單的特征融合效果可能會變差。

圖5 五種算法在Bolt和Trellis上的跟蹤效果圖
基于相關(guān)濾波算法,提出了一種自適應(yīng)尺度的上下文感知算法,通過在分類器訓(xùn)練階段對上下文信息進(jìn)行采樣來解決循環(huán)移位的不足,利用尺度濾波器學(xué)習(xí)并更新尺度模板得到最佳尺度尺寸,最后采用分段學(xué)習(xí)率調(diào)整策略來使算法更好地適應(yīng)目標(biāo)外觀變化。從實(shí)驗(yàn)結(jié)果來看,本文算法在與解決尺度的相關(guān)濾波類算法對比在快速移動、目標(biāo)形變等環(huán)境下具有更好的魯棒性,與同類結(jié)合上下文感知框架的多特征融合自適應(yīng)尺度的相關(guān)濾波跟蹤算法在不失精度的情況下,算法實(shí)時性有較大的提升。

圖6 五種算法在Skating和Singer2上的跟蹤效果圖