王 奇,王錄濤,江 山,文成江
(成都信息工程大學(xué) 計算機學(xué)院,成都 610225)
目標(biāo)跟蹤是一個只給予初始狀態(tài)來評估一個目標(biāo)在一段視頻中軌跡位置的問題,在現(xiàn)實生活中有很多應(yīng)用,比如汽車自動駕駛,軍事上的反導(dǎo)系統(tǒng)等[1],但是這個問題十分復(fù)雜,因為在線學(xué)習(xí)目標(biāo)外觀模型時訓(xùn)練數(shù)據(jù)獲得受到限制(僅有第一幀的目標(biāo)信息)[2],現(xiàn)有的方法幾乎都依賴特征表現(xiàn)來處理這個問題,而在深度特征廣泛應(yīng)用之前,手工特征(淺層特征)的特征表現(xiàn)是處理上述問題的主流方法[3],雖然手工特征在準(zhǔn)確性上表現(xiàn)優(yōu)秀,但其在復(fù)雜場景中的魯棒性較差。隨著深度神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)CNN的發(fā)展,研究人員發(fā)現(xiàn)深度特征相較于淺層特征具有編碼高層信息的能力,所以現(xiàn)今深度特征也被用于處理上述問題并且提升跟蹤算法魯棒性。
我們通過對本文基準(zhǔn)算法ECO及ECO-HC(手工特征ECO算法)代碼和結(jié)果的分析,在用同一環(huán)境下運行具有各種挑戰(zhàn)因素的數(shù)據(jù)集,采用深度特征的ECO并不比采用手工特征的ECO-HC效果好,原因可能是網(wǎng)絡(luò)模型的深度不夠并且沒有選擇適合特征表現(xiàn)的參數(shù)。如果我們能夠在原有淺層特征和參數(shù)的基礎(chǔ)上加入合適的深度網(wǎng)絡(luò)和參數(shù),那么算法的魯棒性能獲得一定提升,這是本文所要探討的內(nèi)容。
目標(biāo)跟蹤算法現(xiàn)今大致可分為三類,基于生成式模型的方法,基于判別式模型的方法和基于深度學(xué)習(xí)的方法[4]。生成式模型提取目標(biāo)特征構(gòu)建表觀模型,在圖像中搜索與模型最匹配的區(qū)域作為跟蹤結(jié)果;與生成式模型不同的是,判別式模型同時考慮了目標(biāo)和背景信息。判別式模型將跟蹤問題看做分類或者回歸問題,目的是尋找一個判別函數(shù),將目標(biāo)從背景中分離出來,從而實現(xiàn)對目標(biāo)的跟蹤;基于深度學(xué)習(xí)的目標(biāo)跟蹤方法主要是利用深度特征強大的表征能力來實現(xiàn)跟蹤。按照利用深度特征的方式,可分為基于預(yù)訓(xùn)練深度特征的跟蹤和基于離線訓(xùn)練特征的跟蹤。本文是相關(guān)濾波類的跟蹤方法,是典型的基于回歸判別模型的跟蹤算法。
相關(guān)濾波類的跟蹤算法已經(jīng)發(fā)展到比較成熟的階段,最初的MOSSE[5]的基本思想是:越是相似的兩個目標(biāo)相關(guān)值越大,也就是視頻幀中與初始化目標(biāo)越相似,得到的響應(yīng)也就越大,MOSSE算法的跟蹤效果不好,但是開辟了新的道路來研究目標(biāo)跟蹤;后來極為成功的C-COT[6]提出了將不同分辨率的特征圖通過插值操作擴展到同一周期的連續(xù)空間域,再應(yīng)用Hessian矩陣可以求得亞像素精度的目標(biāo)位置,還解決了在連續(xù)空間域進(jìn)行訓(xùn)練的問題,但是由于計算量增大,C-COT算法的運行速度十分緩慢;C-COT的后作,ECO旨在解決前身的速度慢的問題[1],在解決速度問題的同時兼顧提升了跟蹤效果,ECO算法沒有區(qū)別的使用淺層特征和深度特征,在復(fù)雜環(huán)境中不能穩(wěn)定的跟蹤目標(biāo);之后的UPDT[7]算法提出了區(qū)別的處理深度特征和淺層特征來提升跟蹤效果,但是UPDT算法采用的網(wǎng)絡(luò)模型深度不夠,雖然在跟蹤效果相比ECO有了提升,但是在復(fù)雜場景的跟蹤魯棒性未能完全領(lǐng)先[8-9];同年的MFT[10]算法采用了和UPDT類似的方法,并且引用了兩個深度網(wǎng)絡(luò)來提升跟蹤效果,MFT和UPDT存在同樣的問題,網(wǎng)絡(luò)深度不夠?qū)е赂欞敯粜晕茨芨M(jìn)一步。怎樣提高算法魯棒性,這是目前目標(biāo)跟蹤領(lǐng)域研究的熱點。
目標(biāo)跟蹤中很重要的兩個標(biāo)準(zhǔn),即準(zhǔn)確性(accuracy)和魯棒性(robustness),準(zhǔn)確性就是測量在跟蹤過程中對目標(biāo)定位的精度,魯棒性則是跟蹤器在挑戰(zhàn)性場景中的故障恢復(fù)能力,換而言之,魯棒性就是測量目標(biāo)被準(zhǔn)確定位的頻率。在過往的目標(biāo)跟蹤發(fā)展中,淺度特征被認(rèn)為在處理跟蹤準(zhǔn)確性上有很大作用,而深度特征則在魯棒性上作用明顯,這由它們的特性決定。
深度特征主要是CNN的高層特征[11],優(yōu)點是包含高層語義,對旋轉(zhuǎn)和變形等外觀變化具有不變性,基本是任何時間任何空間都能找到目標(biāo),也就是上文提到的魯棒性很好;但缺點也很明顯,即空間分辨率低,對平移和尺度存在不變性,無法精確定位目標(biāo),會造成目標(biāo)漂移和跟蹤失敗,即準(zhǔn)確性很差[12]。
淺層特征主要是顏色特征(RGB,red-green-blue),方向梯度直方圖(HOG,histogram of oriented gradient),顏色名(CN,color name),和CNN的底層特征。優(yōu)點主要是包含紋理信息和顏色信息,空間分辨率高,適合高精度定位目標(biāo),即準(zhǔn)確性很高;但是不變性很差,目標(biāo)只要稍微形變就不能識別,尤其對旋轉(zhuǎn)十分敏感,也就是魯棒性很差。
圖1是OTB-2015視頻序列CarScale運行是的截圖,我們選取的是幾個代表性場景幀,93幀是目標(biāo)在相對良好的背景下運動的狀態(tài),而161幀是在復(fù)雜場景運動的狀態(tài),190幀脫離復(fù)雜場景的狀態(tài)。

圖1 CarScale視頻序列在場景中效果框圖
對于圖1,我們用更加直觀的特征通道響應(yīng)值圖(由于各個特征分辨率不同,現(xiàn)在的算法都將不同分辨率插值處理,表現(xiàn)為不同的分辨率對應(yīng)不同的通道,深層特征和淺層特征處于不同通道,可用Matlab提取作圖)來反映深度特征(圖2第一列)和淺層特征(圖2第二列)的在此過程的受影響而產(chǎn)生的變化[13]。首先,圖2(a)對應(yīng)圖1第93幀,圖中目標(biāo)還沒有進(jìn)入復(fù)雜背景的區(qū)域,深層特征最大波峰顯著高于其余波峰,周圍環(huán)境噪聲雖然也產(chǎn)生影響,但不明顯;而(b)圖(也為93幀的時候)顯示淺層特征波峰明顯,周圍幾乎沒有噪聲影響;(c)圖對應(yīng)圖1第161幀,當(dāng)目標(biāo)進(jìn)入復(fù)雜背景區(qū)域后,深層特征周圍噪聲明顯增加,但是目標(biāo)產(chǎn)生的波峰依舊十分明顯;(d)(也為161幀)圖顯示此時淺層特征明顯受環(huán)境干擾,目標(biāo)波峰周圍出現(xiàn)明顯的噪聲;(e)圖(對應(yīng)圖1第190幀)顯示目標(biāo)脫離背景復(fù)雜區(qū)域后,從坐標(biāo)軸數(shù)據(jù)看深層特征波峰恢復(fù)并且超越之前的水平,(f)圖對應(yīng)淺層特征峰值則并未恢復(fù)到之前水平。對此我們得出結(jié)論,淺層特征在背景環(huán)境復(fù)雜時受影響較大,深層特征受影響則相對較小;深層特征恢復(fù)能力較強,但是淺層特征在無明顯干擾的環(huán)境下精度較高,即深層特征魯棒性較高(穩(wěn)健性),淺層特征準(zhǔn)確性較高[14]。

圖2 特征通道響應(yīng)值對比圖
圖3(a)是視頻序列Basketball的第一幀圖像,我們把它作為原始圖像來進(jìn)行分析,(b)圖對應(yīng)HOG特征圖,HOG特征對應(yīng)的特征圖紋理比較明顯,圖像中目標(biāo)的輪廓大致清晰,這也對應(yīng)了上面我們提到的淺層特征空間分辨率高,包含紋理信息和顏色信息,對目標(biāo)定位的精度高,準(zhǔn)確性好。(c)圖對應(yīng)的是CNN的高層特征圖,在第一行單位已經(jīng)到了千分之一的級別,目標(biāo)在圖中已經(jīng)凝聚成塊狀,輪廓不明顯,但是它將目標(biāo)的范圍縮小了,雖然分辨率不高,但是不易受環(huán)境干擾而且層次更深,這是魯棒性高的表現(xiàn)。(d)圖對應(yīng)的是CNN的底層特征,與CNN的高層特征相比,底層特征圖紋理更加明顯,目標(biāo)反映成點狀,精度更高;但是和HOG特征相比,其沒有HOG特征在處理光照,紋理信息方面優(yōu)秀[15]。

圖3 原始圖和ECO特征可視化圖
ECO采用了VGGNet[16]網(wǎng)絡(luò)模型,雖然取得了不錯的跟蹤效果,但是由于深度的限制無法對復(fù)雜的場景進(jìn)行更進(jìn)一步的分析,所以在面對一些復(fù)雜的場景時會出現(xiàn)效果變差或者丟失目標(biāo)的情況,也即魯棒性(穩(wěn)健性)不夠。對于此問題我們首先想到了層次更深的網(wǎng)絡(luò)模型ResNet-50[17]和ResNet-101[17]。表1顯示3個網(wǎng)絡(luò)模型各自的層數(shù)和在官方驗證錯誤率。

表1 3個網(wǎng)絡(luò)模型對比表
ECO之后的跟蹤算法普遍都采用了層次更深的ResNet-50網(wǎng)絡(luò)模型來提升跟蹤效果,我們則測試了更深層次的ResNet-101網(wǎng)絡(luò)模型,當(dāng)我們單純把ResNet-101應(yīng)用到ECO算法上時發(fā)現(xiàn)效果不佳甚至不如之前的表現(xiàn),圖4是單純將不同網(wǎng)絡(luò)(ResNet-50,ResNet-101)應(yīng)用到算法中的效果圖(圖4、圖5都采用目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)庫OTB-2015的SRE指標(biāo)來做驗證,SRE是空間魯棒性評估,滿足我們魯棒性評估的要求,我們選用的視頻序列都是第三章中OTB-2015滿足4種挑戰(zhàn)的視頻序列)。

圖4 只修改兩種網(wǎng)絡(luò)效果圖


圖5 修改σ后和之前對比圖
表2單純對比更改網(wǎng)絡(luò)和參數(shù)在OTB-2015中的AUC(area under curve)分值(AUC為成功率圖的曲線下面積,分值越高效果越好),它證實了單純修改網(wǎng)絡(luò)和單獨修改參數(shù)σ無法提高跟蹤效果,必須從以上兩個方面進(jìn)行改進(jìn)。

表2 各種修改后測試的AUC分值


表3 各種修改后測試的AUC分值

我們將原本的σ由單個參數(shù)修改為一個參數(shù)集,這個參數(shù)集既適宜深度特征發(fā)揮作用也能夠使原本的淺層特征發(fā)揮作用。
變換為:
計算過程中在利用手工特征時,會調(diào)用σ數(shù)組的第二個元素;在運用深度特征時,會調(diào)用σ2數(shù)組的第一個元素,達(dá)到最好的魯棒性效果。
ECO采用高斯函數(shù)中的高斯混合模型(GMM),這也是我們修改參數(shù)σ所起作用的地方。單高斯模型中,一維數(shù)據(jù):
(1)
樣本多維時,∑為協(xié)方差,u為數(shù)據(jù)均值,D為數(shù)據(jù)維度,σ在參與了協(xié)方差的計算,用來給定正負(fù)樣本比例:
(2)
混合模型中:
(3)
在此參數(shù)θ由每個子模型的期望、方差(或協(xié)方差)、在混合模型中發(fā)生的概率組成,我們修改的參數(shù)σ表示為協(xié)方差。在ECO中則是表現(xiàn)在對式(4)y值的影響,即對特征通道響應(yīng)值的影響,式(4)中σ是我們修改的參數(shù)集,u∈[0,t)是目標(biāo)估計的位置,y是以u為中心的高斯函數(shù)е(-(t-u)2/2σ2)的周期重復(fù)。
(4)
而y在ECO中參與期望E的運算。
(5)
式中,期望E是對聯(lián)合樣本的值分布的評估,Sf{X}是對目標(biāo)檢測的分值,Y是對樣本的標(biāo)記檢測分值。W表示權(quán)重,fd表示多通道卷積濾波器,L表示高斯組件的數(shù)量。
基于目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)庫OTB-2015,采用SRE(空間魯棒評估)的指標(biāo)進(jìn)行評測[18],由于驗證算法魯棒性的需要,我們選取Liquor,Dudek,Lemming這幾個測試視頻序列,這幾個視頻序列包含我們用于評測的4種挑戰(zhàn)因素(背景雜波(BC),尺度變化(SV),光照變化(IV),低分辨率(LR))。我們選取的都是各個視頻序列具有代表性的幀,它們可以很好的代表我們想測試的4種挑戰(zhàn)因素。參與比較的3種算法分別是ECO,ECO-HC,我們改進(jìn)的算法(命名為OURS),分別采用不同的曲線代表,即直線,虛線和點線,這可以很好的區(qū)分圖中的3種算法,使比較結(jié)果更加清晰。ECO是我們的基準(zhǔn)算法,ECO-HC使手工特征的ECO版本,和他們對比可以體現(xiàn)出我們改進(jìn)算法在效果方面的提升。
由圖6的幾張效果評測圖可以看出,在以上4種挑戰(zhàn)因素的場景中,我們的算法始終能定位目標(biāo),與我們改進(jìn)算法相對比的基準(zhǔn)算法出現(xiàn)了不能穩(wěn)定跟蹤甚至丟失目標(biāo)的情況,具體來說,3種算法的定位框清晰的顯示,在上圖所展示的挑戰(zhàn)因素中,我們的改進(jìn)算法的定位框始終能將目標(biāo)大體包裹,而其他兩種對比算法出現(xiàn)了包裹部分減小甚至完全未包裹目標(biāo),這在實際應(yīng)用中就已經(jīng)丟失了目標(biāo)。在場景不太復(fù)雜的情況下,如圖6第二行兩幅圖,雖然另外兩種算法也可以對目標(biāo)進(jìn)行有效的跟蹤,定位框也基本能包裹目標(biāo),但是我們改進(jìn)的算法定位更加精準(zhǔn),表現(xiàn)在定位框能夠完全的包裹目標(biāo)。此定性分析說明我們改進(jìn)的算法對比基準(zhǔn)算法魯棒性有所提升,在幾種挑戰(zhàn)因素的場景中比基準(zhǔn)算法的跟蹤效果和穩(wěn)定性更好。

圖6 算法定性效果評測
OTB-2015擁有100個視頻序列,包含12個挑戰(zhàn)因素[19],每個視頻序列可以用于驗證一個或者多個挑戰(zhàn)因素。OTB-2015是目標(biāo)跟蹤領(lǐng)域應(yīng)用廣泛的基準(zhǔn)數(shù)據(jù)庫,幾乎所有最新提出的算法都會放在該數(shù)據(jù)庫上進(jìn)行評測,評測結(jié)果會作為算法效果的重要參照,OTB-2015也是十分科學(xué)的平臺,在該平臺的評測數(shù)據(jù)基本能夠反映一個算法的可行性,對此我們改進(jìn)算法選擇在OTB-2015標(biāo)準(zhǔn)數(shù)據(jù)庫評測。圖8在低分辨率,背景雜波,光照變化,尺度變化用成功率(Success plots)曲線作了對比,表4列舉了除以上我們演示的挑戰(zhàn)因素外OTB-2015中在各個挑戰(zhàn)因素具有代表性的4個視頻序列,這也是用于驗證我們算法的一部分視頻序列。

表4 各種挑戰(zhàn)因素驗證視頻序列
圖7是我們改進(jìn)算法在OTB-2015中選取包括表4中驗證序列的運行結(jié)果。

圖7 算法定量分析效果評測
我們將數(shù)據(jù)以表格的形式展示(只對比OURS,ECO,ECO-HC),從表5我們可以更直觀地看到,我們改進(jìn)的算法在這4種挑戰(zhàn)因素中表現(xiàn)比基準(zhǔn)算法有所提高。

表5 實驗結(jié)果定量分析表格
我們的方法在這幾種挑戰(zhàn)因素的魯棒性測試中略優(yōu)于ECO與ECO-HC,對此我們對這幾種挑戰(zhàn)因素[20]的視頻序列分析發(fā)現(xiàn):
1)低分辨率(LR)[19]的視頻序列目標(biāo)都比較小而且圖像相對模糊,這種情況底層特征的作用就會被減弱,層次不夠深的網(wǎng)絡(luò)模型也會處理困難,但是我們的方法涉及的網(wǎng)絡(luò)模型層次足夠,這也是為什么我們的方法在評分上領(lǐng)先ECO-HC和ECO大約0.1的原因。
2)背景雜波(BC)[19]的視頻序列大多都有相同物體的干擾或者圖片的背景信息豐富,這會導(dǎo)致淺層特征在紋理,背景信息處理出現(xiàn)困難,但是深層特征可以很好的應(yīng)對這種狀況。在數(shù)據(jù)上,我們的方法領(lǐng)先ECO大約0.03分值,領(lǐng)先ECO-HC大約0.075。
3)測試光照變化(IV)[19]的視頻序列基本都是圖像光線較暗或者黑夜環(huán)境,我們對底層特征參數(shù)的應(yīng)用對這種情況起到了作用,底層特征對光流信息比較敏感,但是對比ECO-HC我們還多了CNN的底層特征,這是我們改進(jìn)算法優(yōu)于ECO和ECO-HC的原因。
4)測試尺度變化(SV)[19]場景的視頻序列大多有一個共同點,那就是目標(biāo)會由遠(yuǎn)及近,尺寸會存在變化,這是深度特征和淺層特征共同起作用的地方,目標(biāo)尺寸小的時候會很模糊,這就依賴于深度特征來實現(xiàn)定位目標(biāo),在目標(biāo)尺寸變大的時候,淺層特征可以較好處理目標(biāo)的邊界和形狀信息。所以在數(shù)據(jù)上我們的方法領(lǐng)先ECO大約0.02。
本文旨在提升跟蹤算法的魯棒性(穩(wěn)健性)用以提升跟蹤算法在復(fù)雜環(huán)境中跟蹤目標(biāo)的能力,同時我們對算法原有的準(zhǔn)確性也有一定提升,我們不僅采用了目前深度較深的ResNet-101網(wǎng)絡(luò)模型,而且也設(shè)置了適宜此網(wǎng)絡(luò)模型的σ參數(shù),我們還保持了ECO-HC原有的σ參數(shù)來延續(xù)淺層特征跟蹤過程中對準(zhǔn)確性所起的作用。我們的方法在OTB-2015基準(zhǔn)數(shù)據(jù)庫中效果相比原算法有所進(jìn)步。深層次網(wǎng)絡(luò)訓(xùn)練需要采用數(shù)據(jù)增強,數(shù)據(jù)增強可以在不采用巨大樣本集的前提下提供深度網(wǎng)絡(luò)更多的樣本,通過翻轉(zhuǎn),平移等方法。在深層特征的選用上,更深層次的網(wǎng)絡(luò)已經(jīng)存在,如果運用ResNet-152或者更深層次的Inception-ResNetV2網(wǎng)絡(luò)模型可能會取得更好的效果,即隨著網(wǎng)絡(luò)層次深度變化,跟蹤算法或許會取得更加優(yōu)秀的成果,但是隨著網(wǎng)絡(luò)模型深度的增加,跟蹤算法的運行時間也會隨之增加,這是因為深度越深的網(wǎng)絡(luò)模型越需要大量的樣本,而從大量樣本中提取特征會增加運行時間。如何把運行速度提高以縮短運行時間,這是我們今后的研究要解決的問題。
在ECO算法中我們就發(fā)現(xiàn)傳統(tǒng)的跟蹤算法很多都是只在第一幀學(xué)習(xí),然后將學(xué)習(xí)的結(jié)果在后面許多幀保持并利用,這種方式在復(fù)雜環(huán)境中很難保證跟蹤質(zhì)量[21]。如果在復(fù)雜的環(huán)境中除了目標(biāo)還有與目標(biāo)類型相似的物體,那么跟蹤效果往往會很差甚至丟失目標(biāo)?,F(xiàn)在已有研究者提出了能夠部分處理此問題的方法,但是效果還未在正式的平臺展示,將他們的研究和我們的發(fā)現(xiàn)結(jié)合,我們大致得出結(jié)論,如果我們在第一幀學(xué)習(xí)并且逐幀采集背景信息不斷向后面幀傳播我們收集的信息或許對解決上述問題有所幫助[22-23],這也是我們今后進(jìn)一步研究的另一個方向。