程 帥 曹永剛 孫俊喜 趙立榮 劉廣文 韓廣良
①(長(zhǎng)春理工大學(xué)電子信息工程學(xué)院 長(zhǎng)春 130022)
②(中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所 長(zhǎng)春 130000)
③(東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院 長(zhǎng)春 130117)
基于增強(qiáng)群跟蹤器和深度學(xué)習(xí)的目標(biāo)跟蹤
程 帥①曹永剛①②孫俊喜*③趙立榮①②劉廣文①韓廣良②
①(長(zhǎng)春理工大學(xué)電子信息工程學(xué)院 長(zhǎng)春 130022)
②(中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所 長(zhǎng)春 130000)
③(東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院 長(zhǎng)春 130117)
為解決基于外觀模型和傳統(tǒng)機(jī)器學(xué)習(xí)目標(biāo)跟蹤易出現(xiàn)目標(biāo)漂移甚至跟蹤失敗的問題,該文提出以跟蹤-學(xué)習(xí)-檢測(cè)(TLD)算法為框架,基于增強(qiáng)群跟蹤器(FoT)和深度學(xué)習(xí)的目標(biāo)跟蹤算法。FoT實(shí)現(xiàn)目標(biāo)的預(yù)測(cè)與跟蹤,增添基于時(shí)空上下文級(jí)聯(lián)預(yù)測(cè)器提高預(yù)測(cè)局部跟蹤器的成功率,快速隨機(jī)采樣一致性算法評(píng)估全局運(yùn)動(dòng)模型,提高目標(biāo)跟蹤的精確度。深度去噪自編碼器和支持向量機(jī)分類器構(gòu)建深度檢測(cè)器,結(jié)合全局多尺度掃描窗口搜索策略檢測(cè)可能的目標(biāo)。加權(quán)P-N學(xué)習(xí)對(duì)樣本加權(quán)處理,提高分類器的分類精確度。與其它跟蹤算法相比較,在復(fù)雜環(huán)境下,不同圖片序列實(shí)驗(yàn)結(jié)果表明,該算法在遮擋、相似背景等條件下具有更高的準(zhǔn)確度和魯棒性。
計(jì)算機(jī)視覺;群跟蹤器;跟蹤-學(xué)習(xí)-檢測(cè);深度學(xué)習(xí);支持向量機(jī);深度檢測(cè)器
目標(biāo)跟蹤在各個(gè)領(lǐng)域得到廣泛應(yīng)用,例如運(yùn)動(dòng)分析、行為識(shí)別等,同時(shí)也面臨巨大挑戰(zhàn):遮擋、相似背景、光照變化、外觀變化等[1]因素都能導(dǎo)致目標(biāo)偏移甚至跟蹤失敗。基于外觀模型的跟蹤算法[25]-通過尺度不變特征轉(zhuǎn)換、方向梯度直方圖等特征對(duì)目標(biāo)進(jìn)行表達(dá),這些特征不能反映目標(biāo)本質(zhì)信息,跟蹤過程中常出現(xiàn)誤匹配問題。選用復(fù)雜的外觀模型,計(jì)算成本很高。
外觀模型與傳統(tǒng)的機(jī)器學(xué)習(xí)算法[69]-相結(jié)合,將跟蹤視為二值分類問題,有效地利用背景信息,以區(qū)分目標(biāo)與背景,雖改進(jìn)了跟蹤效果,但也面臨部分難題,沒有足夠的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)分類模型,對(duì)相似目標(biāo)分辨能力不強(qiáng),常出現(xiàn)錯(cuò)誤分類問題。
深度學(xué)習(xí)[10]是目前研究熱點(diǎn)問題,通過構(gòu)建深層非線性網(wǎng)絡(luò)結(jié)構(gòu)可從少數(shù)樣本集中學(xué)習(xí)圖像信息的本質(zhì)特征,最終提高分類器分類的準(zhǔn)確性。
群跟蹤器(Flock of Tracker,F(xiàn)oT)[11]將局部跟蹤器與全局運(yùn)動(dòng)模型相結(jié)合,可處理遮擋、非剛性目標(biāo)局部變化的問題,單元格群跟蹤器(Cell FoT)[12]選擇最佳局部跟蹤器進(jìn)行跟蹤,解決目標(biāo)漂移問題,使目標(biāo)跟蹤更具魯棒性。
為解決基于外觀模型和傳統(tǒng)機(jī)器學(xué)習(xí)目標(biāo)跟蹤算法的問題,本文提出以跟蹤-學(xué)習(xí)-檢測(cè)(Tracking-Learning-Detection,TLD)[13]算法為框架,基于增強(qiáng)FoT和深度學(xué)習(xí)的目標(biāo)跟蹤算法。在原有FoT的基礎(chǔ)上,利用局部跟蹤器的時(shí)空上下文[14],增添級(jí)聯(lián)預(yù)測(cè)器,提高預(yù)測(cè)局部跟蹤器的成功率。快速隨機(jī)采 樣 一 致 性 (RANdom SAmple Consensus,RANSAC)[15]算法評(píng)估跟蹤器的全局運(yùn)動(dòng)模型,減少迭代次數(shù),降低模型評(píng)估的失敗率。深度檢測(cè)器由深度去噪自編碼器(Stacked Denoising AutoEncoder,SDAE)[16]、支持向量機(jī)(Support Vector Machine,SVM)構(gòu)成,實(shí)現(xiàn)圖像信息的有效表達(dá),利用無監(jiān)督特征學(xué)習(xí)和遷移學(xué)習(xí)解決訓(xùn)練樣本不足問題,結(jié)合全局多尺度掃描窗口搜索策略,實(shí)現(xiàn)目標(biāo)檢測(cè)。加權(quán)P-N學(xué)習(xí)考慮樣本權(quán)重,提高分類器分類準(zhǔn)確度。K均值(K-means)聚類算法對(duì)在線模板集聚類,形成二值樹,減少模板匹配數(shù)量,降低計(jì)算復(fù)雜度。
在原有FoT跟蹤器基礎(chǔ)上,增強(qiáng)FoT利用局部跟蹤器時(shí)空上下文信息增添時(shí)空上下文預(yù)測(cè)器,并與NCC(Normalized Cross Correlation)預(yù)測(cè)器[13]構(gòu)成級(jí)聯(lián)預(yù)測(cè)器,對(duì)局部跟蹤器進(jìn)行預(yù)測(cè)。快速RANSAC算法利用跟蹤成功的局部跟蹤器評(píng)估全局運(yùn)動(dòng)模型,預(yù)測(cè)下一幀中目標(biāo)位置信息,圖1為增強(qiáng)FoT框圖。

圖1 增強(qiáng)FoT框圖
2.1 級(jí)聯(lián)預(yù)測(cè)器
級(jí)聯(lián)預(yù)測(cè)器由NCC預(yù)測(cè)器、時(shí)空上下文預(yù)測(cè)器構(gòu)成,3種預(yù)測(cè)器間采用級(jí)聯(lián)關(guān)系,局部跟蹤器只有符合3種預(yù)測(cè)器的條件才認(rèn)定為跟蹤成功,否則跟蹤失敗。時(shí)間上下文預(yù)測(cè)器利用時(shí)間上下文信息構(gòu)建馬爾科夫鏈模型,根據(jù)當(dāng)前時(shí)刻的信息預(yù)測(cè)下一時(shí)刻局部跟蹤器正確跟蹤的概率,判斷局部跟蹤器是否跟蹤成功,具體實(shí)現(xiàn)參考文獻(xiàn)[11]。空間上下文預(yù)測(cè)器利用空間上下文信息假定短時(shí)間內(nèi)相鄰局部跟蹤器之間具有運(yùn)動(dòng)一致性,利用這一特性通過相鄰跟蹤器預(yù)測(cè)局部跟蹤器是否跟蹤成功,圖2為空間上下文預(yù)測(cè)器預(yù)測(cè)過程。
如圖2所示,x為跟蹤器i的參考點(diǎn),每一對(duì)相關(guān)性 i, j ∈ 1,2,3,4得出相似性矩陣變換 Tij,通過得到的變換矩陣對(duì)x變換,映射誤差為符合條件的點(diǎn)即在以 x'為圓心,ijε為半徑的區(qū)域內(nèi)ijx? 點(diǎn)的個(gè)數(shù)達(dá)到設(shè)定的閾值時(shí),認(rèn)定x跟蹤成功。
2.2 快速RANSAC
快速 RANSAC算法能夠從包含大量外點(diǎn)的數(shù)據(jù)集合中快速、準(zhǔn)確地估計(jì)出最優(yōu)參數(shù)模型,并使用貝葉斯算法更新內(nèi)點(diǎn)集合的概率,減少迭代次數(shù),降低模型失敗的概率。因此,根據(jù)級(jí)聯(lián)預(yù)測(cè)器得到局部跟蹤器集合,采用快速 RANSAC算法評(píng)估目標(biāo)最優(yōu)全局運(yùn)動(dòng)模型,提高跟蹤器對(duì)目標(biāo)位置的預(yù)測(cè)精度,解決目標(biāo)漂移問題,具體實(shí)現(xiàn)參考文獻(xiàn)[15]。
深度檢測(cè)器由3個(gè)部分構(gòu)成:(1)滑動(dòng)窗口,利用多尺度滑動(dòng)窗口全局掃描輸入圖像;(2)SDAE編碼器,即深度去噪自編碼器的編碼器部分,提取多尺度掃描窗口內(nèi)圖像的特征,對(duì)圖像信息進(jìn)行有效表達(dá);(3)線性SVM分類器[17]二值分類提取的特征向量,預(yù)測(cè)窗口圖像為目標(biāo)或背景。滑動(dòng)窗口策略參見文獻(xiàn)[13]。
3.1 SDAE

圖2 空間上下文預(yù)測(cè)器預(yù)測(cè)過程
SDAE從施加噪聲的訓(xùn)練集中學(xué)習(xí)、重構(gòu)原始數(shù)據(jù),通過優(yōu)化重構(gòu)誤差提高深度網(wǎng)絡(luò)對(duì)噪聲的魯棒性。采用無監(jiān)督特征學(xué)習(xí)和逐層貪婪算法[18]預(yù)訓(xùn)練多個(gè)自編碼器,預(yù)訓(xùn)練過程如圖 3(a)。每個(gè)編碼器隱藏層的網(wǎng)絡(luò)單元都為輸入層網(wǎng)絡(luò)單元的一半,直到隱藏層網(wǎng)絡(luò)單元數(shù)減到256為止。預(yù)訓(xùn)練完成后,展開多個(gè)自編碼器得到 SDAE,并添加超完備濾波層(2560),SDAE網(wǎng)絡(luò)結(jié)構(gòu)如圖3(b)所示。為獲得更有效的網(wǎng)絡(luò)參數(shù),反向傳播原始數(shù)據(jù)與重構(gòu)數(shù)據(jù)之間誤差微調(diào)整個(gè)網(wǎng)絡(luò),微調(diào)后網(wǎng)絡(luò)結(jié)構(gòu)如圖3(c)。由圖 3(b)、圖 3(c)的輸出結(jié)果可看出,微調(diào)后得到的重構(gòu)數(shù)據(jù)更接近原始數(shù)據(jù),實(shí)現(xiàn)了網(wǎng)絡(luò)參數(shù)優(yōu)化。
3.2 SVM分類器
在二值分類問題中,用線性 SVM 分類器取代傳統(tǒng)的 sigmoid分類器,提高深度檢測(cè)器對(duì)相似目標(biāo)的辨識(shí)能力,解決目標(biāo)漂移或跟蹤丟失問題,分類與微調(diào)過程如下。
假定訓(xùn)練樣本為(xn,yn),n = 1,2…, ,N, nx∈,無約束條件的SVM優(yōu)化問題為

式中,C為規(guī)則參數(shù),式(1)為標(biāo)準(zhǔn)hinge loss函數(shù)的二階范數(shù)優(yōu)化問題(L2-SVM)。
預(yù)測(cè)數(shù)據(jù)x的類標(biāo)記公式為

為了進(jìn)一步優(yōu)化深度分類神經(jīng)網(wǎng)絡(luò),利用經(jīng)典的反向傳播算法,通過 SVM 分類器微調(diào)整個(gè)深度網(wǎng)絡(luò)。令等式(3)為目標(biāo)函數(shù)()lw,倒數(shù)第2層的激活值h取代輸入數(shù)據(jù)x,優(yōu)化公式為


圖3 SDAE構(gòu)建圖
在線P-N學(xué)習(xí)算法[9]在標(biāo)記樣本過程中常出現(xiàn)錯(cuò)誤標(biāo)記問題,用錯(cuò)誤標(biāo)記的樣本訓(xùn)練分類器,很大程度上降低分類器性能,導(dǎo)致目標(biāo)偏移甚至跟蹤失敗。為解決上述問題,在分類過程中,對(duì)訓(xùn)練集合中每個(gè)樣本賦予兩類權(quán)值:正樣本權(quán)值W+、負(fù)樣本權(quán)值W-。正、負(fù)樣本權(quán)值分別由兩部分構(gòu)成:

式中,Wb為自擴(kuò)散(boostrapping)分類過程賦予的權(quán)值,Wc為SVM分類過程賦予的權(quán)值。+表示正樣本,-表示負(fù)樣本。

其中,f+,f-分別為樣本被分類為正樣本、負(fù)樣本的次數(shù)。
在分類過程中,SVM分類器二值分類編碼器提取的特征向量 x,每個(gè)圖像塊被分類為正樣本的后驗(yàn)概率為 P( y = 1|x ),則分類權(quán)值計(jì)算公式為

樣本被最后被分類為正樣本或負(fù)樣本的計(jì)算公式為

圖4為算法流程圖。
離線訓(xùn)練階段,將32 32× 自然圖像集[19]進(jìn)行歸一化處理,并用1024維特征向量表示,每一維對(duì)應(yīng)一個(gè)像素。利用預(yù)處理的數(shù)據(jù),通過無監(jiān)督特征學(xué)習(xí)預(yù)訓(xùn)練 SDAE。預(yù)訓(xùn)練完成后,根據(jù)輸入數(shù)據(jù)和重構(gòu)數(shù)據(jù)之間的誤差,通過經(jīng)典反向傳播算法微調(diào)整個(gè)網(wǎng)絡(luò)。遷移學(xué)習(xí)將預(yù)訓(xùn)練得到SDAE的編碼器轉(zhuǎn)化到在線跟蹤過程中。
為加快第1層預(yù)訓(xùn)練過程,將大小32 32× 的自然圖像分為5個(gè)大小為16 16× 的圖像塊,位置分別在左上角、右上角、左下角、右下角及中心,然后訓(xùn)練這5個(gè)有512個(gè)隱藏單元的自編碼器,根據(jù)5個(gè)編碼器的權(quán)值初始化第1層的自編碼器。

圖4 算法流程圖
在線跟蹤初始化階段,首先在第1幀圖像中手動(dòng)選取待跟蹤的目標(biāo),并對(duì)目標(biāo)圖像扭曲、旋轉(zhuǎn)、縮放建立完整的目標(biāo)全視角數(shù)據(jù)庫[20],以此作為正樣本,這對(duì)目標(biāo)旋轉(zhuǎn)、縮放、外觀局部變化等都具有很好的魯棒性,選取目標(biāo)周圍的背景區(qū)域作為負(fù)樣本,通過正負(fù)樣本集有監(jiān)督訓(xùn)練深度檢測(cè)器。正負(fù)樣本集通過SDAE編碼器提取樣本特征,利用提取特征集和類標(biāo)記訓(xùn)練SVM分類器。
在線跟蹤階段,增強(qiáng)FoT跟蹤器和深度檢測(cè)器并行處理每一幀圖像,增強(qiáng)FoT跟蹤器預(yù)測(cè)當(dāng)前幀中目標(biāo)所在的位置,深度檢測(cè)器檢測(cè)一個(gè)或多個(gè)可能的目標(biāo)位置,整合模塊整合檢測(cè)結(jié)果和跟蹤結(jié)果,得到當(dāng)前幀是否存在目標(biāo)、目標(biāo)位置及當(dāng)前幀跟蹤軌跡是否有效等信息。加權(quán)P-N學(xué)習(xí)更新跟蹤器和檢測(cè)器。
TLD中模板更新策略雖然適應(yīng)目標(biāo)外觀變化及光照等外界環(huán)境影響,但是使在線模板數(shù)量不斷增加,從而增加匹配過程中的計(jì)算復(fù)雜度。利用K-means算法,將在線模板分為兩個(gè)子集合,構(gòu)成二值樹,計(jì)算復(fù)雜度從原來的 ()O n簡(jiǎn)化為 (lg)O n,從而減少了時(shí)間復(fù)雜度。
第1部分為TLD對(duì)比實(shí)驗(yàn),包括跟蹤器、檢測(cè)器及在線學(xué)習(xí)性能對(duì)比。用序列 David[13],Jumping[13],Pedestrian1[13[13],Car[13]對(duì)跟蹤器進(jìn)行性能比較,其中TFB+NCC為TLD的跟蹤器,Tcascade為有級(jí)聯(lián)預(yù)測(cè)器的跟蹤器,Tcascade+RANSAC為有級(jí)聯(lián)預(yù)測(cè)器和快速 RANSAC的跟蹤器。通過成功跟蹤目標(biāo)幀數(shù)對(duì)短時(shí)跟蹤器進(jìn)行性能評(píng)估,跟蹤結(jié)果與真實(shí)位置之間的重疊率大于0.5,認(rèn)定為跟蹤成功,表1為3種跟蹤器成功跟蹤幀數(shù)對(duì)比結(jié)果。
從表 1可得,Tcascade+RANSAC成功跟蹤目標(biāo)的幀數(shù)多于其他兩種跟蹤器,因?yàn)榧?jí)聯(lián)預(yù)測(cè)器過濾掉沒有正確跟蹤局部跟蹤器,即外點(diǎn),減少外點(diǎn)對(duì)全局跟蹤模型的干擾,同時(shí)快速 RANSAC有效評(píng)估全局跟蹤模型,有效解決目標(biāo)漂移問題,實(shí)現(xiàn)更魯棒的目標(biāo)跟蹤。
檢測(cè)器性能比較,TLD算法中檢測(cè)器是基于2 bit BP特征和級(jí)聯(lián)分類器,本文算法中檢測(cè)器是基于深度學(xué)習(xí)和 SVM 分類器,兩者均采用滑動(dòng)窗口策略,圖5,圖6為跟蹤結(jié)果。
如圖5所示,在Freeman1[1],Pktest01[21]序列中,TLD算法(黑色虛線)均出現(xiàn)誤匹配問題,將背景或相似目標(biāo)作為跟蹤結(jié)果,本文算法(黑色實(shí)線)可實(shí)現(xiàn)正確的跟蹤。由于TLD算法僅使用像素級(jí)特征(2 bit BP)進(jìn)行分類與模板匹配,將匹配度最高的作為跟蹤結(jié)果,在相似背景的干擾下,極易產(chǎn)生錯(cuò)誤匹配問題,而本文算法利用深度學(xué)習(xí)對(duì)目標(biāo)進(jìn)行有效表達(dá),減少分類誤差,解決誤匹配問題,對(duì)場(chǎng)景中相似目標(biāo)具有更高的辨識(shí)能力。如圖 6所示,在Woman[1],Subway[1]序列中,TLD(黑色虛線)首先是出現(xiàn)漂移問題,之后在遮擋、相似目標(biāo)的干擾下,跟蹤失敗。本文算法(黑色實(shí)線)在樣本數(shù)不足時(shí),可實(shí)現(xiàn)魯棒的跟蹤。這是因?yàn)楫?dāng)訓(xùn)練樣本數(shù)量不足時(shí),TLD算法訓(xùn)練得到級(jí)聯(lián)分類器分類能力差,導(dǎo)致目標(biāo)偏移甚至跟蹤失敗。而本文算法可利用自然圖像數(shù)據(jù)預(yù)訓(xùn)練深度網(wǎng)絡(luò),再利用遷移學(xué)習(xí)將預(yù)訓(xùn)練知識(shí)應(yīng)用到在線跟蹤中,克服訓(xùn)練樣本不足問題。

表1 目標(biāo)成功跟蹤幀數(shù)
在線學(xué)習(xí)機(jī)制對(duì)比實(shí)驗(yàn),經(jīng) David[13],Carchase[13],Panda[13]序列測(cè)試,圖7為加權(quán)P-N學(xué)習(xí)與P-N學(xué)習(xí)跟蹤結(jié)果對(duì)比圖,每組圖片中第1列為目標(biāo)的真實(shí)位置,第2列P-N學(xué)習(xí)跟蹤結(jié)果,第3列為加權(quán)P-N學(xué)習(xí)跟蹤結(jié)果,可以看出P-N學(xué)習(xí)在跟蹤過程中產(chǎn)生不同程度的目標(biāo)漂移問題,加權(quán)P-N學(xué)習(xí)考慮樣本權(quán)重,提高分類器的精確度,解決目標(biāo)漂移問題。
第 2部分為與目前流行的 BSBT[22],coGD[23],CXT[24]算法進(jìn)行定性對(duì)比實(shí)驗(yàn),圖8為4種跟蹤算法在Carchase[13],Panda[13]序列的跟蹤結(jié)果。
在Carchase序列中跟蹤目標(biāo)為運(yùn)動(dòng)的小車,小車在運(yùn)動(dòng)過程中常受到遮擋、相似背景及尺度變化等復(fù)雜環(huán)境的影響。在238幀中由于相似目標(biāo)的干擾,CXT和coGD算法出現(xiàn)目標(biāo)漂移,BSBT算法常出現(xiàn)錯(cuò)誤跟蹤,本文算法可實(shí)現(xiàn)正確的跟蹤。在682,1290幀,CXT和coGD算法均已跟蹤失敗,BSBT算法同樣出現(xiàn)錯(cuò)誤跟蹤問題,本文算法依然具有穩(wěn)定跟蹤。這是由于coGD,CXT,BSBT算法均采用像素級(jí)特征,不能對(duì)圖像進(jìn)行有效的表達(dá),所以在相似背景條件下常出現(xiàn)目標(biāo)漂移甚至錯(cuò)誤跟蹤,本文算法利用深度網(wǎng)絡(luò)提取圖像本質(zhì)特征,即使有相似目標(biāo)的干擾,依然可以實(shí)現(xiàn)正確跟蹤。
在Panda序列中大熊貓?jiān)谛凶邥r(shí)姿態(tài)不斷發(fā)生改變,BSBT,CXT,coGD算法在跟蹤前期就出現(xiàn)漂移現(xiàn)象,之后在 472幀,CXT和coGD算法出現(xiàn)目標(biāo)漂移,BSBT已跟蹤失敗,但本文算法依然能夠?qū)崿F(xiàn)穩(wěn)定跟蹤。在 1472幀目標(biāo)重新出現(xiàn)在視場(chǎng)中,本文算法能夠重新準(zhǔn)確的定位到目標(biāo),BSBT算法出現(xiàn)目標(biāo)漂移現(xiàn)象,CXT和coGD算法均跟蹤失敗。由于目標(biāo)在行走中姿態(tài)不斷變化,導(dǎo)致BSBT,CXT,coGD算法在線學(xué)習(xí)過程中訓(xùn)練樣本不足,同時(shí)樣本得不到及時(shí)更新,得到的分類器分類精度不高,最終導(dǎo)致目標(biāo)漂移甚至跟蹤失敗。由于跟蹤過程中可用訓(xùn)練樣本數(shù)量很少,本文算法可利用自然圖像集預(yù)訓(xùn)練深度檢測(cè)器,優(yōu)化網(wǎng)絡(luò)參數(shù),將預(yù)訓(xùn)練得到的深度檢測(cè)器應(yīng)用到在線跟蹤過程中,解決訓(xùn)練樣本不足導(dǎo)致的分類精度不高問題,實(shí)現(xiàn)魯棒的跟蹤。
第3部分為與MIL[3],OAB[6],SBT[7]跟蹤算法定量對(duì)比實(shí)驗(yàn),這些算法參數(shù)均使用默認(rèn)值,具體實(shí)現(xiàn)參考相應(yīng)文獻(xiàn)。使用準(zhǔn)確率、召回率判定算法優(yōu)越性,為了使結(jié)果更加一般化,每個(gè)算法在每組序列上均進(jìn)行20次測(cè)試,取其平均值作為最后的跟蹤結(jié)果,跟蹤結(jié)果準(zhǔn)確率如表2所示。

圖5 誤匹配跟蹤結(jié)果

圖6 訓(xùn)練樣本不足跟蹤結(jié)果

圖7 加權(quán)P-N學(xué)習(xí)與P-N學(xué)習(xí)跟蹤結(jié)果
準(zhǔn)確率越高表明算法跟蹤精度越高,由表2可得,在David等[13]10組圖片序列中,本文算法的準(zhǔn)確率有6組結(jié)果為最好,3組為次好結(jié)果,表明本文算法在復(fù)雜環(huán)境下如遮擋、相似背景、劇烈運(yùn)動(dòng)等具有更高跟蹤精度。召回率越高表明算法能夠正確檢測(cè)及跟蹤目標(biāo)的幀數(shù)越多,魯棒性越好。表 3為跟蹤結(jié)果的召回率,由表3可得,本文算法的召回率均高于其他算法,表明本文算法在目標(biāo)可見時(shí),實(shí)現(xiàn)成功跟蹤的比率更大,魯棒性更好。

圖8 跟蹤結(jié)果對(duì)比圖

表2 平均準(zhǔn)確率

表3 平均召回率
本文提出以TLD為框架,基于增強(qiáng)FoT和深度學(xué)習(xí)的目標(biāo)跟蹤算法,基于時(shí)空上下文的級(jí)聯(lián)預(yù)測(cè)器和快速 RANSAC算法提高跟蹤器的穩(wěn)定性。深度學(xué)習(xí)與線性 SVM 構(gòu)建深度檢測(cè)器,克服了基于外觀模型和傳統(tǒng)機(jī)器學(xué)習(xí)目標(biāo)跟蹤算法的缺點(diǎn),將深度學(xué)習(xí)與計(jì)算機(jī)視覺(SVM)相結(jié)合應(yīng)用到目標(biāo)跟蹤領(lǐng)域。在復(fù)雜環(huán)境下與其他跟蹤算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,本算法在復(fù)雜環(huán)境下具有更高的準(zhǔn)確性和魯棒性,具有極高的實(shí)用價(jià)值。下一步工作利用核SVM、隨機(jī)深林等分類器取代線性SVM分類器,進(jìn)一步提高分類精確度。
[1] Wu Y,Lim J,and Yang M H. Online object tracking:A benchmark[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:2411-2418.
[2] Ross D A,Lim J,Lin R S,et al.. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision,2008,77(3):125-141.
[3] Babenko B,Yang M H,and Belongie S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632.
[4] 陳東成,朱明,高文,等. 在線加權(quán)多示例學(xué)習(xí)實(shí)時(shí)目標(biāo)跟蹤[J]. 光學(xué)精密工程,2014,22(6):1661-1667.
Chen Dong-cheng,Zhu Ming,Gao Wen,et al.. Real-time object tracking via online weighted multiple instance learning[J]. Optics and Precision Engineerin,2014,22(6):1661-1667.
[5] He S F,Yang Q X,Rynson L,et al.. Visual Tracking via Locality Sensitive Histograms[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:2427-2434.
[6] Grabner H,Grabner M,and Bischof H. Real-time tracking via online boosting[C]. Proceedings of British Machine Vision Conference,Edinburgh,UK,2006:47-56.
[7] Grabner H,Leistner C,and Bischof H. Semi-supervised on-line boosting for robust tracking[C]. Proceedings of European Conference on Computer Vision,Berlin,Germany,2008:234-247.
[8] 顏佳,吳敏淵. 遮擋環(huán)境下采用在線 Boosting的目標(biāo)跟蹤[J].光學(xué)精密工程,2012,20(2):439-446.
Yan Jia and Wu Ming-yuan. On-line boosting based target tracking under occlusion[J]. Optics and Precision Engineering,2012,20(2):439-446.
[9] Kalal Z,Matas J,and Mikolajczyk K. P-N learning:bootstrapping binary classifiers by structural constraints[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,New York,USA,2010:49-56.
[10] 鄭胤,陳權(quán)崎,章毓晉. 深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J]. 中國(guó)圖像圖形學(xué)報(bào),2014,19(2):175-184.
Zheng Ying,Chen Quan-qi,and Zhang Yu-jin. Deep learning and its new progress in object and behavior recognition[J]. Journal of Image and Graphic,2014,19(2):175-184.
[11] Tomas V and Jiri M. Robustifying the flock of trackers[C]. Proceedings of Computer Vision Winter Workshop,Graz,Austria,2011:91-97.
[12] 周鑫,錢秋朦,葉永強(qiáng),等. 改進(jìn)后的TLD視頻目標(biāo)跟蹤方法[J]. 中國(guó)圖象圖形學(xué)報(bào),2013,18(9):1115-1123.
Zhou Xin,Qian Qiu-meng,Ye Yong-qiang,et al.. Improved TLD visual target tracking algorithm[J]. Journal of Image and Graphic,2013,18(9):1115-1123.
[13] Kalal Z,Mikolajczyk K,and Matas J. Tracking-learningdetection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409-1422.
[14] Zhang K,Zhang L,Liu Q,et al.. Fast visual tracking via dense spatio-temporal context learning[C]. Proceedings of European Conference on Computer Vision,Zurich,Switzerland,2014:127-141.
[15] Botterill T,Mills S,and Green R D. New conditional sampling strategies for speeded-up RANSAC[C]. Proceedings of British Machine Vision Conference,London,UK,2009:1-11.
[16] Vincent P,Larochelle H,Lajoie I, et al.. Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research,2010,11(2):3371-3408.
[17] Tang Yi-chuan. Deep learning using linear support vector machines[C]. Proceedings of International Conference on Machine Learning:Challenges in Representational Learning Workshop,Atlanta,USA,2013:266-272.
[18] Hinton G E and Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.
[19] Torralba A,F(xiàn)ergus R,and Freeman W T. 80 million tiny images:a large data set for nonparametric object and scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1958-1970.
[20] 高文,湯洋,朱明. 復(fù)雜背景下目標(biāo)檢測(cè)的級(jí)聯(lián)分類器算法研究[J]. 物理學(xué)報(bào),2014,63(9):094204.
Gao Wen,Tang Yang,and Zhu Ming. Study on the cascade classifier in target detection under complex background[J]. Acta Physica Sinica,2014,63(9):094204.
[21] Collins R T,Zhou X H,and Teh S K. An open source tracking test bed and evaluation web site[C]. Proceedings of IEEE International Workshop on Performance Evaluation ofTracking and Surveillance,Breckenridge,USA,2005:17-24.
[22] Stalder S,Grabner H,and Van G L. Beyond semi-supervised tracking:tracking should be as simple as detection,but not simpler than recognition[C]. Proceedings of IEEE Conference on Computer Vision Workshops,Kyoto,Japan,2009:1409-1416.
[23] Dinh T B,Vo N,and Medion G. Context tracker:exploring supporters and distracters in unconstrained environments[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Providence,USA,2011:1177-1184.
[24] Qian Yu,Thang B D,and Gerard M. Online tracking and reacquisition using co-trained generative and discriminative trackers[C]. Proceedings of European Conference on Computer Vision,Marseille,F(xiàn)rance,2008:678-691.
程 帥: 男,1987年生,博士生,研究方向?yàn)閳D像處理、目標(biāo)跟蹤、深度學(xué)習(xí).
曹永剛: 男,1972年生,博士生,研究員,研究方向?yàn)楣怆姕y(cè)控設(shè)備總體及時(shí)統(tǒng)技術(shù).
孫俊喜: 男,1971年生,博士,教授,研究方向?yàn)槟J阶R(shí)別與智能系統(tǒng)、目標(biāo)的檢測(cè)與跟蹤、嵌入式車牌識(shí)別系統(tǒng)、醫(yī)學(xué)圖像處理與分析.
趙立榮: 女,1971年生,博士,研究員,研究方向?yàn)橐曨l判讀、數(shù)據(jù)處理等.
劉廣文: 男,1971年生,博士,副教授,研究方向?yàn)橹悄苄畔⑻幚?
韓廣良: 男,1968年生,博士,研究員,研究方向?yàn)閷?shí)時(shí)視頻處理、視頻目標(biāo)識(shí)別和跟蹤、計(jì)算機(jī)視覺.
Target Tracking Based on Enhanced Flock of Tracker and Deep Learning
Cheng Shuai①Cao Yong-gang①②Sun Jun-xi③Zhao Li-rong①②Liu Guang-wen①Han Guang-liang②
①(School of Electronic Information Engineering,Changchun University of Science and Technology,Changchun 130022,China)
②(Changchun Institute of Optics, Fine Mechanics and Physics,Chinese Academy of Sciences,Changchun 130000, China)
③(School of Computer Science and Information Technology,Northeast Normal University,Changchun 130117,China)
To solve the problem that the tracking algorithm often leads to drift and failure based on the appearance model and traditional machine learning,a tracking algorithm is proposed based on the enhanced Flock of Tracker(FoT) and deep learning under the Tracking-Learning-Detection (TLD) framework. The target is predicted and tracked by the FoT,the cascaded predictor is added to improve the precision of the local tracker based on the spatio-temporal context,and the global motion model is evaluated by the speed-up random sample consensus algorithm to improve the accuracy. A deep detector is composed of the stacked denoising autoencoder and Support Vector Machine (SVM),combines with a multi-scale scanning window with global search strategy to detect the possible targets. Each sample is weighted by the weighted P-N learning to improve the precision of the deep detector. Compared with the state-of-the-art trackers,according to the results of experiments on variant challenging image sequences in the complex environment,the proposed algorithm has more accuracy and better robust,especially for the occlusions,the background clutter and so on.
Computer vision;Flock of Tracker (FoT);Tracking-Learning-Detection (TLD);Deep learning;Support Vector Machine (SVM);Deep detector
TP391.4
A
1009-5896(2015)07-1646-08
10.11999/JEIT141362
2014-10-29收到,2015-03-23改回,2015-06-01網(wǎng)絡(luò)優(yōu)先出版
國(guó)家自然科學(xué)基金(61172111)和吉林省科技廳項(xiàng)目(20090512,20100312)資助課題
*通信作者:孫俊喜 juxi_sun@126.com