陳昭炯 葉東毅 林德威
目標跟蹤是計算機視覺領域的一個重要分支,具有廣泛的應用前景。其主要任務可以描述為:給出一組視頻序列和某個目標在序列第一幀中的位置,要求獲得該目標在后續所有幀中的位置.目標跟蹤問題圍繞著視頻的來源、應用場景需求和算法框架等因素分成多個分支,在線單目標跟蹤是其中最為基礎且研究內容最多的方向[1].此類跟蹤系統一般分為初始化、目標建模與更新、候選目標采樣、位置確定四個部分.系統抽取目標的外觀或運動特征進行建模,對采樣獲取的候選目標進行匹配、分類等甄別,最終確定下一幀目標的預測位置.其中目標建模與更新和候選目標采樣方法是當前研究的熱點,特別是目標建模與更新是影響最終跟蹤效果的重要因素.
目標的建模與更新方法通常可分成產生式和判別式兩類.產生式模型通過對特征的抽取建立目標外觀的先驗分布,而后在候選樣本中搜索與先驗模型最為匹配的區域作為下一幀中目標的位置,并對先驗模型進行實時更新;判別式模型是近年來逐漸興起的方法,其思路是將跟蹤問題看成一個分類問題,常用的分類器有貝葉斯分類器[2]、支持向量機(Support vector machines,SVM)[3]以及近年提出的相關濾波器[4-6]等,判別式模型通過在線學習訓練分類器,利用訓練好的分類器對候選目標進行分類,得分最高且分類標簽為正的候選樣本作為最終結果輸出,而后對分類器進行更新.可以看到,兩種方法各有特點,前者著眼于對目標整體的刻畫,通用性較好,但對目標特征的依賴程度較高,如果特征的表征能力粗糙或者采用的特征單一化就可能造成目標模型不準確,且產生式建模未利用背景的信息,而目標位置通常以矩形框形式呈現,這就不可避免地造成了背景混入目標,在后續的匹配中可能帶來誤判;判別式模型利用了前景和背景信息,區分度較好,但是通用性不強.而混合式模型旨在結合兩者優點[7],但融合方式或參數確定困難,研究成果較少[8].
不論是產生式還是判別式模型首先都需要對對象特征進行有效的刻畫和提取,好的模型特征通常應具有尺度不變、旋轉不變等特性,才能適應運動目標可能發生的外觀變化.常用的特征有顏色特征[3,6,9-10]、刻畫形狀或紋理的方向梯度直方圖(Histogram of oriented gradient,HOG) 特征[5,11]、主方向直方圖(Histogram of dominant orientations,HDO) 特征[12]和Harr-like 特征[2-3]等,在特定的情況下單獨使用上述特征可能有不錯的表現,而不同類型特征的結合則有更強的適應性[6].近年來也有學者利用深度學習在特征刻畫上的優勢,探討其在跟蹤方面的應用[13-15],但由于視頻目標跟蹤是典型的小樣本在線學習問題,且對實時性要求極高,而以處理大數據見長的、規模龐大的深度網絡在上述兩方面難以發揮優勢,還有許多關鍵問題亟待解決[16-17].
在目標建模中顏色是非常重要的特征之一,顏色特征對姿態和旋轉不敏感、計算簡單,在目標跟蹤方法中得到廣泛應用,但其缺點是容易受到外界光照變化的影響,當出現顏色相似的目標或背景時模型表征能力會下降.常用的顏色特征有基于加權直方圖分布的[3,6,9-10,18]特征和基于Color name[19]的特征.本文通過分析發現,前者存在構建模型的假設條件不夠合理、同一區間長度中的差異色無法分辨等不足;后者將顏色信息投影到11 維常用顏色名空間中,本質上是一種簡化了的直方圖分布模型,由于區間數不多而區間長度較大,同樣會產生視覺上有差異的顏色落入同一區間而無法區分的問題.此外,上述兩種方式還易受背景信息干擾.
本文首先針對上述顏色直方圖表征目標的不足,設計了一種新的顏色表示模型,即背景抑制的目標顏色模型,并提出基于人眼感知特性的動態權重函數來計算顏色分布的重要性,該模型能夠有效區分同一區間中的差異色且降低背景色在模型中的權重;其次,本文將產生式和判別式模型相結合,利用上述新的顏色模型構建產生式跟蹤器,同時引入相關濾波器[5],結合HOG 特征構建判別式的形狀跟蹤器,從顏色和形狀兩方面刻畫目標和背景,將產生式和判別式的優勢結合;在兩者結合的參數設計這一關鍵問題上,本文利用兩個跟蹤器對候選目標的相關響應值,來判定對應場景中顏色和形狀特征各自的可信度,分析并設計了參數選擇的定性原則,同時通過場景的判定對跟蹤器實施不同力度的更新策略,提升了算法的整體魯棒性;算法采用粒子群算法的搜索機制進行候選目標采樣,在滿足搜索精度的基礎上還能保有搜索的廣度,其最大的優勢是可追隨目標尺度的變化.本文算法在OTB-2015 公測數據集[20]上與其他算法進行對比實驗,在絕大多數情況下準確率較對比算法更優且能滿足實時性要求.
顏色通常是快速辨別目標的一個重要因素,許多跟蹤算法把顏色作為重要的建模特征之一.
目前廣泛采用的顏色分布模型是以帶權重的顏色分布直方圖作為特征的[3,9-10,18].該模型對半遮擋、旋轉或尺度變化具有較好的魯棒性,且計算簡潔,工程上容易實現.但分析表明,該模型存在如下較大的局限性:
1) 顏色直方圖無法區分同一區間內相近但視覺上能感知的差異色.在建立顏色分布模型時,需要考慮區間的個數和每個區間的長度,若區間數太多、區間長度過短,雖然可以比較細致地表達顏色,但是計算量大,影響跟蹤的實時性,還可能導致模型對顏色變化過于敏感,出現跟蹤丟失的情況,因而在實際應用中,通常不采用區間數過多的直方圖分布設計;但是若采取區間長度較長、區間數較少的方案,例如前述的Color name 模型[19],則會帶來顏色表達能力的下降,視覺上有差異的顏色可能落入同一區間無法分辨,進而導致錯誤跟蹤.以圖1 為例,圖中兩個色塊的差異人眼很容易分辨,其RGB 值分別是(0,128,128) 和(11,131,158),但模型卻將它們視為相同而歸入11 維區間中的同一區間段.
2) 傳統模型采用隨目標框中心向外逐漸遞減的權重函數來計算直方圖的分布,而目標的許多實際情況并不符合這種函數形態.

圖1 同一區間內的相近色Fig.1 Similar colors within the same interval
一般情況下,跟蹤過程通常采用矩形框表示目標區域.記r為目標框內當前點與中心的距離,權重函數k(r) 是一個與r成正比的核函數[21],典型的形式為

式(1) 表明越靠近目標框中心的顏色其權重越大,相應的顏色信息越重要.圖2 中矩形框為檢測過程標定的目標區域,曲線框代表目標的實際輪廓,容易看出靠近矩形框中心的右下部分實際上是背景區,如果按照上述權重計算方式,大量的背景顏色信息會混入到目標顏色模型中.這種情況在與圖2 類似的具有凹形或空心的目標形態出現時尤為明顯;更嚴重的問題是,此時處在目標區中心的背景信息被賦予了很高的權重,造成目標模型的顏色分布不僅和真實的顏色分布相差較大,反而和背景模型的顏色分布相差無幾,這容易造成跟蹤方向背離目標而指向背景區域.

圖2 目標框與實際目標形狀差異Fig.2 Shape difference between the tracking box and the real object
為了解決上述問題,本文的思路是對顏色模型的結構形式進行重新設計,將區間的均值和方差納入到模型中,在每一區間內對其顏色分布進行二次統計,如此即可較好地應對同一區間視覺上有差異的顏色的區分問題.

其中,bu為如下四元組:

pu為該區間顏色在圖像中的出現頻值,μu為區間顏色均值,為區間顏色方差,計算式為

其中,δ為克羅內克(Kronecker) 函數

其中,wu為權重系數,反映了區間u的顏色在目標顏色模型中的重要程度,式(5) 是與時間t有關的,為簡便計,統一將t略去.下面分析該系數的計算方式.
如第1.1 節所述,目標顏色的重要程度未必與其分布位置必然相關,因此簡單地使用隨空間位置變化的權重函數并不合理.事實上,人類視覺有著長期進化形成的非常有效的捕捉和跟蹤機制,值得算法借鑒.例如人類在觀察對象時更側重關注對象與背景差異較大的部分,如觀察一個身著黑衣的人在夜間行走,會更傾向于關注行人的頭部.即并非目標中的顏色都是起關鍵作用的,只有那些能將目標從背景中分離出來的顏色才是真正重要的.
基于上述分析,本文給權重函數設立的計算原則是,目標框中顏色信息的重要程度與背景相關,與背景差異越大其顏色的特異性在目標識別中越重要,相應的權重也應該更大,這樣即使目標中有與背景相近的顏色,但是因賦予其較小的權重而使其不會在跟蹤中起主導作用,真正起主導作用的是與背景顏色差異較大的目標色,這樣就能有效改善模型中背景易混入目標的不足.
根據該原則計算權重的方式如下:假設在檢測過程已獲取目標框P,將其外擴1~2 個像素寬,得到覆蓋P的一個稍大的矩形框P′,條帶γ=P′-P應不含或含有極少量目標,絕大部分為背景,并且此背景與目標框中的背景是相鄰的,故二者屬于語義上同一背景的可能性較大.可用條帶γ表達目標框中的背景組成,也就是目標框P中混雜的背景色與條帶γ的顏色分布應相似,通過計算γ的顏色分布來刻畫目標框內的背景色,就能從P中較好地將背景色析出,保留真正的差異性目標顏色特征并給予其較大的權重.
計算條帶γ在t時刻的顏色直方圖并歸一化得B(t)={γ1(t),γ2(t),···,γm(t)},如圖3 所示.B(t)中占比越大的顏色區間是背景的概率越大.

圖3 與目標緊鄰的參考背景模型Fig.3 Reference model of background close to the target
t時刻的權重系數wu(t) 也應與區間顏色的均值和方差有關聯,但考慮到其最重要的取值原則是該顏色在背景中占比越大,則取值越小,最終的計算式為

其中,γu(t) 越大,表明區間u的顏色在背景中占的比例越大,此時wu(t) 應越小.當然,也存在另一種可能,就是目標中也包含了與背景相近的顏色,根據算法思想,我們將這種顏色看作是目標的非特異性顏色,也就是無法將目標從背景中區分出來的顏色,對于表征目標沒有實質意義,因此同樣要賦予較小的權重.例如圖3,目標主體是小狗,主要由黑色和灰白色構成,由于灰白色與背景相近,黑色就構成了目標特異色,其權重較大.
顏色是人類視覺系統中常用的一種特征,但有其局限性,因為顏色不是一種固定屬性,會隨著環境的變化而改變,因此考慮增加目標的形狀特征來強化跟蹤效果,構造顏色和形狀兩個跟蹤器.
近年來,相關濾波器[5]因其構造方式簡潔、處理速率較快、魯棒性較好而在目標跟蹤中引起關注和研究[6,22-24],在此引入相關濾波器作為形狀跟蹤器,采用刻畫形狀特征的HOG 描述子[11]作為濾波器的輸入.
假設給定目標候選區f、濾波器h及相關性響應g,根據卷積定理,空域的卷積運算可以在傅里葉域通過元素乘積后反變換完成,故有如下關系:

其中,F 為傅里葉變換,F*(h) 表示F(h) 的復共軛,⊙表示矩陣點乘.
跟蹤初始通常收集一定量的目標表示樣本fi和輸出gi,i=1,2,···,N,通常fi由視頻首幀的真實目標框及其若干偏移框構成,其響應值gi通常是fi中心與真實目標中心距離的高斯函數變換值,通過訓練的方式建立初始濾波器h.記F=F(f),G=F(g),H=F(h),則有:

其中,除號是指矩陣元素相除,為了使濾波器更具魯棒性,H*可通過求解如下最小化問題獲得:

由文獻[5]可知,其最優解H*的表達式為

由此獲得初始化的濾波器.其中濾波器的輸入是采用提取好的HOG 特征.后續隨著視頻推移,濾波器模型需要通過更新公式來更新,參見第4.2.2 節.相關濾波器的詳細介紹可參見文獻[5].
群智能算法因其帶指導的隨機性、不易陷入局部最優、無需求導實現方便、信息可交互等特點得到廣泛運用,在目標跟蹤相關領域也有相關的應用工作出現[25].這種帶隨機搜索機制的群體智能優化算法用于目標跟蹤,相比于傳統的優化方法,具有更高的獲得全局最優的可能性,因而更不易陷入局部最優.同時即便在某一幀算法判斷失誤,由于每個個體保持一定的獨立性,其搜索范圍仍然保有一定的廣度,算法依然有機會找回目標.粒子群算法是群智能方法中一個比較經典、簡潔的算法,本文的候選目標搜索過程通過引入粒子群優化(Particle swarm optimization,PSO) 算法來實現.
粒子s的結構形式設計為s={P,R,V,a},其中,P=(x,y)T為該粒子所代表的矩形區左上角的坐標;R=(rox,roy)T為該區域的長和寬;V=(vox,voy)T表示粒子在x和y方向上的運動速度;a=(aox,aoy)T表示區域在x和y方向上尺寸的變化速度.如圖4 所示.

圖4 粒子模型示意圖Fig.4 Illustration of particle model
在設計粒子模型時,我們將候選框的尺度和變化率也作為粒子可調節的參數,以適應真實場景中對象可能發生的尺度變化.
有效運用PSO 算法的關鍵環節是適應值函數的設計,本文思路是將顏色和形狀兩個跟蹤器的結果在適應值函數中進行組合,通過加權系數反映兩個跟蹤器當前的可信程度,希望組合后粒子si的適應值函數disi能較好地反映粒子的價值,指導當前幀粒子趨近目標的真實位置.
適應值函數式為

其中,di為粒子si與目標顏色模型的距離;gi為形狀跟蹤器對si的響應值;M為粒子種群大小;τ是加權參數,其值反映了當前兩個跟蹤器的可信度,具體確定方法在第4.1 節詳細討論.
當前幀粒子狀態的更新式為

其中,和為粒子si歷史最優解的坐標和尺寸;P*和R*為整個種群歷史最優解的坐標和尺寸;ω1和ω2為2 階慣性參數對角陣;η1,η2,ξ1,ξ2為認知系數;r1,r2,r3,r4為[0,1]中的隨機數.當前后兩次搜索得到的粒子適應值之比近似為1 時,搜索停止.
在每一幀執行完整的一輪粒子群算法找到該幀的最佳目標匹配位置后,下一幀重新開始新一輪搜索,新一幀粒子的初始化過程不必隨機選擇粒子,而要充分利用上一幀的結果.第t+1 幀中搜索最佳匹配位置時,粒子群的初始狀態可以設置為

其中,帶* 號的是上一幀獲得的最優值,δ1,δ2,δ3,δ4為[0,1]中的隨機數.
本文對顏色特征采用產生式建模、對形狀特征采用判別式建模后,獲得了兩個跟蹤器,在給定的場景中最終的目標位置需要對兩個跟蹤器的可信程度進行判定,綜合兩者的結果獲得,這一綜合結果以適應值函數的形式體現在前述粒子群的搜索過程中,參見式(11).記

根據這些信息對當前場景下目標的變化情況作如下分析:若dmin很大,表示所有候選粒子所在區域的顏色都與目標的顏色差異較大,可推斷場景發生了較大的顏色改變,此時顏色信息的可信度下降;若gmax很小,表示所有候選粒子所在區域的對象外觀都與目標差別較大,可推斷場景中目標外形發生較大的改變,此時形狀信息的可信度下降.
設置閾值ε1和ε2,具體有如下4 種狀況(參見圖5):

圖5 顏色與形狀跟蹤器權衡選擇過程圖示Fig.5 Trade-offbetween color tracker and shape tracker
1)dmin≤ε1且gmax>ε2,兩個跟蹤器都工作良好.
2)dmin≤ε1且gmax≤ε2,形狀跟蹤器出現波動,顏色跟蹤器狀態良好.常見的原因是目標發生形變,此時應側重采納顏色跟蹤器的結果.
3)dmin>ε1且gmax>ε2,顏色跟蹤器出現波動,形狀跟蹤器狀態良好.常見的原因是目標受光照變化影響而發生顏色改變,此時應偏向采納形狀跟蹤器的結果.
4)dmin>ε1且gmax≤ε2,兩個跟蹤器同時出現波動,常見的原因是目標丟失或者目標被遮擋,此時應擴大粒子群搜索范圍.
上述分析給出了式(11) 中融合系數τ取值的定性原則,本文實驗中τ取值范圍如下:

其中,ε1=0.2,ε2=0.4.
4.2.1 基于顏色的產生式模型的更新
在當前幀中找到目標最優解后,記最優解對應的顏色模型為O*={b*1,b*2,···,b*m},則顏色模型的更新式為

其中,λ為更新系數.
上述4 種狀況的分析結果也給出了對模型采用不同更新力度的依據.狀況1) 出現時,模型常規化更新;狀況2) 出現時,加大更新力度;狀況3) 出現時,雖然顏色模型出現波動,但是形狀模型仍表現良好,說明目標仍在跟蹤范圍內,只是顏色因光照等原因有變化,為了適應這種變化,更新系數不調整;狀況4) 出現時,目標有可能跟丟,此時應減小更新力度.本文后續實驗中顏色模型更新系數λ的取值范圍如下:

4.2.2 基于形狀的判別式模型的更新
假設已獲取第t幀目標Ft及相關響應Gt,η為權系數,形狀判別器的更新式為

與上述顏色模型更新的分析類似,形狀模型更新系數η的取值范圍如下:

即,狀況1) 出現時,模型常規化更新;狀況2) 出現時,雖然形狀模型出現波動,但是顏色模型仍表現良好,說明目標仍在跟蹤范圍內,只是目標外形可能因柔性運動等原因有變化,為了適應這種變化,更新系數不調整;狀況3) 出現時,加大更新力度;狀況4)出現時,目標有可能跟丟,應減小更新力度.
本文算法的流程如下(參見圖6):
步驟1.對給定目標分別建立顏色和形狀模型.

圖6 本文算法過程示意圖Fig.6 Illustration of the proposed algorithm
a) 建立目標的顏色模型

b) 建立目標的相關濾波器模型(參見第2 節)


步驟2.隨機初始化粒子群的狀態,粒子的具體含義參見第3.1 節.
步驟3.對候選目標進行粒子群搜索獲得最優解.
a) 計算每個粒子si與目標的顏色距離di以及對相關濾波器的響應值gi,i=1,···,M.
b) 根據式(16) 選擇τ值,獲得si的適應值

c) 根據式(12) 獲得粒子下一位置信息.
d) 前后兩次搜索得到的最優粒子適應值之比接近1 時,搜索停止;根據最優粒子結構中的坐標和長、寬值輸出目標框,完成當前幀的搜索任務.
步驟4.粒子狀態更新,模型更新.
a) 根據式(14) 對當前粒子群進行更新,作為下一幀(t+1 時刻) 的初始粒子群si(t+1),i=1,···,M.
b) 根據式(17) 和式(18) 更新顏色模型.
c) 根據式(19) 和式(20) 更新相關濾波器模型.
本文測試數據集OTB-100 取自Visual tracker benchmark[20],包含的視頻序列涉及對象的光照變化、尺度變化、遮擋、形變、模糊、快速移動等多種可能情況,是目前最具影響力的視頻目標跟蹤算法測試數據集[16].實驗環境的技術參數為:英特爾奔騰G3240 的CPU,主頻3.10 GHz,內存8 GB,編程平臺VS2013.
實驗選取了近期兩個同類型且有代表性的跟蹤算法:核相關濾波算法(Kernel correlation filter,KCF) 算法[5]和Staple (Sum of template and pixel-wise learners) 算法[6]作為對比算法.KCF 算法采用基于HOG 特征的相關濾波器建模和密度采樣方式進行候選目標搜索;Staple 算法在KCF 算法基礎上還增加了傳統顏色直方圖建模.
本文使用文獻[17]定義的5 種指標來評價算法性能:中心誤差(Center location error,CLE)、重疊率(Overlap score,OS)、準確率、成功率以及平均幀率.中心誤差和重疊率的計算式為

其中,(xT,yT) 和(xG,yG) 分別表示跟蹤結果和真實目標的中心坐標,RT表示跟蹤算法獲得的目標區域,RG表示真實的目標區域,s(R) 表示區域R的面積;準確率定義為跟蹤結果的CLE值小于閾值tp的幀比率;成功率定義為跟蹤結果的OS值大于閾值ts的幀比率.跟蹤效果越好則CLE值越小,而其他指標越大.
6.1.1 算法總體性能定量對比
圖7 展示了本文算法與其他兩個算法在OTB-2015 數據集的100 個視頻測試的一次通過性(Onepass evaluation,OPE) 的跟蹤準確率和成功率.3個算法都是從視頻首幀的目標真實位置開始跟蹤的.圖7(a) 中括號內的數值表示tp=20 時的準確率;圖7(b) 中括號內的數值表示對應算法成功率曲線下方圍成的面積.從圖7 中可以看出,本文算法在整體性能上優于其他兩個算法.

圖7 3 個算法OPE 跟蹤準確率和成功率圖Fig.7 OPE tracking accuracy rate and success rate of three algorithms
表1 展示了3 個算法在數據集上的平均性能指標.可以看出,KCF 算法雖然幀率較大、實時性好,但是準確率較低;Staple 算法的準確率有所提升,但是幀率低,不能很好滿足實時性要求;而本文算法采用了新的顏色模型,同時結合產生式和判別式模型并加以權衡,以獲取綜合的可信度,綜合性能超過KCF 和Staple 算法,且幀率達到了實時性的要求.

表1 3 個算法的總體性能平均值Table 1 Average global performance of three algorithms
6.1.2 代表性視頻定量實驗結果及分析
表2 列出了3 個算法對測試集中18 個有代表性的視頻序列實驗的具體CLE 指標比較,其中序列特點欄目中,1、2、3、4、5 和6 分別表示快速移動、模糊、尺度變化、形變、光照變化和遮擋.表3 列出了3 個算法對測試集中18 個有代表性的視頻序列實驗的具體OS 指標比較.
從表2 和表3 中可以看出,本文在絕大多數場景中性能優于其他兩個算法,特別是有尺度變化的場景效果優勢較明顯.
第6.1 節定量數值結果給出了3 個算法跟蹤準確率、成功率和時間效率值,本小節針對不同場景下3 個算法的目標捕捉能力,選取若干有代表性的圖像序列做定性的分析.圖8~12 中,跟蹤矩形邊框底部標有五角星代表本文算法結果,三角形代表Staple 算法結果,圓點代表KCF 算法結果.

表2 3 個算法在18 個視頻的CLE 值比較Table 2 CLE values of three algorithms on 18 videos

表3 3 個算法在18 個視頻的OS 指標比較Table 3 OS values of three algorithms on 18 videos

圖8 BlurOwl 圖像序列3 個算法跟蹤截圖Fig.8 Screen shots of tracking with three algorithms on BlurOwl image sequences

圖9 Girl2 圖像序列3 個算法跟蹤截圖Fig.9 Screen shots of tracking with three algorithms on Girl2 image sequences
6.2.1 算法對快速移動且模糊場景的效果
在BlurOwl 圖像序列中,目標的移動速度很快,同時出現不同程度的模糊.KCF 算法和Staple 算法分別在第108 幀和第289 幀開始偏離目標.本文算法對顏色和形狀綜合后的搜索策略能夠在目標快速運動過程中,較好地跟住目標,參見圖8.

圖10 Human5 圖像序列3 個算法跟蹤截圖Fig.10 Screen shots of tracking with three algorithms on Human5 image sequences

圖11 Skating1 圖像序列3 個算法跟蹤截圖Fig.11 Screen shots of tracking with three algorithms on Skating1 image sequences

圖12 Diving 圖像序列3 個算法跟蹤截圖Fig.12 Screen shots of tracking with three algorithms on Diving image sequences
6.2.2 算法對遮擋場景的效果
在Girl2 圖像序列中,目標是騎兒童滑板車的小女孩,視頻中目標多次被遮擋,KCF 算法和Staple算法分別在第118 幀和第1 398 幀之后丟失目標,而本文算法合理的跟蹤機制,特別是模型的更新機制保證了算法始終跟住目標,參見圖9.
6.2.3 算法對尺度變化場景的效果
Human5 圖像序列最大的難點就是尺度變化較大(第230 幀至第272 幀以及第370 幀到第407 幀),同時變化速率快,因此在保證跟住目標的同時準確計算目標尺度是一個挑戰.實驗表明,本文算法相較于Staple 和KCF 算法能更準確地獲得目標尺度,參見圖10.
6.2.4 算法對光照變化場景的效果
Skating1 序列集中,光照條件始終在發生變化.而本文算法由于使用了顏色和形狀的雙特征跟蹤機制,因此能保證目標不丟失,參見圖11.
6.2.5 算法對形變場景的效果
這里的形變主要為非剛體變化,在Diving 序列中,跳水運動員的身軀從伸展到團身然后再展開的三次非剛體變化,這對依靠形狀特征來跟蹤目標的算法是很困難的.可以看到,第19 幀和第143 幀KCF 算法失效,第218 幀Staple 和KCF 兩個算法都失效,而本文算法很好地平衡了形狀和顏色特征在跟蹤算法中的作用,因此能夠跟住目標,參見圖12.
本文設計了一個新的合成式跟蹤算法,其中包含了新的顏色模型表達方式、產生式與判別式模型的融合策略等要素,實驗結果顯示了本文提出的算法在大多數場景中取得了比Staple 和KCF 算法更好的準確率,且滿足實時性要求,表明本文提出的顏色模型的合理性以及目標模型融合和搜索策略的有效性.
在上述工作的基礎上,針對本文算法中的一些不足以及可提升效率的空間,下一階段計劃從以下3個方面進行深入研究.1) 本文提出的顏色模型通過有效地抑制背景、分離出目標的特異色而能夠快速定位目標,但是對目標的尺度變化不夠敏感,后續將進一步研究適應尺度變化的顏色模型.2) 近期關于深度學習的研究工作展現了其在特征刻畫方面的優勢;此外,也有一些研究工作通過輔助目標來提升跟蹤目標判定的準確度[26],下一步考慮如何在不失實時性的前提下,在本文算法框架中引入這些特征和策略.3) 在跟蹤算法中,模型的更新方式通常采用凸組合的形式,其中的組合系數一般根據經驗給出,本文盡管分析了組合系數在4 種不同狀況下的定性取值范圍,但仍未能給出具有理論背景的分析,后續將對此展開研究.