吳 濤,袁 亮
(新疆大學 機械工程學院,新疆 烏魯木齊 830047)
目標跟蹤是計算機視覺領域的一個熱點研究方向,涉及到目標特征提取、目標狀態信息分析、目標運動信息的檢測和識別等多種技術[1-4]。
其中基于相關濾波的目標跟蹤算法以其優越的跟蹤速度和跟蹤效率,近些年得到廣大研究者的關注。Bolme等在目標跟蹤中運用了相關理論,設計出一個最小誤差輸出平方和濾波器(MOSSE),通過提取圖像灰度特征進行跟蹤。Henriques等[5]提出核循環結構(CSK)跟蹤算法,對相鄰幀在頻域上進行點乘操作,減少了運算量。之后,Henriques等[6]對CSK做了進一步改進引入多通道特征,提出了核相關濾波跟蹤(KCF)算法,用梯度方向直方圖(HOG)特征代替了灰度特征,使跟蹤精度得以提高。針對尺度變換的問題,Danelljan等[7]提出判別尺度空間(DSST)跟蹤算法,通過二維位置濾波器和一維尺度濾波器來實現尺度的自適應變換。Ma等[8]提出長時跟蹤(LCT)算法,訓練了隨機蕨類重檢測器,在長時跟蹤上取得一定效果。研究發現,在遇到目標被遮擋、復雜背景、長時間跟蹤時,這些基于傳統相關濾波的算法所產生的誤差會隨著時間積累的越來越大,最終導致跟蹤失效。
本文針對以上問題,提出一種融合特征的抗遮擋、長時間跟蹤算法。該算法在DSST算法的基礎上,在特征提取階段融入顏色特征,提高了濾波器在復雜背景情況下的跟蹤精度和魯棒性。通過計算跟蹤目標的置信度和樣本響應值波動水平來判斷目標的遮擋情況,在確認目標丟失之后觸發隨機蕨分類檢測器進行重新檢測、定位目標。同時,當樣本響應值異常時,停止模板更新。
在DSST算法中設計了兩個相關濾波器,分別為位置濾波器和尺度濾波器,通過二者來實現目標的跟蹤和尺度變換。且兩個濾波器是相互獨立的,在特征提取階段可選擇不同的特征進行融合,其中的尺度估計方法也可和不具備尺度估計的跟蹤算法相結合。
位置估計的方法基于MOSSE跟蹤方法,通過學習和訓練得到一個位置相關濾波器,用此濾波器來確定目標下一幀的位置。MOSSE跟蹤算法的思想是構造一個濾波器模板h, 讓該模板h與輸入圖像目標區域f做卷積運算如式(1)所示
g=f*h
(1)
用頻域點乘來代替時域上的卷積運算,并運用快速傅里葉變換的方法提高運算的速度,計算方法如式(2)所示

(2)
DSST算法選擇由灰度和HOG特征共同組成的多維特征l{1,…,d} 作為輸入樣本f, 相對于MOSSE算法增加的HOG特征能使DSST算法更好地適應復雜場景的跟蹤。通過相關濾波運算之后得到對應的濾波器響應輸出 {g1,g2,…,gt}, 在時間t時得到最優的濾波器ht, 且ht滿足最小均方誤差和
(3)
式中:f有d維,fl為其中的第l維,l的取值范圍為 {1,…,d},λ為正則項(為避免式子解的分母為0,故引入參數λ來消除輸入樣本頻譜中的零頻分量),當訓練樣本只有一個時,對Hl進行求解得
(4)
對上式中A、B分別進行迭代更新得
(5)
(6)
式中:η代表學習率,對下一幀圖像樣本Z有響應值
(7)
最大響應值ymax的位置即為估計位置。
用于尺度估計的濾波器的設計是DSST算法中的亮點,算法中利用位置濾波器得到預測的目標二維位置信息,以所預測的位置為中心,選取33個梯度尺度的候選區域,再采用一維的尺度相關濾波器搜索最優尺度區域,即為目標的尺度估計結果。
選取梯度候選區域塊大小的依據為
(8)
式中:q和r分別代表上一幀中目標框的寬度和高度;s表示各不相同的尺度個數;a為尺度因子。
目標特征的選取環節特別重要,會直接影響到跟蹤效果的好壞[9]。DSST算法所選的目標特征為單一HOG特征,HOG特征常用來描述形狀和邊緣,對平移、光照變化和旋轉具有一定不變性,在捕捉樣本區域的局部形狀信息時表現較好。但在背景中存在多噪聲時,目標區域的梯度特征不再明顯,HOG特征的描述能力減弱,此時容易造成目標丟失。針對這一弊端,本文在特征提取中融合顏色(CN)特征來解決。
顏色空間特征(CN)把RGB圖像的三維顏色映射為11通道的CN顏色特征,能更好描述目標的顏色信息,具備較強的目標分辨能力,對目標形變、漂移具有較好的魯棒性,能提高跟蹤算法在復雜背景下的目標跟蹤性能。
當多個特征進行融合時,可看成樣本中多個通道信息被整合到一個向量中x=(x1,x2,…,xc), 本文提取的HOG和CN的特征向量分別記為:phog、pcn, 根據相關濾波的多通道特性將兩種特征向量相結合,得到如下公式
P=λ1phog+λ2pcn
(9)
式中:λ1、λ2代表兩個特征向量相融合的系數,由經驗可得二者參數均為0.5。則P=[P1,P2,…Pn] 即為最終得到的融合特征向量。
在實際目標跟蹤應用中,目標容易受到遮擋物遮擋跟丟,或是受到長時間的誤差積累以及復雜背景的影響而丟失跟蹤目標。本文算法對跟蹤目標的狀態做檢測和判斷,當確定目標丟失后,停止繼續跟蹤和模板的更新,然后利用重檢測器對目標的位置和尺度進行重新估計。
當目標被遮擋時一般分為3種情況:輕微遮擋、嚴重遮擋、完全遮擋。當目標受到輕微遮擋,可正常跟蹤并進行模型更新,當目標被嚴重遮擋甚至丟失,此時停止模板更新并啟動重檢測器。傳統算法中用最大響應值Fmax來判斷跟蹤狀態,當Fmax大于一定閾值的時候即認為跟蹤正常。但是如果目標被相似物遮擋產生跟蹤漂移,此時的響應值依然很高,所以這一判據不可靠。針對這一問題,需要一種簡單準確的目標遮擋檢測機制來做出判斷。
文中引入平均峰值相關能量APCE[10],該指標可用于分析響應圖的峰值情況和波動程度,其公式為
(10)
式中:Fmax、Fmin分別表示響應圖的最大、最小值;FW,H中的W表示響應圖的寬度;H表示響應圖的高度;mean[·] 表示取平均運算。
APCE值反映了響應圖的峰值與各點響應值的關系,當出現遮擋、模糊、丟失等情況時,響應圖會發生波動。響應峰值越突出,起伏越小,對應的APCE值就越大。當目標被遮擋或跟蹤異常時,響應圖峰值變低波動變大,APCE值大幅減小。因此,分析響應圖的波動計算APCE值可以有效反映跟蹤置信度,為判斷遮擋程度提供了有力依據。
確認目標被遮擋之后,啟用隨機蕨分類器進行檢測。隨機蕨分類器常用于對多種目標進行分類識別,在用于視頻目標檢測時可分為兩類,一類為要檢測的目標,另一類為圖像背景,進而計算兩者在隨機蕨中的似然概率分布。隨機蕨分類器是在樸素貝葉斯分類器的基礎上發展來的,由貝葉斯分類器的思想可知,分類器的訓練過程就是把樣本特征映射到樣本類別的過程。定義具有類別屬性的大量樣本Dm=(fm,cm),m=1,2,…,M, 其中M代表樣本數量,f代表樣本特征值,一般為N維向量,表示為
f=(f1,f2,…,fN)
(11)
設C為樣本的類別,類別數量用K表示為
C∈{c1,c2,…,cK}
(12)
分類器H表示為:f→C。
隨機蕨分類器也可稱作半樸素貝葉斯(Semi-NaiveBayes)分類器,半樸素貝葉斯分類器是從貝葉斯分類器演變過來的。根據其思想,即從由特征組成的集合中隨機抽取l組大小相同的特征子集合,任一子集都代表一個隨機蕨,設每個子集中都包含s個特征,則有
Fl={fl,1,fl,2,…,fl,s}
(13)
假設每個隨機蕨都是屬性條件獨立的,則全部特征的聯合似然估計為
(14)
對應的隨機蕨分類器即為
(15)
由式(15)可知,隨機蕨是通過隨機蕨分類器隨機提取多個特征所組成,因此可選擇多個隨機蕨進行聯合近似計算。
傳統相關濾波算法中,模型的更新策略為
(16)
式(16)對模型前后幀進行線性插值,ai和X分別表示下一幀樣本模型的參數和模板,ai-1和Xpre分別表示前一幀樣本模型的參數和模板,Xn是由當前樣本區域訓練得到的值,α表示插值因子(模型更新率),傳統相關濾波算法中模型更新率是固定值。當α取值過小時,針對快速運動的目標難以及時更新參數,當α取值過大時,導致模型更新過快記憶過多背景區域信息,兩種情況都會造成跟蹤效果差甚至跟蹤失敗,所以α的大小選取對跟蹤的性能有著顯著影響。
本文引入APCE參數,選用樣本區域最大響應值Fmax和APCE值分別與文中定義閾值T1、T2作比較,當Fmax大于T1和APCE值大于T2時,更新濾波器模型,否則停止更新。

(17)
當u≥8時,模板更新率α取較大的值0.04;當3≤u≥8時,模板更新率α取適中值0.025;當u<3時,模板更新率α取較小值0.01。通過對模板更新率進行分段設定,可增強算法在遮擋、尺度變換等復雜場景下的穩定性。
改進的算法步驟如下:
(1)初始化圖像,對目標區域第一幀循環采樣得到樣本集合;
(2)提取目標區域塊中的HOG和CN特征,并由式(9)得到融合特征H, 對特征向量訓練得到濾波器模型;
(3)計算置信度指標Fmax、APCE和當前目標響應值f, 進行遮擋判斷;
(4)若遮擋,則停止模板更新,啟動檢測機制;
(5)未遮擋情況下,通過幀差法計算模板更新率,進行模板更新。
本文采用Matlab R2018a作為開發平臺,在Intel(R) Core(TM) i5-4460CPU,主頻3.20 GHz,內存8 GB配置的計算機上進行實驗驗證。選擇CSK[5]、KCF[6]、DSST[7]、LCT[8]共4種算法與本文算法作對比。本文算法除模板更新率設置3個階段值0.04、0.025、0.01外,其余參數與DSST算法參數保持一致,其它算法均保持原參數設置不變。
為驗證本文算法的可行性,采用OTB100[11]和UAV123[12]數據集作為實驗數據,其中UAV123數據集里只選取50個長度在1000幀以上的圖像序列用于評測算法的長時性能。在實驗中采用中心誤差和覆蓋率兩種評估指標來衡量。
(1)平均中心誤差就是真實標定的中心位置與跟蹤結果之間的平均歐式距離,平均中心誤差越小,算法的跟蹤精度就越高,體現了算法跟蹤的精確程度
(18)
式中: (xt,yt) 和 (xe,ye) 分別代表圖像序列中目標和被測試算法所跟蹤目標的中心位置。
(2)覆蓋率體現了跟蹤結果中的目標區域與真實目標的重合度的情況,覆蓋率越大,說明算法跟蹤的成功率越高
(19)
式中:re和rt分別代表被測試算法和真實標注的目標邊界框,S的值越大就表示成功率越高,反之就就越低。
一次通過性評估OPE(one-pass evaluation)是跟蹤算法常用的評估標準,但是不同起始幀初始化對跟蹤算法的性能有影響,所以本文引入時間魯棒性TRE(temporal robustness evaluation)準則來分析在不同起始幀初始化時跟蹤算法的魯棒性。圖1為5種算法在OTB100測試數據集上進行TRE的測試結果。
由圖1可看出Ours與其它算法相比排在第一位,跟蹤性能更好。在圖1(a)的精度評估中,Ours與LCT基本持平,在跟蹤成功率上相比LCT跟蹤算法提高了6.7%。

圖1 OTB100跟蹤TRE評估曲線
為評測本文算法的長時跟蹤性能,從UAV123數據集中選取50個幀數在1000以上的圖像序列進行實驗驗證。如圖2所示是5種跟蹤算法在TRE下的跟蹤精度和成功率的評測結果。從中可以看出Ours算法的性能排在第一位,相比LCT跟蹤算法在跟蹤精度上提高了6.7%,在成功率上提高了17%。

圖2 UAV123跟蹤TRE評估曲線
表1內容為5種算法在OTB100上的運行速度,雖然Ours相比DSST增加了計算量,但其35.6 fps/s的速度仍可以滿足實時跟蹤的要求。

表1 5種跟蹤算法運行速度對比
為了更好體現改進算法在遮擋情況下的跟蹤效果,對5種算法在圖像序列上進行測試,6個圖像序列上的實際跟蹤結果對比分析如圖3所示,圖像序列的參數見表2。

表2 實驗圖像序列特點
在圖3(a)jogging1圖像序列中跟蹤目標為左側行人,可以看到在58幀時,各跟蹤器都表現較好,然后開始進入電線桿的遮擋區域,到74幀時目標被完全遮擋,78幀時目標再次出現,此時Ours和LCT跟蹤算法啟動了目標檢測器,在80幀時再次檢測到目標,而DSST、KCF、CSK這3種算法則完全跟丟。
在圖3(b)liquor圖像序列中,在第510幀和734幀時目標分別被向右和向左移動的相似物遮擋時,CSK和DSST算法跟蹤到遮擋物導致跟蹤失敗,在873幀時向右移動目標路過相似物時,LCT和KCF跟蹤模板發生漂移也相繼跟丟目標,到881幀可清晰看到只有Ours成功跟蹤目標。

圖3 5種算法的跟蹤結果
在圖3(c)Gym圖像序列中跟蹤目標是體操運動員,在開始幀到19幀時,目標運動幅度小,5種算法都能成功跟蹤。在545幀附近時,目標運動幅度逐漸增大,KCF、CSK、DSST跟蹤器開始出現偏差,到第767幀時可明顯看出KCF、CSK跟蹤器完全跟蹤失敗,DSST跟蹤器跟蹤效果較差,只有Ours和LCT跟蹤器還能成功跟蹤目標。由此可看出Ours跟蹤算法融合了CN特征之后在跟蹤目標發生形變的情況下具備良好的跟蹤性能。
在圖3(d)Tiger2圖像序列中玩具獅子為跟蹤目標,此圖像序列具備著遮擋、快速運動、形變、旋轉等多種屬性,由圖中可以看出從初始幀到第113幀時,只有Ours能完好跟蹤目標,LCT也出現了偏差,KCF、CSK和DSST完全跟丟。在356幀時目標受到遮擋,到363幀時遮擋結束,此時LCT跟蹤器也跟蹤失敗,只有Ours能成功跟蹤目標。從中可看出本文算法進行特征融合的效果,在復雜場景下依然能保持較好的跟蹤性能。
圖3(e)、圖3(f)均為長時跟蹤序列,在圖3(e)中第949幀時目標被完全遮擋,在974幀時目標部分脫離遮擋區域,Ours成功檢測到目標并成功跟蹤。在圖3(f)中從389幀目標開始轉向并開始跳躍翻轉,在此過程中4種算法陸續跟蹤失敗,到419幀時只剩下Ours能保持跟蹤。
為了使傳統相關濾波能更好適應遮擋和長時下的跟蹤,本文提出了一種特征融合結合目標檢測的抗遮擋長時跟蹤算法。在DSST算法基礎上融合CN顏色特征,提高了位置濾波器的預測精確度,同時結合尺度濾波器實現了自適應尺度跟蹤。針對遮擋等復雜場景下的跟蹤失敗情況,引入APCE進行目標遮擋程度的判斷,確認受到遮擋之后停止模板更新,啟動隨機蕨分類器檢測目標,重新獲取目標位置,實現抗遮擋長時跟蹤。實驗結果表明,融合顏色特征使得該算法在目標形變和復雜場景下具備較好的跟蹤性能,檢測器使改進算法在抗遮擋和長時跟蹤上取得了較好的效果,跟蹤精度和魯棒性相比其它幾種經典算法均有提高。