杜若鵬,張 磊,盧 楊
(河北工業大學人工智能與數據科學學院,天津 300130)
計算機視覺現在發展迅速,目標跟蹤是其中重要的研究發展方向。在目標跟蹤的眾多算法中,主要分為判別式模型方法與生成式模型兩大類。生成模型方法指的是對指定幀的目標區域建立模型,在下一幀圖像中尋找與模型最相近的區域。其代表算法主要有均值漂移跟蹤算法[1]、粒子濾波跟蹤算法[2]、稀疏模型跟蹤算法[3]等等;判別式模型方法指的是以當前幀的目標區域為正樣本,背景區域為負樣本,應用獲得的正負樣本對分類器進行訓練,利用訓練好的分類器在下一幀中查找最優目標區域,同時利用新樣本更新分類器模型。隨著機器學習的發展,基于機器學習的判別式模型跟蹤算法是現在跟蹤領域中主要的研究方向,其中相關濾波器屬于判別式模型跟蹤算法。
在目標跟蹤領域中,通過設計一個模板,使得它在跟蹤目標位置得到最大的響應值。Henriques等提出了KCF算法[4],利用梯度直方圖(Histogram of Oriented Gradient,HOG)特征[5]來描述跟蹤目標的信息的同時引入核技巧,大大降低了運算量,在速度與準確性上均有明顯的優勢。
與可見光圖像相比,紅外圖像不受外界環境光照條件的限制,可以全天候使用。但是由于紅外圖像信噪比與對比度低、目標邊緣不明顯等特點,紅外圖像下的目標跟蹤有著一定的挑戰性[6]。針對紅外圖像下背景復雜與目標遮擋的問題,本文提出了一種基于上下文感知的相關濾波改進跟蹤算法,在訓練階段引入目標背景信息,抑制由于忽視了背景信息而導致的目標漂移。同時,設計一種高置信度的模型更新策略,提高了跟蹤結果的準確性。
依據相關濾波跟蹤器的計算原理,可以得到如下公式:
g=f?h
(1)
式中,f表示輸入的目標圖像,h表示算法的濾波模板,g表示模板的響應輸出,?為卷積操作。
為了簡化計算過程,對上式進行快速傅里葉變換(Fast Fourier transform,FFT),將時域內卷積操作變化為頻域內點乘操作:
G=F·H*
(2)
式中,G、F和H分別對應式(1)中的傅里葉變換結果,符號·代表點乘,H*代表H的復共軛。
在核相關濾波算法中引入嶺回歸模型對分類器進行訓練,定義線性分類器f(x)=wTx并對其進行訓練,使得訓練樣本與期望目標值之間的平方誤差最小,公式如下:
(3)
其中,w表示分類器權值向量的參數,xi和yi分別表示訓練樣本集中第i個樣本及其對應的目標值,λ表示正則化參數,用來防止模型過擬合。將所有訓練樣本xi組合成一個矩陣X,其中矩陣中的每一行代表一個樣本,將所有訓練樣本的目標值yi組成一個向量用y表示。
盡管核相關濾波跟蹤算法具有較高的精確度和較好的實時性,但是直接應用于紅外圖像中仍不能達到很好的效果,需要依據紅外圖像的特性對算法做出相應的改進。在模型求解空間部分,應針對于紅外圖像的特點做出改進,不單單只利用目標區域圖像;在模型更新策略部分,應采用高置信度的模型更新策略,提升模型更新的魯棒性。
目前大多數紅外跟蹤算法的研究方向主要集中于合并更強的目標特征以豐富對于跟蹤目標的表達。然而,這種方法使得目標和背景的區分只能局限于一個小的區域內,忽視了在跟蹤過程中背景信息的重要性。為了解決上述在目標跟蹤過程中出現的問題,本文提出了一種基于上下文感知的相關濾波跟蹤算法[7],在引入目標背景信息的同時改進其算法的更新策略,提升跟蹤算法的整體性能。本文算法流程圖如圖1所示[8]。

圖1 算法流程
在建立上下文模型之前,需要先對目標進行OCS-LBP特征提取,然后對模型進行求解。
3.1.1 OCS-LBP特征
先將紅外圖像分為多個子區域塊,相鄰的子區域塊不重疊,與此同時從子區域塊中獲取OCS-LBP特征直方圖,對圖像中的每個像素點計算其梯度方向以及幅值,整個計算過程的數學公式描述為:

(4)
(5)
(6)
式(4)分段函數s(x)中的參數T是其函數中的比較閾值,參數T的具體取值需要通過實驗來決定,一般情況下設置為一個較小的正數。通過對閾值T賦予不同值的方式來提升目標特征的魯棒性。在(5)和(6)的公式中,(xc,yc)表示鄰域內中心像素點的坐標值,ni和ni+(P/2)與ni和ni-(P/2)分別表示一組以P為等間隔,對半徑為R的圓形區域進行分割后關于中心對稱的一組像素點的灰度值。k表示對應的梯度方向,其取值范圍是0~7的正整數。
圖2為OCS-LBP計算原理示意圖,從圖中可以分析得到,梯度方向從0°~360°被分為8個方向,每間隔45°設置一個梯度方向。將關于中心對稱的兩個像素點的灰度值之差作為梯度幅值,之后與閾值進行比較后確定最終的結果,每一個梯度方向上的幅值都由這個梯度方向上對應像素點的灰度值決定。如式(5)和(6)梯度幅值的計算被分為兩個部分。在式(5)中k的取值范圍為0~3,相當于0°~180°,每隔45°設置一個梯度方向;式(6)中k的取值范圍為4~7,對應角度為180°~360°,每隔45°設置一個梯度方向。當梯度方向關于中心對稱的兩個像素點灰度差值大于閾值T時,則將差值記錄在其對應梯度方向的直方圖中。例如,設定閾值T為0,i5的灰度值為120,i1的灰度值為40,兩者差值為80,大于設定的閾值T,由公式(6)可知,在直方圖中梯度方向k=5所對應的幅值大小為80。

圖2 OCS-LBP特征計算原理示意圖
利用上述特征提取方法,將候選目標區域分割為多個子區域,對每一個子區域求取特征直方圖。在計算完每個子區域的像素點后,采用最小-最大歸一化方法,得到最后的紅外圖像特征矩陣。從OCS-LBP特征的計算過程可以看出,像素的梯度方向信息和梯度幅值信息均包含在其特征直方圖中。
3.1.2 模型求解
為了計算簡潔的同時引入所提出的算法,將核相關濾波跟蹤算法中的公式(3)進行改寫,得到下面的公式為:
(7)
式中,方陣A0∈Rn×n表示輸入圖像經過循環位移后所得到的矩陣,與此同時定義a0∈Rn為將輸入圖像矢量化后的向量,即方陣A0的第一行。向量w表示需要訓練的相關濾波器參數,回歸目標y表示矢量化圖像對應的二維高斯函數,λ1表示公式中的正則化參數。
在每一幀圖像中,對目標區域的背景采集k個圖像樣本,與上文對應,背景采樣區域圖像經過循環位移后得到的矩陣為Ai∈Rn×n,同時定義ai∈Rn為采樣圖像矢量化即方陣Ai的第一行。
上下文信息即背景區域的選擇對于跟蹤的性能至關重要。本文選擇在目標區域周圍的上下左右方位采樣背景信息,這將使得濾波器可以在下一幀中更好地區分背景信息或是遮擋物的信息。算法的采樣方式如圖3所示,圖3(a)采用原始算法的采樣方式,圖3(b)采用上下文感知算法的采樣方式。

圖3 算法采樣方式示意圖
這些背景圖像塊可以看作是相對于目標圖像的負樣本,它們以各種干擾或是不同背景的形式組成了目標圖像周圍的上下文信息。因此,算法可以通過訓練一個濾波器w∈Rn,使得它在目標圖像區域具有較高的響應值,而在上下文采樣區域的響應接近于零。為了防止過擬合現象的發生,引入參數λ2對上下文采樣區域加以限制,由此可以得到相關濾波算法的新目標函數為:

(8)
基于相關濾波的紅外目標跟蹤算法中,采用響應圖的峰值對目標跟蹤的結果做出定位[9]。在響應圖中,主峰的狀態在很大程度上反映了跟蹤結果的置信度。如圖4所示,圖4(a)、4(d)中深色框算法采用了高置信度更新策略,淺色框采用每幀更新策略;圖4(b)、4(e)是采用高置信度更新策略的響應圖;圖4(c)、4(f)是采用每幀更新策略響應圖。在跟蹤過程中前向檢測目標正確的時候,理想狀態下響應圖中只有一個明顯的主峰且主峰周圍位置應相對平坦,主峰的峰值越高則對于目標的定位精度也就越高,如圖4(c)所示。反之,如果主峰附近出現高度相差不多的次峰且響應圖整體存在較大波動,說明目標定位精度不高。同時距離主峰越近的擾動對于跟蹤目標定位的影響也就越大,因此擾動位置與主峰的距離對于模型好壞的判別也至關重要,如圖4(b)所示,出現這種情況說明跟蹤模型被污染,如果繼續使用原方案更新的話,往往會造成跟蹤目標的漂移從而導致跟蹤失敗。

圖4 高置信度更新策略
根據這種情況,本文提出了一種高置信度的模型更新策略——加權平均峰值能量(Weighted Average Peak Energy,WAPE),定義為:
(9)
其中,Fmax和Fmin分別表示響應圖中的最大峰值和最小峰值;Fw,h表示響應圖中第w行第h列對應位置的響應值;Zw,h表示響應圖中第w行第h列對應的位置;Zmax表示響應圖中主峰的位置;|Zw,h-Zmax|表示這兩點之間的距離;τ表示控制參數。
在分子中,主峰峰值越大則表示置信度越好;在分母中,距離主峰越近的位置擾動對于定位目標的影響越大,因此對于距離主峰較近的位置給予Fw,h與Fmin的差值以較大權值,對于距離主峰較遠的位置給予較低的權值。
本文算法實驗平臺采用MATLAB2015b,電腦硬件參數配置為Intel i5-7300HQ CPU,主頻2.5GHz,內存8G,64位WIN10操作系統。其中,OCS-LBP特征中,半徑參數R=2,間隔P=8,比較閾值T=1。設置模型更新策略所對應的控制參數τ=1.1,正則化系數λ2=0.5,背景采樣區域k=4。
實驗數據方面,采用25組紅外視頻序列作為基準視頻數據集,這些紅外視頻數據采用Visual-Data公司的IRJ-CT型號紅外相機進行拍攝,該紅外相機焦距為8 mm,水平視角50°(HFOV),相機基線120 mm,感光波長范圍在8-13 μm,圖像分辨率640×480像素。數據中20組視頻采用車頂安裝的紅外相機進行拍攝,車輛移動速度為15 km/h,另外5組視頻采用昊翔臺風Q500無人機搭載紅外相機懸停于空中進行拍攝。
為了更好地評估本章算法的有效性,采用一次性通過分析OPE[10](One-Pass Evaluation)作為跟蹤算法的評判指標。OPE通過兩種標準對目標跟蹤算法的結果進行評價衡量:精確度(precision)和成功率(success rate),同時將結果利用精確度曲線圖和成功率曲線圖表示。在精度圖中,中心位置誤差(center location error,CLE)對應精度圖中的橫坐標,是用于評價跟蹤精度的指標。中心位置誤差表示的是在目標跟蹤過程中跟蹤算法所跟蹤到的目標框中心位置與人工標定的真實目標框中心位置(ground-truth)之間的歐式距離。成功率圖的橫坐標表示跟蹤模型預測的目標框與真實目標框重疊面積占兩個目標框聯合區域面積的比例,即重疊率(overlap),成功率圖的縱坐標表示為跟蹤算法在視頻序列上重疊率大于某個閾值的幀數占總幀數的百分比。
本文選擇了9種最新的跟蹤算法作為對比算法進行實驗,分別包括DSST[11]、KCF[4]、DLSSVM[12]、MEEM[13]、MCCT[14]、Staple[15]、CCT[16]、SAMF[17]和MRCT[18]。
為了方便起見,將所提出的算法記作Proposed1。根據評價指標繪制本文算法和其他算法精確度曲線和成功率曲線如圖5所示,對比各個算法性能如表1所示。圖5顯示了Proposed1算法在跟蹤過程中與其他9種對比算法在總精確度與總成功率上的對比。從表1中可以看出,在總精確度與總成功率方面Proposed1算法相比于排名第二的MCCT算法均提高了6.4 %以及5.1 %,有較為明顯的提升,且在速度上僅次于KCF與Staple算法,證明了Proposed1算法的有效性。

表1 本文算法與其他算法對比

圖5 精確度和成功率曲線
為了更好地分析本文提出算法的性能,給出算法和其他9種算法在25組紅外視頻序列上的目標跟蹤結果,如圖6所示。當跟蹤目標經歷不同變化時,針對相應的屬性進行分析和比較。
目標遮擋:對于紅外目標跟蹤過程中的遮擋問題,分為部分遮擋和完全遮擋。當發生遮擋時,如圖6(a)所示,目標行人在第85幀的運動過程中遭遇完全遮擋,DSST算法與CCT算法受遮擋干擾導致跟蹤失敗,其他算法雖跟蹤上目標行人,但都在不同程度上發生了目標漂移。而本文所提出的算法在應對兩種類型的遮擋時均表現出良好的跟蹤效果。

圖6 各算法在紅外視頻序列上的跟蹤結果展示圖
快速運動:如圖6(b)所示,目標汽車第10幀超車過程中,目標運動速度較快,出現了快速運動情況,在第65幀目標汽車運動過程中部分算法發生了目標偏移,導致只能跟蹤到目標汽車的一部分圖像,而本文所提出的Proposed1算法能夠較好地應對快速運動的發生,相比于其他算法可以更為準確地跟蹤目標。
運動模糊:在紅外圖像中,由于信噪比較低等緣故容易造成在跟蹤過程中出現目標運動模糊的情況。如圖6(c)所示在第153幀中目標行人出現模糊,雖然大部分算法均能跟蹤上目標行人,但是這些算法大多由于目標模糊而發生漂移,難以準確跟蹤目標行人,而DSST與KCF算法則出現了跟蹤失敗。本文提出的Proposed1算法能夠較好地應對目標發生的運動模糊,實現精確的目標跟蹤。
在紅外目標跟蹤過程中,由于紅外圖像的信噪比較低而造成的目標運動模糊以及跟蹤過程中出現的快速運動、遮擋等問題,分別對算法的模型和更新策略做出改進。首先針對算法模型,提出了上下文感知模型,在跟蹤過程中充分利用紅外圖像的上下文信息;之后,提出了一種高置信度模型更新策略,即加權平均峰值能量WAPE,解決了在模型更新過程中由于嚴重遮擋或目標丟失造成的模型污染問題,提升了算法的性能。