陳富健,謝維信,夏 婷
深圳大學ATR國防科技重點實驗室,廣東 深圳518060
目標跟蹤[1]作為計算機視覺領域中重要的研究課題之一,在視頻監控、國防軍事、智能機器人等方面都有著廣泛的應用前景。但在目標跟蹤的過程中存在著目標形變、運動模糊、尺度變化、背景變化、遮擋等情況,容易降低跟蹤的精度和魯棒性。尤其是當目標被遮擋時,目標外觀信息丟失導致跟蹤器更容易產生漂移,最終跟丟目標。因此實現高精度和高魯棒性的目標跟蹤仍具有很大的挑戰。
近幾年,基于相關濾波算法的優越性顯著,成為研究的主流,研究者們對其提出了不同的改進策略。相關濾波算法在目標跟蹤領域的應用最早源于Bolme等人[2]提出的誤差最小平方和算法,其利用傅里葉變換的性質,大大加快目標跟蹤的速度,達到幾百幀的超快速度。Henriques等人[3]在此基礎上提出核相關濾波算法,利用循環卷積的性質對圖像進行密集采樣,更加有效訓練相關濾波器,并且利用核函數的性質提高計算速度。Henriques等人[4]為進一步提高目標跟蹤的精度,在目標的特征信息提取上,利用方向梯度直方圖特征,將單通道特征擴展為多通道。Danelljan等人[5]則利用顏色特征信息,將單通道擴展為多通道。Danelljan 等人[6]針對尺度問題,提出尺度自適應的核相關濾波器,有效解決跟蹤過程中目標尺度變化的問題。Li等人[7]針對目標尺度變化和旋轉問題,提出大位移跟蹤與相似度估計算法,利用相位相關的策略,將笛卡爾坐標系轉化到對數坐標系中,目標尺度變化和旋轉問題得以解決。
存在遮擋情況下,目標跟蹤是一個復雜的任務。當目標被遮擋時,跟蹤器容易混入背景噪聲,使得模板過擬合而削弱目標跟蹤的性能,導致目標跟丟。針對遮擋問題,Kalal 等人[8]提出將檢測和跟蹤相結合的策略,在目標遮擋或丟失時采取檢測的方法重檢目標,有效解決目標遮擋問題,但跟蹤方法的精度不高。Ma等人[9]在核相關濾波算法的基礎上,提出長期跟蹤算法(Long-term Correlation Tracking,LCT),采用隨機蕨分類器進行目標檢測,以解決目標遮擋問題。Ma 等人[10]在LCT 算法的基礎上進一步改進提出LCT+算法,采用支持向量機替代隨機蕨分類器提高了跟蹤的精度。Xiong等人[11]提出一種并行跟蹤和檢測相結合算法,分別在不同的線程進行跟蹤和檢測的處理,具有高速目標跟蹤和修正失敗跟蹤器的能力。Zhao 等人[12]在判別相關濾波算法的基礎上提出了一種全局關鍵點匹配算法,用于目標丟失時的遮擋判斷和目標重新檢測,實現了目標的長時間跟蹤。Islam等人[13]在相關濾波算法的基礎上提出邊緣盒檢測的方法,基于位置和邊框大小計算目標的邊緣置信度,能夠快速重新定位目標。
本文算法主要針對目標遮擋中存在的問題,基于LCT+核相關濾波算法提出了雙跟蹤器自適應跟蹤的策略和支持向量機自適應重檢測目標的策略。雙跟蹤器自適應跟蹤主要利用大背景和小背景分別訓練兩個核相關濾波器跟蹤目標,取其最優的輸出結果作為最后的跟蹤結果,達到最優化的跟蹤效果;支持向量機根據目標丟失幀的數量自適應擴大目標檢測的范圍,實現目標的長期穩定跟蹤,并對重檢的待定目標與初始幀目標進行顏色直方圖匹配以確定正確與否。為驗證本文算法的抗遮擋性能,本文選取OTB50[14]和OTB100[15]兩個大型基準數據集對本文算法與其他主流跟蹤算法進行比較。
基于核相關濾波目標跟蹤算法的整體流程是提取樣本的特征信息訓練核相關濾波器,并在下一幀中利用訓練好的核相關濾波器與當前幀運算得到輸出響應圖,響應圖峰值點所在的位置即為追蹤目標的新位置,然后依次遍歷所有的視頻幀得到目標跟蹤的軌跡。核相關濾波器具有優越的跟蹤性能,一是由于其利用循環矩陣的性質,能夠對樣本循環達到密集采樣的效果,大大增加訓練樣本的數量,提高跟蹤器的魯棒性;二是其利用傅里葉變換和核函數的性質,大大提高運算的速度。
大小為1×N的樣本x=[x1,x2,…,xn-1,xn]T,對其進行一次循環位移為x=[xn,x1,x2,…,xn-2,xn-1]T,因此將所有的x都進行循環移位操作,可以得到循環矩陣X=[x1,x2,…,xn-1,xn]。結合循環矩陣和傅里葉變換的性質,可得

其中,F表示常數矩陣;表示x的傅里葉變換;FH是F的共軛轉置。
核相關濾波器通過訓練分類器f(w)=wTx,求解最優化w可以由式(2)得

其中,xi表示大小為M×N大小的圖像塊;yi是由高斯函數產生的關于xi的標簽值,yi∈[0,1];λ表示正則項系數;w表示權重系數。
根據式(1)得到的循環矩陣X和傅里葉變換的性質,該式(2)嶺回歸的閉合解為:

其中,I表示單位陣。該式的傅里葉變換形式為:


φ(x)表示映射函數。將低維空間映射到高維空間中,因此核相關濾波器可以表示為:

結合循環矩陣和傅里葉變換的性質,式(6)的解為:


因此,在目標跟蹤過程中,給定輸入圖像塊z,最終可得到關于響應圖f的形式:

然后根據響應圖的峰值定位目標的位置。
LCT+算法在核相關濾波算法的基礎上,利用目標附近的大背景特征信息訓練核相關濾波器。通過利用大背景信息增強目標在遮擋情況下的抗遮擋性能,并且訓練一個支持向量機用于在目標遮擋或者丟失情況下重新檢測目標。當跟蹤器的輸出響應值較高時,通過對目標圖像采樣來訓練支持向量機,當跟蹤器的輸出響應值較低時,對目標進行重新檢測。通過以上兩個策略,LCT+算法實現長期穩定跟蹤。
但利用大背景信息訓練核相關濾波器時,存在背景對目標干擾的情況,會造成目標跟丟。并且當目標被遮擋后在遠處重新出現時,LCT+算法只能檢測當目標被遮擋時的鄰近區域,無法檢測丟失后在遠處出現的目標,具有一定的局限性。
為了解決LCT+核相關濾波算法中利用大背景訓練跟蹤器時存在背景干擾的問題,以及利用支持向量機進行目標重檢測時存在檢測范圍有限的問題,本文算法進行改進,提出利用大背景和小背景訓練雙跟蹤器自適應跟蹤目標,利用支持向量機自適應擴大重檢測范圍大小,并進一步用顏色直方圖判斷重檢目標正確與否。
圖1為本文算法的總體框架,在目標未被遮擋的情況下,一個核相關濾波跟蹤器利用大背景特征信息和目標特征信息進行訓練,另一個核相關濾波跟蹤器利用小背景特征信息和目標特征信息進行訓練。訓練完后同時利用兩個核相關濾波跟蹤器對目標進行跟蹤,計算兩個跟蹤器的輸出響應值后比較它們的輸出響應值大小,采用輸出響應值大的跟蹤器的輸出結果定位目標。當目標被遮擋或者丟失時,利用提前訓練好的支持向量機自適應重新檢測目標,然后抑制重檢目標的背景信息以得到更精準的目標顏色直方圖,最后將其與抑制背景信息后的初始幀目標的顏色直方圖進行匹配,若匹配成功則定位到重檢目標的位置。其中,核相關濾波器提取的特征信息采用梯度方向直方圖特征、局部強度直方圖特征[10]和顏色特征[5]。

圖1 本文算法總體框架Fig.1 Overall framework of algorithm in this paper
在LCT+核相關濾波跟蹤算法中,利用背景特征信息和目標特征信息能夠有效增強目標的抗遮擋性能,加強跟蹤的魯棒性。在目標運動的過程中,前后幀之間的背景信息變化不大,因此通過引入背景信息,在目標模糊、目標被遮擋等情況下跟蹤器還能穩定跟蹤目標,提高了跟蹤精度。但在目標和背景相似、目標快速運動且遮擋等復雜情況下,依賴背景特征信息訓練的核相關濾波跟蹤器會由于背景信息的干擾導致輸出的響應最大值偏移,導致定位的目標框偏移或者將其他背景判斷為目標而跟丟目標。
為解決背景噪聲干擾的問題,本文算法采用雙跟蹤模式自適應跟蹤目標。第一個跟蹤器利用大背景特征信息和目標特征信息進行訓練,第二個跟蹤器利用小背景特征和目標特征信息進行訓練。然后同時利用這兩個跟蹤器對目標進行跟蹤,判斷這兩個跟蹤器的輸出響應值大小,選擇跟蹤器輸出響應值大的結果對目標定位。接著同時對兩個跟蹤器進行更新,并在下一幀中重復上述步驟,選擇最優的跟蹤結果對目標定位。第一個跟蹤器采用的跟蹤方法和LCT+核相關濾波跟蹤算法相同,即采用大背景特征信息和目標特征信息對跟蹤器進行訓練。而本文算法通過增加小背景特征和目標特征信息訓練核相關濾波器,避免過多的背景信息對目標定位產生干擾。雙跟蹤器自適應跟蹤模式通過判斷兩個跟蹤器的輸出響應值大小自適應選擇最優的跟蹤結果對目標定位,不但增強了目標的抗遮擋性能,還提高了跟蹤的精度和魯棒性。
如圖2(a)所示,利用大背景特征信息和目標特征信息訓練第一個跟蹤器,如圖2(b)所示,利用小背景特征信息和目標特征信息訓練第二個跟蹤器。圖2(c)為第一個跟蹤器的輸出響應值。圖2(d)為第二個跟蹤器的輸出響應值。判斷這兩個輸出響應值的峰值大小,采取峰值大的跟蹤器的定位結果對目標進行跟蹤,如圖2(e)所示。

圖2 雙跟蹤自適應跟蹤示意圖Fig.2 Schematic diagram of adaptive tracking for dual tracking
基于LCT+核相關濾波算法中針對目標的遮擋或者遮擋丟失的問題,利用支持向量機對目標重新檢測。支持向量機分類器的公式由式(10)可得:

其中,x為輸入的圖像;w為向量權重;b為偏差值。解式(11)的最優化問題可得:

式中,yi表示采樣圖像xi的標簽值;αi表示系數大小。根據拉格朗日的對偶性,式(11)可由式(12)進行求解:

解出式(12)后便可得到向量權重w和偏差值b。若當前幀目標z的響應值f(z)=wTz +b大于重檢測閾值Th,在目標附近范圍內進行采樣,得到采樣圖像xi,然后根據采樣圖像C和目標圖像G的交互比IOU=(C?G)/(C?G)設定標簽值yi的大小,其中yi∈{0,1}。當yi >Tyh時設定為正樣本,當yi <Tyl時設定為負樣本,最后將正負樣本用于訓練支持向量機。
若當前幀目標z的響應值f(z)小于Tl,開啟支持向量機對當前幀圖像進行目標的重檢測。當檢測到待定目標后,若該目標的輸出響應值比上一幀的輸出響應值大且f(z)>0,則定義該待定目標為正確目標。但隨著檢測范圍的擴大,為了更加準確地檢測目標,本文算法中增加一個顏色直方圖匹配的判別機制。目標在運動過程中顏色保持不變,因此可以對待定目標和初始幀目標的背景進行抑制后,再進行顏色直方圖匹配,若匹配成功,則判定為正確目標。
在LCT+核相關濾波算法中重檢測目標的范圍固定,當目標被遮擋后運動到檢測框范圍之外,此時跟蹤器無法檢測到目標,導致目標跟丟。本文算法在此基礎上增加自適應的重檢測機制,隨著目標丟失幀數的增加,重檢測的范圍增大,直到包含整張圖像范圍。設定支持向量機的重檢測范圍大小,隨著目標丟失幀數N的增加,檢測范圍從W×H的圖像大小變成sW×sH的圖像大小,系數s={an|n=1,2,…,(N-1)/2,N/2},其中a為縮放系數,N為丟失幀的數量。
圖3為支持向量機重檢測目標的示意圖,當跟蹤器的輸出響應大于Th時,在目標附近采樣,如圖3(a)所示。圖3(b)為利用采樣的圖像訓練支持向量機。當跟蹤器的輸出響應小于Tl時,開啟支持向量機自適應重檢測目標,隨著目標丟失的幀數量N增加,逐步擴大支持向量機檢測目標范圍的大小,如圖3(c)所示。其中紅色框表示逐漸增大的檢測范圍。最終如圖3(d)所示,目標被檢測到并定位到其位置上。

圖3 支持向量機重檢測目標示意圖Fig.3 Schematic diagram of target re-detection by support vector machine
在2.3節利用支持向量機進行目標重檢測后得到待定目標,需要進一步使用顏色直方圖進行匹配,以確定待定目標是否為正確的目標。當對目標進行顏色直方圖匹配時,目標框內不僅包含目標的顏色信息,還包含背景的顏色信息。因此若直接進行顏色直方圖匹配,背景的顏色信息會造成干擾。為了得到準確的匹配結果,將目標附近的背景信息進行抑制,因此需要對圖像構建顏色似然圖。首先分別計算關于目標的顏色直方圖和關于背景的顏色直方圖,其次根據目標和背景的顏色直方圖信息計算目標和背景的顏色似然圖,然后根據顏色似然圖抑制目標框內的背景顏色,最后得到只含目標顏色信息的圖像。
由貝葉斯公式可以構建出當前幀圖像的顏色似然圖[16],即:

其中,x∈O 表示目標真實像素點的所在區域;O表示給定目標框的所在區域;S表示給定目標框附近的區域;Ω∈I表示輸入圖像;bx表示圖像x位置上的通道值。通過計算顏色直方圖,可以估計目標顏色似然圖P(bx|x∈背景顏色似然圖表示計算Ω區域的顏色直方圖,b表示計算的顏色直方圖通道值,|·|表示計算當前區域的數量。令先驗概率最終有:

圖4是當前幀圖像顏色似然圖的計算過程,分別計算得到目標和背景的顏色似然圖,然后通過式(14)可得到抑制背景后的目標顏色似然圖。其中大部分背景信息都已被去除,最終只剩下目標信息。

圖4 顏色似然圖計算過程示意圖Fig.4 Schematic diagram of calculation process of color likelihood diagram
在得到抑制背景的目標顏色似然圖后,將其二值化后與原圖像進行濾波,得到如圖5(a)所示的背景抑制的目標圖像。進一步將圖5(a)所示的圖像轉換到HSV空間,并取其h空間的通道值計算顏色直方圖,得到圖5(b),最后進行顏色直方圖匹配。因為初始幀目標的圖像沒有被噪聲污染,所以在進行顏色直方圖匹配時,采用初始幀目標的圖像與當前幀的待定目標圖像進行顏色直方圖匹配。若匹配成功,則定位目標所在位置,否則繼續對下一幀圖像進行計算。

圖5 顏色直方圖匹配示意圖Fig.5 Schematic diagram of color histogram matching
顏色直方圖匹配利用巴氏距離計算,公式為:

其中,p表示目標的顏色直方圖,q表示待定目標的顏色直方圖,它們之間的相似距離度量為:

通過比較相似距離d和定義閾值Td的大小確定匹配是否成功,若d >Td說明匹配成功,待定目標為正確目標,定位目標的位置。
基于LCT+的自適應抗遮擋目標跟蹤算法的偽代碼如下所示。

該算法主要使用了雙跟蹤器自適應跟蹤的機制和支持向量機自適應重檢測目標的機制,通過這兩個機制實現對抗遮擋目標的自適應跟蹤。
本文算法基于文獻[14]中的指標來評估算法的性能,分別為距離精度(Distance Precision,DP)、中心位置誤差(Center Location Error,CLE)和重疊精度(Overlap Precision,OP)。中心位置誤差是指預測目標中心值(xp,yp)和實際標注目標中心值(xg,yg)誤差的歐式距離大小,即;距離精度是指CLE小于設定閾值的視頻幀數占整個視頻序列幀數的比率;成功率是指預測目標框和實際標注框的重疊精度小于設定閾值的視頻幀數占整個視頻序列幀數的比率。
在3.3 節定量分析中,采用一次性通過評估(One Pass Evaluation,OPE)對跟蹤算法進行評估。一次性通過評估是指在初始幀圖像中確定目標的位置和尺度后,算法依據前一幀目標的位置和尺度預測下一幀目標的位置和尺度。
軟件平臺使用MATLAB R2017a;硬件設備為英特爾i5-8300 2.3 GHz 處理器,8 GB 內存。支持向量機的參數Th=0.5,Tl=0.5,Tyh=0.8,Tyl=0.5,巴氏距離Td=0.65。
本文基于OTB50 和OTB100 兩個大型基準數據集對跟蹤算法進行測試。OTB50 和OTB100 分別包括50個和100 個具有挑戰性的視頻集。這些視頻集包含遮擋、快速運動、運動模糊、光照變化、目標形變、尺度變化、低分辨率等多種復雜情況。為了評估本文算法的精度,將其與5 個主流的目標跟蹤算法進行比較,分別包括LCT+[10]、fDSST[17]、KCF[4]、DSST[6]、TLD[8]。
在精度曲線圖和成功曲線圖結果中,圖中的跟蹤器排名是根據距離精度DP=20 pixel 和重疊精度OP=0.5的閾值進行排名。從圖6和圖7可知,在OTB50數據集上本文算法的距離精度和成功率分別為69.8%和51.1%,相比LCT+算法在距離精度和成功率上分別提升了0.7個百分點和1.9 個百分點;在OTB100 數據集上的距離精度和成功率分別為78.5%和58.3%,相比LCT+算法分別提升了2.4個百分點和2.2個百分點,并且比其他的幾個主流跟蹤算法的距離精度和成功率高,表明本文算法的跟蹤性能更好。

圖6 OTB50數據集的評估結果Fig.6 Evaluation results of OTB50 dataset

圖7 OTB100數據集的評估結果Fig.7 Evaluation results of OTB100 dataset
圖8 和圖9 為在OTB 數據上關于遮擋視頻集的評估結果。在OTB50 數據上,本文算法的距離精度和成功率分別為63.5%和46.6%,相比LCT+算法分別提高2.6 個百分點和3.8 個百分點;在OTB100 數據集上的距離精度和成功率分別為73.6%和55.5%,相比LCT+算法分別提高6.1個百分點和5.2個百分點,表明本文算法在遮擋數據上表現更好,具有較強的抗遮擋性能。因此,本文算法利用雙跟蹤器自適應跟蹤機制和支持向量機自適應重檢測目標機制,進一步增強了跟蹤的性能,更加有效處理目標的遮擋問題。

圖8 OTB50中遮擋數據集的評估結果Fig.8 Evaluation results of occlusion dataset in OTB50

圖9 OTB100中遮擋數據集的評估結果Fig.9 Evaluation results of occlusion dataset in OTB100
本文將選取OTB 數據集中的8 個視頻序列對本文算法和其他5個主流跟蹤算法進行定性分析,結果如圖10所示。

圖10 在8個視頻序列集上的定性比較Fig.10 Qualitative comparison on 8 video sequence sets
在Board視頻序列中,由于目標在運動過程中發生形變,且目標框內包含的背景噪聲較多,造成在LCT+跟蹤過程中跟蹤器容易丟失目標。在第689 幀時其他跟蹤器已經跟丟目標,但本文算法因在目標響應值較低時利用支持向量機自適應重新檢測目標,得以一直平穩地跟蹤目標。
在Girl2 和Walking2 視頻序列中,目標在運動過程中被其他物體遮擋導致被跟丟。LCT+算法被其他運動物體遮擋跟丟后無法再重新跟蹤物體,而本文算法通過自適應重新檢測目標后,能夠重新定位目標位置。特別是在Girl2視頻序列中,當目標被運動物體完全遮擋時,其他算法都無法再跟上目標,但本文算法依然能夠有效跟蹤目標。
在Lemming視頻序列中,目標在運動過程中被遮擋后重新出現,此時部分算法已將目標跟丟。但本文算法在遮擋情況下對目標重檢測后可以繼續跟蹤目標。在第1313幀,當目標發生形變時LCT+算法已無法跟蹤目標,而本文算法還能準確地進行跟蹤。
在Human5 視頻序列中,目標較小且相機運動容易造成目標跟丟。LCT+算法在相機運動過程中跟丟目標。但本文算法在目標跟丟后,采用支持向量機自適應重檢機制,在第320幀重新檢測到目標并重新定位到目標上,逐漸穩定地跟蹤上目標。
在Couple視頻序列中,由于相機抖動的緣故,LCT+算法在第50幀和60幀都出現目標丟失的情況。本文算法采用雙跟蹤器自適應跟蹤機制,避免了背景信息的干擾,牢牢定位目標,在相機抖動嚴重的情況下依然具有較高的準確度。
在Skating2-1 和Skating2-2 視頻序列中,由于遮擋以及目標快速運動,LCT+和其他一些跟蹤算法跟丟目標。本文算法利用雙跟蹤器自適應對目標進行跟蹤,采用大背景和小背景的訓練機制,降低背景噪聲的干擾,因此能夠較好地跟蹤目標。特別是在Skating2-2視頻序列中,隨著目標的快速運動,其他算法都無法跟上目標,只有本文算法依舊穩定地跟蹤目標。
圖11 為本文算法與其他算法在8 個視頻序列的中心位置誤差(CLE)波形圖。波形圖的值越大表明中心位置的誤差值越大,即定位的跟蹤框與實際標注跟蹤框的中心位置差值越大,說明算法的跟蹤性能較差,跟蹤精度較低。

圖11 中心位置誤差波形圖Fig.11 Waveform of center location error
在Board、Lemming、Girl2、Human5 和Walking2 視頻序列中,由于存在目標遮擋、目標形變、相機抖動等問題,LCT+算法在跟蹤過程中將目標跟丟后無法再跟上目標,波動幅度較大。本文算法采取支持向量機自適應重檢的機制,自適應擴大檢測的范圍,重檢測后及時定位到目標上,因此波動幅度小,即中心位置誤差低,有效增強了算法的抗遮擋性能。
在Couple、Skating2-1 和Skating2-2 視頻序列中,由于目標快速運動、遮擋、相機抖動,LCT+和其他算法中心位置誤差值的波動幅度都較大,且LCT+算法在Skating2-1和Skating2-2視頻序列中都無法繼續跟蹤目標。本文算法采用雙跟蹤器自適應跟蹤的機制,避免大背景信息對跟蹤造成干擾,交替使用兩個核相關濾波跟蹤器并取最優跟蹤結果,具有較高的精度和魯棒性。
綜上所示,本文算法在具有挑戰性的視頻序列集中的表現優于LCT+算法和其他算法,表明本文算法無論是在目標存在遮擋還是目標發生形變、目標快速運動等情況下,還能長時間、穩定地追蹤目標,具有較強的魯棒性。
針對LCT+核相關濾波算法的不足,本文提出了雙跟蹤器自適應跟蹤的機制和支持向量機自適應重新檢測目標的機制。雙跟蹤器自適應跟蹤的機制通過利用大背景和小背景訓練核相關濾波器跟蹤目標并選取最優值,避免了背景噪聲的干擾;支持向量機自適應重新檢測目標的機制根據目標丟失幀的數量自適應擴大檢測范圍,增強了算法的抗遮擋性能。在OTB 數據集驗證的結果表明,相比原算法,本文算法在跟蹤精度和抗遮擋性能上都有所提高,且優于一些主流算法,具有較高的精度和魯棒性。