吳婷 李椋 王剛 廖新元 陳明松 王以政
(1.南華大學,衡陽,421001;2.軍事認知與腦科學研究所,北京,100850)
視頻目標跟蹤(Video Object Tracking,VOT)是在給定某視頻序列初始幀目標大小與位置的情況下,自動計算后續幀中該目標大小與位置的問題.VOT大致可以分為生成式跟蹤方法和判別式跟蹤方法.生成式跟蹤方法是通過提取目標特征生成出代表目標的外觀模型,并在圖像中找到和模型最匹配的區域.判別式跟蹤方法是指利用分類來做跟蹤的方法,即把跟蹤的目標作為前景,利用在線學習或離線訓練的檢測器來區分前景目標和背景.本文主要關注判別式跟蹤中的相關濾波算法,通過在線或離線訓練一個濾波器,將該濾波器與目標候選區域做相關運算,最大響應值的位置即為目標所在的中心位置.
基于判別式相關濾波的目標跟蹤,計算機視覺領域已經出現了較多方法.誤差平方和最小濾波器[1]首次將相關濾波用在跟蹤領域,但該方法用稀疏采樣的樣本來訓練濾波器,使得訓練效果一般.為了獲取更多的訓練樣本,基于循環矩陣的核跟蹤算法[2](Circulant Structure of Tracking-by-detection with Kernels,CSK)通過循環移位來獲取密集的樣本,并利用循環矩陣的性質以及傅立葉變換來求解濾波器.但CSK算法的輸入特征為單通道灰度圖像,特征表達能力有限.為了獲取更多的特征,基于特征優化的目標跟蹤算法得到了一定發展[3-10],其中核相關濾波(Kernelized Correlation Filter,KCF)跟蹤算法[5]在CSK的基礎上引入了多通道梯度直方圖特征.由于KCF跟蹤算法在當前幀的目標候選框是前一幀目標邊界框的擴張,在低空無人機的跟蹤中,當目標快速運動、飛行方向快速變化時,目標可能不在候選框中,導致目標跟丟,但是運動信息能夠作為注意機制引導候選框進行調節從而改善跟蹤器性能.
光流算法[11-17]可以計算出物體運動的方向和大小,本文采用PyrLK[12](Pyramids of Lucas&Kanade)和Flownet[16]兩種算法來進行實驗,這兩種方法是稀疏光流與稠密光流的經典代表.當直接計算前一幀目標邊界框內像素的平均光流時,會將背景光流也計算進去,利用該平均光流在當前幀中計算目標候選框時,會限制跟蹤精度提升.
相比于計算機視覺領域的光流算法,生物視覺系統能更好的對運動強度和運動形狀進行感知,且生物視覺系統在提取、分析信息方面具有速度快和可靠性高的優點.近年來,基于生物視覺[18-20]的圖像處理方法[21-24]得到了廣泛發展.Benoit等[21]基于視網膜水平和初級視皮層(V1區)的神經機制開發了一種生物視覺啟發的算法進行低層次的圖像處理,可快速實現運動分析和運動事件檢測、運動區域提取等,該模型可以看成是對注意的建模.
注意可以分為有意注意和反射性注意兩種[25].有意注意是一種自上而下、目標驅動的注意;反射性注意是一種自下而上、刺激驅動的注意.本文采用反射性注意模型——視網膜大細胞通路模型來提取運動區域,再利用自上而下的有意注意算法——光流算法和KCF算法確定目標位置.光流算法計算前一幀目標邊界框內運動區域的平均光流,利用該光流在當前幀中計算目標候選框,從而解決因為快速運動、方向快速變化而導致目標跟丟的問題,得到當前幀目標候選框后,再通過KCF算法計算目標的邊界框,以此提升目標跟蹤的精確率與成功率.運動引導的核相關濾波跟蹤算法同基線KCF算法相比,在Anti-UAV2020[26]公開數據集上取得了性能的提升.
本文基于Benoit等[21]在視網膜水平上的低層次圖像處理方法來獲取運動區域.圖1為視網膜大細胞通路模型示意圖.視網膜分為外叢狀層和內叢狀層,在外叢狀層有光感受器、水平細胞、雙極細胞模型,在內叢狀層有無長突細胞、神經節細胞模型.

圖1 視網膜大細胞通路模型示意圖
光感受器模型、水平細胞模型以及神經節細胞模型是通過對細胞自身變化的電流來建模的.在t時刻對位置k處的細胞給予電刺激s(k,t),該位置細胞單位時間電流的變化與相鄰位置k-1,k+1處細胞電流的變化以及電極與該細胞之間電流的變化滿足一個電路方程
(1)
其中c(k,t)表示t時刻k位置處的細胞膜電位,Cc為電容,rc表示位置k處細胞的內部電阻,電阻Rc模擬細胞之間的縫隙連接.
將式(1)對離散變量k和連續變量t依次進行傅里葉變換,得到細胞電路方程的解
(2)
其中fs是空間頻率,ft是時間頻率,β是該模型的增益,η=rc/Rc是細胞縫隙連接相關的空間常數,τ=rcCc是時間常數,用來設置時間截止頻率.
光感受器模型中η和τ取值較小,使其成為一個時空低通濾波器.光感受器將其輸出信號傳遞給雙極細胞和水平細胞.水平細胞模型和(1)類似,只是水平細胞模型中η和τ取值較大,使其成為一個時空高通濾波器.水平細胞對光感受器產生側抑制作用,光感受器與水平細胞的差值形成雙極細胞的兩極,每一極輸出結果中正的部分,由此形成帶通時空濾波器.
雙極細胞模型將信號傳遞給無長突細胞并引入時間高通行為,是一個時間高通濾波器:
(3)
其中A(z)是時間高通濾波器的系統函數,z是該濾波器的變量,τA為時間截止頻率.
神經節細胞的軸突在無長突細胞介導下形成視神經.神經節細胞模型作用主要有兩個,其一是以類似于光感受器的方式適應其輸入信息,充當空間低通濾波器對運動輪廓信息起平滑作用;其二是通過局部對比度壓縮來增強低空間頻率的運動輪廓.最后將兩極信息合并,得到視網膜大細胞通路模型的輸出結果,獲取運動能量較大的運動區域信息.
利用視網膜大細胞通路模型和光流算法確定目標候選區域的流程如圖2所示.目標的邊界框(x,y,w,h)用白色實框表示,其中(x,y)表示矩形框中心的位置,w和h分別表示矩形框的寬和高,白色虛框表示目標的候選框,是由目標邊界框向外拓展1.5倍得到的.

圖2 確定目標候選框的流程圖

(4)
其中(x′,y′)為當前幀候選框的中心位置,(w′,h′)為當前幀候選框的寬和高.
當得到了目標在當前幀的候選區域后,再利用核相關濾波[5]確定目標的邊界框.相關濾波器是基于嶺回歸來求解的,嶺回歸的損失函數為
(5)
其中f是輸入x的線性函數,f(xi)=wTxi,w為相關濾波,yi為回歸標簽,λ為正則項系數,防止過擬合.
對損失函數求解可得
w=(XTX+λI)-1XTy,
(6)
其中X=[x1,…,xn×n]T,y=[y1,…,yn×n]T.
由于后面的計算是在復數域中進行,故將式(6)轉化為
w=(XHX+λI)-1XHy,
(7)
其中XH=(X*)T,*表示復共軛.
訓練樣本X是通過循環移位得到的,循環矩陣能夠在傅氏空間中使用離散傅里葉矩陣進行對角化,以此對計算進行化簡
(8)

(9)
根據式(8)和式(9)對式(7)進行化簡可得
(10)

(11)
由此可以把w的求解問題轉化為α的求解問題
(12)
其中Φ(X)=(φ(x1),…,φ(xn×n))T.
對損失函數(12)求解可得
α=(Φ(X)Φ(X)T+λI)-1y=(K+λI)-1y.
(13)
在本文中采用高斯核函數進行計算,因為X是循環矩陣,故K仍為循環矩陣[5],于是式(13)的解可以寫成
(14)
其中^表示離散傅里葉變換.
跟蹤的測試過程是通過對當前幀目標候選框循環移位產生的一系列測試樣本z1,…,zn×n并作非線性映射后再計算目標位置.所有測試樣本的得分為
f(z)T=[α1,…,αn×n]KXZ,
(15)
其中
(16)
為循環矩陣.利用循環矩陣的性質對式(10)進行化簡,可得
(17)
其中*表示復共軛.其結果為n×n的矩陣,數值最大處即為目標的中心位置,目標邊界框的寬和高延用上一幀的寬和高.
5.1 評估數據集
實驗采用Anti-UAV2020紅外視頻測試數據集來進行評估,總共有100個視頻,數據集包含白晝、黑夜條件下云層、樓宇、樹林等復雜背景以及飛鳥、空飄物等虛假目標,視頻中包括大疆和Parrot無人機,總共 6 種機型,包含速度變化、遮擋、尺度變化等情形.由于Anti-UAV2020數據集中有些視頻幀中沒有無人機,本文在沒有無人機的視頻幀處作截斷操作,然后在每一個截斷的視頻上進行跟蹤.
5.2 評估指標
利用人工標注的目標邊界框初始化第一幀(One Pass Evaluation, OPE),采用跟蹤精確率(Precision)與跟蹤成功率(Success rate)來評估跟蹤算法得到結果.跟蹤精確率是通過計算跟蹤算法得到的目標位置中心點與人工標注目標中心點之間的距離,兩者的距離小于給定閾值的視頻幀的百分比.跟蹤精確率的計算如下
(18)
其中Pre(j)表示閾值為Pj時的精確率,n表示某視頻序列的總幀數,Bool(·)表示當括號里面的條件滿足時則取1,否則取0,xcal與ycal分別表示由跟蹤算法計算得到的目標中心點的橫坐標與縱坐標,xgt與ygt分別表示人工標注目標中心點的橫坐標與縱坐標.
跟蹤成功率是通過計算跟蹤算法得到的目標位置與人工標注的目標位置之間重合率大于給定閾值時的幀數占所有幀的百分比.跟蹤成功率的計算如下
(19)

5.3 實驗環境與參數設置
實驗計算機配置Intel Core i7-6850K CPU(3.6GHz)處理器,內存64GB.在視網膜模型中,光感受器的參數為:β=1,η=1,τ=1,水平細胞模型的參數為:β=0.3,η=7,τ=0,無長突細胞模型的參數為:τA=2,神經節細胞模型的參數為:β=10,η=5,τ=0.評估指標中,跟蹤精確率中的閾值參數設置為:0≤Pj≤50像素,跟蹤成功率中的閾值參數設置為:0≤Sj≤1.
5.4 實驗結果
圖3為本文方法與基線方法KCF在Anti-UAV數據集上部分視頻幀分割的結果.本文方法在目標快速運動、方向發生變化時能夠更好地進行跟蹤.

圖3 部分視頻幀定性的跟蹤結果
不同的閾值可以得到相應的百分比數值結果,從而獲得一條關于跟蹤精確率與成功率的曲線.圖4為改進方法與KCF基線方法在Anti-UAV2020數據集上的精確率圖與成功率圖,橫軸是閾值,縱軸是百分比.當利用視網膜大細胞通路計算前一幀目標邊界框內的運動區域,并利用PyrLK算法計算該區域內角點的平均光流來確定候選框,再通過核相關濾波算法確定目標邊界框時,相比于KCF基線方法精確率與成功率分別提升1.4%,1.3%.當將光流算法改成Flownet時,所提方法相比于KCF基線方法精確率與成功率分別提升2.2%,1.3%.當不用視網膜大細胞通路模型計算運動區域,直接通過PyrLK算法計算前一幀目標邊界框所有角點的平均光流確定目標候選框,再用核相關濾波算法確定邊界框時,相比于KCF基線方法精確率與成功率均只提升0.7%.當把光流算法換成Flownet時,由于背景光流的影響,所提方法相比于KCF基線方法跟蹤精度幾乎沒有提升.

圖4 Anti-UAV2020數據集上獲得的評估結果
在Anti-UAV2020數據集上的評估結果表明,利用視網膜大細胞通路計算前一幀目標邊界框內的運動區域,再通過PyrLK算法和Flownet算法計算前一幀目標邊界框內的平均光流得到目標候選框,并在該候選框上用核相關濾波方法計算目標邊界框時,相比于KCF基線方法,可以提升跟蹤的精確率與成功率.
本文針對目標瞬移、方向快速變化等情況導致目標跟丟的問題,引入注意力機制對原有核相關濾波目標跟蹤算法進行改進.首先通過視網膜大細胞通路模型以及光流算法來確定目標候選框,再在該候選框后利用核相關濾波算法進一步得到目標邊界框,相比于KCF基線方法可以提升目標跟蹤的精確率與成功率.
視網膜大細胞通路模型是一種自下而上、刺激驅動的反射性注意模型,在提取、分析運動信息方面具有速度快和可靠性高的優勢,能夠高效的輸出運動區域.光流算法與核相關濾波算法是一種自上而下、目標驅動的有意注意算法,在視網膜大細胞通路輸出的運動區域基礎上,可以更好的確定目標邊界框.
本文方法還有改進的空間,針對目標跟蹤精確率與成功率較低的問題,下一步將采用更加先進的跟蹤算法來確定目標的精確位置,從而提升目標跟蹤精度率與成功率.