林淑彬,吳貴山,許甲云,楊文元
1.閩南師范大學 計算機學院,福建 漳州363000
2.閩南師范大學 福建省粒計算及其應用重點實驗室,福建 漳州363000
視頻目標跟蹤在很多領域有廣泛的應用,特別是在無人機(Unmanned Aerial Vehicle,UAV)[1-2]中。無人機用于航空攝影[3]、野生動物保護[4]、智能視頻監控[5]、交通監視[6]和農業植保[7]等領域。由于無人機多為高空拍攝,容易因快速運動、尺度變化、遮擋等場景的影響導致跟蹤漂移或丟失[8],因此如何有效地應對這些挑戰[9-10]仍然是一項艱巨的任務。
近年來,Bolme等人[11]提出MOSSE算法,首次在目標跟蹤領域引入相關濾波(Correlation Filter,CF),獲得良好的跟蹤性能。Li等人在SRDCF算法[12]的基礎上,提出自適應空間正則化STRCF濾波算法[13],進一步減少邊界效應的影響。陸惟見等人[14]結合卷積神經網絡,利用歷史跟蹤信息設計了多模板模型更新策略,解決未能充分利用歷史跟蹤信息的問題,增強跟蹤魯棒性。謝潁曉等人[15]利用視頻序列的時空信息,對附近歷史幀的相關特征進行策略性采樣,把得到的特征向量按照一定權重進行聚合,提升了跟蹤性能。
隨著計算機視覺的發展,目標跟蹤開始應用于無人機。Fu等人[16]通過學習多個部分背景感知濾波器來獲得魯棒目標模型。Wang等人[17]提出無人機跟蹤的自適應采樣算法,通過局部內核特征進行編碼,采用邊緣盒方案和隨機抽樣作為訓練樣本,結構化支持向量機實現訓練和跟蹤,取得良好的精度。Li等人[18-19]提出AMCF和ARCF跟蹤算法,運用到實時的無人機跟蹤上。AMCF跟蹤算法通過記憶歷史幀信息來訓練濾波模板,通過上下文背景學習,增強模型判別能力,解決負樣本和背景噪聲干擾的問題。而ARCF則是通過學習背景抑制來解決邊界效應和背景噪聲干擾的問題。兩者都是在學習背景感知相關濾波器BACF[20]跟蹤算法基礎上改進,進一步增強相關濾波跟蹤算法的精度和魯棒性。Li等人[21]提出AutoTrack跟蹤算法,通過自動時空正則化實現無人機目標跟蹤,具有非常優越的性能。
然而,在某些無人機跟蹤場景中,如相機運動、快速運動、尺度變化等,一些跟蹤器難以獲取足夠的目標信息,未能體現良好的跟蹤效果。為提高跟蹤性能引入了一些改進策略,但影響了跟蹤速度。同時,隨著背景信息的增加,會帶來更多的背景噪聲。
為了獲得更好的跟蹤性能,提高在相機運動和尺度變化等場景下跟蹤的魯棒性,本文提出一種多幀監督的相關濾波無人機目標跟蹤(Multi-frame Surveillance of correlation filter in UAV object Tracking,MSUT)算法。在訓練過程中加入多幀歷史信息,充分利用真實背景,并擴大搜索范圍,根據跟蹤過程中視圖的像差,監督響應圖變化,提高跟蹤的性能。首先,由于相關濾波器在訓練過程中主要關注前一幀的信息容易導致跟蹤漂移,MSUT算法采用裁剪操作提高樣本質量,在訓練中加入多個歷史視圖信息,提高濾波器的魯棒性;然后,提取HOG特征和顏色特征來訓練相關濾波器,生成特征響應,采用歐幾里德范數定義特征響應圖的像差,通過監督像差的變化判斷目標是否發生漂移等情況,從而得到目標的準確位置;最后,根據圖像的相似度更新目標模型和相關參數。在UAV123和VisDrone2019兩個數據集上與其他跟蹤算法進行比較,結果表明在尺度變化、相機運動等無人機場景中該算法取得較好的跟蹤效果,進一步增強了跟蹤的魯棒性和準確性。
由于無人機跟蹤環境的挑戰性,很多跟蹤器如基于深度學習[22]和基于孿生網絡[23-24]的跟蹤框架,較難實現無人機的實時目標跟蹤。而基于CF的跟蹤器適合無人機跟蹤場景。
CF跟蹤器通過從d個特征通道中學習模型h來描述目標,公式表示為:

式中,xi和hi分別表示第i個通道的圖像特征和濾波器模型。符號*為空間相關算子,y為期望響應。λ是正則化參數,用來控制過度擬合。
BACF利用增強背景信息,獲得真實負樣本。對于d通道的樣本圖像x,響應y,BACF的最終目標是最小化函數f(h):

其中,B為裁剪矩陣,用于選取輸入樣本x的每個通道的中心元素。ht為在第t個通道中學習到的目標模型。操作符*是一個相關算子。
BACF跟蹤器通過引入裁剪矩陣,用真實的背景信息替換模型的循環移位,擴大了搜索區域[25]。因此,在無人機目標跟蹤中,BACF具有很好的跟蹤速度和性能。
為解決在無人機復雜場景中目標容易受干擾的問題,充分利用歷史幀信息,同時應用裁剪矩陣擴大搜索區域,在跟蹤過程中使用優化計算,獲得良好的跟蹤效果。圖1所示為MSUT算法的跟蹤流程圖,主要分成四個部分,分別是裁剪矩陣、加入歷史幀信息和生成歷史響應,以及通過監督響應像差并優化計算得到目標的準確位置和更新模型。

圖1 MSUT跟蹤流程圖Fig.1 Tracking flow chart of proposed algorithm
MSUT跟蹤器是在訓練過程中,通過目標搜索區域的擴大,利用更多真實的背景信息,處理圖像相似度來估計目標的位置變化,更準確地跟蹤目標。因此,首先要對目標位置變化進行識別。受BACF算法的啟發,引入裁剪矩陣B,增加背景信息,擴大搜索區域。為了使相關濾波器能夠抑制跟蹤過程中的偏差,對訓練目標進行優化,將損失函數最小化。目標函數如下:

其中,下標k和k-1分別表示第k幀和第k-1幀。公式(3)中第三項用于抑制因背景信息引起異常的正則化項,γ是控制參數。
引入歐幾里德范數,對跟蹤目標和歷史幀信息的特征響應R1,R2,…,Rk定義像差,公式如下:

其中,θ表示兩個響應峰值在二維空間中的位置距離。[Ψθ]表示為了使兩個響應峰值重合而進行的移位操作。通常當異常發生時,相似度會突然下降,公式(4)的值會顯著增加。因此,可以利用公式(4)的結果進行跟蹤異常判斷。
優化中,將損失函數轉換到頻域進行計算。MSUT算法在相關濾波器訓練期間可以進行異常抑制,提高跟蹤效率。將公式(3)表示為如下矩陣:

其中,Xk表示輸入樣本xk的矩陣形式,ID是大小為d×d的單位矩陣,操作符?表示kronecker乘積,上標Τ表示共軛轉置運算。Rk-1表示跟蹤目標前一幀的響應映射,其值等于Xk-1(ID?BT)hk-1。
以矩陣形式表示的損失函數,在本質上仍然是進行卷積運算。為了保證計算效率,將公式(5)轉換到頻域,表示如下:

利用交替求解法(Alternative Direction Method of Multipliers,ADMM)加快公式(6)的計算速度,最小化運算結果,得到最優解。首先將公式(6)寫成增廣拉格朗日形式:

其中,μ為懲罰因子,在傅里葉域中,拉格朗日向量作為輔助變量,大小為DN×1。
通過ADMM優化計算,可以將問題分解為兩個子問題進行求解。利用前一幀得到的相關濾波器,通過以下計算當前幀的相關濾波器,表示為:

對兩個子問題進行求解。

其中,gk和ζ分別通過以下快速逆傅里葉變換得到:



通過逆運算,應用Sherman-Morrison公式進一步優化計算結果,加快計算速度。因此,公式(12)等價于:

根據以下公式更新拉格朗日參數:

其中,下標t和t+1分別表示第t次和第(t+1)次迭代。用于子問題的求解,用于子問題的求解。最終得出目標函數f(h)的最優解,獲得目標的準確位置。
為了防止跟蹤過程中目標因運動場景的變化產生漂移或跟蹤失敗,需要及時對模型進行更新。MSUT跟蹤器通過在跟蹤過程中加入多幀信息,擴大搜索區域,使用響應圖來估計相似度,提高目標識別能力。當相似度足夠高時,更新目標外觀模型,以提高在相機運動、尺度變化和背景雜亂等場景下跟蹤的魯棒性。模型更新公式表示為:

其中,λφ是外觀模型的學習速率。
根據上述過程,多幀監督的相關濾波無人機目標跟蹤算法MSUT步驟如下:
算法 多幀監督的相關濾波無人機目標跟蹤MSUT

為了驗證所提MSUT算法的性能,在UAV123[26]和VisDrone2019[19]兩個數據集上進行實驗。所做實驗都是在操作系統Windows 10,8 GB內存,酷睿i7-3770 CPU的計算機上進行。MSUT算法通過加入多幀歷史信息,使用響應圖變化估計相似度,預測目標狀態。利用HOG特征和顏色直方圖特征進行位移估計。所有的圖像補丁需要乘以一個Hann窗口。跟蹤過程中,加入的歷史幀數為5。正則化參數γ設為0.71,ADMM迭代為5,學習速率λφ為0.019 2。MSUT跟蹤器使用具有挑戰性的圖像序列,跟蹤結果與先進跟蹤算法進行對比。實驗中,所有參數都按照基準數據集初始目標定義。
實驗定量分析分為兩部分:是基于UAV123數據集的實驗分析和是基于VisDrone2019數據集的實驗分析。
3.1.1 UAV123數據集實驗分析
UAV123數據集是專業無人機拍攝的專門場景的數據集,包含123個高清跟蹤視頻。UAV123數據集的跟蹤視頻視角變化較多,包含道路、城市景觀、建筑物、港口碼頭和海灘等;跟蹤對象包括人員、車輛、船只、飛行器等;跟蹤視頻主要涉及步行、駕駛、水上運動和飛行等活動。視頻中包含常見的跟蹤挑戰場景,有完全遮擋、部分遮擋、尺度變化、光照變化、視角變化、背景雜亂、相機運動等。
在UAV123數據集上與ECO-HC[27]、AMCF[18]、MCCT-H[28]、BACF[20]、STRCF[13]、ARCF[19]、OMFL[29]、AutoTrack[21]等8個先進視頻跟蹤算法進行對比。所選的對比算法主要為基于手工特征的相關濾波改進算法,其中,AMCF、ARCF、OMFL等算法是專門為無人機場景設計的。實驗表明,MSUT跟蹤器在成功率和精準度方面都取得較好的結果,分別為59.9%和86.5%,ECO-HC跟蹤器的成功率為55.2%,精準度為80.5%。圖2顯示了各算法的總體性能。由于MSUT跟蹤器使用背景感知,通過移位操作從背景中提取真實樣本信息,從而解決了跟蹤過程容易因相機運動和尺度變化引起模型漂移的問題。算法采用裁剪操作提高樣本質量,在訓練中加入歷史幀信息,充分利用目標先前外觀,增加樣本數量,并利用響應圖變化率估計相似度,進行優化計算,解決了無人機場景中目標容易受干擾導致跟蹤丟失的問題。

圖2 在UAV123數據集上的精準度和成功率Fig.2 Precision and success rate on UAV123 dataset
除了上述總體性能比較之外,在各個屬性上也進行了對比。將無人機圖像序列分為12種不同類型,即縱橫比變化(ARC)、背景雜亂(BC)、相機運動(CM)、快速運動(FM)、完全遮擋(FOC)、光照變化(IV)、低分辨率(LR)、偏離視線(OV)、部分遮擋(POC)、尺度變化(SV)、相似對象(SOB)和視角變換(VC)。MSUT跟蹤算法和8個先進跟蹤算法在UAV123數據集各個屬性上進行對比。圖3顯示在尺度變化、相機運動、低分辨率、背景雜亂等8個屬性上的精準度和成功率都取得較好的結果,適合無人機的空中跟蹤挑戰場景。同時,也驗證了加入多幀歷史信息抑制跟蹤漂移算法的有效性,在尺度變化、相機運動、背景雜亂等挑戰場景中增強算法的魯棒性。

圖3 UAV123數據集上8個屬性的性能對比Fig.3 Performance comparison of eight attributes on UAV123 dataset
為了全面分析MSUT算法在所有屬性上的表現,表1列出該算法在其他4個評價指標上的對比結果,其中粗體下劃線表示最好,粗體波浪線為次好。從表1中可見,MSUT算法沒有表現出最好的性能,但在偏離視線(OV)、光照變化(IV)屬性上的性能僅次于ECO-HC跟蹤器,在視角變換(VC)屬性上的性能也僅次于AMCF,而在完全遮擋(FOC)屬性上表現較弱。

表1 UAV123數據集上另外4個屬性的AUC比較結果Table 1 AUC scores for another four attributes on UAV123 dataset
3.1.2 VisDrone2019數據集實驗分析
VisDrone2019是天津大學機器學習與數據挖掘團隊收集的數據集,包含288個視頻片段和10 209個靜態圖像。手動標注260多萬個常用目標的對象實例邊界框,包括對象類別,場景可見性和遮擋等重要屬性。本實驗測試的35個視頻片段是其中較有代表性的。
在VisDrone2019數據集上與ECO-HC[27]、MCCT-H[28]、AutoTrack[21]、AMCF[18]、BACF[20]、ARCF[19]、OMFL[29]等7個先進視頻跟蹤算法進行比較。圖4所示為各算法的整體性能對比結果,可見MSUT算法的精準度值和成功率值都較高,分別為80.9%和59.0%,比次之的跟蹤器精準度和成功率均高出0.006。MSUT跟蹤算法采用加入多個歷史幀信息,并擴大搜索區域的方案,能夠充分利用目標的樣本信息,同時提高樣本質量,有效地緩解因目標信息缺乏帶來跟蹤精度不高的問題。

圖4 在VisDrone2019數據集上的精準度和成功率Fig.4 Precision and success rate on VisDrone2019 dataset
MSUT跟蹤算法和其他7個先進跟蹤算法在Vis-Drone2019數據集12個性能指標上進行對比。給出了在背景雜亂、快速運動、相機運動、低分辨率、尺度變化、縱橫比變化和部分遮擋等7個屬性上比較的結果,可見MSUT算法在相機運動、尺度變化、背景雜亂等挑戰場景中獲得了較優越的性能,性能對比如圖5所示。MSUT算法采用裁剪操作,能夠較準確地提取目標信息,利用響應圖變化估計相似度,提高跟蹤識別能力。

圖5 VisDrone2019數據集上7個屬性的性能對比Fig.5 Performance comparison of seven attributes on VisDrone2019 dataset
表2 列出MSUT跟蹤算法在其他五個指標上的對比結果,其中粗體下劃線表示最好,粗體波浪線為次好。MSUT算法在光照變化(IV)和相似對象(SOB)屬性上的精度僅次于ECO-HC算法,但成功率比其他算法高。在視角變換(VC)屬性上MSUT的性能僅次于ARCF,而在偏離視線(OV)和完全遮擋(FOC)屬性上表現不佳。可能是因為MSUT算法只利用了簡單的手工特征,當目標受遮擋或偏離視線時,手工特征難以有效地表示目標。

表2 VisDrone2019數據集上另外5個屬性的AUC比較結果Table 2 AUC scores for another five attributes on VisDrone2019 dataset
在UAV123數據集 上 與ECO-HC[27]、MCCT-H[28]、ARCF[19]、AMCF[18]、OMFL[29]、AutoTrack[21]等6個先進跟蹤算法進行定性實驗比較,圖6展示了可視化跟蹤結果。實驗表明,MSUT跟蹤算法在group2_2_1、car18_1、wakeboard6_1、boat9_1和person1_s_1這5個視頻序列上都表現出較好的性能。

圖6 在UAV123數據集上各算法的定性比較結果Fig.6 Qualitative comparison results of algorithms on UAV123 dataset
本文提出了多幀監督的相關濾波無人機目標跟蹤MSUT算法。該算法利用歷史視圖信息,通過像差抑制響應圖變化,解決在相機運動、尺度變化等無人機場景下跟蹤產生漂移的問題。然而在處理完全遮擋方面的性能相對較弱,下一步將嘗試加入上下文信息和采用新的響應抑制策略,進一步增強目標跟蹤的魯棒性。