加權全局上下文感知相關濾波視覺跟蹤算法

2018-08-20 03:42:18張春輝

計算機工程與應用 2018年16期

關鍵詞：特征區域

萬欣，張春輝，張琳，周凡

WAN Xin1,ZHANG Chunhui2，3,ZHANG Lin1,ZHOU Fan1

1.上海海事大學信息工程學院，上海 201306

2.中國科學院大學網絡空間安全學院，北京 100049

3.中國科學院信息工程研究所信息安全國家重點實驗室，北京 100093

1.College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China

2.School of Cyber Security,University of ChineseAcademy of Sciences,Beijing 100049,China

3.State Key Laboratory of Information Security,Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China

1 引言

視覺跟蹤是計算機視覺研究領域的一個前沿方向，其在智能監控、機器人視覺、人機交互、虛擬現實等眾多富有挑戰性的場景中都起到了關鍵性的作用。自從Bolme等人[1]提出MOSSE算法以來，相關濾波器（Correlation Filter，CF）已被廣泛認可為解決視覺跟蹤問題的一種穩健且有效的方法。目前基于CF的跟蹤器在OTB-50[2]、OTB-100[3]、UAV123[4]、TC-128[5]、ALOV300++[6]、VOT2015[7]等當前主流基準測試中排名都非常靠前，同時保持較高的計算效率。

現在對CF跟蹤器的改進主要包括納入kernels[8]和HOG[9]特征，添加color name特征或color直方圖[10]，集成稀疏跟蹤器[11]，采用自適應尺度[12]，緩解邊界效應[13]以及與深度CNN特征[14]整合。目前的研究重點是解決CF跟蹤器固有的缺陷，即擴大其適用范圍。Liu等人[15]提出基于部分的跟蹤技術以降低對部分遮擋的敏感度，并更好地保留對象結構。Ma等人[16]提出通過關聯時間上下文和訓練在線隨機蕨叢分類器進行重新檢測，實現對外觀變化場景長期的穩健跟蹤。Zhu等人[17]提出了一種協同CF跟蹤器，它結合了一個多尺度的核化CF來處理在線CUR濾波器的尺度變化，以解決目標漂移的問題。該方法通過結合外部分類器來輔助CF或利用其高計算速度來同時運行多個CF跟蹤器以提高性能。Sui等人[18]提出了一種新的峰值強度指標來度量學習到的相關濾波器的判別能力，可以有效地增強相關響應的峰值，使得濾波器具有更強的辨別能力。Dinh等人[19]在相關研究中嘗試了使用上下文進行跟蹤，使用順序隨機森林、非線性模板外觀模型和局部特征來檢測無關上下文和跟蹤目標。此外，Xiao等人[20]在最近的工作中，通過場景上下文信息的多層次聚類檢測相似物體和干擾物體，然后經過在線學習獲得全局動態約束，實現無關區域與感興趣目標的區分。然而，這些跟蹤器普遍存在的缺陷是沒有很好的泛化能力。

最近的研究發現，通過修改用于訓練的常規CF模型，可以直接克服其中一些固有的局限性。例如，通過將CF跟蹤器中的嶺回歸作為目標響應的一部分，Bibi等人[21]的工作顯著降低了跟蹤目標漂移帶來的影響，同時保持較高的計算效率。Mueller等人[22]提出了（Context-Aware，CA）框架，該框架可以與許多經典的CF跟蹤器進行集成。但是CA框架所存在的最大缺陷是未對上下文環境信息進行細化處理，即CA框架同等地對待目標對象鄰域內的整個上下文區域，認為整個上下文區域對跟蹤的貢獻相同，削弱了全局上下文在目標檢測中的重要作用。在現實情景中，上下文環境普遍包含十分復雜的信息，有目的性地對不同的區域進行細化，將有利于提高算法的健壯性。為了充分發揮全局上下文的作用，本文運用動態分區的思想，根據上下文中不同區域與追蹤目標運動相似度大小，對不同區域賦予不同的權值，提出基于加權全局上下文感知（Weighted Global Context-Aware，WGCA）框架的相關濾波視覺跟蹤算法。通過利用加權全局上下文信息，WGCA框架與經典的跟蹤器SAMF[23]相結合的SAMFWGCA算法，可以獲得比大多數主流的跟蹤器更好的跟蹤結果（見圖1）。可以發現，它的跟蹤效果甚至優于新近提出的HCFT[24]跟蹤器，實際上HCFT算法的分層卷積特征中已經隱含了上下文環境的信息。

圖1 SAMFWGCA與其他跟蹤器效果截圖

本文的主要創新和貢獻點如下：

（1）提出了基于加權全局上下文感知的視覺跟蹤框架，可以被廣泛地應用于目前主流的CF視覺跟蹤器。

（2）通過求閉式解可以使集成的CF跟蹤器保持較高的運算效率，同時顯著提高它們的性能。

（3）在主流數據集上的測試結果表明提出的加權全局上下文感知框架是有效的。同時，也對所提出的WGCA框架做了魯棒性方面的評估，進一步驗證了該框架出色的性能。

2 傳統CF跟蹤器

傳統CF跟蹤器[25]的核心是使用判別學習。目標是學習連續幀中的感興趣區域以推斷目標的位置，即濾波器響應最大的位置[26]，并得到判別相關濾波器w。CF跟蹤器被廣泛使用和成功的關鍵因素是其采用的抽樣方法[27]。基于相關濾波的CF跟蹤器本質上是采用密集采樣策略，由于計算能力的限制，通常的做法是在目標周圍隨機挑選有限數量的負樣本。采樣策略的復雜性和負樣本的數量可能會對跟蹤性能產生重大影響。CF跟蹤器可以在目標周圍進行密集采樣，并且只需付出較低的計算成本，這是通過將目標在搜索窗口內的所有可能的變換建模為循環移位，并將它們連接以形成數據矩陣A0來實現的。該矩陣的循環結構有助于求解傅里葉域中的以下嶺回歸問題：

式中，矢量w表示相關濾波器；方陣A0包含矢量化圖像塊a0的所有循環移位。記上述回歸目標為y，其為二維高斯矢量化圖像。

如果X是循環矩陣，對其進行下面的變換將可以快速求解方程（1）：

其中，向量X的共軛為X?；用表示X的傅里葉變換FHX，F是DFT矩陣。

2.1 原始域中的解

由于式（1）的目標函數為凸函數，且具有唯一的全局最小值，通過使其梯度值等于0可以得到濾波器的閉式解：又因為A0是循環矩陣，所以可以在傅里葉域中按照式（2）進行對角化和矩陣求逆有效地求出原始域中的解為：

最大響應的位置是搜索窗口內的目標所在位置，因此原始域中的檢測公式由下式給出：

其中，濾波器w為搜索窗口，即圖像塊z的卷積；Z為圖像塊的循環矩陣。

2.2 對偶域中的解

式（1）也可以使用對偶域變量α在對偶域中求解。通過變換，對偶域中的閉式解可表示為α=類似于原始域，它可以在傅里葉域中被有效地求解，對偶域內的解為：

該解可以通過雙積函數來表示，并且可以在對偶域中使用核技巧進行計算。通過把對偶域變量α表示為原始變量，可以直接用于目標檢測。由此，可以得到以下對偶域中的檢測公式：

3 基于上下文的CF跟蹤器

3.1 全局上下文

根據運動相似度把全局上下文分為4類，包括目標區域、支撐區域、無關區域及干擾區域[28]。目標區域是跟蹤對象所在的區域；支撐區域是與跟蹤對象的運動方向基本一致或相同的那些區域；無關區域是指始終靜止不動的背景區域；干擾區域是指與跟蹤對象的運動方向偏差很大甚至截然相反，以及出現遮擋的那些區域。

圖2給出了一個完整的全局上下文區域劃分的示意圖。其中圖像的顏色深度值代表所在區域與其他區域相似度的大小，深度值相同的區域為同一區域，并且兩個區域的顏色深度值相差越大，說明它們的運動方向差異越大。中間高亮的區域代表跟蹤目標。圖中的字母表示根據不同區域運動相似度劃分得到的分區結果。從圖中可以得出E區域為目標區域，A和C區域為支撐區域，B、F及G區域是無關區域，D和H區域為干擾區域。仔細觀察各個區域邊界可以發現，這4類區域的形狀并不是固定的，相互之間也沒有顯著的空間界限。同時，由于上下文區域的動態性，各區域的劃分在跟蹤過程中是隨時間動態變化的，即存在所謂的時間上下文[29]的概念。在視頻中相連的幀序列，跟蹤目標自身所在區域也可能劃分到不同區域中，例如當目標快速移動時，上一幀的目標區域會變成支撐區域，曾經的無關區域也可能變為支撐區域，特定情況下甚至轉變成目標區域；當視頻的某一幀發生遮擋時，原來的目標區域中的被遮擋部分就變成了干擾區域。

圖2 全局上下文區域劃分圖

3.2 上下文感知CA框架

跟蹤對象的周圍環境可能會對跟蹤性能產生很大影響[30]。例如，如果背景混亂，那么背景對于跟蹤成功與否將產生十分重要的影響。Mueller等人[22]在最新的工作中提出了在學習階段向過濾器添加上下文信息的CF跟蹤框架CA。

基于CA框架的跟蹤器在每一幀中，根據hard negative mining[31]采樣策略對感興趣的對象a0∈?n和其周圍的k個上下文片段ai∈?n進行采樣。它們所對應的循環矩陣分別為A0∈?n×n和Ai∈?n×n。這些上下文區域可被視為hard negative樣本。它們包含各種干擾因素和不同形式的全局背景。本文要解決的問題是求一個相關濾波器w∈?n，該濾波器對目標區域有較高的反饋，對上下文區域反饋極低。通過將上下文區域作為正則項添加到式（1）中的嶺回歸問題獲得新的回歸目標。最終，將標準公式（式（1））中的目標區域回歸為y（式（7）），而無關上下文區域則由參數λ2控制回歸為0。

3.3 加權全局上下文感知WGCA框架

在CA框架中，要學習的全局上下文模型為式（7）中給出的數據矩陣A0。本文針對CA框架對上下文信息利用不充分的問題，綜合考慮目標周圍上下文環境中不同區域對跟蹤目標的貢獻權值，提出WGCA框架。因此，上述數據矩陣被重新定義為：

其中，B為加權全局上下文感知模型的數據矩陣；W為上下文對應的權值矩陣，下文將會詳細介紹權值矩陣的計算方法。

本文提出的基于WGCA框架的視覺跟蹤算法的整體運算步驟如下：

步驟1初始化全部所需的參數。

步驟2計算填充后的目標邊界框的大小；用高斯函數表示與邊界框大小成正比的回歸目標；用漢寧窗法計算余弦窗值；創建視頻界面。

步驟3從第1幀圖像到第T幀圖像，執行改進的相關濾波算法。

步驟3.1獲取第1幀圖像的目標邊界框，在新的目標估計位置進行訓練。選取目標區域周圍的k個上下文環境，計算相應的權值矩陣（具體見3.3.3小節）。計算出第1幀圖像在傅里葉域內的閉式解，作為濾波器模型的初始化。

步驟3.2從第2幀圖像開始，從上一幀目標的位置獲得目標邊界框，并變換到傅里葉域。把相關濾波器反饋最大的區域作為目標的估計位置。獲取目標邊界框，在新的目標估計位置進行訓練。選取目標區域周圍的k個上下文環境，計算相應的權值矩陣（具體見3.3.3小節）。計算在傅里葉域內的閉式解。采用線性插值的方法更新濾波跟蹤器。

步驟3.3保存上述兩個步驟的目標邊界框的位置坐標和運算時長；同時可視化濾波跟蹤視頻界面。

步驟4輸出濾波跟蹤器的中心位置誤差、幀率、邊界框重疊率；繪制成功率圖、精度圖等。

3.3.1 上下文權值矩陣

根據上下文環境中不同區域的物體的運動方向與目標中心的運動方向之間的相似度，來決定哪些區域對跟蹤目標的定位起到更加關鍵的作用。那些與目標運動相似度比較高的支撐區域的作用通常比較大，應該賦予相對較高的權重，而那些無關區域和干擾區域，幾乎不提供有用的跟蹤信息，則賦予相對較小的權值，最終形成一個與上下文環境作用大小一致的權值矩陣。為了獲取上下文環境中所有像素的運動信息，根據光流跟蹤算法的結果來推算視頻上一幀和下一幀對應點的位移，進而計算出運動軌跡。按Lucas-Kanade[32]稀疏光流算法獲得離散點的權重，最后通過插值獲得整個上下文環境的權值矩陣。

3.3.2 跟蹤特征點的選擇

特征點的選擇對光流跟蹤來說是十分重要的。根據對相關文獻的分析，通常被選用的特征點有Harris角點[33]、Goodfeaturestotrack特征點[34]、SIFT特征點[35]、SURF特征點[36]和隨機像素特征點[37]等。根據對上述特征點的總體性能進行分析，發現Harris角點在處理時間上具有明顯的優勢，并且可以獲得足夠數量的特征點，它的跟蹤性能十分優異，跟蹤穩定性也能被確保。因此，進行Lucas-Kanade稀疏光流跟蹤時使用Harris角點作為特征點。

3.3.3 權值矩陣計算步驟

利用光流跟蹤獲得第t幀圖像全局上下文環境的權值矩陣Wt的計算步驟如下：

輸入：視頻的第t-1幀和第t幀，尺度參數γ。

輸出：全局上下文權值矩陣Wt。

步驟1讀入視頻序列，在第t-1幀提取一定數量的Harris角點，即

步驟2根據Lucas-Kanade算法，得出第t幀中對應的目標跟蹤結果，即

步驟2.1刪除跟蹤產生的跟蹤錯誤點。

步驟3計算第t幀跟蹤目標中心位置與全部Harris角點之間運動的相似度。

步驟3.1計算得到該幀跟蹤目標中心位置和所有Harris角點的位移向量

步驟3.2把上面的位移向量改寫為極坐標，即是位移向量的極坐標形式，和代表位移向量的長度和角度。dx和dy為位移向量在x軸、y軸方向的分量。arctan為反正切函數，θ∈(-π,+π)。

步驟4計算目標中心位置與Harris角點之間的距離。該距離定義為目標中心位移向量與Harris角點位移向量之間的差，即：

3.3.4 相關濾波器特性分析

從3.3.3小節權值矩陣計算步驟可知，本文提出的基于WGCA框架的相關濾波器有以下特性：因為支撐區域、目標區域內的像素與跟蹤目標中心坐標的距離相對較小，所以支撐區域和目標區域內的像素能夠得到相對較高的權重（見圖3），即濾波器對支撐區域、目標區域將有較高的反饋。反之，處于干擾區域、無關區域內的像素，其最終的權重就小得多，即濾波器對干擾區域和無關上下文區域的響應較小。圖3（b）是WGCA跟蹤算法執行過程中在圖3（a）所在幀中計算得到的上下文權值矩陣。灰度越淺表示權值越高，相應地濾波器對此區域的反饋越大。可見那些與目標運動相似度高的支撐區域、目標區域都有較高的權值，即得到了較大的反饋。

圖3 加權全局上下文環境及對應的權值矩陣

3.4 單通道特征

3.4.1 原始域中的解

式（7）中的原始目標函數fp可以通過在目標區域上疊加加權全局上下文信息，得到新的數據矩陣B∈?(k+1)n×n，新的回歸目標∈?(k+1)n。

其中：

由于fp(w,B)是凸函數，可以通過令其梯度為0來使其最小化，從而得到：

類似于式（1）中的CF跟蹤器，按照式（2）在傅里葉域中做變換得到以下閉式解[38]：

它與式（4）所定義的標準公式本質上是一致的。

3.4.2 對偶域中的解

可以看出式（9）表示的原始域中的解與標準嶺回歸問題的解的形式完全相同。因此，CF跟蹤器在對偶域中的解可由下式給出：

使用循環矩陣的恒等式得到：

其中，向量djl,j,l∈{1,2,…,k}，由下式給出：

上式可以使用核技巧，因為圖像塊之間的所有相互作用都是同時發生的。從而線性相關性可以簡單地由傳統核化CF跟蹤器的核相關性來代替。

所有的圖像塊矩陣都是對角的，因此系統分解為尺寸為?(k+1)×(k+1)的n個小系統。這顯著降低了復雜性，且可以實現并行計算。不再是通過求解?(k+1)n×(k+1)n維的高維系統來計算α?，而是對α的每個像素p∈{1,2,…,n}求解一個單獨的系統，結果如下式所示：

由此式（6）中對偶域的檢測公式可以根據上面的公式改寫為rd(α,B,Z)=ZBTα。它與標準公式相似，但除了目標之外，B還包含加權全局上下文信息。又因為α∈?(k+1)n由對偶變量{a0,a1,…,ak}組合而成，按照式（2）進行對角化變換，傅里葉域中的檢測公式可以重寫為：

3.5 多通道特征

3.5.1 原始域中的解

因為多通道特征通常可以比單通道特征（例如灰度強度）提供更豐富的目標表示，所以將式（7）推廣到多通道特征并學習所有特征維度m的聯合濾波器是很重要的。可以采用與單通道特征（式（12））類似的方式重寫多通道原始目標函數但有以下不同：現在包括作為行的目標和上下文區域以及作為列的相應特征。用不同特征尺度的濾波器被堆疊成∈?nm。

最小化式（18）與單通道情況類似可得：使用循環矩陣的恒等式得到：

對于每個特征維度i,l∈{1,2,…,m}的跟蹤目標和上下文圖像區域分別用a0j和aij表示。那么塊被定義為：

但是這個系統不像單通道情形（式（15））那樣能夠有效地求逆。然而所有塊都可以表示為對角矩陣，因此系統可以分解成n個尺度為?m×m的較小系統，通過并行計算可以顯著降低計算復雜度。類似于式（15），對于濾波器的每個像素p∈{1,2,…,n}可求解一個單獨的系統。

多通道特征原始域內的檢測公式與式（4）中的標準公式幾乎相同，區別在于圖像塊z和學習的濾波器w是m維的。

3.5.2 對偶域中的解

與單通道特征的情況類似，多通道原始域中的解（式（19））與標準嶺回歸問題的解具有完全相同的形式，在對偶域中可以得到以下解：

再次，由循環矩陣（方程（2））的恒等式可得：

可以發現，上述線性系統與單通道特征的對偶域內的解（第3.4.2小節）的情況相似，只是現在要沿特征維度m進行一次求和。該解還能夠使用核技巧、線性系統按照與單通道情況（式（16））相同的方式進行求解。

多通道特征對偶域內的檢測公式和單通道特征對偶域內的情況類似，其差別在于和?(k+1)n×nm現在具有多個特征維度列：對角化后進行重新改寫，傅里葉域中的檢測公式最終簡化為：

3.6 對CF跟蹤器的適用性分析

本文推導了濾波器在單通道特征、多通道特征和原始域、對偶域所有可能情形的閉式求解方法。在原始域單通道特征的情況下，該解僅包含基于元素的操作，并且實現是低代價的。在對偶域單通道特征情況下，需要對n個尺度為(k+1)×(k+1)的小系統進行求逆。它們中的每一個都可以改寫為外積的形式，并且可以使用Sherman-Morrison[39]公式進行反演運算，從而可以非常有效地求解。

由于多通道情形的解包含原始域和對偶域的總和，不能將其改寫為外積的形式。如果要求解的系統較小，則可以精確地求解。求解的復雜性取決于在原始域情況下選擇的特征維數m或在對偶域情況下上下文區域的數量k。總體來說，求解n個小系統的復雜性較低，并且是系統密集的。如果m或k足夠小，那么直接求解這些系統會非常高效。如果求解的系統較大（原始域為nm×nm維，對偶域為(k+1)n×(k+1)n維），它們通常十分稀疏。當m或k非常大時，則可以使用共軛梯度下降（CGD）[40]方法。對于原始域多通道特征，假設這m個特征是獨立的，當使用HOG特征時，可以使用式（14）獨立高效地計算每個特征維度的濾波器。對于對偶域多通道特征情形，目標區域和k個上下文區域通常也是相互獨立的，則問題可以轉化為類似于式（1）中多通道特征的正則嶺回歸問題，進而有效地求解。

通過以上分析可知，本文提出的WGCA框架CF跟蹤算法可以采用求閉式解的方法，并且給出了各種特征在原始域和對偶域進行組合的解。因此在實際應用需求中，可以廣泛應用于不同類型的主流CF視覺跟蹤器，從而提高它們的目標跟蹤性能。

4 實驗結果及分析

首先，將WGCA框架與4種經典的CF跟蹤器進行集成；然后，將它們與對應的基準版本跟蹤器、目標自適應跟蹤器以及CA跟蹤器進行比較。此外還加入了一種加權時空上下文算法（Weighted Spatio-Temporal Context，WSTC）[28]進行對比分析。為了進行評估，在目前主流的跟蹤數據集OTB-100上進行測試。

4.1 基準跟蹤器

為了驗證本文提出的WGCA框架的性能，選擇了4種經典的CF跟蹤器作為基準，表1總結了這幾種CF跟蹤器。本文將提出的WGCA框架應用于上述4個基準跟蹤器，將它們稱為MOSSEWGCA、DCFWGCA、SAMFWGCA和STAPLEWGCA。此外，將它們的目標自適應跟蹤器稱為MOSSEAT[41]、DCFAT[42]和SAMFAT[43]。把對應的基于CA框架的目標跟蹤算法稱為 MOSSECA、DCFCA、SAMFCA和STAPLECA。

表1 基準CF跟蹤器

4.2 實驗設置

4.2.1 評估指標

按照OTB-100中所定義的，首先使用以下兩種測評方法對跟蹤器進行性能評估：精度（Precision）和成功率（Success Rate）。

中心位置誤差（Center Location Error，CLE）[2]是一種普遍使用的跟蹤精度評估指標，指的是跟蹤對象中心位置和基準的平均歐氏距離。在一些文獻中提出采用精度圖（Precision Plot）[4，44]來衡量跟蹤算法的總體性能。精度圖曲線表示給定閾值后，估計坐標和基準坐標的歐氏距離在閾值內的視頻幀數的比例。通常閾值取20像素時，定義跟蹤器的精度[45]。

邊界框重疊率（Bounding Box Overlap）[2]是一種成功率度量的指標。若記跟蹤器的邊界框為rt，基準邊界框為ra，那么邊界框重疊率S通常被刻畫為S=其中?、?表征兩個子區域像素的并集、交集，|?|指像素點的統計數目。為度量追蹤器總體性能，需要統計重疊S不小于指定閾值t0時的成功幀的數目。成功率圖（Success Plot）上，跟蹤成功視頻幀所占比率取值0至1。新近比較主流的一個指標是曲線下方面積（Area under Curve，AUC）[3]，本文也將根據AUC曲線對追蹤器進行性能度量及排序。

上面兩種度量方法都是根據基準目標的坐標對第一幀進行初始化，之后進行視覺跟蹤得到精度和成功率。它們被統稱作一次性評估（One-Pass Evaluation，OPE）[46]。它們存在兩個主要不足：首先，特定跟蹤器也許對第一幀的初始位置比較敏感，在不同位置或者不同幀對算法進行初始化可能對跟蹤效果產生巨大的影響；其次，一些跟蹤器丟失目標之后不設置重新初始化的機制。因此，又提出了以下多種測評方法：時間魯棒性評估（Temporal Robustness Evaluation，TRE）[47]、空間魯棒性評估（Spatial Robustness Evaluation，SRE）[48]、一次性重評估（One-Pass Evaluation with Restart，OPER）[49]、空間魯棒性重評估（Spatial Robustness Evaluation with Restart，SRER）[50]。

接下來，本文將對WGCA跟蹤器從時間魯棒性和空間魯棒性兩個指標進行評估。時間魯棒性評估（TRE）從不同的幀作為起始進行跟蹤，初始化采用的邊界框即為對應幀人工標注的邊界框，最后對這些結果取平均值，得到TRE分數。空間魯棒性評估（SRE）把人工標注框進行多尺度擴大與縮小和略微地平移來產生新的邊界框。平移的距離通常取跟蹤對象大小的10%，尺度變化的大小取人工標注框的70%至110%，依次增長10%，最終SRE分數被定義為它們的平均值。

4.2.2 參數設置

所有的基準跟蹤器、自適應目標跟蹤器和CA跟蹤器均使用原作者提供的標準參數運行。為了公平比較，使用相同的參數運行WGCA跟蹤器。將正則化因子λ2設置為{2，25，0.4，0.5}，并對 MOSSEWGCA、DCFWGCA、SAMFWGCA和STAPLEWGCA分別使用學習率為{0.025，0.015，0.005，0.015}的更新規則。將上下文區域k的數量設置為9，并在目標周圍均勻采樣。為了增加全局上下文的魯棒性，對所有WGCA跟蹤器進行了填充。

本文的實驗代碼在CA框架開源的Matlab代碼上進行改寫而成[22]，主要增加了基于光流跟蹤算法的全局上下文權值矩陣計算模塊。實驗中所有的跟蹤器都使用Matlab9.2進行編程實現并且在同一臺PC（Intel?CoreTMi7-7820HQ CPU 2.90 GHz，16.0 GB RAM）上運行。

4.3 定量結果分析

4.3.1 整體評估

圖4顯示了OTB-100上所有基準跟蹤器及其自適應目標的上下文感知和加權全局上下文感知算法對應的結果。WGCA框架改善了所有基準跟蹤器的性能，隨著使用更復雜的特征，性能反而會降低。對于復雜的CF跟蹤器（SAMF）和基本的CF跟蹤器（MOSSE），WGCA框架較CA框架精度相對改進為從{18.2%，3.6%}到{25.5%，11.0%}，成功率的相對改進為從{13.1%，6.3%}到{28.5%，19.0%}。此外，WGCA框架不僅超越基準，而且超過相應的AT追蹤器（不適用于STAPLE[20]）和CA跟蹤器。與自適應目標框架相比，這種性能增益的計算成本要低得多。WGCA框架跟蹤器的運行速度約為基準的60%，但比AT版本的速度快1.3～2.0倍，與CA框架算法的運行速度相當。

圖4 跟蹤器在OTB-100上的平均總體性能

表2展示了16個視覺跟蹤算法跟蹤的中心位置誤差（CLE）和幀率（FPS），這些算法分別是MOSSE、DCF、SAMF、STAPLE、MOSSECA、DCFCA、SAMFCA、STAPLECA、MOSSEAT、DCFAT、SAMFAT、WSTC、MOSSEWGCA、DCFWGCA、SAMFWGCA、STAPLEWGCA。從表中可以發現，本文WGCA跟蹤器在OTB-100測試集的4個視頻Jumping、Human7、Car1和Skiing上均取得了最佳的跟蹤結果。同時，雖然基于CA框架的跟蹤器也有較高的準確率，但是對于以上4個視頻集成WGCA框架的跟蹤器在犧牲較小效率的前提下，較CA框架跟蹤器的CLE分別降低了40.7%、35.0%、45.7%、46.9%。

4.3.2 運算效率評估

只從跟蹤幀率方面分析，上述改進跟蹤器的目標檢測速率都較基準跟蹤器有不同程度的降低，但是這并未考慮它們在跟蹤精度方面帶來的效果提升。因此，下面考慮通過幀率誤差比C來評估跟蹤算法的運算效率。幀率誤差比C定義為C=FPS/CLE，其中FPS為視覺跟蹤器的平均幀速率，CLE表示中心位置誤差。幀率誤差比C綜合考慮了跟蹤器的運算速度指標FPS和跟蹤精度指標CLE對跟蹤算法性能的影響，是一個較好的視覺跟蹤算法運算效率評估指標。

圖5給出了4個基準跟蹤器，基于CA框架的目標跟蹤器以及本文WGCA跟蹤器的幀率誤差比。從圖中可以看出，WGCA算法對4個基準跟蹤器的運算效率提升均是最大的。但是隨著基準跟蹤器復雜性的增加，運算效率提升的增益降低，出現這種情況因為后兩個跟蹤器采用了多尺度[22-23]，WGCA框架對它們運算效率提升相對有限。基于CA框架的跟蹤器相對于基準跟蹤器運算效率也有所提升，然而本文WGCA框架采用了求閉式解的方法，并且在實施Lucas-Kanade稀疏光流跟蹤時使用Harris角點作為特征點進行快速計算，整體在運算效率方面更加具有優勢。

圖5 跟蹤器運算效率比較圖

4.3.3 按屬性評估

本文提出的WGCA框架在大多數情況下提高了基準跟蹤器的性能，并在某些情景下比其他情景獲得了更大的改進。在快速運動（圖6（a））、運動模糊（圖6（b））、遮擋（圖6（c））和比例變化（圖6（d））的情況下，跟蹤器的性能得到了顯著的改進。其中，快速運動指目標的運動速度大于閾值；運動模糊指目標區域由于目標或相機的運動而模糊；遮擋指目標部分或完全遮擋；比例變化指第一幀和當前幀邊界框之比大于1。特別地，如果對象外觀急劇變化（例如比例變化、遮擋）或者背景與目標相似（例如背景模糊）的情景，WGCA框架非常有效。此外，它在具有快速運動的視頻中也顯著提高了跟蹤器的性能。這主要是由于添加加權全局上下文充分利用了被搜索區域的信息。同樣值得注意的是，在大多數情況下，本文方法優于自適應目標框架[22]，該框架是專為提高快速運動場景跟蹤器的性能而設計的。

4.3.4 魯棒性評估

為了驗證本文提出的WGCA框架的魯棒性，采用時間魯棒性評估（TRE）和空間魯棒性評估（SRE）兩個評價標準進行度量。實驗中將具有最佳性能的加權全局上下文感知CF視覺跟蹤器（SAMFWGCA和STAPLEWGCA）及其基準（SAMF[23]和STAPLE[20]）與新近提出的跟蹤器SOWP[51]、HCFT[52]和 MEEM[53]進行了比較。此外，還選擇了不符合WGCA框架的目前主流CF跟蹤器DSST[54]、MUSTER[55]、SRDCF[13]進行對比分析。DSST 與 SAMF非常相似，MUSTER采用長短期內存策略，SRDCF在最近的跟蹤基準測試中[13]排名第一，但不適用于WGCA框架。最后，與TLD[56]和經典上下文跟蹤器CXT[19]進行比較。如圖7所示，本文提出的STAPLEWGCA跟蹤器依然是這些視覺跟蹤算法中魯棒性最優的。

表2 中心位置誤差（CLE）和幀率（FPS）

圖6 跟蹤器在OTB-100中4個屬性的平均性能

圖7 跟蹤器在OTB-100上的魯棒性評估

4.4 定性結果展示

為了可視化本文提出的WGCA框架在跟蹤性能方面的效果，在圖8和圖9中展示了4個基準算法MOSSE、DCF、SAMF、STAPLE與其對應的加權全局上下文感知跟蹤算法 MOSSEWGCA、DCFWGCA、SAMFWGCA、STAPLEWGCA對來自OTB-100中的多個示例視頻進行跟蹤比較的例子。大體上，這些視頻主要包括兩個場景：快速運動（Fast Motion）以及遮擋（Occlusion）。

從上述包含快速運動和遮擋兩個主要場景視頻的跟蹤效果圖上可以直觀地發現，本文提出的WGCA框架能夠追蹤到目標，并且沒有出現明顯的偏移或目標丟失的現象。同時，基于WGCA框架的CF跟蹤器明顯地提高了相應基準跟蹤器的視覺跟蹤精度。

圖8 OTB-100中包含Fast Motion的部分視頻跟蹤效果圖

圖8主要包含快速運動場景。第1行給出了視頻Car2的跟蹤效果圖，從#228幀、#368幀、#549幀、#793幀、#901幀可以明顯看出基準跟蹤器出現了不同程度的偏移現象；第2行視頻Crossing的#5幀、#35幀、#78幀、#110幀、#120幀基準跟蹤器依然出現了偏移；第3行視頻Surfer的#9幀、#72幀、#113幀、#177幀、#236幀基準跟蹤器由于人的快速移動出現了目標丟失的現象，由于WGCA框架可以利用人體上下文信息，其依然可以實現對目標對象的魯棒跟蹤；第4行視頻Couple的#69幀由于車輛的出現，基準跟蹤器出現了偏移現象，#113幀由于人快速移動以及背景的改變，基準跟蹤器出現了偏移和目標丟失的現象。

圖9主要包含遮擋場景。第1行給出了視頻David3的部分跟蹤結果，#86幀、#190幀、#240幀中人在被路標指示桿或樹遮擋的情況下，基準跟蹤器出現了偏移甚至跟丟目標的現象；第2行視頻Jump包含遮擋、快速移動、比例變化、背景模糊、復雜背景、目標旋轉等多種因素，從#10幀、#42幀、#51幀、#72幀、#88幀可以看出，即使基準跟蹤器把目標跟丟，WGCA跟蹤算法依然能夠準確地跟蹤到目標對象；第3行視頻Skating1含有遮擋、背景復雜等場景，從#6幀、#154幀、#158幀、#167幀、#308幀可以發現，基準跟蹤器跟蹤結果出現較大偏差，但基于WGCA框架的算法的跟蹤效果并沒有受到影響；第4行視頻Walking2包含遮擋、比例變化、低分辨率等因素，受此影響在#190幀、#204幀、#223幀、#371幀圖像上基準跟蹤器出現了丟目標的現象，WGCA框架的跟蹤器由于充分利用了上下文信息，跟蹤效果依然非常好。

4.5 進一步討論

根據濾波器的單通道、多通道特征和原始域、對偶域的不同組合，運算系統的復雜性以及求解的最佳方法會有所不同。但是，仔細選擇矩陣求逆方法對于保持計算效率非常重要（參見3.5節）。

此外，本文提出的WGCA框架還可以揭示目標跟蹤過程中何時可能發生潛在的跟蹤故障。通常，數據項的能量可以用于表示幀與幀之間差異大小的指標。直觀地說，這種能量從一幀到另一幀的劇烈變化可能表明跟蹤器出現漂移的情況，但是在實際中這可能不是產生這種變化的唯一原因。例如，由于光照變化、變形、遮擋等，該能量也可能在幾幀內突然波動。因此，單獨的數據項不是目標漂移的可靠度量。另一方面，式（7）給出的上下文項的能量也可以用來表征數據項的影響。在許多情況下，目標的外觀變化不會影響上下文（例如比例變化、變形、遮擋等），因此幾個幀內的兩個指標（數據項和上下文項）的突然變化是跟蹤失敗或漂移的更可靠度量指標。在視覺跟蹤過程中綜合考慮上述兩個指標的作用可能有助于相關濾波跟蹤器從跟蹤故障中恢復過來。

5 結束語

本文提出了一個基于相關濾波器的視覺跟蹤通用框架WGCA，該框架以較低的計算代價將全局上下文整合到濾波器訓練階段。主要思想為根據上下文中不同區域與追蹤目標運動相似度大小，把上下文分成4類：目標區域、支撐區域、無關區域及干擾區域。采用光流法計算得到全局上下文權值矩陣，整合到CA框架的數據矩陣中，從而得到本文最終的WGCA框架。該框架可以輕松地與大多數CF跟蹤器進行集成，可以充分發揮支撐區域的作用，同時降低干擾區域的影響，實現了魯棒視覺跟蹤的目標。大量實驗表明，WGCA框架改善了所有測試的CF跟蹤器的跟蹤性能，并且擁有較高的計算效率。同時，通過實驗進行評估，得出了WGCA框架最有效的幾個場景：全部或部分遮擋，比例變化，背景模糊，快速運動。下一步研究將從以下兩方面進行：融合目標自適應框架；采用深度學習的方式對上下文環境進行特征提取，以得到對全局上下文更加精確的權值矩陣表示。