自適應上下文感知相關濾波類目標跟蹤算法

2022-07-04 06:11:26孫雅媚曲家慧董文倩

西安電子科技大學學報 2022年3期

孫雅媚，肖嵩，2，曲家慧，董文倩

(1.西安電子科技大學綜合業務網理論及關鍵技術國家重點實驗室，陜西西安 710071；2.北京電子科技學院電子與通信工程系，北京 100070)

視覺目標跟蹤是計算機視覺領域的研究熱點之一，被廣泛應用于眾多實時視覺領域，例如視頻監控、人機交互、機器人技術等[1-3]。其主要任務為給定待跟蹤目標的初始狀態，確定在接下來視頻序列中目標的位置。在幾十年的發展中，已經提出了許多算法來設計魯棒的跟蹤器，并取得一定程度的成功。但是，仍然存在許多挑戰性因素，例如背景雜亂、快速運動、運動模糊和遮擋等，這些因素會在不受約束的情況下妨礙精確的跟蹤性能場景。因此，設計一個魯棒的目標跟蹤算法仍然是一項重要且長遠的任務。

近年來，基于相關濾波的目標跟蹤算法[4-5]已經成為目前主流的跟蹤算法之一。文獻[6]將信號處理領域的相關性理論應用于目標跟蹤，提出了一種最小輸出誤差平方和(MOSSE)算法，奠定了基于相關濾波的目標跟蹤算法的基礎。文獻[7]在MOSSE算法的基礎上引入了循環移位操作和核函數，通過對基礎樣本的循環移位可以產生大量的訓練樣本，同時利用循環矩陣可對角化的性質在頻域內加速了模型計算。然而循環移位操作在提升樣本數量的同時，引入了邊界效應，為了解決這一問題，文獻[8]通過擴大訓練樣本區域，同時使用一個二進制掩碼矩陣來抑制邊界效應的產生，并將單通道的灰度特征擴展到多通道的HOG特征，提出了背景感知相關濾波(BACF)算法，與其不同，空間正則化相關濾波(SRDCF)算法[9]通過引入空間正則化機制來抑制邊界效應的產生，但該算法計算復雜度高，跟蹤速度較慢。文獻[10]提出了上下文感知相關濾波(CACF)算法，通過將目標上下文信息作為負樣本用于濾波器的訓練，從而使模板學到上下文背景信息，提升了跟蹤器的魯棒性；但是該算法對上下文信息進行抑制時，沒有具體考慮上下文信息對于目標的干擾程度，均采用一致的抑制系數。因此，筆者通過提出一個上下文信息干擾系數公式，來定量評估上下文信息對于目標的干擾程度，并基于計算結果，自適應地賦予上下文信息不同的抑制權重系數，從而提升算法整體的跟蹤成功率和準確率。

1 上下文感知相關濾波算法原理

傳統的相關濾波器采用循環移位的方式在目標周圍進行密集采樣，同時利用嶺回歸訓練分類器，其目標函數表示為

(1)

其中，w表示訓練出來的相關濾波器，A0表示初始樣本a0經過循環移位后得到的矩陣，y表示回歸的目標，λ1表示正則化系數。令梯度為零，可得上式的封閉解為

(2)

依據循環矩陣可以被傅里葉變換矩陣對角化的性質，可以在頻域得到

(3)

上下文感知相關濾波器以此為基礎，將初始樣本對應的循環矩陣A0作為正樣本，同時采集初始樣本上下左右四個方向的上下文區域作為困難負樣本來訓練魯棒的濾波器，以此實現將目標周圍的背景信息學習到濾波器中。上下文區域的具體采樣方式如圖1所示，所對應的循環矩陣記為Ai，則對應的目標函數轉化為

圖1 上下文信息采樣區域示意圖

(4)

式(4)以正樣本具有較高的響應值和負樣本具有盡可能小的響應值作為約束條件訓練相關濾波器，在頻域內可得到

(5)

2 跟蹤算法

上下文感知相關濾波算法中，對于目標上下文信息采用相同的抑制權重，這種上下文信息抑制方法沒有考慮到上下文信息對于目標的干擾程度。針對這一問題，提出了一種自適應抑制權重系數的上下文感知跟蹤算法。首先，通過對相關濾波響應圖的觀察，提出了一個上下文信息干擾系數公式，用于定量評估具體采樣的上下文信息對于待跟蹤目標的干擾程度；其次，引入一個自適應權重系數向量，用于修正基準上下文感知算法中單一的正則化系數，同時基于上下文信息干擾系數公式計算的結果，自適應地賦予上下文信息不同的抑制權重系數，從而實現對目標干擾程度越大的上下文信息，被賦予更大的抑制權重，對目標干擾程度越小的上下文信息，被賦予更小的抑制權重，以此來提升算法整體的跟蹤成功率和準確率。

2.1 上下文信息干擾系數

通過分析相關濾波跟蹤算法的響應圖可知，理想的響應圖應該是只有一個尖峰，同時在其他區域應當平滑，響應圖尖峰對應的位置即為預測的目標中心。但是當一些跟蹤難點問題如形變、快速運動、運動模糊等出現時，整個響應圖將進行劇烈的波動，目標周圍上下文信息處的響應值會變高，對跟蹤結果產生干擾；基于此，文中提出一個表征目標上下文信息對目標干擾程度的公式，即上下文信息干擾系數D：

(6)

其中，Fmax、Fi max分別表示相關濾波響應圖中的峰值和每個上下文采樣區域的峰值。此上下文信息干擾系數D可以反映出上下文采樣區域信息對跟蹤目標的干擾程度，通過觀察該式可知，當在上下文采樣區域內，相關濾波響應的局部峰值越大，表征此區域背景信息對于目標的干擾程度越強，即該區域被誤判為目標的可能性越大，此時比值越大，對應D值越小。因此，通過計算當前幀響應中，每個上下文采樣區域的D值的大小，可以定量預估出每個上下文采樣區域的干擾程度，進而為后續上下文信息抑制權重的自適應作分配指導。

2.2 自適應抑制權重的上下文感知跟蹤算法

針對上下文感知跟蹤算法對于目標上下文信息采用一致的抑制權重，沒有考慮上下文信息對于目標具體的干擾程度問題，基于上節提出的上下文信息干擾系數D，提出一種自適應抑制權重的上下文感知跟蹤算法。引入一個自適應權重系數向量，記為W={β1，β2，β3，β4}，其中系數值以k為步長逐個下降，此自適應權重系數向量用于修正基準算法式(4)中一致的抑制系數λ2，故式(4)轉化為

(7)

其中，AC1AC2、AC3、AC4分別代表對目標干擾程度從大到小的上下文采樣區域對應的循環矩陣。由該式可知，對目標干擾程度越大的上下文信息，將匹配越大的抑制權重，從而實現上下文抑制權重的自適應。

關于自適應匹配的過程，采用的算法為：首先基于式(6)分別計算出圖1中4個采樣區域A1、A2、A3、A4的干擾系數，分別記為D1、D2、D3、D4；其次將干擾系數進行升序排序，以此可確定出對目標干擾程度大小的上下文區域排序；最后將按照干擾系數大小升序排序后的上下文區域與文中的自適應權重系數向量匹配，從而實現數值大的抑制權重匹配干擾系數值小的上下文區域，即干擾程度越大的上下文信息受到的抑制程度越大。

以式(7)為目標函數，以正樣本具有較高的響應值和負樣本具有盡可能小的響應值作為約束條件訓練相關濾波器，利用循環矩陣卷積性質，在頻域內可得到

(8)

由相關濾波知識可知，利用訓練出來的濾波器模板，可用于檢測當前輸入幀的響應，即

(9)

其中，Z為當前輸入圖像塊對應的循環矩陣，搜索框內最大響應處的位置即為預測的當前幀目標位置。

2.3 算法步驟

(1) 視頻序列首幀目標位置的確定。手動確定初始幀目標位置和目標上下左右4個上下文區域。

(2) 生成n個尺度的跟蹤框，并提取對應區域特征。

(3) 位置濾波器訓練和位置濾波器模板的更新。若為視頻序列首幀，則采用一致的抑制權重系數對目標上下文信息進行抑制；若非視頻序列首幀，則首先根據式(6)分別計算上下左右4個上下文信息的干擾系數，記為D1、D2、D3、D4；其次，將計算結果進行升序排序，從而確定對目標干擾程度的大小；最后，基于式(7)進行上下文采樣區域和抑制權重系數的自適應匹配，最終實現干擾程度越大的上下文信息受到的抑制程度越大。

(4) 尺度濾波器的訓練和尺度濾波器模板的更新。

(5) 目標定位。采用位置濾波器計算候選窗上的響應response，求得最大響應處位置pos，在所求位置上用尺度濾波模板計算不同尺度乘子的響應，以確定目標的尺度大小。

(6) 輸出跟蹤結果，矩形框標定。重復執行步驟(3)，直至視頻序列結束。

3 實驗和分析

3.1 實驗環境與參數設置

實驗采用的操作系統為Windows 10，仿真軟件為MATLAB R2016a，硬件環境為AMD R7-3700X CPU，主頻為4.20 GHz，內存為32 GB的計算機。筆者提出算法的主要參數設置為：搜索區域padding為2.0，正則化系數λ1為0.000 1，學習率learning-rate為0.015，權重系數向量W={30，25，20，15}，步長k為5，其余參數設置與DSST算法的一致。

3.2 實驗結果分析

為驗證筆者提出算法的性能，選取OTB100數據集[11]的全部視頻序列進行測試，在性能評估階段，對所提出的算法分別進行一次通過評估(OPE)、空間魯棒性評估(SRE)和時間魯棒性評估(TRE)[11]，并基于性能評估結果與其他經典目標跟蹤算法進行比較，包括CSK[12]、KCF[7]、DSST[13]、MOSSE_CA[10]、DCF_CA[10]和DSST_CA[10]共6種經典算法，實驗結果如圖2所示。

圖2中的(a)到(f)展示了所提出算法在內的多個主流目標跟蹤算法在OTB100數據集上的性能評估結果(跟蹤精確度和成功率)曲線圖，其中，成功率曲線度量預測框與標注框的重合度超過某一閾值的幀的占比，精確度曲線圖則度量預測框與標注中心點小于某像素的幀的占比。在跟蹤成功率曲線圖中，文中算法Ours2_1的OPE評估結果較算法DSST(Baseline算法)和算法DSST_CA分別提高了約5.7%和2.1%；SRE評估結果較算法DSST(Baseline算法)和算法DSST_CA分別提高了約2.1%和0.4%；TRE評估結果較算法DSST(Baseline算法)和DSST_CA分別提高了約2.4%和0.5%。在跟蹤精確度曲線圖中，文中算法Ours2_1的OPE評估結果較算法DSST(Baseline算法)和DSST_CA分別提高了約4.3%和2.3%；SRE評估結果較算法DSST(Baseline算法)和DSST_CA分別提高了約2.9%和0.8%；TRE評估結果較算法DSST(Baseline算法)和DSST_CA分別提高了約2.6%和0.5%。綜合OPE、SRE和TRE這3種評估標準，筆者所提出的算法(Ours2_1)在跟蹤成功率和精確度上均優于算法DSST(Baseline算法)和算法DSST_CA。在與其他主流算法的比較中，文中算法的OPE跟蹤精確度雖略低于算法DCF_CA，但是其余指標較算法DCF_CA均有較大提升。

(a) OPE成功率

為了進一步評估提出算法在各種跟蹤屬性下的魯棒性，表1中列舉了各算法在OTB100數據集上基于跟蹤屬性的SRE跟蹤成功率得分，每項屬性的前兩名分別用粗體進行標識。

表1 與經典算法在OTB100數據集中基于屬性的成功率對比

由表1可知，提出算法在11個屬性序列中，6個屬性位列第一，5個屬性位列第二，對快速變形、背景相似干擾、運動模糊等跟蹤難點問題具有較強的魯棒性。同時，在OTB100中選擇有代表性的23組具有快速變形、背景相似干擾、運動模糊等跟蹤屬性的視頻序列，對提出算法和幾個近期相關算法進行測試，包括STRCF[14]、BACF[8]、LMCF[15]共3種近期算法；結果表明，所提出算法的跟蹤成功率和精確度均優于其他算法，具體實驗結果如圖3所示。

(a) OPE成功率

為了更直觀驗證文中所提出算法的有效性，圖4給出了提出算法(Ours2_1)、DSST_CA和DCF_CA共3種跟蹤算法在OTB100數據集中的3個代表性跟蹤視頻序列上的跟蹤效果圖。

在basketball視頻序列中，目標在第22幀發生形變后，DSST_CA、DCF_CA和提出算法均能實現穩定跟蹤，但是跟蹤框標定位置的精確程度，提出算法明顯優于前兩者，前兩者均出現了跟蹤框向上漂移的問題。當目標發生形變后，相關濾波的響應圖會發生波動，根據上下文信息區域響應對目標干擾程度的大小，自適應匹配不同的抑制權重系數，從而使得該算法具有更好的定位精確度。

在football1視頻序列中，當跟蹤目標出現相似背景干擾影響時，DSST_CA算法和DCF_CA算法由于不區分上下文背景區域對于目標的干擾程度，采用一致的抑制權重，造成干擾峰值過高時，跟蹤算法發生漂移，因此分別在第62幀和第74幀出現明顯的跟蹤漂移，只有文中算法能實現穩定性跟蹤。

在Human2視頻序列中，跟蹤目標在第213幀發生較大尺度變化時，DSST_CA和提出算法添加了尺度濾波器，能實現尺度自適應跟蹤。在第622幀，當目標出現旋轉、變形后，提出算法的定位精確度優于DSST_CA算法。

OTB100數據集中的每個測試視頻序列長度不一，每幀圖像的分辨率也不相同，為了比較提出算法和對比算法的運算量，文中統計各跟蹤算法在OTB100數據集的平均運行速度，如表2所示。

表2 各跟蹤算法在OTB100數據集上的平均運行速度

由表2可知，提出算法的運行速度較DSST算法(baseline)有所下降，這是因為提出算法在對濾波器進行訓練時，將目標周圍的背景信息也考慮在內，因此整體的運算量較基準算法有了一定增加，但是文中算法的跟蹤成功率和精確度有了大幅提升，具體表現為跟蹤成功率和精確度較基準算法分別提升了約5.7%和4.3%。

4 結束語

針對上下文感知相關濾波算法中，沒有具體計算上下文信息對目標的干擾程度，直接采用相同抑制權重的問題，文中提出一個上下文信息干擾系數公式用于定量計算上下文信息對于目標的干擾程度，并基于計算結果，與引入的自適應權重系數向量進行匹配，從而實現對目標干擾程度越強的上下文區域，受到的抑制程度越大。最后，使用OTB100數據集的全部視頻序列對文中算法性能進行驗證。結果表明，筆者提出算法的成功率和精確度較其基準算法分別提升了約5.7%和4.3%，同時對快速變形、背景相似干擾、運動模糊等跟蹤難點問題也具有較強的魯棒性。