融合多特征和通道感知的目標跟蹤算法

2022-06-17 07:11:02趙運基范存良張新良

計算機與生活 2022年6期

趙運基，范存良，張新良

河南理工大學電氣工程與自動化學院，河南焦作 454003

目標跟蹤是計算機視覺領域中的重要研究課題，同時在視頻監控、自動駕駛、人機交互等方面有廣泛的應用。目標跟蹤是根據視頻序列首幀給定的目標尺寸和中心坐標，預測后續幀中目標尺寸變化和運行軌跡的方法。雖然近年來目標跟蹤技術取得很大的進展，但如何解決目標跟蹤領域中的遮擋、光照改變、尺度變化和快速運動等問題，仍是一個極具挑戰性的課題。目前的跟蹤算法主要分為兩種，生成式模型和判別式模型。生成式跟蹤算法是通過顏色命名（color names,CN）、方向梯度直方圖（histogram of oriented gradient,HOG）等統計特征提取當前目標外觀模型的有效信息，在后續幀候選區域中尋找與目標相似度最高的區域。判別式跟蹤算法將前景目標和背景信息分為兩類，旨在訓練一個可以從背景中區分目標的分類器。生成式跟蹤算法只提取目標外觀模型的有效信息，忽略了背景信息，而判別式跟蹤算法則利用目標和背景的差異，相對于生成式跟蹤算法魯棒性更強。

2018 年的VOT（visual object tracking）挑戰賽中有62%的跟蹤算法采用了卷積神經網絡（convolutional neural network，CNN）特征，19%使用了HOG，24%使用了灰度特征。2019 年的VOT 挑戰賽中有69%的跟蹤算法采用了CNN 特征，18%使用了HOG，16%使用了灰度特征。基于深度特征的跟蹤算法逐漸占據主流，近幾年的深度跟蹤算法主要分為兩類：基于深層卷積的跟蹤算法和基于相關濾波的跟蹤算法。基于深層卷積的跟蹤算法性能良好，底層CNN 特征具有的紋理信息對目標的定位起到重要作用，高層CNN 特征具有的語義信息對目標的分類也十分關鍵。基于相關濾波的跟蹤算法經過不斷的改進，例如采用多維度特征融合、多模板尺度估計、減輕邊界效應等改進方案，提高了基于相關濾波算法的跟蹤性能。目前的深度跟蹤算法往往采用預訓練模型作為特征提取器生成深度特征，當使用預訓練模型表征目標時：由于視覺目標跟蹤中的對象是任意的，即預訓練模型的樣本中不包含的對象或對象信息的特定部分，預訓練模型提取的特征在應對任意形式的目標時效果較差，很難將它們從背景中區分；即使前景目標在預訓練模型的樣本中，但最后的卷積層提取的深度特征通常只保留高級視覺信息，對位置和尺度信息估計較差；由于預訓練模型的深度特征是高維的，當前的深度網絡提取特征時通常伴隨著較大的計算量。因此，利用與前景目標相關的深度特征進行視覺跟蹤十分重要。

近年來，越來越多的研究者將相關濾波引入到目標跟蹤算法中。基于相關濾波的目標跟蹤算法中特征的選擇對跟蹤效果產生很大的影響。其中，Bolme等提出的最小化輸出平方誤差和（minimum output sum of squared error filter,MOSSE）算法，僅使用單通道的灰度特征進行目標跟蹤。Henriques 等提出的KCF（kernel correlation filter）算法將單通道的灰度特征擴展到多通道的方向梯度直方圖用于目標跟蹤，提高了跟蹤精度。Danelljan 等在算法中加入了顏色特征，并利用主成分分析（principal component analysis,PCA）對CN 特征進行降維處理，并在彩色視頻序列中進行在線跟蹤。Danelljan 等提出的DSST（discriminative scale space tracker）算法在MOSSE 的基礎上利用HOG 特征構建尺度金字塔進行目標尺度估計，實現了尺度自適應。以上算法僅使用單一特征描述目標，無法全面表征前景目標，而且不同特征在隨機場景下的跟蹤性能有很大差異。此外上述算法均采用逐幀更新濾波器的方式，但相鄰幀提取的特征較為相似，容易將干擾信息加入到樣本模型中，出現過度擬合到目標特定區域的現象，導致后續幀跟蹤失敗。

針對深度特征描述目標在跟蹤過程中出現漂移或過度擬合的問題，提出了一種融合多特征和通道感知的目標跟蹤算法。本文以UDT（unsupervised deep tracking）為基本框架，通過預訓練模型提取目標區域的深度特征并構建相關濾波器，利用全局平均池化（global average pooling,GAP）生成的權重系數，確定濾波器對應的深度特征通道對于描述前景目標的重要性，刪除與前景目標無關的濾波器對應的特征通道；對保留的特征通過標準差計算生成一維統計特征并與篩選后的特征聯結，依據融合后的深度特征構建相關濾波器并做相關運算，獲取特征響應圖確定目標的位置及尺度；利用跟蹤結果區域的深度特征對融合特征構建的濾波器進行在線更新。在公共數據集OTB（object tracking benchmark）100、VOT2015和VOT2016上進行實驗分析，結果表明本文算法比UDT 更具魯棒性，同時也提升了算法的精度。

1 預訓練模型

圖1 無監督學習模型Fig.1 Unsupervised learning prototype

本文采用的模型為無監督學習模型，圖1 為詳細的訓練過程。在訓練過程中，給定未標記的視頻一個隨機初始化的邊界框標簽，首先向前跟蹤以預測它在后續幀中的位置。然后將序列反向，將最后一幀中預測的邊界框作為偽標簽進行反向跟蹤。期望通過向后跟蹤得到的預測邊界框與第一幀中的原始邊界框一致，并使用一致性損失來衡量前后軌跡之間的差異。

2 本文算法

針對深度特征描述目標在跟蹤過程中出現漂移或過度擬合的問題，本章提出了融合多特征和通道感知的UDT 目標跟蹤算法。本章將從以下三部分介紹本文跟蹤算法：特征通道篩選，該算法通過數據集ILSVRC 2015（ImageNet large scale visual recognition challenge）離線訓練深度學習模型（visual geometry group network,VGG）構建特征提取器，通過預訓練模型輸出32 維深度特征通道，經快速通道感知構建相關濾波器，利用全局均值池化得到特征通道對應濾波器的權重系數，確定濾波器對應的深度特征通道對于描述前景目標的重要性并進行通道篩選，減少參數優化過程的計算量；多特征融合，為了增強特征圖中不同通道之間的關聯性，將降維后的特征與標準差計算生成的統計特征融合；在線跟蹤過程，依據融合后的深度特征構建相關濾波器，通過特征響應圖確定目標的位置及尺度，利用跟蹤結果區域的深度特征對融合特征構建的濾波器進行在線更新，不斷向前傳播完成跟蹤，并通過稀疏更新的方式以減少過擬合的現象。圖2 為本文算法流程圖。

圖2 本文算法流程圖Fig.2 Flowchart of algorithm proposed in this paper

2.1 特征通道篩選

預訓練模型雖然能夠提取訓練樣本中較為完備的深度特征，但對訓練樣本集中不包含的對象提取的深度特征存在通道冗余的現象。深度特征通道的冗余信息不但影響算法的時效性，而且影響預訓練模型對跟蹤算法的定位精度，因此本節采用基于相關濾波方法的通道選擇機制，通過預訓練模型生成的32 維特征通道，經相關計算構建濾波器，并利用GAP 得到的權重系數，刪除與前景目標不相關的濾波器對應的特征通道。

特征提取器生成的深度特征通道對跟蹤目標的貢獻度，可以通過相關計算得到的濾波器權重W來判斷。在權重W的基礎上，本節構建了一組相關濾波器。

式中，定義為全局均值池化。為了避免無關信息的干擾并減少跟蹤過程的計算量，本文采取如下通道選擇機制：

2.2 多特征融合

2.3 在線跟蹤過程

在檢測過程中，候選區域用批量歸一化(batch normalization,BN)處理得搜索區域，再通過特征提取網絡得到后續幀的深度特征()，最后由特征響應圖的最大值來估計平移量。

在線跟蹤期間，濾波器隨著時間的變化而不斷更新。濾波器更新主要是更新觀測模型，以適應目標物體的變化，避免跟蹤過程發生漂移。在跟蹤過程中，需要制定相應的模型更新策略，包括是否更新模型、更新周期等。模型更新沒有統一的標準，通常認為目標物體的外形會連續發生變化，因此往往逐幀更新模型。但是目標物體之前的特征對跟蹤也很重要，連續更新可能會丟失以往的特征信息，引入過多的噪音，因而采用稀疏更新的方式來解決這一問題。為了讓濾波器對形變、光照、遮擋等外界條件具有更好的魯棒性，采取了如下更新策略。

相關濾波跟蹤算法通常是對濾波器進行逐幀更新，并以此估計目標來取得較好跟蹤效果。但是，在每一幀中均更新濾波器會增加一定的計算量。因此本節采用稀疏更新的策略，每=5 幀更新一次濾波器，即當前景目標發生一定程度的變化后再進行優化。該策略在降低計算量的同時也改善了跟蹤效果，原因在于訓練樣本過擬合減少，使跟蹤更加穩定。

3 仿真實驗

3.1 實驗環境

實驗在Windows10操作系統，MATLAB2018a軟件平臺，IntelCorei5-9400F CPU@2.90 GHz，NVIDIA GeForce GTX 1060 3 GB 顯卡，8 GB 內存的硬件平臺上進行。本文算法的實驗均利用MatConvNet工具包在Matlab 中執行。

3.2 數據集

目標跟蹤領域的公共數據集分為VOT 和OTB兩大類，視頻序列均經過精心標注，更具權威性。OTB數據集分為OTB50和OTB100，其中50 和100 代表該數據集中視頻序列的數目。VOT 是官方競賽的數據集，有VOT2015、VOT2016 等且每年均會更新。OTB 和VOT 數據集存在一定的差別，其中OTB 數據集含有25%的灰度圖像，VOT 中均為彩色圖像。兩者最大的區別是OTB 由隨機幀開始，或矩形框加隨機干擾初始化，VOT 是首幀初始化，每次跟蹤失敗即預測框和標注框不重疊時，5 幀后重新初始化。

3.3 消融分析

在公共數據集VOT2015 上，本文對濾波器采用不同更新間隔的算法性能進行消融分析。表1中顯示，隨著更新間隔的增加，跟蹤的平均幀率（FPS）不斷提升，同時在平均精度（Accuracy）和魯棒性（Robustness）方面展現了不同的性能。當每5 幀更新一次時，僅在平均幀率上稍稍落后于其他算法，而在其他方面均為最好或次好。綜上所述，對濾波器每5 幀更新一次時整體效果最好，其中期望平均重疊（expect average overlap，EAO）的提升最為顯著。

表1 VOT2015 中不同更新間隔的跟蹤性能Table 1 Tracking performance of different update intervals on VOT2015

表2 VOT2015 中不同通道數目的性能分析Table 2 Performance analysis of different channel number on VOT2015

在稀疏更新和通道篩選的基礎上，本文對融合不同類型統計特征的算法性能進行消融分析。算法采取了極差、均值、標準差三種統計特征與保留的特征分別聯結并和原算法比較。如表3 所示，當融合極差時，精確度和EAO 存在或高或低的變化，僅有魯棒性取得較大幅度的改善，跟蹤性能提升有限。融合均值或標準差時，性能提升較為顯著，融合均值的特征僅在FPS 方面以0.203 0 的優勢稍領先于融合標準差的特征，而在精確度、魯棒性和EAO 三方面均落后。通過綜合分析，將標準差與保留特征聯結整體性能更佳。

表3 VOT2015 中不同融合方式的性能分析Table 3 Performance analysis of different fusion modes on VOT2015

在公共數據集VOT2016 上，本文對濾波器采用不同更新間隔的算法性能進行消融分析。表4 中顯示，隨著更新間隔的增加，跟蹤的平均幀率不斷提升，同時在平均精度和魯棒性方面展現了不同的性能。當每5 幀更新一次時，僅在平均幀率上稍稍落后于其他算法，而在其他方面均為最好或次好。綜上所述，對濾波器每5 幀更新一次時整體效果最好，其中魯棒性的提升最大。

表4 VOT2016 中不同更新間隔的跟蹤性能Table 4 Tracking performance of different update intervals on VOT2016

表5 VOT2016 中不同通道數目的性能分析Table 5 Performance analysis of different channel number on VOT2016

在稀疏更新和通道篩選的基礎上，本文對融合不同類型統計特征的算法性能進行消融分析。算法采取了極差、均值、標準差三種統計特征與保留的特征分別聯結并和原算法比較。如表6 所示，當融合極差時，魯棒性和EAO 取得了一定的提升，但精確度稍劣于原特征，跟蹤性能提升有限。融合均值或標準差時，性能提升較為顯著，融合標準差的特征在四個方面均以微弱優勢領先于融合均值的特征。通過綜合分析，將標準差與原特征聯結整體性能更佳，其中魯棒性的提升最為顯著。

表6 VOT2016 中不同融合方式的性能分析Table 6 Performance analysis of different fusion modes on VOT2016

3.4 OTB 對比結果

為了有效評估本文算法的性能，在公共數據集OTB100上進行測試，將本文算法與ECO（efficient convolution operators）、LMCF（large margin circulant feature）、ECOHC、UDT（unsupervised deep tracking）、SRDCF（spatially regularized correlation filters）、Staple、SAMF（scale adaptive kernel correlation filter）、DSST（discriminative scale space tracker）、KCF（kernel correlation filter）等目前主流的算法進行對比，從準確性和成功率兩方面對跟蹤性能進行定性和定量評估。

圖3 為不同算法在OTB100 數據集上的精確度和成功率曲線對比圖。由圖3 可知，本文算法的精確度、成功率分別達到了0.835 和0.796，與UDT 相比分別提高了5.2%和2.8%，在性能上僅次于ECO 且均優于其他算法。

表7 和表8 分別描述了在一次性評估模式（one pass evaluation,OPE）下，不同算法在OTB100 數據集上11 種不同屬性的距離精度和成功率。由表7 可知，本文算法在所有屬性上以較大優勢優于UDT。由表8可知，本文算法僅在尺度變化（SV）屬性上以0.001 的劣勢次于UDT，而在其他屬性上均優于UDT。由此表明，本文算法可以適應復雜場景下的跟蹤任務。

圖3 OTB100 數據集上精確度與成功率曲線Fig.3 Precision and success rate plots on OTB100 dataset

表7 不同屬性上各算法的距離精度對比Table 7 Precision comparison of algorithms with different attributes

表8 不同屬性上各算法的成功率對比Table 8 Success rate comparison of algorithms with different attributes

為了能更直觀地對算法進行定性分析，本文選取了8 組具有代表性的視頻，圖4 為不同算法在具有挑戰性的視頻序列的結果對比。

圖4 不同算法在具有挑戰性的視頻序列的跟蹤結果Fig.4 Tracking results of algorithms with challenging video sequences

（1）背景干擾：目標在運動過程中，背景相似或背景復雜等干擾的因素，對于跟蹤算法是一項重大的挑戰。在圖4（a）Football 和圖4（f）Shaking 視頻序列中，前景目標受到相似背景的干擾，圖4（d）Lemming 和圖4（g）Soccer視頻序列中，前景目標受到復雜背景的干擾。圖4 的結果表示，本文算法與其他算法相比，對目標實現了更加精確的跟蹤，表明本文算法對前景目標和背景信息具有較強的區分能力。

（2）快速運動：如圖4（a）Football、圖4（c）Jumping和圖4（h）Sylvester 所示，視頻序列中的目標快速運動。其他算法在跟蹤過程中出現了一定程度的漂移現象，而本文算法可以穩定有效地跟蹤到目標。

（3）尺度變化：視頻序列Freeman3 中，人臉在由遠及近的移動過程中，同時受到相似背景的干擾并產生形變。如圖4（b）所示，從第304 到425 幀，鏡頭拉近并劇烈抖動，其他算法在跟蹤過程中發生了漂移，本文算法仍可以跟蹤到目標。

（4）遮擋：視頻序列Football 中前景目標存在被部分遮擋或完全遮擋的情況，如圖4（a）所示，從第48到74 幀，目標被背景完全遮擋，當前景目標再次出現時，本文算法始終可以跟蹤到目標。

（5）旋轉：視頻序列Mhyang 和Soccer 中目標均出現了平面外旋轉的現象。如圖4（e）和圖4（g）所示，前景目標在移動過程中出現大幅度旋轉，面部信息發生巨大變化，導致提取特征的難度增加，而本文算法的跟蹤結果依然準確。

3.5 VOT 對比結果

在公共數據集VOT2015 中，引入精確度、魯棒性、EAO、幀率等指標對本文算法和其他算法進行比較分析。由表9～表11 可知，本文算法與UDT 相比，在不影響跟蹤速度的情況下，魯棒性得到了一定的提升，其中在應對光照變化、抖動模糊和尺度變化等挑戰時效果較為顯著。而在EAO、精確度等方面，本文算法相較于UDT 均有提升。盡管ECO 和SRDCF 算法總體性能略優于本文算法，但幀率僅為0.848 6 和0.374 6，完全無法滿足目標跟蹤算法的實時性要求，而本文算法可以在速度和性能之間取得較好的平衡。

表9 準確度Table 9 Accuracy

表10 魯棒性Table 10 Robustness

表11 整體性能Table 11 Overall performance

在公共數據集VOT2016中，引入精確度、魯棒性、EAO、幀率等指標對本文算法和其他算法進行比較分析。由表12～表14 可知，本文算法與UDT 相比，在不影響跟蹤速度的情況下，魯棒性得到了提升，其中在應對抖動模糊、遮擋和形變等挑戰時效果較為明顯。而在EAO、精確度等方面，本文算法相較于UDT均有提升。盡管SRDCF 和ECO 算法總體性能略優于本文算法，但幀率僅為0.405 4 和0.871 8，完全無法滿足目標跟蹤算法的實時性要求，而本文算法可以在速度和性能之間取得較好的平衡。

表12 準確度Table 12 Accuracy

表13 魯棒性Table 13 Robustness

表14 整體性能Table 14 Overall performance

4 結束語

本文針對深度特征描述目標在跟蹤過程中出現漂移或過度擬合的問題，以UDT 目標跟蹤算法為基本框架，提出了融合多特征和通道感知的目標跟蹤算法。在通道感知的過程中，利用預訓練模型生成的深度特征通道構建權重，并依據權重篩選深度特征，刪除與前景目標無關的特征通道，避免無關信息的干擾并減少跟蹤算法的計算量；在多特征融合的過程中，為了增強特征圖中不同通道之間的關聯性，將降維后的特征與標準差計算生成的統計特征融合；在線跟蹤中，采用稀疏更新的策略以減少過擬合的現象，使跟蹤過程更加穩定。通過公共數據集OTB100、VOT2015 和VOT2016 進行實驗分析，結果表明，本文融合多特征和通道感知算法的精確度優于UDT，同時在背景復雜、快速運動、尺度變化等方面具有更強的魯棒性。本文的融合多特征和通道感知算法具有借鑒性，對后續的跟蹤算法有一定的參考價值。下一步工作將對兼顧性能和跟蹤速度的基于孿生網絡的目標跟蹤算法進行深入研究。