




摘" 要:""""" 視覺目標跟蹤是計算機視覺領域的重要研究方向之一, 在戰場偵察、" 視頻監控、" 自動駕駛和視頻分析等軍事和民用領域得到廣泛應用。 近年來目標跟蹤算法已經取得一系列進展, 但由于在實際跟蹤過程中存在著復雜的目標和背景變化, 穩定的目標跟蹤仍面臨很多挑戰。 本文首先介紹了實際跟蹤場景中出現的困難挑戰; 其次, 主要針對背景相似干擾、" 旋轉變化、" 遮擋、" 尺度變化等難點問題分別就特征提取、" 觀測模型和模型更新三個方面對具有代表性的判別式目標跟蹤方法進行深入闡述和分析; 隨后, 在OTB2015數據集上對25種典型跟蹤算法進行了實驗對比與分析; 最后, 對視覺目標跟蹤技術的發展方向進行展望。
關鍵詞:"""" 視覺目標跟蹤; 判別式目標跟蹤模型; 相關濾波; 深度學習
中圖分類號:""""" TJ760
文獻標識碼:""" A
文章編號:"""" 1673-5048(2024)03-0040-11
DOI: 10.12132/ISSN.1673-5048.2023.0112
引用格式: 于明鑫, 王長龍, 張玉華, 等. 復雜環境下視覺目標跟蹤研究現狀及發展[ J]. 航空兵器, 2024, 31( 3): 40-50.
Yu Mingxin, Wang Changlong, Zhang Yuhua, et al. Survey of Visual Tracking Algorithms in the Complex Scenarios[ J]. Aero Weaponry, 2024, 31( 3): 40-50.( in Chinese)
0" 引" 言
視覺目標跟蹤是在初始視頻幀中框定感興趣目標, 在后續視頻幀中對該目標進行持續定位, 是計算機視覺領域的一個研究熱點。 目標跟蹤被應用在包含視頻監控、" 無人駕駛、" 軍事領域等眾多軍事和民用場景中。
在武器制導、" 戰場偵察和武器打擊效果評估領域中, 目標的運動狀態是系統必需的重要信息。 比如在戰場偵察中, 通過對既定目標進行長時間的持續跟蹤, 實時傳回目標位置信息和狀態信息, 為指揮員的決策以及后續的精確打擊提供基礎。
近年來, 目標跟蹤技術的框架和精度獲得了很大提升和改進, 但跟蹤過程中目標自身的變化和跟蹤環境的復雜性導致目標外觀特征不斷變化, 對跟蹤提出了巨大的挑戰, 存在如目標遮擋、" 旋轉變化、" 尺度變化、" 背景雜波等情況, 在復雜場景下目標跟蹤容易出現目標失跟、" 漂移到相似干擾物等情況, 如何實現復雜場景下穩定且魯棒的目標跟蹤, 對實際應用具有重大意義。 現有的大多數算法主要致力于提高在數據集上的綜合性能, 缺乏對具體跟蹤挑戰的解決。 針對不同的特定環境條件, 需要有針對性地解決相應的困難挑戰。 本文針對復雜環境下的判別式目標跟蹤算法進行綜述, 針對目標跟蹤過程中出現的困難挑戰對跟蹤算法進行分類分析, 能夠應對復雜多變的環境帶來的跟蹤挑戰, 實現在復雜場景中穩定的目標跟蹤。
1" 視覺跟蹤中的難點
視覺目標跟蹤技術在跟蹤精度和準確率上不斷提升, 但由于跟蹤環境的復雜性和多變性, 設計一個魯棒、" 穩定的跟蹤算法實現復雜環境下的穩定跟蹤仍然面臨很多挑戰。 這些挑戰主要來自外在挑戰和內在挑戰, 如圖1所示。
外在挑戰是指跟蹤場景中環境的變化, 如背景相似干擾、" 遮擋。
背景相似干擾: 目標在運動過程中背景經常發生變化, 背景可能會對目標的判別產生干擾, 尤其當目標周圍出現相似干擾物時, 比如相似的外觀、" 相似的顏色分布或者相似的輪廓形狀等情況, 由于相似干擾物的特征和目標具有相似性, 無法將目標與相似干擾物區分開, 導致跟蹤器容易將干擾物誤認為是目標, 模型在訓練時將干擾物誤認為是正樣本, 誤差通過正反饋不斷積累, 模型逐漸對干擾物過擬合, 無法重新識別目標, 造成模
收稿日期: 2023-06-06
基金項目: 基礎前沿科技創新項目(KYSZJXXXXX006)
作者簡介:" 于明鑫(1996-), 女, 山東威海人, 博士研究生。
*通信作者: 馬曉琳(1979-), 女, 河北石家莊人, 教授。
型漂移。
遮擋: 當目標發生局部遮擋時, 僅保留一部分有效的目標的外觀特征, 導致跟蹤器無法識別出目標; 當目標發生全局遮擋時, 遮擋物覆蓋了目標的外觀特征, 導致將遮擋物誤認為目標, 將錯誤的信息引入濾波器訓練階段, 導致模型漂移、" 判別能力下降, 即使目標再次出現在視野中, 由于模型漂移也會導致跟蹤失敗。
內在挑戰是指目標自身變化帶來的跟蹤困難。 當目標發生變化時, 目標的外觀特征也發生改變, 對目標外觀的建模不夠及時準確, 造成跟蹤困難。 如圖1(c)中, 玩具在運動過程中發生了角度的旋轉, 第一幀訓練的目標模板不足以反映當前幀的目標特征, 濾波器訓練過程中會將豎直目標框內的背景誤認為是目標, 造成模型漂移跟蹤失敗。 航空兵器" 2024年第31卷第3期
于明鑫, 等: 復雜環境下視覺目標跟蹤研究現狀及發展
尺度變化: 在實際的跟蹤過程中, 目標的尺度可能由于距離攝像頭的遠近發生變化。 當目標尺度由大變小時, 原本的跟蹤框內存在著大量背景負樣本, 而背景信息也被認為是目標的一部分用來訓練; 當目標尺度由小變大時, 濾波器只能學習到目標的局部信息, 損失一部分目標特征。 兩種情況都會導致不正確的樣本參與濾波器訓練, 長時間會導致濾波器漂移造成跟蹤困難。
2" 跟蹤難點的解決辦法
2.1" 背景相似干擾
背景相似干擾指在跟蹤過程中視頻幀中目標周圍出現相似干擾物, 相似干擾物在特征表達上和感興趣目標相似, 為了更準確地判別目標和相似干擾物, 需要針對相似干擾物特性對于相似的顏色、" 外觀設計一個判別能力強的跟蹤框架。 判別式目標跟蹤框架核心主要包括特征提取、" 觀測模型和模型更新三部分。
2.1.1" 特征提取
(1) 單特征
MOSSE(Minimum Output Sum Square Error)[1]采用灰度特征作為目標特征進行目標跟蹤, 計算量小, 跟蹤速度快, 但跟蹤精度低。 Danelljan等[2]利用CN特征作為目標特征進行目標跟蹤, 把RGB顏色分為11類, 利用主成分分析法(PCA)將11維的特征降到2維, 自適應的選擇顯著性顏色。 文獻[3]利用HOG特征, 將圖像劃分為局部方格單元, 并提取像素的梯度方向和梯度強度, 對幾何和光照都能保持很好的不變性。 單特征在某些特殊環境下具有局限性, 制約著跟蹤準確度的提高。
(2) 多特征
不同的特征能夠表征目標的不同屬性, 其在不同情形能發揮不同的效果, 多特征融合可以融合不同特征的特性實現優勢特點的互補。 HOG特征在目標發生形變時跟蹤效果差, 但目標的顏色分布不會發生改變, 因此顏色直方圖特征對目標形變具有良好的不變性。 文獻[4]融合了HOG特征與顏色直方圖特征作為目標特征, 將兩種特征的優勢特點進行互補, 彌補了各自的局限性, 在不同場景下發揮兩種特征的跟蹤優勢。 但未考慮特征之間的內在聯系, 僅以固定的權重將其級聯成高維向量, 在有些場景下會退化跟蹤器的表現甚至比單一特征的表現更差。 文獻[5]提出一種自適應特征融合的目標跟蹤算法, 利用峰值旁瓣比作為權重自適應地對HOG特征和顏色特征加權融合。
(3) 深度特征
目標分類、" 目標檢測等領域利用深度學習強大的特征表達能力實現了跨越式發展, 利用深度特征作為目標跟蹤中的特征表示成為了新的研究方向。 文獻[6]首先在ImageNet上預訓練VGG-19網絡, 提取conv3_4, conv4_4, conv5_4三層特征作為目標特征, 將不同層的深度特征進行由粗到精的融合, 同時兼顧底層特征的細節信息和高層特征的語義信息, 三個響應圖加權融合得到最終目標響應, 利用最終響應圖判斷目標位置。
特征按空間維度和通道維度直接級聯, 采樣區域內的背景會對目標產生干擾作用, 因此, 研究者們提出利用特征選擇的方式增強目標特征[7-8]。 文獻[7]提出基于實例的特征金字塔, 設計基于實例的上采樣模塊融合淺層和深層特征, 同時利用壓縮空間通道選擇模塊對特征通道進行自適應加權組合, 充分挖掘淺層和深層特征的優勢。 考慮到淺層特征魯棒性較差, DA-GNT(Domain Activation Mapping-Guided Network)[8]將VGG-M和VGG-16網絡進行集成, 尤其將域空間注意力圖作為VGG-16網絡的輸入可以對背景特征實現一定的抑制, 利用VGG-M網絡的空間細節信息對VGG-16進行了補充。 HiFT(Hierarchical Feature Transformer)[9]將多層卷積特征傳入Transformer, 實現底層特征和深層特征的自適應交互性融合, 不僅能夠獲得全局上下文信息, 而且端到端的網絡結構可以學習到多個卷積層特征之間的依賴關系。 特征之間在語義上可能是有重復性的, 很可能存在特征冗余。 RPformer(Robust Parallel Transformer)[10]利用雙路Transformer結構提取目標感知特征。 雙路Transformer是平行結構形成信息互補, 既可以利用特征的依賴性, 同時捕獲視頻序列中模板和搜索區域中豐富的全局上下文信息, 又利用多頭交叉注意力特征融合模塊對兩個分支特征自適應融合, 提高目標和背景特征的判別力。 相關操作會丟失語義信息, TransT(Transformer Tracking)[11]設計了基于自注意力的自我上下文增強模塊和一個基于交叉注意力的交叉特征增強模塊, 只使用Transformer來替代基于相關操作的網絡用于特征融合。
如何在不同的跟蹤任務選擇合適的特征以及更有效的特征融合方式仍然有進一步研究的空間。
2.1.2" 觀測模型
觀測模型主要是判別當前關注的候選區域是否為目標, 是目標跟蹤算法中的核心部分之一。 跟蹤任務首先提取候選區域的特征, 再利用觀測模型判別是目標還是背景區域, 最終預測目標位置。 SCAFNet(Scene Context Attention-Based Fusion Network)[12]構建目標位置模塊和場景上下文模塊, 增加注意力層增強上下文信息, 在特征層和決策層自適應融合目標特征和上下文知識, 利用上下文信息作為先驗知識輔助目標完成跟蹤。 CACF(Context-Aware Correlation Filter)[13]在相關濾波器的訓練中引入了鄰域上下文信息, 顯式地利用上下文信息, 并證明新的優化函數可以有閉式解, 目標和上下文信息同時參與濾波器的訓練。 上述目標跟蹤方法主要是利用目標附近上下文背景輔助目標進行定位, 增強背景感知能力, 但是當目標周圍有相似干擾物時, 上下文信息可能就存在對感興趣目標的相似干擾, 造成跟蹤器的漂移。 為了更有效地抑制無關背景信息, 主要有兩類方法:
(1) 邊界效應抑制法
SiamFC(Fully Convolutional Siamese Networks)[14]利用余弦窗來降低圖像塊的邊緣背景干擾, 以上一幀目標位置為中心提取搜索區域, 在搜索區域上添加余弦窗, 削弱邊緣部分背景信息, 但是余弦窗將搜索區域的邊緣像素全部置0, 過濾掉判別式跟蹤器本來需要學習的背景信息, 降低了判別式跟蹤器的判別力。 SRDCF(Spatially Regularized Correlation Filters)[15]采用空間正則化方式抑制背景, 根據空間位置對遠離目標中心的邊界區域的濾波器系數進行懲罰, 通過懲罰系數降低背景區域的權重。 SCSTCF(Spatial-Channel Selection and Temporal Regularized Correlation Filters)[16]構建時空正則化相關濾波器, 時間正則化避免濾波器在時間維度上發生突變, 而文獻[17]從不同的角度通過構建相鄰幀環境殘差項保持濾波器的時序連續性, TrDiMP[18]通過Transformer結構探索視頻幀之間的時間上下文關系, 將歷史幀模板送入解碼器, 這樣搜索區域可以從歷史幀中聚合目標信息, 但空間正則化矩陣是固定不變的, 對背景的抑制作用也是固定的, 忽略了目標的多樣性和時變性, 當目標形狀或者尺度發生改變時, 對背景的抑制作用降低甚至可能減弱目標。 文獻[19]引入自適應空間正則化項懲罰邊界的濾波器系數, 將自適應正則化項整合于濾波器訓練框架, 使得約束權重能夠根據目標狀態的變化自適應改變, 更有針對性地約束邊界區域。 AutoTrack[20]利用局部和全局響應圖的變化自適應地設計空間正則化超參數, 后來的研究針對自適應正則化的構建進行了擴展, 比如基于尺度大小的正則化項[21]、" 基于跟蹤置信度的正則化項[22]和基于內容感知的正則化項[23], 通過正則權重對邊界區域進行約束, 減小邊界效應的影響。
SCA-Siam[24]和SMCF(Soft Mask Correlation Filter)[25]在目標外觀模型中引入了軟掩膜的概念, 然而基于正則化項和軟掩膜都忽略了背景區域中和目標相關的有用信息, ATSM(Adaptive Target-and-Surrounding Soft Mask)[26]構建目標-背景自適應軟掩膜, 使用非零區域對濾波器進行擴展, 其可以整合有用背景信息、" 抑制無關背景, 同時對于跟蹤框內的目標區域, 增強可靠性目標區域、" 抑制頻繁變化的區域。 但空間正則化方法通常忽略特征的冗余性, 和空間正則化思路不同, LADCF(Learning Adaptive Discriminative Correlation Filters)[27]使用lasso約束對空間特征進行選擇, 自適應地保持了目標及背景的判別流形結構, 自適應選擇最優判別空間掩膜, 避免邊界失真, 并抑制干擾信息的影響, 從而實現壓縮感知。
(2) 目標響應自適應約束
當目標周圍背景存在相似干擾時, 傳統相關濾波器的理想響應不能反映當前幀的場景, SRECF(Spatial Reliability Enhanced Correlation Filter)[28]通過空間可靠性動態的調整響應標簽, 根據當前跟蹤狀態和響應圖的變化趨勢設置懲罰標簽, 對不可靠的目標區域進行壓制。 Zheng等[29]提出背景約束項, 將歷史幀中學習到的背景抑制信息加入濾波器訓練中。 孿生網絡的深層特征只抽取了語義表述, 很容易漂移到屬性類似的干擾物, EDCF[30]利用自編碼結構強調目標的細節信息, 并利用上下文感知的相關濾波器抑制掉周邊的干擾。 常見的孿生網絡框架只能區分目標和無語義的背景雜波, 當背景干擾是有具有語義含義的物體時, 跟蹤效果較差, DaSiamRPN(Distractor-Aware Siamese Networks)[31]在訓練數據內加入語義負樣本對, 通過非極大值抑制篩選類內干擾, 構造干擾感知目標函數, 使用增量學習的方式來訓練目標模板和干擾模板, 對候選區域和目標模板的目標響應與候選區域和干擾模板的干擾響應的加權和作差, 實現了背景干擾的壓縮。 針對干擾物響應可能存在超過目標響應造成跟蹤失敗的情況, ATOM(Accurate Tracking by Overlap Maximization)[32]采用基于共軛梯度的在線訓練分類器, 并采用難分類樣本挖掘策略, 在有干擾物的場景中通過對干擾物峰值處訓練樣本學習率加倍進一步增強分類組件的魯棒性, 其網絡結構如圖2所示。 Nocal-Siam[33]提出位置感知的非局部模塊, 利用非局部注意力機制的長距離依賴性對多個響應圖的位置信息進行約束學習, 生成自適應的響應權重對背景中的干擾物進行抑制。 Pg-Net(Point Gathering Network)[34]設計一種像素-全局匹配的方法, SiamGAT(Siamese Graph Attention Tracking)[35]利用完全二分圖來建立目標模板和搜索區域之間的部分與部分對應關系的方法來抑制背景的干擾。
如何直接對背景中的相似干擾物有針對性地進行約束建模并調整跟蹤響應的分布," 還有待進一步研究解決。
2.1.3" 模型更新
模型更新關注于如何設計一種更新策略及時適應目標表觀特征動態變化, 降低模型漂移現象出現的概率, 使跟蹤算法在不同跟蹤場景保持較好的魯棒性。 現有的目標跟蹤算法對在線更新和不更新之間進行權衡, 一方面, 停止外觀模型的更新對于遮擋、" 光照變化等跟蹤挑戰具有更強的魯棒性, 然而當出現相似干擾物或者目標自身形變等情況, 會引入模板漂移、" 欠擬合等問題; 相反, 在線更新可能會使模型受到遮擋等其他復雜干擾而產生漂移。 目前, 常見的目標更新策略主要有以下三類:
(1)" 逐幀更新
文獻[36]提出利用線性插值法在每一幀采用固定的學習率對模型進行更新。 但逐幀在線更新計算壓力大, 實時性較差, 而且逐幀更新更容易受到背景負樣本的干擾, 尤其是目標被遮擋時, 可能會把背景當作目標對模型進行更新, 增加了跟蹤算法漂移的可能性。
(2)" 稀疏更新
DTT(Discriminative Tracking with Transformers)[37]間隔固定幀數進行參數更新, 但是不能及時更新目標狀態, 且如何確定幀數間隔又是新的問題。
(3)" 自適應更新
通過判斷目標外觀的變化情況動態地更新模型, 可以有效避免固定式模型更新的盲目性。 文獻[38]提出利用模型參數的變化率表征模型更新的頻率, 模型參數的變化率越大, 越能促進模型更新。 文獻[39]提出利用幀差法比較圖像的平均差分分段調整更新速率。 文獻[40]提出利用平均峰值相關能量(Average Peak to Correlation Energy, APCE)平衡模型更新, APCE指標衡量目標響應圖的震蕩程度, 只有當前幀APCE值大于歷史幀APCE均值, 才對濾波器模型進行更新, 說明目標響應圖震蕩緩慢, 跟蹤結果可靠, 降低了模型被污染的風險。 僅利用前一幀模型進行更新, 容易導致對最近鄰模型的過擬合, 穩定性較差, 文獻[41]提出UpdateNet模板更新方法, 在模板分支增加UpdateNet結構, 將初始幀、" 當前幀以及累積模板作為網絡框架的輸入, 通過殘差學習, 在下一幀預測最優的目標模板, 實現了模板自適應更新, 利用前T幀模型共同進行更新增強了模型更新的穩定性。 文獻[42]利用動態記憶網絡來動態地更新目標模板, 能夠自適應地捕捉視頻序列的依賴性, 同時自適應地學習目標外觀的變化, 為了減小計算壓力, 采用快速的候選框選擇策略篩選高質量的候選框用于LSTM進行分類。 由于跟蹤過程中正樣本不足, 分類器容易過度擬合并且失去泛化能力, 元學習網絡[43]被用來進行模型更新。 文獻[43]提出將元學習網絡和SiamFC網絡結合, 將SiamFC網絡最后一層的梯度傳遞到元學習網絡, 生成額外的卷積核和通道注意力參數, 將這些動態新增的參數合并到SiamFC中, 從而讓特征空間可以根據追蹤過程中獲得的新的外觀模版進行自適應更新, 而不會產生過擬合情況。
2.2" 遮" 擋
視頻幀中局部遮擋會造成目標外觀變化, 而全局遮擋會導致目標在視野中消失, 同時在遮擋發生時如果不合理地更新目標模板會引入大量負樣本, 造成模型漂移, 即使目標再次出現在視野中, 由于模板的漂移使得模型無法識別目標。 因此, 需要跟蹤算法能夠判斷出目標遮擋的程度, 并利用歷史幀的目標外觀模型和當前幀僅有的目標信息預測目標位置。 目前解決目標遮擋的策略主要有分塊跟蹤和重檢測兩種。
2.2.1" 分塊跟蹤
文獻[44]對目標塊分別利用相關濾波進行跟蹤(分塊跟蹤框架如圖3所示), 將分塊濾波器的響應圖聯合得到最終的目標位置, 采用SCCM指標檢測各個圖像塊遮擋程度, 自適應分配目標塊權重, 降低了被遮擋局部圖像子塊對跟蹤結果的影響, 未發生遮擋的圖像子塊依舊可以表達目標外觀特征, 但只考慮目標的局部信息, 忽略目標塊之間的空間結構聯系以及全局上下文信息。 文獻[45]提出一種基于新的分塊方式的目標跟蹤算法, 對圖像子塊分別進行濾波跟蹤, 根據子塊的平均位移估計粗略的目標位置, 在此基礎上利用全局濾波器估計得到最終精確的目標位置。 Han等[46]提出目標顯著性指導的圖像塊采樣策略, 并且利用非極大值抑制排除重疊率高的圖像塊, 充分考慮中心顯著性區域和邊緣區域的差別, 有利于目標關鍵語義特征整合。 但局部目標塊僅利用目標局部信息, 一旦子塊發生漂移, 對跟蹤結果影響較大。 因此, 需要對局部子塊的跟蹤結果進行篩選。 Wang等[47]提出利用MCS作為評價指標衡量圖像子塊的可靠性, 根據可靠性權重采用Hedge算法融合各個圖像塊的跟蹤結果得到最終的目標位置。 文獻[48]提出自適應分塊策略, 以目標的尺寸及寬高比作為依據, 通過局部子塊與全局目標之間的空間幾何關系估計目標位置, 并且基于峰值旁瓣比和歐氏距離判斷跟蹤置信度, 對于置信度低的局部子塊的位置進行重新初始化。
利用局部濾波器如何根據目標特性設計合理的分塊策略, 如何處理局部子塊之間以及全局與局部之間的空間位置關系, 以及依據跟蹤狀態對目標塊進行篩選還有待進一步研究。
2.2.2" 重" 檢" 測
通過對跟蹤過程中的遮擋程度進行判斷, 利用重檢測機制重新定位跟蹤目標。 TLD(Tracking-Learning-Detection)[49]首次將傳統的跟蹤模塊和檢測模塊相結合, 在判斷目標發生遮擋時利用檢測模塊對圖像樣本進行分類來重新檢測目標。 除了TLD以外, 條件隨機場模型[50]、" 隨機森林分類器[51]、" boosting算法[52]、" MIL跟蹤器[53]、" SVM[54]、" 最近鄰規則分類等也作為檢測模塊被廣泛應用到目標跟蹤領域, 然而, 檢測模塊有較大的偶然性, 沒有提出目標跟蹤置信度評價指標, 在沒有遮擋情況發生時容易造成誤檢測, 而且在全局進行遍歷, 計算壓力較大。 LCT(Long-Term Correlation Tracking)[55]利用響應峰值作為判斷遮擋的評價指標, 使用在線隨機蕨在目標丟失時重新檢測目標, 很大程度上提升了目標發生遮擋情況下跟蹤的精度, 跟蹤框架如圖4所示。 文獻[56]提出同時考慮APCE及其梯度作為跟蹤置信度評價指標, APCE梯度可以表征相鄰幀之間的變化程度。 文獻[57]提出同時考慮最大響應值和APCE兩種可靠性指標判斷目標被遮擋程度, 在目標被遮擋后啟用SVM重新檢測目標, 同時將濾波器重新初始化, 只有跟蹤置信度高的視頻幀的樣本被用來訓練更新SVM。 文獻[58]將峰值旁瓣比和次主峰與主峰比相乘的結果作為跟蹤置信度。 文獻[59]將峰值響應、" 峰值旁瓣比、" 次主峰與主峰比和APCE四個判斷指標相乘作為遮擋的評價指標。 SiamRPN(Siamese Region Proposal Network)[60]和SiamRPN++[61]將搜索策略從局部擴展到全局來檢測目標是否跟蹤丟失。 文獻[62]將重檢測機制分為第1幀重檢測和擴展區域重檢測。 第1幀重檢測機制利用第1幀圖片信息更新目標特征, 降低背景信息的干擾作用; 擴展區域重檢測在擴大的搜索區域內重新搜索目標。 Zhang等[63]提出1種反遮擋機制, 當目標局部遮擋時, 局部極值點位置有可能是目標位置, 因此提出將局部極值光滑性作為評價準則判斷局部極值點是否為目標位置。 如果局部極值光滑性大于給定閾值, 則以該極值點為中心提取搜索區域, 利用相關濾波器重新提取目標特征跟蹤定位目標。
雖然上述算法在解決遮擋挑戰下有一定效果, 但是遮擋評價指標過分依賴響應圖, 而且遮擋情況下有效目標信息有限, 遮擋物對于模型訓練帶來負面影響, 基于分類器的重檢測模塊的性能發揮受限。 因此, 判斷目標的置信度并在跟蹤遮擋后利用有限的目標信息重新搜索定位目標是很重要的。
2.3" 旋轉變化
視頻序列中當目標發生旋轉變化時, 對目標外觀的描述發生變化, 跟蹤框內包含大量背景信息, 濾波器不可避免地學習到背景信息, 會引起模型漂移。 因此, 提取有效的目標特征, 保持跟蹤過程中的旋轉不變性, 排除背景信息的干擾至關重要。
文獻[64-66]提出將樣本轉換到對數極坐標系下, 利用相位相關法在對數極坐標中同時估計目標的尺度變化因子和旋轉角度, 利用相關濾波器估計目標位置, 最后將極坐標系下的平移量轉換到笛卡爾坐標系下, 估計目標旋轉角度。 文獻[67]提出在利用傳統相關濾波器訓練位移濾波器的基礎上, 在目標中心多角度采樣構建樣本金字塔, 和DSST類似的思路訓練一個一維角度濾波器, 角度濾波器和樣本金字塔相關響應的峰值即為當前目標的旋轉角度。 角度濾波器具有通用性, 可以整合在其他大部分以相關濾波器為基礎的跟蹤器內。 文獻[68-69]重新構造了旋轉感知的相關濾波器, 等角度間隔旋轉采樣特征模型, 得到目標在不同角度下的特征表示, 以此構造基本樣本并進行循環移位, 傳入濾波器估計最優目標位置及旋轉角度, 利用旋轉后的樣本估計目標尺度。 分別枚舉角度池和尺度池, 導致候選圖像塊數量加倍, 嚴重制約著跟蹤器的速度。 為了同時保持精度和速度, 文獻[70]將角度池和尺度池結合, 在搜索框上同時施加旋轉變換和尺度變換, 將變換后的搜索框輸入DCNN進行特征提取, 但多個搜索框分別傳入DCNN依舊會造成計算壓力。 Siam-OS[71]提出對原始搜索框首先經過DCNN進行特征提取, 再對特征圖進行旋轉和尺度變換, 減少了DCNN的深度特征提取過程的計算復雜度, 提高了計算速度, 但固定的角度池限制了角度估計的精度。 文獻[72]提出針對SAR圖像的目標旋轉角度估計方法, 利用哈希算法檢測目標的角點坐標, 利用最小二乘法估計目標旋轉角度。 該類旋轉估計方法能自適應目標旋轉角度的變化, 克服了角度池中角度變化范圍有限的限制, 但是角點坐標估計的精度嚴重影響制約了旋轉角度的估計, 算法復雜度高。 SiamMask-E[73]在SiamMask掩膜的基礎上利用橢圓擬合方法擬合目標輪廓并進行仿射變換得到旋轉的矩形邊界框, 將最小-最大軸對齊邊界框和擬合邊界框取交集得到最終目標的邊界框。
2.4" 尺度變化
當目標尺度由大變小時, 原本的跟蹤框內存在著大量背景負樣本, 而背景信息也被認為是目標的一部分用來訓練; 當目標尺度由小變大時, 濾波器只能學習到目標的局部信息而丟失其他重要信息, 兩種情況都會導致不正確的樣本參與濾波器訓練, 長時間會導致濾波器漂移造成跟蹤困難。 因此, 需要在跟蹤過程中估計目標尺度, 針對尺度變化的解決方案主要有分塊處理和多尺度搜索兩種。
2.4.1" 分" 塊
PSC(Patch-Based Scale Calculation)[74]提出將目標分成4個局部子塊, 根據圖像中4個局部子塊響應峰值位置之間的相對距離變化來估計目標尺度的變化。 Fu等[75]提出利用可靠局部子塊響應圖的分布估計目標初始尺度, 結合貝葉斯框架估計最優目標尺度。 分塊跟蹤處理尺度變化不僅能夠估計目標尺度, 同時還能緩解目標局部遮擋帶來的跟蹤挑戰。
2.4.2" 多尺度搜索
DSST[76]提出構建尺度濾波器, 窮舉n個尺度的圖像塊, 給定一維高斯標簽訓練尺度濾波器, 最大目標響應對應的尺度即為最優尺度, 該算法的特點是通用性強, 可以整合在其他大部分跟蹤器內, 基于位置跟蹤器的位置估計和基于尺度濾波器尺度估計互不影響。 類似采用尺度濾波器的文獻[77, 79]給解決尺度變化提供了可行性。 SAMF[78]引入尺度池, 對多尺度圖像利用雙線性插值縮放, 保持目標尺寸, 對多尺度圖像分別計算濾波響應, 響應值最大處所在的位置和尺度為最終位置和最優尺度。 為了能夠同時估計位置和尺度的變化, 文獻[80]采用多尺度搜索, 將不同尺度的候選區域同時輸入孿生網絡, 經過相關濾波層計算匹配響應, 具有最大響應值的候選區域來確定位置和尺度。 為了減小逐幀窮舉尺度池的計算壓力, 文獻[81]提出一種自適應的尺度檢測方法, 利用PSNR值作為評價指標啟動或停止多尺度檢測。 SiamRPN[60], SiamRPN++[61], STMTracker(Space-Time Memory Networks)[82], SiamMask[83]引入候選區域生成網絡以搜索區域上的對應位置為多尺度錨盒的中心, 對目標邊界盒進行回歸, 這其實也是基于多尺度搜索, 本質上和窮舉尺度池是一致的, 但錨框的設計需要啟發式調整, 引入大量超參數和計算復雜性。
尺度池在一定程度上可以估計目標尺度的變化, 但尺度池的搜索范圍是粗略的, 想要提高尺度估計的精度需要對尺度池進行擴展。 盲目擴展尺度池的搜索范圍會極大地增加計算壓力, 因此, 如何在盡量不增加計算壓力的前提下提高尺度估計的精度是迫切需要解決的問題。
SiamFC++[84], SiamBAN(Siamese Box Adaptive Network)[85]和SiamCAR(Siamese Fully Convolutional Classification and Regression)[86]在統一的全卷積網絡中直接預測前景目標得分和跟蹤框到特征位置中心點的相對偏移量, 通過偏移量可以直接估計目標的尺度變化。 但是無錨框的跟蹤方法對于關鍵點的檢測不穩定, 一旦檢測錯誤, 目標位置和尺度的估計產生偏差較大。
3" 實驗結果與分析
為了全面清晰地評估跟蹤算法的性能, 對具有代表性的算法在OTB2015數據集上的測試結果進行對比, 將本節的跟蹤算法與第2節的研究現狀相呼應。 表1是25種跟蹤算法在OTB2015數據集上的跟蹤成功率以及各種視頻屬性下的跟蹤成功率。 根據測試結果, 按照不同的跟蹤挑戰, 從特征提取、" 觀測模型和模型更新的角度對算法進行對比分析。
從表中可以看出, 跟蹤成功率排名前三的跟蹤算法分別為STMTrack, SiamGAT和SiamBAN, 3種算法都是基于深度學習的跟蹤方法。 HCF使用VGG-19預訓練的三層特征替代手工特征進行外觀建模, 高層特征包含豐富的語義信息, 引進了多層特征融合機制, 從而構建更精準有效的目標外觀模板, 有助于目標和背景的判別, HCF的跟蹤成功率相比KCF提高了13.8%。 相比手工特征, 深度特征具有強大的特征表達能力, 數據維度更大, 具有更高的跟蹤成功率。
針對背景雜波干擾, SRDCF通過空間正則化方式來抑制邊界效應, 達到抑制無效背景的目的。 為了保持濾波器在時序上的連續性, 防止濾波器的突變, TRBACF在空間正則化的同時引入時間正則化, 跟蹤成功率相比SRDCF提高了4.5%, 對于背景雜波挑戰屬性下的跟蹤成功率提高了8.3%; 針對固定的正則化權重不能很好地適應目標的變化, SARCF利用基于尺度變化的自適應空間正則化, 通過對目標尺度變化的判斷自適應控制懲罰權重系數, 在OTB2015數據集上整體成功率增加了5.2%,
在背景雜波挑戰屬性下的成功率提升了10.1%。 ATOM從目標響應自適應約束的角度抑制無關背景, 并采用難分類樣本挖掘策略, 在有干擾物的場景中通過對干擾物峰值處訓練樣本學習率加倍進一步增強分類組件的魯棒性, 在背景雜波挑戰下取得60.6%的較高跟蹤成功率。 SiamGAT利用完全二分圖實現對背景的抑制, 成功率達到了68.8%。 上述實驗結果表明, 通過邊界效應抑制法和自適應空間約束法可以實現對背景干擾的抑制, 避免將背景干擾誤認為是目標導致的跟蹤漂移, 提高了跟蹤的成功率。
針對遮擋環境, DPCF通過將目標分塊處理, 利用局部濾波器實現局部目標子塊的粗略估計, 以子塊跟蹤結果為基礎, 結合全局濾波器估計目標位置, 有效解決局部遮擋問題, 在遮擋情況下取得了54.6%的跟蹤成功率。 文獻[45]利用新的分塊方式將跟蹤成功率從54.6%提升到60.6%, 表明分塊處理可以有效處理遮擋挑戰, 但同時根據目標特性設計合理的分塊策略影響著跟蹤精度的提高。 TLD從重檢測的角度處理遮擋挑戰; LCT通過峰值響應對目標遮擋情況進行判斷, 并利用隨機蕨分類器在遮擋發生時重新檢測目標。 相比TLD, LCT的遮擋情況下的跟蹤成功率提高了16.4%。 CFRFRC重檢測模塊通過計算APCE值和峰值檢驗跟蹤置信度, 和LCT相比跟蹤成功率獲得了6.8%的提升, 在一定程度上緩解了遮擋和模型漂移所帶來的影響。 文獻[63]利用反遮擋機制通過極值點判斷遮擋情況, 當遮擋發生時極值點位置附近極有可能是目標位置, 在極值點位置提取感興趣候選區域完成跟蹤, 在同類相關濾波類算法中取得了最高的跟蹤成功率, 具有最為優異的跟蹤性能。 通過上述分析可以看出, 遮擋程度的判斷以及檢測模塊的選擇在目標丟失時具有重新恢復搜索目標定位的能力, 對于處理遮擋問題至關重要。
針對尺度變化場景下跟蹤效果的局限性, DSST在KCF的基礎上構建了一個一維尺度濾波器, 尺度挑戰下的跟蹤成功率相比KCF提高了11.4%; SAMF也利用了多尺度搜索的思想, 但是尺度池內候選尺度只有5個, 相比DSST跟蹤成功率下降了1.2%。 VGGCF提出放大倍數差異化選取方法, 在候選樣本選取階段對不同尺寸的視頻圖像、" 不同尺寸的目標進行篩選與過濾, 讓跟蹤算法從源頭便開始適應尺度變化的場景。 因此, 想要提高尺度估計的精度需要對尺度池進行擴展, 候選尺度的擴展可以有效應對跟蹤過程中的尺度變化。 SiamRPN利用區域生成網絡以搜索區域上的對應位置為多尺度錨盒的中心, 對目標邊界盒進行回歸, 基于大量錨框的多尺度搜索, 在尺度挑戰下的成功率為61.8%, 相比DSST和SAMF具有明顯優勢, 但SiamRPN中錨框的設計帶來很多超參數, 對結果影響較大。 SiamBAN和SiamCAR不依賴錨框, 在全卷積網絡中直接預測前景目標和跟蹤框到特征位置中心點的相對偏移量, 通過偏移量可以直接估計目標的尺度變化, 在尺度變化挑戰下的成功率分別達到了69.4%和69.6%。
4" 展" 望
本文就視覺目標跟蹤技術在實際跟蹤過程中遇到的由于目標和背景的變化造成的跟蹤挑戰, 對相關濾波類和深度學習類跟蹤方法展開了分析和討論, 隨著研究的不斷深入, 跟蹤算法在復雜環境下的精度不斷提高, 但也有繼續提升的空間。 結合本文對目標跟蹤研究現狀的分析討論和實驗結果的對比分析, 從特征提取、" 觀測模型和更新機制三個角度對目標跟蹤未來的改進方向進行討論:
(1) 隨著深度學習的不斷發展, VGG, ResNet等各種網絡架構層出不窮, 可以提取到魯棒的特征, 但不可避免地存在特征冗余的問題, 因此, 選擇合適的網絡框架提取特征, 利用壓縮感知對空間維度上的有效特征進行增強, 保留有效特征降低特征冗余, 以及采用有效的特征融合方式可以進一步提高跟蹤性能。
(2) 復雜的背景區域對跟蹤器帶來漂移的可能, 背景區域不僅包括目標框外的環境背景, 更包括目標框內除了目標以外的部分背景, 結合注意力機制或者顯著性檢測排除兩部分背景的干擾作用, 有利于進一步提高跟蹤的魯棒性。
(3) 研究實時可靠的模型更新機制, 更新機制能夠及時判別目標變化的狀態, 根據目標自身的變化狀態以及響應圖自適應地進行模型更新, 既能實時獲取最新的目標特征, 又能避免不恰當的更新導致的模板漂移。
參考文獻:
[1] Bolme D S, Beveridge J R, Draper B A, et al. Visual Object Tracking Using Adaptive Correlation Filters[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 2544-2550.
[2] Danelljan M, Khan F S, Felsberg M, et al. Adaptive Color Attri-butes for Real-Time Visual Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014: 1090-1097.
[3] Henriques J F, Caseiro R, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[4] Yan Y M, Guo X X, Tang J, et al. Learning Spatio-Temporal Correlation Filter for Visual Tracking[J]. Neurocomputing, 2021, 436: 273-282.
[5] 陳法領, 丁慶海, 常錚, 等. 自適應特征融合的多尺度核相關濾波目標跟蹤[J]. 光學學報, 2020, 40(3): 109-120.
Chen Faling, Ding Qinghai, Chang Zheng, et al. Multi-Scale Kernel Correlation Filter Algorithm for Visual Tracking Based on the Fusion of Adaptive Features[J]. Acta Optica Sinica, 2020, 40(3): 109-120.(in Chinese)
[6] Wei J, Wang Y, Liu F, et al. Hierarchical Deep Feature for Visual Tracking via Discriminative Correlation Filter[C]∥2nd International Conference on Artificial Intelligence and Big Data (ICAIBD), 2019: 379-383.
[7] Pi Z X, Shao Y J, Gao C X, et al. Instance-Based Feature Pyramid for Visual Object Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3774-3787.
[8] Tu Z Z, Zhou A J, Gan C, et al. A Novel Domain Activation Mapping-Guided Network (DA-GNT) for Visual Tracking[J]. Neurocomputing, 2021, 449: 443-454.
[9] Cao Z A, Fu C H, Ye J J, et al. HiFT: Hierarchical Feature Transformer for Aerial Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 15437-15446.
[10] Gu F W, Lu J, Cai C T. RPformer: A Robust Parallel Transformer for Visual Tracking in Complex Scenes[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-14.
[11] Chen X, Yan B, Zhu J W, et al. Transformer Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021.
[12] Wang M H, Li Q P, Gu Y C, et al. SCAF-Net: Scene Context Attention-Based Fusion Network for Vehicle Detection in Aerial Imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 3508305.
[13] Mueller M, Smith N, Ghanem B. Context-Aware Correlation Filter Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1396-1404.
[14] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-Convolutional Siamese Networks for Object Tracking[C]∥European Conference on Computer Vision, 2016: 850-865.
[15] Danelljan M, Hger G, Khan F S, et al. Learning Spatially Regularized Correlation Filters for Visual Tracking[C]∥IEEE International Conference on Computer Vision (ICCV), 2015: 4310-4318.
[16] Zhang J M, Feng W J, Yuan T Y, et al. SCSTCF: Spatial-Channel Selection and Temporal Regularized Correlation Filters for V-isual Tracking[J]. Applied Soft Computing, 2022, 118: 108485.
[17] Zhang F, Ma S P, Zhang Y L, et al. Perceiving Temporal Environment for Correlation Filters in Real-Time UAV Tracking[J]. IEEE Signal Processing Letters, 2022, 29: 6-10.
[18] Wang N, Zhou W G, Wang J, et al. Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 1571-1580.
[19] Zhou L, Jin Y, Wang H, et al. Robust DCF Object Tracking with Adaptive Spatial and Temporal Regularization Based on Target Appearance Variation[J]. Signal Processing, 2022, 195: 108463.
[20] Li Y M, Fu C H, Ding F Q, et al. AutoTrack: Towards High-Performance Visual Tracking for UAV with Automatic Spatio-Temporal Regularization[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11920-11929.
[21] Pu L, Feng X X, Hou Z Q. Spatial Adaptive Regularized Correlation Filter for Robust Visual Tracking[J]. IEEE Access, 2020, 8: 11342-11351.
[22] Peng C, Liu F H, Yang J, et al. Robust Visual Tracking via Dirac-Weighted Cascading Correlation Filters[J]. IEEE Signal Processing Letters, 2018, 25(11): 1700-1704.
[23] Han R Z, Feng W, Wang S. Fast Learning of Spatially Regula-rized and Content Aware Correlation Filter for Visual Tracking[J]. IEEE Transactions on Image Processing, 2020, 29: 7128-7140.
[24] Fiaz M, Mahmood A, Jung S K. Learning Soft Mask Based Feature Fusion with Channel and Spatial Attention for Robust Visual Object Tracking[J]. Sensors, 2020, 20(14): 4021.
[25] Huo Y, Wang Y H, Yan X Y, et al. Soft Mask Correlation Filter for Visual Object Tracking[C]∥ 25th IEEE International Confe-rence on Image Processing (ICIP), 2018: 2705-2709.
[26] Zhang K, Wang W W, Wang J Y, et al. Learning Adaptive Target-and-Surrounding Soft Mask for Correlation Filter Based Visual Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3708-3721.
[27] Xu T Y, Feng Z H, Wu X J, et al. Learning Adaptive Discriminative Correlation Filters via Temporal Consistency Preserving Spatial Feature Selection for Robust Visual Object Tracking[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5596-5609.
[28] Fu C H, Jin J, Ding F Q, et al. Spatial Reliability Enhanced Correlation Filter: An Efficient Approach for Real-Time UAV Tracking[J]. IEEE Transactions on Multimedia, 2021, 23: 1-15.
[29] Zheng Y H, Song H H, Zhang K H, et al. Dynamically Spatiotemporal Regularized Correlation Tracking[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(7): 2336-2347.
[30] Wang Q A, Zhang M D, Xing J L, et al. Do not Lose the Details: Reinforced Representation Learning for High Performance Visual Tracking[C]∥ 27th International Joint Conference on Artificial Intelligence, 2018: 985–991.
[31] Zhu Z, Wang Q A, Li B, et al. Distractor-Aware Siamese Networks for Visual Object Tracking[C]∥" European Conference on Computer Vision, 2018: 103-119.
[32] Danelljan M, Bhat G, Khan F S, et al. ATOM: Accurate Tracking by Overlap Maximization[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 4655-4664.
[33] Tan H B, Zhang X, Zhang Z P, et al. Nocal-Siam: Refining V-isual Features and Response with Advanced Non-Local Blocks for Real-Time Siamese Tracking[J]. IEEE Transactions on Image Processing, 2021, 30: 2656-2668.
[34] Wang P F, Zhang C Q, Qi F, et al. PGNet: Real-Time Arbitrarily-Shaped Text Spotting with Point Gathering Network[C]∥ AAAI Conference on Artificial Intelligence, 2021, 35(4): 2782-2790.
[35] Guo D Y, Shao Y Y, Cui Y, et al. Graph Attention Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 9538-9547.
[36] 黃曉冬, 曾科軍, 李冬. 一種多特征融合的背景感知相關濾波跟蹤算法[J]. 兵器裝備工程學報, 2021, 42(10): 230-236.
Huang Xiaodong, Zeng Kejun, Li Dong. Background-Aware Correlation Filter Tracking Algorithm Based on Multi-Feature Fusion[J]. Journal of Ordnance Equipment Engineering, 2021, 42(10): 230-236.(in Chinese)
[37] Yu B, Tang M, Zheng L Y, et al. High-Performance Discriminative Tracking with Transformers[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 9836-9845.
[38] Yin X L, Liu G X, Ma X H. Fast Scale Estimation Method in Object Tracking[J]. IEEE Access, 2020, 8: 31057-31068.
[39] 謝瑜, 陳瑩. 空間注意機制下的自適應目標跟蹤[J]. 系統工程與電子技術, 2019, 41(9): 1945-1954.
Xie Yu, Chen Ying. Adaptive Object Tracking Based on Spatial Attention Mechanism[J]. Systems Engineering and Electronics, 2019, 41(9): 1945-1954.(in Chinese)
[40] Yang K Y, Wu X D, Zhu Z Y, et al. A High-Confidence Model Updating Correlation Filtering Tracker with Scale Adaptation for Visual Target Tracking[J]. Optik, 2020, 202: 163730.
[41] 覃瑞國. 基于孿生網絡的候選區域推薦與模板更新的跟蹤算法[D]. 桂林: 廣西師范大學, 2021.
Qin Ruiguo. Candidate Region Proposal and Update Model Tracking Algorithm Based on Siamese [D].Guilin: Guangxi Normal University, 2021. (in Chinese)
[42] Du Y H, Yan Y, Chen S, et al. Object-Adaptive LSTM Network for Real-Time Visual Tracking with Adversarial Data Augmentation[J]. Neurocomputing, 2020, 384: 67-83.
[43] Choi J, Kwon J, Lee K M. Deep Meta Learning for Real-Time Target-Aware Visual Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 911-920.
[44] Liu T, Wang G, Yang Q X. Real-Time Part-Based Visual Tracking via Adaptive Correlation Filters[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 4902-4912.
[45] Barcellos P, Scharcanski J. Part-Based Object Tracking Using Multiple Adaptive Correlation Filters[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 4505210.
[46] Han S C, Zhan Z H, Li W, et al. Recurrently Exploiting Co-Saliency of Target for Part-Based Visual Tracking[J]. EURASIP Journal on Advances in Signal Processing, 2019 (1): 1-12.
[47] Wang Y, Luo X B, Ding L, et al. Robust Visual Tracking via Part-Based Model[J]. Multimedia Systems, 2020, 26(5): 607-620.
[48] 張燦龍, 李燕茹, 李志欣, 等. 基于核相關濾波與特征融合的分塊跟蹤算法[J]. 廣西師范大學學報: 自然科學版, 2020, 38(5): 12-23.
Zhang Canlong, Li Yanru, Li Zhixin, et al. Block Target Tracking Based on Kernel Correlation Filter and Feature Fusion[J]. Journal of Guangxi Normal University: Natural Science Edition, 2020, 38(5): 12-23.(in Chinese)
[49] Kalal Z, Mikolajczyk K, Matas J. Tracking-Learning-Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.
[50] Lv P Y, Zhong Y F, Zhao J, et al. Unsupervised Change Detection Based on Hybrid Conditional Random Field Model for High Spatial Resolution Remote Sensing Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(7): 4002-4015.
[51] Saffari A, Leistner C, Santner J, et al. On-Line Random Forests[C]∥IEEE 12th International Conference on Computer Vision Workshops, 2009: 1393-1400.
[52] Hare S, Golodetz S, Saffari A, et al. Struck: Structured Output Tracking with Kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109.
[53] Babenko B, Yang M H, Belongie S. Visual Tracking with Online Multiple Instance Learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2009: 983-990.
[54] 孫健, 向偉, 譚舒昆, 等. 改進的核相關濾波跟蹤算法[J]. 計算機工程與應用, 2018, 54(9): 178-182.
Sun Jian, Xiang Wei, Tan Shukun, et al. Improved Kernelized Correlation Filter Tracking[J]. Computer Engineering and Applications, 2018, 54(9): 178-182.(in Chinese)
[55] Ma C, Yang X K, Zhang C Y, et al. Long-Term Correlation Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 5388-5396.
[56] Yin X L, Liu G X. Effective Appearance Model Update Strategy in Object Tracking[J]. IET Computer Vision, 2019, 13(6): 531-541.
[57] 孫曉鋒, 賈子彥, 張雷, 等. 基于重檢測機制的核相關濾波跟蹤算法[J]. 電光與控制, 2021, 28(8): 44-47.
Sun Xiaofeng, Jia Ziyan, Zhang Lei, et al. A Kernel Correlation Filter Tracking Algorithm Based on Re-Detection Mechanism[J]. Electronics Optics amp; Control, 2021, 28(8): 44-47.(in Chinese)
[58] 王鵬, 孫夢宇, 王海燕, 等. 一種目標響應自適應的通道可靠性跟蹤算法[J]. 電子與信息學報, 2020, 42(8): 1950-1958.
Wang Peng, Sun Mengyu, Wang Haiyan, et al. An Object Tracking Algorithm with Channel Reliability and Target Response Adaptation[J]. Journal of Electronics amp; Information Technology, 2020, 42(8): 1950-1958.(in Chinese)
[59] 尹明鋒, 薄煜明, 朱建良, 等. 基于通道可靠性的多尺度背景感知相關濾波跟蹤算法[J]. 光學學報, 2019, 39(5): 247-257.
Yin Mingfeng, Bo Yuming, Zhu Jianliang, et al. Multi-Scale Context-Aware Correlation Filter Tracking Algorithm Based on Channel Reliability[J]. Acta Optica Sinica, 2019, 39(5): 247-257.(in Chinese)
[60] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 8971-8980.
[61] Li B, Wu W, Wang Q, et al. SiamRPN: Evolution of Siamese Visual Tracking with very Deep Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 4277-4286.
[62] 易宇凡, 瞿少成, 陶林. 基于重檢測和目標遮擋判定的相關濾波跟蹤實現[J]. 電子測量技術, 2020, 43(7): 93-96.
Yi Yufan, Qu Shaocheng, Tao Lin. Correlation Filter Tracking Implementation Based on Re-Detection and Target Occlusion Decision[J]. Electronic Measurement Technology, 2020, 43(7): 93-96.(in Chinese)
[63] Zhang J M, Liu H H, He Y Q, et al. Adaptive Response Maps Fusion of Correlation Filters with Anti-Occlusion Mechanism for Visual Object Tracking[J]. EURASIP Journal on Image and Video Processing, 2022, 2022(1): 1-19.
[64] Liao J W, Qi C, Cao J Z, et al. Rotation-Aware Correlation Filters for Robust Visual Tracking[J]. Journal of Visual Communication and Image Representation, 2022, 83: 103422.
[65] Zhang M D, Xing J L, Gao J, et al. Joint Scale-Spatial Correlation Tracking with Adaptive Rotation Estimation[C]∥IEEE International Conference on Computer Vision Workshop (ICCVW), 2015: 595-603.
[66] Li Y, Zhu J K, Hoi S C H, et al. Robust Estimation of Similarity Transformation for Visual Object Tracking[C]∥AAAI Conference on Artificial Intelligence, 2019, 33(1): 8666-8673.
[67] 李龍, 王耀南, 張振軍. 基于核相關濾波器的目標旋轉跟蹤算法[J]. 傳感器與微系統, 2017, 36(3): 147-149.
Li Long, Wang Yaonan, Zhang Zhenjun. Object Rotation Tracking Based on Kernelized Correlation Filters[J]. Transducer and Microsystem Technologies, 2017, 36(3): 147-149.(in Chinese)
[68] Marvasti-Zadeh S M, Ghanei-Yakhdan H, Kasaei S. Rotation-Aware Discriminative Scale Space Tracking[C]∥ 27th Iranian Conference on Electrical Engineering (ICEE), 2019: 1272-1276.
[69] Rout L, Raju P M, Mishra D, et al. Learning Rotation Adaptive Correlation Filters in Robust Visual Object Tracking[C]∥ Asian Conference on Computer Vision, 2019: 646-661.
[70] He A F, Luo C, Tian X M, et al. Towards a Better Match in Siamese Network Based Visual Object Tracker[C]∥ European Conference on Computer Vision, 2019: 132-147.
[71] Lee D H. One-Shot Scale and Angle Estimation for Fast Visual Object Tracking[J]. IEEE Access, 2019, 7: 55477-55484.
[72] Zhang Y, Zhuang Y A, Li H Z, et al. A Novel Method for Estimation of the Target Rotation Angle in SAR Image[C]∥IET International Radar Conference, 2015: 1-4.
[73] Chen B X, Tsotsos J. Fast Visual Object Tracking Using Ellipse Fitting for Rotated Bounding Boxes[C]∥IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), 2019: 2281-2289.
[74] Xu Y L, Wang J B, Li H, et al. Patch-Based Scale Calculation for Real-Time Visual Tracking[J]. IEEE Signal Processing Letters, 2016, 23(1): 40-44.
[75] Fu C H, Zhang Y Q, Duan R, et al. Robust Scalable Part-Based Visual Tracking for UAV with Background-Aware Correlation Filter[C]∥IEEE International Conference on Robotics and Biomimetics (ROBIO), 2018: 2245-2252.
[76] Danelljan M, Hger G, Shahbaz Khan F, et al. Accurate Scale Estimation for Robust Visual Tracking[C]∥British Machine Vision Conference, 2014: 1-11.
[77] Wang X, Hou Z Q, Yu W S, et al. Online Scale Adaptive Visual Tracking Based on Multilayer Convolutional Features[J]. IEEE Transactions on Cybernetics, 2019, 49(1): 146-158.
[78] Li Y, Zhu J K. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration[C]∥European Conference on Computer Vision, 2014: 254-265.
[79] 靳夢磊. 復雜場景下視頻目標跟蹤算法的研究與實現[D]. 北京: 北京交通大學, 2019.
Jin Menglei. Research and Implementation of Video Object Tracking Algorithm in Complex Scenarios [D].Beijing: Beijing Jiaotong University, 2019. (in Chinese)
[80] 袁越. 結合相關濾波與深度網絡的多尺度目標跟蹤[D]. 南昌: 南昌航空大學, 2019.
Yuan Yue. Multiple Scale Object Tracking Combing Correlation Filters and Deep Network[D]. Nanchang: Nanchang Hangkong University, 2019. (in Chinese)
[81] 侯穎, 王穎, 林歆鈺. 多尺度視頻目標跟蹤算法研究[J]. 信息技術與信息化, 2020(4): 37-39.
Hou Ying, Wang Ying, Lin Xinyu. Research on Multi-Scale Video Target Tracking Algorithm[J]. Information Technology and Informatization, 2020(4): 37-39.(in Chinese)
[82] Fu Z H, Liu Q J, Fu Z H, et al. STMTrack: Template-Free Visual Tracking with Space-Time Memory Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 13769-13778.
[83] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1328-1338.
[84] Xu Y D, Wang Z Y, Li Z X, et al. SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines[C]∥AAAI Conference on Artificial Intelligence, 2020, 34(7): 12549-12556.
[85] Chen Z D, Zhong B N, Li G R, et al. Siamese Box Adaptive Network for Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 6667-6676.
[86] Guo D Y, Wang J, Cui Y, et al. SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 6268-6276.
Survey of Visual Tracking Algorithms in the Complex Scenarios
Yu Mingxin, Wang Changlong, Zhang Yuhua, Xing Na, Li Aihua, Ma Xiaolin*
(Shijiazhuang Campus of Army Engineering University, Shijiazhuang 050000, China)
Abstract: Visual object tracking is a fundamental problem in computer vision. It has been widely used in civilian and military fields, such as battlefield reconnaissance, video surveillance, automatic driving, video analysis, and many other areas. In recent years, although the object tracking algorithm has made great progress, stable object tracking is still a challenging task due to random target changes and complex scenarios. Firstly, the difficulties and challenges in actual tracking scenarios are introduced in this paper. Then, aiming at the background clutter, rotation changes, occlusion, and scale changes, the representative discriminative object tracking algorithms are summarized and analyzed from the perspective of feature extraction, observation model, and model update mechanism. Subsequently, 25 typical tracking algorithms are evaluated and analyzed on OTB2015 database. Finally, the further research directions are prospected.
Key words: visual object tracking; discriminative visual tracking model; correlation filter; deep learning