張天宇
(北京郵電大學人工智能學院,北京 100876)
視覺目標跟蹤(Visual Object Tracking, VOT)是指在一段視頻序列的初始幀中給定目標的邊界框信息,進而標定該目標在此視頻序列所有后續幀中的精確位置,從而得到目標在視頻中完整的運動軌跡。目標跟蹤是計算機視覺的基本研究方向之一,應用范圍十分廣泛,包括視頻監控、無人駕駛、人機交互和增強現實等。然而,由于視頻亮度、目標變形、遮擋和快速運動而導致的頻繁外觀變化是目標跟蹤任務一直面臨的挑戰。
現代跟蹤器有兩個分支:第一個分支基于相關濾波器,相關濾波利用循環相關的特征,通過傅里葉域來訓練回歸器,該回歸器可以進行在線跟蹤并有效地更新過濾器的權重,隨著深度學習的發展,最近提出的基于相關濾波的方法也充分利用了深度特征來提高跟蹤器的準確性;另一分支旨在通過利用深度學習來使模型獲得強大的自主學習能力。具體來說,有兩種基于深度學習的跟蹤器:第一類是經過預訓練的判別式分類器,通過區分前景(目標)和背景來對目標進行持續的跟蹤,這種類型的跟蹤器有效利用了圖像中的背景信息,因此在多個公開測試集中表現出了具有競爭力的結果;第二類基于相似性匹配,此類型的跟蹤器通過在模板框架和搜索框架中的候選區域之間執行互相關操作來獲得得分圖,得分最高的位置將被視為目標的當前位置。深度卷積神經網絡通常利用Siamese結構來實現相似性學習,這種方法在為跟蹤器提供出色計算效率的同時,又能使其保持具有競爭力的準確性。……