文/孫振 李慶黨 王璐 吳俊飛
基于深度學習的跟蹤方法是目標跟蹤方法中的另一個重要分支,其利用深度卷積網絡端到端訓練的優勢,讓模型自動化的學習跟蹤目標的外觀特性、運動特性,實現高質量的魯棒性跟蹤。GΟTURN[1],MDNET[2]等基于深度學習的目標跟蹤方法,均取得了非常好的效果。在該領域中,[3]提出了一個非常具有潛力的跟蹤框架Siamese-FC,其利用孿生網絡將跟蹤問題轉化為圖像對的比較問題。這種方法在近幾年獲得了充分的研究,并以此衍生了出大量優秀的跟蹤器。
根據不同網絡特征進行多路特征比較也是孿生跟蹤網絡的一個發展思路。在這個方面[4]通過分別建立外觀特征提取網絡與語義特征提取網絡,通過將外觀特征與語義特征分別進行相關性運算,將響應圖疊加得到最終的響應位置。注意力機制是最近幾年機器視覺領域常用的方法,[5]將注意力機制與孿生跟蹤網絡相結合,并提出了三種不同的注意力機制的嵌入方式。包括一般注意力機制、目標適應殘留注意力機制、特征通道注意力機制。
為了保證目標跟蹤的速度,如Siamese-FC等大多數孿生跟蹤網絡在跟蹤過程中并不更新目標模板和網絡權值,這造成兩個問題:
(1)當目標發生較大的形變時,會造成目標候選框與目標模板出現較大差異,從而導致跟蹤失敗。

(2)網絡權值不更新導致要使用同一套網絡結構和網絡參數適應所有的跟蹤場景,這是很難做到的。[6]提出了一種遞增的在線模板更新機制,在兼顧計算速度的情況下實現目標模板信息的更新,取得了較好的效果。[7]為了實現網絡對于不同跟蹤場景的適應,提出了一種基于動態濾波器的更新機制。該方法并沒有去更新模板,而是在模板分支與候選分支中各增加了一個濾波器。該濾波器通過擬合原有特征與當前幀特征的差異,從而實現原始模板特征值的動態更新。
將孿生跟蹤網絡與其他先進的機器視覺處理模塊相結合也是重要的發展方向。[8]在孿生跟蹤網絡之后,增加了候選縮放網絡以及分類網絡,通過候選縮放網絡實現跟蹤目標尺度變化的自適應,然后在分類網絡中將目標與背景進行更精細的分類。[9]則是將孿生跟蹤網絡與區域生成網絡相結合。通過將孿生跟蹤網絡模板分支、候選分支的特征同時輸入到區域生成網絡的分類分支與回歸分支,將跟蹤問題變換成為單次學習匹配問題。[10]針對模板匹配類算法對于相似干擾物區分性不強的問題,設計一系列的干擾物訓練集合,通過端到端的訓練提升網絡對于相似物體的區分能力。[11]則進一步將Mask R-CNN中的蒙版分支引入到跟蹤網絡中,實現了對于目標的跟蹤與分割的統一處理。
孿生網絡跟蹤方法對于外觀相似的物體缺少判別性,這是該類方法的本質缺陷。當跟蹤目標被與相似物體貼近或被同類物體遮擋時,跟蹤網絡極易跟蹤到錯誤的目標上。如何能夠有效的設計相關相似性區分機制,是該類跟蹤方法的重要研究方向。
孿生網絡跟蹤算法本質上屬于基于深度學習與深度卷積網絡的跟蹤方法,在訓練與跟蹤過程中需要進行大量的卷積計算,從而影響了跟蹤速度。最初的孿生網絡跟蹤算法達到了86FPS的跟蹤速度,但隨著孿生跟蹤網絡的不斷更新,導致目標跟蹤時的計算量顯著增加,實時性也越來越難保證。如何在保證跟蹤效果的前提下盡力達到實時性要求,是一個較為重要的研究方向。
跟蹤過程中更新模板或權值,大量的微調計算會顯著拖慢跟蹤速度,導致無法保證跟蹤的實時性。雖然目前提出了一些能夠更新網絡權值的方法,但整體效果還有待提升。在這種情況下,如何能夠讓跟蹤網絡適應跟蹤目標的外觀變化,同時又能盡量少的增加計算負擔是一個很重要的研究方向。
孿生跟蹤網絡作為一種重要的目標跟蹤方法受到了大量研究人員的關注。本文對孿生跟蹤網絡進行了簡要研究,對相關優化模型做了簡要分析,并基于上述分析提出后期研究方向。對于相關領域研究人員有一定的參考意義。