(華北電力大學控制與計算機工程學院 北京 昌平 102200)
視覺跟蹤技術是計算機視覺研究領域的一個重要的研究方向,并且在現實生活中有著很重要的應用,比如正在發展中的自動駕駛、導航、監控等等。在進行視覺跟蹤的時候,根據第一幀中的目標圖片,實現識別后續視頻幀中的所跟蹤的目標。在跟蹤過程中,由于背景變化、運動模糊、部分遮擋、光照變化、形態變化等諸多因素,使得開發一款實時并且跟蹤效果準確的跟蹤器成為一項巨大的挑戰。
傳統的視覺跟蹤方法需要人為的設置需要提取的特征種類,實驗結果表明這類跟蹤算法的魯棒性并不能滿足視覺跟蹤的需求。而深度學習可以通過多層非線性變換自動提取豐富特征,并且在計算機視覺、語音識別和自然語言處理方面取得豐碩成果。受這些突破的影響,在過去的幾年里,很多學者將深度學習應用于視覺跟蹤領域,并且取得一個又一個里程碑。
本文中我們主要分析目前為止,在基于深度學習視覺跟蹤中用到的相關技術,主要從基于卷積神經網絡(CNN)的視覺跟蹤、基于循環神經網絡(RNN)的視覺跟蹤和基于強化學習(RL)的視覺跟蹤三個方面進行分析。我們分別分析基于這三類跟蹤器的原理,最后對基于深度學習的跟蹤算法進行總結。
(一)基于CNN的卷積神經網絡
基于CNN的模型適用于提取圖片的豐富特征,實驗證明該模型具有強大的圖片特征提取能力和圖片分類能力,它的出現推動了視覺跟蹤算法的發展。與傳統的視覺跟蹤算法相似,基于CNN的跟蹤算法分為生成模型和判別模型的跟蹤算法。生成模型的跟蹤算法在搜索區域通過搜索與模板最佳匹配區域來計算目標的預測位置。基于分類模型的跟蹤算法是一個二分類算法,通過模型計算搜索區域是否為目標,以此將被跟蹤目標與周圍的背景圖片有效的分開實現目標跟蹤。
基于判別模型的跟蹤算法會有一個二分類函數,二分類函數基于從第一幀圖片中采集的正負樣本或者基于后續跟蹤過程中采集的正負樣本集訓練得到,用于判斷跟蹤過程中搜索區域是否為跟蹤目標。在[1]中Ma等根據VGGNet模型中不同卷積層中魯棒性和空間分辨力的不同的特點,用三個不同的卷積層(Conv3-4,Conv4-4和Conv5-4)的特征向量構造了三個二分類函數實現跟蹤。
基于生成模型的跟蹤器使用卷積神經網絡來生成一個模板匹配函數,通過該函數計算模板與搜索區域的匹配值。比如Tao等人在[2]提出了一種暹羅網絡模型來匹配對象模板和候選對象以進行視覺跟蹤,其中可以基于最高匹配分數來確定最佳狀態。Bertinetto等在[3]開發了一個全連接的暹羅網絡,以卷積的方式匹配對象模板和當前搜索區域。
(二)基于RNN的神經網絡的視覺跟蹤
循環神經網絡模型適用于輸入時連續的序列,其神經元的輸出可以在下一次直接應用于其自身。在手寫識別或語音識別方面的一些研究工作的推動下,人們進行了一些嘗試來利用視覺跟蹤中的空間配置之間的語義信息以及幀之間的時間關聯。
崔等人在[4]提出了一種基于RNN的視覺跟蹤方法主要解決遮擋等問題,該算法的思想與SRDCF等思想類似。作者將候選區域進行網格劃分,每個網格區域使用的RNN模型是從四個不同方向進行運算輸出結果為置信度圖,然后用置信度圖初始化SRDCF的損失函數的懲罰項,這使得外觀模型對于部分遮擋具有魯棒性。寧等人[5]研究時域中的長短期記憶(LSTM)的回歸能力,并提出將卷積網絡產生的高級視覺特征與區域信息連接起來。
(三)基于強化學習的視覺跟蹤
強化學習是機器學習的一個領域,它是一種決策學習過程,通過對一個決策做出獎勵或者懲罰,進而促進其行為沿著我們期望的方向進行的一種學習方式。強化學習在很多領域取得不錯的結果,尤其是游戲領域,很多款游戲甚至超過人類水平,比如谷歌旗下人工智能研究部門DeepMind發布的新版AlphaGo。
近幾年很多學者也嘗試將強化學習用在視覺跟蹤領域,并取得一定成果。比如Yun等人在[6]通過使用強化學習產生一系列動作在新的一幀中尋找目標的位置和大小來實現跟蹤,相比如傳統的深度學習的跟蹤器,該算法滿足跟蹤中需要的準確定位、適應目標尺度變化,并且實現了輕量級計算,在GPU上甚至可以達到實時性。Chen等人在[7]中提出用強化學習去探索連續的跟蹤動作結果,與[6]相比不同之處在于不是多經過多次移動來定位跟蹤目標的位置,而是直接一次計算出來,使得跟蹤器移的邊界直接移動到目標對象的位置。
由于跟蹤過程中目標的形變、遮擋等諸多因素的影響,以及實時性需求,目標跟蹤問題一直是計算機視覺領域的一個具有挑戰性的研究問題。雖然深度學習強大的特征提取能力促使目標跟蹤取得一系列重大進展,但是我認為基于深度學習的目標跟蹤仍然面臨以下以下幾個方面的挑戰:1.訓練樣本少:在初始化網絡的時候正樣本單一,都是基于第一幀圖片中的目標得到的;負樣本截取的第一幀的背景圖片,與正樣本區分度比較大。這樣的樣本用來訓練網絡使得網絡容易過擬合。2.在線網絡調整容易促使網絡退化:通常在跟蹤過程中收集正負樣本更新跟蹤器,但是如果收集到的樣本中存在錯誤樣本,比如發生遮擋、漂移的時的樣本集,會促使網絡退化。3.實時性差:基于深度學習的跟蹤網絡計算量大,實時性有時候比較差。