侯旭陽 張穎 高圓
摘要: 視頻跟蹤技術一直在軍事、醫學等越來越多的領域起著重要的作用,近幾年來,學者將深度學習應用于視頻跟蹤技術,一大批基于深度學習的卷積神經網絡算法被提出。本文主要介紹了卷積神經網絡的傳統結構及其在視頻跟蹤技術中的應用、目標跟蹤中的關鍵步驟,并分析傳統神經網絡算法和基于卷積神經網絡算法的優缺點,對卷積神經網絡在視頻跟蹤的發展進行了簡要的分類和總結,最后對卷積神經網絡在視頻跟蹤的未來發展方向進行展望。
關鍵詞:視頻跟蹤;深度學習;卷積神經網絡
中圖分類號:TP393? ? ? 文獻標識碼:A? ? ? 文章編號:1009-3044(2019)03-0182-02
1 引言
近幾年大數據、云計算的快速發展,促進了人類社會的智能化和信息化。研究目標跟蹤技術在軍事、醫學等領域都有重要意義,隨著研究的逐漸深入,目標跟蹤的種類和方法也逐漸豐富。目標跟蹤過程可以定義為一個目標在特定場景移動時,在圖像平面中的目標軌跡的估計問題。對于一個視頻序列,目標追蹤的任務為給出目標的初始狀態,對視頻中接下來每一幀的目標序列進行評估。目前,跟蹤技術并未完全成熟,在解決目標遮擋、視覺變化、復雜背景等一系列問題方面還有一定的進步空間。
2 卷積神經網絡結構及其在視頻跟蹤中的應用
在卷積神經網絡模擬人大腦的學習過程中,構建多層的神經網絡,隨著網絡層數的增加,獲得的特征也逐步抽象。目前,越來越多基于新型卷積神經網絡研究方法的出現,神經網絡的結構也發生些變化,但是都是在經典卷積神經網絡的基礎上進行改動。經典的卷積神經網絡[1]由輸入層、卷積層、池化層、全連接層和輸出層。其中輸入層、卷積層和池化層組成特征提取層,全連接層和輸出層組成分類層。
卷積神經網絡在視頻跟蹤時具有較高的目標提取與表達的能力,可以使網絡輸入多維的圖像,降低特征提取過程中降低數據重建的復雜度,抑制平移、縮放帶來的影響。卷積神經網絡深度分層架構,可以不依賴外界條件學習數據的特征,對于類似圖像這種分布復雜、高度非結構化的數據具有很強的標記能力。利用不同目標的描述能力,對目標跟蹤的精確性與魯棒性有很大的提升。因此在目前計算機視覺領域,利用卷積神經網絡提取特征的方法正逐步超越傳統的手工提取特征方法。
3目標跟蹤關鍵步驟
在一些跟蹤領域中,我們需要通過標記目標的中心、特征點等來確定目標移動的軌跡。在視頻序列跟蹤(攝像機、監控等)的過程中,往往存在噪音等外部環境因素的影響,會造成視頻序列模糊不清、出現噪聲點分布等情況。所以視頻跟蹤的第一步為預處理,在信息進入模型之前,將視頻序列中影響較大的外部因素通過相應的方法去除。當前幀的視頻圖像,要根據目標的運動模式標記出一定的特征區域,然后對每一個特征區域進行特征提取,實現區域的特征表達。通過被跟蹤目標的特征表達,來進行對目標特征的描述,構建外觀模型。最后根據所提取的特征來預測目標位置。由于目標在整個視頻序列中的位置不斷改變,相應的特征也會不斷改變,目標模型也要做出相應的調整。
4 傳統視頻跟蹤方法
傳統跟蹤方法早年間在一些跟蹤技術上就有了一定的應用,學者從目標表觀建模、搜索策略、模型更新這三個主要開始進行研究。傳統跟蹤方式有一定的局限性,不能提取高級的語義信息。但是后期利用深度學習等方法的新型跟蹤方式都是在傳統方式的基礎上提出的。目前從目標表征模型的角度,主要的傳統視頻跟蹤方式可分為基于生成式和基于判別式兩種算法。
4.1基于生成式算法的目標跟蹤
基于生成式算法跟蹤可視為一個目標匹配的過程,在上一幀目標位置附近,選擇相似度最高或者相差率最小的位置,視為目標的當前預測位置。目前跟蹤效果較好的算法有稀疏表達、密度估計、增量學習等,部分跟蹤算法結合了濾波技術得到了較好的跟蹤效果。其中稀疏表達是對目標的局部信息和歷史進行編碼,采用均值傳遞和空間金字塔方法使算法具有良好的魯棒性。密度估計法是通過核密度估計法來預測目標位置,同時核密度法不利用有關數據分布的先驗知識,對數據分布沒有附加任何假設,具有較高的跟蹤效率。但是核密度估計在估計邊界區域的時候會出現邊界效應。
4.2基于判別式算法的目標跟蹤
判別式算法通常與檢測系統相聯系,主要為訓練分類器,能從檢測到的大量的圖像(視頻)中區分出目標還是背景,從而確定目標的方位預測目標位置。近幾年判別式算法涉及多樣本學習、隨機森林等。多樣本學習法是多個樣本進行分類學習,來確定目標表征模型,很好地解決了樣本歧義問題。以上兩種跟蹤方法都有一個共同的問題,目標模型的構建。傳統的跟蹤方法都是在提取目標特征的基礎上進行構建,比較淺層定義,只適合于某些特定的場景。在一些復雜的跟蹤過程中,發揮的并不是很好,可能出現跟蹤丟失、目標漂移等問題。
5 卷積神經網絡在目標跟蹤中的應用
近幾年,一大批優秀的基于卷積神經網絡目標跟蹤算法被提出,很好地解決了傳統算法中存在的一些問題,不僅解決了跟蹤目標丟失的情況,還解決了魯棒性以及漂移現象。
5.1基于分類的卷積神經網絡
Seunghoon 等人提出了在線視覺跟蹤算法,離線訓練神經網絡,通過顯著性圖來顯示目標的空位置,提高了定位精準度。但是由于在視頻序列中每張圖像的區域較多,進行特征提取時消耗的時間較長。Nam從模型的可靠性出發提出利用卷積神經網絡來進行目標跟蹤,解決了跟蹤問題中的目標遮擋以及目標丟失問題。近年來隨著深度學習的深入,卷積神經網絡的研究也不斷優化,是在速度方面依然存在問題。
5.2基于回歸的卷積神經網絡目標跟蹤
文獻[2]將深度卷積神經網絡使用 自編碼器替換為自編碼器作為獲取特征的網絡模型。此外還有通過分析卷積層的特征圖譜,提出采用卷積神經網絡層級間的特征來進行目標跟蹤的新方法。首先將通過構建兩個互補的熱度圖預測網絡。其中 GNet捕獲目標的類別信息,SNet 將目標與背景進行相似外觀分離,在第一幀進行初始化,為目標進行前景熱圖回歸標記,然后回歸出目標的位置,能達到有效防止跟蹤器漂移的目的。
Lijun將不同掩碼采取在線訓練不同的基礎跟蹤器,VGG網絡作為調整器。最后用加權的方式得到熱度圖,以此來特征提取。但是此微調方法的跟蹤算法會在每一幀或者固定間隔進模型更新,如果跟蹤器結果不準確就會在更新過程中引入噪聲。
Danelljan 、Robinson等人作者提出了一種使用連續卷積濾波的目標跟蹤方法,利用內插值法將卷積神經網絡的不同分辨率的特征圖插值到連續空間域內,應用Hessian矩陣求得亞像素精度的目標位置。該文通過Hessian 矩陣提高了特征圖的分辨率,在一定程度上減小了模糊幀圖像對跟蹤器的影響。
5.3基于相似度匹配的卷積神經網絡目標跟蹤
Bertinetto 、ValmadreJ等人提出了一種全卷積孿生網絡跟蹤算法,如圖所示。該方法利用一個解決相似性學習的模型,其中一個待搜索目標的網絡輸入視頻的第一幀,另一個網絡輸入視頻的第一幀,緊接著輸出一個響應圖,預測目標在固定位置出現的可能性。此方法采取的雙流網絡是共享全卷積層的。同事,網絡可以進行端對端訓練,專門提取用于視覺跟蹤的深和淺卷積特征。由于此方法跟蹤速度較快、效率較高。
此外,文獻[3]提出了基于卷積殘差學習的目標跟蹤算法。在預測時將基本卷積層與空域參差層結合,又加入時間參差層來擬合真實標簽有效的處理模型外觀變化。
文獻[4]將PCA預處理環節加到卷積神經網絡特征提取的結構框架中,同時應用粒子濾波運動估計和分類器模型。主成分分析(PCA)與利用自編碼神經網絡在隱層的神經元數量受限時的學習結果之間具有一定的相似性。利用這一特點解決了追蹤干擾問題,并提高了模型的平移不變形。但是當追蹤多個目標時,此方法就會受到時間和空間的限制。
6 結論
視頻追蹤成為計算機視覺研究的重要課題,在視頻監控、人工智能等領域都有一定的應用。大數據時代的到來以及深度學習算法的出現,為卷積神經網絡的發展帶來了契機。未來要加強深度學習與在線學習的融合,根據視頻追蹤的特點怎樣建立起一個大規模、效率高的視頻跟蹤效率平臺依然是值得研究的課題。
參考文獻:
[1] 趙井飛. 卷積神經網絡算法及應用研究[D].沈陽航空航天大學,2018.
[2] Nam H,Han B. Learning multi-domain convolutional? neural networks for visual tracking[C]. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,USA,2016. 4293-4302
[3] 劉棟,李素,曹志冬. 深度學習及其在圖像物體分類與檢測中的應用綜述[J].計算機科學,2016,43(12):13-23.
[4] 于進勇,丁鵬程,王超. 卷積神經網絡在目標檢測中的應用綜述[J].計算機科學,2018,45(S2):17-26.
【通聯編輯:光文玲】