李寰宇 畢篤彥 楊 源 查宇飛 覃 兵 張立朝
?
基于深度特征表達與學習的視覺跟蹤算法研究
李寰宇①②畢篤彥①楊 源*②查宇飛①覃 兵①張立朝①
①(空軍工程大學航空航天工程學院 西安 710038)②(空軍工程大學空管領航學院 西安 710051)
該文針對視覺跟蹤中運動目標的魯棒性跟蹤問題,將深度學習引入視覺跟蹤領域,提出一種基于多層卷積濾波特征的目標跟蹤算法。該算法利用分層學習得到的主成分分析(PCA)特征向量,對原始圖像進行多層卷積濾波,從而提取出圖像更深層次的抽象表達,然后利用巴氏距離進行特征相似度匹配估計,進而結合粒子濾波算法實現目標跟蹤。結果表明,這種多層卷積濾波提取到的特征能夠更好地表達目標,所提跟蹤算法對光照變化、遮擋、異面旋轉、攝像機抖動都具有很好的不變性,對平面內旋轉也具有一定的不變性,在具有此類特點的視頻序列上表現出非常好的魯棒性。
視覺跟蹤;深度學習;主成分分析;卷積神經網絡;粒子濾波
視覺跟蹤[1]是計算機視覺領域中非常重要的一個研究課題,視覺跟蹤的任務是對視頻序列中的目標狀態進行持續推斷,實現視頻每一幀中的目標定位,并在任一時刻都能夠提供完整的目標區域。視覺跟蹤技術在無人機、精確制導、空中預警、戰場監視等軍事領域和機器人、智能監控、智能交通、人機交互等民用領域中有著十分廣泛的應用,研究視覺跟蹤技術具有十分重要的軍事意義和現實意義。然而,盡管眾多研究人員做了大量的工作,提出了許多跟蹤算法用于解決視覺跟蹤問題,但是由于光照變化、遮擋、目標形變、攝像機抖動等諸多因素的影響,實現魯棒的視覺跟蹤仍然是一件非常困難的事情。
基于目標特征跟蹤是視覺跟蹤中最為重要的一類方法,其過程通常包括目標位置初始化、目標特征表達、目標運動估計、候選樣本特征提取與特征匹配、目標定位等幾個過程。以往使用的特征大多是基于人為手工設計的特征,如Gabor filter, SIFT, HOG等,手工設計特征需要設計者具備專業應用領域知識,因此在面對新數據新任務時手工設計特征困難較大。隨著神經網絡的重新崛起[2],利用神經網絡從數據中學習特征成為突破手工設計特征局限性的可行途徑,近年來深度學習受到了前所未有的關注,諸如深度神經網絡、卷積神經網絡(Convolutional Neural Network, CNN)等深度學習方法[3,4]能夠挖掘出數據的多層表征,而高層級的表征被認為更能夠反映數據更深層的本質,這是以往手工選取特征和淺層學習特征所不能實現的,已有研究成果表明,在圖像識別等很多應用領域,相比傳統特征,利用高層次特征能夠獲得非常明顯的性能提升。因此,本文在深入研究視覺跟蹤問題的基礎上,將深度學習技術引用到基于目標特征的視覺跟蹤方法中,實現了基于深度特征的魯棒視覺跟蹤算法。該算法利用主成分分析(PCA)與受限隱層節點自編碼神經網絡的相似性,將取片圖像數據集的PCA特征向量作為卷積濾波器,代替傳統神經網絡中利用BP算法學習得到的濾波器,從而實現一個易于求解計算的卷積神經網絡,進而實現對原始圖像的高層次特征表征,然后利用特征匹配和粒子濾波進一步實現目標跟蹤。通過與其它傳統淺層跟蹤算法對比分析,結果表明利用這種深度學習特征進行跟蹤,可以在多類視頻序列上取得非常令人滿意的結果。
2.1 卷積特征提取
卷積特征提取是處理大型圖像的一種有效方法,該方法基于自然圖像中任一部分的統計特性與其他部分是相同的這一固有特性,通過CNN進行特征學習,由于CNN具有權值共享網絡結構特點,因此相比于將整幅圖像作為訓練數據,卷積特征提取能夠大幅降低神經網絡的規模,并同時獲得一定的平移、尺度和旋轉不變性。
卷積特征提取的基本過程是首先對原始圖像進行取片操作獲取多個較小的局部圖像,然后利用這些局部圖像作為訓練數據構成訓練集,將訓練集數據進行白化等預處理操作后送入神經網絡,利用反向傳播誤差算法等進行網絡參數訓練,最后將學習得到的網絡作為濾波器對整幅原始圖像進行卷積濾波,得到對應的卷積特征。
2.2基于多層PCA卷積濾波的特征提取
主成分分析(PCA)與隱層神經元數量受限時的自編碼神經網絡學習結果之間具有高度的相似性[9,10],根據這一特點,可以用PCA求得的原始數據的特征向量來近似代替自編碼神經網絡的編碼層,從而得到一個單層前饋神經網絡。進而通過分層多次利用這一特性,就可以結合卷積濾波實現一個簡單易求解的卷積神經網絡。

圖1 取片操作示意圖
2.2.2下一次卷積濾波 對上一次PCA濾波后的全部圖像再依次執行取片操作,然后列化合并為新的樣本集合,則對應原始輸入圖像序列,有

圖2 兩層PCA卷積濾波
3.1跟蹤算法
前文利用分層學習得到的PCA特征向量進行多層卷積濾波,提取到了圖像的深度學習特征,基于這種深度學習特征的粒子濾波跟蹤算法的跟蹤流程如圖3所示。圖中各步驟的具體內容如下:

圖3 本文跟蹤算法流程
初始化:利用初始階段比較穩定的像素匹配方式獲取若干幀數的目標圖像序列作為原始輸入正樣本集;
匹配基準特征生成:利用訓練得到的卷積特征提取網絡提取正樣本集對應的抽象特征,并用生成用于匹配的基準特征;
運動估計:根據已經獲取的一系列圖像系列,估計目標在下一幀中的位置,生成候選樣本集;
候選樣本特征提取:用PCA卷積網絡提取候選樣本的抽象特征;
特征匹配:建立一個合理的評估準則,用來評估待匹配特征與基準特征之間的相似度;
目標定位:將特征匹配結果最好的候選樣本作為當前幀中目標的真實位置,并將其對應圖像放入正樣本集;
更新:為保證用作匹配基準的特征始終能夠正確地表征跟蹤目標的最新狀態,并使PCA卷積特征提取網絡能夠擬合更多的正樣本,利用新的正樣本集對PCA網絡參數和匹配基準特征進行更新。
3.2 基于巴士距離的特征相似度判定
特征匹配的目的是通過構建合理的判定標準來評估候選樣本與正樣本之間的特征相似度,進而找到與正樣本特征最接近的候選樣本,作為新增正樣本?;诙鄬覲CA卷積濾波的深度特征學習,最后輸出時采用了直方圖池化,因此從原始圖像中學習得到的抽象特征,表現為多組直方圖構成的列向量。對于直方圖相似度匹配[11]問題,其方法可分為相關度、卡方系數、相交系數和巴氏距離法等4種,鑒于巴氏距離方法具有更好的精確度,因此本文的跟蹤算法中采用了該種方法作為特征相似度判定標準。基于巴氏距離的相似度計算如式(10)所示。
3.3基于粒子濾波的目標運動估計
視覺跟蹤中目標的運動估計[12]屬于時變系統狀態估計問題,目的是通過系統狀態的一系列觀測值來估計運動目標當前的位置、姿態、尺度等狀態。遞推貝葉斯估計理論為解決這種狀態估計問題提供了統一的理論框架,表示為
粒子濾波算法基于蒙特卡羅模擬實現遞推貝葉斯估計,對非線性、非高斯系統的狀態估計問題具有更好的適應性,因此成為解決視覺跟蹤中運動估計問題的有效方法。粒子濾波的核心思想是用一組對在狀態空間中隨機采樣粒子加權求和,來代替積分運算近似表示目標狀態的后驗概率分布,即
粒子濾波算法的核心過程具體如下:
(1)重要性采樣:面對新一輪系統狀態,根據上輪粒子濾波的結果(,)按建議分布(如高斯分布)進行采樣,得候選樣本集:
3.4更新
更新是本文提出的跟蹤算法中非常重要的一步,好的更新能夠明顯改善跟蹤效果,使跟蹤更為魯棒。更新包含兩個內容,網絡更新,和基準特征更新,網絡更新能夠更好地擬合新增正樣本圖像,減小目標變化對跟蹤的影響,但網絡更新存在著一個效果與效率之間平衡的問題;特征更新能夠避免“使用面部特征跟蹤背部圖像”這類情況的出現,使特征匹配更為準確有效。本文算法中,在特征更新時采用了遺忘因子,其計算式為
3.5算法計算量分析
本文所提跟蹤算法的主要計算量來自于求解層濾波器時的PCA計算,以及后面圖像卷積濾波處理的計算,影響計算量的主要因素包括圖像尺寸、取片尺寸、卷積濾波層數、每層濾波器個數、粒子濾波粒子數。
按照本文算法中給出的特征提取、特征匹配和運動估計方法,利用Matlab對Database OTB2013中的視頻序列進行仿真分析。
4.1參數設置
仿真參數如表1所示。

表1仿真參數
相關研究結果表明[10],利用多層PCA卷積濾波在進行圖像分類時,2層PCA卷積濾波就可以獲得非常好的識別率,增加濾波器層數會帶來一些性能提升,但是效果并不明顯,而對于本文提出的跟蹤算法而言,由于增加層數會快速增大計算量,因此綜合考慮性能效果和時間效率,仿真中濾波器層數設置為2。
4.2 仿真結果
仿真結果按性質分成定性分析和定量分析兩類,定性分析給出圖像結果,定量分析給出統計結果。鑒于篇幅限制,這里僅給出部分視頻序列的仿真結果,如圖4,圖5所示。圖4中,亮藍色細實線為ground truth,紅色實線為本文算法,黃色虛線為CT算法[13],綠色虛線為DFT算法[14],藍色虛線為LOT算法[15]。定量分析中,將本文提出的基于多層特征學習的跟蹤算法與其它傳統基于淺層特征的CT, DFT, LOT, CSK[16], Struck[17], CXT[18], LSK[19], VTS[20], Frag[21], KMS[22]等算法在精確度、覆蓋率、中心位置誤差等方面進行了比較,為便于閱讀,僅列出了其中幾種典型方法的具體對比情況,如圖5所示。

圖4 部分視頻仿真結果

圖5 與其它算法的性能比較
根據仿真結果可以看出,本文提出的基于多層特征學習的跟蹤算法在這些視頻序列上的性能,達到甚至超過了傳統算法的最好水平,而且整個視頻序列中呈現出的跟蹤效果更為穩定,表現出了更好的魯棒性。
利用分層學習PCA特征向量,多層卷積濾波提取獲得的圖像特征是一種高層次的全局抽象特征,實驗結果表明基于這種深度學習特征的粒子濾波跟蹤算法在面對光照變化、遮擋、異面旋轉、攝像機抖動時都具有非常好的不變性,在面對平面內旋轉時也具有一定的不變性,在整體效果上具有很好的魯棒性。
但該方法在取得優異性能的同時也存在著一定的問題和不足,主要體現在兩個方面:一是分層學習進行多層卷積濾波的方式雖然能夠顯著提高魯棒性,但也明顯增加了運算量,降低了實時性;二是目前采用的這種對取片圖像進行PCA特征向量學習的方式,在應對目標尺度變化時顯得有些乏力。這些問題都有待通過進一步的研究來解決和完善。
[1] Li X, Hu W M, and Shen C H. A survey of appearance models in visual object tracking[J]., 2013, 4(4): 5801-5848.
[2] Hinton G E and Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]., 2006, 313(5786): 504-507.
[3] Clement F, Camille C, Laurent N,Learning hierarchical features for scene labeling[J]., 2013, 35(8): 1915-1929.
[4] Alex K, Sutskever I, and Hinton G E. ImageNet classification with deep convolutional neural networks[C]. Proceedings of Advances in Neural Information Processing Systems, Lake Tahoe, 2012: 748-764.
[5] Zhou S S, Chen Q C, and Wang X L. Convolutional deep networks for visual data classification[J]., 2013, 38(11): 17-27.
[6] Abdel-Hamid O, Mohamed A R, Jiang H,.. Convolutional neural networks for speech recognition[J].,,, 2014, 22(10): 1533-1545.
[7] Chen X Y, Xiang S M, and Li C L. Vehicle detection in satellite images by hybrid deep convolutional neural networks [J]., 2014, 11(10): 1797-1801.
[8] Evgeny A S, Denis M T, and Serge N A. Comparison of regularization methods for imagenet classification with deep convolutional neural networks[J]., 2014, 6(8): 89-94.
[9] Baldi P and Hornik K. Neural networks and principal component analysis: learning from examples without local minima[J]., 1989, 2(1): 53-58.
[10] Chan Tsung-han, Jia Kui, Gao Sheng-hua,.. PCANet: a simple deep learning baseline for image classification[OL]. http://arxiv.org/abs/1404.3606, 2014.
[11] Ross D, Lim Jong-woo, and Lin Ruei-Sung. Incremental learning for robust visual tracking[J]., 2008, 77(1): 125-141.
[12] 姚志均. 一種新的空間直方圖相似性度量方法及其在目標跟蹤中的應用[J]. 電子與信息學報, 2013, 35(7): 1644-1649.
Yao Z J. A new spatiogram similarity measure method and its application to object tracking[J].&, 2013, 35(7): 1644-1649.
[13] Zhang K H, Zhang L, and Yang M H. Real-time compressive tracking[C]. Proceedings of Europe Conference on Computer Vision, Florence, 2012: 864-877.
[14] Sevilla-Lara L and Learned-Miller E. Distribution fields for tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1910-1917.
[15] Shaul O, Aharon B H, and Dan L. Locally orderless tracking[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island, 2012: 1940-1947.
[16] Henriques J F, Caseiro R, and Martins P. High-speed tracking with kernelized correlation filters[J].
, 2015, DOI:10.1109/TPAMI.2014.2345390.
[17] Hare S, Saffari A, and Torr P H S. Struck:structured output tracking with kernels[C]. Proceedings of IEEE International Conference on Computer Vision, Colorado, 2011: 263-270.
[18] Thang Ba Dinh, Nam Vo, and Medioni G. Context tracker: exploring supporters and distracters in unconstrained environments[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1177-1184.
[19] Liu Bai-yang, Huang Jun-zhou, and Yang Lin. Robust tracking using local sparse appearance model and K-selection [C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1313-1320.
[20] Junseok K and Kyoung M. Tracking by sampling trackers[C]. Proceedings of IEEE International Conference on Computer Vision, Colorado, 2011: 1195-1202.
[21] Amit Adam, Ehud Rivlin, and Ilan Shimshoni. Robust fragments-based tracking using the integral histogram[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2006: 798-805.
[22] Dorin Comaniciu, Visvanathan Ramesh, and Meer P. Kernel-based object tracking[J]., 2003, 25(5): 564-577.
Research on Visual Tracking Algorithm Based on Deep Feature Expression and Learning
Li Huan-yu①②Bi Du-yan①Yang Yuan②Zha Yu-fei①Qin Bing①Zhang Li-chao①
①(,,’710038,)②(,,’710051,)
For the robustness of visual object tracking, a new tracking algorithm based on multi-stage convolution filtering feature is proposed by introducing deep learning into visual tracking. The algorithm uses the Principal Component Analysis (PCA) eigenvectors obtained by stratified learning, to extract the deeper abstract expression of the original image by multi-stage convolutional filtering. Then the Bhattacharyya distance is used to evaluate the similarity among features. Finally, particle filter algorithm is combined to realize target tracking. The result shows that the feature obtained by multi-stage convolution filtering can express target better, the proposed algorithm has a better inflexibility to illumination, covering, rotation, and camera shake, and it exhibits very good robustness in video sequence with such characteristics.
Visual tracking; Deep learning; Principal Component Analysis (PCA); Convolutional neural network; Particle filter
TP391; TP183
A
1009-5896(2015)09-2033-07
10.11999/JEIT150031
楊源 kgd_bsh@163.com
2015-01-06收到,2015-04-28改回,2015-06-29網絡優先出版
國家自然科學基金(61202339, 61472443)和航空科學基金(20131996013)資助課題
李寰宇: 男,1984年生,講師,博士后,研究方向為計算機視覺、機器學習、模式識別
畢篤彥: 男,1962年生,教授,研究方向為圖像處理與分析、模式識別.
楊 源: 男,1982年生,副教授,碩士生導師,研究方向圖像處理、計算機視覺.
查宇飛: 男,1979年生,副教授,研究方向為計算機視覺、機器學習、模式識別.