成正國,潘廣貞
(中北大學 計算機與控制工程學院,山西 太原030051)
?
基于TLD的動態背景下視覺跟蹤技術研究
成正國,潘廣貞
(中北大學 計算機與控制工程學院,山西 太原030051)
隨著科學技術的不斷發展,具有攝像功能的移動設備越來越多,這給動態場景下的視覺跟蹤技術開辟了廣闊的應用前景。TLD(Tracking-Learning-Detection)算法是一種新穎、高效的長時間視覺跟蹤算法。在該算法的基礎上對動態場景下的視覺跟蹤技術進行研究。首先對TLD算法的主要特點、框架流程進行了總結;然后重點分析了TLD算法綜合模塊的機制,針對原算法在跟蹤過程中出現漂移甚至跟蹤失敗的問題,對算法綜合模塊的整合機制提出改進;最后經實驗論證,改進算法取得了預期的效果,在不影響運行速度的情況下提高了跟蹤的穩定性和識別率。
視覺跟蹤算法;動態背景;TLD;綜合模塊
隨著科學技術的不斷發展,具有攝像功能的移動設備越來越多,如各種手持設備[1]、車載設備[2]、機器人(包括UAV)[3]、PTZ攝像機[4]等。這些設備上的攝像頭就如同它們的“眼睛”,如果利用智能視頻分析算法,賦予這些設備思考的“大腦”,那將給生產、生活的很多方面提供便捷。但是,視頻分析的首要前提是對其中的特定目標實現跟蹤[5-8]。目前,靜態背景下的視覺跟蹤技術已經日趨成熟。然而,很多實際應用需要攝像頭運動才能對目標實現連續、有效的跟蹤。但是,移動攝像勢必引起整個背景的運動,相對于靜態背景的情況,這大大增加了視覺跟蹤的復雜度[9],以至于很多靜態背景下的方法不再有效。因此研究動態背景下的視覺跟蹤非常必要。
TLD(Tracking-Learning-Detection)是英國Surrey大學的Zdenek Kalal在2009—2012年間提出并不斷完善的一種視覺跟蹤算法[10-13]。2013年Yi Wu等人在CVPR上發表了一篇文章,文中對二十幾種目標跟蹤算法進行了比較,TLD算法排在前三,跟蹤效果是目前相對來說較好的[14]。
由于TLD良好的跟蹤效果,基于該算法的研究也越來越多。本文主要針對原TLD算法在跟蹤過程中出現目標框漂移和跟蹤失敗的情況,對原算法的綜合模塊提出改進。
1.1 TLD跟蹤算法
TLD算法的主要特點:
1)將跟蹤和檢測相結合,綜合模塊對跟蹤器與檢測器的輸出綜合分析以后給出最終結果;
2)通過一種在線學習機制不斷更新跟蹤器和檢測器的目標模型及相關參數;
3)一幀初始化,無需線下訓練,只需要較少的先驗信息就可以實現對不確定目標的長期跟蹤;
TLD算法的流程框架:TLD算法主要包含4個部分——檢測、跟蹤、綜合以及學習。如圖1所示,在起始幀通過文件輸入或者鼠標框選的方式指定跟蹤的目標,用得到的目標框和第一幀圖像完成TLD算法的初始化(主要是初始化檢測器和目標模型),隨后開始進行跟蹤。

圖1 TLD算法框架圖
跟蹤器基于中值流法根據目標在前一幀中的位置信息來估計其在當前幀中的位置[11]。檢測器對當前幀全局窗口進行掃描,通過級聯分類器檢測出一個或者多個可能的目標位置。檢測器和跟蹤器的結果都輸入到綜合模塊,由該模塊分析、整合后得到最優結果,并決定是否啟動學習模塊。如果啟動學習模塊,由學習模塊分析后決定是否更新目標模型,并對跟蹤器和檢測器進行更新[12]。
更多關于原TLD的內容請參閱文獻[10-13]。
1.2 綜合模塊的改進
本文主要針對原TLD算法在跟蹤過程中出現目標框漂移和跟蹤失敗的情況,對原算法的綜合模塊提出改進。原TLD算法綜合模塊整合機制見表1。

表1 原TLD算法綜合模塊整合機制
表1中tbb表示跟蹤器輸出的目標框,dbb表示檢測器輸出的目標框集,dt.bb表示檢測器中集合分類器輸出的目標框集,cbb表示對dbb聚類后的目標框集,confident_detections表示與tbb重疊度小于0.5且可信度比tbb的大的cbb數量,close_detections表示與tbb重疊度大于0.7的dbb數量,tconf表示tbb的可信度,cconf表示cbb的可信度集。
情況一,當跟蹤器和檢測器都有輸出時,分4種情況:
1)當confident_detections=1,用唯一的cbb[didx]作為最終輸出,學習模塊不學習;
2)當confident_detections=0時,close_dectections>0,用所有距離tbb很近的dbb和tbb進行加權平均得到最終輸出,其中tbb權值較大,學習模塊學習;
3)當confident_detections>1且close_dectections>0,用所有距離tbb很近的dbb和tbb進行加權平均得到最終輸出,學習模塊學習;
4)當confident_detections>1且close_dectections=0,用tbb作為最終結果輸出,學習模塊學習。
情況二,當跟蹤器有輸出而檢測器無輸出時,直接把tbb作為最終結果輸出,學習模塊學習。
情況三,當跟蹤器沒有輸出而檢測器有輸出時,分兩種情況:
1)當dbb聚類后cbb只有一個,則將cbb[0]作為最終輸出,學習模塊不學習;
2)當dbb聚類后cbb不只一個,則沒有輸出,跟蹤失敗,學習模塊不學習。
情況四,當跟蹤器和檢測器都沒有輸出時,無最終輸出,跟蹤失敗,學習模塊不學習。
改進算法綜合模塊的機制如表2所示。

表2 改進算法綜合模塊整合機制
對于情況一,當跟蹤器與檢測器都有輸出且confident_detections=1,分兩種情況:
1)當cbb的數量等于1,說明檢測器輸出集中程度高,用cbb[0]作為輸出,學習模塊不學習;
2)當cbb的數量大于1,說明檢測器大部分輸出與跟蹤器輸出接近,用所有距離tbb很近的dbb和tbb進行加權平均得到最終輸出,學習模塊學習。
對于情況三,當cbb的數量不等于1,按可信度排序,找出其中可信度最高的cbb[didx]。學習模塊不學習。
對于情況四,當檢測器和跟蹤器都沒有輸出,原算法就跟蹤失敗了。而實際上檢測器是由方差分類器、集合分類器和最近鄰分類器級聯而成。實驗發現,當檢測器沒有輸出的時候,即處于檢測器最后一級的最近鄰分類器沒有輸出的時候,中間級的集合分類器總是存在輸出的,而且這些輸出已經很接近目標位置了。在這個情況下可以將該結果輸出,對其進行聚類,找出其中比較集中的目標框,取它們的外接矩形框作為最終輸出。因為該結果不是很精確,所以學習模塊不進行學習。
2.1 實驗環境
硬件環境:Dell Precision T3500計算機,Intel(R) Xeon(R) CPU W3503 @ 2.40 GHz雙核處理器,NVIDIA Quadro FX 580 (Microsoft Corporation - WDDM v1.1) 雙顯卡,6 Gbyte內存。
軟件環境:64位Ubuntu 12.04操作系統,opencv2.3。
測試視頻:本文采用TLD標準測試數據集中的視頻序列進行測試[13]。測試集中的運動目標共4類:人臉、行人、車和動物,其中人臉和車是相對剛性的目標,行人和動物則是非剛性的。測試集中相機的運動模式共4類:旋轉、平移、縮放和傾斜。表3列出了所選測試視頻的屬性,基本涵蓋了目標檢測與跟蹤過程中經常會遇到的一些場景變化。

表3 視頻序列屬性
2.2 實驗結果分析
實驗結果的定量比較如表4所示。第3列和第6列分別表示改進前后的正確識別幀數,第4列和第7列分別表示改進前后處理整個視頻需要的總時間,第5列和第8列分別表示改進前后平均處理一幀所需的時間。
2.2.1 識別率分析
1)通過縱向比較改進前后的正確識別幀數,可以看出,對綜合模塊進行改進之后,總體目標識別率有所提高,對非剛性目標的識別率提高較為明顯。
2)通過橫向比較不同數據集的識別率,可以看出,對于非剛性目標的識別率相對低些;剛性目標因為其在運動過程中變化較小,所以識別率相對高些。

表4 實驗結果分析
另外,相機的運動模式對視覺跟蹤的識別率也有一定的影響??s放、傾斜這兩種運動模式對目標識別的影響較??;而旋轉、平移這兩種運動模式下的目標識別率較低。這主要是因為縮放和傾斜過程中,目標特征在相機平面上的投影變化較小,而在旋轉和平移的過程中,目標特征變化較大。
2.2.2 運算速度分析
通過比較改進前后的運行時間,可以看出:
1)綜合模塊的改進沒有對算法的運算速度造成大的影響。
2)TLD算法的實時性還不夠高,若要移植到嵌入式平臺,還有待改進。
3)不同視頻序列平均每幀消耗的時間有差異。這主要是因為目標的大小和圖像的大小不同。另外,當背景中出現跟蹤對象的相似目標或者相似特征,也會影響處理的速度。
改進算法實驗效果截圖如圖2所示。
本文基于TLD算法對動態背景下的視覺跟蹤技術進行了研究,針對原算法在跟蹤目標過程中出現漂移甚至跟蹤失敗的問題,對算法綜合模塊的整合機制進行了分析和改進。
最后通過實驗對改進的算法和原算法進行了比較分析,改進的算法在穩定性和識別率方面都有所提升,取得了不錯的效果。
下一步的研究準備從兩方面進行。首先,改進算法的學習機制,進一步提高算法的識別率;另外,從實時性方面對算法進行改進,提高算法的運算速度,爭取早日將該算法應用到嵌入式機器視覺系統中。

圖2 不同情況下改進算法的跟蹤效果
[1]DELL N, FRANCIS I, SHEPPARD H, et al.Field evaluation of a camera-based mobile health system in low-resource settings[C]//Proc.16th International Conference on Human-computer Interaction with Mobile Devices & Services.New York: ACM Press, 2014: 33-42.
[2]鹿文浩, 王生進.魯棒的車載攝像頭對向車輛檢測與跟蹤方法[J].清華大學學報:自然科學版, 2013, 53(11):1509-1514.
[3]KURNIAWAN M N, WIDIYANTO D.Implementation of image processing algorithms and GLVQ to track an object using AR Drone camera [J].Journal of Computer Science and Information, 2014, 7(2): 111-118.
[4]CHANG Faliang, ZHANG Guoqiang, WANG Xiaolin, et al.PTZ camera target tracking in large complex scenes[C]//Proc.2010 8th World Congress on Intelligent Control and Automation.Jinan: IEEE Press, 2010: 2914-2918.
[5]SHAN C F, PORIKLI F, XIANG T, et al.Video analytics for business intelligence[M].Berlin Heidelberg: Springer, 2012.
[6]YANG Hanxuan, SHAO Ling, ZHENG Feng, et al.Recent advances and trends in visual tracking: a review[J].Neurocomputing, 2011, 74(18): 3823-3831.
[7]YILMAZ A, JAVED O, SHAH M.Object tracking: a survey[J].ACM Computing Surveys, 2006, 38(4): 1-45.
[8]白曉方, 楊衛, 陳佩珩.一種改進的運動目標檢測與跟蹤方法[J].電視技術, 2014, 38(1):180-182.
[9]孫斌,黃神治.移動背景下運動目標檢測與跟蹤技術研究[J].電子測量與儀器學報, 2011, 25(3): 206-210.
[10]KALAL Z, MATAS J, MIKOLAJCZYK K.Online learning of robust object detectors during unstable tracking [C]//Proc.IEEE On-line Learning for Computer Vision Workshop.New York:IEEE Press, 2009:1417-1424.
[11]KALAL Z, MIKOLAJCZYK K, MATAS J.Forward-backward error: automatic detection of tracking failures [C]//Proc.International Conference on Pattern Recognition.New York: IEEE Press, 2010:23-26.
[12]KALAL Z, MATAS J, MIKOLAJCZYK K.P-N learning: Bootstrapping binary classifiers by structural constraints [C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition.San Francisco: IEEE Press, 2010:49-56.
[13]KALAL Z, MIKOLAJCZYK K, MATAS J.Tracking learning detection [J].IEEE Trans.Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.
[14]WU Y, LIM J, YANG M H.Online object tracking: a benchmark[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition.Portland: IEEE Press, 2013: 2411-2418.
Study of Visual Tracking Technology in Dynamic Background Based on TLD
CHENG Zhengguo, PAN Guangzhen
(SchoolofComputerandControlEngineering,NorthUniversityofChina,Taiyuan030051,China)
With the continuous development of science and technology, more and more mobile devices are equipped with camera, which creates a broad application prospect for the dynamic background visual tracking technology.The TLD (Tracking-Learning-Detection) algorithm is a novel, efficient and long-term visual tracking algorithm.In this paper, the visual tracking technology is studied based on this algorithm.First of all, the main characteristics and framework of TLD are summarized.Secondly, the mechanism of TLD′s integrator is analyzed.Moreover, aiming at the original algorithm′s problems, such as drifting and failure, the improvement on integration mechanism of integrator is proposed.Finally,the experiment demonstrates that the developed algorithm obtains expected effects, and it improves the stability and recognition rate without affecting the operation speed.
visual tracking algorithm; dynamic background; TLD; integrator
TP391.4
B
10.16280/j.videoe.2015.07.026
2014-10-11
【本文獻信息】成正國,潘廣貞.基于TLD的動態背景下視覺跟蹤技術研究[J].電視技術,2015,39(7).
成正國(1988— ),碩士生,主研計算機仿真、圖形圖像處理;
潘廣貞(1969— ),博士,副教授,碩士生導師,主研圖形圖像處理、無人機航跡規劃。
責任編輯:薛 京