李希
摘要:視頻流中目標的長時間跟蹤問題是計算機視覺領域中極具挑戰性的課題。在視頻幀中,目標可由其位置及自身特征等信息進行描述。目前大多數跟蹤算法利用滑動窗口機制,對每個窗口進行簡單的特征提取,以實現目標的檢測與跟蹤。出于降低算法計算復雜度的考慮,很多跟蹤算法均使用弱特征描述目標,因而導致無法解決目標旋轉、尺度變換和光照變化等問題。在最近出現的目標檢測與識別算法中,顏色特征已展示出其優異的性能,它們能很好地解決光照變化等問題。但是在滑動窗口機制下,窗口數量非常大,導致基于顏色特征的計算復雜度過高,直接影響跟蹤算法的實時性能。本論文基于TLD算法的框架體系,提出利用BIN-NST算法對窗口進行篩選,大幅度減少候選窗口數量,在此基礎上能夠高效地利用顏色特征對目標進行檢測與跟蹤,解決了在光線驟變的情況下出現的跟蹤失敗的問題。
關鍵詞:視頻流;跟蹤;TLD算法
1. 引言
視頻中目標物體的長時間跟蹤是計算機視覺領域一個非常具有挑戰的問題。視頻跟蹤在許多應用中,特別是人機交互,視頻監控,以及機器人中都扮演了重要的角色。但是由于光照變化,局部遮擋,雜亂的背景,形狀變化等因素,使跟蹤問題更加復雜化。
近期出現的視頻跟蹤算法,主要分為三類:基于特征、基于外表模型和基于結構信息。基于特征的跟蹤算法中,所使用的特征包括多種不同的圖象屬性特征,如像素值[1]、顏色信息[2,3,4,5]、紋理描述[6,7]等。外表模型主要有顏色分布特征[3,4]、子空間描述[1,8]、支持向量機(SVM)[9]、Boosting[6,7,10]、特征稀疏描述[11,12,13]等。逐漸地越來越多的跟蹤算法開始使用目標結構信息[2,14,15,16,17,18]。融入目標結構信息的跟蹤算法對目標變形、遮擋有較強的魯棒性。
基于特征的跟蹤算法中,大部分使用方型模板提取特征信息描述目標。Lim等[1]提出使用增量子空間模型描述目標的方法,在很大程度上增強了算法對光照變化的魯棒性。為了增強算法的魯棒性,Kwon等[19]將跟蹤器分解成為幾個更小的跟蹤器。Wen等[8]在跟蹤算法中融入時空上下文特征信息,Mahadevan等[20]利用圖象顯著特征信息以改進跟蹤算法。這些跟蹤算法都沒有考慮目標的變形、遮擋問題。
后來涌現出一些能夠較好地解決遮擋問題的跟蹤算法。Adam等[2]將目標分割成水平和垂直方向的子塊,這種處理方法對部分遮擋具有較強的魯棒性。文獻[11,12,13]采用稀疏描述方法從外表特征中重建目標信息,也較好地解決了遮擋問題。Babenko 等[22]采用多實例學習策略來減少遮擋對跟蹤的影響。Grabner等[23]利用上下文信息解決全遮擋問題,取得了較好的實驗結果。然而,這些算法卻忽視了目標的變形問題。
為了真正有效地解決目標變形、遮擋問題,近期出現了一些綜合性的跟蹤算法,如在外表模型中融入時空特征信息、上下文先驗信息等,以期達到更魯棒有效的跟蹤性能。基于分段的跟蹤器[29]使用多個局部塊直方圖描述目標,融合了目標的內部結構信息,能很好的處理部分遮擋。然而,它的模板并不隨著視頻序列的變化而進行修正,因而難于跟蹤有外表變形的目標。另外一種處理方式是在跟蹤過程中融入目標檢測模塊[30,31,32]。利用檢測模塊實時地更新外表模型,這種算法在目標脫離跟蹤范圍后,仍能重新捕獲到目標。但這些基于檢測的跟蹤器容易被具有相似外表的目標所誤導。對于在無約束環境下的長時間跟蹤任務,需要融入一些空間先驗信息以增強算法的魯棒性。Yang等設計了一種上下文敏感的跟蹤器[33](Context-Aware Tracker:CAT)解決了目標漂移問題,上下文先驗信息是一些容易跟蹤且與目標運動一致的輔助性目標。
基于特征類的算法沒有較好的解決目標變形及局部遮擋的問題;而基于外表模型的算法卻沒有較好的解決光照變化和局部遮擋問題。基于結構信息的算法沒有較好的解決相似目標的影響,以及光照變化的問題。
本文設計使用跟蹤與檢測相結合的體系結構,實現了一個長時間跟蹤算法。首先設計改進的BING算法(BIN-NST算法),使得在檢測器中最初的目標候選窗口數量銳減至2000個左右,并且完全不影響目標檢測性能。然后在此基礎上,在算法中采用lsh的強特征信息來描述候選窗口內的目標特征,較好地解決光照變化的問題。
Our contributions are as follows:
1 我們對bing算法進行了改進,原始的bing算法采用梯度作為特征
2 在跟蹤算法中融入強特征,有效的解決了光照不變形和旋轉不變性的問題
3 通過改進的bing與tld融合,在使用強特征的前提下仍然保證了跟蹤算法的實時性
2. 相關工作
2.1 跟蹤—學習—檢測算法(TLD)
TLD算法[38]主要討論研究視頻流中的目標物體的長時間跟蹤問題。在一幅單獨的圖像幀中,目標物體是由其位置和自身特征所表征的。在連續的視頻幀中,TLD算法能夠定位或者重新出目標的位置。TLD由三個部分組成:跟蹤,學習和檢測。跟蹤器在視頻流中跟蹤目標。檢測器使用滑動窗口機制找出目標,其結果可修正跟蹤器,并在跟蹤器失效的情況下使得該算法能繼續找到目標。學習器通過PN約束把檢測器錯誤分類的正負樣本找出來,重新訓練并對檢測器的所用到特征進行更新,保證收斂于目標。TLD算法中開創了一種全新的學習方法(P-N學習,Positive和Negative),這種方法通過一對約束來估計出錯誤。P約束就是找到被錯誤分類的正樣本,N約束找到被錯誤分類的負樣本。整個學習過程可以被看作是一個獨立的離散的動態過程模型,并且在該過程模型下發現學習器的效果得到了有效地提升。
參考文獻
[1]J. Lim,D. A. Ross,R.-S. Lin,and M.-H. Yang,“Incremental learning for visual tracking,” in Advances in Neural Information Processing?Systems 17. Cambridge,MA,USA:MIT Press,2004.
[2]A. Adam,E. Rivlin,and I. Shimshoni,“Robust fragments-based tracking using the integral histogram,” in Proc. IEEE Comput. Soc. Conf. CVPR,vol. 1. Jun. 2006,pp. 798–805.
[3]D. Comaniciu,V. Ramesh,and P. Meer,“Real-time tracking of non-rigid objects using mean shift,” in Proc. IEEE CVPR,vol. 2. Jun. 2000,pp. 142–149.