李俊瑤
【摘 要】目標追蹤作為圖像理解重要的一部分,在公安工作中有著廣泛的應用。但是對于一些復雜場景,車輛、行人眾多、背景多樣,傳統的目標追蹤算法難以達到理想效果。本文概述了稀疏表示基本概念和稀疏編碼的方法,對稀疏表示方法在目標追蹤領域中重要研究進展進行總結歸納,并展望了稀疏表示方法在目標追蹤領域的發展方向。
【關鍵詞】目標識別;目標追蹤;稀疏表示;稀疏編碼
中圖分類號: TP391.41 文獻標識碼: A 文章編號: 2095-2457(2017)29-0030-002
【Abstract】Target tracking, as an important part of image understanding, has a wide range of applications in public security work. However, for some complex scenes, vehicles, pedestrians, diverse backgrounds, the traditional target tracking algorithm is difficult to achieve the desired results. This paper summarizes the basic concepts of sparse representation and sparse coding methods, summarizes the important research progress of sparse representation methods in the field of object tracking and prospects the development direction of sparse representation methods in the field of object tracking.
【Key words】Target recognition; Target tracking; Sparse representation; Sparse coding
0 引言
隨著信息化、大數據的不斷深入應用,對可疑人員、車輛等展開目標追蹤已經成為偵查工作的一大重要組成部分。傳統的圖偵工作主要依靠人工識別實現追蹤,耗費大量人力和時間,效率較低。
典型的目標追蹤系統主要包括三個部分:(1)目標外觀模型——計算目標在特定位置上的相似度;(2)目標運動模型——預估被追蹤目標在整個視頻序列中的運動狀態;(3)追蹤搜索策略——搜索當前視頻幀中最相似目標的位置。其中目標外觀模型作為目標追蹤的基礎和關鍵,其表現力和健壯程度對目標追蹤的準確性和穩定性有著決定性的作用。
圖像的稀疏表示與人類視覺系統的描述方式很類似[1],即捕捉圖像的結構特征,可以實現圖像的有效表示。而在實際應用中,由于成像機理的不同,目標表現出不同的特征,需要將稀疏表示與具體的應用領域相結合,彌補傳統目標檢驗算法的缺點。本文簡要介紹了稀疏表示的概念,對其在目標追蹤中的應用進行總結梳理,并展望其在公安工作中的發展方向。
1 稀疏表示
1.1 稀疏表示的基本概念
人類視覺系統的神經元細胞在接收自然圖像時,神經元會提取圖像的結構特征,即采用稀疏編碼原則[2]。目前,圖像的稀疏表示研究主要包括兩大方面: 單基表示和多基表示。
1.1.1 單基表示
圖像的單基稀疏表示基于多尺度分析方法,該理論認為圖像具有非平穩和非高斯的特性,無法用線性算法進行準確處理,應對圖像的幾何結構(包括邊緣、紋理等)進行建模,主要包括:脊波和曲波等。該方法產生的圖像模型結構較為簡單,對于大場景或復雜目標無法精確的進行描述,因此,各位學者提出了稀疏的多基表示。
1.1.2 多基表示
圖像的多基稀疏表示基于Mallat和Zhang于1993年提出的過完備字典理論[3],通過學習獲取信號完備的字典集,將信號樣本表示成基向量與稀疏權向量的線性組合,利用信號本身的特點自適應地選擇可以對信號進行稀疏表示的冗余基。稀疏表示的基礎是稀疏編碼,即利用過完備基向量中的少數基向量對樣本數據進行線性表示:
1.2 稀疏編碼
稀疏編碼是在給定如圖1所示,信號x∈Rn和字典D下計算稀疏權矩陣α的過程,針對稀疏編碼和字典學習,常用的稀疏編碼算法有OMP算法、特征符號搜索算法[6]等;而相關的字典學習方法有KSVD算法[7]、在線字典學習算法(SPAMS)[8]等,分為貪婪法和松弛法。
1.2.1 貪婪法
貪婪法針對公式1進行求解,通過迭代,利用字典中的原子,對信號和字典進行內積計算選擇最匹配的,作用對信號(圖像)的表示。其中匹配追蹤在計算方面簡單有效,但是容易出現發散??梢允褂米钚《朔▉慝@取原子的表示系數,因此,對于信號x∈Rn和字典D={d1,d2,…,dk},r0=y,k=1,可以通過以下步驟來實現正交匹配追蹤:
1.2.2 松弛法
松弛法就是使用經典的連續優化方法[9]實現逼近效果。其中,基追蹤方法[10]就是說公式2可以采用凸優化方法進行求解,加入噪聲、松弛等式其他條件,公式2的求解可轉為求解以下方程[11]:
這里ε是用于信號重構的誤差項,而公式3可以作為圖像稀疏表示的標準數學模型,可以通過內點方法[12](Interior Point methods)、最小角度回歸方法[13](Least Angle Regression, LARS)、迭代收縮法[14](Iterative Shrinkage)。endprint
2 基于稀疏表示的目標追蹤
2.1 基于稀疏表示的目標追蹤一般步驟
目標追蹤算法包括:目標識別、運動模型建立、目標搜索。稀疏表示作為信息結構化表示方法,靈活設計字典中的參數,突出目標特征,與背景區分性更強,其流程如圖2所示。
2.2 基于稀疏表示的目標特征學習
對于目標追蹤而言,對目標進行魯棒性和可區別性的特征描述是關鍵所在,而對于圖像級特征在設計時需要考慮:
(1)對于不同類別的情況,有相當的判別性用以區別不同類別內容;
(2)對于同一類別的情況,有相當的魯棒性用以區別同一類別的不同展現形式。
目前用的較多的是利用SIFT[15]等底層局部特征建立詞包模型(BOW),最早由Joachims等[16]在1997年提出,當時主要是在文本分類中用于描述相關文本特征,而最早將該特征應用于視覺領域的是Sivic等[17]和Csurka等[18]。使用BOW模型進行圖像結構化表示可以分為三個步驟:圖像塊特征的獲取與描述,字典生成以及圖像的直方圖表示,如圖3所示。
第一步,通過稠密采樣等特征提取方式獲得圖像中可以表示圖像特征的圖像塊,利用SIFT、HOG等對每個圖像塊的特征進行區別化表示;第二步,對上一步得到的訓練集合中的圖像塊特征進行聚類,并將聚類得到的全體類中瓜視為圖像特征的“字典”(codebook);第三步,計算特征向量與字典中所有類中心的距離,確定特征向量所屬碼字的類別,這樣一幅圖像就可以通過碼字出現頻率為單元的直方圖進行標識,也就是詞包。通過這樣的方式,局部特征變成整體特征,可以更好的面對對尺度、旋轉等變化。
目前,BOW只使用了圖像中的關鍵點、邊緣特征等底層信息,無法對圖像中的場景、對象等高層信息進行表示,導致獲取的特征信息不夠完整;另外,對于算法的具體應用和具體數據情況,SIFT的構造缺乏適應性,人工干預較多,提取的特征也有不確定性,追蹤效果差。
3 總結與展望
目標追蹤是一個內容繁多的系統工程,稀疏表示已經應用于目標追蹤里的很多方面,效果較好,雖然體現了一定優勢,但其可利用空間還有待挖掘,針對公安的特定目標研究仍然很少。未來可以主要關注一下幾個方面:
3.1 構建魯棒的目標識別模型
為實現良好的目標識別性能,需要構建穩健的目標識別模型。因此,如何對目標進行結構化的稀疏表示是將來的重要研究方向。在實際應用中,使用者還需要對基于稀疏表示的目標識別追蹤模型進行參數設置,而這些參數的調整和設置還是主要依靠使用者的經驗。因此,利用識別追蹤模型從自動進行參數自適應調整還需要展開進一步的研究。
3.2 算法實時性
基于稀疏表示的目標追蹤算法相較于傳統算法,其準確性、性能明顯提高,但是運算時間也較長,是稀疏表示在實際應用中的一個瓶頸,需要對算法進行優化,進一步對計算速度和效率進行優化,尤其是復雜場景,數據量更大,更需要對算法進行優化已實現更為高效的運算。
3.3 目標穩健特征學習
目標特征的優良程度對目標追蹤的準確性起著重要作用,其不變性和可區分性的設計也很難達到完美,需要進一步對利用稀疏表示方法,從圖像中獲取底層、中層及高層特征,使得特征描述更為準確;另外,可以結合目前更先進的深度學習算法,提取更為本質的目標特征,改進算法效果。
【參考文獻】
[1]Vinje W E,Gallant J L. Sparse coding and decorrelation in primary visual cortex during natural vision[J].Science,2000,287:1273-1276.
[2]Serre T,Wolf L. Bileschi S,et al. Robust object recognition with cortex-like mechanisms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(3):411-426.
[3]Mallat S G,Zhang Z. Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[4]Donoho D L, Elad M. Optimally sparse representation in general(nonorthogonal)dictionaries via 1 minimization[J].Proceedings of the National Academy of Sciences, 2003,100(5):2197-2202.
[5]B.K.Natarajan, Sparse approximate solutions to linear systems[J].SIAM Journal on Computing,1995,227-234.
[6]Lee H,Battle A, Raina R,et al. Efficient sparse coding algorithms[A].Advances in neural information processing systems(NIPS)[C].MIT Press,2007.801-808.
[7]Aharon M, Elad M,Bruckstein A.The K-SVD: An algorithm for designing of over complete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing,2006,54(11) :4311-4322.endprint
[8]Mairal J,Bach F,Ponce J,et al. Online learning for matrix factorization and sparse coding[J].The Journal of Machine Learning Research, 2010, 11:19-60.
[9]M.Elad, Sparse and Redundant Representation: From Theory to Applications in Signal and Image Processing [M].Springer, New-York, 2010
[10]S.S.Chen,D.L. Donoho, and M.A.Ssunders, Atomic decomposition by basis pursuit[J].SIAM Journal on Scientific Computing, 1998,20(1):33-61.
[11]Candes E J, Tao T. Decoding by linear programming[J]. IEEE Transactions on Information Theory, 2005, 51 (12) : 4203-4215.
[12]S.J.Kim,K.Koh, M.Lusig,S.Boyd,and D.Gorinevsky,A method for largescale,1-regularized least squares proble- ms with applications in signal processing and statistics[J].IEEE J.Selected Topics Signal Processing, 2007,1(4):606-617
[13]B. Efron,T. Hastic,I.M.Johnstone,and R. Tibshirani,Least angle regression[J]. The Annals of Statistics,2004,32 (2):407-499
[14]M.Elad, M.Zibulevsky, Iterative shrinkage algorithms and their acceleration for L1-L2 signal and image processing applications[J].IEEE Signal Processing Magazine,2010,27(3):78-88.
[15]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110
[16]Joachims T. A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization. Proceedings of the 14th International Conference on Machine Learning(ICML), San Francisco, CA, USA: Morgan Kaufmann Publishers Inc,1997, 143-151.
[17]Sivic J, Zisserman A. Video Google: a text retrieval approach to object matching in videos. Proceedings of 2003 Ninth IEEE International Conference on Computer Vision(ICCV). IEEE.2003.1470-1477
[18]Csurka G, Dance C, Fan L,et al.Visual categorization with bags of keypoints. Proceedings of Workshop on Statistical Learning in Computer Vision, ECCV, volume 1.Prague, 2004. 1-22.endprint