黃宏圖 畢篤彥 侯志強 胡長城 高山 查宇飛 庫濤
視頻目標跟蹤是計算機視覺領域的關鍵問題和研究熱點,是任何一個以視頻為輸入的實際應用系統的關鍵技術,是后續目標識別、行為分析、視頻壓縮編碼和視頻理解等高級視頻處理任務的基礎[1].視頻目標跟蹤的目的是在連續的圖像序列中標記出特定目標,估計目標的位置、尺度或區域,確定目標的速度以及軌跡等運動信息.實際應用中完整的視頻目標跟蹤系統通常包括目標的檢測、提取、識別和跟蹤4個環節.一般為了研究方便,將其進行一定簡化,例如檢測、提取和識別通過人工方式完成,從而突出跟蹤環節算法的研究[2].
在民用領域,視頻目標跟蹤在智能視頻監控[3]、智能交通系統、人機交互、視覺導航、無人駕駛汽車[4]、醫學圖像分析、虛擬現實、運動分析、行為識別和視頻檢索等方面有較多應用.在軍事領域,視頻目標跟蹤已經廣泛應用于戰場偵察與監視、景象匹配制導和無人機對地目標跟蹤等領域[5].
近30多年來得益于計算機技術的發展,視頻目標跟蹤研究已經取得較大進展[6].但是目前復雜環境下持續魯棒的視頻目標跟蹤仍然比較困難,沒有哪個跟蹤算法能夠成功地應用于所有的視頻跟蹤任務,大多數算法在跟蹤一段時間之后,通常就會因為某些原因丟失目標[7].魯棒視頻目標跟蹤的難點在于隨著時間和空間的推移,目標自身變化和外界場景變化的復雜性和難以預知性[8],例如從3D空間投影到2D平面時的信息損失、光照變化、尺度變化、遮擋、形變、運動模糊、快速運動、旋轉、復雜場景、低分辨率圖像、目標移出視角、攝像機視角改變和噪聲等.從控制論觀點看,視頻目標跟蹤是一個從輸入到輸出的單向開環系統,由于沒有反饋輸入,很難確認跟蹤的正確與否,隨著時間的推移,模型更新中誤差累積會產生漂移,最終因系統發散導致跟蹤失敗[9].此外某些算法的時間復雜度較高難以實現實時跟蹤[7].因此魯棒實時的視頻目標跟蹤仍然是一項亟待解決的關鍵問題,具有重要的理論意義和實用價值.
在信號與信息處理領域,一直高度重視信號描述的“簡單性”[10].從信息論角度看,如果信號是稀疏的,或具有某種結構,或可用某個確定的模型表示,這樣的信號稱之為“簡單”信號[11].“簡單性”是簡單信號的固有特性,通常表現為稀疏性、低秩性和低熵性等.稀疏表示作為信號“簡單性”的描述,是近幾年研究熱點.生物學家研究發現[12?13]哺乳類動物在長期進化過程中,視神經形成了快速、準確、低能耗地表示自然圖像的能力,關鍵在于哺乳動物在感知視覺信息時,大腦視皮層V1區中只有少量神經元被激活,即視覺信息可以用少量神經元進行稀疏表示.
稀疏表示廣泛應用于人臉識別[14]、圖像超分辨率重建、圖像去噪和恢復[15]、圖像分割、特征提取和融合[16]、圖像顯著性檢測[17]、背景建模和圖像分類[18]等計算機視覺領域[19].稀疏表示有助于獲取描述符的顯著模式,能夠在有限的樣本容量下,使所得模型參數呈現某種稀疏性,提高模型的可靠性和可解釋性,有利于采用模型對實際問題進行解釋和指導,并且重建性能好.受到基于稀疏表示的人臉識別[14]的影響,以及視頻連續性產生的圖像幀與幀之間的冗余性,2009年國際計算機視覺大會上,Mei等首次將稀疏表示應用到視頻目標跟蹤中[20],構建由目標模板和單位矩陣組成的冗余字典,核心思想是將候選目標圖像表示為目標圖像的稀疏線性組合,從稀疏角度得到目標最緊致的表示.后續出現了大量基于稀疏表示的視頻目標跟蹤算法[21],并取得了較好的跟蹤性能[22].其中基于灰度特征字典的稀疏表示跟蹤算法對遮擋和噪聲等具有一定的魯棒性,對于判別式跟蹤算法而言在稀疏表示下目標和背景更加線性可分.但算法時間復雜度一般較高,難以實現實時跟蹤和算法快速優化.由于算法時間復雜度與字典維數相關,難以使用高維的魯棒特征,導致算法魯棒性低于某些算法.
文獻[21]按照稀疏表示的用途和階段不同將稀疏表示跟蹤算法分為基于稀疏表示的表觀建模和基于稀疏表示的目標搜索兩類,其中表觀建模中將稀疏表示看成是對目標建模表示的過程,目標搜索中將稀疏表示的過程看成是目標搜索的過程.本文在粒子濾波框架下將基于稀疏表示的視頻目標跟蹤算法分為4個組成部分:字典構建、稀疏模型的構建及求解、觀測模型的構建和模型更新.其中字典構建是基礎,因為后續的一切處理都是在字典中原子張成的子空間內進行.稀疏模型的構建及求解是核心,稀疏模型構建是在重構誤差和稀疏性先驗之間尋求某種微妙的平衡,快速有效的模型求解算法是關鍵,因為這直接涉及跟蹤算法的處理速度.觀測模型構建是根本,最終決定了目標匹配的相似性度量函數.模型更新是重點,由于跟蹤過程目標是不斷變化的,在跟蹤結果的基礎上適時地對模型進行在線更新是魯棒跟蹤所必需的.下面分別對上述4個組成部分進行分析.
基于稀疏表示的視頻目標跟蹤算法本質上是冗余字典下的稀疏逼近問題[23],在冗余字典下能更有效地找出隱含在輸入數據內部的結構與模式.目前信號在冗余字典下的稀疏表示研究集中在以下兩個方面:1)構建適合某一類信號的冗余字典;2)設計快速有效的稀疏分解算法.如圖1所示,字典構建包括特征選擇和字典組成兩個步驟.

圖1 字典構建方法Fig.1 The codebook construction method
受到基于稀疏表示的人臉識別的影響,以及灰度特征的簡單性和有效性,大多數算法利用目標的全局模板或局部圖像塊的灰度特征[24].但是灰度特征涉及像素點的對齊問題,一般是通過以下兩種方法實現像素點的對齊[25]:1)在目標周圍進行稠密采樣,使得字典中能夠盡可能地包括圖像的轉換形式;2)候選樣本的每列通過幾何轉換與字典中的目標模板對齊.后續跟蹤算法引入了其他特征例如:紅外特征[26]、顏色直方圖、HOG(Histograms of oriented gradients)[27]、像素點梯度方向的正余弦[28]、SIFT(Scale-invariant feature transform)[29]和幾何模糊[30]等.文獻[31]直接將顏色直方圖、灰度、HOG和LBP(Local binary pattern)堆疊實現簡單融合.文獻[32]將像素點的坐標、灰度、梯度幅值和方向使用協方差矩陣進行融合,在不同圖像上的區域協方差描述符獲得了一定的尺度和旋轉不變性.協方差矩陣將不同類型的特征進行有效融合,利用了特征之間的空間特性、統計特性和特征之間的相關性且維數較小.雖然協方差矩陣位于黎曼流形上,但將其進行對數轉換后可以在歐氏空間上進行度量.多特征融合[33]的目的在于利用特征之間的互補性彌補單一特征的不足.由于特征維數直接決定了后續稀疏求解算法的復雜度,因此在特征選擇過程中必須考慮特征維數對算法求解速度的影響.
字典組成的方法分為人工設計方法和機器學習方法.由于人工設計方法的簡單性和有效性,大多數字典構建方法直接使用預先指定的字典.基于機器學習的字典構建方法大多需要大量的訓練數據.
如圖1所示,人工設計的方法按照字典的構成可以分為:基于目標特征的字典構建方法、基于目標特征和背景特征的字典構建方法和基于候選目標特征的字典構建方法.
基于目標特征的字典構建方法大多利用目標模板或者主成分分析(Principle component analysis,PCA)來構建字典,為了處理遮擋和噪聲等異常,字典中一般還包括微模板[20,34?37](與字典中原子維數同樣大小的單位矩陣,以下統稱微模板).由于稀疏表示反映了候選目標和字典中原子的線性相關性,為了保證稀疏表示的非負性引入了負微模板.后續算法為了減少字典中原子的個數提高算法效率,將負微模板和非負性約束去掉,利用目標特征和正微模板構建字典[38].文獻[39?42]使用局部圖像塊代替全局模板使得字典本身對于部分遮擋具有一定的魯棒性.
為了提高模型處理復雜背景的能力,文獻[43]同時利用目標特征和背景特征構建字典,使得字典本身具有判別性,進而使得稀疏表示中包含有判別信息,從而使算法具有較強的區分目標和背景的能力.
利用候選目標特征構建字典的方法[44?45]是將跟蹤問題看作識別問題,求解目標在候選目標組成字典下的稀疏表示,根據稀疏表示即可從候選目標中確定目標的位置,理論上只需要求解幾次稀疏表示,相比傳統方法大大減少了稀疏表示的求解次數.
目前稀疏表示跟蹤算法中基于學習的字典構建方法還比較少.字典學習[10]通過優化相應的目標函數,獲得能夠對信號進行稀疏表示的字典,或從分析的角度看,通過優化目標函數使變換系數最稀疏.字典學習根據數據或信號本身來學習冗余字典,這類字典中的原子與訓練集中的數據本身相適應.與基于解析方法的字典相比,通過學習獲得的字典原子數量更多,形態更豐富,能更好地與信號或圖像本身的數據結構匹配,具有更稀疏的表示,比解析方法構造的字典有更出色的性能.
綜合字典學習都采用系數更新和字典更新交替優化的方式.字典學習算法的區別主要在于字典更新方式,而系數更新沒有本質區別.固定字典更新稀疏表示是標準的稀疏編碼問題,理論上任何一種稀疏編碼方法都可以用于系數更新[46?47].固定稀疏表示更新字典則是字典學習算法最為關注的環節.綜合字典學習試圖找到一組能夠反映信號本征空間的基,解析字典學習則是從對偶分析的角度考慮稀疏表示問題,試圖找到信號正交空間的基.上述兩種模型的訓練樣本為特定的信號庫,盲字典學習的訓練樣本是待重構信號的測量值.上述三種模型均以范數描述信號的稀疏性,而基于信息復雜度的字典學習則是利用信息的復雜度描述信號的“簡單性”.信號越稀疏,其復雜度越低,因此它仍然屬于廣義的稀疏表示模型.
稀疏模型的構建是在重構誤差一定的前提下,在稀疏性約束中加入一些目標的先驗信息,得到目標更加緊湊的表示[48],從而提取出數據潛在的內部結構.由于大多數基于稀疏表示的視頻目標跟蹤算法是在粒子濾波框架下進行,因此按照觀測模型將其分為生成式模型、判別式模型和混合式模型.
目前基于稀疏表示的視頻跟蹤算法大多為生成式算法,如圖2所示,生成式模型中根據目標匹配相似性度量函數的不同,分為基于重構誤差的生成式算法、基于稀疏表示系數的生成式算法和基于稀疏編碼直方圖的生成式算法.
基于重構誤差的生成式算法一般是首先求解候選目標在稀疏模型下的表示系數,而后求解候選目標基于目標特征的重構誤差,最后選擇重構誤差最小的候選目標作為跟蹤位置.如圖2所示,按照稀疏模型的不同分為L1跟蹤算法、加權稀疏編碼跟蹤算法、基于結構稀疏表示的跟蹤算法、基于非局部自相似正則化的稀疏表示跟蹤算法、多任務稀疏表示跟蹤算法和多任務多視角稀疏表示跟蹤算法.

圖2 基于稀疏表示的生成式模型Fig.2 The sparse representation-based generative model
基于目標特征重構誤差的生成式算法的典型代表是L1跟蹤算法[20,24],其算法框架如圖3所示.

圖3 L1跟蹤算法框架Fig.3 The L1tracker framework
L1跟蹤算法的稀疏表示模型為

為了提高L1跟蹤算法的速度,Bao等將加速最近梯度(Accelerated proximal gradient,APG)算法引入到稀疏模型的求解中,并對微模板系數附加范數約束[35]:

傳統的稀疏表示模型中重構誤差通常使用1范數或者2范數,分別對應拉普拉斯誤差分布和高斯誤差分布.然而在實際中重構誤差并不一定是理想的拉普拉斯分布或高斯分布,為了解決這個問題L1跟蹤算法使用微模板以較高的計算代價來解決遮擋或者噪聲等異常情況.Yan等[50]從重構誤差的概率分布出發,通過加權稀疏編碼誤差最小化來提高跟蹤算法的魯棒性,旨在解決超出拉普拉斯和高斯噪聲的異常,理論上使算法模型適用于更為一般的噪聲和異常.因此字典中并不需要微模板,減少了字典中原子個數一定程度上降低了算法復雜度.
基于PCA的重構誤差生成式算法使用PCA代替目標模板,主要原因有:1)L1跟蹤算法字典中只是利用目標模板來處理目標的變化,而目標模板張成的子空間的表達能力是有限的,難以處理目標較大的視角和姿態變化.2)字典一旦使用背景圖像或者嚴重遮擋的跟蹤結果更新后,L1跟蹤算法很容易失敗,而基于PCA的字典能夠最大限度地保留目標的類內方差,從而獲得目標模板豐富的冗余結構信息,利用歷史數據使用增量子空間學習得到目標表示的時間相關性,由其張成的最優子空間不僅對當前目標,而且對歷史目標都有較小的重構誤差,因此本征模板集合相比目標模板能夠提供更豐富的表達.3)使用PCA代替目標模板后,字典中的微模板能夠克服PCA對噪聲太敏感只能對一些類似高斯分布的數據有效的不足.
Wang等[51]利用PCA替換L1跟蹤算法中的目標模板,同時利用了子空間對目標變化的建模能力和稀疏表示對遮擋等異常的魯棒性.候選目標可以使用PCA子空間線性表示其中字典U∈Rd×m由正交基向量組成,z為稀疏表示,e為重構誤差.其稀疏表示通過下式求解:

其中,由于PCA基向量是正交的,因而對應正交基向量的系數z是稠密,而對應微模板的系數e是稀疏的,上述模型可以通過迭代優化求解.
Pan等[52]在文獻[51]的基礎上從理論上證明當字典為正交字典時,使用范數約束表示目標比范數約束更優.將算法模型修正為

Bai等[37]利用遮擋的連續空間分布考慮圖像的結構信息提出了基于結構稀疏表示的跟蹤算法,利用結構單元子空間的線性組合表示目標.字典D=[U,I]∈Rd×(m+d)由本征模板和部分微模板集合I組成.由于部分遮擋通常具有連續的空間分布,將字典D分成(R+1)個長度為m的組,d=Rm.D[v]∈Rd×m為D的第v組,顯然組內的原子之間是相互正交,且字典的第1個組D[1]=U是由目標模板經過奇異值分解得到的主成分組成.為c的第v組.字典D和稀疏表示c的分組分別為

Lu等[54]考慮候選目標的稀疏表示之間的相關性,在稀疏表示中引入了非局部自相似正則項(Non-local self-similarity regularized sparse coding,NLSSSC),利用最近鄰來編碼目標中的結構信息,提高了算法的判別力.Rd×n為n個候選目標,為字典,候選目標的稀疏表示為.對非局部自相似正則項附加范數約束得到NLSSSC的目標函數為

上述算法是基于子空間的結構信息,而文獻[55]則是利用像素級遮擋的連續空間分布,提出了基于結構稀疏學習的遮擋檢測跟蹤算法.候選目標中所有像素構成一組節點為V、邊為E的圖,邊存在于任意相鄰的兩個像素點之間.權重wml表示像素m和l之間的相關性,與其灰度值的相關性成正比,與其歐氏距離成反比.結構稀疏表示的目標函數為

其中,γ越大融合作用越大,wml作為融合權重懲罰使得高度相關的像素有較高的wml.上述模型引入松弛變量后采用近似擴展拉格朗日乘數法(Inexact augmented lagrange multiplier,IALM)求解.
利用候選目標稀疏表示之間的相關性的多任務稀疏表示跟蹤算法[56](Multi-task tracking,MTT)利用粒子空間位置的相關性產生的稀疏表示的相似性,對粒子的稀疏表示附加聯合稀疏性約束,即在每幀中盡可能使用較少的幾個相同原子來表示所有粒子,聯合稀疏性可以看作是全局的結構正則化,能夠同時作用于所有粒子.n個候選目標可由字典D線性表示:

其中,Z∈Rm×n為候選目標的稀疏表示中對應目標模板的系數T,E∈Rd×n為對應微模板的系數,C=[ZT,ET]∈R(m+d)×n為候選目標在當前字典下的稀疏表示.
Zhang等在多任務跟蹤算法的基礎上,考慮粒子之間的結構相關性和表示的空間平滑性,將候選目標之間的空間位置關系引入到目標函數中,從而將多任務跟蹤擴展到結構多任務跟蹤[57](Structured multi-task tracking,S-MTT).假定稀疏表示C是通過成對的相互作用而相關.利用這些局部結構先驗對粒子的表示附加空間平滑性,即同一幀中空間位置比較近的粒子應該具有相似的稀疏表示.定義對稱權重矩陣描述粒子i和的稀疏表示之間的相似性(分別為矩陣C的第i列和第列),其中,為粒子的中心坐標,i=1,2,···,n,為所有粒子之間距離的平均值.記為圖的度,L=A?W為圖的拉普拉斯,W表示圖中所有邊的權重.規范的圖平滑正則項為規范的稀疏表示中粒子間距離的加權和,每個距離項的權重反映了粒子之間相關性的強弱.圖正則項為,其中,為規范化的拉普拉斯矩陣.所以基于結構的粒子稀疏表示可以通過直接附加圖正則項獲得:

其中,q=1,p∈{1,2,∞}.λ1和λ2分別用于平衡局部結構正則項和全局結構正則項.當λ1=0時為多任務跟蹤算法,當λ1=0且p=1時為L1跟蹤算法.S-MTT的目標函數(10)由凸二次項和非平滑正則項組成,因此一般使用APG算法[58]求解.由于d?m,S-MTT和MTT算法的時間復雜度為 O(1/2),迭代次數為 O(1/2).
Hong等在多任務跟蹤的基礎上提出了多任務多視角聯合稀疏表示跟蹤算法[31].假定n個粒子每個由O個不同的特征表示,對于第o(o=1,2,···,O) 個特征,X(o)∈Rdo×n為n個特征向量組成的特征矩陣.第o個特征字典D(o)=[T(o),Ido]由m個目標特征T(o)∈Rdo×m和對應微模板Ido組成.通過多任務學習來獲得n個粒子的O個特征矩陣{X(1),X(2),···,X(O)}的稀疏表示{C(1),C(2),···,C(O)}.C(o)使得粒子在不同特征下具有不同的表示,每個特征下的稀疏表示的同一列為同一個樣本,因此同一個樣本在每個特征下的稀疏表示具有一定的相似性,所以能夠利用每個特征的獨立性并且獲得不同的統計特性.因此所有特征的稀疏表示可以水平方向堆疊起來分別構成矩陣P和Q,每一個由所有特征下的稀疏表示系數組成.對于P的行組使用組Lasso約束來獲得所有候選目標在所有特征上的共有特征,同樣的組Lasso約束作用于Q的列組來同時確定異常樣本.所以多任務多視角聯合稀疏表示的目標函數為

多任務跟蹤算法利用粒子之間的自相似性一定程度上提高了跟蹤性能,但是當候選目標采樣區域較大時粒子之間的差異較大,通過多任務學習強制所有粒子共享同樣的結構會降低跟蹤算法性能[59].即MTT跟蹤算法中利用粒子之間的相關性時沒有考慮粒子之間的差異性.所以魯棒多任務跟蹤算法[59]在求解稀疏表示時將稀疏表示系數矩陣分解成兩部分,考慮粒子的相似性對其中的一部分強加聯合稀疏正則項,考慮粒子之間的差異性對另外一部分按照元素附加稀疏正則項.魯棒多任務稀疏表示模型為

其中,候選目標的稀疏表示為C=P+Q,其中,為矩陣P的第i行.對P附加聯合稀疏正則項,對應共享的結構.對Q按照元素附加稀疏正則項,對應非共享的特征.聯合稀疏性利用了粒子的相似性而按照元素附加的稀疏約束考慮了粒子之間的差異性.當選擇合適的λ1使得P=0時,算法為L1跟蹤算法,當選擇合適的λ2使得Q=0,算法為MTT跟蹤算法.對于P附加組稀疏正則項,反映了粒子之間共享的共有結構,Q按照元素附加稀疏正則項反映了粒子之間的差異性,使得算法比L1跟蹤算法和MTT算法更加魯棒.上述模型可以基于加速梯度算法進行求解.
為了提高多任務稀疏表示跟蹤算法的求解速度,文獻[60]提出了基于范數的多任務梯度最小化跟蹤算法.實驗結果表明隨著字典中原子數量的增加,約束的重構誤差基本一致,但是約束下的稀疏表示的求解時間增加很快,約束下的稀疏表示的求解時間增加較慢.隨著稀疏性正則項約束參數的變大,約束下的重構誤差增加較快,約束下的重構誤差先下降后保持不變,耗時方面約束下的求解時間先下降后增加,約束下的先增加而后基本保持不變,但是約束下的耗時始終低于約束下的耗時.
由于稀疏表示本質上是線性模型,稀疏表示反映了候選目標和字典中原子之間的線性相關性,所以可以根據稀疏表示系數的大小即候選目標和字典中原子的相關性的大小來確定目標位置.Jia等提出了基于結構局部稀疏表觀模型的跟蹤算法[39?40],這里的結構實質上指將相同空間位置上的圖像塊的稀疏表示作為候選目標的特征,利用稀疏表示構建觀測模型.由于每個圖像塊的位置固定,因此所有的局部圖像塊聯合起來能夠表示目標完整的結構信息.
文獻[30]利用跟蹤中運動平滑性建立下一幀相同位置圖像塊與當前幀對應位置圖像塊的相關性.候選目標圖像塊特征與目標對應位置圖像塊特征之間的相關性使用部分置換矩陣Pk表示[30]:

其中,nk為目標模板的數量,n為候選目標的數量,k=1,2,···,K為單個目標中提取的圖像塊個數.式(13)三個約束項分別對應每個目標圖像塊對應候選樣本中的一個圖像塊、每個樣本圖像塊最多對應目標圖像中的一個圖像塊和運動平滑性.為上式優化后的部分置換矩陣,基于提取的特征F,則有,其中,是矩陣Pk的第i列,將第i個目標模板和視頻中對應圖像塊的特征堆疊起來構成低秩矩陣Di,理想情況下秩為1,考慮到噪聲和遮擋優化部分置換矩陣問題可以轉換為秩最小化問題:

上述模型中將秩使用矩陣的核范數代替,矩陣的零范數通過一范數代替后可以通過快速一階交替方向乘數法(Alternative direction method of multiplier,ADMM)求解.
Liu等將基于位置約束的稀疏表示和Meanshift結合提出了基于稀疏編碼直方圖的生成式算法[61?62].將候選目標中所有的圖像塊在字典上的稀疏表示按照與目標中心的距離使用核函數加權求和,歸一化后作為候選目標在字典上的稀疏編碼直方圖.將稀疏編碼直方圖與所有圖像塊的重構誤差進行乘性結合作為目標匹配的相似性度量函數,利用了目標與字典之間的相似性和目標與字典基分布之間的相似性,最后采用Mean-shift迭代得到目標的中心位置和尺度.相比粒子濾波框架下的稀疏表示跟蹤算法,將稀疏表示和均值漂移結合后經過幾次迭代就可以獲得目標的跟蹤位置,大大減少了稀疏表示的求解次數.
稀疏表示的過程可以看作是二次特征提取的過程,因此稀疏表示本身可以作為目標的特征,并且稀疏表示的特征更加線性可分.判別式模型根據目標匹配相似性度量函數的不同可以分為基于分類器響應的判別式算法[29,63]、基于稀疏表示差值的判別式算法[44]和多任務稀疏表示差值的判別式算法[64?65].
Wang等將稀疏表示和線性分類器結合提出了基于稀疏表示的判別式跟蹤算法[63],使用Logistic回歸來學習分類器,將分類器響應作為目標匹配的相似性度量.y為從候選目標中提取的圖像塊的SIFT特征,基于彈性網[66]的稀疏表示模型為

其中,λ2>0保證了上述優化問題是嚴格凸的.彈性網模型適用于字典中原子個數遠大于原子維數的情況[67].Lasso模型利用的原子個數最多等于原子維數,因此當字典中原子個數遠大于原子維數時使用Lasso模型是不合理的,而彈性網模型使得每個原子都可能被利用甚至所有的原子都能利用到.Lasso模型的正則項是凸的,而彈性網模型的正則項是嚴格凸的,能夠誘導出組效應[68].
Zhuang等[44]利用候選目標構建字典,求解目標模板和背景模板在字典下的稀疏表示,將樣本基于目標的稀疏表示和基于背景的稀疏表示做差值構建觀測模型.n個候選目標為,模板集合由目標模板和背景模板組成.為T中第i個模板基于X的稀疏表示,.由模板的重構系數向量構成矩陣,表示模板和候選目標之間的相似性.為了保持相似候選目標之間稀疏表示的相似性,引入Laplacian約束得到Laplacian多任務逆稀疏表示:

其中,L=A?B為Laplacian矩陣.B是二值矩陣表示兩個候選目標特征之間的相關性,如果位于的n0個最近鄰中,否則的度定義為,
Zhang等[65]基于時間上的連貫性而產生的目標稀疏表示之間的相似性,將目標跟蹤看作是連貫、稀疏和低秩問題.將候選目標表示成字典D的線性組合X=DZ,其中,Z=為對應候選目標在字典上的稀疏表示.字典D=[Tpos,Tneg]由目標模板Tpos和背景模板Tneg組成.由于目標的表觀模型在短時間內不會發生較大變化,因此利用時間連貫性跟蹤問題可以表示為

其中,||Z||?表示矩陣的核范數,Z0的每列均為之前跟蹤結果的稀疏表示.||Z||1,1對于遮擋和噪聲具有較好的魯棒性.||Z?Z0||2,1產生(Z?Z0)列水平上的稀疏性,使得大多數候選目標的稀疏表示與之前跟蹤結果的稀疏表示相似,同時允許少量候選目標的稀疏表示與之前跟蹤結果的稀疏表示不同.||E||1,1確保模型對于稀疏重構誤差的魯棒性,E的值和列的支撐是包含有信息的,當E的值較大但為稀疏的列支撐時表示候選目標中存在遮擋,當E的值較大但為非稀疏的列支撐時,表示候選目標中包含較多背景信息.
在式(17)中當λ1=λ3=0時,算法為稀疏跟蹤算法(Sparse tracker,ST),與L1跟蹤算法相似.當λ2=λ3=0時,算法為低秩跟蹤算法(Low rank tracker,LRT),低秩性利用了候選目標之間的相關性.當且λ3=0時,算法為低秩稀疏跟蹤算法[64](Low rank sparse tracker,LRST),LRST算法同時利用了候選目標表示的稀疏性和低秩性.當時,算法為連貫低秩稀疏跟蹤算法(Consistent low rank sparse tracker,CLRST),CLRST算法將LRST算法使用時間連貫性進行了推廣.引入等式約束和松弛變量將問題轉換后可以將式(17)通過近似擴展拉格朗日乘數法求解.
多任務跟蹤算法MTT和連貫低秩稀疏跟蹤算法CLRST都利用了候選目標之間的結構信息,但是這種結構的假設是不同的.MTT中通過使用||Z||2,1約束使得候選目標由幾個相同的原子表示,使得Z的所有列彼此相似,間接地使表示矩陣Z的秩為1.CLRST算法將跟蹤置于低秩學習框架中約束目標的表示位于低維子空間內,而不要求候選目標使用同樣的原子表示,CLRST算法假定表示矩陣Z的秩較低(為1或大于1).MTT算法利用的是候選目標之間的空間相關性產生的稀疏表示的相似性,而CLRST算法則是利用時間上的相關性產生的稀疏表示的相似性.
Zhong等[41?42]將基于重構誤差的判別式模型和基于稀疏編碼直方圖的生成式模型進行乘性結合提出了基于稀疏表示的混合式跟蹤算法.候選目標基于目標模板的稀疏重構誤差為,基于背景模板的稀疏重構誤差為,構建的判別式模型的置信度為. 基于稀疏性的生成式模型為候選目標中所有圖像塊基于目標字典的稀疏表示按照空間位置依次連接起來構成的稀疏編碼直方圖,并利用重構誤差閾值將被遮擋圖像塊的稀疏表示置0,去除遮擋后的稀疏編碼直方圖為ρ,使用直方圖交叉函數來計算候選目標ρ和模板ρ0之間的相似性.基于稀疏性的混合式模型為

其中,H給予正樣本較高的權重,因此H可以看作是F的權重.對于較難區分的目標,H≈1,此時F起主要作用,因此在混合式模型中生成式模型起著更為重要的作用.實驗結果表明[41?42]大多數情況下混合式模型優于單個的判別式模型和生成式模型.主要原因是判別式模型主要用來區分目標和背景,不能夠有效處理遮擋,而基于局部特征的生成式模型能夠有效處理遮擋,而單獨的生成式模型不能夠有效處理復雜背景.混合式模型集成了二者的優點使得算法的魯棒性較好.
基于稀疏表示的跟蹤算法按照算法模型的不同更新的方案也不同.生成式模型中字典的組成不同,字典的在線更新方案也不盡相同.對于由目標模板構建的字典,L1跟蹤算法是通過計算跟蹤結果與字典中原子的相似度通過設定閾值來對原子進行更新[24].由于跟蹤結果的正確與否不得而知,因此一旦將錯誤的跟蹤結果更新到字典中,會導致模型退化.Zhang等[32]將字典中的模板分為固定模板、穩定模板和變化模板.其中固定模板為第一幀中在人工標定的基礎上提取的目標模板,固定模板在跟蹤過程中保持不變.固定模板和穩定模板主要用來阻止漂移,穩定模板用來抓住跟蹤過程中目標的穩定特征,變化模板用來對目標的變化作出響應,三種模板以不同的方式進行更新.對于由PCA構建的字典,則可以使用增量子空間學習算法實現PCA的在線更新[69],也可將其應用于字典中模板的在線更新[39?40].文獻[70]將一階馬爾科夫鏈用于字典中原子的更新.
判別式模型的更新主要是在跟蹤結果的基礎上提取正負樣本對分類器進行在線更新.由于跟蹤結果的正確與否是不可知的,因此在跟蹤結果的基礎上采集樣本的真實屬性也是未知的,所以分類器的更新過程更多的是半監督訓練和非監督訓練過程.Wang等[29]將候選目標在初始分類器和新分類器上的響應加權作為候選目標的分類器響應,由于初始分類器是通過監督訓練得到的,可以一定程度上減輕分類器更新中的漂移.
基于稀疏表示的視頻目標跟蹤的算法復雜度較高[21],對于字典D∈Rm×n,粒子數量為N,基于Lasso的稀疏表示求解的算法時間復雜度為O(Nm2n3/2),因此一般通過以下三種方法提高算法速度:1)減少有效候選目標的數量;2)降低字典的維數;3)提高每次稀疏表示的求解速度.
減少有效候選目標的數量的目的是為了減少稀疏表示的求解次數,粒子濾波框架下傳統算法的稀疏表示求解次數等于粒子的個數.為了減少每次跟蹤過程中1范數最小化的求解次數,Mei等引入最小平方誤差界,在計算稀疏表示之前通過線性最小平方重構誤差剔除大量的非重要粒子,從而減少了稀疏表示的計算次數[34].文獻[44?45]利用候選目標構建字典,將跟蹤問題看作識別問題,僅需要求解幾個目標模板在由候選目標組成的字典上的稀疏表示,大大減少了稀疏表示的計算次數.
由于稀疏表示求解的算法復雜度與字典的維數成正比,因此可以通過降低字典維數來提高算法求解速度.降低字典維數可以通過以下兩種方法實現:1)降低原子的維數;2)減少字典中原子的個數.文獻[32]利用協方差矩陣在實現特征融合的同時降低了特征的維數.由于目標模板中通常包括一些非線性的背景特征,Liu等[38]通過樣本標簽分布學習,利用稀疏模型建立正負樣本和標簽之間的映射關系,通過判別式特征選擇目標模板中包含的背景特征被剔除,選擇更具有判別力的特征實現特征降維.Li等[43]利用滿足約束等距性的測量矩陣同時作用于字典和候選目標的特征實現降維.基于樣本標簽學習的特征選擇方法降維和基于約束等距性的特征降維雖然形式一樣,都是將高維特征降維至低維空間,但二者有本質的區別.基于標簽學習的特征選擇降維方法是從高維特征空間中選擇更具判別力的特征實現降維.而基于約束等距性的特征降維是利用滿足約束等距性的哈希矩陣將高維特征降維至低維空間,在降維過程中保持了原始高維數據的空間結構.
為了在跟蹤魯棒性和算法速度之間做出折中,很多算法不得不采用低維數的字典,而低維特征下難以對目標進行精確描述.對于基于稀疏表示的判別式跟蹤算法而言,低維字典嚴重限制了稀疏表示的判別力,降低了目標和背景的可分性.文獻[71]提出了基于乘積稀疏表示的支持向量跟蹤算法,將原始稀疏編碼問題分解為兩個較小子字典上的稀疏編碼問題,不僅使得等效字典中原子個數大大增加,使得目標能夠獲得更高維的稀疏表示,而且降低了稀疏性求解過程的計算量,使得目標和背景在高維的稀疏表示下更加線性可分,提高了跟蹤算法的魯棒性.
L1跟蹤算法字典中加入微模板是為了處理遮擋和噪聲等異常,Yan等[50]將字典中微模板去除,從重構誤差的概率分布出發提出了加權Lasso模型,使算法模型適用于更為一般的噪聲.另外基于局部特征構建的字典本身對于遮擋具有一定的魯棒性也不需要微模板.同時利用目標和背景構建的字典中也不包括微模板.
提高每次1范數最小化的計算速度,Bao等將加速最近梯度算法[35]引入到稀疏模型求解中,加速最近梯度算法的有效性在于它的二次收斂性.Li等[43]使用正交匹配追蹤算法求解稀疏表示,顯然要比L1跟蹤算法中的內點法[72]速度要快得多.
如表1所示,自2013年以來出現了多個視頻目標跟蹤算法評估的基準數據庫[7,22,73?76].其中VOT2013[73]、OTB50[7]、VOT2014[77]和OTB100[22]為GT(Groundtruth)全標注的基準數據庫.PTB中為附帶景深的RGB-D圖像[74],受到景深探測器景深探測范圍的限制,無法獲取大景深的視頻,公開的視頻數據中只給出5個視頻的GT,并且當目標被全遮擋時GT的標注為空,需要在線提交跟蹤結果進行評估.ALOV++中按照影響視頻目標跟蹤的因素將視頻分成13類,GT是每隔5幀標注一次[75].NUS-PRO中將視頻分成5類:人臉視頻、行人視頻、運動員視頻、剛體視頻和長視頻,每類視頻又分成不同的子類,所有圖像大小均為1280×720,沒有公開GT,需要在線提交跟蹤結果進行評估[76].
不同于目標檢測、圖像分類等計算機視覺領域,目前為止視頻目標跟蹤還沒有統一的評估標準[78?80].

表1 視頻跟蹤評估基準數據Table 1 Summary of some visual tracking evaluation benchmark datasets
中心誤差[78](Center error in pixel,CE)定義為算法標定的目標中心和人工標定的目標中心之間的歐氏距離(像素).由于中心誤差不能反映目標的尺度變化,因此后續提出了標準化的中心誤差,即將中心誤差除以目標的大小.雖然標準化中心誤差一定程度上能夠反映目標的尺度變化,但是中心誤差的大小會隨著目標大小成比例的變化,并且跟蹤失敗后中心誤差可能是隨機產生的任意值,并不能反映算法的真實性能.
基于PASCAL VOC中目標檢測的評估標準[81],算法重疊率(Overlap rate,OR)能夠同時較好地反應算法的跟蹤位置和目標尺度,且重疊率的值有界.基于重疊率閾值的跟蹤成功率(Success rate,SR)定義為重疊率大于閾值的比例.
由于不同的跟蹤任務對于跟蹤精度的要求不同,Wu等[7]提出了精度曲線和成功曲線.精度曲線[7](Precision plot)是指算法中心誤差小于中心誤差閾值的比例隨中心誤差閾值的變化情況,通常選擇中心誤差閾值為20像素時的值作為算法的跟蹤精度.成功曲線[7](Success plot)是指跟蹤成功率隨重疊率閾值的變化情況.通常選擇重疊率閾值[81]為0.5,但是由于跟蹤精度的要求不同選擇重疊率閾值為0.5不具有代表性,Wu等[7]利用成功曲線下的面積(Success rate area under curve,SR-AUC)作為算法評估的依據.當重疊率閾值選擇的足夠多時,算法的SR-AUC值等于在所有實驗視頻上重疊率的均值[78].
傳統的評估方法是對算法在整個視頻上運行一次的跟蹤結果進行評估,這里稱之為單次通過評估OPE(One-pass evaluation).但有些算法對于初始化(初始位置和初始幀)非常敏感,不同的初始化導致跟蹤結果的差別很大,并且很多算法跟蹤失敗后沒有重新初始化,導致失敗后的跟蹤結果往往是隨機的,沒有太大的參考價值.所以文獻[7]提出了算法初始化魯棒性評估標準:時間魯棒性評估(Temporal robustness evaluation,TRE)和空間魯棒性評估(Spatial robustness evaluation,SRE).
時間魯棒性評估是指從不同的初始幀開始將跟蹤算法進行多次評估,將多次評估的結果進行平均得到TRE.
空間魯棒性評估是通過移動初始幀GT的位置,縮放GT窗口的大小來評估算法對初始化誤差的敏感性.移動GT的位置是將目標的中心位置向上、下、左、右、左上、右上、左下、右下分別移動對應維度的10%,其中向上下左右移動時,GT的尺度不變;向左上、右上、左下、右下移動時寬度和高度分別增加對應維度的10%.縮放GT窗口是指GT的中心位置不變,將GT的寬度和高度分別變為原來寬度和高度的80%、90%、110%、120%.空間魯棒性評估是上述12個評估的均值.文獻[7]的實驗結果表明同一算法的平均TRE一般高于OPE,這主要是由于跟蹤算法一般在較短的視頻上的跟蹤效果較好,這也說明誤差累積產生的漂移是導致跟蹤失敗的重要原因.平均的SRE一般低于OPE,這主要是由于SRE中不精確的初始化導致后續跟蹤漂移較快,這也說明了目標精確初始化的重要性.
由于跟蹤失敗之后算法跟蹤結果往往是隨機產生的,導致失敗后的跟蹤結果沒有太大的參考價值,并且沒有人為干預時算法一般很難再跟蹤上目標.等價于算法的評估過程中僅使用了視頻的一部分,并沒有充分利用整個視頻數據.并且一個視頻中可能包含多個挑戰因素,算法可能對于視頻中的某個因素是魯棒的,而對于另外的因素是不魯棒的.因此VOT2014中提出了新的魯棒性評估標準[77].在跟蹤過程中當重疊率小于閾值時對目標進行重新初始化,將重新初始化的次數作為算法魯棒性的評估標準,重新初始化的次數越少說明算法的魯棒性越好,反之說明算法的魯棒性越差.但是由于實際跟蹤中導致跟蹤失敗的原因可能是多個因素共同作用的結果,上述方法難以對單一挑戰因素進行有效剝離.
處理速度是視頻目標跟蹤算法需要考慮的重要因素,按照實時性的要求算法處理速度需要達到每秒20幀以上,即單幀處理時間小于50ms.由于視頻圖像的分辨率不同,跟蹤目標區域的大小不同,以及算法實現環境不同,這些都會影響到算法的處理速度,因此算法的實時性評估需要綜合考慮多方面因素.
由上述分析可知,盡管目前跟蹤算法的評估標準較多,但是核心的評估標準還是基于GT的中心誤差和重疊率.因此本文主要選取中心誤差和重疊率的均值和標準差、跟蹤成功曲線、跟蹤精度曲線、跟蹤成功率和算法單幀平均處理時間作為評估標準.
將現有公開代碼的基于稀疏表示的跟蹤算法總結如表2所示.實驗在Intel(R)Core(TM)i7-3770CPU@3.40GHz,內存16.0GB的64位計算機上通過Matlab(R2014a)軟件實現.測試視頻為OTB50上的50個視頻[7],共計29507幀.實驗中算法均采用相同的初始位置,算法中的參數均采用源代碼中的默認參數.算法中如果涉及粒子濾波框架下的仿射變換模型,則采用相同的仿射變換標準差和粒子個數.為了獲得客觀的比較結果,將算法在測試視頻上的5次實驗結果的平均值作為最終的實驗結果.需要指出的是由于實驗中目標的初始位置、參數設置、粒子個數、實現環境和硬件平臺等與相關文獻中可能有所不同,以及算法本身含有的某些隨機因素,某些實驗結果和算法速度與相關文獻中給出的結果有出入,但是從大量實驗結果的比較中得出的算法總體性能與相關文獻一致.
上述基于稀疏表示的跟蹤算法在OTB50上的跟蹤精度[7]隨中心誤差閾值的變化曲線如圖4所示,其中右下角為對應算法在中心誤差閾值為20像素時的跟蹤精度,MDNet為文獻[82]提出算法,DLSSVM 為文獻[83]提出算法,CFNet-conv5為文獻[84]提出算法.
上述基于稀疏表示的跟蹤算法在OTB50上的跟蹤成功率隨重疊率閾值的變化曲線[7]如圖5所示,其中右上角為對應算法成功率曲線下的面積.
當跟蹤成功率的重疊率閾值設為0.5時[81],上述算法在OTB50上的跟蹤成功率如表3所示.
表4給出上述基于稀疏表示的視頻目標跟蹤算法在OTB50上的單幀平均處理時間,其中實現環境中“M”表示使用Matlab編程實現,“MC”表示使用Matlab和C/C++ 混合編程實現,“E”表示使用可執行的二值代碼實現.從表4中可以看出,目前Matlab環境下大多數基于稀疏表示的視頻目標跟蹤算法還難以實現實時跟蹤.這主要是由于此類算法大多是在粒子濾波框架下進行,粒子數量是直接影響算法速度的主要因素,另外稀疏表示求解的算法時間復雜度較高也是影響算法速度的重要原因.
表2 算法簡稱和論文代碼地址Table 2 The sparse trackers abbreviation,paper and codes URL

表2 算法簡稱和論文代碼地址Table 2 The sparse trackers abbreviation,paper and codes URL
算法論文題目和代碼地址Robust visual tracking using l1 mimization.In ICCV,2009.http://www.dabi.temple.edu/~hbling/publication-selected.htm LSK Robust tracking using local sparse appearance model and k-selection.In CVPR,2011.http://www.uky.edu/~lya227/spt.html L1APG Real time robust l1 tracker using accelerated proximal gradient approach.In CVPR,2012.http://www.dabi.temple.edu/~hbling/publication-selected.htm ASLA Visual tracking via adaptive structural local sparse appearance model.In CVPR,2012.http://ice.dlut.edu.cn/lu/publications.html SCM Robust object tracking via sparsity-based collaborative model.In CVPR,2012.http://ice.dlut.edu.cn/lu/publications.html MTT Robust visual tracking via multi-task sparse learning.In CVPR,2012.http://faculty.ucmerced.edu/mhyang/pubs.html LRT Low-rank sparse learning for robust visual tracking.In ECCV,2012.http://faculty.ucmerced.edu/mhyang/pubs.html CT Real-time compressive tracking.In ECCV,2012.http://www4.comp.polyu.edu.hk/~cslzhang/papers.htm DLSR Online discriminative object tracking with local sparse representation.In WACV,2012.http://faculty.ucmerced.edu/mhyang/pubs.html SRPCA Online object tracking with sparse prototypes.In TIP,2013.http://ice.dlut.edu.cn/lu/publications.html DSSM Visual trcking via discriminative sparse similiarity map.In TIP,2014.http://ice.dlut.edu.cn/lu/publications.html SST Structural sparse tracking.In CVPR,2015.http://nlpr-web.ia.ac.cn/mmc/homepage/tzzhang/index.html CST In defense of sparse tracking:Circulant sparse tracker.In CVPR,2016 http://nlpr-web.ia.ac.cn/mmc/homepage/tzzhang/index.html L1
表3 算法跟蹤成功率(%)比較Table 3 The trackers success rate(%)comparison

表3 算法跟蹤成功率(%)比較Table 3 The trackers success rate(%)comparison
算法 ASLA SCM CST SST LRT LSK MTT DSSM CT L1APG L1 DLSR SRPCA成功率 70.69 68.96 68.20 59.30 59.02 56.09 54.98 45.80 42.29 41.61 35.56 34.22 25.83
表4 算法單幀平均處理時間比較(ms)Table 4 The comparison of trackers average processing time(ms)

表4 算法單幀平均處理時間比較(ms)Table 4 The comparison of trackers average processing time(ms)
算法 ASLA SCM CST SST LRT LSK MTT DSSM CT L1APG L1 DLSR SRPCA實現環境 MC MC M M M ME M M MC MC MC MC MC時間 241 7846 454 450 3152 382 2279 586 12 79 397 23030 249

圖4 算法跟蹤精度隨中心誤差閾值的變化曲線Fig.4 The trackers tracking precision versus center error threshold
表5給出上述基于稀疏表示的跟蹤算法的模型組成和其在OTB50上的重疊率的統計特征比較.
從上述實驗結果和算法模型的分析比較可以看出,特征字典上大多數算法直接使用灰度特征構建字典,從算法重疊率的比較可以看出基于局部灰度特征構建的字典明顯優于基于全局灰度構建的字典,這主要是由于局部圖像塊對于遮擋和局部表觀變化具有一定的魯棒性,所有圖像塊組合起來又能夠表示目標完整的結構信息,而全局灰度特征顯然不具有上述優勢.
運動模型上仿射運動能夠精確描述目標的尺度變化和旋轉,所以大多數基于稀疏表示的跟蹤算法采用仿射運動模型.搜索方案上粒子濾波和稠密采樣能夠有效避免陷入局部最優但計算量較大,直接表現為算法的單幀處理時間較高,均值漂移效率較高但是容易陷入局部最優,導致跟蹤性能下降.

圖5 算法跟蹤成功率隨重疊率閾值的變化曲線Fig.5 The trackers success rate versus overlap rate threshold
從重疊率的統計特征比較可以看出ASLA算法和SCM 算法取得了較好的跟蹤性能,遠高于其他基于稀疏表示的跟蹤算法.并且文獻[7]的實驗結果表明,與其他非稀疏表示跟蹤算法的橫向比較中,ASLA算法和SCM算法的跟蹤性能也較為優異.這主要是由于ASLA算法和SCM算法均采用了結構化的分塊稀疏表示機制,同時利用了目標的局部表觀和空間結構信息.因此在稀疏表示跟蹤算法中分塊稀疏表示和空間結構信息對于魯棒視頻目標跟蹤是至關重要的.
伴隨著稀疏表示理論的不斷發展,基于稀疏表示的視頻目標跟蹤研究也取得了較大進展.但是對于復雜環境下的持續魯棒跟蹤問題,仍然存在一些亟待解決的問題.在上述研究的基礎上,作者認為以下幾個方面是值得繼續研究的方向.
表5 基于稀疏表示的視頻跟蹤算法模型和重疊率比較Table 5 The comparison of the sparse representation-based trackers model and overlap rate mean and std

表5 基于稀疏表示的視頻跟蹤算法模型和重疊率比較Table 5 The comparison of the sparse representation-based trackers model and overlap rate mean and std
算法簡稱 特征字典 運動模型 搜索方案 匹配模式 模型更新 重疊率均值 重疊率標準差ASLA 局部灰度 仿射運動 粒子濾波 生成式 增量學習 0.5860 0.3225 SCM 局部灰度 仿射運動 粒子濾波 混合式 模板替換 0.5562 0.3436 CST HOG 仿射運動 粒子濾波 生成式 模板替換 0.5480 0.3063 LRT 全局灰度 仿射運動 粒子濾波 判別式 模板替換 0.4841 0.3247 SST 局部灰度 仿射運動 粒子濾波 生成式 模板替換 0.4840 0.3187 LSK 局部灰度 相似性變換 均值漂移 生成式 加權更新 0.4801 0.3379 MTT 全局灰度 仿射運動 粒子濾波 生成式 模板替換 0.4623 0.3411 CT 擴展類haar 平移運動 稠密采樣 判別式 Bayes更新 0.3909 0.2850 DSSM 全局灰度 仿射運動 粒子濾波 判別式 模板替換 0.3818 0.3520 L1APG 全局灰度 仿射運動 粒子濾波 生成式 模板替換 0.3660 0.3565 DLSR 局部灰度 仿射運動 粒子濾波 判別式 SVM更新 0.3116 0.3414 L1 全局灰度 仿射運動 粒子濾波 生成式 模板替換 0.3068 0.3687 SRPCA 全局PCA 仿射運動 粒子濾波 生成式 增量學習 0.2412 0.3321
1)上述稀疏表示模型中的正則項只考慮了信號的稀疏性,沒有考慮圖像本身的特性[85].圖像作為二維信號,具有很強的空間相關性,表現為局部光滑特性.因此針對圖像的重構,基于圖像離散梯度稀疏性的最小全變分模型更適合二維圖像重構,且重構結果精確魯棒.所以最小全變分模型框架下的稀疏表示跟蹤算法是重要的研究方向.
2)由于基于稀疏表示的視頻跟蹤中字典和目標特征是不斷變化的,也就是構成子空間的支撐集和待重構信號是不斷變化的,因此基于稀疏表示的跟蹤算法本質上是動態稀疏表示問題[86],也就是目標特征是具有動態特性的時變稀疏信號.而上述模型中為了研究問題的方便均將其看做靜態稀疏信號的重構問題,所以動態稀疏表示下的跟蹤算法也是值得研究的重要問題.
3)由上述研究現狀可以看出稀疏表示跟蹤算法仍然難以實現實時跟蹤,除了算法優化外,研究新的域下的稀疏表示的快速求解[87?88]是提高算法速度的關鍵,也是面向實際應用的重要問題.
4)目前稀疏表示跟蹤算法的字典構建主要是人工設計完成,基于學習的字典構建方法還比較少.深度學習在視頻目標跟蹤中展現出的強大優勢[82,84],尤其是在對目標特征提取和表示方面,因此基于深度學習的字典構建方案也是提高稀疏表示跟蹤算法魯棒性的重要方向.