王 琳, 陳志國, 傅 毅,2
(1.江南大學 物聯網工程學院,江蘇 無錫 214122;2.無錫環境科學與工程研究中心,江蘇 無錫 214153)
近幾年,伴隨著稀疏表示在人臉識別[1]、圖像恢復[2]和視覺跟蹤[3,4]等領域的廣泛應用,目標跟蹤得到快速發展,并成為國內外熱門研究課題[5~7]。在目標跟蹤中利用稀疏表示求得線性表示系數后,根據重構誤差最小確定最終的跟蹤目標。研究人員提出了很多基于稀疏表示的生成模型跟蹤算法[5,8]。Mei X等人[9]最早將稀疏表示引入到跟蹤中,同時利用目標模板表示未遮擋部分和瑣碎模板處理遮擋和噪聲帶來的問題,在一定程度上取得了很大的成功,但求解l1規范稀疏方程的計算量大?;谖墨I[9],Bao C等人[10]通過近端加速算法求解l1最小化問題來提高計算效率;Zhang T等人[11]提出了基于多任務聯合稀疏模型的跟蹤算法,利用l2,1規范解決求解l1規范稀疏方程計算量大的問題,并通過考慮粒子間的潛在關系提升跟蹤的準確性;Jia X等人[12]將局部稀疏表示模型應用到跟蹤中,該方法利用一系列的重疊圖像塊來表示目標區域的特殊空間布局結構,并通過實時更新模板,處理跟蹤中的遮擋問題。
本文通過預先將每幀圖像調整到固定尺寸,處理由于目標的快速運動所引起的模糊情況,并采用重疊分塊構建結構稀疏的外觀模型;利用l2,1規范最小二乘求解各圖像塊對應的稀疏編碼系數,并利用對齊池算法提取多任務結構稀疏表示系數信息,判斷候選樣本與目標相似性。
基于粒子濾波的目標跟蹤算法用變換參數控制跟蹤中的搜索區域,如果跟蹤區域很小,當目標發生快速運動時,算法很可能丟失目標。相反,如果跟蹤區域很大,受到背景的干擾,算法易發生漂移。由于不同的視頻圖像的分辨率不同,利用絕對數量的像素作為單位來設置參數會得到不同的搜索區域。因此,本文提出根據視頻的分辨率按比例調整參數,將視頻圖像重新調整為固定的尺寸。
給定由N個目標模板組成的字典集T=[T1,T2,…,TN]∈Rd×N,將T中的每個模板進行分塊處理,塊數為K,相鄰的塊之間部分面積是重疊的,所有分塊的組合構成一個包含N×K個模板的字典集D=[d1,d2,…,d(N×K)]∈Rd×(N×K)。同樣,對n個候選樣本X=[X1,X2,…,Xn]∈Rd×n進行重疊分塊處理,每個分塊對應一個新的樣本,一個候選樣本分塊后為X1=[x1,x2,…,xK]∈Rd×K,每個候選樣本的所有分塊組成一個新的候選樣本X=[x1,x2,…,xn×K]∈Rd×(n×K)。利用所有模板局部塊線性組合編碼所有候選樣本區域的局部塊,可得相應n×K個稀疏系數向量c1,c2,…,cn×K
(1)
式中C=[c1,c2,…,cn×K]為由各候選樣本局部塊的稀疏系數向量組成的對齊池;ci為對應于第i塊的稀疏編碼系數,含有N×K個元素。
在獲得對齊池C之后,需要提取C中與目標相關的稀疏系數信息,進而判斷候選樣本與目標的相似性。如果候選樣本與目標相似,那么其分模板對應的稀疏系數值將較大,其余分模板的值將較?。幌喾?,稀疏系數值將不會集中在其對應的分模板上,而是分散到每個分模板。因此,候選樣本對應的稀疏系數越大,成為最終跟蹤結果的可能性越高。選取一個候選樣本介紹提取結構稀疏表示系數信息的過程。C1=[c1,c2,…,cK]∈R(N×K)×K為候選樣本X1=[x1,x2,…,xK]∈Rd×K的稀疏編碼系數。
(2)
式中wi對應第i個分塊,Γ為歸一化項。
將Y1所有的局部塊組合在一起以表示目標的整體結構,則各局部塊對應的稀疏系數累加結果集為W=[w1,w2,…,wK]∈RK×K。如果候選樣本與目標相似,那么W對角線上的值將較大;反之,則W中各元素沒有規律。圖1為對齊池中稀疏系數的提取過程。
圖1 稀疏系數信息的提取過程
提取矩陣W對角線上的元素作為結構稀疏表示的系數信息f=diag(W)。
方程右邊的部分根據提取的稀疏系數f,描述候選樣本與目標的相似度。
實驗中的測試視頻和實驗參數的設置固定不變,用于測試的視頻由標準數據集Benchmark提供。實驗是基于MATLAB R2013a平臺,硬件配置為Intel Core i3 2.10 GHz,內存為2 GB的PC。粒子采樣過程中的6個變換仿射參數設為[4,4,0.005,0.0,0.005,0]T。粒子濾波中粒子的數目決定了跟蹤的效果,為保證跟蹤準確性的同時降低計算復雜度,本文粒子數n=400,目標模板的個數N=20。l2,1優化算法中稀疏性限制參數λ=0.01,η=0.01,迭代次數Iter=5。將目標圖片調整為固定大小寬240、高320,重疊分塊數為9。
本文算法在多任務跟蹤(multi-task tracking,MTT)算法的基礎上,融合帶有重疊分塊的結構稀疏表示和調整圖像大小的改進算法。
實驗1通過對比本文算法多任務視覺跟蹤(multi-task visual tracking,MTVT)和MTVT-resize得出的實驗結果,驗證按比例將圖像調整到固定大小在處理目標快速運動時的效果。圖2為在Benchmark上得到的對應于快速運動因素的成功率和精度的比較結果,可見,未調整圖像大小的MTVT-resize算法,取得的曲線下的面積(area under curve,AUC)值為23.7 %。采用調整圖像大小之后結果提升到27.4 %。在精度圖中,MTVT的值為32.4 %,去掉調整圖像大小后,值降為28.1 %。實驗1說明按比例將圖片調整到固定大小,能夠有效地處理視頻中目標的快速運動。
圖2 調整圖片大小對于快速運動的跟蹤結果
實驗2通過9個具有挑戰性視頻序列:car4,shaking,faceocc1,coke,boy,suv,freeman3,jogging —2和singer1,驗證本文提出的MTVT算法的性能。測試視頻中包含由于形態變化、光照、尺度和遮擋等因素引起的目標外觀變化,給跟蹤帶來較大的困難。為了評估本文算法的性能,將本文算法MTVT與其他4種比較先進的算法進行比較,算法包括:增量學習視覺跟蹤(incremental learning visual tracking,IVT)[4]、使用加速近端梯度的L1跟蹤器(Li tracker using accelerated proximal gradient,L1APG)[10]、多實例學習(multiple instance learning,MIL)[3]和MTT[11]。上述跟蹤算法的代碼由Benchmark提供,且所有的跟蹤結果可以通過相應網站獲得。表1為5種跟蹤算法在9個視頻序列上跟蹤的平均中心位置誤差,其中,最好的結果用粗體字體標出,次好的結果用斜體字體標出,由表可知,在視頻car4中,增量視覺跟蹤(incremental visual tracking,IVT)算法獲得了最好的效果,而MTVT的結果與其相近,同時,在其他8個視頻中MTVT都取得了最小的平均中心位置誤差。MTVT也取得了最好的平均值9.3,算法MIL取得了第二好的結果53.7,但遠超于MTVT。
表1 跟蹤的平均中心位置誤差
表2為5種跟蹤算法在9個視頻序列上跟蹤的平均覆蓋率,其中,最好的結果用粗體字體標出,次好結果用斜體字體標出,可見,MTVT在視頻shaking,faceocc1,boy,suv,freeman3,jogging —2和singer1中取得最大覆蓋率,平均覆蓋率為72 %。算法IVT在視頻car4中取得了最好的結果,算法MTT在視頻coke中取得了最好的結果,MTVT均為第二。
表2 跟蹤的平均覆蓋率
圖3為Benchmark上得到的5種算法在51個具有挑戰性的標準視頻集上的成功率和精度的比較結果。從圖3(a)可以看出,和其他的4種算法相比本文的MTVT算法獲得了最好的實驗結果。在圖3(b)中MTT的結果為47.5 %,MTVT較其高2 %,獲得第二好的成績。算法L1APG和MTT,在圖3中的結果分別為38 %,48.8 %和37.6 %,47.5 %。MTVT在圖3中的結果分別為38.2 %(第一)和49.5 %(第二),均高于L1APG和MTT,表明本文提出的算法在一定程度上提高了跟蹤的準確性,同時保證了跟蹤的精度。
圖3 各跟蹤算法的成功率和精度
實驗結果表明:提出的目標跟蹤算法具有更強魯棒性和更高的準確性。