融合顏色特征的核相關濾波器目標長期跟蹤算法①

2018-05-04 06:33:24柯俊敏蔡堅勇歐陽樂峰郭升挺

計算機系統應用 2018年4期

關鍵詞：特征檢測模型

柯俊敏, 洪親,2,3, 蔡堅勇,2,3, 李楠, 歐陽樂峰, 郭升挺

1(福建師范大學光電與信息工程學院,福州 350007)

2(福建師范大學醫學光電科學與技術教育部重點實驗室,福州 350007)

3(福建師范大學福建省先進光電傳感與智能信息應用工程技術研究中心,福州 350007)

1 引言

目標跟蹤在安防監控、人機交互乃至AI系統中發揮著重要作用. 然而跟蹤算法的性能受到了眾多問題的限制,導致如今仍然不存在單一的方法能夠同時處理所有問題[1]. 跟蹤中算法應對的挑戰因素有尺度變化、快速運動、低分辨率等. 近年來較為前沿的目標跟蹤算法依據原理主要分為兩類：生成模型和判決模型[2]. 生成式跟蹤方法是通過計算機視覺的目標表示方法對目標建模,搜索與目標外觀模型最相似的區域. 增量視覺跟蹤算法(Incremental Visual Tracking,IVT)[3]雖然通過少量樣本來學習目標的外觀模型,但遇到遮擋因素就會影響目標的外觀. 基于多任務稀疏學習的魯棒性目標跟蹤算法(Robust Visual Tracking via Multi-Task Sparse Learning,MTT)[4]利用APG原理保證快速收斂,提高了跟蹤速度,但跟蹤精度不高. 分布式跟蹤場(Distribution Fields for Tracking,DFT)[5]算法在目標表示中引入模糊性,克服了形變和光照變化的影響,但跟蹤速度有待提高. 生成式方法所帶的信息豐富,但不能充分地利用背景信息,魯棒性不高. 而且由于其復雜外觀模型,跟蹤非常耗時. 判別式跟蹤算法則將跟蹤問題看作一個二分類問題,對分類器進行訓練,將目標與背景進行分離. 與上述生成式方法相比,其能充分利用目標和背景信息,準確率更高,但不能反映自身特性.比較主流算法有基于核化的結構化輸出(Structured Output Tracking with Kernel,Struck)[6]算法、壓縮感知(Compressive Tracking,CT)[7]算法等,這些算法為了實時跟蹤,通常選取的樣本有限. 而基于相關濾波器的目標跟蹤算法由于高效率、高精度引起關注. 例如,Henriques等人提出循環結構跟蹤器(Circulant Structure of Tracking,CSK)[8]通過循環移位進行稠密采樣,獲得目標包含的信息,并且在檢測過程中采用循環移位構造大量候選圖像塊,然后結合快速傅立葉變換進行分類器訓練. Danelljan等[9]在CSK基礎上引入了顏色屬性特征,為了提高效率,對特征向量采用降維技術. 后來,核相關濾波目標跟蹤算法(Kernelized Correlation Filters,KCF)[10]被提出,它是利用多通道的HOG特征來替代了單通灰度特征,并且使用核函數的方式對多通道HOG特征進行融合,加強分類器魯棒性,但在目標運動模糊或背景受噪聲干擾嚴重時,HOG的描述能力就變弱. 而以上基于相關濾波器算法難以對目標運動中發生的較大尺度變化進行有效的處理,這會使得分類器模型出現誤差累積,最終會導致跟蹤精度降低. 于是,本文在KCF基礎上融入顏色特征,可與HOG特征組成更魯棒的特征; 加入了尺度檢測,在后續幀中對當前目標建立尺度模型,通過檢測與上一幀尺度模型進行相關濾波響應值的位置,計算目標的尺度; 另外,加入重檢測模塊,對目標的置信度進行判定,減少與目標外觀模型的偏差.

2 KCF跟蹤算法

KCF算法雖然用HOG特征代替了灰度特征,增強了對光照變化的適應性,但僅靠這一個特征很難對復雜場景變化進行處理. 由于KCF算法使用大小恒定的跟蹤框,當目標尺度發生變化時,算法的跟蹤準確度會降低. 從本質上來說,這其實是一種模板匹配的方法,第一幀圖像初始化對后續的跟蹤是有影響的. 此外,由于周期性循環移位產生的邊界效應,算法不能有效地處理遮擋問題.

針對以上問題,本文對KCF方法進行改進：

(1) 融合了顏色屬性特征. 該特征和圖像中場景物體十分相關,并且計算簡單. HOG特征強調圖像的梯度,而顏色特征是全局特征,不能很好捕捉對象的局部特征,將此兩種特征進行融合來創建更強的特征集.

(2)引入了尺度估計,解決了模板固定問題,實現尺度自適應.

(3)然而KCF算法仍然會因為目標所處的環境因素使得跟蹤結果失敗,例如：目標受到物體遮擋、遇到與目標相似的物體等等. 因此本文為了能夠長期跟蹤目標,加入了再定位的組件.

2.1 分類器訓練

對于判別式跟蹤算法主要分為訓練和檢測兩個步驟. 對于訓練圖像,我們可以看作嶺回歸問題. 這是由于嶺回歸對任意的輸入有閉式最優解. 訓練的目標是找到一個函數使得如下殘差函數最?。?/p>

根據文獻[11]可求得閉式解：

其中X為樣本矩陣,Y為回歸目標. 當f(x)為非線性時,可將x映射到高維空間可得：

可以解決高維特征矩陣點積計算復雜問題. 由文獻[12]可求解：

2.2 目標快速檢測

對于待檢測的圖像塊,響應可表示為：

3 改進的算法

3.1 特征融合

KCF算法采用HOG,雖然HOG特征具有一定的平移、旋轉不變性和光照不變性,但這種單一的特征難以適應跟蹤中出現的多種挑戰因素. 而CN特征[13]具有對圖像大小和方向不敏感的特點. 所以改進算法將HOG和CN兩種特征進行融合,然后對目標進行描述,可實現優勢互補,提高了分類器的性能. 假設兩個特征向量為和,則其在高緯度特征相似度為：

然后通過高斯核函數,將方向梯度直方圖(HOG)和CN特征級聯組合成特征集,以此構建更強力的目標外觀.

3.2 尺度估計

由于目標會發生尺度和旋轉等變化,如果不能自適應尺度的變化,更新模型過程中會出現誤差累積,導致跟蹤不準確或者跟蹤失敗. 因此對目標的尺度進行抽樣[14],得到尺度空間. 用P×Q表示當前幀目標的尺度大小,N為尺度樣本數,尺度的取值范圍用集合表示,對于尺度在檢測位置中心獲取尺寸大小為的圖像塊,將大小調整為P×Q并用HOG特征構建尺度金字塔.

3.3 重檢測機制

與之前的長期跟蹤方法TLD相比,不同之處在于再檢測機制并沒有每幀都進行更新,采用閾值方法. 為了提高計算效率,若檢測后得到的值小于閾值T1,則檢測器開始重新檢測跟蹤目標,這時我們利用隨機蕨分類器對當前幀進行掃描,最后再評估目標的置信度信息. 若檢測后的最大值比閾值T2大,則獲取正負樣本并利用它們來訓練和更新分類器. 對于待檢測的圖像塊而言,我們使用最近鄰分類器(Nearest Neighbor Classifier)的相似度度量方式. 在跟蹤過程中,圖像塊與目標框的重疊率大于0.7的作為正樣本,重疊率小于0.2的作為負樣本. 這里的閾值是根據經驗設定的.

3.4 改進的算法步驟

1) 讀入視頻序列幀,在第一幀圖像中對目標進行初始化,確定搜索區域與目標區域.

2) 提取目標特征,對位置濾波模板和尺度濾波模板進行訓練.

3) 位置檢測：在下一幀中,根據上一幀所確定的位置與尺度,選擇一定尺寸的搜索區域,插值到與位置濾波器一樣的尺寸,提取特征,計算響應值,得到新位置.

4) 尺度檢測：在目標位置附近創建尺度金字塔,根據尺度調整圖片大小,利用分類器對樣本的最高得分來更新目標的位置.

5) 再檢測：如果檢測的最大值小于重檢測閾值T1,啟動分類器重新掃描,找到候選的位置,計算置信度.最大的值所在的位置即為目標.

6) 如果檢測的最大值大于目標外觀閾值T2時,訓練并更新分類器.

4 實驗結果與分析

為驗證本文提出的算法是否對目標的尺度變化和遮擋等問題有所改善,本文算法對OTB-2013的50個含有不同屬性的視頻進行評估,屬性分別為光照變化(Illumination Variation,IV)、尺度變化(Scale Variation,SV)、遮擋(Occlusion,OCC)、運動模糊(Motion Blur,MB)、快速運動(Fast Motion,FM)、平面外旋轉(Outof-Plane Rotation,OPR)、平面內旋轉(In-Plane Rotation,IPR)和復雜背景(Background Clutters,BC)[15].

4.1 實驗環境與參數

本文使用Window 7操作系統,計算機CPU為Intel Xeon處理器,主頻3.0 GHz,內存4 GB,實驗軟件平臺為MATLAB 2012a. 實驗中HOG特征的cell大小為4,梯度方向個數為9,正則項參數λ為0.01,學習參數η為0.015,尺度樣本數為33,尺度因子為1.02,T1為0.5,T2為0.6.

4.2 定性分析

(1) 遮擋和旋轉

在圖 1中,視頻jogging中跑步的人受到電線桿的遮擋,只有本文的算法和TLD的算法在受到遮擋后仍能對目標進行跟蹤,其它的算法已經丟失了跟蹤框. 這是由于本文的算法加入了再檢測的機制,可以提高對目標的定位能力,而KCF則跟蹤失敗. 圖 2這個tiger2視頻序列除了遮擋因素外還伴有強烈光照變化和旋轉等挑戰因素,旋轉會使目標紋理受到影響,尤其是在受到長時間遮擋后,模板沒有及時更新情況下,即使目標離開再重回視野也難以繼續跟蹤. 到289幀時,只有本文算法能跟蹤準確. 而KCF算法由于沒有再檢測模塊,無法重新定位目標的位置.

表1 實驗測試的視頻屬性

圖1 jogging

圖2 tiger2

(2) 快速運動和運動模糊

圖 3 jumping中人一直快速運動,到第106幀時KCF跟蹤框開始出現丟失現象,這是由于目標的快速運動導致外觀發生了大幅變化. 到312幀時僅剩下struck、TLD、MIL和本文算法能繼續跟蹤. 這是由于本文算法加入了對置信度的判定,減少與模型的誤差累積. 圖 4 deer序列在第24幀時出現運動模糊,會導致特征判別能力減弱,在52幀時受到周圍相似鹿干擾,除了本文的算法能跟蹤到正確位置,其他算法的目標框與真實位置出現誤差. 圖 5 football1序列在第74幀時可以發現KCF跟蹤算法受旋轉和復雜背景挑戰因素影跟蹤失敗,而本文算法能準確跟蹤,這是由于特征的融合提高了目標外觀模型的魯棒性.

(3) 尺度變化

圖 6 car4數據集中,車尺度從大變小,又伴隨著光照影響,TLD、IVT和本文算法均可較好地處理尺度變化. 本文算法相較于KCF跟蹤較準確原因在于當位置濾波器能準確跟蹤到目標中心后,引入的尺度估計會搜索最為匹配的尺度,可以更好適應目標外觀變化.

圖3 jumping

圖4 deer

圖5 football1

圖6 car4

4.3 定量分析

通過選取10個富有挑戰性視頻,利用中心位置誤差和重疊精度來衡量改進算法與KCF算法. 中心位置誤差是指對圖像人工標定的目標位置與跟蹤到位置之間的歐氏距離. 重疊精度指跟蹤的目標框區域與真實目標框區域的交集占并集的比例. 由表2和表3可見,改進算法相對KCF算法有較魯棒性的跟蹤結果. 改進的算法中心位置誤差的均值相比于KCF算法提高10%. 對于重疊率,改進算法較于KCF算法則提高了15%. 這是由于改進算法能實現自適應尺度跟蹤,它是在當前目標的不同尺度之間去尋找一個最優值,而且再檢測機制又提高了目標的定位能力.

表2 改進算法與KCF算法中心位置誤差的對比(單位：pixel)

表3 改進算法與KCF算法重疊率對比(單位：%)

4.4 整體性能評估

本文采取跟蹤成功曲線圖來評估目標跟蹤方法的性能,反映的是跟蹤結果與數據真實值之間重合部分面積的比例. 隨著重疊閾值的增大,其成功率反而減小.當重疊率大于0.5時,一般認為跟蹤成功. 為了客觀地評價算法性能,利用成功率曲線下的面積作為性能的評價準則. 曲線下的面積越大,則跟蹤器性能越好. 通過在OTB-2013數據集上與原有算法進行

圖7 本文算法(cqgz)與其他算法在幾種屬性上的成功率與精度的比較

對比測試,由圖7可以看出,改進的算法的成功率在尺度變化、運動模糊、變形和低分辨率情況下分別高出了9%、6%、4%和13%. 由于跟蹤過程中可以對目標過程中出現的尺度變化進行相應處理,另外,再檢測模塊使得物體受到遮擋后重回視野,可以重新定位目標的位置. 從定性分析、定量分析以及整體性能評估中可以看出,改進的算法較于其他跟蹤器來說相對較好.

5 結論與展望

通過核函數將HOG特征和顏色特征進行融合,可以提高抗遮擋能力. 針對基于核相關濾波器的算法不能對尺度變化有較好的適應性,本文構建尺度相關濾波器,可實現多尺度自適應地對目標進行跟蹤,實時更新尺度模型. 最后加入再檢測模塊,訓練在線分類器,提高正樣本的準確性. 當目標丟失后重回場景,可鎖定目標繼續跟蹤. 測試結果表明,所提的算法對尺度、運動模糊等問題能進行有效地處理,在復雜背景下跟蹤性能較優,但仍存在不足. 未來可考慮兩點：(1)利用深度學習,將卷積神經網絡中不同特征圖結合,然后在相關濾波框架下進行跟蹤; (2)對尺度估計方法改進或對特征進行并行計算,以提高算法速度.

1 Wu Y,Lim J,Yang MH. Object tracking benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9)：1834-1848. [doi：10.1109/TPAMI.2014.2388226]

2 Smeulders AWM,Chu DM,Cucchiara R,et al. Visual tracking：An experimental survey. IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(7)：1442-1468. [doi：10.1109/TPAMI.2013.230]

3 Ross DA,Lim J,Lin RS,et al. Incremental learning for robust visual tracking. International Journal of Computer Vision,2008,77(1-3)：125-141.

4 Zhang TZ,Ghanem B,Liu S,et al. Robust visual tracking via multi-task sparse learning. Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Providence,RI,USA. 2012. 2042-2049.

5 Sevilla-Lara L,Learned-Miller E. Distribution fields for tracking. Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Providence,RI,USA. 2012. 1910-1917.

6 Hare S,Saffari A,Torr PHS. Struck：Structured output tracking with kernels. Proceedings of 2011 IEEE International Conference on Computer Vision (ICCV).Barcelona,Spain. 2011. 263-270.

7 Zhang KH,Zhang L,Yang MH. Real-time compressive tracking. Proceedings of the 12th European Conference on Computer Vision. Florence,Italy. 2012. 864-877.

8 Henriques JF,Caseiro R,Martins P,et al. Exploiting the circulant structure of tracking-by-detection with kernels.Proceedings of the 12th European Conference on Computer Vision. Florence,Italy. 2012. 702-715.

9 Danelljan M,Khan FS,Felsberg M,et al. Adaptive color attributes for real-time visual tracking. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus,OH,USA. 2014.1090-1097.

10 Henriques JF,Caseiro R,Martins P,et al. High-speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3)：583-596. [doi：10.1109/TPAMI.2014.2345390]

11 Gray RM. Toeplitz and circulant matrices：A review.Foundations and Trends?in Communications and Information Theory,2005,2(3)：155-239. [doi：10.1561/010 0000006]

12 Rifkin R,Yeo G,Poggio T. Regularized least-squares classification. In：Suykens J,Horvath G,Basu S,et al. eds.Advances in Learning Theory：Methods,Models and Applications. Amsterdam：IOS Press,2003. 131-154.

13 van de Weijer J,Schmid C,Verbeek J,et al. Learning color names for real-world applications. IEEE Transactions on Image Processing,2009,18(7)：1512-1523. [doi：10.1109/TIP.2009.2019809]

14 Danelljan M,H?ger G,Khan FS,et al. Accurate scale estimation for robust visual tracking. Proceedings of British Machine Vision Conference 2014. Nottingham,UK. 2014.

15 Wu Y,Lim J,Yang MH. Online object tracking：A benchmark. Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland,OR,USA. 2013. 2411-2418.