摘 要:針對視頻目標跟蹤問題,提出了一種基于co-training框架下的在線學(xué)習(xí)跟蹤方法。該方法首先根據(jù)兩種不同的局部特征,利用在線 Boosting算法分別建立模型, 然后采用co-training框架來協(xié)同訓(xùn)練,有效避免了模型誤差累積和跟蹤丟幀等問題。實驗證明了該方法的有效性。關(guān)鍵詞:局部特征; 在線Boosting; 協(xié)同訓(xùn)練; 目標跟蹤
中圖法分類號:TP18; O221
文獻標志碼:A
文章編號:1001-3695(2010)02-0770-02
doi:10.3969/j.issn.1001-3695.2010.02.103
Object tracking research based on on-line learning
QI Zhi-quan, SONG Ye, WANG Lai-sheng
(Dept. of Mathematics, College of Science, China Agricultural University, Beijing 100083, China)
Abstract:To video object tracking problem, this paper proposed an on-line learning tracking method based on co-training framework. First of all, the method adopted two different local features to build on-line Boosting model, and then, would train samples making use of co-training learning framework, which avoided the cumulative error of the model and dropping frames problem effectively. Furthermore, some experiments have been maded and the results implyed that the new method is very efficient.
Key words:local features; on-line Boosting; co-training; object tracking
0 引言
視頻目標跟蹤是機器視覺領(lǐng)域的一個重要分支, 被廣泛用于軍事、多媒體檢索、安全監(jiān)控等領(lǐng)域。近年來, 將目標跟蹤問題視為一個分類問題(classification)的方法是一個新的研究方向。 主要思想(圖(1))如下: a)確定跟蹤目標;b)在跟蹤目標區(qū)域隨機擾動,生成正類樣本,在背景區(qū)域生成負類樣本;c)進行目標分類,得到目標跟蹤分類器; d)利用當(dāng)前的目標分類器預(yù)測下一幀的圖像,得到目標位置,重復(fù)b)。
根據(jù)上述思想進行目標跟蹤的文獻很多,如2005年,Avidan[1]使用支持向量機對目標進行了跟蹤;同年,Lepetit等人[2]以關(guān)鍵點(key points)作為特征,利用隨機樹對目標進行跟蹤; 隨后Grabner等人[3~5]利用在線學(xué)習(xí)方法(on-line Boosting)對目標進行了有效跟蹤。從實驗結(jié)果來看,Grabner等人的跟蹤方法要優(yōu)于前兩者,主要原因是采用了在線學(xué)習(xí)分類器(on-line Boosting)和局部特征(HAAR、LBP)提取等方法,不但加快了模型更新速度,而且提升了目標跟蹤的準確率。
上述方法都屬于利用分類器本身得到訓(xùn)練樣本來訓(xùn)練自身模型的過程, 屬于自學(xué)習(xí)(self-training)方法。 這種訓(xùn)練方法很容易累積誤差,使得分類器精度下降, 最后導(dǎo)致跟蹤失敗。 Co-training學(xué)習(xí)框架是解決上述問題的主要途徑。該框架采用multi-view的思想, 從兩種互相獨立的特征空間中提取特征, 然后利用兩個分類器協(xié)同進行訓(xùn)練, 得到最終的分類器,如圖2所示。
Co-training學(xué)習(xí)框架最早由Blum等人[6]提出, 隨后該方面的應(yīng)用文章相繼出現(xiàn), 如Collins等人[7]將該框架用于文本分類, Javed等人[8]利用該框架進行視頻目標檢測等。2009年,清華大學(xué)的王路等人[9]將co-training用于目標跟蹤。在該框架中, 他們采用全局特征(區(qū)域顏色直方圖和區(qū)域梯度直方圖)和off-line AdaBoost算法。這樣做的缺點如下:
a)計算全局特征比較耗時,并且未對全局特征進行特征提取等降維處理;
b)顏色特征的選擇限制了該算法的應(yīng)用范圍;
c)Off-line AdaBoost算法不能對樣本執(zhí)行依次輸入,不能及時調(diào)整特征跟蹤模型。
本文提出一種基于在線學(xué)習(xí)的視頻目標跟蹤方法。該方法首先根據(jù)兩種不同的局部特征(Haar特征和局部梯度直方圖特征),利用on-line Boosting算法進行特征選擇并建立模型;然后采用co-training框架來協(xié)同訓(xùn)練,有效避免了模型誤差累積和跟蹤丟幀等問題。盡管文獻[8]也是co-training學(xué)習(xí)框架與on-line Boosting有效結(jié)合來進行目標檢測,但采用的是Oza[10]的on-line Boosting算法,只能取圖像的全局特征,不能對圖像的局部特征進行特征選擇。本文采用的是Helmut Grabner的on-line Boostings算法,有效地解決了上述問題。
1 基于multi-view思想的特征選擇
Co-training學(xué)習(xí)框架采用的是multi-view思想,利用輸入樣本中互相獨立的兩種特征來訓(xùn)練兩個互相獨立的分類器。隨后,這兩個分類器將各自置信度較高的標記樣本傳輸給對方來更新訓(xùn)練分類器,并不斷重復(fù)這個過程。
對于選擇特征而言,全局特征比較耗時,不符合實時跟蹤的要求,因此本文采用局部特征來描述目標。在co-training學(xué)習(xí)框架下, 第一個分類器使用Haar特征。Haar特征的優(yōu)勢是計算簡單有效,基于Haar特征的AdaBoost算法在人臉檢測中已經(jīng)得到了成功的應(yīng)用。局部二值模式特征(local binary pattern,LBP)也是一種很好的選擇, 該特征對光照變化影響更加魯棒,在人臉識別中得到了很好的運用, 但當(dāng)樣本很少時,會丟失重要的統(tǒng)計特性。本文的跟蹤分類問題正是在小樣本下執(zhí)行的, 因此, LBP特征不適合目標跟蹤分類問題。 第二個分類器選擇的是局部梯度直方圖特征(histogram of oriented gradients,HOG), 該特征值基于sift算法理論,已經(jīng)在行人檢測等領(lǐng)域有了成功的應(yīng)用。
2 基于特征選擇的on-line Boosting算法
與off-line Boosting一樣, on-line Boosting 通過選擇弱分類器{hn(x)|hn(x):χ→{1,-1}} 聯(lián)合成一個強分類器H(x),
H(x)=sign(fn(x))。其中fn(x)=∑Nn=1αnhn(x),其目標是最小化訓(xùn)練錯誤率。
Off-line Boosting和on-line Boosting最大的不同在于數(shù)據(jù)的輸入方式和強分類器H(x)的構(gòu)建方式。在off-line訓(xùn)練中, 所有的數(shù)據(jù)是事先得到的,一次性輸入到模型中去訓(xùn)練;而在on-line訓(xùn)練中, 每一時刻只能得到一個數(shù)據(jù), 因此只能依次輸入到模型中去訓(xùn)練。對于強分類器H(x), 在off-line訓(xùn)練中是通過每一輪累加弱分類器得到的;而在on-line訓(xùn)練中是事先規(guī)定好弱分類器個數(shù), 每輪再進行更新。
這里對Grabner等人[3]的基于特征選擇的on-line Boosting算法作簡單介紹。該算法的主要思想基于特征選擇器(selector)的on-line Boosting,而不是弱分類器的直接更新。 每一個selector在M個弱分類器Hn={hn1(x),…,hnM(x)}中進行選擇。在訓(xùn)練過程中, selector選擇具有最小訓(xùn)練錯誤率的弱分類器來更新強分類器中的h。為了傳遞每個弱分類器對當(dāng)前樣本的分類情況, 困難度因子λ貫穿于N個selector中。首先, selector在集合Hn中被隨機初始化,當(dāng)一個新的樣本(x,y), y∈{1,-1}到達時,N個selector被順序更新。權(quán)重λ的初始值為1,具有最小訓(xùn)練錯誤率的弱分類器被selector選擇。然后,相關(guān)的投票權(quán)重αn和困難度因子λ被更新, 執(zhí)行到下一個Hn+1。如果樣本被當(dāng)前的selector錯分,λ增加;否則減少。最后,強分類器是由N個被各自selector選擇出的弱分類器線性加權(quán)組成。
3 強分類器的置信度分析
在協(xié)同訓(xùn)練過程中,對每個強分類器的輸出值進行精確的置信度估計是提高目標跟蹤準確率的重要因素。本文參照文獻[11]的方法。已知訓(xùn)練集χL={(x1,y1),…,(x|xL|,y|xL|)|xi∈Rm,yi∈{-1,+1}},Boosting在每個階段都最小化指數(shù)損失函數(shù)L=∑x∈xLe-yH(x),可被看做是一個可加邏輯回歸問題(additive logistic regression),因此,置信度測量式可被表示為P(y=1|x)=eH(x)eH(x)+e-H(x)。
4 實驗
本文采用PETS2001 和NUDT序列圖像作為測試集, 實驗環(huán)境: CPU為 Intel(R) Pentium(R) 處理器 1.70 GHz; 內(nèi)存為2 GB。 在實驗中,前5幀由人工標定, 實驗結(jié)果如表1所示。
表1分別表達了三種不同方法的目標跟蹤識別率。圖3是在PETS2001實驗中, 第200、253、330、397、480、592幀目標跟蹤結(jié)果,第一列標出了目標跟蹤的位置, 第二列表達了到當(dāng)前幀及以前幀的跟蹤目標處的最大置信度軌跡。從實驗結(jié)果不難看出, 與文獻[5,9]相比,本文的方法能夠更穩(wěn)定地跟蹤目標,跟丟的幀數(shù)最少, 這主要得益于將co-training學(xué)習(xí)框架和基于特征選擇的on-line Boosting有效結(jié)合起來。Co-training學(xué)習(xí)框架能夠盡可能地減少輸入新樣本帶來的誤差, 而基于特征選擇的on-line Boosting不僅訓(xùn)練速度快,采取的局部特征與文獻[9]相比,更有利于目標跟蹤。
5 結(jié)束語
針對視頻目標跟蹤問題,本文提出了一種基于co-training框架下的在線學(xué)習(xí)跟蹤方法,實驗證明了該方法的有效性。在未來的工作中,將重點研究基于co-training框架下的有遮擋的目標跟蹤問題。
參考文獻:
[1]AVIDAN S. Ensemble tracking[C]// Proc of CVPR. 2005: 494-501.
[2]LEPETIT V, LAGGER P, FUA P. Randomized trees for real-time keypoint recognition[C]//Proc ofCVPR. 2005: 775-781.