王 安,方賢勇
(安徽大學 計算機科學與技術學院,安徽 合肥 230601)
基于顯著前景塊模型的貝葉斯目標跟蹤
王 安,方賢勇
(安徽大學 計算機科學與技術學院,安徽 合肥 230601)
光照變化、背景混淆、形態變化等仍然是視頻目標跟蹤中具有挑戰性的問題,有效、自適應的外觀模型是基于外觀模型的目標跟蹤方法用以克服這些問題的關鍵。針對此問題,提出了一種基于顯著前景塊模型的在線貝葉斯目標跟蹤方法。首先,提出一種精確顯著的前景提取方法,建立基于塊的顯著前景塊模型,可以有效抑制非前景因素的影響。同時,提出一種與顯著前景塊模型適應的模板更新方法,有效適應目標前景的變化。然后,結合多層背景塊模型,獲得有效、自適應的基于塊的外觀模型。最后,建立基于貝葉斯框架的目標跟蹤方法。經過多組具有挑戰性的視頻序列測試,該跟蹤方法可以有效抑制光照變化、背景混淆及形態變化等問題,具有較好的自適應性。通過對比實驗,結果表明該跟蹤方法較現有常見的方法有較強的魯棒性和較好的精確性。
目標跟蹤;外觀模型;顯著前景模型;模板更新
目標跟蹤是計算機視覺領域一項基本的研究課題,在許多領域得到了廣泛應用,如視頻監控、目標識別、機器人、事件分析和無人駕駛汽車等。目前,提出了許多跟蹤方法,但是,為了獲得有效穩定的跟蹤,仍然存在一些挑戰性的問題,如光照變化、目標幾何變形、快速移動、局部遮擋和背景混淆等。針對這些問題,文中提出了一種基于顯著前景塊模型的在線貝葉斯目標跟蹤方法。
外觀模型(appearance model)是跟蹤的基礎[1-2],其有效性和適應性決定了目標跟蹤的精確性和魯棒性。目前的外觀模型可以粗略地分為三類:基于整體的模型(bounding-box model)[3-4]、基于部件的模型(part-based model)[1,5]和基于塊的模型(patch-based model)[6-7]。基于整體模型的方法失去了局部空間信息的描述,對目標遮擋、變形等情況非常敏感。基于部件模型的方法需要對各個部件分別初始化、訓練和跟蹤,增加了計算復雜度,在實時在線的應用中受到限制。Jia等[6]和Kwon等[7]提出了基于塊的方法,在目標匹配方面具有一定的靈活性和適應性。但是它們都僅考慮了前景外觀信息,沒有考慮背景信息,當背景中包含與前景相似的區域時可能會導致目標漂移。同時考慮前景和背景信息的外觀建模方法在前背景區分上明顯優于只考慮前景建模的方法[8]。針對目前的問題,文中采用基于塊的外觀模型,通過提取各塊的顏色統計直方圖特征,建立外觀模型。基于塊的外觀模型可以很好地提取和保留圖像局部信息,并具有較好的適應性。同時,為了獲得更好的前景和背景區分效果,文中同時進行前景和背景建模。
在大多數在線目標跟蹤方法中,目標通常用矩形框來標記[1,3-7]。矩形框內不僅包含了全部的目標前景信息,同時包含了部分背景信息。包含的背景信息,在一定程度上影響了目標前景與背景的區分性,在跟蹤效果上有所削弱。Lee等[9]提出了一種較為精確的前景提取方法,但是當目標前景本身包含與背景相似的區域時,其跟蹤的有效性和穩定性受到影響。針對此問題,文中提出了一種提取精確的顯著前景的方法,建立基于塊的顯著前景塊模型,可以有效增強目標前景和背景的區分,最終獲得準確可信的目標跟蹤。
綜合上述分析,為了克服視頻目標領域仍然存在的挑戰性問題,如光照變化、背景混淆、目標變形等,同時彌補目前多數跟蹤方法中前景模型的精確性不足,文中首先提出一種提取精確的顯著前景的方法。該方法在第一幀中把標記目標的矩形框分割成多個小塊并統計每塊的顏色直方圖,以目標矩形框外部周圍背景區域為參照,計算選擇目標區域顯著塊來建立顯著前景模板。同時,提出了一種與顯著前景塊模型適應的模板更新方法,根據每幀的跟蹤結果提取有效前景特征來補充更新前景模板特征。在此基礎上,結合多層背景塊模型,建立基于塊的外觀模型。最后,基于貝葉斯框架,建立了基于顯著前景塊模型的在線貝葉斯目標跟蹤方法。
基于塊的外觀模型可以很好地提取和保留圖像局部信息,并具有較好的適應性。首先將視頻圖像劃分為多個小塊,分別提取顏色直方圖。顏色直方圖采用HSV顏色空間,每個通道劃分16個容器區間,三個通道共48個容器區間。文中對目標前景和背景分別使用基于塊的特征提取和建模方法。
1.1 顯著前景塊模型
通常,目標前景與周圍背景存在一定的差異。如圖1(a),目標本身與背景差異較大,前景與背景可以較好地區分。但是,現實世界中,受到光照等因素的影響,目標物體的表面可能并不都是與背景容易區分的。如圖1(b),由于光照強度較弱,目標區域出現明暗不一的現象,有些區域比較明顯,有些區域較暗且與背景的差異較小。圖1(c)顯示了圖1(b)中左圖經過灰度化并直方圖均衡化的結果,可以直觀較清晰地區分目標前景較為明顯的區域。若把較暗的部分作為前景模板特征,會影響目標的區分性,最終影響目標的檢測與跟蹤。人類的視覺機制[10]是通過目標與背景的顯著性差異來觀察追蹤事物的。文中提出了一種提取精確、顯著的目標前景的方法,該方法綜合利用前景和背景信息,獲取目標的顯著區域,并提取顏色直方圖作為前景特征模板。

圖1 分別基于顯著前景和全部目標框的概率分布圖
在第一幀,通過手動標記或目標檢測算法獲得目標前景區域,通常用矩形框標記。目標矩形框區域不僅包含整個目標前景,同時包含背景信息,影響目標表示的穩定性和有效性。文中提出的提取精確顯著目標前景的方法就是排除矩形框內與背景相似的區域,保留顯著前景區域。如圖1(a)、(b)所示,左圖為原始圖像,中間上下兩幅分別標記了基于顯著前景的前景區域和基于全部目標框的前景區域,右邊上下兩幅為對應的前景概率分布圖。可以看出,顯著的前景提取提高了前景概率的準確性,顯著前景區域的前景概率較大,而與背景相似的前景區域的前景概率較小,較符合真實的計算結果和觀察現象。
從圖中觀察到,目標矩形框的外部周圍是背景信息,與目標矩形框內的背景信息相似。目標前景信息多集中在目標矩形框的中間部分。定義目標矩形框區域為Ω,同時定義一個與Ω同心的擴張矩形框區域ΩE和收縮矩形框區域ΩS。區域ΩE-Ω表示擴張部分的背景區域,標記為ΩB。設Ω的大小為w×h,則ΩE的大小為(w+16)×(h+16),ΩS的大小為0.6w×0.6h。將ΩE劃分為8×8大小且不互相重疊的小塊,并統計每塊的HSV顏色直方圖。文獻[11]定義一個像素的顯著值為該像素到其他像素的顏色距離度量之和,據此文中提出下面的計算公式,分別計算Ω內每塊相對于ΩS的顯著值SS(i)和相對于ΩB的顯著值SB(i)。其中,i代表第i小塊。SS(i)表示在ΩS中與第i小塊顏色直方圖最接近的K個小塊的顏色直方圖的距離之和。

(1)
其中,h(i)表示Ω中第i小塊的顏色直方圖;hS(j)表示ΩS中第j小塊的顏色直方圖。
同樣的,SB(i)表示在ΩB中與第i小塊顏色直方圖最接近的K個小塊的顏色直方圖的距離之和。

(2)
其中,hB(j)表示ΩB中第j小塊的顏色直方圖。
可以發現,當第i小塊包含背景信息越少時,SB(i)較大,SS(i)較小,小塊i前景的概率越大。用式(3)表示小塊前景置信度:
(3)
當SS(i)>SB(i)時,φ(i)<0,此時取φ(i)=0。當SS(i) 在式(1)、式(2)中,當參數K取值較大,第i塊本身的信息會受到很大的影響,這里選擇K=4。計算得到各小塊的前景置信度后,選擇φ(i)>γ的小塊作為前景塊,提取前景塊的顏色統計直方圖特征作為顯著前景模板。這里取γ=0.5。 1.2 多層背景塊模型 基于塊的外觀模型在處理光照變化、目標形變等問題上有一定的優勢。但是,劃分小塊的方法也會削弱前景背景的區分性。為了獲得更多豐富的背景信息,更好地將背景區域從前景區域中分離,減少因劃分小塊而削弱前背景區分的影響,文中建立了多層背景塊模型。 首先將輸入圖像劃分為互不重疊的8×8小塊,每個位置的小塊j,其顏色直方圖為Bj。在第一幀,對于目標矩形框外部的背景部分,其背景顏色直方圖由對應位置小塊的顏色直方圖表示;對于目標矩形框內部的小塊,選擇靠近小塊幾何距離最近的矩形框外部背景小塊的顏色直方圖來表示。如圖2所示,B1、B3的值分別來自于B2、B4。從第二幀開始,檢測跟蹤到目標位置后,更新目標矩形框區域外部的背景塊,將此幀對應位置的小塊背景信息加入背景模板中對應位置的小塊背景信息容器隊列,容器隊列保留十幀的數據。 圖2 圖1(b)中視頻序列David首幀的背景模型 在線的目標跟蹤是在第一幀手動標注或目標檢測算法檢測目標區域,提取其特征建立特征模板,然后從第二幀開始跟蹤目標并更新目標模板。貝葉斯框架是在當前觀察情況下根據先前的跟蹤結果及觀察情況進行當前狀態的搜索預測。在第t幀,以t-1幀獲得的目標位置為中心,設置目標搜索區域Rt。在搜索區域Rt內,利用前景模板和背景模板,計算各小塊內像素的前景概率。根據貝葉斯跟蹤框架,搜索跟蹤區域內使得貝葉斯后驗概率最大的位置作為跟蹤結果。為了提高跟蹤的穩定性和精確度,克服背景混淆、形變、局部遮擋等因素引發的目標漂移問題,文中同時采用結合目標前景的模板掩碼來跟蹤。同時,光照變化等因素會改變目標前景的顏色特征,于是文中提出了一種適應前景顯著模型的模板更新方法,增強前景特征描述,提高前景背景區分效果,有效抑制光照變化帶來的前景塊誤檢和漏檢等問題。 2.1 前景概率 假設第t-1幀,目標大小為w×h,則在第t幀,目標搜索區域Rt大小為(w+2δ)×(h+2δ),與第t-1幀的目標矩形框區域同心。同樣,將目標搜索Rt劃分為互相不重疊的8×8像素的小塊,對每一小塊i提取顏色直方圖h(i)。然后,通過概率計算獲得每個小塊內像素的前景概率。 首先,對搜索區域內的每一小塊i,用k近鄰方法[12]從前景模板中選擇與小塊顏色直方圖距離最近的兩個小塊,計算得到它們的顏色直方圖距離之和DF(i)。 (4) 其中,h(i)表示第i小塊的顏色直方圖;hF(j)表示從前景模板中選擇的第j小塊的顏色直方圖。 其次,再從背景模板中選擇與小塊直方圖距離最近的兩個小塊。為了減少背景混淆因素的影響,從與小塊幾何距離較近的25個小塊中選擇。計算得到它們的顏色直方圖距離之和DB(i)。 (5) 其中,h(i)表示第i小塊的顏色直方圖;hB(j)表示從背景模板中選擇的第j小塊的顏色直方圖。 這樣,小塊i內的像素u的前景概率表示為: (6) 當DF(i)越小,DB(i)越大,F(u)趨向于1;反之,趨向于0。將F(u)歸一化到[0,1]區間,當歸一化結果小于0.8時,F(u)=0。 2.2 在線貝葉斯目標跟蹤 在貝葉斯框架下,假設xt和zt分別表示第t幀的狀態和觀察值,在給定觀察值zs:t={zs,zs+1,…,zt}(s p(xt|zs:t)=αtp(zt|xt)p(xt|zs:t-1) (7) 其中,αt為正規化項;p(zt|xt)為似然概率;p(xt|zs:t-1)為先驗概率。 (8) 文中對先驗概率采用了平均分布模型,p(xt|zs:t-1)為常數,則 (9) 在搜索區域搜索目標的位置,根據一般的目標搜索方法,似然概率p(zt|xt)應該是搜索滑動窗口內像素的前景概率值之和。但是考慮到可能的背景噪聲影響,加入了目標輪廓信息,即目標前景的模板掩碼,可以有效抑制背景混淆和局部遮擋帶來的目標漂移問題,如圖3所示。將目標前景的模板掩碼記為ωm。所以,似然概率p(zt|xt)表示為滑動窗口內像素的前景概率與目標前景的模板掩碼的相似度。 目標前景的模板掩碼的值在第一幀中由目標矩形框內像素的前景概率初始化。 圖3 結合目標前景的模板掩碼的目標跟蹤示意圖 2.3 在線模板更新 在目標跟蹤過程中,隨著外部光照變化、背景變化,以及目標自身的結構形態變化,統一不變的目標模型是不能適應的。模型更新是在線目標跟蹤非常關鍵的一步,它影響了目標模板的適應性和跟蹤的魯棒性。 顯著前景模板更新:隨著光照的變化,目標物體表面的顏色也跟著變化。為了適應目標的變化,同背景模型相似,也采用多層的目標顯著前景塊模型。在t幀,得到目標位置后,把目標矩形框區域內的前景小塊的顏色直方圖加入到目標前景特征模板中。為了盡可能消除背景噪聲的影響,根據目標前景的模板掩碼,當小塊對應的模板掩碼的值ωm(·)>0.75,則將其顏色統計直方圖特征加入前景模板中。前景模板中只保留包含當前幀的前5幀的數據。 模板掩碼更新:目標的形態也在時刻變化,根據在t幀得到的前景區域及所對應的前景概率值,對目標前景的模板掩碼作如下更新操作: (11) 這里λ取0.999 5。 跟蹤過程中可能出現最佳的目標位置可信度較低,當p(zt|xt)>0.75時,更新模板。 文中分別在10組視頻數據對提出的跟蹤方法進行性能測試:Basketball(576×432)、BlurCar1(640×480)、David(320×240)、Gym(426×234)、Lemming(640×480)、Liquor(640×480)、Occlusion1(352×288)、Skating2(640×352)、Tiger2(640×480、Trellis(320×240)。這些數據均可從http://www.visual-tracking.net[13]獲取。數據的平均幀數為861幀,文中提出的算法用C++實現且沒有經過優化,在3.0GHz處理器、8Gbyte內存的計算機上達到了平均6.6幀每秒。選擇四種跟蹤方法與文中提出的方法進行比較:CT[14]、LSHT[5]、PPT[9]、DAT[15]。同時,為了從實驗上加強證明顯著前景模型的有效性,采用以目標矩形框內的全部(bounding-box)作為前景特征提取,與文中提出的基于顯著前景塊模型的跟蹤方法形成對比。 3.1 定性分析 圖4給出了CT、LSHT、PPT、DAT及基于全部目標矩形框的跟蹤方法(Non-Salient Foreground,Non-SF)和文中跟蹤方法(Salient Foreground,SF(Proposed))對2組圖像序列的跟蹤結果和定性比較。視頻序列Basketball、Gym、Skating2中目標物體存在較大的姿態結構變化及遮擋,Basketball、BlurCar1存在目標快速運動和相機抖動。如Basketball(見圖4(a))的#647,因目標的姿態變化和背景混淆,對比的方法缺乏有效的模板適應能力,目標跟蹤結果發生漂移或錯誤。而文中方法是建立在基于塊的外觀模型上,同時結合目標模板掩碼,具有較好的適應性,抑制了目標漂移,可以有效跟蹤到精確的結果。 圖4 文中跟蹤方法和其他四種方法的跟蹤結果示例 David、Lemming、Liquor、Trellis、Tiger2等序列,光照變化劇烈,目標表面顏色特征變化較大。如David(見圖4(b))的#292,目標表面的光照由初始的較暗變到較為明亮,目標顏色變化較大,且初始目標特征不明顯,目標框內包含較多背景信息。對比方法采用整框為前景建立模板,受到過多背景因素的影響,同時對光照的劇烈變化適應能力弱,跟蹤結果不準確。而文中方法基于顯著前景,獲得了目標前景的精確表達,有效處理了背景信息的影響,同時實時更新前景模板,對光照的變化有很強的適應能力,跟蹤效果明顯較好。 3.2 定量分析 表1 六種跟蹤方法的平均中心誤差統計結果 (ACE代表平均中心誤差(AverageCenterError)) 文中給出了在固定重疊率閾值下的成功率,即PASCAL統計得分方法[17],該方法可以在總體上較好地評估跟蹤結果的準確率和穩定性,見表2。這里固定重疊率閾值為0.5。 表1和表2分別展示了六種跟蹤方法對10組數據的平均中心誤差和給定閾值的成功率。相較其他跟蹤方法,文中方法總體上具有較低的平均中心誤差和較高的成功率。視頻序列Gym,因為目標姿態尺度與初始狀態變化較大,所以在中心誤差較小的情況下成功率仍然較低。 表2 六種跟蹤方法的成功率統計結果 (重疊閾值為0.5,SR代表成功率(SuccessRate)) 3.3 實驗結論 實驗從定性和定量兩個方面評價和分析了跟蹤結果的優劣。在選取的十組具有挑戰性的視頻序列中進行目標跟蹤測試,相比CT、LSHT、PPT、DAT這四種方法,文中方法在整體上取得了較好的效果。同時,與文中方法形成對比的基于整框的跟蹤方法,其效果明顯較差,進一步充分表明了顯著前景塊模型明顯提高了跟蹤的精確性和魯棒性。實驗結果表明,文中方法有效處理了跟蹤問題中的挑戰性因素,如光照變化、背景混淆、形態變化以及遮擋等,獲得了精確魯棒的跟蹤效果。 針對目前視頻目標跟蹤領域仍然存在的問題,如光照變化、背景混淆、形態變化等,文中提出了一種基于顯著前景塊模型的在線貝葉斯目標跟蹤算法。一方面,通過顯著前景的提取,提高了前景模型的精確性,削弱了目標框中背景因素的影響,并且增強了前景背景的區分。另一方面,通過建立多層背景模型并結合目標前景模板掩碼,有效抑制了背景混淆、形態變化的影響。同時,目標模板的實時更新增強了模板的適應性和魯棒性。 由于文中在目標尺度變化問題上沒有做針對性的處理,盡管在有些視頻數據中跟蹤結果的中心誤差相對較小,但成功率會有所降低。未來的工作將會圍繞尺度自適應問題,以期在保持較小的中心誤差下獲得更好的成功率。 [1] Zhang L,van der Maaten L.Structure preserving object tracking[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Portland,Oregon,USA:IEEE,2013:1838-1845. [2] Li X,Hu W,Shen C,et al.A survey of appearance models in visual object tracking[J].ACM Transactions on Intelligent Systems and Technology,2013,4(4):58. [3] Comaniciu D,Ramesh V,Meer P.Kernel-based object tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(5):564-577. [4] Hare S, Saffari A, Torr P.Struck:structured output tracking with kernels[C]//Proceedings of international conference on computer vision.Barcelona,Spain:IEEE,2011:263-270. [5] He S,Yang Q,Lau R W,et al.Visual tracking via locality sensitive histograms[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Portland,Oregon,USA:IEEE,2013:2427-2434. [6] Jia X,Lu H C,Yang M H.Visual tracking via adaptive structural local sparse appearance model[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Providence,Rhode Island,USA:IEEE,2012:1822-1829. [7] Kwon J,Lee K M.Highly non-rigid object tracking via patch-based dynamic appearance modeling[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2013,35(10):2427-2441. [8] Minka T. Discriminative models, not discriminative training[R].[s.l.]:Microsoft Research,2005. [9] Lee D Y,Sim J Y,Kim C S.Visual tracking using pertinent patch selection and masking[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Boston,USA:IEEE,2014:3486-3493. [10] Mahadevan V, Vasconcelos N. Biologically inspired object tracking using center-surround saliency mechanisms[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2013,35(3):541-554. [11] Cheng M M,Zhang G X,Mitra N J,et al.Global contrast based salient region detection[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Colorado,USA:IEEE,2011:409-416. [12] Muja M,Lowe D G.Fast approximate nearest neighbors with automatic algorithm configuration[C]//International conference on computer vision theory and applications.Lisboa,Portugal:INSTICC Press,2009:331-340. [13] Wu Y,Lim J,Yang M H.Visual tracking benchmark[EB/OL].[2015-12-14].http://www.visual-tracking.net. [14] Zhang K,Zhang L,Yang M H.Real-time compressive tracking[C]//Proceedings of European conference on computer vision.Florence,Italy:IEEE,2012:864-877. [15] Possegger H, Mauthner T, Bischof H.In defense of color-based model-free tracking[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Boston,USA:IEEE,2015:2113-2120. [16] Wu Y,Lim J,Yang M H.Online object tracking:a benchmark[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Los Alamitos,USA:IEEE Computer Society Press,2013:2411-2418. [17] Everingham M,Gool L,Williams C,et al.The pascal visual object classes (VOC) challenge[J].International Journal of Computer Vision,2010,88(2):303-338. Bayesian Object Tracking Based on Salient Foreground Patch Model WANG An,FANG Xian-yong (School of Computer Science and Technology,Anhui University,Hefei 230601,China) Illumination variation,background clutter and deformation are still challenging problems in visual object tracking.Efficient self-adapting appearance model can be one of the keys to overcome these limits.In view of these problems,a new online Bayesian tracking method is put forward based on salient foreground patch model.First,a new method is introduced to extract an accurate and salient foreground for constructing a patch-based salient foreground model.The foreground patch model can effectively suppress the affections of non-foreground factors.A template update method is also presented to adapt the changes of foreground.Then,an efficient and self-adapting patch-based appearance model incorporating the patch-based multiple background patch model is obtained.Finally,the objects can be tracked based on the Bayesian framework.Experiment on more groups video sequence test with challenge demonstrates that the proposed tracking algorithm can effectively suppress the illumination variation,background clutter and deformation and outperform conventional tracking algorithms in robustness and accuracy. object tracking;appearance model;salient foreground model;template updating 2016-01-10 2016-04-20 時間:2016-10-24 國家自然科學基金資助項目(61502005);安徽省自然科學基金(1308085QF100,1408085MF113) 王 安(1990-),男,碩士研究生,研究方向為圖像處理和計算機視覺;方賢勇,教授,通訊作者,研究方向為計算機圖形學和計算機視覺。 http://www.cnki.net/kcms/detail/61.1450.TP.20161024.1105.012.html TP301 A 1673-629X(2016)11-0025-06 10.3969/j.issn.1673-629X.2016.11.006
2 在線貝葉斯目標跟蹤方法





3 實驗結果






4 結束語