劉 滿,胡 磊,寧紀(jì)鋒,劉 揚(yáng)
西北農(nóng)林科技大學(xué) 信息工程學(xué)院,陜西 楊凌 712100
目標(biāo)跟蹤是基于給定的初始幀,學(xué)習(xí)一個跟蹤模型,在隨后的幀中估計目標(biāo)的位置和尺度變化。其在人機(jī)交互、視頻監(jiān)控、行為分析和醫(yī)學(xué)圖像分析等領(lǐng)域有著廣泛的應(yīng)用。但是,由于運(yùn)動過程中復(fù)雜的視點、尺寸、光照和遮擋引起的目標(biāo)表面狀態(tài)變化,視覺目標(biāo)跟蹤仍面臨著許多困難[1]。
當(dāng)前基于深度學(xué)習(xí)的目標(biāo)跟蹤方法大多基于VGG和ResNet等骨干網(wǎng)絡(luò),在大規(guī)模數(shù)據(jù)集上訓(xùn)練一個特征提取器,繼而利用分類網(wǎng)絡(luò)[2-3]、孿生網(wǎng)絡(luò)[4]、相關(guān)濾波[5-6]等深度學(xué)習(xí)模型構(gòu)造一個分類器,以魯棒地跟蹤目標(biāo)。根據(jù)表面模型類型,可以將跟蹤方法劃分為基于顯式模板和隱式模板的跟蹤器[1,7]。基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤方法屬于前者,其將目標(biāo)分支作為表面模型,通過相關(guān)濾波的方式,在搜索區(qū)域分支中尋找與目標(biāo)相似的區(qū)域;基于隱式模板的跟蹤方法,將表面模型作為最后一層卷積層的參數(shù)進(jìn)行在線學(xué)習(xí),以反映目標(biāo)表面模型的動態(tài)變化,這類方法的精度通常優(yōu)于基于孿生網(wǎng)絡(luò)的顯式模板跟蹤方法。隱式模板的代表性工作多域網(wǎng)絡(luò)跟蹤方法MDNet[2],將卷積神經(jīng)網(wǎng)絡(luò)劃分成共享層和域特定層,共享層通過在數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)魯棒的初始特征提取器,在跟蹤特定視頻時,域特定層進(jìn)行再訓(xùn)練,以生成一個特定域的視覺跟蹤分類器。RT-MDNet[8]采用自適應(yīng)池化層快速提取候選區(qū)域特征,通過判別性更強(qiáng)的示例特征訓(xùn)練機(jī)制,使得MDNet具有實時性。王殿偉等[3]使用長短期記憶網(wǎng)絡(luò)在RT-MDNet中構(gòu)建尺度預(yù)測模塊,自適應(yīng)選取目標(biāo)框尺寸,以解決全景數(shù)據(jù)存在的尺度變化問題。
當(dāng)前,基于隱式模板和顯式模板的視覺跟蹤方法都需在大型數(shù)據(jù)集上訓(xùn)練特征提取器。在跟蹤特定視頻時,進(jìn)行微調(diào)以自適應(yīng)特定域的跟蹤對象,但這種基于傳統(tǒng)的深度學(xué)習(xí)訓(xùn)練方式得到的跟蹤器并不是最優(yōu)的。MetaTracker[9]首次將元學(xué)習(xí)引入視覺目標(biāo)跟蹤領(lǐng)域,通過采用MAML[10]元學(xué)習(xí)的方式,將復(fù)雜的多域簡化為單域,訓(xùn)練一個魯棒的特征初始化提取器,改進(jìn)了MDNet的跟蹤結(jié)果,但其并不是域自適應(yīng)的。最近,基于元學(xué)習(xí)的小樣本檢測[11]將類別先驗信息有效地融入特征提取階段,進(jìn)一步提高了目標(biāo)檢測的魯棒性。但是,與小樣本檢測中的類特定注意力問題不同,視覺跟蹤中需解決的問題是如何有效判別目標(biāo)域與背景域,使用目標(biāo)特定的注意力機(jī)制對視覺跟蹤有著重要的影響。
基于隱式模型的RT-MDNet方法,通過將視頻序列的正負(fù)樣本得到域特定對象原型作為目標(biāo)注意力,與搜索區(qū)域的特征圖像進(jìn)行通道相乘,實現(xiàn)特征提取過程的域自適應(yīng),以得到判別力更強(qiáng)的目標(biāo)表示,從而增強(qiáng)RTMDNet方法的跟蹤性能。在兩個代表性的跟蹤數(shù)據(jù)集OTB100[12]和TrackingNet[13]上的實驗結(jié)果表明,提出的Proto-MDNet在成功率和精度兩個指標(biāo)上分別勝出原始的RT-MDNet跟蹤方法2.2%和2.7%,與代表性的跟蹤方法相比仍具有競爭性。
1.1.1 網(wǎng)絡(luò)結(jié)構(gòu)
在RT-MDNet中,將目標(biāo)搜索區(qū)域圖像作為輸入,以VGG-M為骨干網(wǎng)絡(luò),經(jīng)過三個卷積層(Conv1~Conv3)共享映射得到特征圖。接著,采用自適應(yīng)RoIAlign池化層提取每一個感興趣區(qū)域的示例特征,經(jīng)過兩個視頻域共享的全連接層(FC4~FC5),得到每一個示例區(qū)域的最終特征映射。最后一個卷積層(FC6)作為特定對象的分類器,將目標(biāo)的表面模型作為卷積層參數(shù),對每個RoI區(qū)域的示例特征進(jìn)行二分類評價,得到其屬于目標(biāo)和背景的分?jǐn)?shù)。
在預(yù)訓(xùn)練階段,每個視頻對應(yīng)一個域,每一個域是一個二元分類器,通常定義為,其中,D為視頻數(shù)據(jù)集的總數(shù)。在線跟蹤階段,F(xiàn)C6被替換為一個使用交叉熵?fù)p失的二元分類器,利用初始幀數(shù)據(jù)微調(diào),以適應(yīng)特定目標(biāo)對象的跟蹤。
1.1.2 判別式嵌入示例損失
原始MDNet在預(yù)訓(xùn)練時,僅考慮區(qū)分每一個域的正負(fù)樣本,但未考慮不同域的可分性,限制了模型對未看見樣本的判別式學(xué)習(xí)能力。針對這個問題,RT-MDNet提出一種判別式示例嵌入損失,對于不同域的目標(biāo)會在嵌入空間彼此遠(yuǎn)離,增強(qiáng)不同域?qū)ο蟮恼Z義判別性,從而增強(qiáng)預(yù)訓(xùn)練模型的特征提取能力。該方法可增強(qiáng)多域網(wǎng)絡(luò)目標(biāo)跟蹤方法的性能,具體參見文獻(xiàn)[8]。
原型網(wǎng)絡(luò)[14]是基于度量的元學(xué)習(xí)方法,它為每個已知類別構(gòu)造一個原型表示(prototype)。一個類別的原型是該類樣本在嵌入空間中的特征均值。通過計算未知樣本的嵌入特征與已知類別原型間的距離進(jìn)行分類。一個未知查詢樣本x*屬于類k的概率P定義為:

式中,g(x*)表示樣本x*的嵌入特征,ck是第k類的原型,由類k的支撐集示例的嵌入平均值表示。
在原型網(wǎng)絡(luò)的元學(xué)習(xí)過程中,首先根據(jù)支撐集計算每個類別的原型,然后在查詢集中計算每個樣本對應(yīng)支撐集中每個類別的概率,從而計算出損失。通過支撐集得到原型再與查詢集計算距離的過程是模型積累經(jīng)驗指導(dǎo)未知任務(wù)學(xué)習(xí)的過程,這種泛化能力對目標(biāo)跟蹤非常重要。
RT-MDNet特征提取過程采用的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)并不是域特定的,限制了其特征提取的判別能力。因此,如果在特征提取階段將域特定信息融入特征圖,將有助于訓(xùn)練判別能力更強(qiáng)的特征提取網(wǎng)絡(luò),從而增強(qiáng)目標(biāo)跟蹤模型的性能。
借鑒元學(xué)習(xí)的訓(xùn)練方式,對由第一幀樣本構(gòu)成的支撐集使用基于原型網(wǎng)絡(luò)的元學(xué)習(xí)方法分別提取目標(biāo)和背景示例樣本的原型特征,然后使用CBAM[15]的通道注意力模塊CAM(channel attention module)學(xué)習(xí)通道注意力向量,將其與由跟蹤結(jié)果組成的查詢集樣本提取的卷積特征進(jìn)行逐通道點乘融合,分別得到關(guān)于前景、背景特定的目標(biāo)對象域特征,最后這些域特定的卷積特征再與原始的卷積特征進(jìn)行加權(quán)融合,從而增強(qiáng)分類任務(wù)的判別性。
圖1是提出的基于原型網(wǎng)絡(luò)的通道注意力模塊結(jié)構(gòu)。在CAM注意力模塊中,原型向量(目標(biāo)和背景)分別經(jīng)過一個最大池化和平均池化進(jìn)行壓縮,使得特征信息選擇性地聚合在特征圖的全部位置上,具有關(guān)聯(lián)信息的重要通道特征轉(zhuǎn)換成向量通道,之后經(jīng)過通道降維、上采樣、求和等多層感知操作,整合特征圖得到重要關(guān)聯(lián)通道的特征信息,經(jīng)過Sigmoid非線性函數(shù)激活后即為目標(biāo)原型的注意力特征,上述過程表示為:

圖1 基于域特定對象(目標(biāo)和背景)原型的通道注意力模塊Fig.1 CAM based on domain specific(target and background)prototype

式中,C為原型特征,σ為sigmoid操作。
通過原型注意力機(jī)制,得到具有域特定信息的前景和背景注意力向量,將其與RT-MDNet的特征提取網(wǎng)絡(luò)結(jié)合,提出一種基于原型注意力的域自適應(yīng)多域網(wǎng)絡(luò)跟蹤方法Proto-MDNet。圖2是提出的跟蹤算法框架圖,采用VGG骨干網(wǎng)絡(luò)作為特征提取模塊,支撐集和查詢集圖像經(jīng)過共享的特征提取網(wǎng)絡(luò)后得到特征映射。基于目標(biāo)和背景的候選區(qū)域RoI,采用精準(zhǔn)池化模塊(PrPool)[16]提取目標(biāo)和背景區(qū)域示例嵌入特征,精準(zhǔn)池化模塊利用積分的思想對所求區(qū)域內(nèi)的數(shù)值求和后與區(qū)域面積做比值。計算池化后特征均值作為特定目標(biāo)對象的原型,該過程可用式(3)表示:

圖2 基于原型注意力的多域網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Prototype attention based multiple domain network structure diagram

其中,S={(x1,y1),(x2,y2),…,(xN,yN)},Sk代表第k個視頻序列的樣本,fφ(x)為精準(zhǔn)池化模塊,xi∈R為ROI特征,yi∈{0,1}是對應(yīng)的前景(或背景)的類別標(biāo)簽。
目標(biāo)對象的原型特征經(jīng)過圖1所示的注意力模塊CAM的處理,分別得到前景和背景的注意力向量,獲得目標(biāo)對象的域特定信息。從支撐集分支得到這些ROI原型注意力向量后,分別與查詢集分支提取到的特征進(jìn)行逐通道點乘操作,再將得到的結(jié)果相加。這樣做可以利用通道注意力機(jī)制得到更具判別性的特征。網(wǎng)絡(luò)末端部分與RT-MDNet結(jié)構(gòu)類似,經(jīng)過精準(zhǔn)池化模塊,每個RoI特征圖經(jīng)過兩個全連接層(FC4~FC5)得到高層語義特征,并經(jīng)過FC6進(jìn)行分類評價。
給定第k個視頻序列的輸入圖像以及其中s表示支撐集,q表示查詢集。R表示候選區(qū)域建議框集合。網(wǎng)絡(luò)預(yù)測的分?jǐn)?shù)記作Dk,則Proto-MDNet的預(yù)測過程可以定義為:

其中,f(;θ)為以θ為參數(shù)的骨干網(wǎng)絡(luò)(Conv1~Conv3),g(;φ)為以φ為參數(shù)的全連接層FC4~FC6,其中全連接層最后的輸出被送入Softmax函數(shù)。



使用交叉熵?fù)p失作為最終的損失函數(shù),得到Proto-MDNet算法的損失如下:

當(dāng)Proto-MDNet網(wǎng)絡(luò)預(yù)訓(xùn)練完成后,類似于RTMDNet,使用一個隨機(jī)初始化的二元分類器替換預(yù)訓(xùn)練模型的最后一個全連接層FC6,在線跟蹤過程中通過微調(diào)(fine-tune)的方式使模型快速適應(yīng)新的域。在初始化階段,將第一幀加入支撐集,并對第一幀進(jìn)行數(shù)據(jù)增強(qiáng),產(chǎn)生額外6張圖像加入查詢集。對于每張圖像,使用RT-MDNet的采樣方式,得到500個正樣本,5 000個負(fù)樣本(正負(fù)樣本按照與目標(biāo)真實邊界框的IoU值作為劃分依據(jù),大于0.7為正樣本,小于0.5為負(fù)樣本)。在模型微調(diào)階段,使用隨機(jī)梯度下降算法,進(jìn)行30次迭代,初始學(xué)習(xí)率為0.000 5,權(quán)重衰減以及動量參數(shù)分別為0.000 5以及0.9。FC6的學(xué)習(xí)率是其他全連接層(FC4~FC5)的10倍。每次迭代過程中,首先通過支撐集的樣本學(xué)習(xí)目標(biāo)、背景的注意力向量,然后從查詢集中隨機(jī)選取2張圖像以及對應(yīng)的正負(fù)樣本,通過骨干網(wǎng)絡(luò)提取特征并應(yīng)用注意力向量,通過前向傳播對特征分類,反向傳播對模型更新以適應(yīng)新的域。
在線跟蹤時,將第一幀及其增強(qiáng)圖像作為支撐集,得到其原型注意力特征,與后續(xù)幀經(jīng)過骨干網(wǎng)絡(luò)提取的特征進(jìn)行域自適應(yīng)融合,以得到用于全連接層的輸入特征。對于模型更新,參考RT-MDNet的長短期更新策略,對模型進(jìn)行微調(diào),以適應(yīng)目標(biāo)在跟蹤過程中出現(xiàn)的外觀變化。在線更新的迭代次數(shù)為5,學(xué)習(xí)率為0.000 6。原型注意力特征只需在由第一幀構(gòu)成的支撐集上計算一次,故其對在線跟蹤速度影響不大,仍能達(dá)到實時跟蹤。
在LaSOT[17]單目標(biāo)跟蹤數(shù)據(jù)集上進(jìn)行離線訓(xùn)練,該數(shù)據(jù)集包含超過352萬幀手工標(biāo)注的圖片和1 400個視頻序列。共分為70個類別,每個類別由20個視頻序列組成,每個視頻序列平均包含2 512幀圖像。離線訓(xùn)練時使用帶預(yù)訓(xùn)練參數(shù)的VGG-M網(wǎng)絡(luò)進(jìn)行訓(xùn)練,隨機(jī)初始化后面的全連接層。每次迭代過程中,從視頻中隨機(jī)抽取4幀,3幀作為支撐集,1幀作為查詢集。每幀取32個正樣本(IoU≥0.7)和96個負(fù)樣本(IoU≤0.5),共同組成一個小批量樣本。訓(xùn)練采用隨機(jī)梯度下降法進(jìn)行訓(xùn)練,共進(jìn)行1 000次迭代,學(xué)習(xí)率為0.000 1。
評估時使用OTB100[12]與TrackingNet[13]兩個基準(zhǔn)數(shù)據(jù)集。OTB100包含100個測試視頻,包含遮擋、快速移動、光照、尺度形變等11個具有難度的干擾場景模擬。TrackingNet是一個針對目標(biāo)跟蹤的大規(guī)模跟蹤基準(zhǔn)測試集,包含511個測試視頻序列,平均視頻長度高于OTB100,更多測試序列可更客觀的評價算法,驗證算法的魯棒性。
評價指標(biāo)采用OTB基準(zhǔn)測試工具中提出的一次性評估(one-pass evaluation,OPE)策略,使用目標(biāo)的真實位置初始化第一幀,然后運(yùn)行跟蹤算法,通過算法運(yùn)行結(jié)果計算每個算法的平均精度和成功率,通過繪制的精度圖和成功率圖評價算法性能。其中,精度指算法目標(biāo)框中心點坐標(biāo)與真實值的誤差,在給定閾值范圍內(nèi)即視為跟蹤成功。計算跟蹤成功的視頻幀數(shù)占全體視頻的百分比值繪制出算法的精度圖。成功率則采用算法預(yù)測的目標(biāo)框與真實邊框的IoU值,即重合度(overlap)。計算IoU值大于給定閾值的視頻幀數(shù)占總體視頻幀數(shù)的百分比值,繪制成功率圖。實驗中,精度圖與成功率圖分別采用通用閾值20像素與50%。
實驗的硬件配置環(huán)境為英特爾Intel?CoreTMi7-7700K CPU,NVIDIA TITAN Xp GPU,32 GB內(nèi)存。操作系統(tǒng)為Ubuntu 16.04 LTS,深度學(xué)習(xí)框架為Pytorch 0.4.1,編程語言及版本為Python 3.6.5。
3.2.1 OTB100實驗結(jié)果
選取9個具有代表性的跟蹤算法在OTB100[12]上進(jìn)行比較,包括實時多域卷積網(wǎng)絡(luò)算法RT-MDNet[8]、高效卷積算法ECO[18]、空間約束相關(guān)濾波器SRDCF[19]、長短時記憶算法MUSTer[20]、多專家模型算法MEEM[21]、核相關(guān)濾波算法KCF[22]、判別式相關(guān)濾波算法DCF[5]、基于平移的多尺度核相關(guān)濾波算法SAMF、尺度估計濾波算法DSST[23]等。為了保證算法間比較的公平性,以上算法均采用原文中提供的默認(rèn)參數(shù),最大化還原算法性能。
圖3為算法在OTB100的評價結(jié)果圖,表1為部分代表性算法的跟蹤速度比較表。可以看出,提出的Proto-MDNet算法成功率和精確率為65.6%和88.9%,分別超出RT-MDNet算法2.2和2.7個百分點,驗證了提出的原型注意力具有域自適應(yīng)性優(yōu)勢,可以增強(qiáng)跟蹤方法的性能。與ECO算法相比,在成功率上低1.3個百分點,在精確率上超出了0.1個百分點。

圖3 在OTB100上的成功率和精準(zhǔn)度實驗結(jié)果比較Fig.3 Experimental comparisons on OTB100 benchmark under success and precision index
但是,Proto-MDNet算法速度遠(yuǎn)快于ECO。所使用的原型網(wǎng)絡(luò)是經(jīng)典的元學(xué)習(xí)方法,元學(xué)習(xí)訓(xùn)練方式可以使模型快速自適應(yīng),原型注意力特征僅需在支撐集更新時計算一次,在線跟蹤中不會成為速度瓶頸。從表1可以看出,算法在OTB基準(zhǔn)測試中的跟蹤速度達(dá)到了28.4 frame/s,具有實時跟蹤的能力。與其他代表性算法相比也具有競爭的能力。

表1 在OTB100數(shù)據(jù)集上的跟蹤速度比較Table 1 Comparisons of Tracking Speed on OTB100 benchmark
3.2.2 TrackingNet實驗結(jié)果
表2是Proto-MDNet與ECO、RT-MDNet、ECO-HC、SRDCF、CFNet[24]、CSR-DCF、SiamFC等代表性跟蹤方法在TrackingNet[13]的實驗結(jié)果統(tǒng)計。可以看出,Proto-MDNet在成功率和精準(zhǔn)度指標(biāo)上均優(yōu)于RT-MDNet方法0.2個百分點,勝出ECO算法4.3和64.6個百分點,且超過其他所有代表性算法。在具有更多序列的TrackingNet數(shù)據(jù)集上的結(jié)果表明提出的原型注意力可以增強(qiáng)算法域自適應(yīng)性,從而達(dá)到更準(zhǔn)確的跟蹤效果。

表2 TrackingNet數(shù)據(jù)集實驗結(jié)果Table 2 Experimental result on TrackingNet benchmark 單位:%
3.2.3 典型視頻序列跟蹤結(jié)果
本文選取四個視頻序列的實驗結(jié)果進(jìn)行算法定性分析。圖4是OTB100中Jump、Soccer、Woman、Tiger四個視頻序列跟蹤結(jié)果圖,圖中紅色矩形框為Proto-MDNet的預(yù)測框,藍(lán)色矩形框為RT-MDNet算法的預(yù)測框,綠色框為人工標(biāo)注的真實目標(biāo)物體輪廓。左上角數(shù)字為該幀在視頻序列中的序號。

圖4 四個代表性視頻序列的跟蹤結(jié)果Fig.4 Tracking results of four representative video sequences
這些視頻序列分別呈現(xiàn)出目標(biāo)運(yùn)度速快、姿態(tài)變化大、無規(guī)律運(yùn)動、嚴(yán)重遮擋和背景復(fù)雜等情況。通過對圖4的觀察與分析,可以看出,當(dāng)遇到這些挑戰(zhàn)時,提出的Proto-MDNet的定位準(zhǔn)確性優(yōu)于RT-MDNet跟蹤方法,表明域自適應(yīng)優(yōu)化的有效性,即使由于遮擋導(dǎo)致在視野中只保留部分目標(biāo),提出的Proto-MDNet算法仍能準(zhǔn)確地識別目標(biāo)域與背景域的差別,準(zhǔn)確而快速地辨認(rèn)出目標(biāo)進(jìn)行實時跟蹤。
針對基于深度學(xué)習(xí)的跟蹤算法缺少域自適應(yīng)能力,從而導(dǎo)致訓(xùn)練模型判別能力弱和跟蹤準(zhǔn)確度低等問題,本文利用元學(xué)習(xí)領(lǐng)域的原型網(wǎng)絡(luò)方法提取跟蹤對象的域注意力特征,并與RT-MDNet跟蹤算法融合,提出一種域自適應(yīng)的原型注意力方法,改進(jìn)跟蹤方法的性能。在提出的方法中,根據(jù)獲取的目標(biāo)前景和背景原型,采用通道注意力機(jī)制獲取跟蹤對象的域特定信息,并與特征圖進(jìn)行通道自適應(yīng)融合,從而得到判別能力更強(qiáng)的域自適應(yīng)多域網(wǎng)絡(luò)跟蹤算法。
提出的方法在OTB100和TrackingNet兩個代表性跟蹤數(shù)據(jù)集上進(jìn)行評價。實驗結(jié)果表明,提出的Proto-MDNet方法在成功率和精確率總體優(yōu)于RT-MDNet方法。同時,與當(dāng)前代表性的跟蹤方法相比,跟蹤結(jié)果也具有競爭性。在未來工作中將考慮引入判別性更強(qiáng)的原型注意力機(jī)制,以加強(qiáng)跟蹤算法的域自適應(yīng)性,實現(xiàn)更好的跟蹤性能。