邵江南,葛洪偉
(1. 江南大學(xué) 江蘇省模式識別與計算智能工程實驗室,江蘇 無錫 214122; 2. 江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122)
隨著計算機視覺領(lǐng)域的發(fā)展,目標跟蹤在人機交互、視頻監(jiān)控、自動駕駛和機器人等領(lǐng)域得到越來越多的重視和應(yīng)用。早期的跟蹤模型常見的有粒子濾波[1]、Mean shift[2]、相關(guān)濾波[3]及其衍生模型[4-8]等。雖然這些傳統(tǒng)的跟蹤器經(jīng)過近年來的發(fā)展在精度和速度上都有了明顯提升,但是對目標特征的提取仍以光流、外觀形狀、顏色等淺層特征為主,不能捕捉目標語義特征,難以在面對長時跟蹤時目標外觀形變、被遮擋或出視野等情況下保持魯棒跟蹤。而隨著深度學(xué)習(xí)在跟蹤領(lǐng)域的發(fā)展,這些問題正逐漸得到改善。
基于深度學(xué)習(xí)的跟蹤器,能有效利用目標的深度特征對目標進行語義級抽象,并擬合目標的運動過程,這大大提高了跟蹤精度;且模型的特征提取器在離線時得到了大量標記圖片的端到端預(yù)訓(xùn)練,這進一步提高了跟蹤器在線跟蹤速度,使深度學(xué)習(xí)在目標跟蹤領(lǐng)域的應(yīng)用成為可能。由于目標檢測與目標跟蹤具有相似性,檢測領(lǐng)域的很多算法思想都逐漸被應(yīng)用于跟蹤:MDNet[9]在前一幀的目標周圍高斯采樣出大量候選框,再利用預(yù)訓(xùn)練的二分類器區(qū)分候選框中的目標和背景,從而定位目標位置;SiamFC孿生網(wǎng)絡(luò)模型[10]利用同樣結(jié)構(gòu)的CNN(convolutional neural network)網(wǎng)絡(luò)對初始幀目標和當前幀搜索域提取深度特征,然后通過卷積操作進行相似性計算,得到目標在搜索域位置的響應(yīng);RasNet[11]將傳統(tǒng)的相關(guān)濾波引入孿生網(wǎng)絡(luò)中,再把檢測領(lǐng)域的通道注意力、殘差注意力和通用注意力結(jié)合,提高了跟蹤器的泛化能力,增大了對首幀目標信息的利用率。
然而,基于深度學(xué)習(xí)的目標跟蹤算法,需要收集含有目標信息的正樣本,以及含有背景信息的負樣本用于模型的迭代訓(xùn)練。但在實際取樣中,正樣本的可采樣數(shù)量遠遠小于負樣本,且這些負樣本中絕大多數(shù)是無意義的簡單負樣本,對分類器的訓(xùn)練貢獻很少。不僅如此,雖然簡單負樣本的損失值低,但數(shù)量龐大,這些值的累積和很可能掩蓋了正樣本和重要負樣本損失值的變化,從而影響模型訓(xùn)練的收斂速度以及跟蹤器性能。針對這種不均衡問題,MDNet采用檢測領(lǐng)域的難分樣本挖掘[12]技術(shù)篩選難分負樣本,使模型的訓(xùn)練免受大多數(shù)簡單樣本的干擾,但其對難分負樣本的采樣數(shù)量固定,在很多應(yīng)用場景下難以避免地對簡單樣本過多采集;FocalLoss[13]對所有的負樣本損失值進行抑制,但同時降低了有價值的難分樣本對訓(xùn)練的貢獻。
此外,長時跟蹤時目標不可避免地會出現(xiàn)形變、遮擋和出視野等情況,未采用模型在線更新機制的深度跟蹤器往往由于過度依賴首幀特征而導(dǎo)致跟蹤漂移或目標丟失。MDNet保留最近T幀的跟蹤結(jié)果用于更新模型,但這可能導(dǎo)致有價值的保留樣本被新出現(xiàn)的無效樣本替代,同時其忽視首幀目標信息,也使得模型在跟蹤失敗后難以通過有效更新重新定位目標位置;CFNet[14]對當前幀之前的所有跟蹤結(jié)果計算平均值,更新目標模板,同樣,隨著跟蹤的持續(xù),目標模板不斷被污染,最終導(dǎo)致跟蹤漂移,而在目標被遮擋時,這種污染的影響將更加明顯。近年來,隨著深度跟蹤器的骨干網(wǎng)絡(luò)層數(shù)逐漸加深,模型在線更新對跟蹤效率的影響逐漸加大,因此大多數(shù)深度跟蹤器都未引入在線更新策略,但模型更新仍是維持長時跟蹤魯棒性的重要途徑。
針對上述問題,本文結(jié)合MDNet提出了一種深度長時目標跟蹤算法LT-MDNet。通過改進收縮損失函數(shù)和提出一種全新的高置信度保留樣本池,進一步解決類不均衡和模型更新問題。在標準跟蹤數(shù)據(jù)集OTB2015[15]和標準長時數(shù)據(jù)集UAV20L[16]上的實驗結(jié)果表明,LT-MDNet有著優(yōu)越的跟蹤性能并能在長時跟蹤時的遮擋和目標出視野等復(fù)雜情況下保持魯棒性。
MDNet將每一個視頻幀序列視為一個單獨的域,基于VGG-M[17]架構(gòu),提出多域卷積網(wǎng)絡(luò)。如圖1所示,conv1、conv2、conv3、fc4、fc5為域無關(guān)的共享層,初始參數(shù)通過離線訓(xùn)練得出;fc6(fc6i,i=1,2,···,k)為特定域?qū)樱瑓?shù)在每次迭代訓(xùn)練或跟蹤特定域時均隨機初始化,灰色框和白色框分別表示每個域中的正樣本(目標)和負樣本(背景);1 ,2,···,k為離線訓(xùn)練時所迭代訓(xùn)練模型的k個視頻序列。MDNet在共享層中對域無關(guān)的信息建模,從而獲得通用的特征表示,并在fc6層訓(xùn)練一個二分類器,區(qū)分目標與背景,通過將目標跟蹤抽象為一個二分類任務(wù),最終達到跟蹤運動目標的目的。

圖1 MDNet模型主要結(jié)構(gòu)Fig.1 Main architecture of MDNet
MDNet將目標搜索域采樣出的樣本,統(tǒng)一裁剪成107×107大小,輸入圖1的網(wǎng)絡(luò)中,通過網(wǎng)絡(luò)fc6層輸出樣本屬于目標的置信度p,將模型難以判別的負樣本歸為難分樣本。為降低正負樣本不均衡問題對模型在線訓(xùn)練的干擾,MDNet采取了難分樣本挖掘策略,取p值最高的前96個負樣本,再將這組難分樣本和在目標周圍高斯采樣出的32個正樣本結(jié)合,通過式(1)損失函數(shù)和隨機梯度下降算法(stochastic gradient descent, SGD)對模型參數(shù)進行迭代訓(xùn)練更新:

式中:y∈{0,1} 為樣本類別標簽;p∈{x|0≤x≤1} 為樣本屬于目標(y=1)的模型估計概率(置信度)。
本文提出的LT-MDNet算法在MDNet基礎(chǔ)上通過改進收縮損失函數(shù)解決采樣時的類不均衡問題,并提出了高置信度保留樣本池,以魯棒更新模型,使模型能夠有效應(yīng)對長時跟蹤下的遮擋、出視野等復(fù)雜因素。
從式(1)可以看出,當樣本實際為負時,y=0,原式可簡化為式(2),其損失值變化曲線如圖2中虛線所示。


圖2 L (p,0) 和 S (p) 損失值對比曲線Fig.2 Loss comparison curve of L (p,0) andS(p)
可見,模型對樣本的預(yù)測輸出越接近真實樣本標簽0,損失值L越小;預(yù)測越接近1,L越大。但在處理簡單負樣本時,由于負樣本的采樣數(shù)量遠高于正樣本,盡管采樣的負樣本經(jīng)過難分樣本挖掘,簡單負樣本占比仍較大,依然存在類不均衡問題。而圖2中虛線在樣本置信度p∈[0,0.5]的損失值未能被有效抑制,使得大量的較簡單負樣本損失值累加,仍可以掩蓋正樣本和難分負樣本損失值的變化,從而影響模型訓(xùn)練。
為進一步解決上述類不均衡問題,本文結(jié)合文獻[18]的思想,改進了收縮損失函數(shù),在式(1)的基礎(chǔ)上增加了收縮抑制項(見式(3)),通過抑制損失值曲線在p∈[0,0.5]內(nèi)的梯度,降低簡單負樣本的損失值,以突出難分樣本和正樣本損失值的變化對模型訓(xùn)練的貢獻率。

式中:exp(·)能隨著模型輸出的樣本置信度p的變化非線性改變其損失值S(p);a、c為超參數(shù),分別控制損失收縮速度(曲線梯度變化率)和損失值調(diào)節(jié)敏感范圍(S(p)值趨于0時的p區(qū)間)。
式(3)損失值變化曲線如圖2中實線所示,當p<0.5時,損失值幾乎為零,而當p接近1時,損失值迅速增大,比式(2)更有效地非線性抑制了簡單負樣本的損失值,且負樣本越簡單抑制比越大。
在線訓(xùn)練與離線訓(xùn)練存在本質(zhì)區(qū)別:在線訓(xùn)練迭代次數(shù)少,涉及網(wǎng)絡(luò)層不多,且已經(jīng)預(yù)訓(xùn)練的模型在線更新時只需微調(diào)部分參數(shù)即可快速收斂,因此,雖然抑制大多數(shù)負樣本會降低模型的泛化能力,但這樣做允許模型對當前視頻域存在一定程度過擬合,這在提高跟蹤器性能的同時有效降低了訓(xùn)練成本;對p的平方操作,使得簡單負樣本在損失計算時得到進一步抑制。修正后的模型損失函數(shù)如式(4)所示:

式中:δ 為超參數(shù),控制損失收縮比。
為了盡可能地保留有效跟蹤結(jié)果使模型更新更為有效,本文設(shè)計并實現(xiàn)了基于置信度的跟蹤樣本池,保留最近最高置信度的跟蹤結(jié)果樣本,并在池滿時替換置信度最低的保留樣本(第一幀目標永久保留在樣本池中)。置信度評估標準,按照當前幀所采樣的正樣本在fc6層輸出的5個最高分類分數(shù)的均值計算。樣本池的具體工作流程如圖3所示。

圖3 高置信度保留樣本池工作流程Fig.3 Workflow chart of the high-confidence retention sample pool
模型應(yīng)用了短時更新和長時更新2種更新策略,前者當檢測到跟蹤失敗(置信分數(shù)低于0)時利用Spool在線更新模型,后者每隔T幀對模型進行更新以提高跟蹤精度。2種更新策略的結(jié)合,以及高置信度樣本池的應(yīng)用,使LT-MDNet能夠保持對視頻幀環(huán)境變化的適應(yīng)能力,并延長首幀目標特征的時域有效范圍,從而可以很好地應(yīng)對長時跟蹤下的遮擋、出視野等復(fù)雜因素。
LT-MDNet在前幀目標位置周圍高斯采樣出多個候選正樣本,通過預(yù)訓(xùn)練和在線更新后的網(wǎng)絡(luò)模型輸出這些候選樣本的目標置信度f+(·),取置信度最高的5個正樣本的坐標和長寬數(shù)據(jù)的平均值作為當前幀跟蹤結(jié)果,該結(jié)果的置信度為這5個正樣本置信度的均值。算法的主要步驟:
1)輸入視頻幀序列和首幀的目標位置,隨機初始化fc6層的權(quán)值參數(shù)w6;
4)對于第t幀圖像Nt,在Nt?1目標位置周圍高斯采樣候選樣本集合Xt;

8)重復(fù)步驟4)~7)直至目標跟蹤結(jié)束。
本文LT-MDNet算法基于PyTorch 1.2.0編程語言和CUDA 10.0深度學(xué)習(xí)架構(gòu)實現(xiàn),實驗平臺操作系統(tǒng)為Windows 10,處理器為AMD R5-2 600 3.4 GHz,GPU為NVIDIA RTX2070,內(nèi)存16 GB。
為驗證模型的有效性、泛化能力和長時跟蹤性能,分別在OTB2015和UAV20L數(shù)據(jù)集上與MDNet[9]、DSLT[18]、SRDCF[6]、TADT[19]、SiamRPN[20]、CIResNet22-FC[21]、MUSTer[22]和BACF[7]等主流跟蹤模型進行對比實驗,將統(tǒng)計的各數(shù)據(jù)集上所有圖像序列跟蹤結(jié)果平均值作為最終結(jié)果。
模型離線訓(xùn)練于IMAGENET-VID[23]目標檢測數(shù)據(jù)集, 每間隔T=10幀時更新模型參數(shù);首幀模型更新訓(xùn)練迭代50次,學(xué)習(xí)率為0.000 5;非首幀更新迭代15次,學(xué)習(xí)率為0.001;式(3)中的a、c分別設(shè)置為10、0.2,式(4)中 δ 取1.3。為保證實驗的公平性,實驗中所對比的MDNet模型為作者開源的PyTorch版,LT-MDNet模型參數(shù)與MDNet保持一致;其余對比跟蹤器的實驗結(jié)果均來自于作者論文所給出的實驗結(jié)果或使用作者提供的開源代碼和參數(shù)實際運行所得。
本文采用跟蹤成功率(tracking success rate)和跟蹤精度(tracking precision)來比較各跟蹤器的性能。
1)跟蹤成功率[24]。通過計算跟蹤器對目標位置邊界的預(yù)測框(Rt) 和目標真實邊界框(Ra)的重疊率(IoU)來計算:

IoU值越大表示跟蹤器的成功率越高,當IoU>0.5時可認為該幀目標被成功跟蹤,通過計算成功率圖中的曲線下面積(area under curve,AUC)得到模型的跟蹤成功率。
2)跟蹤精度[24]。通過計算Rt的中心位置(xt,yt)與Ra的中心位置(xa,ya)間的歐氏距離來衡量:

兩者的歐氏距離 ε 越小表示跟蹤精度越高。
OTB2015包含100個跟蹤視頻幀序列,含目標遮擋、尺度變化、出視野等11種常見的復(fù)雜跟蹤因素,可有效評估跟蹤器的綜合性能。
圖4(a)、(b)為LT-MDNet和對比跟蹤器在OTB2015數(shù)據(jù)集上對所有視頻幀序列的跟蹤結(jié)果的綜合統(tǒng)計平均曲線圖。可以看出,LT-MDNet的綜合跟蹤精度為91.6%,成功率為68.2%,分別較對比實驗中的最優(yōu)算法提高0.8%和1.1%。
圖4(c)、(d)、(e)、(f)分別為各跟蹤器在OTB2015上關(guān)于目標遮擋、目標出視野的平均跟蹤精度和跟蹤成功率,在這些復(fù)雜因素下,LTMDNet跟蹤效果均為最優(yōu),尤其是對比MDNet,在遮擋因素下均提高了1.8%,在目標出視野因素下則分別提高了2.2%和1.2%。可見,除了綜合性能的領(lǐng)先,LT-MDNet在應(yīng)對目標遮擋、出視野等復(fù)雜因素同樣保持了良好的跟蹤能力和穩(wěn)定性。

圖4 LT-MDNet和對比算法在OTB2015上的跟蹤結(jié)果評估曲線Fig.4 Evaluation plots of the tracking results on OTB2015 of contrast algorithms and LT-MDNet
UAV20L包含20個無人機拍攝的視頻幀序列,這些序列時間跨度大,目標視野變化劇烈,目標形變也更大,有利于評估跟蹤器在長時跟蹤環(huán)境下的有效性和魯棒性。本文基于UAV20L數(shù)據(jù)集與MDNet、TADT、SiamRPN、CIResNet22-FC、BACF、MUSTer和SRDCF等主流長短時跟蹤算法進行了對比實驗,并通過定量分析和定性分析,進一步驗證LT-MDNet在長時跟蹤下的跟蹤性能。
3.4.1 定量分析
圖5(a)、(b)分別為各跟蹤器在UAV20L的平均跟蹤精度和成功率曲線對比圖,可以看出LTMDNet在長時跟蹤數(shù)據(jù)集上性能大幅領(lǐng)先,較最優(yōu)對比模型的精度和成功率分別提升3.7%、2.9%,較MDNet則分別提升7.3%、4.4%。

圖5 LT-MDNet和對比算法在UAV20L上跟蹤結(jié)果評估曲線Fig.5 Evaluation plots of the tracking results on UAV20L of contrast algorithms and LT-MDNet
針對UAV20L所包含的12個不同的視頻屬性,即相機運動(CM)、快速運動(FM)、縱橫比變化(ARC)、相似目標干擾(SO)、光照變化(IV)、背景雜亂(BC)、視角變化(VC)、尺度變化(SV)、低分辨率(LR)、部分遮擋(PO)、全部遮擋(FO)和目標出視野(OV),表1定量展示了LT-MDNet和各對比跟蹤器在應(yīng)對這些復(fù)雜跟蹤因素下的平均AUC數(shù)據(jù)。從表1中可以看出,LT-MDNet在12個視頻屬性中的10個均保持了最優(yōu)或次優(yōu)性能,除在CM、ARC下稍稍落后于MDNet外,其余復(fù)雜跟蹤環(huán)境下均優(yōu)于MDNet。而究其原因,主要是因為訓(xùn)練集中缺少CM和ARC復(fù)雜變化因素,且在線訓(xùn)練時為使模型快速收斂而抑制了大部分簡單背景負樣本對參數(shù)的影響,一定程度上弱化了模型在應(yīng)對未包含在訓(xùn)練集中的復(fù)雜因素時的泛化能力;而在應(yīng)對已知變化因素時,模型則可以通過有效的離線學(xué)習(xí)和魯棒的在線更新機制,迅速適應(yīng)跟蹤視頻域內(nèi)的目標變化并準確定位目標位置。

表1 UAV20L數(shù)據(jù)集上對比算法與本文LT-MDNet在12個視頻屬性上AUC的定量對比結(jié)果Table 1 Quantitative comparison results of the AUC of contrast algorithms and the prossed LT-MDNet algorithm on the 12 video attributes in the UAV20L database
3.4.2 定性分析
為了更為直觀地對比跟蹤器在應(yīng)對長時跟蹤復(fù)雜因素下的實際跟蹤性能,本文選取了UAV20L中較為典型的4組圖像序列,即 uav1、person17、car1、bike1,包含全部12個復(fù)雜跟蹤因素,并選取了在UAV20L上綜合性能最好的5個對比算法(SiamRPN、TADT、MDNet、CIResNet22-FC和SRDCF)與LT-MDNet進行定性實驗對比。圖6著重對跟蹤器在目標快速移動、目標遮擋、目標出視野和目標形變下的實際表現(xiàn)做了展示。


圖6 LT-MDNet與對比算法在uav1、person17、car1和bike1下的定性對比結(jié)果Fig.6 Qualitative comparison results of contrast algorithms and the propossed LT-MDNet algorithm on uav1, person17,car1 and bike1 in the UAV20L database
圖6(a)為對小型飛機這種快速移動的小目標進行跟蹤,在第1 088幀,飛機平穩(wěn)飛行,此時只有LT-MDNet和MDNet可以鎖定目標位置;而在第1 529幀和之后的幀序列里,由于飛機航向、目標背景和航拍角度均劇烈變化,除LT-MDNet能由于模型有效更新操作精確鎖定目標位置外,其余跟蹤器均跟蹤失敗。
圖6(b)中目標行人在第594、1 415幀被樹葉遮擋,此時LT-MDNet較其他對比跟蹤器更能精確捕捉目標輪廓信息,并在隨后持續(xù)穩(wěn)定跟蹤;SRDCF、MDNet和SiamRPN均在目標重現(xiàn)后失去跟蹤能力。
圖6(c)中目標汽車在第1 505幀被遮擋、在第1 927幀出視野,從圖中可以看出,除LT-MDNet和MDNet外其余跟蹤器均在目標被遮擋和出視野時發(fā)生了跟蹤漂移。
圖6(d)中目標小男孩在第2 375幀掉轉(zhuǎn)車頭,目標外觀由男孩正面變成背影,而隨后航拍鏡頭加速向前,目標迅速被甩在后面,其在圖像幀中輪廓尺度也劇烈變化。此時,LT-MDNet仍可準確定位目標位置,并保持對目標橫縱比信息的有效估計,而其余跟蹤器均難以檢測目標的準確輪廓,TADT則徹底跟蹤失敗。
從上述分析可見,LT-MDNet能夠在長時跟蹤下很好地應(yīng)對這些復(fù)雜因素,在目標遮擋、出視野重現(xiàn)時仍能迅速定位目標;對快速位移、劇烈形變下的目標,在經(jīng)過模型更新后可以維持魯棒跟蹤,并且較對比算法能更精確地捕捉目標的輪廓信息。
為進一步驗證LT-MDNet改進的有效性,本文在OTB2015上對模型進行了消融實驗,分別測試在MDNet模型基礎(chǔ)上所做出的2個主要改進:收縮損失(SK)和高置信度保留樣本池(HU),實驗環(huán)境與模型主要超參數(shù)均一致。MDNet+HU、MDNet+SK和LT-MDNet在線跟蹤時速度約為3 f/s,與MDNet持平,跟蹤成功率(Succ)與跟蹤精度(Prec)對比數(shù)據(jù)如表2所示。實驗結(jié)果表明,高置信度保留樣本池和收縮損失函數(shù)均能在不影響跟蹤速度的情況下有效提高跟蹤器的定位精度和成功率,且兩者結(jié)合能夠協(xié)同提高跟蹤器性能。

表2 LT-MDNet模型在OTB2015數(shù)據(jù)集上的消融實驗結(jié)果Table 2 Ablation study results of the LT-MDNet algorithm in the OTB2015 database
針對長時跟蹤時的目標遮擋和出視野問題,本文提出了一種能夠有效在線更新的深度跟蹤算法LT-MDNet。在難分樣本挖掘的基礎(chǔ)上,引入改進的收縮損失函數(shù),進一步抑制簡單負樣本的損失值,以緩和類不均衡問題;在模型在線追蹤運動目標時,設(shè)計了一種全新的高置信度保留樣本池,對在線跟蹤時的高置信度正樣本進行保留,并在池滿時替換最低置信度的保留樣本,首幀樣本則長期保存在池中;當模型檢測到跟蹤失敗以及跟蹤達到特定幀間隔時,利用保留樣本池進行在線訓(xùn)練更新模型,以維持跟蹤器的長期魯棒性。在OTB2015標準數(shù)據(jù)集和UAV20L長時跟蹤數(shù)據(jù)集上與主流跟蹤算法對比,LT-MDNet在跟蹤精度和成功率上均保持了優(yōu)越的性能,并能很好地應(yīng)對目標遮擋和出視野問題。接下來的工作將探索在不同跟蹤環(huán)境下自適應(yīng)收縮比 δ 和其他收縮損失超參數(shù)的值來進一步提高模型的泛化能力。