王希鵬,李 永,李 智,梁起明
武警工程大學 信息工程學院,西安 710086
目標跟蹤是計算機視覺研究領域的熱點之一,目標跟蹤技術被廣泛應用于自動駕駛、智能視頻監控、軍事偵察、人機交互等多個方面。單目標跟蹤是指在給定第一幀目標框的情況下,在視頻的后續幀中自動地標出該目標的位置和大小。早期的單目標跟蹤算法以相關濾波為主,當視頻場景中出現感興趣目標時,濾波器會產生相關響應峰值,而對于背景產生較低的響應值,這類濾波器非常適用于目標定位的應用場景。KCF[1]算法在CSK[2]算法的基礎上做出了改進,KCF擴展了多通道特征,采用HOG特征。直到現在,KCF算法依然憑借其速度方面的優勢,在工業界被廣泛使用。2012年的AlexNet[3]網絡的提出是深度學習的開端,之后,深度學習被廣泛應用于目標識別和目標檢測領域。而在目標跟蹤領域,基于深度學習的方法一直無法超過傳統算法。近幾年,隨著目標檢測數據集的擴充,跟蹤標準的完善,深度學習模型的不斷優化,使得基于深度學習的目標跟蹤方法取得了很好的成績。隨著深度學習方法的廣泛應用,目標跟蹤領域也開始考慮引入深度學習模型建立全新的跟蹤框架。SINT[4]是第一個使用Siamese網絡解決目標跟蹤問題的算法。SiamFC[5]算法由于是端到端的跟蹤網絡,速度方面有了很大的提升,這使得基于Siamese神經網絡的跟蹤器真正地流行了起來。CFNet[6]與SiamFC中的思路相似,不同之處在于將相關濾波(CF)整合為一個網絡層,并將其嵌入到基于Siamese網絡的框架中。Dsiam[7]在SiamFC框架的基礎上添加了目標外觀變換轉換層和背景抑制變換層來提升網絡的判別能力,增強了模型在線更新的能力。SINT++[8]使用了自編碼器和生成式對抗網絡來生成多樣性的輸入正樣本塊。SA-Siam[9]使用雙網絡分別學習不同的特征,在網絡分支添加注意力機制和多層特征的融合。RASNet[10]同樣使用了注意力機制,使得網絡可以根據目標的變化而自適應地進行調整。
目前的目標跟蹤大多是短時跟蹤,而在實際應用場景中,長時間目標跟蹤的應用更廣泛。近年來,隨著LaSOT[11]、TrackingNet[12]等幾個數據集的公布,長時跟蹤開始受到更多的關注。與短時跟蹤相比,長時跟蹤中一個視頻序列的幀數更多,場景更復雜。大多數長期視覺跟蹤前期采用離線訓練的Siamese網絡結構,因此無法從在線更新得到性能提升。但是,由于長期的不確定性,直接引入在線更新策略是非常冒險的,不一定會得到更好的性能。
長時視覺跟蹤比短期跟蹤更接近實際應用。在基于相關濾波的目標跟蹤算法中,LCMF[13]算法提出利用跟蹤置信度APCE進行模板更新,之后的很多基于模型更新的目標跟蹤器在APCE的基礎上進行改進[14-15]。Wang等[16]提出將相關濾波跟蹤器和重檢測模塊組合成長時跟蹤器。Zhang等[17]提出了一種時空感知的相關濾波器,對時空信息進行建模,同時設計重檢測機制對大量候選目標框進行采樣和評估以優化跟蹤結果。基于相關濾波的長時跟蹤算法中的重檢測機制大多采用粒子濾波采樣,計算量大,很難達到實時性要求。
本文針對長時跟蹤問題對Siamese網絡進行改進,在SiamFC算法的基礎上,對網絡多層特征進行融合,提升網絡對目標的判別性,設計一個短時記憶模塊,將響應圖加權疊加,使算法更適應目標的動態變化,減少目標的跟蹤漂移。為驗證本文算法的性能,在OTB2015和GOT-10K數據集上進行測試,與當前6種主流跟蹤算法比較,本文算法能夠有效提升跟蹤性能,在跟蹤成功率和精確度上均高于其他對比算法。
本文在SiamFC的基礎上,對AlexNet網絡進行多層特征融合,提高了網絡的特征提取能力。同時,引入了短時記憶模塊,通過視頻局部信息增強算法對跟蹤目標的判別性,提升目標跟蹤性能。
Siamese網絡主要用來衡量輸入樣本的相似性。SiamFC分為模板分支和搜索區域分支,模板分支是輸入x大小為127×127×3,經過特征提取網絡φ,可以得到一個6×6×128的卷積核φ(x)。搜索區域分支輸入z大小為255×255×3,經過特征提取網絡φ,得到一個22×22×128的候選區域φ(z)。φ(x)與φ(z)進行互相關操作,得到一個17×17×1的響應圖,如公式(1)所示,*代表互相關運算。從響應圖中選取響應最大的位置,作為目標當前的位置,進行多尺度測試,得到目標當前的尺度,如公式(2)所示:

SiamFC損失函數采用logistic損失函數,對于輸出響應圖中每個點的損失,計算公式如下:

v為網絡輸出的響應圖中每個點的值,y為該點的標簽,表示該點是否屬于標注的目標,y∈{-1,1}。公式(3)為響應圖中每個點的對應loss值,而對于響應圖整體的loss,則采用所有點loss的均值,即:

其中,D是得到的響應圖,u為D中的某一值,||D為響應圖的大小。
特征提取對于目標跟蹤非常重要,網絡特征提取能力的增強可以提升跟蹤精度[18-19]。近些年中,DenseNet[20]和SENet[21]均采用了特征融合的思想,將高層特征和底層特征結合在一起,提升了特征提取能力。將SiamFC算法中AlexNet網絡的第三個卷積層得到的底層特征和第五個卷積層得到的高級語義特征進行融合,使最后經網絡提取的特征既包含了底層特征,也包含了高級語義特征。表1中列出了網絡中各層參數、特征的大小和特征維度,過渡層C6的作用是改變C3層輸出特征大小,深度不變,通過步長為1的卷積核使寬和高與C5層輸出一致,通過通道數可以看出,輸出通道數為C5和C6通道數相加得到的。網絡結構示意圖如圖1所示。

表1 基于多層特征融合的SiamFC網絡結構Table 1 SiamFC network structure based on multi-layer feature fusion

圖1 基于多層特征融合的SiamFC網絡結構Fig.1 SiamFC network structure based on multi-layer feature fusion
圖2 為各層卷積特征圖可視化結果,分別取Box、Basketball、David3視頻序列中的某一幀搜索區域進行特征提取。第二個卷積層的底層特征通過修改維度與第五個卷積層輸出高層特征拼接。多層特征的融合,增強了網絡對跟蹤目標的判別性,提高了跟蹤算法的跟蹤性能。

圖2 各層卷積特征圖可視化Fig.2 Visualization of convolutional feature maps of each layer
在目標檢測領域,Chen等[22]提出整合大量的全局信息和局部信息來輔助關鍵幀的檢測,顯著提升了視頻物體檢測器的性能。目前基于Siamese的目標跟蹤算法大多以第一幀目標框為模板,之后將每一幀的搜索區域的特征和初始模板的特征進行互相關操作,確定跟蹤目標的位置。而在視頻目標跟蹤中,目標不是靜止不動的,這使得跟蹤面臨很多困難:目標遮擋,光照變化、目標快速運動等,這些都會造成目標特征的變化。但反過來,視頻目標跟蹤意味著可以利用時序上的相關性來輔助目標跟蹤。人們可以根據一些歷史信息,如位置、語義信息,來判斷這個外觀發生變化或者被遮擋的物體是否是跟蹤目標。因此利用好時序信息輔助質量比較差的幀上的目標跟蹤是一個重要的研究方向。
本文考慮時序信息輔助目標跟蹤,設計了一個短時記憶模塊。如圖3算法流程所示,記憶模塊將每一幀的跟蹤目標的特征保存下來。歷史幀數過多,會影響運算速度,占用內存,本文短時記憶模塊中歷史幀數為3,即保存當前幀的前3幀目標的深度特征。當前幀搜索區域特征φ(x)與歷史幀特征φ(mt-1)、φ(mt-2)、φ(mt-3)分別進行相關運算,得到3個響應圖f(x,mt-1)、f(x,mt-2)、f(x,mt-3)。短時記憶模塊中的三個響應圖代表當前幀與前三幀跟蹤目標的相似度,而前三幀的跟蹤目標可能由于跟蹤錯誤和誤差導致不是真實目標的位置,這就需要對響應圖進行修正。max(f(x,mt))為當前的第t幀與初始幀的響應值最大值,數值在0到10之間,值越大,表示當前越可能是跟蹤目標,本文為降低跟蹤錯誤帶來的影響,將此最大響應值映射到0和1之間,再進行平方,得到的值作為修正權值γt,如式(5)所示:


圖3 算法流程Fig.3 Algorithm flow
修正權值γ的作用是避免被錯誤地跟蹤目標污染短時記憶模塊輸出的響應圖。R t-1表示t-1幀經過修正之后的響應圖R t-1=γt-1f(x,mt-1)。如果歷史幀跟蹤錯誤,最大響應值會減小,與響應圖相乘之后,可以減小當前搜索區域與錯誤目標的響應圖在輸出值中的權重。將修正過后的3個響應圖進行平均后得到短時記憶模塊輸出的響應圖f(x,mt),公式如下:

搜索區域特征x與初始模板特征互相關得到響應圖f(x,z)。兩個特征圖進行加權融合,得到一個新的響應圖F(x,m,z),此響應圖的最大值即為目標最終的位置,公式如下:

本文算法基于Python3.6實現,硬件實驗環境為AMDRyzen7 2700X CPU、主頻3.7 GHz、內存16 GB、顯卡GeForce GTX1080配置的計算機。訓練數據采用GOT-10K[23],epoch次數為50,批大小batchsize為8。測試數據集為OTB2015[24]和GOT-10K數據集。OTB2015數據集包含100段視頻,每個視頻序列包含了11個屬性。GOT-10K評估數據集包含180段視頻。
評估指標采用跟蹤精確度和跟蹤成功率。跟蹤精確度反映了跟蹤算法估計的目標位置中心點與標注的中心點之間的距離。跟蹤成功率反映了算法估計的目標位置與標注位置之間的重合程度。
(1)目標跟蹤成功率
a為跟蹤算法得到的目標框,b為標注的目標框,||·表示區域內的像素數目,當某一幀的os大于設定的閾值時,則該幀被視為成功的,成功幀的總數占所有幀的百分比即為成功率。os的取值范圍為0~1,因此可以繪制出一條曲線。

(2)目標跟蹤精確度
跟蹤精確度計算了跟蹤算法估計的目標位置中心點與標注的中心點之間的距離小于給定閾值的視頻幀所占的百分比。不同的閾值得到的百分比不一樣,因此可以得到一條曲線。
對于公式(7)中的權值λ,太大或太小都會引起跟蹤漂移。本文賦予基準跟蹤器響應得分更大的權重,λ∈[0.7,1],本文通過在OTB2015數據集中的跟蹤結果確定λ取值為0.85。表2為λ取不同值時的跟蹤成功率和精確度。

表2 λ不同取值下的跟蹤結果Table 2 Tracking results of different λvalues
本文算法在OTB2015數據集中與5個跟蹤算法進行比較:SiamFC、SRDCF[25]、CFNet、Staple[26]、fDSST[27]。圖4為6種算法在OTB2015數據集中的跟蹤精確度和成功率。本文算法在OTB2015的跟蹤精確度上排名第一,相比較于基準跟蹤算法SiamFC(0.796),本文算法(0.807)提高了1.1%,在跟蹤成功率上排名第二,相比較于SiamFC(0.588),本文算法(0.593)提升了0.8%。圖5為本文算法與基準算法SiamFC在GOT-10K數據集上的跟蹤成功率對比,在GOT-10K數據集的成功率指標上,本文算法(0.543)高于SiamFC(0.539)。

圖4 在OTB2015中的跟蹤精確度和成功率Fig.4 Tracking accuracy and success rate in OTB2015

圖5 在GOT-10K中的跟蹤成功率對比Fig.5 Comparison of tracking success rate in GOT-10K
為更好地說明本文跟蹤算法的性能,本文選擇了OTB2015數據集中10個視頻序列進行跟蹤結果展示,如圖6所示,視頻序列由上到下依次為Soccer、Skating1、

圖6 算法跟蹤結果展示Fig.6 Visualization of tracking results
Girl2、DragonBaby、Couple、ClifBar、Car Dark、Box、Basketball,圖中綠色框為標注的目標真實位置(Ground truth),藍色框為SiamFC算法跟蹤結果,黃色框為上文所提到的將多層特征進行融合的SiamFC跟蹤算法(SiamFC multi-features,SiamFCMF),紅色框為本文所提出的結合了多層特征融合和引入了短時記憶模塊的跟蹤算法。當視頻中出現光照變化、目標遮擋、快速運動、相似目標干擾時,跟蹤框容易出現跟蹤漂移,如CarDark視頻序列對夜間場景中的車輛進行跟蹤,受路燈和車輛燈光的影響,光照變化較大,背景復雜,第263幀中,SiamFC算法首先出現了跟蹤漂移,接著在第283幀,基于多層特征融合的SiamFCMF算法同樣出現了跟蹤漂移。在Box視頻序列中,第300幀時出現了目標遮擋的現象,在308幀和320幀時SiamFC和SiamFCMF的跟蹤框均漂移到了旁邊的物體上,而本文算法保持了對目標的穩定跟蹤,有效避免了跟蹤漂移現象的出現。
表3和表4分別記錄了SamFC、SiamFCMF和本文算法在圖6中9個視頻序列上的跟蹤精確度和成功率,從表中可以看出,基于多層特征融合的SiamFCMF算法在7個序列的精確度和9個序列的成功率要優于Siam-FC算法,本文算法的精確度和成功率均要優于SiamFC和SiamFCMF算法,魯棒性良好。

表3 在9個視頻序列上的精確度Table 3 Accuracy on 9 video sequences

表4 在9個視頻序列上的成功率Table 4 Success rate on 9 video sequences
圖7 為OTB2015數據集中的Basketball視頻序列,第二行為SiamFC算法輸出的響應圖,第三行為本文算法輸出的響應圖。在第635幀時,跟蹤目標靠近一名穿著同樣衣服,膚色相同的運動員。SiamFC響應圖中干擾目標的響應值較大,與跟蹤目標的響應形成雙峰。在第645幀時,SiamFC算法已經錯誤跟蹤了干擾目標,且響應值較大,而本文算法未出現跟蹤錯誤。第655幀,SiamFC響應圖出現多處峰值,而本文算法的響應值較為集中。

圖7 跟蹤響應圖對比Fig.7 Comparison of tracking response map
圖8為本文跟蹤流程中各響應熱力圖的展示,左側四張圖分別為當前幀搜索區域與初始模板、t-1幀目標、t-2幀目標和t-3幀目標的相關響應熱力圖。從圖中可以看出,受到相似目標干擾的影響,搜索區域與初始模板的響應已經偏移到了干擾目標上,而搜索區域與前三幀的響應還集中在被跟蹤目標上,三個響應圖通過修正系數進行修正后融合得到短時記憶模塊輸出的響應圖,再將此響應圖與初始模板的響應圖進行加權融合得到最終的響應圖,從而得到目標的位置。

圖8 跟蹤流程響應熱力圖展示Fig.8 Visualization of response heatmaps of tracking process
針對長時目標跟蹤中的復雜場景和目標遮擋等問題,本文在SiamFC的基礎上,對AlexNet網絡進行多層特征融合,提高了網絡的特征提取能力。同時,引入了短時記憶模塊,通過視頻局部信息增強算法對跟蹤目標的判別性。在短時記憶模塊中,保存局部幀的目標深度特征,將當前幀的特征分別與初始模板特征和短時記憶的特征進行互相關,對得到的兩個響應圖加權融合,確定最終目標位置。本文算法在OTB2015和GOT-10K數據集上進行評估,跟蹤結果均優于基準的SiamFC算法,表明本論文算法能有效提升的跟蹤性能,并且達到了27幀/s的實時跟蹤速度。本文的下一步工作將對短時記憶模塊進行改進,并嘗試融合到其他目標跟蹤算法中。