忻 瑤,韓 華,王春媛,熊雨滋,許瑩瑩
(上海工程技術大學 電子電氣工程學院,上海 201620)
視覺目標跟蹤旨在當給定視頻序列的第一幀的目標邊界框的情況下,利用跟蹤算法在視頻序列的后續幀中同樣以邊界框的形式自動定位該目標的準確位置。作為計算機視覺領域一個重要的研究方向,現已廣泛地應用在視頻公共安防[1-5]、自動駕駛[6]、無人機[7]、機器人[8]等方面。
近年來,很多學者已經在深度學習目標跟蹤方面取得了可觀的研究成果。2016 年,Bertinetto 等人[9]以端到端的方式成功訓練了第一個全卷積暹羅網絡并命名為SiamFC,該算法不僅推理速度可達實時,同時表現出優良的跟蹤性能。2018 年,Li 等人[10]在SiamFC 的基礎上將目標檢測中的區域建議網絡(region proposal network,RPN)[11]引入到目標跟蹤領域,RPN 模塊可以使跟蹤器回歸位置、形狀,省掉多尺度測試環節,所提出的SiamRPN 算法進一步提高了跟蹤速度(160 FPS),并且擁有更高的跟蹤準確度和精確度。2019 年,Li 等人[12]將特征提取網絡替換成層數更深、擬合能力更強的ResNet[13]網絡,成功訓練了以ResNet 為驅動的SiamRPN++。然而,這些Siamese 類跟蹤算法僅僅利用了目標的外觀信息,未將背景考慮進去,并且未對目標模板進行在線更新。當遇到復雜背景或目標發生嚴重畸變的情況下,Siamese 類算法很容易發生跟蹤漂移的情況。2019 年,Bhat 等人[14]通過聯合目標的外觀和背景信息并通過在線更新的方式獲得具有判別力的目標模板,不僅實現了實時的跟蹤速度,而且所提出的DiMP 算法在多個評估數據集上均取得第一的位置。
盡管這些跟蹤算法已經取得了很大進展,不斷刷新跟蹤表現,然而仍然有不少缺陷。一方面,DiMP 算法僅僅采取通用的數據增強策略,比如任意裁剪、旋轉等,跟蹤算法只能學到有限的數據信息。因此,有必要做更適合目標跟蹤的數據增強來釋放數據的潛力。另一方面,DiMP 算法僅僅使用特征提取網絡的最后一層的輸出作為目標的特征圖,未能使特征圖包含充分的語義和位置信息。
為了提高DiMP 算法在面對目標遮擋、背景干擾場景下的跟蹤表現,本文在數據預處理階段設計了一個高效的任意灰度塊替換策略,在特征提取網絡后面添加了一個多尺度融合模塊。具體貢獻如下:
(1)設計了一個任意灰度塊替換策略使數據樣本模擬真實場景中的目標遮擋、光線變化的情況,增加樣本的多樣性,降低遮擋、光線變化導致的模型過擬合的風險。
(2)設計了一個多尺度特征融合模塊,該模塊對特征提取網絡提取的不同階段的特征圖進行正向和反向的多尺度融合,得到語義信息和位置信息更強的目標特征圖。
(3)在主流的評估數據集上進行評測分析,驗證了改進的DiMP 算法在遮擋、背景干擾場景下有更好的跟蹤表現。
為了提升DiMP 算法在遮擋、背景干擾場景下的跟蹤表現,本文探索并改進了DiMP 算法[15]。改進的DiMP 算法由5 部分組成,如圖1 所示。圖1中,第1 部分是輸入端,由訓練分支和測試分支組成。輸入到訓練分支的圖片為經過本文任意灰度塊替換策略后的訓練樣本;第2 部分是特征提取網絡ResNet-50,用來提取跟蹤目標各個階段的多尺度特征圖;第3 部分是本文提出的多尺度融合模塊,該模塊由上采樣子模塊和下采樣子模塊組成,用來對特征提取網絡輸出的各個階段特征圖進行正向和反向的多尺度特征融合,得到語義信息和位置信息更加充分的特征圖;第4 部分為模型預測模塊,目標特征圖和對應的邊界框真值同時輸入到該模塊中進行不斷在線更新,得到目標模板;第5 部分為互相關模塊,目標模板作為卷積核與經過測試分支得到的特征圖進行互相關操作,得到目標的置信度預測。

圖1 算法框架圖Fig. 1 The pipeline of the algorithm
在實際的跟蹤中,目標可能會出現部分遮擋、光線變化等影響跟蹤的情況。因此,本文創新性地設計了一個任意灰度塊替換策略。該策略隨機選擇圖像中的一個矩形區域,并用相應灰度圖像中相同的矩形區域進行像素替換,從而生成灰度塊替換后的訓練樣本。
在該方法中,進行任意灰度塊替換的概率為p,隨機生成的矩形區域與圖像的面積之比的最小值和最大值分別為Smin和Smax,矩形區域的面積Sr的取值范圍為Rand(Smin,Smax)× S。γ為確定矩形形狀的系數,取值范圍為[γ1,γ2],xr和yr為矩形左上角的位置坐標,當矩形的坐標超過圖像范圍,需重新確定矩形的位置坐標。
該策略可以很好模擬自然場景中由于圖像分辨率低或者光線變化導致的顏色變化問題,同時模擬目標遇到的部分遮擋問題。并且,該策略可以在保留圖片結構信息的基礎上增加樣本多樣性。設計的任意灰度塊替換策略效果如圖2 所示。圖3 為任意灰度塊替換策略在網絡中的使用圖。

圖2 任意灰度塊替換策略效果圖Fig. 2 Arbitrary gray block replacement strategy renderings

圖3 任意灰度塊替換策略在網絡中的使用圖Fig. 3 Diagram of arbitrary gray-scale block replacement strategy in networks
為了獲得融合目標語義信息與位置信息的特征圖,本文在特征提取網絡后設計了一個多尺度特征融合模塊。該多尺度特征融合模塊由上采樣子模塊和下采樣子模塊組成。
研究中給出的多尺度特征融合模塊如圖4 所示。特征提取網絡對預處理后的訓練樣本進行特征提取,生成各階段的目標特征圖,即{C2,C3,C4,C5};上采樣子模塊通過上采樣和正向連接操作將特征提取網絡的特征圖進行自頂向下的多尺度融合,C5經1×1×256 卷積操作得到T5,隨后T5經過二倍上采樣的結果與相鄰的下層特征圖C4經過1×1×256 卷積操作得到的結果進行張量相加得到T4。T3和T2的獲取流程同T4,最終上采樣子模塊得到{T2,T3,T4,T5},其中T2、T3和T4均融合了本層和更高層的信息。隨后,下采樣子模塊通過下采樣和反向鏈接操作將{T2,T3,T4,T5} 進行自底向上的多尺度融合,T2經過1×1×256 卷積得到D2,D2經過兩倍下采樣與相鄰的上層特征圖T3進行張量相加得到D3,D4和D5的獲取流程同D3,最終下采樣得到語義信息和位置信息更強的{D2,D3,D4,D5},其中D5充分融合了多尺度特征圖中的語義信息和位置信息,可作為多尺度特征融合模塊最終的輸出特征圖。

圖4 多尺度特征融合模塊Fig. 4 Multi-scale feature fusion module
本文對算法的訓練和評估參數進行了設置,具體參數如下。
(1)訓練方面:本文使用 GOT10k[16]和LaSOT[17]共2 個數據集,并從這2 個數據集中隨機采樣20 000 個視頻序列作為訓練數據集。采用PyTorch 深度學習框架,訓練階段的初始學習率為0.001,優化器Adam 每15 個世代(epoch)衰減0.2,動量設置為0.9,p的值設為0.4,一共訓練50 個世代,通過RTX 1080ti 顯卡進行訓練,整個訓練的時長大約為24 h。
(2)評估方面:本算法使用VOT2018[18]和UAV123[19]作為評估數據集,并使用商湯開源的PySOT 平臺進行評估。這里先由不同的跟蹤器生成.txt格式跟蹤邊界框坐標,隨后通過PySOT 平臺對不同的跟蹤算法進行評估,最終生成本文改進DiMP算法與多個不同跟蹤算法的比較結果。
2.2.1 VOT2018 評估分析
VOT2018 由60 個包含不同屬性的RGB 視頻序列組成。與大多數研究者相似,本文使用VOT 中的準確度(Accuracy,A)、魯棒性(Robustness,R)和期望平均覆蓋率(Expected Average Overlap,EAO)來評估不同的跟蹤算法。其中,準確度的定義為預測框與真實框之間的交并比(Intersection-over-Union,IoU)。魯棒性定義為跟蹤算法在一個視頻序列中跟蹤失敗的次數,單幀準確度的值低于設定的閾值即視為失敗。期望平均覆蓋率作為評估一個跟蹤算法的最終指標,按照該指標的大小進行排名。通常期望平均覆蓋率值越大,表明該跟蹤算法的性能越好。研究推得的數學定義式可表示為:

其中,Ns為一個視頻總幀數,φi為第i幀的準確度。
表1 為本算法與4 個其他具有競爭力的算法的對比結果。通過表1 可以看出,本文改進的DiMP算法在性能表現上要優于做基準對比的4 個跟蹤算法。在準確率指標上,比第二名算法SiamRPN++算法高了1.17%,比DiMP 算法高了1.68%。在魯棒性指標上,比DiMP 算法高了2.61%。而且改進的DiMP 算法在EAO指標上比第二名DiMP 算法高了1.36%,比SiamRPN++算法高了7.73%。這些結果充分證明了改進的DiMP 算法有著更好的跟蹤表現。

表1 VOT2018 上不同跟蹤算法的比較Tab.1 Comparison of different tracking algorithms on VOT2018
2.2.2 UAV123 評估分析
UAV123 數據集包含123 個由低空無人機采集的視頻序列。本文采用成功圖(successplot)和精確圖(precisionplot)來對不同的算法進行比較。
圖5 為不同跟蹤算法在UAV123 上的成功率對比圖和精確度對比圖。由圖5 可以看出,本文所提出的算法在成功率和精確率方面均為最佳。在成功率方面,本文算法的成功率為0.668,超過了第二名DiMP 算法3.89%。在精確率方面,本文的算法為0.876,超過了第二名DiMP 算法3.06%。這些結果充分說明了本文算法具有優秀的跟蹤性能。

圖5 UAV123 上不同跟蹤算法的比較Fig. 5 Comparison of different tracking algorithms on UAV123
圖6 為不同跟蹤算法在UAV123 數據集的遮擋和背景干擾跟蹤場景的對比結果圖。由圖6 可以看出,本文改進的DiMP 算法在遮擋場景中的成功率和精確率達到了0.612 和0.828,性能大幅度超過了原DiMP 算法。同時,改進的DiMP 算法在背景干擾場景中的成功率和精確率分別為0.521 和0.759,同樣優于原DiMP 算法結果。

圖6 不同算法在遮擋、背景干擾場景下的表現Fig. 6 The performance of different algorithms in occlusion and background interference scenes
2.2.3 實際場景跟蹤分析
為了可視化本文改進的DiMP 算法和基線算法在實際面對遮擋、背景干擾情況下的跟蹤區別,本小節采集了一段包含遮擋和背景干擾的視頻,并使用改進DiMP 算法和原DiMP 算法進行可視化分析,如圖7 所示。

圖7 實際的跟蹤場景分析圖Fig. 7 Actual tracking scene analysis diagram
在圖7 中,紅色框為改進DiMP 的跟蹤結果,黃色框為原始的DiMP 算法跟蹤結果。在第5 幀目標基本無干擾的情況下,2 個算法的跟蹤結果大體一致。當在第138 和270 幀時,目標遇到部分遮擋問題,可以看出,改進的DiMP 算法可以很好地跟蹤目標,而原始的DiMP 算法的跟蹤目標框已經出現了不準確的情況。另外,當目標在251 幀出現嚴重背景干擾的情況下,DiMP 算法出現了跟蹤漂移,而改進DiMP 算法依然可以實現魯棒性的跟蹤。
本文通過提出任意灰度塊替換策略以及設計多尺度特征融合模塊,使改進的DiMP 算法在面對遮擋和背景干擾場景中有著更加魯棒性的表現。下面通過消融實驗分析所設計的策略和模塊的影響,并在VOT2018 和UAV123 數據集上分別進行評估,結果見表2。
在表2 中,DiMP 表示原DiMP 算法,DiMP +灰度塊替換表示采用任意灰度塊替換策略,DiMP +多尺度融合表示多尺度融合模塊,改進DiMP 算法表示采用任意灰度塊替換策略和多尺度融合模塊后的DiMP 算法。S -遮擋、P -遮擋表示在遮擋和場景下的成功率和精確率,S -背景干擾、P -背景干擾表示在背景干擾場景下的成功率和精確率。

表2 消融實驗分析Tab.2 Analysis of ablation experiments
可以看出,任意灰度塊替換策略和多尺度特征融合模塊分別在VOT2018 數據集上都有小幅的性能提升,在UAV123 的遮擋和背景干擾場景下的成功率和精確率均有所提高。另外,相較于任意灰度塊替換策略,多尺度特征融合模塊對遮擋和背景干擾場景有著更大的貢獻。這些結果說明了本文改進的DiMP 算法在遮擋和背景干擾方面有著更好的跟蹤精度。
本文針對DiMP 算法在遮擋和背景干擾場景下表現不佳的問題,在數據預處理階段設計了一個任意灰度塊替換策略來應對光照變化和遮擋問題,以及在特征提取網絡后設計了一個多尺度融合模塊使各個階段的特征圖進行充分的融合。訓練的跟蹤模型在VOT2018 和UAV123 數據集上均取得總體表現第一的位置。并且在UAV123 的遮擋和背景干擾場景下均優于其他跟蹤算法,這些結果充分說明了本文改進的DiMP 算法對目標遮擋和背景干擾場景有著更好的表現。