劉芳,孫亞楠
北京工業大學 信息學部,北京 100124
近年來,無人機被廣泛應用于軍事偵察、物資派送、公安巡檢和智能安防等領域。目標跟蹤是無人機應用的關鍵技術之一,基于機器視覺的目標跟蹤技術已成為一項重要的研究課題。由于無人機拍攝視角較高、飛行姿態不斷發生變化,導致目標在視頻圖像中的占比較小并且容易發生形變、遮擋等復雜情況,影響跟蹤算法的性能。一般來說,目標在圖像中的面積占比小于1%則稱之為小目標,小目標一直是影響跟蹤質量的重難點之一,原因如下:① 小目標的像素點數較少,因而可利用的有效特征很少,大大增加了小目標跟蹤定位的難度;② 小目標在圖像中的比例較小,容易受到背景信息的干擾,導致難以提取到其關鍵特征信息。因此,如何有效提取小目標特征是實現高性能無人機目標跟蹤算法的關鍵之一。
隨著深度學習的快速發展,國內外眾多研究學者將深度學習技術應用在計算機視覺領域。其中,深度卷積神經網絡因具有強大的目標特征提取能力,能夠高質量地完成目標檢測和目標跟蹤等任務而被廣泛研究并使用。Wang和Yeung將深度卷積神經網絡應用到目標跟蹤領域,提出了DLT(Deep Learning Tracker)跟蹤算法。Wang等通過分析深度網絡模型不同特征層的輸出特點,設計了新的網絡模型提取目標特征。Hong等提出的CNN-SVM(Convolutional Neural Network-Support Vector Machine)跟蹤算法,在CNN隱含層的頂端添加一個在線的支持向量機(SVM)來學習目標的外觀特征。Bertinetto等提出了孿生網絡結構思想并設計了一個完全卷積的Siamese網絡來訓練跟蹤器。Valmadre等在SiamFC框架中引入相關濾波層進行在線跟蹤。Li等受目標檢測區域建議網絡的啟發,對深度網絡輸出的特征進行區域建議提取,提升了跟蹤精度。秦莉等通過融合目標卷積特征和上下文信息的方向梯度直方圖特征,優化目標跟蹤性能。陳富健和謝維信提出了引入遮擋機制的SiamVGG目標跟蹤算法,通過對網絡輸出置信圖的峰值和連通域的變化分析,設置相應的跟蹤策略以提升跟蹤精度。李敏和吳莎提出一種基于預訓練卷積神經網絡,在粒子濾波框架下將深度特征和手工特征相結合的目標跟蹤算法。Xu等認為先驗信息(跟蹤目標尺度、長寬比)會阻礙跟蹤模型泛化能力,提出了一種不依賴先驗知識的跟蹤框架SiameseFC++。
上述基于深度學習的目標跟蹤算法,整體上提升了目標跟蹤性能,但對小目標的跟蹤效果不夠理想。要提高深度網絡對小目標的處理能力,首先要提高深度網絡的特征表達能力。在卷積神經網絡中,特征圖感受野是一個至關重要的概念,Luo等研究了CNN的感受野尺度問題,提出了有效感受野的概念,表明特征圖感受野會直接影響到整個網絡模型的辨別能力和魯棒性。Szegedy等通過設計具有不同大小卷積核的多分支卷積神經網絡結構,克服了特征感受野尺度問題對模型性能的影響。文獻[15]根據物體的尺度和形狀自適應地調整感受野的空間分布。Liu和Huang通過模擬人類視覺感受野提出了一種RFB(Receptive Field Block)感受野增強結構,有效提高了網絡模型的表達能力。
綜上所述,提出了一種基于自適應融合網絡的無人機目標跟蹤算法。首先,針對小目標在視頻序列中特征難以提取且易受復雜背景干擾等問題,結合RFB的感受野增強特性和殘差網絡(Residual Network,ResNet)結構的梯度優化特點,構建了感受野增強殘差網絡模型 (Receptive Field-Residual Network,RF-ResNet),該模型在殘差網絡結構中引入RFB模塊,能夠增強特征圖的有效感受野區域,提高目標特征的表達能力;其次,提出了一種多尺度自適應融合網絡,將RF-ResNet提取的淺層特征和深層特征輸入到RFB模塊,然后由深層特征至淺層特征逐層進行維度連接操作獲得3個尺度的目標特征,并將其輸入到自適應加權融合模塊中,從而獲得包含深層語義信息和淺層細節信息的融合特征;最后,將融合特征輸入到相關濾波系統中計算出響應圖的最大置信分數,確定跟蹤目標位置。本文算法在UAV123數據集上進行了仿真實驗,結果表明,該算法在跟蹤成功率和精確率方面都達到了較高水平,能夠有效提升無人機小目標跟蹤算法性能。
針對無人機視頻目標跟蹤過程中,目標所占比例較小且易受復雜背景信息干擾等問題,提出一種基于自適應融合網絡的無人機目標跟蹤算法,該算法主要由目標特征提取和目標定位2部分組成。特征提取網絡結構如圖1所示,該網絡模型主要包含4個卷積模塊和1個自適應加權融合模塊,其中Conv1、Conv2和Conv3卷積模塊均含有1個3×3卷積層和2個殘差模塊,Conv4卷積模塊含有1個3×3卷積層和1個RFB模塊,C2~C4、F1~F2表示特征圖。利用RF-ResNet模型提取目標多尺度特征并進行自適應加權融合,獲得表達能力更強的目標特征。在目標定位部分,利用初始幀目標樣本特征構建濾波系統,然后將后續幀中的目標特征輸入到相關濾波系統中,計算出響應圖的最大置信分數,從而確定跟蹤目標位置。

圖1 特征提取網絡結構圖Fig.1 Structure of feature extraction network
感受野是卷積神經網絡每一層特征圖上的像素點映射在輸入圖片中的區域大小。在整個特征圖中起主要作用的是有效感受野區域,有效感受野只占理論感受野中心區域的一部分,且呈現高斯分布特點,即中心像素的響應值最大,離中心越遠像素的響應值強度越弱。因此,增強有效感受野區域將會大大提升特征的表達能力。基于此,RFB對特征感受野區域特點進行分析,利用多分支卷積層和空洞卷積增強特征圖的有效感受野,提高網絡的特征表達能力,結構如圖2所示。
1) 多分支卷積層。采用不同大小卷積核構成的多層網絡,其特征提取能力要優于使用相同卷積核的網絡結構。因此,RFB網絡設計了一種含有3個分支的網絡結構,如圖2所示,每個分支分別采用 1×1標準卷積、擴張系數rate為1的3×3空洞卷積,1×1標準卷積、3×3標準卷積、擴張系數為3的5×5空洞卷積和1×1標準卷積、5×5標準卷積、擴張系數為5的3×3空洞卷積。此外,RFB網絡還采用了ResNet中的直連(shortcut) 結構,使得梯度能夠很好地傳遞到淺層,減輕深層網絡的訓練負擔。

圖2 RFB網絡結構Fig.2 Structure of RFB network
2) 空洞卷積(Dilated Convolution)。空洞卷積在標準卷積層中加入了一個新的參數—擴張率(Dilation Rate),該參數決定了卷積核在處理數據時各像素之間的距離,能夠將卷積核擴張到規定的尺度,并將原卷積核中未被占用的像素區域填充為0,因而能夠在不增加額外運算量的同時,增大特征圖的感受野。如圖2所示,在每一個分支的1×1標準卷積之后都添加一個不同擴張率的空洞卷積層。
一般情況下,卷積神經網絡層數越深,獲取的語義特征越豐富,表達能力越強。但是單純的網絡層數堆疊有時并不能提高網絡的識別能力,往往會大幅增加網絡模型的復雜度和計算量,甚至導致訓練難度增大、網絡梯度難以優化,出現梯度消失或爆炸等問題。He等深入地研究了網絡模型難以優化的問題,總結出初始化網絡參數和正則化輸出特征這一訓練深度網絡模型的關鍵方法,并針對梯度消失或爆炸導致的網絡模型退化問題,提出了ResNet 殘差網絡結構,通過shortcut連接方式有效的減少了網絡梯度傳播時經過的層數,使得損失值發生爆炸和消失的問題得到緩解,加快網絡模型訓練速度,提升網絡模型表達能力。因此,結合RFB的感受野增強特性和ResNet的梯度優化特點,構建了RF-ResNet網絡用于提取跟蹤目標的圖像特征,該網絡模型結構參數如表1所示,其中Kernel表示卷積核尺寸,Size表示輸出特征尺寸,Channels表示輸出特征的維度。

表1 RF-ResNet網絡參數Table 1 RF-ResNet network parameters
卷積操作利用卷積核與輸入圖像進行卷積運算獲得目標特征圖,如圖3(a)所示,一個4×4的輸入特征,用3×3的卷積核做填充維度(padding)為0,步長(strides)為1的卷積操作,最終得到2×2的特征圖。轉置卷積(Transposed Convolution)也稱作反卷積(Deconvolution),是一種常見的上采樣方法,可以簡單理解為標準卷積的反向運算,如圖3(b)所示,以2×2的特征圖作為輸入,用3×3的卷積核做padding為2,strides為1的轉置卷積操作,得到4×4的特征圖。卷積神經網絡提取的深層特征圖含有豐富的語義信息,但缺少淺層網絡中的細節特征,因此,通過轉置卷積運算可以將低維局部特征映射成高維向量,獲得大尺寸的特征圖,以便與淺層網絡輸出的特征圖進行融合,增強目標的特征表達能力。
卷積運算是將卷積核以滑動窗口的方式在輸入特征的對應元素上依次相乘,然后將所有相乘結果求和得到最終的輸出結果。若以矩陣乘法表述卷積運算,、和分別代表輸入矩陣、輸出矩陣和卷積核,則卷積運算可表示為
=*
(1)
根據轉置卷積原理,其表達式為
=*
(2)
式中:T表示轉置運算。通過對輸入矩陣進行轉置卷積運算,得到預期的原始特征矩陣。

圖3 卷積與轉置卷積示意圖Fig.3 Diagrams of convolution and transposed convolution
特征提取網絡不同卷積層的特征圖所包含的特征信息不同,淺層特征圖主要包含圖像的細節特征,如紋理、邊緣信息等,并且其感受野尺度較小,適用于小目標的跟蹤定位;深層特征圖包含豐富的語義信息,對目標屬性的判別能力較強,但其感受野尺度較大,局部像素之間的關聯性較弱,更適合定位較大尺度的目標。因此,設計了如圖1所示的多尺度自適應融合網絡,將深層特征與淺層特征相融合得到同時包含細節信息和語義信息的目標特征,大大提高了目標定位精度。具體而言,首先將Conv4層輸出的特征圖C4進行轉置卷積運算,使其與前一層特征圖C3的空間尺寸一致;然后將特征圖C3輸入到RFB模塊增強其感受野,并按照通道維度與特征圖C4轉置卷積后的結果進行矩陣求和操作,得到融合特征圖F1;同理,得到與特征圖C2相同尺度的融合特征圖F2;最后,考慮到C4、F1和F2這3種特征圖的感受野尺度大小及所包含特征信息的差異性,設計了自適應加權融合模塊,可得到表達能力較強的目標特征。
圖4為自適應加權融合模塊,首先利用SE(Squeeze-and-Excitation)通道注意力機制,讓網絡模型自適應地學習特征圖中每個通道的重要性,并通過提高重要通道的權重,增強有效特征,抑制無效特征,提升每個特征圖的表達能力。具體來講,通過全局平均池化層(Global Pooling)將特征圖的每個二維通道變成一個實數,該實數表示對應特征通道響應的全局分布,然后經過2個1×1卷積層建立通道間的相關性,并由Sigmoid激活層獲得每個特征通道的歸一化權重,最后的Scale操作將歸一化后的權重加權到特征的每個通道上,實現重要通道的提升;最后,將3個特征圖調整為相同尺度并分別設置權重系數,讓網絡學習每個特征圖對跟蹤任務的貢獻程度,通過自適應地調節權重系數將3個特征進行加權融合,從而最大化利用每個特征圖的關鍵信息。融合公式為

圖4 自適應加權融合模塊Fig.4 Adaptive weighted fusion module

(3)
式中:( )為轉置卷積函數;( )表示特征通道增強操作;、和分別為各特征圖的權重系數,且++=1。
近年來,眾多研究學者聯合利用CNN和相關濾波算法完成目標跟蹤任務,取得了非常優異的跟蹤效果。本文以改進的判別相關濾波為基準,構建相關濾波系統,對提取的目標圖像特征進行分析,確定跟蹤目標位置。
將RF-ResNet網絡提取的目標圖像特征記為={,,…,},其含有個維度。首先,將特征通過插值處理映射到連續空間域,公式如下所示:

(4)
式中:()()表示特征轉換到連續空間域的特征;表示特征圖第個通道的空間特征個數;[]被視為一個離散空間變量;表示離散空間的間隔,∈[0,);表示插值函數。
利用連續空間域的特征,通過計算獲得濾波器模型預測結果,計算方式為

(5)
式中:={,,…,},表示第個維度特征的濾波器;表示特征維度數量,*表示卷積運算。
學習相關濾波器的損失函數為

(6)
式中:表示樣本數量;將樣本對應的期望結果設為周期性重復的高斯函數,|| ||表示L2范數,損失誤差由L2范數計算得到,表示樣本的權重,同時引入一個正則化懲罰參數來緩解周期性假設的缺陷。
然而,并非所有維度的特征都對跟蹤結果起到貢獻作用。如果特征圖有個維度就設置個濾波器,那么一部分濾波器的貢獻度可能很小,不僅嚴重影響運算速度,還會使跟蹤性能受到冗余信息的干擾。因此,只選擇貢獻度較高的個濾波器進行線性組合,進行濾波器模型預測即可,計算公式如下所示:

*{}
(7)
式中:是一個×維度的矩陣,相當于線性降維算子,,表示對進行濾波的學習系數,則相應的損失函數為


(8)

本文算法流程如圖5所示,主要步驟如下:
構建特征提取網絡:結合RFB和ResNet結構特點,以及無人機視頻圖像的特點,構建RF-ResNet網絡模型提取目標特征。
構建多尺度特征自適應融合網絡:將提取的Conv2、Conv3和Conv4層特征進行自適應融合,得到融合目標特征圖,并利用指定數據集訓練目標跟蹤算法。
目標定位:將融合的目標特征輸入到相關濾波器,計算響應圖并將其峰值作為當前幀跟蹤目標的位置。
模板更新:每隔5幀對跟蹤目標模板進行更新,以適應跟蹤目標的各種變化。

圖5 算法流程圖Fig.5 Flowchart of algorithm
本文使用COCO2017數據集作為訓練集,在Inter corei7 8th CPU,NVIDIA GEFORCE GTX 1080Ti GPU的計算機平臺上訓練目標跟蹤算法。
COCO2017數據集拍攝場景豐富,目標種類多,被廣泛應用于目標檢測及目標跟蹤訓練任務中。本文對COCO2017數據集進行裁剪處理,制作出40 000多個跟蹤目標序列,包含多類拍攝場景,并且標注目標尺度分布范圍大,有利于訓練出魯棒性更強的網絡模型。
UAV123數據集由無人機飛行拍攝的視頻組成,共包含123個子視頻序列,圖像幀數超過110k幀,拍攝的目標包括行人、汽車、輪船、自行車等多類物體,由于拍攝的視點較高,大多數跟蹤目標屬于小目標,并且無人機飛行姿態不斷變化,拍攝角度也存在較大差異,從而導致目標姿態、形狀及尺度頻繁發生變化,因此UAV123數據集有很大的挑戰難度。
為直觀地驗證本文算法對小目標跟蹤的有效性,從UAV123數據集和VisDrone2018數據集中選取了4個典型小目標視頻序列進行仿真實驗,這些小目標視頻也存在其他挑戰,詳細信息如表2所示。

表2 4個小目標視頻序列Table 2 Video sequence of 4 small targets
2.2.1 多尺度特征融合對比實驗
為驗證多尺度特征自適應融合方法的有效性,在UAV123數據集上做了以下對比實驗。第1組利用Conv2,Conv3 和Conv4進行自適應特征融合后的目標特征進行跟蹤;第2組是利用傳統的維度連接融合方法,將Conv2,Conv3 和Conv4進行多尺度融合后的特征完成目標跟蹤任務;第3組則直接利用RF-ResNet網絡輸出的特征進行目標跟蹤。采用跟蹤成功率和跟蹤精確率對跟蹤性能進行評價,實驗結果如圖6所示,本文提出的自適應融合方法的跟蹤精確率達到了0.702,分別比維度連接融合方法和無融合特征進行目標跟蹤的精確率提高了1.3%和4.5%;跟蹤成功率達到了0.475,分別比其他2種方法提高了5.4%和9.3%。實驗證明本文提出的多尺度特征自適應融合方法能夠高效地融合深層網絡語義特征和淺層網絡的細節特征,大大地提高融合效率,增強特征的表達能力,有效提升目標跟蹤性能。

圖6 特征融合跟蹤性能Fig.6 Feature fusion tracking performance
2.2.2 跟蹤算法性能分析
為了直觀驗證本文算法的有效性,將其與SiamRPN、ECO、SiamCAR、SiamBAN和DaSiamRPN這5種跟蹤算法在表2所示的無人機跟蹤視頻序列上進行仿真實驗,結果如圖7 所示。

圖7 視頻仿真結果圖Fig.7 Partial results of video simulation
1) Car2序列。無人機在高空拍攝行駛的汽車,并跟隨汽車飛行,因而目標在序列中呈現小目標和視角變化的特點。在前118幀序列中,小車在緩慢的拐彎,4種算法都能比較準確地跟蹤上目標;在第200幀,小車拐過彎道開始加速行駛,同時無人機為了能夠捕捉到小車,也開始調整飛行速度,此時ECO算法定位框發生了較大誤差,在第373幀,DaSiamRPN算法跟蹤框已漂移到其他物體,而本文算法能夠保持穩定精準的跟蹤狀態。
2) Group1序列。3個相似的人員并排行走,同時無人機在不斷改變拍攝角度,造成了小目標和相似性目標影響的復雜情況。由于目標尺度小,而且其周圍又有極其相似的物體,很考驗跟蹤算法對目標特征的辨別能力。在第721幀,相似目標和跟蹤目標接近時,ECO、SiamCAR和DaSiamRPN跟蹤結果開始發生偏移;在第863幀,SiamCAR、SiamRPN和DaSiamRPN算法錯誤地跟蹤上相似目標;SiamBAN算法跟蹤比較穩定,并且本文算法通過融合深層網絡的語義信息,對小目標的辨別能力更強,因而能夠一直穩定的跟蹤目標。
3) Wakeboard6-1序列。無人機高空飛行拍攝海面上的沖浪者,由于無人機不斷調整飛行軌跡和姿態,因而跟蹤目標寬高比頻繁發生變化,為跟蹤帶來了很大難度。在前438幀,4種算法都能成功地跟蹤上目標;而在484幀,無人機調整了相機視角,跟蹤目標的位置及尺度都發生了較大變化,SiamCAR、SiamRPN和DaSiamRPN算法發生嚴重的跟蹤漂移,丟失跟蹤目標;在后續幀中,如582幀,SiamCAR和SiamRPN算法始終無法定位到目標,而ECO和DaSiamRPN算法雖能成功跟蹤,但是跟蹤框的尺度誤差較大;可以看出,SiamBAN和本文算法對小目標的跟蹤性能更穩定。
4) Car序列。自行拍攝的擁擠街道場景中行駛的汽車,不僅汽車目標尺度小,還有復雜的背景以及相似的目標影響,具有很大的跟蹤難度。從跟蹤效果上可以看到在前100幀視頻序列中,4種算法都能成功地跟蹤上目標,但是隨著目標移動,復雜背景以及相似目標向跟蹤目標靠近,SiamCAR、SiamRPN、DaSiamRPN和ECO算法的跟蹤結果發生漂移,SiamBAN算法跟蹤效果比較穩定,同時,本文算法能夠有效提取目標特征并且有效適應復雜背景及相似目標的影響,跟蹤效果較為理想。
為了進一步定量分析本文算法在上述4個視頻序列的跟蹤性能,采用位置誤差閾值為20個像素時的跟蹤精確率和交并比覆蓋閾值為0.5時的跟蹤成功率,實驗結果如表3所示,相比其他5個算法,本文算法在跟蹤精確率和成功率方面均達到了較高水平,分別為0.752和0.536。

表3 算法跟蹤性能Table 3 Algorithm tracking performance
為了進一步客觀地評估本文算法的跟蹤性能,將其與CCOT、ECO-HC、ECO、SiamBAN、DaSiamRPN、SiamRPN、UPDT、SRDCF、MEEM、MUSTER和SAMF共11個跟蹤算法在整個UAV123數據集以及UAV123數據集中46個具有代表性的小目標視頻序列上進行對比實驗,結果如圖8、圖9所示。在46個代表性小目標視頻序列中,本文算法取得了較高的跟蹤性能,跟蹤成功率達到0.475,跟蹤精確率達到0.702,充分證明了本文算法較其他算法對小目標跟蹤的有效性。在UAV123數據集上,本文算法的跟蹤成功率為0.613,跟蹤精確率為0.805,驗證了本文算法在跟蹤準確性和穩定性方面具有優異的整體性能。本文算法在所有對比算法中,跟蹤指標僅略低于SiamBAN算法,該算法得益于anchor free策略,避免了繁瑣的超參數調節,使得算法能夠在6大數據集上進行高效訓練,優化了跟蹤性能。下一步工作也將從網絡整體訓練優化方面進行改進。

圖8 UAV123數據集中46個代表性小目標視頻序列跟蹤性能Fig.8 Video sequence tracking performance of 46 representative small targets in UAV123 dataset

圖9 UAV123數據集整體跟蹤性能Fig.9 Overall tracking performance of the UAV123 dataset
本文提出了一種基于自適應融合網絡的無人機目標跟蹤算法,主要貢獻如下:
1) 結合RFB的感受野增強特性和殘差網絡結構的梯度優化特點,構建了感受野增強殘差網絡模型RF-ResNet,能夠有效提取目標特征并增強特征的有效感受野。
2) 提出了一種多尺度自適應融合網絡,通過將RF-ResNet提取的淺層和深層特征輸入到RFB模塊和自適應加權融合模塊,獲得了含有深層語義信息和淺層細節信息的融合特征,提高了目標特征的表達能力,降低了小目標在視頻序列中易受復雜背景的影響及其特征難以提取等問題。