基于多尺度融合的自適應無人機目標跟蹤算法

2023-01-31 13:52:48薛遠亮金國棟譚力寧許劍錕

航空學報 2023年1期

薛遠亮，金國棟，譚力寧，許劍錕

火箭軍工程大學核工程學院，西安 710025

無人機（Unmanned Aerial Vehicle，UAV）因其操作簡單、體積小和成本低等優勢，在民用和軍用領域都有著廣泛的應用。特別是在智能化趨勢的大背景下，目標跟蹤成為了無人機應用的關鍵技術，也是其他后續任務（如：目標定位、目標精確打擊等）的基礎工作。視覺目標跟蹤是計算機視覺領域中一個具有挑戰性的問題，用于估計視頻序列中每一幀跟蹤目標的狀態，而這跟蹤目標的位置只在第一幀中給出。隨著無人機執行任務的難度不斷加大，研究準確高效且穩健的目標跟蹤算法對于無人機的應用有著廣泛的意義。

與地面平臺相比，無人機視角下的目標主要有尺寸小、像素點少、尺度變化大、背景干擾嚴重、相似目標較多等特點，并且無人機飛行過程中容易出現相機抖動和飛行速度變化，造成目標出現模糊和形變等情況，都對無人機上的目標跟蹤算法提出了更高的要求。目前主流目標跟蹤算法分為基于相關濾波的跟蹤算法（簡稱為：相關濾波跟蹤算法）和基于孿生神經網絡的跟蹤算法（簡稱為：孿生跟蹤算法）。相關濾波跟蹤算法：利用信號處理領域的相關濾波用來計算目標模板與后續搜索區域的相關性，實現對目標的持續跟蹤。因為相關濾波的計算是頻域中完成的，所以運算量大大減少，提高了運算速度。但是大多數相關濾波算法都是使用傳統特征提取算法來表征跟蹤目標，魯棒性和準確性不夠［1］，不能有效應對無人機場景下的目標跟蹤任務。

近年來，卷積神經網絡（Convolutional Neu?ral Networks， CNN）提取的深度特征魯棒性好、表征能力強，在目標跟蹤領域中漸漸取代了傳統手工設計的特征。孿生實例搜索算法（Siamese Instance Search Tracker， SINT）［2］創造性地將孿生神經網絡用于度量模板圖像與搜索圖像的相似度，為目標跟蹤領域提供了新思路。考慮到SINT的全連接層對圖片尺寸的限制，全卷積孿生跟蹤算法（Fully-Convolutional Siamese Net?works， SiamFC）［3］設計的全卷積孿生神經網絡，避免了候選圖像塊的多次輸入，提高了跟蹤速度。同時提出的互相關運算，將模板圖像作為卷積核與搜索圖像進行卷積，進一步精確目標位置。語義外觀雙分支跟蹤算法SA-Siam［4］發現SiamFC淺層神經網絡提取的特征缺乏語義信息，又加入一條卷積神經網絡作為語義分支，獨立訓練的2條分支提取的特征信息是相互補充的，能提升SiamFC的魯棒性。孿生區域建議跟蹤算法SiamRPN （Siamese Region Proposal Network）［5］拋棄了耗時的多尺度搜索策略，引入區域建議網絡［6］（Region Proposal Network，RPN）完成對目標的尺度估計和目標定位，實現了精度與跟蹤速度的平衡，性能已超過絕大部分相關濾波算法且跟蹤速度高達160 frame/s（Frames Per Second， FPS），證明了孿生跟蹤算法的巨大潛力，從此成為了目標跟蹤的主流算法。RPN模塊中預定義一組大小、尺寸不同的錨框（Anchor），快速有效地估計出目標的尺度變化。級聯孿生區域建議算法C-RPN［7］認為單個RPN模塊的估計能力是有限，于是級聯多個RPN模塊用于精確目標的尺度估計。Siam?RPN++［8］同樣在深層網絡ResNet-50［9］上使用多個RPN模塊，利用不同層的特征信息來提高尺度估計的能力，在多個數據集上取得第一。

針對無人機平臺的目標跟蹤算法主要有：劉芳等［10］使用自適應分塊策略，通過計算前后兩幀分塊的收縮系數來應對目標的尺度變化。同樣針對無人機過程中的尺度變化、遮擋等特點，劉貞報等［11］通過旋轉不變約束改進深度置信網絡，使得模型能夠自動適應目標的形態變化，但跟蹤速度僅為12.6 frame/s，不滿足實時性要求（≥30 frame/s）。為了解決目標的外觀變化，文獻［12］利用高斯混合模型建立模板庫并更新匹配模板，模板庫有效提高了準確率但降低了跟蹤速度，不能滿足實時性要求。

綜上所述，基于錨框的跟蹤算法需要跟蹤過程中的目標信息作為先驗信息，而無人機過程中的目標有著尺寸小、尺度變化大、相似物體多、運動模糊等特點，這些特點是隨機出現的，不可能提前預知。因此提出一種基于多尺度注意力模塊和特征融合的自適應無人機航拍目標跟蹤算法。首先，在ResNet-50網絡中平行堆疊具有相同拓撲結構的卷積塊以提取目標的多樣化特征，在不增加網絡深度的情況下增強對跟蹤目標的表征能力；其次，設計多尺度注意力模塊，全局、局部注意力的結合使用既抑制了干擾信息又提高了對大、小目標的感知能力；然后使用注意力特征融合模塊整合淺層的細節信息和深層語義信息；最后，級聯使用基于無錨框策略的RPN模塊，逐像素預測目標并將預測結果加權融合，精確、自適應地感知目標的尺度變化。實驗證明：提出的算法能更有效地感知無人機跟蹤過程中目標的尺度變化、外觀變化，同時對小目標識別能力和抗干擾能力也有所增強，并且速度達到40.5 frame/s，足以勝任無人機實時跟蹤任務。

1 相關工作

1.1 殘差模塊

He等［9］通過堆疊殘差模塊（ResBlock）來構建深層網絡ResNet，為了避免網絡加深而導致產生的梯度爆炸或消失，在ResBlock中設計映射連接（Identity）以確保信息的有效傳遞，避免網絡出現退化現象。殘差模塊ResBlock如圖1所示，由殘差部分和映射連接組成，其中分別為第l層殘差模塊的輸入和輸出；conv1*1，256，64代表大小為1，輸入、輸出通道數為256和64的卷積層，conv1*1完成對特征圖的通道升維和降維，conv3*3主要提取特征圖的特征信息。

式（1）為殘差模塊的具體原理，映射連接將網絡學習x[l]到x[l+1]映射的過程巧妙地轉化為學習殘差部分的映射。隨著網絡層數的加深，相比于學習整個映射過程，網絡更容易學習殘差部分的映射，有效提升網絡的訓練效果。

圖1 殘差模塊Fig. 1 ResBlock

1.2 注意力機制

人類形成的視覺往往不是一次性處理整個場景得到的，而是通過一系列的局部觀察將注意力放在感興趣的目標上［13］。神經網絡中的注意力機制類似于人類的視覺過程，通過一系列操作為特征圖進行權重分配，感興趣的目標區域獲得更大的關注度，實現特征信息的篩選，抑制無關信息的干擾，將神經網絡的注意力時刻保持在感興趣的目標上。注意力主要分為空間注意力和通道注意力，分別從空間和通道維度篩選特征信息。

空間注意力幫助網絡關注目標在哪里（Where）：非局部注意力［14］（Non-local attention）是受到圖像處理中非局部均值濾波的啟發，為神經網絡設計的自注意力機制，能幫助捕獲時空長程依賴。Non-local即自注意力機制，其核心思想如式（2）所示：首先考慮特征圖的所有位置xj與當前位置xi之間的關系f(xi，xj)，再對所有位置的關系進行加權求和得到當前位置的值yi。但是非局部注意力的計算量大，限制其廣泛使用。

式中：f(xi，xj)用于計算兩點之間的相似性；g(xj)是一個一元函數，用于信息變換；C(x)是歸一化函數，保持變換前后的信息整體不變。

通道注意力更多的是幫助網絡關注目標是什么（What）：SE［15］（Squeeze-and-Excitation）模塊原理如式（3）所示，首先使用全局平均池化（Global Average Pooling， GAP）壓縮空間維度的特征信息，獲得每個通道的全局空間表示zc，兩層全連接層再利用這個空間表示學習到通道權重s。SE模塊使網絡有效學習到不同通道的重要程度，同時因其計算量小，至今仍廣泛應用在計算機視覺的各個領域。

式中：uc(i，j)為每個通道c上的特征圖，其中i，j為特征圖上像素點坐標，c∈C；H、W是特征圖的高度和寬度；Fsq、Fex分別代表對特征圖的壓縮（Squeeze）操作、激勵（Excitation）操作；zc為壓縮后的全局空間表示，其中每個通道上的空間表示為zi；F1、F2是全連接層操作；σ(?)為激活函數。

2 基于多尺度融合的自適應孿生跟蹤算法

基于孿生神經網絡的跟蹤算法將跟蹤任務看作目標模板與搜索圖像的相似度度量問題，如式（5）所示，主要由3個部分組成：以孿生神經網絡?(?)為主的特征提取部分、以深度互相關運算“*”為主的相似度度量部分和區域建議網絡（RPN）模塊構成的跟蹤結果生成部分。特征提取部分由模板分支與搜索分支組成，模板分支輸入視頻序列第一幀z，提取目標特征作為模板特征?(z)，搜索分支輸入視頻后續幀x，提取搜索區域的特征作為搜索特征?(x)；互相關運算用于整合兩條分支的特征信息，計算搜索特征圖與模板特征圖的相似度，生成相似度響應圖f(z，x)；跟蹤結果生成部分根據響應圖來預測搜索圖像上的目標位置，一般認為最大響應位置即為目標預測位置，RPN模塊然后在預測位置進行目標尺度估計和邊界框回歸。

式中：b為響應圖每個位置上的偏差值；I為單位矩陣。

算法的網絡結構如圖2所示，首先使用平行堆疊了多個卷積的ResNet-50，以提取多樣化特征信息（Diverse Feature ResNet-50， DFResNet）；其次設計多尺度注意力模塊（Multi Scale Attention Module， MS-AM），有效保留了不同尺度的目標特征，提升對大、小目標的識別能力；然后在多尺度特征信息的基礎上提出注意力特征融合模塊（Attention Feature Fusion Mod?ule， AFFM），整合不同層的注意力特征信息，保留了豐富的語義信息和細節信息；最后級聯使用基于無錨框策略的RPN模塊（Anchor-Free Re?gion Proposal Network module， AF-RPN）完成跟蹤目標的分類、回歸，提高對目標的自適應感知能力。

圖2 網絡結構Fig. 2 Architecture of network

2.1 多樣化特征提取網絡DF-ResNet

淺層特征網絡Alexnet［16］和VGG［17］通常提取物體的外觀特征和細節信息（顏色、紋理和輪廓等），而缺少物體的語義特征信息。相比于形象的外觀特征信息，抽象的語義特征信息表征物體能力更強、魯棒性更好。特別是無人機視角下的場景復雜，含有較多的背景干擾和相似物體，淺層特征信息難以應對上述情況，限制了SiamFC［3］、SiamRPN［5］等算法的性能提升。提取語義信息的通常做法是增加網絡的深度或者寬度（ResNet-101），但是這樣大幅增加網絡參數會嚴重影響運算速度，不適合無人機目標跟蹤任務。而文獻［18］指出：相比于增加網絡層數，增加網絡的基數（Cardinality）更能有效地提高網絡的特征描述能力，同時還不會增加網絡參數量。因此本文選擇在網絡層數較深的ResNet-50上增加基數來提高網絡性能。

借鑒文獻［18-19］的分組-轉換-融合（Split-Transform-Merge）的設計思想，如圖3所示：考慮到殘差模塊中的conv3*3才是特征信息的主要提取部分，因此將殘差模塊中的conv3*3替換成平行堆疊多個相同拓撲結構的卷積層組。圖4（a）為普通卷積的卷積過程，可以看出：輸出特征圖的一個通道需要輸入特征圖的所有通道參與計算。圖4（b）為平行堆疊操作的實現過程，通過分組卷積（Group convolution）將通道數為64的conv3*3分為32組通道數為4的conv3*3。不同的卷積層組可以看作是不同的子空間（Subspace），每個子空間學習到的特征信息是各有側重、互不相同的，即提取了目標的多樣化特征信息。

圖3 DF-ResNet的ResBlockFig. 3 ResBlock of DF-ResNet

圖4 卷積過程Fig. 4 Convolution process

圖5為部分卷積層組的可視化結果，每個卷積組代表著一種特征，有的傾向于直線特征、而有的則傾向于圓形特征，并且相鄰通道的卷積層組的特征類似。若圖像中的某塊區域越像該卷積層組，則該區域的卷積結果就越大。證明了子空間學習思想是合理的，每個子空間代表著不同的特征信息并且這些特征信息很多都是不相關的，不需要組合所有通道進行學習，只需要相鄰通道的子空間來學習相關的特征。因此DFResNet的特征描述能力得到有效增強，相當于間接增加了網絡深度并且還不會降低跟蹤速度，能夠有效地應對無人機跟蹤過程中的外觀變化、復雜背景和相似物體干擾等挑戰。

圖5 卷積層組可視化Fig. 5 Convolutional group visualization

2.2 多尺度注意力模塊MS-AM

由于無人機的視角范圍廣、場景大，視野中容易包含許多與跟蹤目標相似的干擾目標。改進的DF-ResNet提取了跟蹤目標的多樣化特征信息，能增強對目標的表征能力。而DF-ResNet的不足之處在于：①對特征圖上每個空間位置給予相同的重視程度，不能有效區分跟蹤目標與其他目標；②文獻［8］發現特征圖是具有正交特性的，即不同通道上的特征圖代表了不同語義信息的物體。而DF-ResNet特征圖的各個通道對于后續相似度計算的貢獻度都是一樣的，不適用于跟蹤特定目標的跟蹤任務。對于跟蹤任務來說，空間和通道維度上的特征圖都需要有選擇性地分配權重和篩選。DF-ResNet提取了許多干擾目標的特征信息，跟蹤算法如果未能有效區分跟蹤目標與干擾目標的特征信息，容易將干擾目標錯認為跟蹤目標，從而產生跟蹤漂移現象。

注意力模塊因其能自適應分配權重、有選擇性地篩選特征圖信息，從而幫助網絡更好地關注感興趣的目標，能有效彌補DF-ResNet的不足。以SE［15］模塊為代表的全局通道注意力模塊，因其全局平均池化（Global Average Pooling，GAP）會造成空間上特征信息的丟失，不利于感知小目標［20］。文獻［21-22］都選擇級聯使用通道、空間注意力來提高算法對目標的多尺度感知能力，但是會過多地增加算法的計算負擔。考慮到無人機視角下目標尺寸小、特征信息少以及計算能力有限的特點，借鑒文獻［20］設計了一種輕量化多尺度注意力模塊（Multi-Scale Attention Module，MS-AM），提高對目標的多尺度感知能力。多尺度注意力模塊的結構如圖6所示，包括全局通道注意力（Global Attention）和局部空間注意力（Local Attention）。

圖6 多尺度注意力模塊Fig. 6 Multi-scale attention module

全局注意力主要由全局平均池化（GAP）和conv1*1組成：式（6）為通過全局平均池化來壓縮輸入特征圖u的空間信息，得到全局特征向量zc，而后式（7）通過2層1*1卷積conv1*1，學習特征向量之間的非線性關系，生成全局通道注意力權重SGlobal；如式（8）所示，局部注意力使用2層conv1*1對輸入u進行通道的降維和升維，壓縮通道上的特征信息，生成局部空間注意力特征圖vLocal。

式中：uc(i，j)為每個通道c上的特征圖，其中i、j為特征圖上像素點坐標，c∈C；F1、F2是conv1*1；σ(?)為ReLU激活函數。

式（9）將全局通道注意力權重SGlobal與局部空間注意力特征圖vLocal相加，得到多尺度注意力權重v，并通過式（10）將注意力權重v與輸入u加權相乘，得到多尺度注意力特征圖V。全局通道注意力和局部空間注意力的結合使用，在通道上抑制其他類別的目標特征信息、空間上抑制相似目標的特征信息和盡可能地保留小尺寸跟蹤目標的特征信息，增強了對跟蹤目標的辨別能力、多尺度感知能力和抗干擾能力。

2.3 注意力特征融合模塊AFFM

孿生跟蹤算法的核心思想是模板匹配，簡單高效地從搜索圖像中找到跟蹤目標，但跟蹤過程中目標會出現運動模糊、外觀變化和光照變化等情況導致目標后續狀態與初始模板存在較大差異。考慮到深層特征中具有抽象的高級語義信息，能魯棒地表征物體，保證算法在各種場景下的泛化能力。以及淺層特征中包含形象的細節信息，如形狀、顏色等信息，有助于目標的精準定位［23］。因此在多尺度注意力模塊的基礎上進行深淺層特征融合，有效整合淺層的細節信息合深層的語義信息，提高跟蹤算法的魯棒性與定位準確性［20］。注意力特征融合模塊（Attention Fea?ture Fusion Module，AFFM）如圖7所示。

首先式（11）將殘差模塊的輸入x[l]和輸出x[l+1]相加并作為多尺度注意力模塊的輸入，使得生成的注意力特征圖能同時具有語義信息和細節信息，式（12）然后將注意力權重vAFFM分別作用于x[l]、x[l+1]，篩選不同層的特征圖上的有用信息，最后將深淺層的注意力特征圖進行相加，得到注意力特征融合模塊的輸出VAFFM。

圖7 注意力特征融合模塊Fig. 7 Attention feature fusion module

相比于直接融合不同層特征信息的特征金字塔［24］，注意力特征融合模塊不僅能融合多層特征信息，而且在注意力模塊的幫助下能夠靈活地分配融合特征圖的權重，在融合階段對無關特征信息進行抑制、更多地保留了跟蹤目標的語義信息和細節信息，算法能有效應對運動模糊、外觀變化等挑戰，同時對目標的精確定位能力也得到增強。

2.4 基于無錨框策略的RPN模塊AF-RPN

文獻［25］指出通用目標跟蹤任務的出發點應該是跟蹤算法能依靠的先驗信息只有初始幀的目標信息，而RPN模塊中預先定義了一組尺度（Scale）、比例（Ratio）不同的錨框（Anchor）進行尺度估計，這些錨框的先驗信息都是從視頻中分析得到的，是違背了跟蹤任務的出發點，并且跟蹤性能對錨框的這些參數很敏感，需要人工精心設置。因此為了跟蹤算法能擺脫對目標先驗信息的過多依賴，在RPN模塊中使用文獻［26］的無錨框策略完成目標尺度的自適應估計。

如圖8、式（13）和式（14）所示，基于無錨框策略的RPN模塊（AF-RPN），其邊界框回歸分支不再對錨框的尺寸（長、寬、中心點位置）進行回歸，而是預測目標像素點與真實框（Ground-truth）之間的偏移量l，t，b，r；之前的分類分支是通過計算錨框與真實框的面積交并比（Intersection over Union， IOU）來判斷錨框內的目標是否為正樣本，因此無錨框策略需要一種新的正負樣本判別方法：式（15）將相似度響應圖的像素點(i，j)映射回搜索圖像，映射坐標為(pi，pj)。然后對(pi，pj)進行分類：如圖9所示，落在橢圓E1之外為負樣本；落在橢圓E2內則為正樣本；落在橢圓E1和橢圓E2之間則忽略該點。如式（16）所示：橢圓E1的中心點坐標為(gxc，gyc)、短半軸和長半軸的長分別為橢圓E2的中心點坐標為(gxc，gyc)、短半軸和長半軸的長分別為最后，式（17）對屬于正樣本的點(pi，pj)進行回歸，從而計算得到與真實值的偏移量l，t，b，r。式中為分類結果和回歸結果，其中w、h、4k分別為特征圖的寬度、高度、通道數。

圖8 AF-RPN模塊Fig. 8 AF-RPN module

圖9 正負樣本分類與邊界框回歸Fig. 9 Positive-negative classification and bounding box regression

式中：映射坐標為(pi，pj)；響應圖坐標為(i，j)；w、h為響應圖的寬度和高度；wim、him為搜索圖像的寬度和高度；s為網絡的總步長。

其中：gw、gh，(gx1，gy1)、(gxc，gyc)和(gx2，gy2)分別為真實框的寬、高，左上角坐標、中心點坐標和右下角坐標。則有：

跟蹤過程中目標的尺度變化情況是隨機、未知的，跟蹤算法難以通過預先定義的錨框準確估計出目標的尺度。因此AF-RPN模塊避免了錨框的使用，而是直接在搜索圖像上逐像素地區分正負樣本和預測目標位置，能夠自適應地感知目標的尺度變化。同時避免引入過多超參數，算法能靈活、通用地跟蹤未知場景下的目標。

同時為了充分利用注意力特征融合模塊AFFM整合的語義信息和細節信息，如圖2、式（18）和式（19）所示，在DF-ResNet的Layer2、Layer3和Layer4上級聯使用多個AF-RPN模塊并將結果進行加權融合，同時利用淺層特征中的細節信息對目標精確定位和深層特征中的語義信息穩定地表征跟蹤目標，有效應對跟蹤過程中的小目標、運動模糊等情況。參考文獻［8］，本文加權融合的權重是相同的，從而給予了各層相同的重視程度，充分和平衡地利用了語義信息和細節信息。

式中：Si、Bi和αi為第i層AF-RPN的分類輸出、回歸輸出和融合權重；S、B為網絡輸出的最終結果。

2.5 跟蹤算法流程

算法流程如圖10所示，主要步驟如下：

1）輸入視頻序列。

2） DF-ResNet提取視頻序列第1幀中目標特征，作為模板特征。

3） DF-ResNet提取后續幀中的搜索區域特征，作為搜索特征。

4）多尺度注意力模塊（MS-AM）為特征圖重新分配權重，得到加權特征圖。

5）注意力特征融合模塊（AFFM）將不同層的加權特征圖進行融合，整合細節信息與語義信息。

圖10 算法流程Fig. 10 Flowchart of algorithm

6）級聯多個基于無錨框策略的RPN模塊（AF-RPN）逐步完成對目標位置、邊界框大小的精確評估。

7）輸出目標的預測結果。

8）重復步驟3）~7），直至視頻結束。

3 實驗與分析

3.1 網絡分析

3.1.1 有效性

首先通過對比實驗來分析各個模塊對于網絡的提升效果，驗證各個模塊的有效性。表1為各模塊在數據集UAV123［27］上的跟蹤成功率：①使用AlexNet網絡、RPN模塊的標準方法Sia?mRPN［5］，成功率為55.7%；②在SiamRPN上使用多樣化特征提取網絡DF-ResNet替換原來的AlexNet網絡，成功率為58.6%，提高了2.9%，說明DF-ResNet能更有效地表征目標，從而提高了跟蹤效果；③在提取的多樣化特征信息基礎上使用多尺度注意力模塊，保留不同尺度的目標特征信息、抑制干擾信息，將跟蹤率提高至60.9%；④沒有了多尺度注意力模塊的特征融合模塊AFFM，直接將細節信息和語義信息相加，跟蹤成功率為60.5%，證明了語義信息和細節信息的融合能有效地增強跟蹤魯棒性和定位準確性；⑤基于無錨框策略的RPN模塊能夠逐像素地預測目標，自適應感知目標變化，跟蹤成功率比標準方法增加了4.6%、為60.3%；⑥本文組合各個模塊將成功率提升至61.7%、最大幅度地提升了跟蹤效果，證明各個模塊能夠協同配合、發揮各自優勢，互補地構建一個高效的無人機跟蹤算法。

表1 對比實驗結果Table 1 Comparison of results of ablation experiments

3.1.2 輕量化

為了進一步驗證MS-AM中全局通道注意力（Global Attention，GA）和局部空間注意力（Lo?cal Attention，LA）對網絡的提升作用，本文以ResNet-50為基礎測試2個子模塊在數據集Ima?geNet［28］上的分類準確度。如表2所示：添加全局通道注意力之后的網絡分類準確率為76.8%，比直接增加了網絡層數的ResNet-101的準確率更高；添加局部空間注意力之后的網絡性能進一步提升，準確率為77.7%，比ResNet-50高2.3%、比ResNet-101高1.1%。參數為29.9 M（1 M=1×106）、遠遠小于ResNet-101的44.55 M，比ResNet-50增加了4.34 M。可以看出：全局和局部注意力都能提升網絡性能，且二者結合使用的效果最好。因此相比于增加網絡層數，多尺度注意力模塊更能有效地提升網絡性能，并且參數量更少，適合無人機的目標跟蹤任務。

表2 輕量化分析Table 2 Lightweight analysis

3.1.3 可視化

為了直觀展示和驗證多尺度注意力模塊MS-AM和注意力特征融合模塊AFFM的有效性，將其加入DF-ResNet中，使用Grad-CAM++［29］展示DF-ResNet的分類準確度。Grad-CAM++是一種模型分類結果可視化方法，通過計算特征圖中空間位置上的梯度的像素加權，度量每個像素對模型分類結果的重要程度，生成的類激活熱力圖（Class Activation Map，CAM）能直觀展示CNN模型認為與類別標簽對應的圖像區域。熱力圖中某個區域的溫度越高，則類別激活值就越大，代表著該區域是該類別的可能性更大。

圖11為ResNet-50和DF-ResNet的類激活熱力圖。圖11（a）中有狗和貓2個類別的物體，有MS-AM和AFFM模塊存在的DF-ResNet對感興趣目標（貓）的辨別能力得到增強，干擾目標（狗）的激活值明顯降低。圖11（e）和圖11（f）表明DF-ResNet由于有能夠提供細節信息的AFFM模塊的存在，分類結果更加準確。因此MS-AM和AFFM能夠有效篩選目標特征，從而增強網絡對目標的辨別能力、抑制干擾目標，應用于跟蹤算法中能提升跟蹤準確度。

圖11 類激活熱力圖Fig. 11 Class activation map

3.2 實驗平臺及參數設置

實驗平臺：①操作系統為 Ubuntu18.04；②CPU為Intel Core i7-9700 @3.6 GHz；③GPU：2張NVIDIA GeForce RTX 2080Ti，內存11 G。

訓練數據集：中科院專門為目標跟蹤設計的GOT-10k［25］數據集，由10 000個視頻片段和150萬個人工標注的邊界框組成，包含現實世界中560多個類別的運動目標和80多種運動模式；包含38萬個視頻片段，560萬個人工標注的邊界框，23個類別的日常物體的YouTube-BoundingBoxes［28］；有30個基本級別的類別，200個子集的ImageNet VID和ImageNet DET［29］；包含91個對象類型，328千張圖像，總共有250萬個標注的COCO［30］。訓練時會從相同的視頻序列里隨機選取一個搜索圖像和模板圖像，組成圖像對輸入到網絡中訓練，模板圖像的大小為127 pixel×127 pixel，搜索分支圖像大小為255 pixel×255 pixel。

研究區出露地層為長城系星星峽巖群、下泥盆統阿爾彼什麥布拉克組、中泥盆統阿拉塔格組、下石炭統甘草湖組和第四系[9](圖1b)。侵入巖主要為華力西中期晚石炭世花崗巖[10]。區內斷裂構造極為發育，主要斷裂阿其克庫都克斷裂、卡瓦布拉克斷裂為NW—SE向，次級斷裂多為NE—SW向分布。

參數設置：多個AF-RPN的融合權重為α3=α4=α5=0.333；使用隨機梯度下降法（Stochastic Gradient Descent，SGD）訓練網絡，epoch=20、其中每個epoch訓練圖片數量為800 000對，batch size=22即每批次處理圖像11對；前10個epoch訓練AF-RPN、后10個epoch對整個網絡進行端對端訓練；前5個epoch的學習率從0.001預熱至0.005，后15個epoch的學習率從0.005指數衰減到0.000 05，衰減權重為0.00 01，動量為0.9。損失函數是分類的交叉熵損失（Cross entropy loss）和回歸的IoU損失函數的總和。

3.3 在UAV123上的實驗結果與分析

UAV123［31］數據集為測試無人機航拍目標跟蹤算法的基準數據集，由無人機拍攝的123個高分辨率視頻序列組成，包含9個目標類別、12種常見挑戰，視頻平均長度為915幀。包含場景有城市景觀、道路、建筑、田野、海灘、港口和碼頭等；包含目標：汽車、卡車、船只、人員、團體和空中交通工具等；目標的活動模式有：步行、騎自行車、滑水、駕駛、游泳和飛行等。拍攝場景復雜多變、跟蹤目標類別廣泛、運動模式復雜多元，能整體評估跟蹤算法。

3.3.1 定性分析

首先在UAV123中選取具有代表性的5個視頻序列（如表3所示），然后在這基礎上定性分析本文算法（Ours）與8種主流跟蹤算法的跟蹤結果，8種算法分別為：①額外訓練一個濾波器進行尺度估計的判別式尺度空間跟蹤算法［32］（Dis?criminative Scale Space Tracker， DSST）；②多專家魯棒跟蹤算法［33］（Multiple Experts using Entropy Minimization， MEEM）；③使用多尺度搜索策略跟蹤的尺度自適應與多特征跟蹤算法［34］（Scale Adaptive with Multiple Features tracker， SAMF）；④空間正則化相關濾波算法［35］（Spatially Regularized Discriminative Correla?tion Filters， SRDCF）；⑤全卷積孿生跟蹤算法的SiamFC［3］；⑥孿生跟蹤區域建議算法Siam?RPN［5］；⑦結構化支持向量機（SVM）進行自適應跟蹤的Struck［36］；⑧干擾物感知的孿生區域建議算法DaSiamRPN［37］。使用的對比算法結果均來自數據集官方公布結果和算法作者提供結果。跟蹤結果如圖12所示。

表3 5個代表性序列Table 3 Five representative sequences

圖12（a）序列car7：跟蹤目標為運動的汽車，第369幀時無人機由于視角變換不及時，出現跟蹤目標被障礙物遮擋的情況，只有SRDCF、Da?SiamRPN和本文算法能成功跟蹤上重新出現的目標，其余算法均將遮擋物當作跟蹤目標。第766幀時，隨著車輛的轉彎，邊界框的縱橫比變換大，只有本文算法能準確地標注出跟蹤目標。本文算法因為DF-ResNet使用多個子空間來學習目標的多樣化特征，能更有效地表征目標，因此提高了對跟蹤目標的辨別能力。

圖12 算法在數據集UAV123的跟蹤結果展示Fig. 12 Tracking results of algorithms in UAV123 dataset

圖12（c）序列car18：目標由遠至近地快速運動，導致跟蹤過程中目標的尺度變化大且迅速。使用多尺度搜索策略的相關濾波算法和孿生跟蹤算法的尺度適應能力明顯不足，尺度變換過大時不能完全標注出跟蹤目標，第105幀和144幀時只有本文算法準確地標注出跟蹤目標。相比于基于多尺度搜索策略和錨框的尺度估計算法，本文算法使用的無錨框策略能夠逐像素預測目標，從而提高算法對目標尺度變化的自適應感知能力。

圖12（d）序列car15：無人機從高空跟蹤行駛中的車輛，目標尺寸小且相似目標多。第230幀時相似目標與跟蹤目標重合之后，由于二者的特征信息少且相似，SiamFC、DSST、SAMF算法出現跟蹤失敗的情況，第425幀的遮擋情況也未能干擾本文算法的持續跟蹤。本文算法的多尺度注意力模塊中局部空間注意力在抑制干擾信息的同時更多地保留了小目標的空間信息，提高對小目標的識別能力和對相似干擾的抑制能力

圖12（e）序列wakeboard6：該場景中包含的背景信息容易影響算法的跟蹤性能，第65幀SAMF已經出現跟蹤失敗的情況。第507幀時隨著相機視角的突然變化，大部分算法丟失了跟蹤目標，只有SiamFC和本文算法能準確找到跟蹤目標。到了第1 081幀時目標在空中的翻轉動作造成尺度快速變化，SiamRPN和SiamFC未能及時跟上變化，只框出了部分目標。結合了全局和局部注意力的本文算法能有效抑制背景信息的干擾，因此識別復雜背景下的跟蹤目標性能更加穩定。

3.3.2 定量分析

為了進一步驗證算法的整體性能，采用一次通過評估模式（One-Pass-Evaluation， OPE），通過成功率（Success）和準確率（Precision）對算法進行評估［38］。成功率是指成功率曲線與坐標軸圍成的面積（Area Under Curve， AUC），其中成功率曲線上的每個點代表著重疊率（Intersection Over Union， IOU）大于某個閾值的幀數百分比；準確率，即中心定位誤差（Center Location Error，CLE）。計算被跟蹤目標中心位置與真實中心位置之間的平均歐氏距離，當距離小于閾值（一般為20個像素）時，被視為跟蹤成功。準確率由成功跟蹤的圖片數量和視頻序列數量的百分比得到。

1）整體性能評估：9種算法的整體評估結果如圖13所示。本文算法（Ours）的成功率和準確率分別為61.7%和81.5%，比第2名DaSiamRPN分別提高4.8%、3.4%，比SiamRPN分別提高6.0%、4.7%。可以發現：當成功率閾值變高和準確率閾值變低時，本文算法明顯優于其他算法，說明即使在跟蹤任務的要求變高時，本文算法也能展現出良好的跟蹤效果。證明多樣化特征信息提取網絡（DF-ResNet）、多尺度注意力模塊（MS-AM）、注意力特征融合模塊（AFFM）和基于無錨框策略的RPN模塊（AF-RPN）能夠協同配合，互補地構建一個高效的無人機航拍目標跟蹤算法。同時速度達到40.5 frame/s，滿足實時性要求（≥30 frame/s），足以勝任無人機實時跟蹤任務。

圖13 算法在數據集UAV123的整體性能評估Fig. 13 Overall performance evaluation of algorithms in UAV123 dataset

圖14 算法在UAV123數據集上不同屬性的評估結果Fig. 14 Evaluation results of different attributes of UAV123 with algorithms

2）各個屬性評估：UAV123數據集提供了各個視頻序列的挑戰屬性，更加全面地評價算法的性能。UAV123數據集中出現次數最多的挑戰為目標的尺度變化和部分遮擋，分別為89%和59%，符合無人機目標跟蹤的實際情況。如圖14所示：本文算法在尺度變化挑戰上的成功率和準確率為59.7%、79.3%，在部分遮擋挑戰上的成功率和準確率為52.3%、73.4%，在9種算法中排名第一，證明本文算法更加適合無人機目標跟蹤任務。此外在縱橫比變化、快速運動、低分辨率等挑戰上也取得了較好的效果，證明本文設計的各個模塊能夠有效應對無人機跟蹤過程中的多種挑戰，從而提高算法的整體性能。

3.4 在無人機航拍視頻上的測試與分析

為了驗證本文算法在實際無人機場景中的跟蹤效果，本文算法應用于無人機航拍視頻中進行測試，其中視頻分辨率為3 840 pixel×2 160 pixel，幀速為30 frame/s，拍攝高度為120 m。部分跟蹤結果如圖15所示。

序列1 跟蹤目標為在道路上滑行的人。目標的快速運動、特征點少且存在背景干擾，未能影響算法的跟蹤效果。可見本文算法在實際應用中也有著良好的小目標識別和抗干擾能力。

圖15 算法在無人機航拍視頻的跟蹤結果展示Fig. 15 Tracking results of algorithms in UAV aerial video

序列2 跟蹤目標的快速運動導致其尺度變化大且迅速，本文算法能及時感知出目標的尺度變化并準確標注出跟蹤目標。在696幀無人機隨著跟蹤目標的運動而調整飛行姿態，拍攝視角迅速變化，本文算法仍未產生跟蹤漂移現象。第1 571幀時算法準確判斷出跟蹤目標與相似目標。

序列3 由于無人機位置調整不及時，導致第93和第181幀跟蹤都出現了不同程度的遮擋情況，算法仍根據部分目標信息準確判斷出跟蹤目標的位置，并在第220幀時目標重新出現之后，準確識別出整個目標。

4 結論

提出了一種基于多尺度注意力和特征融合的自適應無人機目標跟蹤算法，主要工作為：

1）利用分組-轉換-融合的子空間學習思想，設計了多樣化特征提取網絡DF-ResNet，能夠提取目標的深層語義特征和多樣化特征，增強對目標的表征能力，有效應對目標的外觀變化、運動模糊等挑戰。

2）提出了一種多尺度注意力模塊MS-AM和注意力特征融合模塊AFFM，結合全局、局部注意力的MS-AM在篩選特征的同時保留對大、小目標的尺度感知能力，在此基礎上AFFM融合了不同層的特征，有效整合淺層細節信息和深層語義信息，有利于目標的精確定位與分類。

3）提出了一種基于無錨框策略的區域建議模塊AF-RPN，代替預先定義的錨框，逐像素的區分目標與背景，實現對目標尺度的自適應感知能力。并在AFFM模塊的基礎上級聯多個AFRPN，有效利用了互補的細節信息和語義信息來實現對跟蹤目標的魯棒跟蹤和精確定位。