摘要:針對無人機進行目標跟蹤時,目標存在尺度變化大、易受遮擋、相似物干擾等問題,在SiamCAR的基礎上提出IMPSiamCAR算法。該算法使用改進的ResNet50網絡提取目標特征,引入通道注意力機制使模型學習不同通道的語義信息,按特征的重要程度為通道分配不同的權重,使算法能更加關注存在跟蹤目標的區域;再將融合后的目標特征送入區域回歸網絡進行正負樣本分類、中心度計算及邊界框回歸;最后得到每一幀中目標的位置。在UAV123與OTB100數據集上測試的實驗結果表明,提出算法與對比算法相比,有更高的跟蹤精度與成功率,能較好地應對遮擋、相似物干擾、尺度變化等挑戰;并且在VOT2018和UAV123數據集上進行實時性測試的結果表明,所提算法可以滿足無人機實時性的要求。
關鍵詞:目標跟蹤;孿生網絡;通道注意力機制;無人機
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2023)01-053-0315-06
doi:10.19734/j.issn.1001-3695.2022.04.0215
Tracking algorithm of unmanned aerial vehicle targets
based on IMPSiamCAR for siamese network
Hou Yanli,Wang Xintao,Wei Yilun,Wang Juan
(School of Information Science amp; Engineering,Hebei University of Science amp; Technology,Shijiazhuang 050018,China)
Abstract:In order to resolve the problems of large scale change,susceptibility to occlusion and similar object interference when target tracking by UAV,based on SiamCAR,this paper proposed IMPSiamCAR algorithm.The algorithm used the improved ResNet50 network to extract the target features,introduced the channel attention mechanism to make the model learn the semantic information of different channels,and assigned different weights to channels according to the importance of the features,so that the algorithm could pay more attention to the regions where the tracking targets exist.Then
it fed the fused target features into the region regression network for positive and negative sample classification,centrality calculation and bounding box regression.Finally,it obtained the position of the target in each frame.Test experimental results of UAV123 and OTB100 datasets show that the proposed algorithm has higher tracking accuracy and success rate compared with the comparison algorithm,and can better deal with challenges such as occlusion,similar object interference as well as scale change.Moreover the results of real-time testing on VOT2018 and UAV123 datasets show that the proposed algorithm can fulfill the UAV real-time request.
Key words:object tracking;siamese network;channel attention mechanism;unmanned aerial vehicle(UAV)
0引言
無人機具有重量輕、尺寸小、操作便捷等優點,隨著無人機技術和計算機視覺的發展,以無人機為平臺的目標跟蹤被廣泛應用在城市管理、農業監測、搶險救災、地質探測等領域中。
當前主流目標跟蹤算法可分為相關濾波和深度學習兩類。相關濾波跟蹤通過學習視頻第一幀圖像[1]中目標的特征訓練一個相關濾波器,其他幀和相關濾波器做互相關得到得分響應圖,最大響應點就是該幀目標的位置。Bolme等人[2]提出的MOSSE(minimum output sum of squared error)算法僅提取目標灰度特征,與同時期其他目標跟蹤算法相比速度上有明顯的優勢,但是跟蹤精度一般。Henriques等人[3]提出的CSK(circulant structure with kernels)將MOSSE的隨機仿射變換采樣替換為稠密采樣,以此來獲取更多的樣本防止過擬合。Henriques等人[4]在MOSSE算法上引入了核技巧和多通道特征,提出了KCF(kernelized correlation filter)算法,有效提升了跟蹤效果,但是KCF算法具有邊界效應的問題,而引入空間正則化的SRDCF[5]算法以及采用矩陣的BACF(background aware correlation filter)[6]算法都是為解決該問題提出的。王賀等人[7]提出在KCF的基礎上將方向梯度直方圖特征、區域二值模式特征以及顏色特征進行特征融合,來應對無人機目標跟蹤存在尺度變化、遮擋等問題。Danelljan等人[8]提出了DSST(discriminative scale space tracker),實現了小范圍內尺度自適應。深度學習方法多為離線訓練、在線跟蹤,通過這種方法可以得到比較好的跟蹤質量,但是在速度方面相比于傳統的在線更新模型算法遜色不少。Bertinetto等人[9]提出一種基于全卷積孿生神經網絡SiamFC(fully-convolutional siamese networks)跟蹤算法,該算法在速度上達到了86 fps,有效彌補了深度學習算法在跟蹤速度方面的缺陷,該算法有兩個分支,一個分支用于提取第一幀中的目標作為模板幀,另一個作為搜索分支來獲取其他幀中目標的位置及類別。Li等人[10]提出SiamRPN,將FastRCNN中的區域回歸網絡加入到以SiamFC為基礎的孿生網絡中,使跟蹤器可以回歸目標的位置和矩形框,從而避免SiamFC需要多尺度測試的缺陷,提高了算法的性能,而且速度取得顯著的提升,達到160 fps,在VOT、OTB等數據集均取得了很好的評估結果,因此后續許多算法都是在SiamRPN的基礎上開發的。文獻[11]提出SiamRPN++算法,第一次將深層網絡應用到孿生網絡中并解決了引入后跟蹤算法精度下降的問題。文獻[12]提出SiamDW算法,通過定量和定性分析VGGNet[13]、ResNet[14]、Inception[15]等主干網絡對孿生網絡的影響,提出了一個新的主干網絡,該網絡能變深變寬,與原跟蹤器相比性能得到提升。這類典型的孿生網絡跟蹤算法通過設置幾組不同大小的錨框,選擇合適的對目標進行框選,不能很好地處理目標形狀和尺度的劇烈變化。Guo等人[16]提出帶有anchor-free機制的SiamCAR,取消了具有復雜計算量的錨框機制,該算法在跟蹤精度上取得了不錯的效果。周士琪等人[17]提出一種輕量孿生網絡跟蹤算法應用于旋翼飛行器,利用梯度上升法修正目標框,提升跟蹤精度。孫銳等人[18]提出以孿生網絡為基礎融合顯著性和在線學習干擾算法,解決了無人機航拍面臨的視場大、分辨率等問題。劉旭快[19]對無人機在長期跟蹤時超出視野的問題,通過局部和全局搜索能有效應對該問題。劉芳等人[20]首先在ResNet加入一種感受野增強結構,并設計融合淺層與深層特征的自適應融合網絡提升無人機在跟蹤小目標的能力。
這些無人機跟蹤算法仍然存在一些不足,在如遮擋、尺度變化大、相似目標干擾等場景跟蹤效果較差,而且采用錨框機制的孿生網絡跟蹤算法會極大地增加無人機的計算負擔。針對這些問題,本文提出IMPSiamCAR算法,其采用改進的ResNet50[14],即FT-ResNet50作為特征提取網絡,使算法能提取更豐富的特征信息。
1SiamCAR算法
SiamCAR包括特征提取和區域回歸兩部分。如圖1所示,特征提取部分由兩個ResNet50組成。ResNet50網絡可分為五個卷積模塊,第一個卷積模塊conv1用來對輸入進行調整,conv2~conv5四個模塊均由不同數量的殘差結構組成。
首先,模板分支與搜索分支對ResNet50的conv3~conv5模塊輸出的特征圖進行互相關,之后將互相關得到的三個特征圖融合為一張;區域回歸部分對融合后的特征圖進行分類、中心度預測和位置回歸。分類分支負責對特征圖每個特征點進行目標與背景的二分類,所以最終輸出2k維度的向量。中心度分支輸出一個1k維度的中心度得分圖,圖中每個點(i,j)的值對應搜索圖相應位置(x,y)的中心度。回歸分支最終輸出4k維度的向量(dm,dt,dn,db),代表搜索圖中點(x,y)到真實框的四條邊的距離。SiamCAR算法的ResNet50只提取最后三個卷積模塊的輸出,沒有充分利用淺層網絡所獲得的例如顏色、紋理和形狀等信息,在無人機對距離較近淺層特征較明顯的目標進行跟蹤時,會增加無人機計算負荷W從而影響跟蹤速度,而且ResNet50中的殘差結構部分參數設置不合理,導致對特征圖中的信息利用不充分,這無疑極大地影響了無人機在應對遮擋、小目標等需要更豐富語義特征的跟蹤場景下的性能,所以本文在SiamCAR的基礎上提出一種新的算法IMPSiamCAR。
2IMPSiamCAR算法
IMPSiamCAR算法的網絡結構如圖2所示,網絡的特征提取部分使用本文提出的FT-ResNet50,使算法快速高效地提取目標特征,區域回歸網絡使用無錨點網絡,負責對目標的類別及位置進行預測。
2.1FT-ResNet50
在原ResNet50的基礎上提出FT-ResNet50。該網絡首先對原殘差結構進行改進,使算法更加充分地提取特征;再將通道注意力機制引入ResNet50的conv1和conv5模塊,不增加網絡復雜度的同時,更有效提取深層與淺層特征。
2.1.1殘差結構的改進
原殘差結構如圖3(a)所示,由支路①和②網絡構成,支路①由三層網絡組成,支路②只有一個卷積層。該殘差結構存在如下問題:支路①中第一層網絡和支路②進行下采樣的卷積核的大小均為1×1,步長為2。假設用該卷積核在大小為6×6的特征圖上提取特征。從圖4(a)中可以看出,有27個網格的特征沒有被提取到,即特征圖中四分之三的信息沒有被利用,對于需要在尺度變化、遮擋、相似物干擾等各種復雜條件下執行目標跟蹤任務的無人機,會極大地影響其跟蹤性能。
針對這一問題,本文提出如下兩點改進:
a)將支路①的下采樣由第二層網絡的卷積核來完成。具體為,將第一層卷積核改為大小為1×1,步長為1,即第一層只用來降維。將第二層的卷積核改為大小為3×3,步長為2,如圖3(b)所示。
b)支路②的下采樣由卷積層前加入的平均池化層來完成。具體為,在原卷積層前加入一個平均池化層,該池化層的卷積核大小為2×2、下采樣步長為2,通過池化層進行下采樣。原網絡層的卷積核改為大小為1×1,步長為1,如圖3(c)所示。
通過上述兩點對改進,從圖4(b)可以看出,網絡能夠更全面地提取到特征圖中各個位置的信息,對特征利用率更高,提升算法獲取深層語義信息的能力。
2.1.2通道注意力機制
通道注意力機制對特征圖的各通道重新分配權值,使網絡更聚焦在目標特征通道。無人機目標跟蹤在普通場景下,只需要提取淺層信息就可以對背景與目標區分,而在遮擋、尺度變化等復雜場景下,需要更深層語義信息來對目標進行識別跟蹤。本文為了使算法能更有效利用深層與淺層目標特征,通過將通道注意力機制引入FT-ResNet50中,分別在淺層conv1模塊和深層conv5模塊后添加通道注意力,使特征提取聚焦于目標附近,降低相似特征的干擾,使無人機在不同場景中自適應地提取深層與淺層特征,降低計算復雜度,進一步提升其整體跟蹤性能。
文中采用的通道注意力機制如圖5所示。具體實現步驟如下:a)分兩路對尺度為H×W×K的輸入F進行平均池化與最大池化;b)將池化得到的兩個特征圖Fmax、Favg送入參數共享結構(MLP),該結構有兩層神經網絡,第一層通道數為K/R,激活函數為ReLU,第二層卷積通道數為K,兩層網絡共享參數,輸出兩個1×1×K的特征圖;c)將MLP輸出的兩特征圖相加后通過SIG(sigmoid)激活函數得到權重系數W,用權重W與原特征圖F相乘,生成通道注意力特征圖。通道注意力機制可表示為
Y(F)=σ(MPL(AvgPool(F)+MPL(MaxPool(F)))=
σ(W1(W0(Favg))+W1(W0(Fmax)))(1)
其中:W0和W1分別為MLP結構中兩層網絡的權值。
分別采用ResNet50和FT-ResNet50在OTB100數據集中的bird2視頻序列場景下提取目標特征,可視化效果圖如圖6所示。從圖中可以看出,FT-ResNet50提取特征時高響應部分更集中于目標附近,降低了背景的干擾。
2.2區域回歸網絡
通過FT-ResNet50輸出的特征圖送入區域回歸網絡中,如圖7所示,分類分支輸出大小25×25、通道數為2的特征圖。如果特征圖上的點對應搜索區域中的位置落在真實框中就判定該特征點屬于目標,否則為背景,所以分類特征圖每個點都有一個二維向量代表目標與背景的分數。搜索分支輸出大小25×25、通道數為4的特征圖,代表回歸特征圖上的點對應搜索區域中的位置與真實框四條邊的距離,所以回歸特征圖的每個點都有一個四維向量g(i,j)=(m,t,n,b)。
g0(i,j)=m=x-x0,g1(i,j)=t=y-y0
g2(i,j)=n=x1-x,g3(i,j)=b=y1-y(2)
其中:(x0,y0),(x1,y1)代表真實框左上角與右下角的坐標;(x,y)代表回歸特征中的點(i,j)對應搜索圖中的位置。
中心度分支對遠離目標中心的點分配更低的分數,使預測框集中于目標附近,該分支輸出一個25×25×1的特征圖,圖中每個點的值對應搜索圖中相應位置(k,h)的中心度得分,中心度計算公式為
C(k,h)=R×min(m,t)max(m,t)×min(n,b)max(n,b)(3)
其中:R的取值為0或1,當特征圖中的點不屬于搜索幀第一幀手動劃定的bbox范圍內時,該點的中心度值為0,否則為 1。
算法損失函數包括分類損失、中心度損失、回歸損失三部分,損失函數表示為
L=Lcls+λ1Lreg+λ2Lcen(4)
其中:λ1、λ2為超參數,用來平衡中心度與回歸兩個分支;Lcls為分類損失;Lreg為回歸損失;Lcen為中心度損失。分類損失函數Lcls定義為
Lcls=1N∑iLcross(yi,pi)(5)
其中:yi表示i點標簽類別,類別屬于目標則值為1,類別屬于背景則值為0;pi表示點i屬于跟蹤目標的概率;Lcross代表交叉熵損失函數。
回歸分支損失函數Lreg如式(6)所示,計算IoU損失[21]來回歸預測框的位置。
Lreg=∑i,jR(g(k,h))LIOU(g(k,h),v(k,h))∑R(g(k,h))(6)
其中:g(k,h)代表預測框的位置(k,h)對應搜索圖中的點距真實框四條邊的距離;v(k,h)為真實點(k,h)到真實框四條邊的距離;R(g(i,j))指示函數定義為
R(g(k,h))=1gn(k,h)gt;0,n=0,1,2,3
0otherwise(7)
代表搜索幀中預測框落在目標附近,則值為1,如果遠離目標值為0。中心度分支損失函數Lcen為
Lcen=-∑R(g(k,h))kcross(C(k,h),M(k,h))∑R(g(k,h))(8)
其中:C(k,h)代表預測的特征圖中相應位置中心度得分;M(k,h)為真實的中心度得分;kcross是交叉熵損失函數;R(g(k,h))代表指示函數。
3跟蹤流程
基于IMPSiamCAR算法的無人機跟蹤流程如圖8所示。
a)輸入視頻加載IMPSiamCAR網絡;b)判斷輸入是否為第一幀,如果是,提取圖像中心點范圍127×127×3大小的圖像作為模板分支的輸入,視頻的其他幀提取255×255×3大小的圖像作為搜索分支的輸入;c)道注意力機制對conv1與conv5卷積模塊重新分配權重并與原特征相乘,將輸出送入特征融合模塊;d)征融合得到的特征圖送入區域回歸網絡;e)判斷是否為最后一幀,如果是,結束跟蹤,否則重復步驟b)~d)。
4實驗結果與分析
4.1數據集
UAV123[22]數據集是專門用于無人機目標跟蹤的數據集,包含了各種無人機跟蹤視角,而且目標種類較多,能夠較全面地評估算法的性能,滿足實驗需求。本文實驗從UAV123數據集隨機選取96個視頻序列作為訓練集。選取UAV123數據集中的27個視頻序列與OTB100[23]數據集作為測試集,OTB100數據集有100個視頻序列,包含運動模糊、變形、遮擋、尺度變化等11種挑戰屬性。實驗評測主要指標為成功率和精確度,成功率指預測框與真實框的交并比大于算法所設定的閾值的數量占總預測框數的比例,精確度指預測目標中心點與真實目標中心點,兩者的距離低于設定閾值的視頻幀占總視頻幀數的百分比。本次實驗交并比閾值設定為0.6,像素閾值設定為20個像素。
4.2實驗環境與參數設定
本文算法實驗平臺硬件配置為:CPU Intel CoreTM i5-6300HQ@2.3 GHz;GPU為NVIDIA GeFore GTX-1080Ti。軟件平臺使用Windows 10版本,PyTorch 0.4.1框架的Python 3.6語言搭建。通過隨機梯度下降訓練,Batchsize設置為32,共訓練50個epoch,前10個epoch只訓練分類回歸分支,后40個epoch解凍骨干網絡進行訓練。預熱學習率為0.001,到達0.005時預熱學習率完成,之后用0.005作為初始學習率進行訓練,直到模型收斂。
4.3消融實驗
為評估FT-ResNet50網絡的有效性,用UAV123數據集進行三組消融實驗。第一組為基于AlexNet特征提取網絡的SiamCAR,第二組為基于ResNet50殘差網絡的SiamCAR,第三組為基于FT-ResNet50網絡的本文算法IMPSiamCAR。對比結果如圖9所示,在成功率指標上,SiamCAR-ResNet50比SiamCAR-AlexNet高4.6%,本文算法比SiamCAR-ResNet50高4.8%。在精確度指標上,SiamCAR-ResNet50比SiamCAR-AlexNet高2.6%,本文算法比SiamCAR-ResnNet50高2.8%。可以看出,與AlexNet、ResNet50兩種主干網絡的SiamCAR相比, FT-ResNet50作為主干網絡的IMPSiamCAR算法在跟蹤性能上有較大提升。
4.4UAV123數據集對比實驗
本文算法在UAV123數據集上與SiamRPN[10]、SiamCAR[16]、SiamDW[12]、SiamBAN[24]、C-COT[25]、ECO[26]進行比較,實驗結果如表1所示。從表1中可以看出,相對于對比算法,本文算法在UAV123數據集中整體成功率和精確度均高于對比算法,在相似物、遮擋、尺度變化特定場景下均有較好的表現,而且與基準算法SiamCAR相比本文算法在成功率上了提升了0.048,在精確度上提升了0.028。所以,從實驗結果可以看出,本文算法整體上有較好的跟蹤效果。
4.5OTB100數據集對比實驗
為了進一步驗證所提IMPSiamCAR算法在常規地面跟蹤場景下針對形變、尺度變化、遮擋等的性能,將本文算法和MDNet[27]、GradNet[28]、DeepSRDCF[29]、SiamRPN[10]、SiamDWfc[12]、CFNet[30]、DaSiamRPN[31]、SiamCAR[16]、SiamFC[9]九個對比算法在OTB100數據集上進行對比實驗,實驗結果如圖10所示。
從圖10(a)和(b)可以看出,本文算法的成功率和精確度分別達到了0.736和0.923,與基準算法SiamCAR相比成功率提升了3.9%,精確度提升1.3%。從圖10(c)~(f)可看出,在應對尺度變化、遮擋、形變、平面外旋轉、運動模糊這些問題時,本文算法與SiamRPN、GradNet等對比算法相比依然能保持較高成功率與精確度。實驗結果表明本文算法在常規地面跟蹤的復雜場景下,同樣有較優異的性能。
4.6算法實時性測試
為了進一步測試算法的實時性能,在VOT2018[32]和UAV123數據集上進行實驗。VOT2018數據集包含60個視頻序列,有部分遮擋、尺度改變、運動變化等挑戰屬性。使用VOT2018的平均重疊率(expected average overlap,EAO)指標以及跟蹤速度(frames per second,FPS)對算法進行評估,EAO和FPS越高,則跟蹤算法的性能越好。
將所提算法IMPSiamCAR與ECO、ATOM、SiamCAR、SiamRPN++、SiamFC、SASiam、DaSiamRPN、SiamRPN八個算法在VOT2018數據集上進行測試對比,如圖11所示。從圖11可以看出,所提算法EAO在所有對比算法中排第一,而且速度達到了71 fps,優于基礎算法SiamCAR的65 fps,雖然在速度上低于SiamRPN++、DaSiamRPN、 SiamRPN,但是所提算法能更好地平衡EAO與FPS這兩個指標,使無人機保持更穩定的跟蹤性能。
為了進一步測試本文算法能否滿足無人機實時性跟蹤的要求,在UAV123上對SiamFC、ECO、基準算法SiamCAR和所提算法的跟蹤速度進行測試對比,如表2所示。
從表2可以看出,與原算法SiamCAR相比,本文算法IMPSimCAR的速度有所提升,達到了53.5 fps,滿足無人機實時跟蹤的要求;并且從4.4節UAV123數據集對比實驗可知,本文算法在UAV123數據集上的精確度、成功率都得到了提高。因此,與原算法相比,本文算法的整體性能得到了進一步提升。
4.7定性分析實驗
為了更直觀地展示本文算法的魯棒性,選取UAV123數據集中四個較為典型的視頻序列car1、truck1、group3、bike1,采用本文算法、SiamCAR、SiamRPN、SiamFC四個算法的跟蹤結果如圖12所示。
視頻序列car1跟蹤場景為環形公路,車流量較大,對算法提取特征的能力有更高的要求。選取的跟蹤目標為一輛白色汽車,當汽車將要駛出環形公路時,環島中間的建筑物對汽車產生遮擋,SiamRPN和SiamCAR算法雖然可以框選目標,但是預測框不能對汽車進行有效框選,SiamFC算法預測框直接丟失跟蹤目標。而本文算法在目標部分被背景遮擋的情況下仍能對目標進行有效框選跟蹤。視頻序列truck1包含了形變、遮擋挑戰特性。在無人機的視角中消防車有明顯的形變以及較大程度的遮擋,SiamRPN、SiamFC均沒有很好的框選目標,SiamCAR甚至出現了跟丟的情況,而本文算法在整個跟蹤過程中,有較高的魯棒性,對目標持續跟蹤。視頻序列group3跟蹤場景為公路邊。選取綠色上衣行人作為跟蹤目標,兩側均為特征相似的干擾對象,目標在行進的過程中存在部分遮擋而且要變換位置,所以該場景在考驗算法處理相似干擾及遮擋性能的同時,對算法提取細致特征的能力有更高的要求,SiamCAR、SiamRPN、SiamFC在不同程度上將與目標相遇人群錯誤預測為目標,本文算法在此場景下能有效地對目標人群進行跟蹤(見電子版)。視頻序列bike1中有目標尺度小、受相似物干擾的問題,SiamRPN受相似目標干擾,而進行錯誤跟蹤,本文算法依然能成功地對目標有效框選并跟蹤。通過對上述跟蹤場景的分析,本文IMPSiamCAR在各種挑戰場景下,依然保持穩定的跟蹤性能。
5結束語
針對無人機在跟蹤時中存在尺度變化、相似物干擾、遮擋的問題,本文提出了IMPSiamCAR算法。算法使用結合通道注意力機制并且殘差結構進行了改進的FT-ResNet50網絡來完成特征提取,使用無錨點網絡完成分類與回歸。在OTB100與UAV123及VOT2018上進行測試,實驗結果表明,該算法相較于對比算法,在應對遮擋、尺度變化、相似物干擾等挑戰時,跟蹤性能有一定提升,而且跟蹤速度可以滿足無人機實時性要求。由于所提算法采用深度卷積網絡,跟蹤速度還有進一步提升的空間,下一步將研究如何輕量化網絡,使算法能更好地匹配無人機對實時跟蹤性能的要求。
參考文獻:
[1]Valmadre J,Bertinetto L,Henriques J,et al.End-to-end representation learning for correlation filter based tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:5000-5008.
[2]Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking using adaptive correlation filters[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2010:2544-2550.
[3]Henriques J,Caseiro R,Martins P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:702-715.
[4]Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters [J].IEEE Trans on Pattern Analysis And Machine Intelligence,2014,37(3):583-596.
[5]Danelljan M,Hager G,Khan F S,et al.Learning spatially regularized correlation filters for visual tracking[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:4310-4318.
[6]Galoogahi H K,Fagg A,Lucey S.Learning background-aware correlation filters for visual tracking[C]//Proc of IEEE International Confe-rence on Computer Vision.Washington DC:IEEE Computer Society,2017:1144-1152.
[7]王賀,卜智勇,譚沖.基于核相關濾波視覺檢測的多旋翼無人機對地目標跟蹤與逼近[J].中國科學院大學學報,2022,39(2):217-223.(Wang He,Bu Zhiyong,Tan Chong.Ground target tracking and approaching based on multi-rotor drone and kernel correlation filtered visual detection[J].Journal of University of Chinese Academy of Sciences,2022,39(2):217-223.)
[8]Danelljan M,Hger G,Khan F S,et al.Discriminative scale space tracking [J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(8):1561-1575.
[9]Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional Siamese networks for object tracking[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:850-865.
[10]Li Bo,Yan Junjie,Wu Wei,et al.High performance visual tracking with siamese region proposal network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8971-8980.
[11]Li Bo,Wu Wei,Wang Qiang,et al.SiamRPN+:evolution of Siamese visual tracking with very deep networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4282-4291.
[12]Zhang Zhipeng,Peng Houwen.Deeper and wider Siamese networks for real-time visual tracking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4591-4600.
[13]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2014-09-04).https://arxiv.org/abs/1409.1556v6.
[14]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[15]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:2818-2826.
[16]Guo Dongyan,Wang Jun,Cui Ying,et al.SiamCAR:siamese fully convolutional classification and regression for visual tracking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2020:6268-6276.
[17]周士琪,王耀南,鐘杭.融合視覺顯著性再檢測的孿生網絡無人機目標跟蹤算法[J].智能系統學報,2021,16(3):584-594.(Zhou Shiqi,Wang Yaonan,Zhong Hang.Siamese network combined with visual saliency re-detection for UAV object tracking [J].Trans on Intelligent Systems,2021,16(3):584-594.)
[18]孫銳,方林鳳,梁啟麗,等.孿生網絡框架下融合顯著性和干擾在線學習的航拍目標跟蹤算法[J].電子與信息學報,2021,43(5):1414-1423.(Sun Rui,Fang Linfeng,Liang Qili,et al.Siamese network combined learning saliency and online leaning interference for aerial object tracking algorithm[J].Journal of Electronics amp; Information Technology,2021,43(5):1414-1423.)
[19]劉旭快.基于孿生網絡的無人機視覺目標跟蹤方法研究[D].哈爾濱:哈爾濱工業大學,2020.(Liu Xukuai.Resear on UAV visual object tracking method based on siamese network[D].Harbin:Harbin Institute of Technology,2020.)
[20]劉芳,孫亞楠.基于自適應融合網絡的無人機目標跟蹤算法 [J].航空學報,2022,43(7):366-376.(Liu Fang,Sun Yanan.UAV target tracking algorithm based on adaptive fusion network[J].Acta Aeronautica et Astronautica Sinca,2022,43(7):366-376.)
[21]Yu Jiahui,Jiang Yuning,Wang Zhangyang,et al.Unitbox:an advanced object detection network[C]//Proc of the 24th ACM International Conference on Multimedia.New York:ACM Press,2016:516-520.
[22]Mueller M,Smith N,Ghanem B.A benchmark and simulator for UAV tracking[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:445-461.
[23]Wu Yi,Lim J,Yang M H.Object tracking benchmark[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,37(9):1834-1848.
[24]Chen Zedu,Zhong Bineng,Li Guorong,et al.Siamese box adaptive network for visual tracking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society.2020:6667-6676.
[25]Danelljan M,Robinson A,Shahbaz Khan F,et al.Beyond correlation filters:learning continuous convolution operators for visual tracking[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:472-488.
[26]Danelljan M,Bhat G,Khan F S,et al.ECO:efficient convolution operators for tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:6931-6939.
[27]Nam H,Han B.Learning multi-domain convolutional neural networks for visual tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:4293-4302.
[28]Li Peixia,Chen Boyu,Ouyang Wanli,et al.GradNet:gradient-guided network for visual object tracking[C]//Proc of IEEE/CVF International Conference on Computer Vision.Washington DC:IEEE Computer Society,2019:6161-6170.
[29]Danelljan M,Hager G,Khan F S,et al.Convolutional features for correlation filter based visual tracking[C]//Proc of IEEE International Conference on Computer Vision Workshop.Washington DC:IEEE Computer Society,2015:621-629.
[30]Valmadre J,Bertinetto L,Henriques J,et al.End-to-end representation learning for correlation filter based tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:5000-5008.
[31]Zhu Zheng,Wang Qiang,Li Bo,et al.Distractor-aware siamese networks for visual object tracking[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:103-119.
[32]Kristan M,Leonardis A,Matas J,et al.The sixth visual object tracking VOT2018 challenge results[C]//Proc of the 15th European Con-ference on Computer Vision.Berlin:Springer-Verlag,2019:3-53.
收稿日期:2022-04-12;修回日期:2022-06-05基金項目:河北省重點研發計劃資助項目(21355901D)
作者簡介:侯艷麗(1981-),女,黑龍江克山人,副教授,博士,主要研究方向為無線通信技術、無線電測向、圖像處理和人工智能;王鑫濤(1996-),男(通信作者),河北蔚縣人,碩士研究生,主要研究方向為計算機視覺(wxtxt130705@163.com);魏義侖(1997-),男,河北元氏人,碩士研究生,主要研究方向為計算機視覺;王娟(1996-),女,河北磁縣人,碩士研究生,主要研究方向為目標檢測.