999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

引入輕量級Transformer的無人機(jī)視覺跟蹤

2024-01-30 12:59:42諶海云王海川黃忠義余鴻皓

諶海云,王海川,黃忠義,余鴻皓

西南石油大學(xué) 電氣信息學(xué)院,成都 610500

無人機(jī)具有體積小、視野廣闊、機(jī)動性強(qiáng)等優(yōu)點(diǎn),被廣泛用于災(zāi)情檢測、航空攝影、交通監(jiān)控等領(lǐng)域[1]。隨著計(jì)算機(jī)視覺的興起,目標(biāo)跟蹤技術(shù)[2]因能使無人機(jī)執(zhí)行更多自主任務(wù)已成為當(dāng)前的研究熱點(diǎn)[3]。

目前,目標(biāo)跟蹤領(lǐng)域的主流方法主要分為基于相關(guān)濾波器和基于深度學(xué)習(xí)兩種。基于相關(guān)濾波器的跟蹤算法如DSST(discriminative scale space tracker)[4]、KCF(kernelized correlation filter)[5]、STRCF[6]等具有較高的跟蹤效率,可直接部署在無人機(jī)平臺。但是基于相關(guān)濾波器的跟蹤方法只能學(xué)習(xí)簡單的特征,難以應(yīng)對復(fù)雜的無人機(jī)跟蹤場景。基于深度學(xué)習(xí)的跟蹤方法如TADT(target-aware deep tracking)[7]、UDT(unsupervised deep tracking)[8]、AutoTrack[9]等利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)強(qiáng)大的特征提取能力在跟蹤性能方面取得顯著的進(jìn)步,受到研究者廣泛關(guān)注。

在基于深度學(xué)習(xí)的跟蹤器中,基于孿生網(wǎng)絡(luò)的跟蹤方法在跟蹤精度和跟蹤速度方面均展現(xiàn)出巨大潛力,有望部署在無人平臺。SiamFC(fully-convolutional Siamese networks)[10]算法作為孿生跟蹤器的開山之作,將跟蹤任務(wù)定義為模板分支與搜索分支的相似性匹配任務(wù),取得了不錯(cuò)的跟蹤效果。SiamRPN[11]在SiamFC算法的基礎(chǔ)上引入?yún)^(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN),回歸更精確的目標(biāo)邊界框。SiamMask[12]設(shè)計(jì)一個(gè)與跟蹤框架并行的分割分支,獲取像素級的目標(biāo)位置,使得跟蹤器的魯棒性得到顯著性增強(qiáng)。SiamRPN++[13]使用ResNet[14]作為主干網(wǎng)絡(luò),有效抑制了跟蹤背景造成的干擾,但難以滿足無人機(jī)平臺的實(shí)時(shí)性要求。SiamFC++[15]將目標(biāo)檢測領(lǐng)域的anchor-free策略引入到跟蹤領(lǐng)域,避免了相關(guān)超參數(shù)敏感的問題。盡管基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法在多個(gè)目標(biāo)跟蹤基準(zhǔn)上表現(xiàn)出優(yōu)異性能,但是這些跟蹤方法沒有充分利用跟蹤過程中的全局上下文,當(dāng)無人機(jī)跟蹤目標(biāo)出現(xiàn)遮擋、模糊和尺寸變化等情況時(shí),算法的跟蹤性能會下降。

最近,Transformer[16]在序列建模中解決全局信息相互作用的問題上表現(xiàn)優(yōu)異,被應(yīng)用于目標(biāo)跟蹤任務(wù)[17]。文獻(xiàn)[18]引入Transformer進(jìn)行特征提取,獲取魯棒的特征表示。TCTrack[19]利用Transformer捕獲歷史幀的時(shí)空信息,提高了算法的跟蹤精度。后來的工作如TrDiMP[20]、Stark[21]、MixForMer[22]等進(jìn)一步將Transformer引入到目標(biāo)跟蹤領(lǐng)域,實(shí)現(xiàn)了穩(wěn)健的目標(biāo)跟蹤。然而,Transformer只能較好地捕捉長程依賴關(guān)系,無法獲取精確的局部上下文信息。同時(shí),當(dāng)前基于Transformer的跟蹤器通常采用復(fù)雜的編碼器-解碼器架構(gòu),導(dǎo)致跟蹤框架過于臃腫,無法滿足實(shí)時(shí)性需求。

基于上述分析,本文提出一種引入輕量級Transformer的實(shí)時(shí)無人機(jī)目標(biāo)跟蹤算法SiamLT。該算法使用Transformer對AlexNet[23]網(wǎng)絡(luò)進(jìn)行改進(jìn),并設(shè)計(jì)一種卷積聯(lián)合Transformer模塊(convolution combined with Transformer module,CCTM)進(jìn)行特征提取,以獲取魯棒的特征表示。接著結(jié)合Transformer和深度互相關(guān)運(yùn)算提出一種二元相關(guān)模塊(binary cross-correlation module,BCM),使目標(biāo)模板能夠同時(shí)關(guān)注于搜索區(qū)域的局部上下文和全局信息。最后在回歸分支中引入距離交并比[24],并采用多監(jiān)督策略訓(xùn)練跟蹤器。上述設(shè)計(jì)使得跟蹤框架可以學(xué)習(xí)到準(zhǔn)確的目標(biāo)位置,能更有效應(yīng)對無人機(jī)跟蹤任務(wù)中經(jīng)常出現(xiàn)的遮擋、尺度變化和相似目標(biāo)等情況。同時(shí),所設(shè)計(jì)的SiamLT算法采用輕量級Transformer結(jié)構(gòu)對輸入信息進(jìn)行交互運(yùn)算,避免了多層編碼器-解碼器結(jié)構(gòu)導(dǎo)致網(wǎng)絡(luò)延遲較高的問題,跟蹤速度可達(dá)124 FPS,實(shí)現(xiàn)了具有競爭性的跟蹤速度。

1 本文算法

SiamLT的整體框架如圖1所示。該網(wǎng)絡(luò)架構(gòu)由特征提取主干網(wǎng)絡(luò)、二元相關(guān)模塊和分類回歸網(wǎng)絡(luò)組成。給定一個(gè)待跟蹤圖像序列,SiamLT首先對初始幀和搜索幀進(jìn)行裁剪和填充,得到大小為3×127×127的目標(biāo)模板和大小為3×287×287的搜索圖像。然后,主干網(wǎng)絡(luò)對目標(biāo)模板搜索圖像進(jìn)行特征提取,得到響應(yīng)值穩(wěn)定的模板特征和搜索特征。二元相關(guān)模塊根據(jù)模板特征和搜索特征建模建局部相關(guān)性和全局依賴關(guān)系,以確定包含目標(biāo)豐富位置信息的二元響應(yīng)圖。隨后使用分類回歸網(wǎng)絡(luò)對二元響應(yīng)圖進(jìn)行解碼,從而實(shí)現(xiàn)目標(biāo)與背景的分離和邊界框預(yù)測。最后通過非極大值抑制對分類回歸網(wǎng)絡(luò)的預(yù)測結(jié)果進(jìn)行排序,并選取分值最高的預(yù)測結(jié)果更新目標(biāo)狀態(tài)。

1.1 SiamLT主干網(wǎng)絡(luò)設(shè)計(jì)

為平衡跟蹤算法的魯棒性和實(shí)時(shí)性,受文獻(xiàn)[16]的啟發(fā),本文利用輕量級Transformer對AlexNet網(wǎng)絡(luò)進(jìn)行改進(jìn),改進(jìn)后的主干網(wǎng)絡(luò)參數(shù)如表1所示。相比于基于純Transformer的ViT[25]網(wǎng)絡(luò)模型,SiamLT主干網(wǎng)絡(luò)采用一種輕量級Transformer結(jié)構(gòu),即在特征提取過程中,主干網(wǎng)絡(luò)結(jié)合CNN的空間歸納偏差屬性和Transformer建模全局依賴關(guān)系的優(yōu)勢,使得跟蹤框架在保持低參數(shù)量的情況下能夠?qū)W習(xí)全局特征信息。

表1 主干網(wǎng)絡(luò)參數(shù)設(shè)置Table 1 Backbone network parameter settings

如表1所示,主干網(wǎng)絡(luò)的前三層由卷積和池化運(yùn)算組成,主要對輸入圖像進(jìn)行特征降維。由于卷積運(yùn)算只能較好地捕捉局部信息,因此,本文結(jié)合卷積運(yùn)算和Transformer設(shè)計(jì)一種獨(dú)立的特征提取模塊CCTM,以捕捉輸入圖像的全局上下文。CCTM的核心思想是將Transformer作為卷積的全局表示,其整體框架如圖2所示。CCTM的主要組成單元包括多頭注意力(multi-head attention,MHA)、卷積、批量歸一化(batch normalization,BN)、層歸一化(layer norm,LN)和前饋網(wǎng)絡(luò)(feed forward network,F(xiàn)FN)。

圖2 CCTM的整體框架Fig.2 Overall framework of CCTM

其中,Wk、Wq分別表示卷積函數(shù)學(xué)習(xí)到的權(quán)重,relu為激活函數(shù)。隨后對特征向量進(jìn)行多頭注意力交互運(yùn)算,以學(xué)習(xí)全局特征信息,最后對學(xué)習(xí)到的全局上下文信息進(jìn)行重塑,獲得最終的輸出特征矩陣xi+1∈RC2×H2×W2,計(jì)算過程如式(4)、(5)所示:

基于上述策略,本文利用Transformer改進(jìn)AlexNet網(wǎng)絡(luò),以顯著性地增強(qiáng)跟蹤框架的特征建模能力。同時(shí),改進(jìn)后的主干網(wǎng)絡(luò)包含輕量級CNN固有的空間歸納偏差屬性,其參數(shù)量僅為4.49×106。改進(jìn)后的主干網(wǎng)絡(luò)參數(shù)量為ViT網(wǎng)絡(luò)(參數(shù)量為86.4×106)參數(shù)量的5.20%,具有較低的網(wǎng)絡(luò)延遲,因此稱之為輕量級Transformer。

1.2 二元相關(guān)模塊

Transformer的長距離依賴屬性使得輸入序列中各個(gè)單元能夠突破臨近位置的限制,有利于捕捉目標(biāo)模板與搜索區(qū)域之間的全局依賴關(guān)系;然而,長距離依賴屬性也使得Transformer難以高效獲取局部鄰域的相關(guān)性,導(dǎo)致跟蹤框架在處理低分辨率目標(biāo)時(shí)面臨跟蹤精度受限的問題。因此,本文在特征圖匹配階段結(jié)合Transformer和深度互相關(guān)運(yùn)算提出一種二元相關(guān)模塊,同時(shí)捕獲目標(biāo)模板與搜索區(qū)域之間的局部相關(guān)性和全局依賴關(guān)系。同時(shí),考慮到Transformer的多層編碼器-解碼器架構(gòu)導(dǎo)致跟蹤框架過于臃腫的問題,本文直接利用Transformer對輸入信息進(jìn)行交互運(yùn)算,以確保算法的實(shí)時(shí)性。

BCM的整體結(jié)構(gòu)如圖3所示。BCM首先使用主干網(wǎng)絡(luò)提取的模板特征T∈R192×6×6和搜索特征S∈R192×26×26進(jìn)行互相關(guān)運(yùn)算,產(chǎn)生局部響應(yīng)圖FP∈R192×441;然后利用Transformer建模全局依賴關(guān)系,得到全局響應(yīng)圖FG∈R192×736;最后使用Transformer融合兩個(gè)響應(yīng)圖,以獲取包含豐富目標(biāo)位置信息的二元響應(yīng)圖F∈R192×26×26。

圖3 二元相關(guān)模塊的整體框架Fig.3 Overall framework of binary cross-correlation module

如式(6)所示,BCM以模板特征作為卷積核,與搜索特征進(jìn)行互相關(guān)運(yùn)算(實(shí)質(zhì)為卷積),以獲取精確的局部相關(guān)性。

其中,⊙表示互相關(guān)運(yùn)算,b表示對應(yīng)的偏差。

為捕獲目標(biāo)模板與搜索區(qū)域之間的全局依賴關(guān)系,BCM首先對模板特征和搜索特征進(jìn)行1×1核的卷積運(yùn)算,然后對特征矩陣進(jìn)行重塑,獲得特征向量B∈R192×36、D∈R192×736。最后利用多頭注意力關(guān)注全局相關(guān)性,具體計(jì)算過程如式(7)~(9)所示。

其中,WT、WS分別表示對應(yīng)卷積函數(shù)學(xué)習(xí)到的權(quán)重。

基于局部響應(yīng)圖和全局響應(yīng)圖,BCM利用多頭注意力和前饋網(wǎng)絡(luò)對全局相關(guān)性和局部關(guān)注信息進(jìn)行整合,得到二元響應(yīng)圖,具體計(jì)算過程如式(10)、(11)所示:

本文設(shè)計(jì)的二元相關(guān)模塊在模板分支與搜索分支匹配階段同時(shí)關(guān)注于局部相關(guān)性和全局依賴關(guān)系,以提升跟蹤框架在復(fù)雜無人機(jī)跟蹤場景下的抗干擾能力。同時(shí),BCM舍棄了傳統(tǒng)的多層編碼器-解碼器架構(gòu),直接利用Transformer對輸入特征進(jìn)行多頭注意力交互運(yùn)算,具有較低的運(yùn)算量占比。SiamLT算法的總體運(yùn)算量為7.44 GFLOPs,其中BCM的運(yùn)算量為0.394 GFLOPS,僅占算法總體運(yùn)算量的5.30%,充分證明引入的Transformer為輕量級結(jié)構(gòu)。

1.3 分類回歸網(wǎng)絡(luò)

相比于基于anchor的跟蹤方法,基于anchor-free的跟蹤器在保持低參數(shù)量的情況下具有更高的預(yù)測精度。因此,受文獻(xiàn)[15]的啟發(fā),本文采用基于anchor-free的預(yù)測網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)包含分類分支、中心分支和回歸分支。

分類分支的目的是區(qū)分目標(biāo)的前景和背景,具體而言,分類分支首先使用一個(gè)輕量級分類CNN對F進(jìn)行編碼,將二元相關(guān)模塊檢索到的信息進(jìn)行集成,以適應(yīng)分類任務(wù)。然后使用1×1核的線性卷積層將分類卷積網(wǎng)絡(luò)的輸出進(jìn)行降維,產(chǎn)生最終的分類響應(yīng)圖Fcls∈R1×20×20。

由于遠(yuǎn)離目標(biāo)中心的位置往往會產(chǎn)生低質(zhì)量預(yù)測框,從而降低跟蹤器的性能,因此,本文添加一個(gè)與分類分支并行的中心分支,以去除離群值。中心分支使用1×1核的卷積運(yùn)算對分類卷積網(wǎng)絡(luò)的輸出進(jìn)行降維,產(chǎn)生最終的中心響應(yīng)圖Fcen∈R1×20×20。在跟蹤過程中,使用中心響應(yīng)圖與分類響應(yīng)圖進(jìn)行點(diǎn)乘運(yùn)算,以抑制遠(yuǎn)離目標(biāo)中心像素點(diǎn)產(chǎn)生的分類置信度得分。

回歸分支的目的是優(yōu)化目標(biāo)的邊界框。回歸分支以F作為輸入,依次經(jīng)過回歸CNN和1×1核的卷積運(yùn)算,生成最終的回歸響應(yīng)圖Fcen∈R4×20×20,用于目標(biāo)邊界框估計(jì)。

1.4 多監(jiān)督訓(xùn)練和損失函數(shù)

考慮到恰當(dāng)?shù)谋O(jiān)督策略對網(wǎng)絡(luò)整體的收斂與性能起到至關(guān)重要的作用,本文針對提出的二元相關(guān)模塊和分類回歸網(wǎng)絡(luò)設(shè)計(jì)一種多監(jiān)督訓(xùn)練策略。即在訓(xùn)練過程中使用局部響應(yīng)圖、全局響應(yīng)圖和最終響應(yīng)圖的分類回歸結(jié)果共同進(jìn)行監(jiān)督,以保證充分的收斂性及性能提升。

本文算法通過端到端的方式進(jìn)行訓(xùn)練,對于分類分支和中心分支分別采用交叉熵?fù)p失函數(shù)和二值交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,計(jì)算過程如式(12)、(13)所示:

其中,Lcls表示分類損失,Lcen表示中心損失,(i,j)表示響應(yīng)圖上的具體位置,pi,j表示該位置預(yù)測的概率,yi,j表示對應(yīng)位置的真實(shí)標(biāo)注值。C(i,j)表示中心分支響應(yīng)圖在原圖像對應(yīng)位置到目標(biāo)中心的距離相對比,當(dāng)響應(yīng)圖上的點(diǎn)(i,j)對應(yīng)位置為背景時(shí),C(i,j)為0。

在視覺跟蹤領(lǐng)域,目標(biāo)框的預(yù)測精度直接影響跟蹤器的魯棒性。由于距離交并比[24]同時(shí)考慮到交并比、中心點(diǎn)距離和長寬比對目標(biāo)跟蹤性能的影響,可以回歸更準(zhǔn)確的目標(biāo)框。因此,本文在回歸分支訓(xùn)練過程中引入距離交并比,其數(shù)學(xué)表達(dá)式為如式(14)所示:

其中,B、Bgt分別表示預(yù)測框和真實(shí)標(biāo)注框,b、bgt分別表示預(yù)測標(biāo)注框與真實(shí)標(biāo)注框的中心坐標(biāo),ρ表示兩框的中心距離,c表示兩框相交區(qū)域內(nèi)的對角線距離。回歸分支損失函數(shù)如式(15)所示:

其中,Lreg表示回歸損失。因此,每個(gè)響應(yīng)圖對應(yīng)的損失函數(shù)如式(16)所示:

使用多監(jiān)督訓(xùn)練策略后,網(wǎng)絡(luò)最終的損失函數(shù)如式(17)所示:

其中,λ1、λ2、λ3分別表示對應(yīng)響應(yīng)圖的損失權(quán)重因子。

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)細(xì)節(jié)

本文試驗(yàn)使用的操作系統(tǒng)為Ubuntu16.04,編程語言和編程框架分別為Python3.7、Pytorch1.8。硬件配置為Intel?CoreTMi9-10980XE CPU、GeForce NVIDIA RTX3090 GPU。

本文使用從GOT10K[26]、LaSOT[27]和ImageNet-VID[28]提取的圖像對訓(xùn)練SiamLT跟蹤器,目標(biāo)模板和搜索圖像的大小分別設(shè)置為3×127×127和3×287×287。網(wǎng)絡(luò)總共訓(xùn)練70個(gè)epoch,每個(gè)epoch迭代64 000次。采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為1×10?2,并最終衰減至1×10?5,批量大小設(shè)為32,動量設(shè)為0.9,權(quán)重衰減設(shè)為10?4。

2.2 數(shù)據(jù)集和評估指標(biāo)

為全面展示所提算法的跟蹤性能,在兩個(gè)流行的無人機(jī)目標(biāo)跟蹤基準(zhǔn)(UAV123[29]、UAV20L[29])上進(jìn)行測試。UAV123是一個(gè)大型無人機(jī)目標(biāo)跟蹤數(shù)據(jù)集,總共約14 GB,包含123個(gè)視頻序列,超過11萬幀圖片。該數(shù)據(jù)集全部由無人機(jī)在空中拍攝,包含背景干擾、快速移動、超出視野等12個(gè)具有挑戰(zhàn)性的無人機(jī)目標(biāo)跟蹤場景,因此可以全面地評估跟蹤器的空中跟蹤性能。UAV20L包含20個(gè)由無人機(jī)拍攝的長期跟蹤序列,每個(gè)序列平均2 934幀。在本文中,它被用來評估SiamLT跟蹤器在長期空中跟蹤場景中的性能。

本文采用跟蹤成功率和精確率評估算法的跟蹤性能。具體而言,成功率通過真實(shí)標(biāo)注框與預(yù)測框的交并比進(jìn)行衡量,交并比超過預(yù)定義閾值的圖像占圖像總數(shù)的百分比即為成功率;利用預(yù)測位置與標(biāo)注真實(shí)值之間的中心定位誤差評估跟蹤精度,中心定位誤差在一定閾值內(nèi)的圖像占圖像總數(shù)的百分比即為精確率。同時(shí),通過每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)評估算法的實(shí)時(shí)性。

2.3 消融實(shí)驗(yàn)

為了驗(yàn)證本文方法的有效性,在UAV123跟蹤基準(zhǔn)上進(jìn)行消融實(shí)驗(yàn)。表2展示了不同實(shí)驗(yàn)方法的跟蹤性能,其中,“√”表示使用該策略,沒有“√”表示未使用該策略,以下將展開詳細(xì)分析。

表2 不同實(shí)驗(yàn)方法在UAV123跟蹤基準(zhǔn)上的跟蹤結(jié)果Table 2 Tracking results of different experimental methods on UAV123 tracking benchmark

如表2所示,使用AlexNet作為主干網(wǎng)絡(luò)時(shí),跟蹤器的成功率和精確率較差,使用ResNet作為主干網(wǎng)絡(luò)可以顯著提升跟蹤算法的成功率和精確率,但ResNet需要占據(jù)較大的計(jì)算空間,難以滿足實(shí)時(shí)性要求。當(dāng)使用輕量級Transformer改進(jìn)AlexNet時(shí),與單獨(dú)使用AlexNet相比,算法的跟蹤成功率和精確率分別提升了11.3%和6.3%。當(dāng)使用BCM替換深度互相關(guān)策略時(shí),本文算法的跟蹤成功率和精確率分別提升了5.0%和3.1%。使用多監(jiān)督策略進(jìn)行訓(xùn)練時(shí),算法的跟蹤性能進(jìn)一步提升。

上述實(shí)驗(yàn)表明本文算法引入輕量級Transformer和多監(jiān)督訓(xùn)練策略是有效的,算法的成功率和精確率均有所提升。在跟蹤速度方面,由于本文采用輕量級Transformer結(jié)構(gòu),CCTM和BCM對實(shí)時(shí)性的影響較小,SiamLT算法實(shí)現(xiàn)了124 FPS的跟蹤速率,能滿足實(shí)時(shí)性要求。

2.4 定量分析

2.4.1 UAV123跟蹤基準(zhǔn)實(shí)驗(yàn)結(jié)果

本文在UAV123跟蹤基準(zhǔn)上對SiamLT算法進(jìn)行整體性能評估,并與17種跟蹤算法進(jìn)行對比,對比算法包括:DSST[4]、KCF[5]、STRCF[6]、TADT[7]、UDT[8]、AutoTrack[9]、SiamFC[10]、SiamRPN[11]、SiamMask[12]、HiFT[17]、TCTrack[19]、LCT[30]、SRDCF[31]、BACF[32]、ECO-HC[33]、ECO[33]、SiamDW[34]。

表3顯示了18種算法在UAV123跟蹤基準(zhǔn)上的整體性能。本文算法的跟蹤成功率和精確率分別為0.616和0.811,明顯優(yōu)于其他算法。相比于運(yùn)用Transformer的跟蹤器TCTrack,SiamLT算法的成功率和精確率分別提升了2.0%和1.4%。與采用深度主干網(wǎng)絡(luò)的SiamDW算法相比,所提算法的跟蹤成功率和精確率分別提升了14.9%和4.5%。

表3 不同算法在UAV123跟蹤基準(zhǔn)上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different algorithms on the UAV123 tracking benchmark

無人機(jī)在執(zhí)行跟蹤任務(wù)時(shí),由于目標(biāo)運(yùn)動、無人機(jī)平臺飛行姿態(tài)變化以及跟蹤環(huán)境變化等原因,會經(jīng)常出現(xiàn)目標(biāo)尺寸變化、背景遮擋、相似目標(biāo)等具有挑戰(zhàn)性的跟蹤場景,導(dǎo)致跟蹤目標(biāo)框發(fā)生漂移。因此,為充分評估SiamLT算法在復(fù)雜無人機(jī)跟蹤場景下的跟蹤性能,分別在UAV123跟蹤基準(zhǔn)具備的12種跟蹤場景中進(jìn)行實(shí)驗(yàn)分析。圖4展示了18種算法在12種無人機(jī)場景下的跟蹤成功率,本文算法在尺寸變化、完全遮擋和光線變化等11種場景下的成功率均排名第一,在快速移動場景下的成功率也位于前列,充分證明本文算法的有效性。

圖4 不同算法在12種場景下的跟蹤成功率Fig.4 Tracking success rate of different algorithms in 12 scenarios

當(dāng)出現(xiàn)尺寸變化、部分遮擋、光線變化、相似目標(biāo)等場景時(shí),搜索圖像會包含干擾信息,而本文在特征提取階段利用Transformer獲取全局特征信息,同時(shí)二元相關(guān)模塊使得目標(biāo)模板與搜索區(qū)域之間的局部相關(guān)性和全局映射關(guān)系形成互補(bǔ)作用,有效提高了算法的抗干擾能力,SiamLT跟蹤器在尺寸變化、部分遮擋、光線變化、相似目標(biāo)場景下的成功率分別達(dá)到0.600、0.533、0.567和0.544。通過與17種流行的目標(biāo)跟蹤算法進(jìn)行比較,充分說明本文引入輕量級Tranformer的積極作用,使得跟蹤框架能獲取更準(zhǔn)確的目標(biāo)位置,以有效應(yīng)對復(fù)雜無人機(jī)跟蹤場景。

2.4.2 UAV20L跟蹤基準(zhǔn)實(shí)驗(yàn)結(jié)果

長期跟蹤是無人機(jī)目標(biāo)跟蹤任務(wù)中的難點(diǎn),因此,在UAV20L跟蹤基準(zhǔn)上評估SiamLT算法的長期跟蹤性能,并與17種先進(jìn)的跟蹤算法進(jìn)行比較,對比算法包括:DSST、LCT、KCF、SRDCF、SiamFC、BACF、UDT、UDT+[8]、SiamRPN++(AlexNet)[13]、ECO-HC、ECO、STRCF、Siam-RPN、TADT、AutoTrack、HiFT、SiamDFT[35]。

表4展示了18種算法在UAV20L跟蹤基準(zhǔn)上的整體性能,SiamLT算法在無人機(jī)長時(shí)跟蹤任務(wù)上表現(xiàn)出具有競爭性的跟蹤性能,成功率和精確率分別達(dá)到0.582和0.764,明顯優(yōu)于其他算法。本文算法在特征提取過程引入Transformer有效提高了跟蹤框架的特征建模能力;在模板分支與搜索分支匹配階段,通過聯(lián)合深度互相關(guān)算法和Transformer同時(shí)捕獲局部相關(guān)性和全局依賴關(guān)系,使得跟蹤框架可以學(xué)習(xí)到更豐富的位置信息;最后引入距離交并比和多監(jiān)督訓(xùn)練方式,有效提高了算法的預(yù)測精度。

表4 不同算法在UAV20L跟蹤基準(zhǔn)上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different algorithms on the UAV20L tracking benchmark

2.4.3 實(shí)時(shí)性分析

表5顯示了SiamLT算法與2種基于Transformer結(jié)構(gòu)的目標(biāo)跟蹤算法的參數(shù)量和運(yùn)算量。由于本文采用輕量級Transformer結(jié)構(gòu),所設(shè)計(jì)的跟蹤框架具有較低的參數(shù)量和運(yùn)算量。

表5 參數(shù)量和運(yùn)算量對比Table 5 Comparison of parameter amount andcalculation amount

為充分評估SiamLT算法的實(shí)時(shí)性,分別在PC端和嵌入式平臺進(jìn)行跟蹤速度測試。其中,PC端顯卡配置為NVIDIA RTX3090,嵌入式平臺為NVIDIA Jetson AGX Xavier。

表6顯示了SiamLT算法與5種流行的目標(biāo)跟蹤算法在PC平臺和嵌入式平臺的跟蹤速度測試結(jié)果,SiamLT跟蹤器在PC平臺和嵌入式平臺均實(shí)現(xiàn)了更快的跟蹤速率。改進(jìn)后的主干網(wǎng)絡(luò)具有輕量級CNN的空間歸納偏差屬性,確保了網(wǎng)絡(luò)的低延遲。同時(shí),BCM引入輕量級Transformer,直接對輸入信息進(jìn)行交互運(yùn)算,進(jìn)一步提高了算法的跟蹤速度。與基于編碼器-解碼器Transformer結(jié)構(gòu)的跟蹤器STARK相比,SiamLT在PC平臺實(shí)現(xiàn)了3倍的跟蹤速率,具有更好的實(shí)時(shí)性。所提出的算法在PC平臺和嵌入式平臺能保持較高的運(yùn)行速率,有力地證明了本文框架的實(shí)用性和可行的部署能力。

表6 不同算法的運(yùn)算速度對比Table 6 Comparison of computing speed of different algorithms

2.5 定性分析

為進(jìn)一步展示SiamLT跟蹤器在復(fù)雜無人機(jī)跟蹤場景下的整體性能,從UAV123跟蹤基準(zhǔn)選取4個(gè)具有代表性的視頻序列進(jìn)行定性分析,并與4種算法進(jìn)行對比,對比算法包括:HiFT、UDT、SRDCF、SiamFC。圖5展示了5種算法的跟蹤結(jié)果,其中綠色框?yàn)檎鎸?shí)標(biāo)注框,與其重疊率最高的算法表示跟蹤效果最佳。

bike3_1視頻序列中的目標(biāo)全程處于小尺度狀態(tài),第99幀時(shí)跟蹤目標(biāo)被車輛完全遮擋,當(dāng)目標(biāo)重新出現(xiàn)時(shí),SiamLT仍能準(zhǔn)確定位目標(biāo)。car6_2_1視頻序列的主要屬性為視角變化、超出視野;第734幀時(shí)目標(biāo)車輛超出相機(jī)視野,SRDCF算法首先丟失目標(biāo);第1 286幀時(shí)只有本文算法與SiamFC跟蹤器仍能捕捉目標(biāo),但本文算法與標(biāo)注框的重疊率明顯更高,展現(xiàn)出更好的跟蹤效果。group3_2_1視頻序列中的目標(biāo)受到相似目標(biāo)和跟蹤背景的干擾,且在317幀時(shí)目標(biāo)被樹木完全遮擋,當(dāng)目標(biāo)重新出現(xiàn)時(shí),本文算法實(shí)現(xiàn)了最佳的跟蹤效果,其他算法均出現(xiàn)跟蹤目標(biāo)框漂移現(xiàn)象。truck1視頻序列的主要屬性為尺寸變化、相似目標(biāo)、背景干擾、視角變化;由圖可知,由于跟蹤目標(biāo)運(yùn)動、無人機(jī)飛行姿態(tài)變化和跟蹤背景干擾,HiFT、UDT、SRDCF、SiamFC算法相繼丟失目標(biāo),只有本文算法能準(zhǔn)確定位目標(biāo)。

上述定性實(shí)驗(yàn)表明SiamLT算法能有效應(yīng)對低分辨率、完全遮擋、相似目標(biāo)、視角變化等場景帶來的干擾,進(jìn)一步證明本文算法的有效性以及應(yīng)對復(fù)雜場景的強(qiáng)魯棒性。

2.6 無人機(jī)航拍視頻測試

為了充分驗(yàn)證SiamLT算法在實(shí)際無人機(jī)場景中的跟蹤效果,使用大疆御Mavic Air 2無人機(jī)的航拍視頻進(jìn)行跟蹤測試,其中無人機(jī)拍攝高度為15 m,視頻分辨率為1 920×1 080。

圖6展示了SiamLT跟蹤器在國內(nèi)某高校的實(shí)時(shí)跟蹤場景,其中跟蹤目標(biāo)為運(yùn)動中的行人,本文選取6幀圖像的跟蹤結(jié)果和可視化熱力圖進(jìn)行展示分析。目標(biāo)在554幀和614幀時(shí)面臨連續(xù)遮擋挑戰(zhàn),本文算法通過Transformer顯著增強(qiáng)跟蹤框架的特征建模能力,有效抑制了遮擋場景帶來的干擾。第779幀時(shí)目標(biāo)周圍存在相似目標(biāo)的干擾,SiamLT跟蹤器仍能準(zhǔn)確定位目標(biāo)。同時(shí),可視化熱力圖表明本文算法能有效抑制遮擋、相似目標(biāo)等場景造成的具有干擾的高響應(yīng)值,進(jìn)一步證明本文算法的有效性。

圖6 無人機(jī)航拍視頻跟蹤結(jié)果Fig.6 UAV aerial video tracking results

3 結(jié)束語

本文提出一種引入輕量級Transformer的孿生網(wǎng)絡(luò)無人機(jī)目標(biāo)跟蹤算法SiamLT。該算法利用Transformer改進(jìn)AlexNet網(wǎng)絡(luò),并提出一種通用的特征提取模塊,以增強(qiáng)跟蹤框架的特征建模能力。在模板分支與搜索分支匹配階段,聯(lián)合Transformer和深度互相關(guān)運(yùn)算提出一種二元相關(guān)模塊,同時(shí)捕獲目標(biāo)模板與搜索區(qū)域之間的局部相關(guān)性和全局依賴關(guān)系。最后在回歸分支中引入距離交并比,并采用多監(jiān)督策略訓(xùn)練跟蹤器,以獲取更準(zhǔn)確的目標(biāo)框。引入Transformer后的跟蹤框架仍具有較低的參數(shù)量和運(yùn)算量,因此將引入的Transformer稱為輕量級。

本文在UAV123和UAV20L跟蹤基準(zhǔn)上進(jìn)行定性、定量實(shí)驗(yàn)分析,并完成實(shí)時(shí)性分析和無人機(jī)航拍視頻測試實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,SiamLT算法在跟蹤魯棒性和實(shí)時(shí)性之間展現(xiàn)出很好的平衡性,能有效應(yīng)對無人機(jī)跟蹤任務(wù)。下一步工作將在不影響算法實(shí)時(shí)性的情況下,將空中跟蹤任務(wù)中的時(shí)序信息引入到跟蹤框架,以提升無人機(jī)目標(biāo)跟蹤算法的整體性能。

主站蜘蛛池模板: 日本亚洲成高清一区二区三区| 亚洲无码久久久久| 亚洲综合欧美在线一区在线播放| 成人国产精品一级毛片天堂| 草逼视频国产| 国产亚洲精品97在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ | 欧美特黄一级大黄录像| 欧美一级在线| 好紧太爽了视频免费无码| 久视频免费精品6| 国产乱子伦无码精品小说| 亚洲国产成人精品一二区| 国产麻豆va精品视频| 国产亚洲精品无码专| 亚洲精品动漫在线观看| 毛片基地视频| www.91在线播放| 国产成人艳妇AA视频在线| 欧美亚洲第一页| 成人精品午夜福利在线播放| 久久精品这里只有国产中文精品| 亚洲视频色图| 亚洲精品在线影院| 欧美高清三区| 67194成是人免费无码| 黄片在线永久| 114级毛片免费观看| 亚洲人成网站18禁动漫无码| 亚洲精品无码在线播放网站| 麻豆国产在线观看一区二区 | 亚洲无码电影| 国产精品无码AV中文| 亚洲国产精品无码久久一线| 免费高清毛片| 国产爽歪歪免费视频在线观看 | 亚洲欧美在线看片AI| 欧美a√在线| 国产一区二区三区精品久久呦| 中文字幕无码制服中字| 97在线国产视频| 国产毛片高清一级国语| 亚洲欧美自拍一区| 国产成人无码播放| 国产高清精品在线91| 国产精品视频3p| 18禁影院亚洲专区| 亚洲男人的天堂在线观看| 国产微拍一区二区三区四区| 亚洲精品自产拍在线观看APP| 一级毛片在线播放| 亚洲伦理一区二区| 国产日韩AV高潮在线| 一级毛片不卡片免费观看| 精品国产成人国产在线| 国产精品久久自在自线观看| 亚洲欧美成人| 亚洲男人天堂久久| 国产99视频精品免费观看9e| 亚洲天堂免费在线视频| 欧美色视频在线| 亚洲一级毛片| 日韩A∨精品日韩精品无码| 国内精品视频| 九九久久精品国产av片囯产区| 欧美一级特黄aaaaaa在线看片| 91在线丝袜| 亚洲成人高清无码| 伊人久久综在合线亚洲91| 欧美色视频日本| 免费观看国产小粉嫩喷水| 91精品综合| 欧美精品黑人粗大| 欧美精品1区2区| 国产精品无码影视久久久久久久| 国产精品无码久久久久久| 亚洲欧洲日产无码AV| 亚洲欧美日韩成人高清在线一区| 国产精品自在拍首页视频8| 国产H片无码不卡在线视频| 91亚洲免费视频| 不卡无码h在线观看|