摘要:目標(biāo)跟蹤是計(jì)算機(jī)視覺方向上的一項(xiàng)重要課題,其中尺度變化、形變和旋轉(zhuǎn)是目前跟蹤領(lǐng)域較難解決的問題。針對(duì)以上跟蹤中所面臨的具有挑戰(zhàn)性的問題,基于已有的孿生網(wǎng)絡(luò)算法提出多層特征融合和并行自注意力的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法(MPSiamRPN)。首先,用修改后的ResNet50對(duì)模板圖片和搜索圖片進(jìn)行特征提取,為處理網(wǎng)絡(luò)過深而導(dǎo)致目標(biāo)部分特征丟失,提出多層特征融合模塊(multi-layer feature fusion module,MLFF)將ResNet后三層特征進(jìn)行融合;其次,引入并行自注意力模塊(parallel self-attention module,PSA),該模塊由通道自注意力和空間自注意力組成,通道自注意力可以選擇性地強(qiáng)調(diào)對(duì)跟蹤有益的通道特征,空間自注意力能學(xué)習(xí)目標(biāo)豐富的空間信息;最后,采用區(qū)域提議網(wǎng)絡(luò)(regional proposal network,RPN)來(lái)完成分類和回歸操作,從而確定目標(biāo)的位置和形狀。實(shí)驗(yàn)顯示,提出的MPSiamRPN在OTB100、VOT2018兩個(gè)測(cè)試數(shù)據(jù)集上取得了具有可競(jìng)爭(zhēng)性的結(jié)果。
關(guān)鍵詞:目標(biāo)跟蹤;多層特征融合;空間自注意力;通道自注意力;區(qū)域提議網(wǎng)絡(luò);孿生網(wǎng)絡(luò)
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)04-047-1237-05
doi:10.19734/j.issn.1001-3695.2021.07.0330
Multi-layer feature fusion and parallel self-attention Siamese networks for visual tracking
Shu Ping,Xu Keying,Bao Hua
(School of Electrical Engineering amp; Automation,Anhui University,Hefei 230601,China)
Abstract:Object tracking is an important topic in computer visual directions,where scale changes,deformation and rotation are difficult to resolve in the field.For the challenging problems faced in the above track,based on existing Siamese network algorithms,this paper proposed multi-layer feature fusion and parallel self-attention Siamese networks(MPSiamRPN) for visual tracking.Firstly,MPSiamRPN used the modified ResNet50 to extract features from the template image and the search image.In order to deal with the loss of some features caused by the deep network,it proposed a multi-layer feature fusion module to fuse the features of the last three layers of ResNet.Secondly,it introduced the parallel self-attention module,which was composed of channel self-attention and spatial self-attention.The channel self-attention could selectively emphasize the beneficial channel features for tracking,and the spatial self-attention could learn the rich spatial information of the target.Finally,it proposed the region proposal network(RPN) to perform classification and regression operations to determine the location and shape of the target.Experiments show that the MPSiamRPN can achieve competitive results on OTB100 and VOT2018 test datasets.
Key words:object tracking;multi-layer feature fusion;spatial self-attention;channel self-attention;regional proposal network;Siamese network
0引言
目標(biāo)跟蹤的任務(wù)是在給定視頻序列第一幀目標(biāo)大小和位置信息時(shí)能夠穩(wěn)定地從后續(xù)幀中定位出所要跟蹤的對(duì)象。目標(biāo)跟蹤目前被應(yīng)用于智能監(jiān)控、自動(dòng)駕駛、人機(jī)交互等人工智能的各個(gè)領(lǐng)域[1,2]。由于目標(biāo)跟蹤中存在很多具有挑戰(zhàn)性的問題,如遮擋、形變、光照和旋轉(zhuǎn)等,要想完成持續(xù)穩(wěn)定的目標(biāo)跟蹤任務(wù),仍面臨著巨大的困難。
近年來(lái),基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法以其強(qiáng)大的準(zhǔn)確性和速度受到了國(guó)內(nèi)外的極大關(guān)注。孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法使用共享參數(shù)的主干網(wǎng)絡(luò)分別提取模板圖片和搜索圖片的特征,然后將模板特征和搜索特征進(jìn)行關(guān)聯(lián)操作,從而確定搜索圖片中目標(biāo)所在的位置。Bertinetto等人[3]首次將孿生網(wǎng)絡(luò)應(yīng)用于目標(biāo)跟蹤中并提出全卷積的孿生網(wǎng)絡(luò)目標(biāo)跟蹤,使用AlexNet[4]網(wǎng)絡(luò)提取模板圖片和搜索圖片的特征,再進(jìn)行互相關(guān)操作得到最終的得分圖,從而確定目標(biāo)所在位置。Li等人[5]在SiamFC[3]的基礎(chǔ)上將檢測(cè)中區(qū)域提議網(wǎng)絡(luò)(RPN)[6]引入目標(biāo)跟蹤中提出SiamRPN并取得了優(yōu)異的性能。由于SiamFC和SiamRPN都是使用AlexNet來(lái)提取特征的,所以提取的特征不能準(zhǔn)確地表示目標(biāo)。為提高對(duì)目標(biāo)的表征能力,SiamVGG[7]使用更深的深度學(xué)習(xí)網(wǎng)絡(luò)VGG來(lái)提取圖片的特征;SiamDW[8]對(duì)最新的ResNet[9]、Inception[10]和ResNeXt[11]深度網(wǎng)絡(luò)進(jìn)行修改后用于目標(biāo)跟蹤中特征的提取,表現(xiàn)出了強(qiáng)大的性能;SiamRPN++[12]在SiamRPN的基礎(chǔ)上使用了修改后的ResNet50[7]網(wǎng)絡(luò)用于特征提取,同樣具有優(yōu)異的表現(xiàn)。
基于以上對(duì)現(xiàn)有孿生網(wǎng)絡(luò)的研究,本文提出一種多層特征融合和并行自注意力的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法(MPSiamRPN)。a)隨著目標(biāo)跟蹤中特征提取的主干網(wǎng)絡(luò)越來(lái)越深,提取的特征將更加抽象,而且在深度提取特征的同時(shí)可能丟失某些重要特征,針對(duì)這一問題,在使用修改后的ResNet50對(duì)圖片進(jìn)行特征提取的過程中,提出一種多層特征融合模塊,即將ResNet的后三層特征進(jìn)行融合,避免在特征提取的過程中重要特征缺失;b)為在跟蹤過程中更加關(guān)注目標(biāo)本身,提出了并行的自注意力模塊,這一模塊由通道自注意力和空間自注意力組成,其中通道自注意力可以凸顯出對(duì)跟蹤過程有益的通道特征,空間自注意力可以學(xué)習(xí)目標(biāo)豐富的空間信息。最后將MPSiamRPN在OTB100[13] 和 VOT2018[14] 兩個(gè)測(cè)試數(shù)據(jù)集上與其他跟蹤器進(jìn)行對(duì)比,提出的MPSiamRPN展現(xiàn)出了具有競(jìng)爭(zhēng)性的結(jié)果。
1MPSiamRPN算法
本文提出的多層特征融合和并行自注意力的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法MPSiamRPN的整體框架如圖1所示,它由四個(gè)部分組成:a)孿生子網(wǎng)絡(luò),這一部分由修改后的ResNet50網(wǎng)絡(luò)對(duì)模板圖片和搜索圖片進(jìn)行特征提取;b)多層特征融合模塊,這一模塊將ResNet50的后三層特征進(jìn)行融合;c)并行的自注意力,由通道自注意力和空間自注意力組成;d)分類和回歸,這一部分由RPN實(shí)現(xiàn)。
1.1多層特征融合模塊
孿生網(wǎng)絡(luò)分為模板分支和搜索分支。模板分支輸入127×127×3的模板圖片Z,搜索分支輸入255×255×3的搜索圖片X;隨后使用修改后的ResNet50對(duì)模板圖片和搜索圖片進(jìn)行特征提取。隨著深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越深,提取的特征越來(lái)越抽象,本文算法為避免因ResNet50的網(wǎng)絡(luò)太深而導(dǎo)致部分有用的特征丟失,提出多層特征融合模塊。如圖2所示,以孿生網(wǎng)絡(luò)的模板分支中多層特征融合模塊為例來(lái)介紹,搜索分支類似。a)將ResNet50后三層的特征通道數(shù)保持一致,即通過卷積核大小為1×1卷積對(duì)后三層特征進(jìn)行壓縮,使得后三層特征的通道數(shù)保持一致,通道數(shù)都是256;b)在模板分支中為減小計(jì)算量,將后三層的特征進(jìn)行中心裁剪操作使得特征圖的大小保持在7×7;c)將這三個(gè)特征圖concat在一起,即得通道數(shù)為3×256,大小為7×7的特征圖;d)用ConvTranspose2d操作得到大小為7×7×256的特征圖φ(Z),這一特征圖具備網(wǎng)絡(luò)結(jié)構(gòu)中后三層特征的所有信息。孿生網(wǎng)絡(luò)搜索分支中的多層特征融合模塊與模板分支類似,不同的是,搜索分支中多層特征融合模塊沒有中心裁剪操作,最終得到31×31×256的特征圖φ(X)。
1.2并行自注意力模塊
受CBAM[15]啟發(fā),從通道角度和空間角度提出并行自注意力模塊。其中,并行自注意力模塊由通道自注意力和空間自注意力組成,通道自注意力學(xué)習(xí)并強(qiáng)調(diào)了目標(biāo)特征中重要的通道信息;空間自注意力可以學(xué)習(xí)到豐富的空間信息,從而使得目標(biāo)跟蹤的過程更加準(zhǔn)確與魯棒。下面分別對(duì)通道自注意力和空間自注意力模塊作詳細(xì)描述。
1.2.1通道自注意力
如圖3所示,假設(shè)輸入的特征xc∈C×H×W,其中C、H、W 分別表示輸入特征xc的通道數(shù)、高和寬。首先,將輸入特征xc進(jìn)行permute操作和線性投影的方式生成qc∈H×W×C/2和kc∈H×W×1,然后對(duì)qc和kc使用reshape操作分別得到Qc∈(C/2)×HW和Kc∈HW×1×1,Kc經(jīng)過softmax操作并與Qc相乘生成ac∈(C/2)×1×1,如式(1)所示。
ac=Qc(softmax(Kc))(1)
將ac經(jīng)過linear、layernorm和sigmoid得到通道特征權(quán)重Ac∈C×1×1:
Ac=sigmoid(layernorm(linear(ac)))(2)
最后將具有不同通道重要性的通道權(quán)值A(chǔ)c賦予輸入特征Xc,得到最終的輸出zc∈C×H×W:
zc=Ac⊙cxc(3)
其中:⊙c代表channel-wise乘法。
1.2.2空間自注意力
如圖4所示,將輸入的特征xs∈C×H×W經(jīng)過線性變換和permute操作得到qs∈(C/2)×H×W和ks∈(C/2)×H×W, 分別經(jīng)過全局平均池化和全局最大池化生成q′s∈(C/2)×1×1:
q′s=avgpool(qs)+maxpool(qs)(4)
q′s和ks經(jīng)過reshape操作分別得到Qs∈1×C/2和Ks∈(C/2)×HW,Qs附加softmax操作并將其Ks進(jìn)行矩陣乘法生成as∈1×HW:
as=(softmax(Qs))Ks(5)
as經(jīng)過reshape和sigmoid操作得到As∈1×H×W:
As=sigmoid(reshape(ac))(6)
其中:As是可以控制空間分布的權(quán)重系數(shù)。最后將權(quán)重系數(shù)As賦予輸入特征xs得到輸出特征zs:
zs=As⊙sxs(7)
其中:⊙s表示spatial-wise乘法操作。
1.3分類和回歸
MPSiamRPN算法是使用RPN對(duì)目標(biāo)實(shí)現(xiàn)分類和回歸,其中分類是為了區(qū)分前景與背景,前景是指目標(biāo)所在位置,背景則是指非目標(biāo)的位置;回歸是確定目標(biāo)的大小。如果給目標(biāo)附加k個(gè)不同尺度的錨框,則分類特征將具有2k個(gè)通道數(shù),回歸特征具有4k個(gè)通道數(shù)。將模板特征φ(Z)和搜索特征φ(X)深度互相關(guān)后得到深度特征O∈H×W×C。
O=φ(Z)φ(X)(8)
將O分成兩個(gè)分支分別進(jìn)行分類和回歸。對(duì)于分類分支,O經(jīng)過并行自注意力后,用卷積核大小為1×1的卷積將通道壓縮至2k得到Ocls∈H×W×2k;對(duì)于回歸分支,經(jīng)過同樣的操作將通道壓縮至4k得到Oreg∈H×W×4k。該算法使用Faster R-CNN中的分類損失,即交叉熵?fù)p失,并采用smooth L1損失來(lái)訓(xùn)練回歸。其中Ox、Oy、Ow、Oh代表錨框的中心點(diǎn)坐標(biāo)和大小,Tx、Ty、Tw、Th表示真實(shí)框的中心坐標(biāo)和大小,將回歸距離歸一化得到式(9)。
δ[0]=Tx-OxOw,δ[1]=Ty-OyOh,
δ[2]=lnTwOw,δ[3]=lnThOh(9)
然后通過smooth L1損失計(jì)算,如式(10)所示。
smoothL1(x,σ)=0.5σ2x2|x|lt;1σ2
|x|-12σ2|x|≥1σ2(10)
最終的損失計(jì)算如下所示:
loss=Lcls+λLreg(11)
其中:λ是平衡兩種損失的超參數(shù),本文設(shè)置為1.2;Lcls是交叉熵?fù)p失,Lreg的計(jì)算如下:
Lreg=∑3i=0smoothL1(δ[i],σ)(12)
2實(shí)驗(yàn)過程與分析
2.1實(shí)驗(yàn)細(xì)節(jié)
整個(gè)實(shí)驗(yàn)過程在一臺(tái)PC機(jī)上實(shí)現(xiàn),PC機(jī)的處理器是IntelCoreTM i7-8700CPU@3.20 GHz×12,GPU是GeForce RTX 2070 SUPER。算法是在PyTorch框架中基于Python編程語(yǔ)言實(shí)現(xiàn)的,使用ImageNet[16]上預(yù)訓(xùn)練的權(quán)值初始化ResNet50,同時(shí)凍結(jié)前兩層的參數(shù)。整體網(wǎng)絡(luò)訓(xùn)練使用的數(shù)據(jù)集有ImageNet VID[16]、YouTube-BoundingBoxes[17]、COCO[18]、ImageNet DET[16]、GOT10k[19]和LaSOT[20],用隨機(jī)梯度下降(SGD)訓(xùn)練,batch size設(shè)置成32并訓(xùn)練了20個(gè)epoch,在前5個(gè)epoch中使用了0.001~0.005的warmup學(xué)習(xí)率,在最后15個(gè)epoch中學(xué)習(xí)率從0.005指數(shù)衰減到0.000 05。同時(shí),在前10個(gè)epoch中,只訓(xùn)練并行自注意力和RPN的分類和回歸分支,在后10個(gè)epoch,以當(dāng)前學(xué)習(xí)率的十分之一對(duì)主干網(wǎng)絡(luò)進(jìn)行微調(diào)。權(quán)重衰減和動(dòng)量設(shè)置為0.000 1和0.9。
2.2可視化分析
為了驗(yàn)證多層特征融合模塊和并行自注意力的有效性,采用Grad-CAM[21]的方法可視化了后三層的特征以及加入融合后的特征和加入并行自注意力的特征。如圖5所示,整個(gè)可視化圖在四張圖片上進(jìn)行,分別可視化了這四張圖片的conv3層、conv4層、conv5層,加入多層特征融合模塊后的特征以及同時(shí)加入融合模塊和并行自注意力后的特征。圖5中熱圖中溫度高處即表示跟蹤目標(biāo)所在的位置(見電子版)。圖5(b)~(d)表示的是conv3層、conv4層和conv5層的特征,其中conv3層和conv4層中無(wú)法準(zhǔn)確地捕捉到目標(biāo)位置所在,conv5層雖然能大致確定目標(biāo)的位置但包含很多背景信息;從圖5(e)可以發(fā)現(xiàn),融合后三層特征即加入多層特征融合模塊后一定程度上抑制了背景信息;圖5(f)是同時(shí)加入多層特征融合模塊和并行自注意力后的熱圖,可以看出并行自注意力突出了跟蹤目標(biāo)的位置,熱圖溫度最高的地方更加貼近所要跟蹤的對(duì)象。因此加入的多層融合模塊和并行自注意力可以使得跟蹤過程中對(duì)目標(biāo)的檢測(cè)更加精細(xì),更多地去弱化背景以凸顯目標(biāo)的位置。
2.3定量分析
將提出的MPSiamRPN算法在OTB100[13]和VOT2018[14]數(shù)據(jù)集上進(jìn)行測(cè)試,并將其與已有的先進(jìn)跟蹤算法進(jìn)行比較,可以看出該算法具有優(yōu)異的表現(xiàn)。
2.3.1OTB100結(jié)果分析
OTB(object tracking benchmark)是比較常見的目標(biāo)跟蹤性能評(píng)價(jià)的測(cè)試數(shù)據(jù)集之一,其中OTB100數(shù)據(jù)集是2015年提出來(lái)的,包含了大量帶有標(biāo)注的視頻序列。對(duì)于目標(biāo)跟蹤中常見的挑戰(zhàn),這一視頻序列具有11種挑戰(zhàn)屬性:背景雜波(background clutters,BC)、形變(deformation,DEF)、快速運(yùn)動(dòng)(fast motion,F(xiàn)M)、平面內(nèi)旋轉(zhuǎn)(in-plane-rotation,IPR)、光照變化(illumination variation,IV)、低分辨率(low resolution,LR)、運(yùn)動(dòng)模糊(motion blur,MB)、遮擋(occulusion,OCC)、平面外旋轉(zhuǎn)(out-of-plane rotation,OPR)、出視野(out-of-view,OV)、尺度變化(scale variation,SV)。
如圖6和7所示,將本文算法與Siam R-CNN[22]、SiamBAN[23]、SiamRPN++[12]、ECO[24]、MDNet[25]、Ocean[26]、DaSiamRPN[27]、SiamRPN[5]和SiamDWfc[8] 九種先進(jìn)的跟蹤算法在OTB100數(shù)據(jù)集上進(jìn)行比較,MPSiamRPN算法在成功率和精度上均處于第一的位置。同時(shí),相比較于Siam-RPN,在成功率和精度上分別提高了7.4%和6.8%,與Siam R-CNN、SiamBAN和SiamRPN++這些跟蹤器相比,MPSiamRPN仍然處于領(lǐng)先地位。
圖8和9分別表示OTB100的各種挑戰(zhàn)屬性上的精度和成功率,并將MPSiamRPN與已有性能顯著的孿生網(wǎng)絡(luò)類的目標(biāo)跟蹤算法(SiamBAN、Siam R-CNN、SiamRPN++、DaSiamRPN、Ocean、SiamRPN和SiamDWfc)在OTB100的11種屬性上進(jìn)行比較。對(duì)于精度這一指標(biāo),MPSiamRPN在背景雜波、形變、平面外旋轉(zhuǎn)和出視野的四種挑戰(zhàn)屬性上具有領(lǐng)先的地位。同時(shí),對(duì)于成功率這一指標(biāo),MPSiamRPN在所有挑戰(zhàn)屬性上都要優(yōu)于DaSiamRPN、SiamRPN和SiamDWfc這三種跟蹤器,與其他四種跟蹤器在各種挑戰(zhàn)屬性上也不相上下。
2.3.2VOT2018上的結(jié)果
VOT(visual object tracking)數(shù)據(jù)集也是較為經(jīng)典的目標(biāo)跟蹤測(cè)試數(shù)據(jù)集,由VOT挑戰(zhàn)賽在2013年提出,并每年對(duì)其數(shù)據(jù)的內(nèi)容進(jìn)行更新。其中,VOT2018數(shù)據(jù)集由VOT挑戰(zhàn)賽2018年提出,也是較為全面的數(shù)據(jù)集。VOT數(shù)據(jù)集的評(píng)價(jià)指標(biāo)包括準(zhǔn)確性、魯棒性、丟失數(shù)目和期望平均重疊率,其中準(zhǔn)確性和期望平均重疊率越高跟蹤器的性能越好,丟失數(shù)目和魯棒性則越低越好。如表1所示,將提出的MPSiamRPN算法與Staple[28]、DenseSiam[29]、DCFNet[30]、SiamFC[3]、DSiam[31]、UpdataNet[32]、CCOT[33]、ECO[24]、SiamVGG[7]、SiamMask[34]和SiamRPN跟蹤算法進(jìn)行比較,MPSiamRPN表現(xiàn)出了較高的EAO值以及較低的丟失數(shù)目和魯棒性,由此可得,MPSiamRPN在VOT2018上的整體性能很好。相較于SiamRPN,提出的MPSiamRPN在EAO值上提高了1.9%。從圖10也可以看出,MPSiamRPN在眾多跟蹤算法中排名第一。
如圖11所示,VOT2018數(shù)據(jù)集上包含五種跟蹤挑戰(zhàn)屬性:相機(jī)運(yùn)動(dòng)(camera motion)、尺度變化(size change)、光照變化(illumination change)、運(yùn)動(dòng)變化(motion change)和遮擋(occlusion)。圖中的“unassigned”表示不屬于以上任何屬性的視頻幀上的EAO值,“overall”代表跟蹤器的整體性能。在與SiamRPN[5]、 SiamMask[34]、SiamVGG[7]、ECO[24]、CCOT[33]、UpdateNet[32]、DSiam[31]、SiamFC[3]和DCFNet[30]算法進(jìn)行比較的過程中,MPSiamRPN在面對(duì)相機(jī)運(yùn)動(dòng)、尺度變化和運(yùn)動(dòng)變化的三種跟蹤挑戰(zhàn)時(shí)表現(xiàn)出了最好的性能。因此可以看出,MPSiamRPN在面對(duì)尺度變化和運(yùn)動(dòng)變化時(shí)能更加魯棒地跟蹤目標(biāo)。
2.3.3性能與速度的分析
為了驗(yàn)證MPSiamRPN算法的跟蹤實(shí)時(shí)性,將MPSiamRPN與目前較為主流的跟蹤算法在OTB100數(shù)據(jù)集上進(jìn)行成功率與速度的對(duì)比實(shí)驗(yàn)。由圖12可知,MPSiamRPN在取得較高成功率的同時(shí)速度穩(wěn)定在37 fps,一般的實(shí)時(shí)性要求速度達(dá)到25 fps,顯然本文的跟蹤器速度已經(jīng)達(dá)到這一標(biāo)準(zhǔn)。同時(shí),與SiamFC相比,MPSiamRPN的速度要略低,但精度卻遠(yuǎn)遠(yuǎn)高于SiamFC,這是因?yàn)楸疚氖褂昧溯^深的網(wǎng)絡(luò)來(lái)提取特征,使得特征的提取更加精確。與同是ResNet50[9]提取特征SiamRPN++跟蹤器相比,即使在加入較為輕量級(jí)的并行自注意力的情況下,提出跟蹤器的速度與SiamRPN++仍相差無(wú)幾。這得益于MPSiamRPN中提出的多層特征融合模塊使用了級(jí)聯(lián)的方式融合后三層特征,相較于SiamRPN++分層聚合的融合方式,減小了計(jì)算量。
2.4定性分析
為了更加直觀地展現(xiàn)出MPSiamRPN的優(yōu)越性,在OTB100數(shù)據(jù)集的十個(gè)視頻序列中選取三個(gè)具有代表性的幀,將MPSiamRPN與Ocean、SiamRPN、GradNet[35]、SiamFC[3]、Siam-RPN++和SiamBAN六種算法的跟蹤結(jié)果顯示出來(lái)。由圖13所示,可以清晰地看出提出的跟蹤器可以準(zhǔn)確地跟蹤目標(biāo)。“Board”“CarScale”和“DragonBaby”三個(gè)視頻中包含尺度變化、快速運(yùn)動(dòng)和旋轉(zhuǎn)等跟蹤中所面臨的挑戰(zhàn)性問題,MPSiamRPN相較于其他六種跟蹤器跟蹤得更加準(zhǔn)確;在跟蹤“Bolt2”“Diving”和“Jump”三個(gè)視頻序列時(shí),目標(biāo)發(fā)生了明顯的形變,SiamFC和GradNet算法都出現(xiàn)了跟丟的情況,而本文的跟蹤器卻能準(zhǔn)確魯棒地跟住目標(biāo);對(duì)于背景相似這一挑戰(zhàn)性問題,“Football1”和“Liquor”兩個(gè)視頻序列中都出現(xiàn)了,其他算法不能精準(zhǔn)地捕捉到目標(biāo)所在的位置,甚至還出現(xiàn)了跟丟的情況,但本文算法準(zhǔn)確地捕捉到了跟蹤目標(biāo)所在位置;在“Box”和“Girl2”視頻中,本文所要跟蹤的目標(biāo)都發(fā)生了部分遮擋,從跟蹤的結(jié)果可得,MPSiamRPN在遮擋的情況下同樣也準(zhǔn)確地標(biāo)出目標(biāo)所在。經(jīng)過以上分析,MPSiamRPN算法在面對(duì)各種跟蹤挑戰(zhàn)問題都能很好地處理。
3結(jié)束語(yǔ)
MPSiamRPN是在已有孿生網(wǎng)絡(luò)目標(biāo)跟蹤上提出的多層特征融合和并行自注意力的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法。其中,多層特征融合模塊解決了因網(wǎng)絡(luò)過深而導(dǎo)致的部分特征丟失問題;并行自注意力中的通道自注意力和空間注意力分別在通道和空間上強(qiáng)調(diào)了目標(biāo)所在的位置,使跟蹤過程更加關(guān)注目標(biāo)本身;通過了大量的可視化分析、定量分析和定性分析可以看出,提出的MPSiamRPN算法在性能和面對(duì)各種挑戰(zhàn)性問題上都具有很好的表現(xiàn)。本文的跟蹤算法是基于anchor-base來(lái)研究的,目前也出現(xiàn)了許多基于anchor-free的目標(biāo)跟蹤,這將是未來(lái)跟蹤的主流方向。
參考文獻(xiàn):
[1]李璽,查宇飛,張?zhí)熘?深度學(xué)習(xí)的目標(biāo)跟蹤算法綜述[J].中國(guó)圖像圖形學(xué)報(bào),2019,24(12):2057-2080.(Li Xi, Zha Yufei,Zhang Tianzhu,et al.Survey of visual object tracking algorithms based on deep learning[J].Journal of Image and Graphics,2019,24(12):2057-2080.)
[2]孟琭,楊旭.目標(biāo)跟蹤算法綜述[J].自動(dòng)化學(xué)報(bào),2019,45(7):1244-1260.(Meng Lu,Yang Xu.Survey of object tracking algorithms[J].Acta Automatica Sinica,2019,45(7):1244-1260.)
[3]Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional Siamese networks for object tracking[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:850-865.
[4]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[5]Li Bo,Yan Junjie,Wu Wei,et al.High performance visual tracking with Siamese region proposal network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8971-8980.
[6]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[7]Li Yuhong,Zhang Xiaofan.SiamVGG:Visual tracking using deeper Siamese networks[EB/OL].(2019-03-03).https://arxiv.org/pdf/1902.02804.pdf.
[8]Zhang Zhipeng,Peng Houwen.Deeper and wider Siamese networks for real-time visual tracking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4591-4600.
[9]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[10]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:2818-2826.
[11]Xie Saining,Girshick R,Dollár P,et al.Aggregated residual transformations for deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2017:1492-1500.
[12]Li Bo,Wu Wei,Wang Qiang,et al.SiamRPN++:evolution of Siamese visual tracking with very deep networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:4282-4291.
[13]Wu Yi,Lim J,Yang M H.Object tracking benchmark[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,37(9):1834-1848.
[14]Kristan M,Leonardis A,Matas J,et al.The sixth visual object tracking VOT2018 challenge results[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:3-53.
[15]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:3-19.
[16]Russakovsky O,Deng Jia,Su Hao,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(12):211-252.
[17]Real E,Shlens J,Mazzocchi S,et al.YouTube-BoundingBoxes:a large high-precision human-annotated data set for object detection in video[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2017:5296-5305.
[18]Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[C]//Proc of the 13th European Conference on Computer Vision.Cham:Springer,2014:740-755.
[19]Huang Lianghua,Zhao Xin,Huang Kaiqi.GOT-10k:a large high-diversity benchmark for generic object tracking in the wild[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,43(5):1562-1577.
[20]Fan Heng,Ling Haibin,Lin Liting,et al.LaSOT:a high-quality benchmark for large-scale single object tracking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:5374-5383.
[21]Selvaraju R R,Cogswell M,Das A,et al.Grad-CAM:visual explanations from deep networks via gradient-based localization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Wa-shington DC:IEEE Computer Society,2017:618-626.
[22]Voigtlaender P,Luiten J,Torr P H S,et al.Siam R-CNN:visual tracking by re-detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:6578-6588.
[23]Chen Zedu,Zhong Bineng,Li Guorong,et al.Siamese box adaptive network for visual tracking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:6668-6677.
[24]Danelljan M,Bhat G,Khan F S,et al.ECO:efficient convolution operators for tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:6638-6646.
[25]Nam H,Han B.Learning multi-domain convolutional neural networks for visual tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:4293-4302.
[26]Zhang Zhipeng,Peng Houwen,F(xiàn)u Jianlong,et al.Ocean:object-aware anchor-free tracking[C]//Proc of the 16th European Conference on Computer Vision.Cham:Springer,2020:771-787.
[27]Zhu Zheng,Wang Qiang,Li Bo,et al.Distractor-aware Siamese networks for visual object tracking[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:103-119.
[28]Bertinetto L,Valmadre J,Golodetz S,et al.Staple:complementary learners for real-time tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:1401-1409.
[29]Abdelpakey M H,Shehata M S,Mohamed M M.DensSiam:end-to-end densely-Siamese network with self-attention model for object tracking[C]//Proc of the 13th International Symposium on Visual Computing.Cham:Springer,2018:463-473.
[30]Wang Qiang,Gao Jin,Xing Junliang,et al.DCFNet:discriminant correlation filters network for visual tracking[EB/OL].(2017-04-13).https://arxiv.org/pdf/1704.04057v1.pdf.
[31]Guo Qing,F(xiàn)eng Wei,Zhou Ce,et al.Learning dynamic Siamese network for visual object tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1763-1771.
[32]Zhang Lichao,Gonzalez-Garcia A,Weijer J,et al.Learning the model update for Siamese trackers[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:4010-4019.
[33]Danelljan M,Robinson A,Khan F S,et al.Beyond correlation filters:lear-ning continuous convolution operators for visual tracking[C]//Proc of the 14th Conference on Computer Vision.Cham:Springer,2016:472-488.
[34]Wang Qiang,Zhang Li,Bertinetto L,et al.Fast online object tracking and segmentation:a unifying approach[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1328-1338.
[35]Li Peixia,Chen Boyu,Ouyang Wanli,et al.GradNet:gradient-guided network for visual object tracking[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6162-6171.
收稿日期:2021-07-29;修回日期:2021-09-09基金項(xiàng)目:安徽省自然科學(xué)基金資助項(xiàng)目(1908085MF217);安徽省教育廳自然科學(xué)重點(diǎn)資助項(xiàng)目(KJ2019A0022)
作者簡(jiǎn)介:束平(1996-),男,安徽合肥人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺;許克應(yīng)(1997-),男,安徽六安人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺;鮑華(1978-),男(通信作者),安徽蕪湖人,高級(jí)工程師,碩導(dǎo),博士,主要研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺、視頻圖像處理(baohua@ahu.edu.cn).