999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于補(bǔ)償注意力機(jī)制的Siamese網(wǎng)絡(luò)跟蹤算法

2024-04-23 10:03:22安玉葛海波何文昊馬賽程夢(mèng)洋
計(jì)算機(jī)工程 2024年4期
關(guān)鍵詞:機(jī)制特征

安玉,葛海波,何文昊,馬賽,程夢(mèng)洋

(西安郵電大學(xué)電子工程學(xué)院,陜西 西安 710121)

0 引言

視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基本任務(wù)。選定視頻第一幀中任意一個(gè)目標(biāo)的位置,目標(biāo)跟蹤就是盡可能以最高的精度定位其在所有后續(xù)幀中的位置[1]。目前,目標(biāo)跟蹤被廣泛應(yīng)用于智能安防、無(wú)人駕駛、智能監(jiān)控等領(lǐng)域[2-4]。

目標(biāo)跟蹤主要分為基于相關(guān)濾波的跟蹤方法[5]與基于深度學(xué)習(xí)的跟蹤方法[6]兩種。對(duì)于前者,研究者們先后提出了很多跟蹤算法[7-9],在簡(jiǎn)單背景下的物體追蹤中取得了較好的成績(jī),但是伴隨著對(duì)特征的不斷改進(jìn),基于相關(guān)濾波的跟蹤方法采用的特征變得越來(lái)越復(fù)雜,使得計(jì)算速度越來(lái)越慢,基于相關(guān)濾波的追蹤器實(shí)時(shí)性優(yōu)勢(shì)逐漸消失。近年來(lái),大數(shù)據(jù)時(shí)代的到來(lái)促進(jìn)了深度學(xué)習(xí)[10-11]技術(shù)的快速發(fā)展,深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[12-13]被應(yīng)用于目標(biāo)跟蹤中,在保證跟蹤速度的同時(shí)目標(biāo)跟蹤的精度也得到了大幅提升,基于深度學(xué)習(xí)的跟蹤算法[14]在行業(yè)中成為研究熱點(diǎn),解決了一些基于相關(guān)濾波的跟蹤器所存在的問(wèn)題。但是,由于目標(biāo)受到運(yùn)動(dòng)模糊、復(fù)雜背景相似干擾、尺寸變化、遮擋等相關(guān)因素的影響,導(dǎo)致這類算法依然面臨巨大挑戰(zhàn)。

近年來(lái),作為目標(biāo)跟蹤經(jīng)典框架的Siamese[15-16]網(wǎng)絡(luò)受到關(guān)注,使用卷積神經(jīng)網(wǎng)絡(luò)獲取目標(biāo)特征,并將其與搜索區(qū)域特征進(jìn)行匹配以實(shí)現(xiàn)目標(biāo)追蹤。Siamese網(wǎng)絡(luò)最初由文獻(xiàn)[17]于2005年提出,用于人臉相似性識(shí)別。隨后,文獻(xiàn)[18]將該框架應(yīng)用于目標(biāo)跟蹤,并提出了SiamFC跟蹤方法,SiamFC具有相同的兩路卷積網(wǎng)絡(luò)分別提取兩幀圖像特征,將提取的特征執(zhí)行互相關(guān)操作并最終獲得目標(biāo)響應(yīng)圖。SiamFC的提出推動(dòng)了基于Siamese網(wǎng)絡(luò)的跟蹤算法的發(fā)展。之后,許多國(guó)內(nèi)外學(xué)者基于此方法對(duì)主干網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了多種優(yōu)秀的基于Siamese網(wǎng)絡(luò)的目標(biāo)跟蹤算法。文獻(xiàn)[19]將相關(guān)濾波器嵌入到SiamFC架構(gòu)中,并提出CFNet跟蹤方法。

文獻(xiàn)[20]考慮淺層網(wǎng)絡(luò)的局限性,使用性能更好的VGG網(wǎng)絡(luò)取代層數(shù)較淺的AlexNet,利用VGG網(wǎng)絡(luò)能夠提取目標(biāo)高維特征的特點(diǎn),最終實(shí)現(xiàn)了精準(zhǔn)高效的目標(biāo)跟蹤。此外,文獻(xiàn)[21]還將Faster R-CNN所含的區(qū)域候選網(wǎng)絡(luò)(RPN)應(yīng)用到目標(biāo)跟蹤領(lǐng)域并提出了SiamRPN追蹤方法,通過(guò)引入RPN,將目標(biāo)跟蹤任務(wù)作為one-shot learning,利用大量的數(shù)據(jù)集對(duì)跟蹤器進(jìn)行端到端的訓(xùn)練,成功平衡了速度與精度。但是,由于其主干網(wǎng)絡(luò)AlexNet在復(fù)雜環(huán)境下提取的特征響應(yīng)圖不夠準(zhǔn)確,因此容易出現(xiàn)跟蹤丟失、漂移等問(wèn)題。針對(duì)該問(wèn)題,SiamRPN++[22]在SiamRPN的基礎(chǔ)上提出一種有效的采樣策略,成功訓(xùn)練了更深層ResNet結(jié)構(gòu)[23]驅(qū)動(dòng)的跟蹤器,在跟蹤精度方面取得了目前最優(yōu)的水平。得益于深度ResNet網(wǎng)絡(luò),許多基于Siamese網(wǎng)絡(luò)的跟蹤算法性能得到大幅提高,例如文獻(xiàn)[24]在此基礎(chǔ)上提出的SiamDW算法。此后,許多跟蹤算法也都開始采納強(qiáng)大的深度架構(gòu),這些跟蹤算法在ResNet的最后3個(gè)殘差塊中提取特征,并對(duì)這些特征進(jìn)行融合從而獲得多通道響應(yīng)圖,最終實(shí)現(xiàn)視覺跟蹤的目的,因此,ResNet作為骨干網(wǎng),由于其簡(jiǎn)單性和強(qiáng)大的性能,已成為Siamese跟蹤的首選方案。這些基于Siamese網(wǎng)絡(luò)的跟蹤器通過(guò)對(duì)特征提取網(wǎng)絡(luò)與跟蹤網(wǎng)絡(luò)的改進(jìn),逐漸提高了成功率與跟蹤精度,但是面臨目標(biāo)尺寸變化、復(fù)雜相似背景、運(yùn)動(dòng)模糊、遮擋等問(wèn)題時(shí),仍舊無(wú)法很好地區(qū)分目標(biāo)與相似的對(duì)象。

為了提高跟蹤算法面對(duì)上述挑戰(zhàn)時(shí)的成功率與精度,研究者發(fā)現(xiàn)將注意力機(jī)制[25]融入目標(biāo)跟蹤的模型更利于學(xué)習(xí)背景信息與目標(biāo)物體之間的聯(lián)系,得到更多感興趣區(qū)域的細(xì)節(jié)信息。這種方式可以通過(guò)“動(dòng)態(tài)加權(quán)”來(lái)抑制背景區(qū)域信息同時(shí)強(qiáng)調(diào)感興趣區(qū)域的信息[26]。CVPR 2017中提出了一種有效的通道注意力機(jī)制SENet[27],通過(guò)一種全新的架構(gòu)單元“擠壓與激勵(lì)(SE)”塊顯示建模通道之間的依賴關(guān)系,達(dá)到自適應(yīng)對(duì)通道特征響應(yīng)校準(zhǔn)的目的。ECCV 2018中提出的一種雙注意力網(wǎng)絡(luò)CBAM[28],通過(guò)利用輕量化注意力模塊,在通道以及空間維度上進(jìn)行加強(qiáng)目標(biāo)特征權(quán)重的操作,實(shí)現(xiàn)了高性能目標(biāo)跟蹤。CVPR 2020中對(duì)SENet進(jìn)行分析改進(jìn),提出了一種改進(jìn)的通道注意力ECA-Net[29],通過(guò)使用一維卷積實(shí)現(xiàn)了一種無(wú)須降維的局部不同通道之間的交互策略,并能夠自適應(yīng)確定一維卷積核的大小,最終通過(guò)對(duì)通道加權(quán)提高跟蹤效率。

針對(duì)基于Siamese網(wǎng)絡(luò)的跟蹤器判別相似目標(biāo)時(shí)精度不高以及抗干擾能力不強(qiáng)的問(wèn)題,本文提出具有補(bǔ)償注意力機(jī)制的Siamese網(wǎng)絡(luò)跟蹤算法CDAM-Siam。通過(guò)加深網(wǎng)絡(luò)的方式增強(qiáng)追蹤器主干網(wǎng)絡(luò)的特征提取能力,獲得強(qiáng)語(yǔ)義特征圖,融入注意力機(jī)制提高其應(yīng)對(duì)跟蹤挑戰(zhàn)的能力,從而提高跟蹤模型的魯棒性,實(shí)現(xiàn)精準(zhǔn)的目標(biāo)跟蹤。

1 相關(guān)研究

SiamRPN跟蹤算法最先將應(yīng)用在目標(biāo)檢測(cè)算法中的 RPN[30]引入到目標(biāo)跟蹤領(lǐng)域,這為單目標(biāo)跟蹤算法帶來(lái)了新的思路。SiamRPN具體的算法框架如圖1所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版,下同)。

圖1 SiamRPN算法框架Fig.1 SiamRPN algorithm framework

圖1左側(cè)即為Siamese網(wǎng)絡(luò),這2個(gè)分支網(wǎng)絡(luò)除了具有相同的結(jié)構(gòu)外還具有相同的參數(shù)。Siamese網(wǎng)絡(luò)的上方輸入為目標(biāo)跟蹤的模板幀,目標(biāo)跟蹤就是依靠輸入的bounding box作為標(biāo)準(zhǔn)確定后續(xù)幀中的目標(biāo)位置。下方分支網(wǎng)絡(luò)的輸入為后續(xù)視頻或待檢測(cè)的圖片序列。RPN網(wǎng)絡(luò)則是位于整個(gè)網(wǎng)絡(luò)的中間部分,RPN網(wǎng)絡(luò)又分為上下兩部分,上方虛線框內(nèi)為分類分支,下方框內(nèi)為回歸分支。將模板幀與待檢測(cè)幀作為輸入,首先經(jīng)過(guò)Siamese網(wǎng)絡(luò)的主干網(wǎng)絡(luò)進(jìn)行特征提取,再對(duì)得到的特征圖進(jìn)行卷積操作,經(jīng)過(guò)卷積后的模板特征圖通道數(shù)與待測(cè)幀特征圖通道數(shù)分別為2k×256與4k×256,其中,k代表anchor數(shù)量。接著,對(duì)這2個(gè)不同分支分別進(jìn)行相關(guān)特征圖的區(qū)域提取。由于在進(jìn)行跟蹤任務(wù)時(shí)并未提前定義類別,這就需要使用模板分支將目標(biāo)所具有的外表信息編碼進(jìn)RPN特征圖內(nèi),由此來(lái)區(qū)分目標(biāo)前景和背景。網(wǎng)絡(luò)最右邊即為輸出結(jié)果。

2 本文Siamese網(wǎng)絡(luò)跟蹤算法

2.1 CDAM-Siam算法整體框架

本文所提CDAM-Siam跟蹤算法框架如圖2所示。首先采用ResNet-50網(wǎng)絡(luò)代替AlexNet設(shè)計(jì)Siamese的主干網(wǎng)絡(luò)進(jìn)行特征提取,通過(guò)加深網(wǎng)絡(luò)的方式加強(qiáng)其提取特征的能力;其次ResNet-50卷積層后方的綠色部分為本文提出的具有補(bǔ)償機(jī)制的注意力網(wǎng)絡(luò)CDAM,這是為了增強(qiáng)特征圖的語(yǔ)義信息,以提高跟蹤器面對(duì)遮擋、目標(biāo)形變等時(shí)的魯棒性,具體是通過(guò)在特征提取網(wǎng)絡(luò)的卷積層中加權(quán)通道和空間注意力來(lái)獲得更利于追蹤的特征圖,同時(shí)本文算法將模板分支的通道注意力權(quán)重復(fù)制并添加到了搜索分支,從而提高搜索分支對(duì)目標(biāo)特征的辨別能力;最后對(duì)輸出的特征圖進(jìn)行由上而下的多層特征融合,讓獲得的目標(biāo)特征變得更為突出,將得到的特征圖經(jīng)過(guò)RPN以進(jìn)行區(qū)域提取,通過(guò)使用回歸分支回歸目標(biāo)位置,利用分類分支區(qū)分前景和背景,從而完成一幀視頻序列的跟蹤。為了提高算法的跟蹤精度及成功率,將大規(guī)模圖像對(duì)輸入到框架中,并對(duì)整個(gè)系統(tǒng)進(jìn)行端到端的離線訓(xùn)練。

圖2 CDAM-Siam跟蹤算法框架Fig.2 Framework of CDAM-Siam tracking algorithm

2.2 CDAM注意力模型

本文采用ResNet-50作為骨干網(wǎng)絡(luò)來(lái)提取特征,實(shí)驗(yàn)表明不同的通道對(duì)同一類別對(duì)象的反應(yīng)不同,因此,深度特征能夠?qū)W習(xí)對(duì)象不同的語(yǔ)義信息。由于Siamese網(wǎng)絡(luò)的雙分支結(jié)構(gòu)所提取的特征在空間和通道等維度上具有不同的關(guān)注度,因此在特征提取過(guò)程中,本文使用注意力網(wǎng)絡(luò)來(lái)過(guò)濾圖像信息,即讓網(wǎng)絡(luò)進(jìn)行特征提取時(shí)更關(guān)注對(duì)跟蹤任務(wù)貢獻(xiàn)度高的目標(biāo)特征而忽略背景信息。

由于特征圖的不同通道對(duì)圖像的信息響應(yīng)不同,因此本文使用通道注意力來(lái)增強(qiáng)對(duì)象的特征信息,同時(shí)為了消除由不同數(shù)據(jù)集的數(shù)據(jù)分布引起的位置偏差,使用空間注意力機(jī)制來(lái)學(xué)習(xí)對(duì)象的位置,抑制位置偏差,從而增強(qiáng)圖像中對(duì)象位置信息的表示。因此,本文在追蹤器的模板分支和搜索分支的特定層中分別引入這2種注意力網(wǎng)絡(luò),增強(qiáng)圖像特征表達(dá)能力,還將模板分支對(duì)物體的特征注意力權(quán)重復(fù)制添加到搜索分支用于加強(qiáng)對(duì)對(duì)象特征的辨別能力,具體模型結(jié)構(gòu)如圖3所示。下文將重點(diǎn)介紹本模塊的通道注意力機(jī)制、空間注意力機(jī)制與補(bǔ)償注意力機(jī)制。

圖3 CDAM注意力模型Fig.3 CDAM attention model

將本文所提CDAM注意力機(jī)制嵌入到Siamese網(wǎng)絡(luò)的Conv3、Conv4和Conv5卷積層中,對(duì)添加注意力機(jī)制后的網(wǎng)絡(luò)在Biker視頻序列、Couple視頻序列與Coke視頻序列上進(jìn)行測(cè)試,測(cè)試結(jié)果可視化如圖4所示。從可視化熱力圖中可以明顯看到,未添加CDAM模塊時(shí),追蹤器雖然可以聚焦到目標(biāo),但是仍會(huì)受到一些背景的影響,而CDAM模塊的添加明顯提高了識(shí)別準(zhǔn)確度,減少了背景信息的干擾。

圖4 在OTB100中的可視化結(jié)果Fig.4 Visual results in OTB100

2.2.1 通道注意力

在跟蹤任務(wù)中,不同的注意力機(jī)制作用不同,不同的特征通道其重要程度也不同,通道注意力旨在給這些通道添加相應(yīng)的權(quán)重系數(shù)。本文引入ECA-Net作為通道注意力機(jī)制,它具有參數(shù)少、更輕量、更穩(wěn)定等優(yōu)點(diǎn),可以在不提高算法復(fù)雜度的基礎(chǔ)上保證其整體性能。通道注意力機(jī)制如圖5所示,其中,W、H、C分別為目標(biāo)特征圖的寬、高、通道維數(shù)。

圖5 通道注意力網(wǎng)絡(luò)Fig.5 Channel attention network

通過(guò)Siamese主干網(wǎng)ResNet-50提取的特征圖,首先通過(guò)一次全局平均池化操作,將H和W維度都?jí)嚎s為1,只保留channel的維度,特征圖也因此被拉為長(zhǎng)條狀,得到如下的響應(yīng)值:

(1)

其中:g為各通道全局平均池化響應(yīng)值;γij為對(duì)應(yīng)像素點(diǎn)的特征值。然后經(jīng)過(guò)相鄰?fù)ǖ罃?shù)等于n的一維卷積,生成對(duì)應(yīng)通道權(quán)重,并將每層的channel和n個(gè)相鄰層channel信息進(jìn)行交互,在僅考慮通道yi與其n個(gè)相鄰?fù)ǖ乐g相互作用的情況下計(jì)算yi的權(quán)重,如下:

(2)

其中:αi,j代表不同通道上對(duì)應(yīng)的學(xué)習(xí)參數(shù);Ωi,n表示yi的n個(gè)相鄰?fù)ǖ兰稀榱诉M(jìn)一步提高模型的效率,減少參數(shù)帶來(lái)的額外計(jì)算量,本文使各通道共享相同的學(xué)習(xí)參數(shù),可得簡(jiǎn)化后yi權(quán)重如下:

(3)

這里可以簡(jiǎn)單地通過(guò)核大小為n的一維卷積來(lái)快速實(shí)現(xiàn):

ω=Sigmoid(RCIDn(y))

(4)

其中:CID代表一維卷積。此時(shí)等式中的方法是由ECA-Net調(diào)用,并且這里僅使用了n個(gè)參數(shù),而這個(gè)通道模塊的作用就是適當(dāng)捕捉本地跨通道交互,因而確定這個(gè)交互覆蓋范圍大小n就很有必要。在卷積網(wǎng)絡(luò)中,不同網(wǎng)絡(luò)架構(gòu)與通道數(shù)目的卷積塊通常能夠手動(dòng)調(diào)整,從而確定這個(gè)交互覆蓋的最優(yōu)范圍,但這種通過(guò)手動(dòng)交叉驗(yàn)證來(lái)調(diào)整的方式會(huì)浪費(fèi)許多計(jì)算資源。本文依據(jù)ECA模塊的方案可知,一維卷積核的大小n與信道維度C成比例,可得表達(dá)式如下:

C=ψ(n)=2(χ×n-b)

(5)

因此,當(dāng)信道維度確定為C時(shí),通過(guò)以下方法自適應(yīng)地確定卷積核大小,可以有效地避免計(jì)算資源消耗:

(6)

其中:|·|odd的計(jì)算方式為選取最相近奇數(shù);χ與b的取值在本文中分別為2和1。

2.2.2 空間注意力

不同于通道注意力,空間注意力更關(guān)注圖像空間特征的相關(guān)信息,更有利于精確定位目標(biāo)。空間注意力機(jī)制將經(jīng)過(guò)通道注意力機(jī)制篩選后的特征進(jìn)行再次篩選,獲取對(duì)追蹤目標(biāo)位置更具價(jià)值的特征,本文空間注意力網(wǎng)絡(luò)如圖6所示。

圖6 空間注意力網(wǎng)絡(luò)Fig.6 Spatial attention network

對(duì)經(jīng)過(guò)ECA-Net后的特征映射Fi,z∈C×W×H,先經(jīng)過(guò)平均池化和最大池化2個(gè)操作,獲得2個(gè)Fi,max∈H×W×1的二維空間特征描述符,然后,空間特征描述符被級(jí)聯(lián)并發(fā)送到一個(gè)單一卷積層中,生成一個(gè)二維空間注意力圖Wi,sz∈H×W×1,將此結(jié)果經(jīng)過(guò)Sigmoid激活函數(shù)即可生成所需的最終空間注意力特征,其表達(dá)式如下:

Wi,sz=Sigmoid(conv([Fi,max,fi,avg]))

(7)

其中:[Fi,max,fi,avg]∈H×W×2表示全局平均池化和最大池化特征描述符的級(jí)聯(lián);conv表示具有S形激活的單個(gè)7×7卷積層。

2.2.3 補(bǔ)償注意力

Siamese網(wǎng)絡(luò)的雙分支結(jié)構(gòu)分為模板分支與搜索分支,模板分支僅對(duì)目標(biāo)進(jìn)行特征提取,而搜索分支則對(duì)整個(gè)輸入的圖像進(jìn)行特征提取,因此,跟蹤過(guò)程中常會(huì)出現(xiàn)干擾物影響搜索分支中注意力機(jī)制對(duì)目標(biāo)的判斷,而補(bǔ)償注意力機(jī)制模型結(jié)構(gòu)可以有效消除這種影響,圖7即為搜索分支添加補(bǔ)償注意力機(jī)制的模型結(jié)構(gòu)。

圖7 補(bǔ)償注意力機(jī)制模型Fig.7 Compensated attention mechanism model

在圖7中,模板分支具有第i層特征Zi∈b×C×W×H,搜索分支具有第i層特征Xi∈b×C×W×H。本文將獲得的模板分支特征的通道注意力權(quán)重Wi,z與搜索分支的通道注意力權(quán)重Wi,x進(jìn)行加權(quán),作為搜索分支的注意力權(quán)重,定義為:

Wi=f(Wi,z,Wi,x)

(8)

其中:f(·)代表fmul(·)。最后,Wi,z與Wi通過(guò)對(duì)Zi和Xi特征圖進(jìn)行加權(quán),獲得第i層中對(duì)通道注意力權(quán)重重新分配后的特征圖,這個(gè)特征圖對(duì)于目標(biāo)跟蹤更加聚焦。

2.3 特征融合網(wǎng)絡(luò)

一般來(lái)說(shuō),ResNet-50網(wǎng)絡(luò)的不同層具有不同的意義,目標(biāo)跟蹤既需要富含深層語(yǔ)義信息的深層特征,又需要顏色、邊緣信息等淺層特征來(lái)進(jìn)一步對(duì)目標(biāo)進(jìn)行定位。來(lái)自不同卷積層的特征之間可以相互補(bǔ)充,因此,本文提出一種基于2種不同卷積的特征融合模塊。如圖8所示,首先使用一個(gè)卷積核大小為3×3的反卷積對(duì)特征圖f2進(jìn)行空間上采樣操作,將f2的大小擴(kuò)大至與特征圖f1相同大小,然而上采樣可能引起特征圖語(yǔ)義信息不均,從而造成跟蹤精度下降問(wèn)題,本文加入可變形卷積來(lái)緩解這種情況;然后將經(jīng)過(guò)反卷積和可變形卷積得到的特征圖與f1相加,生成融合的特征圖。

圖8 特征融合模塊Fig.8 Feature fusion module

依照上述特征融合方法,ResNet-50依次使用從最后3個(gè)卷積塊中提取的特征進(jìn)行融合。在特征融合的路徑中,使用2個(gè)串聯(lián)的特征融合模塊。首先將Conv5和Conv4的輸出特征圖按上述方法反饋到一個(gè)特征融合模塊中進(jìn)行特征融合,即:

fmap=f(fConv5,fConv4)

(9)

其中:fConv5、fConv4分別代表卷積塊Conv5、Conv4的輸出特征圖。然后將這個(gè)輸出的模塊fmap和Conv3的輸出特征圖反饋到另一個(gè)特征融合模塊中:

Fmap=f(fmap,fConv3)

(10)

其中:fConv3代表卷積塊Conv3的輸出特征圖。通過(guò)這種方式,生成最終的融合特征圖Fmap。這種由上而下的融合策略可以獲得高分辨率和信息豐富的特征圖,還可以增加網(wǎng)絡(luò)最后一層的感受野,所提算法通過(guò)這種融合網(wǎng)絡(luò),提高了視覺語(yǔ)義層次的多樣性。

3 實(shí)驗(yàn)結(jié)果與評(píng)估

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)所使用的處理器為Intel i9-10900K,10核20線程3.70 GHz,顯卡為NVIDIA GeForce RTX3090,顯存24 GB。使用PyTorch深度學(xué)習(xí)框架,利用Python語(yǔ)言在Pycharm上實(shí)現(xiàn)運(yùn)行。

訓(xùn)練數(shù)據(jù)集選擇GOT-10K和YouTube-BB這2個(gè)大型數(shù)據(jù)集,其中,GOT-10K包含了66 GB的圖片序列,含有多達(dá)563種目標(biāo)類別以及多于150萬(wàn)個(gè)的真實(shí)目標(biāo)邊界框;YouTube-BB含有約38萬(wàn)個(gè)15~20 s的視頻片段,這些視頻選取于YouTube網(wǎng)站中的公開視頻,主要以自然環(huán)境中的目標(biāo)作為視頻內(nèi)容。在模型訓(xùn)練階段,由于本文使用層數(shù)更深的ResNet-50替代AlexNet作為骨干網(wǎng)絡(luò),模型精度得到了很好提升,但是這使得計(jì)算模型變得更為復(fù)雜,也因此延長(zhǎng)了模型訓(xùn)練的時(shí)間。

在測(cè)試階段選取OTB100與VOT2018測(cè)試集。OTB100共包含100個(gè)不同的目標(biāo),并對(duì)98個(gè)視頻序列進(jìn)行了標(biāo)記,此外還包含了11種不同的挑戰(zhàn)屬性,分別為尺度變化(SV)、光照變化(IV)、遮擋(OCC)、運(yùn)動(dòng)模糊(MB)、形變(DEF)、快速移動(dòng)(FM)、外平面旋轉(zhuǎn)(OPR)、平面內(nèi)旋轉(zhuǎn)(IPR)、出視野(OV)、低像素(LR)、背景干擾(BC),每個(gè)視頻包含一個(gè)或以上的挑戰(zhàn)屬性。首先選取一次通過(guò)評(píng)估(OPE)為測(cè)評(píng)標(biāo)準(zhǔn),OPE將手動(dòng)標(biāo)注的真實(shí)值與算法所生成的結(jié)果進(jìn)行對(duì)比,可以得出算法的成功率和精度并繪制成曲線圖;隨后在VOT2018數(shù)據(jù)集上進(jìn)行性能評(píng)估測(cè)試,對(duì)所提算法進(jìn)行驗(yàn)證分析。

3.2 消融實(shí)驗(yàn)

為了驗(yàn)證本文算法中各模塊的有效性,使用OTB100數(shù)據(jù)集對(duì)6組實(shí)驗(yàn)進(jìn)行測(cè)試,消融實(shí)驗(yàn)結(jié)果如表1所示。首先根據(jù)第1行可以看到,本文的基線算法SiamRPN的成功率和精度分別為63.1%和85.1%;然后使用深層網(wǎng)絡(luò)ResNet-50替換AlexNet,由第1行和第2行對(duì)比可得成功率和精度分別提升了2.2和1.3個(gè)百分點(diǎn);其次在替換主干網(wǎng)絡(luò)的基礎(chǔ)上添加具有補(bǔ)償機(jī)制的雙注意力網(wǎng)絡(luò),根據(jù)第2行和第4行可得其成功率和精度分別提高了2.3和1.3個(gè)百分點(diǎn);最后在跟蹤器中添加特征融合模塊(第6行),其成功率和精度與只添加注意力機(jī)制(第4行)相比分別提升了0.7和1.8個(gè)百分點(diǎn)。因此,每個(gè)模塊都對(duì)本文跟蹤算法的性能提升作出了貢獻(xiàn),而且本文算法的速度可達(dá)56 幀/s,滿足實(shí)時(shí)性需求。

表1 消融實(shí)驗(yàn)結(jié)果Table 1 Results of ablation experiment

為了進(jìn)一步確定補(bǔ)償注意力機(jī)制的具體性能,在OTB100數(shù)據(jù)集上,本文對(duì)添加通道、空間注意力并應(yīng)用補(bǔ)償注意力機(jī)制的追蹤器(SiamRPN-CA)與僅添加通道、空間注意力而不添加補(bǔ)償注意力機(jī)制的追蹤器(SiamRPN-NCA)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示,實(shí)驗(yàn)結(jié)果表明,本文所提補(bǔ)償雙注意力機(jī)制能夠提高Siamese網(wǎng)絡(luò)追蹤器的性能。

表2 補(bǔ)償注意力機(jī)制的影響Table 2 The impact of compensated attention mechanism

3.3 定量分析

將本文所提算法和一些具有代表性的視覺跟蹤算法進(jìn)行對(duì)比分析,對(duì)比算法包括SiamFC、fDSST[31]、Staple[32]、SiamDWfc、DeepSRDCF[33]、SiamRPN,在OTB100數(shù)據(jù)集中進(jìn)行測(cè)試,結(jié)果如圖9所示。由圖9可知,本文所提算法CDAM-Siam的平均成功率和平均跟蹤精度分別為68.3%和89.5%,均高于其他代表性視覺跟蹤算法。與基準(zhǔn)算法SiamRPN相比,CDAM-Siam的成功率平均提高了5.2個(gè)百分點(diǎn),跟蹤精度平均提高了4.4個(gè)百分點(diǎn)。通過(guò)定量分析可知CDAM-Siam跟蹤器的跟蹤效果良好。

圖9 各算法在OTB100數(shù)據(jù)集上的評(píng)估結(jié)果Fig.9 Evaluation results of various algorithms on the OTB100 dataset

為了進(jìn)一步說(shuō)明本文算法面對(duì)不同挑戰(zhàn)屬性時(shí)的跟蹤性能,將本文所提算法與其他代表性算法在OTB100各種跟蹤挑戰(zhàn)屬性上的成功率進(jìn)行對(duì)比,結(jié)果如表3所示,最優(yōu)結(jié)果加粗標(biāo)注。根據(jù)表3中的結(jié)果可知,本文所提算法在面對(duì)大多數(shù)挑戰(zhàn)屬性時(shí)仍能保持領(lǐng)先水平,其中在遮擋、背景干擾、出視野、光照變化、運(yùn)動(dòng)模糊以及形變的挑戰(zhàn)屬性中得到最優(yōu)結(jié)果,這得益于深層網(wǎng)絡(luò)對(duì)更多深層語(yǔ)義信息的捕獲以及注意力機(jī)制對(duì)重要區(qū)域權(quán)重的增強(qiáng),使得模型在目標(biāo)受到不同挑戰(zhàn)時(shí)性能可以得到保證。

表3 在OTB100數(shù)據(jù)集不同屬性下算法的跟蹤成功率對(duì)比Table 3 Comparison of tracking success rate of algorithms under different attributes of OTB100 dataset

3.4 定性分析

從OTB100測(cè)試集中選取6段視頻序列,分別為:Biker視頻序列具有SV、LR、OCC、MB、FM、OPR、OV挑戰(zhàn)屬性;Couple視頻序列具有SV、DEF、FM、OPR、BC挑戰(zhàn)屬性;DragonBaby視頻序列具有SV、OCC、MB、FM、IPR、OPR、OV挑戰(zhàn)屬性;Ironman視頻序列具有IV、SV、OCC、MB、FM、IPR、OPR、OV、BC挑戰(zhàn)屬性;Jump視頻序列具有SV、OCC、DEF、MB、IPR、OPR挑戰(zhàn)屬性;Skiing視頻序列具有IV、SV、DEF、IPR、OPR、LR挑戰(zhàn)屬性。圖10所示為本文算法和其他6種跟蹤算法在上述視頻序列中的跟蹤結(jié)果。

圖10 7種算法在OTB100部分視頻序列中的跟蹤結(jié)果Fig.10 Tracking results of 7 algorithms in OTB100 partial video sequences

從圖10可以看出:

1)遮擋。以視頻序列Biker為例,跟蹤的主要難點(diǎn)為外界干擾物遮擋目標(biāo)以及視頻分辨率低等問(wèn)題,造成跟蹤過(guò)程中出現(xiàn)了跟蹤丟失、無(wú)法正確跟蹤到目標(biāo)的情況。在第62幀已經(jīng)出現(xiàn)部分跟蹤器跟蹤不準(zhǔn)確的現(xiàn)象,在后續(xù)第112幀、第130幀以及第142幀中,多數(shù)跟蹤器由于魯棒性不高,已經(jīng)無(wú)法繼續(xù)跟蹤到目標(biāo),只有本文所提算法和SiamRPN算法可以繼續(xù)跟蹤目標(biāo)物體。

2)背景干擾。以視頻序列Couple為例,該視頻中存在樹木、陰影、車輛等比較多的背景物體,SiamFC以及其他算法對(duì)視頻序列中的目標(biāo)判別能力不佳,導(dǎo)致跟蹤失敗,尤其是在第107幀可以看到只有本文所提算法有效捕捉到了跟蹤目標(biāo),其他算法則表現(xiàn)出了跟蹤漂移現(xiàn)象。這是由于本文算法中所添加的注意力模塊可以很好地描述視頻序列中跟蹤目標(biāo)的特征信息,在雜亂背景下依舊能夠進(jìn)行穩(wěn)定的跟蹤。

3)出視野。以視頻序列DragonBaby為例,該視頻中的目標(biāo)會(huì)進(jìn)行一系列快速動(dòng)作,并且有消失在視野中的情況,跟蹤難度較大。以第48幀為例,其他對(duì)比跟蹤算法受到影響都出現(xiàn)了不同程度的跟蹤不準(zhǔn)確或跟蹤目標(biāo)丟失的情況,而本文算法可以有效應(yīng)對(duì)本視頻序列中的各項(xiàng)挑戰(zhàn)屬性,有效捕捉到目標(biāo),并且在其他算法跟蹤框偏移時(shí),本文算法所代表的紅色框更為準(zhǔn)確地表示了跟蹤物體。

4)光照變化。以視頻序列Ironman為例,該視頻序列中存在過(guò)暗和過(guò)亮的巨大光照反差,在跟蹤過(guò)程中給各種跟蹤算法造成了困擾,在視頻跟蹤序列第17幀、第27幀、第61幀以及第104幀中可以看到,在背景中有劇烈閃光后,各類跟蹤算法包括本文所提算法都出現(xiàn)了不同程度的跟蹤丟失以及漂移情況,但本文算法相較而言漂移程度較低,可見本文跟蹤算法更加魯棒,能夠更好地跟蹤到目標(biāo)。

5)運(yùn)動(dòng)模糊。以視頻序列Jump為例,跳高運(yùn)動(dòng)員在跳高過(guò)程中使得目標(biāo)表觀信息產(chǎn)生模糊現(xiàn)象,SiamFC、fDSST、Staple等算法由于模型泛化能力不強(qiáng),很容易出現(xiàn)跟蹤丟失等問(wèn)題,在視頻序列第19幀、第31幀、第74幀和第99幀中,只有本文所提算法完整且準(zhǔn)確地框出了目標(biāo)所在位置,這得益于所提的各個(gè)模塊,而其他跟蹤算法出現(xiàn)跟蹤目標(biāo)丟失、識(shí)別目標(biāo)不完整、偏移等情況。

6)形變。以視頻序列Skiing為例,滑雪運(yùn)動(dòng)員在空中完成一系列動(dòng)作,使得目標(biāo)發(fā)生形變,導(dǎo)致跟蹤任務(wù)難度增加。視頻序列具有的挑戰(zhàn)屬性對(duì)各跟蹤算法的特征提取能力提出了更高的要求,一些特征匹配或特征提取能力不高的跟蹤算法在跟蹤中無(wú)法正確定位目標(biāo),在跟蹤序列第15幀、第42幀、第65幀以及第81幀中可見,只有本文所提算法在跟蹤過(guò)程中保持了對(duì)目標(biāo)的鎖定,而其他算法則丟失了跟蹤目標(biāo),SiamRPN算法也不能一直鎖定目標(biāo),發(fā)生了跟蹤漂移、跟蹤不準(zhǔn)確的情況。

通過(guò)對(duì)以上涵蓋各種挑戰(zhàn)屬性的跟蹤視頻序列的分析可以發(fā)現(xiàn),本文所提算法在應(yīng)對(duì)跟蹤任務(wù)中常見的各種挑戰(zhàn)時(shí),依然具有良好的表現(xiàn),相對(duì)其他算法而言對(duì)目標(biāo)的跟蹤更為準(zhǔn)確。

3.5 性能評(píng)估

為了更好地評(píng)估所提算法,在VOT2018上進(jìn)行測(cè)試,選擇準(zhǔn)確率、魯棒性、平均重疊率(EAO)作為評(píng)價(jià)指標(biāo),其中,EAO代表每幀預(yù)測(cè)區(qū)域與真實(shí)區(qū)域的交并比平均值。跟蹤效果和EAO、準(zhǔn)確率成正比,和魯棒性成反比,實(shí)驗(yàn)結(jié)果如表4所示。

表4 VOT2018數(shù)據(jù)集上的評(píng)估結(jié)果Table 4 Evaluation results on the VOT2018 dataset

從表4可以看出,本文所提算法的準(zhǔn)確率、EAO相較于SiamRPN算法分別提高了0.9、1.6個(gè)百分點(diǎn),魯棒性降低了3.7個(gè)百分點(diǎn)。

4 結(jié)束語(yǔ)

本文提出一種具有補(bǔ)償注意力機(jī)制的Siamese網(wǎng)絡(luò)跟蹤算法。首先,使用ResNet-50深層網(wǎng)絡(luò)作為Siamese的骨干網(wǎng)絡(luò),對(duì)目標(biāo)特征進(jìn)行提取;然后,在Siamese網(wǎng)絡(luò)結(jié)構(gòu)中插入具有補(bǔ)償注意力機(jī)制的雙重注意力網(wǎng)絡(luò),獲取更有利于目標(biāo)定位的通道及空間注意力特征;最后,使用特征融合網(wǎng)絡(luò)將來(lái)自不同卷積層的特征進(jìn)行融合,使得不同卷積層的特征被充分利用,最終達(dá)到準(zhǔn)確進(jìn)行目標(biāo)跟蹤的目的。在OTB100數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,本文所提算法與基準(zhǔn)算法相比網(wǎng)絡(luò)模型更加魯棒,且具有更好的跟蹤效果,成功率和跟蹤精度較基線算法分別提高了5.2和4.4個(gè)百分點(diǎn)。下一步將對(duì)不同注意力之間的相互干擾作用進(jìn)行分析,并對(duì)能夠有效減少注意力模型相互干擾的并行網(wǎng)絡(luò)進(jìn)行研究,以提高注意力機(jī)制的特征提取效果,從而進(jìn)一步提升算法的跟蹤性能。

猜你喜歡
機(jī)制特征
抓住特征巧觀察
構(gòu)建“不敢腐、不能腐、不想腐”機(jī)制的思考
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
定向培養(yǎng) 還需完善安置機(jī)制
破除舊機(jī)制要分步推進(jìn)
注重機(jī)制的相互配合
主站蜘蛛池模板: 亚洲第一成年人网站| 亚洲视频一区| 亚洲日韩国产精品综合在线观看 | 精品福利视频网| 丝袜无码一区二区三区| 久久综合九色综合97网| 少妇被粗大的猛烈进出免费视频| 日本伊人色综合网| 国产肉感大码AV无码| 亚洲黄色激情网站| 久久午夜影院| 欧美激情视频一区| 亚洲色欲色欲www网| 久久亚洲国产一区二区| 日韩高清在线观看不卡一区二区 | 99热这里只有精品国产99| 国产女人在线视频| 波多野结衣一区二区三区四区| 久久人搡人人玩人妻精品| 99在线视频免费| 国产成人91精品| 国产精品久久久久无码网站| 中文字幕1区2区| 色首页AV在线| 国产美女精品一区二区| 国产人在线成免费视频| 波多野结衣一区二区三区四区视频 | 丁香亚洲综合五月天婷婷| 中文字幕无码制服中字| 91久久夜色精品| 成年人视频一区二区| 亚洲一区免费看| 国产香蕉一区二区在线网站| 欧美日韩第二页| 幺女国产一级毛片| 成人字幕网视频在线观看| 自拍亚洲欧美精品| 精品免费在线视频| 亚洲精品自产拍在线观看APP| 亚洲午夜天堂| 亚洲最大福利视频网| 伊人色在线视频| 麻豆国产精品一二三在线观看| 久青草免费在线视频| 国产精品自在自线免费观看| 国产成人综合欧美精品久久| 五月天久久综合| 国产91无毒不卡在线观看| 在线观看欧美精品二区| 干中文字幕| 欲色天天综合网| www.91中文字幕| 综合网久久| 亚洲视频一区| 日本免费a视频| 少妇露出福利视频| 亚洲精品动漫| 五月激情婷婷综合| 日韩国产综合精选| 亚洲浓毛av| 国产亚洲美日韩AV中文字幕无码成人 | 久草青青在线视频| 欧美精品成人| 欧美综合在线观看| 日韩不卡高清视频| 国产精品三级专区| 奇米影视狠狠精品7777| 国产香蕉一区二区在线网站| a网站在线观看| 色欲色欲久久综合网| 国产精品自拍露脸视频| 97久久免费视频| 免费一看一级毛片| 久久公开视频| 亚洲 欧美 中文 AⅤ在线视频| 少妇高潮惨叫久久久久久| 久久77777| 免费jizz在线播放| 日韩精品成人网页视频在线| 国产精品第| 国产喷水视频| 精品成人免费自拍视频|