999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合時(shí)空上下文信息和注意力機(jī)制的目標(biāo)跟蹤

2022-10-01 02:41:30朱文球曾志高汪曉毅
關(guān)鍵詞:特征融合信息

朱文球,鄒 廣+,曾志高,汪曉毅

(1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007;2.湖南工業(yè)大學(xué) 智能信息感知與處理技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 株洲 412007)

0 引 言

在目標(biāo)跟蹤任務(wù)中,由于目標(biāo)的快速運(yùn)動(dòng)、尺度變換、背景干擾等問題會(huì)出現(xiàn)跟蹤漂移甚至失敗,Bertinetto等[1]提出了全卷積孿生網(wǎng)絡(luò)跟蹤算法(SiamFC),將AlexNet網(wǎng)絡(luò)模型作為主干網(wǎng)絡(luò),對(duì)所提取的模板特征和搜素特征進(jìn)行互相關(guān)運(yùn)算得到響應(yīng)圖,根據(jù)響應(yīng)圖得分預(yù)測(cè)目標(biāo)位置。由于其主干網(wǎng)絡(luò)特征提取能力較弱,SiamFC無法得到對(duì)目標(biāo)具有強(qiáng)判別性的特征,且模板圖像中包含的背景信息被當(dāng)成正樣本處理,污染了模板特征。GOTURN[2]網(wǎng)絡(luò)框架同孿生網(wǎng)絡(luò)類似,通過對(duì)訓(xùn)練數(shù)據(jù)做增廣處理,使得隨機(jī)裁剪得到的樣本能服從拉普拉斯分布,但訓(xùn)練出來的網(wǎng)絡(luò)僅對(duì)目標(biāo)敏感而不對(duì)類別敏感,對(duì)相似物體判別性不強(qiáng)。Valmadre等[3]提出CFNet算法,將SiamFC和相關(guān)濾波結(jié)合起來,但面對(duì)目標(biāo)遮擋等問題時(shí)跟蹤效果不佳。Wang等[4]采用注意力機(jī)制[5,6]融合的方式得到目標(biāo)位置映射的算法RASNet,但僅僅用到了模板特征。ACF[7]利用注意力機(jī)制學(xué)習(xí)到幾個(gè)相關(guān)濾波器之間的注意信息。Zhang等[8]提出一個(gè)擴(kuò)展了更深層數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)SiamDW,利用了深層網(wǎng)絡(luò)能提取特征更充分的優(yōu)勢(shì)。SA-Siam[9]通過語(yǔ)義和外觀雙分支結(jié)構(gòu)提取目標(biāo)的不同特征,并使用通道注意力機(jī)制對(duì)目標(biāo)進(jìn)行特征選擇,但忽略了模板更新。Zhu等[10]提出FlowTrack,通過增加光流信息的方式來利用時(shí)序信息,考慮了幀間信息。Ashish等[11]提出Transformer,已經(jīng)被應(yīng)用到自然語(yǔ)言處理,計(jì)算機(jī)視覺[12]等方面。Xia等[13]提出基于光流分塊的跟蹤方法,有效利用了幀間的光流信息。

1 基準(zhǔn)孿生網(wǎng)絡(luò)算法介紹

SiamFC跟蹤算法關(guān)鍵點(diǎn)是采用離線訓(xùn)練,在線微調(diào)的網(wǎng)絡(luò),能有效提高算法的速度。SiamFC網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。采用全卷積網(wǎng)絡(luò)時(shí),搜索圖像的尺寸不需要同模板圖像一致,能夠?yàn)榫W(wǎng)絡(luò)提供更大的搜索區(qū)域,計(jì)算更多子窗口的相似度。互相關(guān)使用的函數(shù)公式如式(1)所示

f(z,x)=φ(z)*φ(x)+b1

(1)

式中:x是輸入搜索圖像,z是輸入模板圖像;φ為特征提取網(wǎng)絡(luò);*代表卷積操作;b1表示在得分圖中每個(gè)位置取值的偏差值;f(z,x) 表示z與x的相似度得分。得分最高的位置即目標(biāo)位置。

2 本文跟蹤算法(STASiam)

2.1 概 述

本文基于孿生網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)SiamFC等算法存在的忽略各特征通道信息的權(quán)重、僅關(guān)注模板的語(yǔ)義特征等問題,提出了一種融合時(shí)空上下文信息和注意力機(jī)制的算法(spatio-temporal contextual information attention mechanism with Siamese,STASiam),主要工作如下:①主干網(wǎng)絡(luò)采用結(jié)合了空洞卷積的ResNet50[14]網(wǎng)絡(luò)模型,增大感受野,并對(duì)不同網(wǎng)絡(luò)層提取的特征進(jìn)行自適應(yīng)加權(quán)融合。②結(jié)合空間注意力[15]和通道注意力[16]對(duì)通道特征信息和空間位置信息進(jìn)行權(quán)重選擇。③設(shè)計(jì)了一個(gè)聚合時(shí)序信息的模塊,構(gòu)建一個(gè)拉普拉斯型的包含時(shí)序信息的模板特征集合,由交叉注意力(Cross-Attention)前向傳播運(yùn)動(dòng)的先驗(yàn)知識(shí),從而得到更充分的目標(biāo)外觀特征。并與空間自注意力結(jié)合捕獲時(shí)空上下文信息,從而提升網(wǎng)絡(luò)判別力,更好地區(qū)分目標(biāo)和背景。④在基準(zhǔn)數(shù)據(jù)集上算法速度能達(dá)到43幀每秒(FPS),滿足實(shí)時(shí)性。

2.2 網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)和各層對(duì)應(yīng)的操作見表1:網(wǎng)絡(luò)共分5個(gè)塊,第2個(gè)至第5個(gè)網(wǎng)絡(luò)塊的殘差塊個(gè)數(shù)分別為(3、4、6、3)。其中Block代表網(wǎng)絡(luò)塊,Dilation表示空洞卷積。Block1中的7×7代表卷積核大小,64代表輸出通道數(shù),maxp代表最大池化,s=2表示下采樣操作,步長(zhǎng)為2。

因其ResNet50網(wǎng)絡(luò)的總步長(zhǎng)為32,會(huì)導(dǎo)致模板圖像經(jīng)過主干網(wǎng)絡(luò)提取特征后,特征圖分辨率會(huì)變得過小,導(dǎo)致大量信息丟失。為了避免這種情況,對(duì)第4、第5個(gè)網(wǎng)絡(luò)塊不進(jìn)行下采樣操作(設(shè)置步長(zhǎng)為1),同時(shí)分別用空洞率(dilation rate)為2和4的空洞卷積代替3×3卷積,以此能夠在同樣的分辨率下獲得更寬闊的感受野。在不做池化操作損失信息的情況下,加大了感受野,能讓每個(gè)輸出都包含較大范圍的信息,聚合圖像中不同尺寸的上下文信息,獲取了多尺度信息。通過提高分辨率可以更加精確定位目標(biāo),同時(shí)消除因?yàn)榫矸e填補(bǔ)操作對(duì)目標(biāo)帶來的平移影響。算法總體模型結(jié)構(gòu)如圖2所示。算法流程如圖3所示。

圖2 STASiam網(wǎng)絡(luò)模型

圖3 算法流程

基于孿生網(wǎng)絡(luò)框架,目標(biāo)模板圖像和搜索圖像經(jīng)過主干網(wǎng)絡(luò)提取特征后,我們對(duì)第2、第4、第5這3個(gè)網(wǎng)絡(luò)塊(Block2、Block4、Block5)的輸出特征進(jìn)行自適應(yīng)加權(quán)融合。經(jīng)過加權(quán)融合后模板分支通過雙注意力模塊對(duì)通道和空間位置做進(jìn)一步篩選,并同結(jié)合了時(shí)序信息的模板特征集合相乘,得到的結(jié)果傳遞到搜索區(qū)域,以此聚合時(shí)間上不同的目標(biāo)表示。最后搜索分支通過一個(gè)交叉注意力模塊與原搜索分支特征相加并歸一化后得到搜索特征,通過與模板分支得到的模板特征做互相關(guān)操作得到最終響應(yīng)圖。響應(yīng)圖中得分最高的位置即為目標(biāo)位置,映射到原圖像中定位當(dāng)前目標(biāo)位置。

2.3 特征自適應(yīng)加權(quán)融合

本文算法想要在深度卷積網(wǎng)絡(luò)中不僅僅學(xué)習(xí)目標(biāo)的語(yǔ)義特征,同時(shí)也學(xué)習(xí)低層顏色、輪廓等目標(biāo)外觀特征。兩者相融合,提升算法對(duì)正負(fù)樣本的辨別力。在模板和搜索雙分支下,對(duì)經(jīng)第2、第4、第5這3個(gè)網(wǎng)絡(luò)塊輸出的特征自適應(yīng)加權(quán)融合。網(wǎng)絡(luò)塊卷積特征可視化表達(dá)如圖4所示,Block2輸出的響應(yīng)圖有較為明顯的底層特征(紋理、位置、顏色等),能凸出目標(biāo)的大致位置與輪廓,幫助定位目標(biāo)。Block4和Block5高層次語(yǔ)義特征的響應(yīng)圖對(duì)目標(biāo)與背景有更好的區(qū)分度,提高模型對(duì)正負(fù)樣本的區(qū)分能力。本文在3.5節(jié)展示了選取不同網(wǎng)絡(luò)塊組合的實(shí)驗(yàn)對(duì)比結(jié)果。由于不同網(wǎng)絡(luò)塊的輸出特征圖分辨率和通道數(shù)各有不同,因此需要對(duì)特征圖做上采樣和通道壓縮。對(duì)Block2而言,算法使用一個(gè)1×1卷積對(duì)特征圖的通道進(jìn)行壓縮(256→1024),圖像分辨率上采樣采用的是雙線性插值法。

圖4 網(wǎng)絡(luò)各個(gè)網(wǎng)絡(luò)塊特征可視化表達(dá)

表1 網(wǎng)絡(luò)結(jié)構(gòu)

為提取出更能表征目標(biāo)的特征,算法根據(jù)式(2)對(duì)第2、第4、第5這3個(gè)網(wǎng)絡(luò)塊輸出的特征自適應(yīng)加權(quán)融合

F=α·X1+β·X2+γ·X3

(2)

式中:F表示融合后的特征圖,α,β,γ分別為3個(gè)網(wǎng)絡(luò)塊的特征權(quán)重,通過網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí),X1,X2,X3表示3個(gè)網(wǎng)絡(luò)塊的輸出特征。特征權(quán)重可以表達(dá)為一個(gè)標(biāo)量,它們?cè)谒刑卣魍ǖ郎鲜枪蚕淼模⑶姚?β+γ=1,α,β,γ∈[0,1]。 通過一個(gè)softmax函數(shù)計(jì)算權(quán)重值,α的計(jì)算方式如式(3)所示,β,γ兩個(gè)參數(shù)的計(jì)算采用類似的計(jì)算方式

(3)

式中:λα,λβ,λγ為softmax函數(shù)對(duì)3個(gè)特征的權(quán)重分配控制參數(shù)。網(wǎng)絡(luò)通過一個(gè)1×1卷積計(jì)算這3個(gè)權(quán)重標(biāo)量參數(shù),并通過標(biāo)準(zhǔn)型的反向傳播學(xué)習(xí)更新這3個(gè)參數(shù),如式(4)、式(5)所示

(4)

(5)

(6)

Learning_rate表示學(xué)習(xí)率。同理,也可求得λβ,λγ。

2.4 雙注意力機(jī)制(Dual-Attn)設(shè)計(jì)與實(shí)現(xiàn)

本文通過引入雙注意力機(jī)制,聚焦在不同通道特征和空間位置特征,對(duì)圖像中目標(biāo)區(qū)域投入更多的注意力資源,抑制掉其它部分無用信息,有效提高對(duì)特征信息處理的效率和正確性。雙注意力機(jī)制由通道注意力(channel attention,C-Attn)和空間注意力(spatial attention,S-Attn)組成,沿著兩個(gè)獨(dú)立的維度對(duì)特征進(jìn)行推斷。各通道、位置根據(jù)對(duì)目標(biāo)的響應(yīng)程度賦予不同的權(quán)重,自適應(yīng)地對(duì)特征進(jìn)行提優(yōu)。雙注意力機(jī)制模塊可以與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)構(gòu)一起使用,不會(huì)增加額外的參數(shù),并且能實(shí)現(xiàn)端到端訓(xùn)練。雙注意力模塊的框架如圖5所示。

圖5 雙注意力機(jī)制框架

由圖5知,通道注意力和空間注意力是以串聯(lián)的方式進(jìn)行工作的,卷積層輸出的特征圖會(huì)先經(jīng)注意力模塊,得到加權(quán)結(jié)果F′后,作為空間注意力模塊的輸入,最終同輸入特征F加權(quán)得到結(jié)果F″。 整個(gè)過程表示如式(7)所示

(7)

式中:F∈RC×H×W為輸入特征,Attnc代表通道注意力塊,Attns代表空間注意力塊,?表示逐元素相乘(element-wise multiplication)。F″是最終精煉后的輸出特征。

通道注意力對(duì)輸入特征圖進(jìn)行尺寸壓縮,采用全局平均池化和全局最大池化并聯(lián)的方式對(duì)通道信息加以整合。通道注意力的框架如圖6所示:首先通過使用平均池化和最大池化操作聚合特征圖的空間信息,得到兩個(gè)不同的特征描述 (F_avg, F_max), 再將這兩個(gè)特征描述輸入到共享卷積網(wǎng)絡(luò),得到經(jīng)通道注意力篩選的特征。整個(gè)運(yùn)算過程如式(8)所示

Mc(F)=σ(SCN(AvgP(F))+SCN(MaxP(F)))

(8)

式中:σ(·) 代表Sigmoid函數(shù),AvgP(·) 和MaxP(·) 分別表示平均池化和最大池化,SCN(shared convolutional neetwork,SCN)是權(quán)重調(diào)節(jié)卷積共享網(wǎng)絡(luò)。兩個(gè)描述特征經(jīng)過共享網(wǎng)絡(luò)輸出后得到F_avg和F_max,采用逐元素加法合并后經(jīng)過Sigmoid函數(shù)得到特征權(quán)重向量,輸入特征與該權(quán)重向量相乘即得到權(quán)重不同的輸出特征。由圖6所示,權(quán)重調(diào)節(jié)卷積共享網(wǎng)絡(luò)SCN是基于兩個(gè)1×1卷積完成權(quán)重計(jì)算,不同于傳統(tǒng)的采用多層感知機(jī)(multilayer perceptron,MLP)的方式。SCN網(wǎng)絡(luò)相較于MLP而言,利用卷積網(wǎng)絡(luò)權(quán)值共享的特性,能大大降低全連接層網(wǎng)絡(luò)的參數(shù)量,加快計(jì)算過程,保證算法在增加注意力模塊后的實(shí)時(shí)性。

圖6 雙注意力實(shí)現(xiàn)模塊

空間注意力是對(duì)通道注意力的一種補(bǔ)充,對(duì)經(jīng)通道注意力篩選后的特征更進(jìn)一步提優(yōu),找到對(duì)目標(biāo)區(qū)域敏感的位置。通過全局平均池化和全局最大池化對(duì)輸入特征進(jìn)行表達(dá)。具體過程如下:將結(jié)果按拼接(Concatenate)的方式組合起來,經(jīng)過卷積層和Sigmoid函數(shù)的作用,得到帶權(quán)重的特征向量;將該向量同輸入特征相乘得到最后與目標(biāo)相似度高的輸出特征。過程可描述為如式(9)所示

Ms(F)=σ(k7×7([AvgP(F);MaxP(F)]))

(9)

式中:k7×7表示卷積核大小為7×7。

2.5 聚合時(shí)序信息模塊的設(shè)計(jì)與實(shí)現(xiàn)

在一段視頻序列中,從開始幀到結(jié)束幀,幀間時(shí)序信息十分重要,它包含了豐富的上下文信息。現(xiàn)實(shí)中的視頻幀中目標(biāo)可能因遮擋、背景干擾等帶入許多噪聲,若這種幀被當(dāng)作模板時(shí),會(huì)造成模型嚴(yán)重漂移。通過傳達(dá)各幀之間的時(shí)序信息能夠?qū)Ω鲙卣髦g形成信息互補(bǔ)。因此本文算法在關(guān)注當(dāng)前幀特征的同時(shí)也沒有忽略歷史幀的重要信息。本文算法對(duì)訓(xùn)練數(shù)據(jù)集中經(jīng)過主干網(wǎng)絡(luò)提取的不同模板幀特征組成一個(gè)集合T∈n×C×H×W。T=Concat(T1,T2…Tn), 其中Ti∈C×H×W,C、H、W分別表示通道數(shù)、特征圖的高度和寬度。與集合T類似,我們構(gòu)建了一個(gè)拉普拉斯型的模板集合LTFS=Concat(LF1,LF2…LFn)。 其中LFi∈H×W的定義如式(10)所示

(10)

式中:u代表目標(biāo)的真實(shí)位置,xi為算法檢測(cè)到的目標(biāo)位置,b是尺度參數(shù)。下標(biāo)i是在時(shí)間序列上不同的模板幀表達(dá)順序。如圖2所示,LTFS與經(jīng)過混合注意力機(jī)制篩選后的模板特征相乘后作為交叉注意力的一個(gè)輸入。因此,對(duì)于搜索區(qū)域特征來說,LTFS可以被視作是一個(gè)聚合了不同模板幀特征的掩膜。它能夠聚合時(shí)間上不同的目標(biāo)表示。

本文算法使用一個(gè)交叉注意力模塊來前向傳播LTFS至搜索區(qū)域。交叉注意力模塊的實(shí)現(xiàn)如圖7所示,本質(zhì)上是一個(gè)自注意力機(jī)制。根據(jù)目標(biāo)跟蹤任務(wù)特性,我們添加了兩個(gè)全連接層增加非線性變換。根據(jù)式(11)計(jì)算得到向量Q、K的相似矩陣M,其結(jié)果與輸入向量V相乘

M=softmax(Q·KT)

(11)

式中:向量V是由LTFS與混合注意力模塊的輸出相乘得到。相似矩陣M與V相乘的結(jié)果經(jīng)過兩個(gè)全連接層和一個(gè)Relu激活函數(shù)層,再通過一個(gè)Layer Normalize層對(duì)結(jié)果做歸一化處理。Layer Normalize同Batch Normalize作用一樣,都是把輸出限制在一個(gè)均值為0,方差為1的范圍內(nèi)。不同之處在于兩者做歸一化的維度是互相垂直的。本文在這里采用Layer Normalize,根據(jù)樣本的特征數(shù)做歸一化。最后對(duì)輸出特征做張量轉(zhuǎn)換操作,調(diào)整特征圖大小。

圖7 交叉注意力實(shí)現(xiàn)框架

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)細(xì)節(jié)

本文算法基于深度學(xué)習(xí)Pytorch 1.6框架實(shí)現(xiàn),利用Cuda(10.2版本)和CuDNN(7.6版本)加速計(jì)算。編程語(yǔ)言使用Python 3.8版本。實(shí)驗(yàn)硬件設(shè)備包括:Intel(R)Core(TM)i5-9400F CPU @2.90 GHz、NVIDIA顯卡、GeForce RTX 2070Super 8 G顯存、32 GB DDR4 RAM內(nèi)存。

算法使用GOT10K[17]數(shù)據(jù)集離線訓(xùn)練,在OTB50[18]、OTB100[19]和VOT2018[20]數(shù)據(jù)集上對(duì)算法做評(píng)測(cè),其中VOT2018作為目標(biāo)跟蹤挑戰(zhàn)賽官方數(shù)據(jù)集,包含60多個(gè)具有挑戰(zhàn)性的視頻序列。網(wǎng)絡(luò)輸入模板圖像大小為127×127×3,搜索圖像大小為255×255×3,兩者均為RGB三通道圖。主干網(wǎng)絡(luò)訓(xùn)練時(shí)設(shè)置初始學(xué)習(xí)率0.01,學(xué)習(xí)率按指數(shù)型衰減到10-5,L2懲罰項(xiàng)(weight_decay)設(shè)置為5e-4,動(dòng)量值設(shè)置為0.9。一共訓(xùn)練50輪(epoch),每輪以批為最小單位(batch_size=8)。網(wǎng)絡(luò)總步長(zhǎng)為8,搜索圖像按([0.9638,1,1.0375])尺度比例縮放,尺度懲罰為0.9745,多線程數(shù)設(shè)置為16。

3.2 訓(xùn)練損失函數(shù)

本文算法訓(xùn)練網(wǎng)絡(luò)使用邏輯斯蒂(Logistic)函數(shù)求損失值,通過最小化損失值找到網(wǎng)絡(luò)的最優(yōu)解。網(wǎng)絡(luò)模型對(duì)輸入的正負(fù)樣本離線訓(xùn)練,正樣本定義為不超過中心一定像素距離(20~30個(gè)像素距離)的點(diǎn),超出這個(gè)距離就標(biāo)記為負(fù)樣本。

網(wǎng)絡(luò)訓(xùn)練時(shí)采用所有位置點(diǎn)的平均損失值來表示損失,如式(12)所示

(12)

式中:M表示得分圖;m為得分圖中某個(gè)搜索位置;v[m] 表示某個(gè)位置的得分;y[m] 為某個(gè)位置的真實(shí)標(biāo)簽,l表示求單點(diǎn)loss值函數(shù)

(13)

(14)

本文算法在Logistic損失函數(shù)的基礎(chǔ)上添加了一個(gè)時(shí)間序列上的權(quán)重函數(shù)ω(i,j), 其中μ是一個(gè)常數(shù),i和j代表得分圖中某個(gè)位置。權(quán)重函數(shù)的作用是避免網(wǎng)絡(luò)挑選到相隔較遠(yuǎn)的圖像對(duì)。算法選取相鄰幀圖像對(duì)能夠有效避免過擬合,因?yàn)檫x取到的模板圖像中目標(biāo)可能被部分遮擋,導(dǎo)致帶入過多的背景信息,使得損失值過小,陷入過擬合狀態(tài)。

網(wǎng)絡(luò)訓(xùn)練時(shí)采用隨機(jī)梯度下降(stochastic gradient descent,SGD)來最小化損失函數(shù),如式(15)所示

(15)

式中:θ為網(wǎng)絡(luò)參數(shù),E表示數(shù)學(xué)期望。

3.3 定量分析

OTB官方數(shù)據(jù)集使用跟蹤精度(Precision)和跟蹤成功率(Success)兩個(gè)指標(biāo)對(duì)跟蹤算法進(jìn)行評(píng)價(jià)。跟蹤精度的評(píng)估標(biāo)準(zhǔn)是中心位置誤差在T1(實(shí)驗(yàn)設(shè)置為20)個(gè)像素以內(nèi)的幀數(shù)占整個(gè)視頻序列幀數(shù)的百分比。跟蹤成功率是算法預(yù)測(cè)的目標(biāo)框和真實(shí)目標(biāo)框之間的交并比IoU(intersection-over-union)大于閾值T2(實(shí)驗(yàn)設(shè)置為0.5)的幀數(shù)占整個(gè)視頻序列幀數(shù)的百分比。

VOT2018數(shù)據(jù)集使用準(zhǔn)確率(Accurary)、魯棒性(Robustness)和期望平均重疊率(expected averaged overlap,EAO)3個(gè)指標(biāo)對(duì)跟蹤算法進(jìn)行評(píng)估。算法準(zhǔn)確率是指視頻中每幀預(yù)測(cè)目標(biāo)框同真實(shí)目標(biāo)框之間的交并比(IoU)在整個(gè)視頻序列上的平均值。魯棒性用來評(píng)估算法的穩(wěn)健性,其數(shù)值越大,穩(wěn)健性越差。

期望平均重疊率EAO的計(jì)算同準(zhǔn)確率和魯棒性這兩個(gè)量有關(guān),它可作為算法綜合性能評(píng)估的指標(biāo)。定義視頻序列中幀長(zhǎng)度為Ns的平均幀覆蓋率如式(16)所示

(16)

式中:Φi為預(yù)測(cè)目標(biāo)框與真實(shí)目標(biāo)框之間的準(zhǔn)確率。EAO的計(jì)算如式(17)所示,Nhi為序列末尾幀,Nlo為序列起始幀

(17)

3.3.1 OTB測(cè)試集實(shí)驗(yàn)結(jié)果分析

OTB50測(cè)試集上的跟蹤成功率和跟蹤精度如圖8所示,結(jié)果表明本文算法在Success和Precison兩個(gè)指標(biāo)上都優(yōu)于SiamFC和CSR-DCF[21]算法,其中在Success指標(biāo)上分別提升了12.7%和11.3%。同時(shí),也優(yōu)于目前一流的跟蹤算法RASNet,在Success和Precison兩個(gè)指標(biāo)上分別提升2.4%和1.1%。

圖8 OTB50成功率圖和跟蹤精度

如圖9所示,本文算法在OTB100數(shù)據(jù)集上的Success和Precision分別為68.14%和0.891,跟蹤性能均優(yōu)于SiamFC和CSR-DCF算法,比結(jié)合深度學(xué)習(xí)和相關(guān)濾波的CFNet算法分別高出9.75%和0.096。本文算法性能同樣優(yōu)于引入了ResNet50網(wǎng)絡(luò)的SiamDW算法,對(duì)比目前流行的SiamRPN[22]算法,本文算法的Success和Precision指標(biāo)分別提升了5.23%和0.046。此外,均優(yōu)于對(duì)比的算法。

圖9 OTB100成功率圖和跟蹤精度

3.3.2 VOT測(cè)試集實(shí)驗(yàn)結(jié)果分析

如表2所示,本文算法在VOT2018測(cè)試集上的Accurary、Robustness、EAO指標(biāo)上均優(yōu)于其它算法,與SiamFC對(duì)比,Accurary提高了0.102,EAO提高了0.128。本文算法同樣優(yōu)于目前跟蹤性能優(yōu)秀的基于相關(guān)濾波器的算法ECO,在Accurary和EAO指標(biāo)上分別提升0.119和0.034。同時(shí)本文算法魯棒性也得到了增強(qiáng),平均速度為45 FPS,雖然實(shí)時(shí)性不如ECO,但已滿足實(shí)際跟蹤的實(shí)時(shí)性,且準(zhǔn)確率更高。在VOT2018測(cè)試集上的實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了本文算法的有效性。

表2 在VOT2018數(shù)據(jù)集上的評(píng)估結(jié)果

3.4 定性分析

為了對(duì)比分析本文算法和其它算法在復(fù)雜場(chǎng)景下的跟蹤效果,從OTB數(shù)據(jù)集挑選了4個(gè)包含多個(gè)挑戰(zhàn)性的序列(Couple、Dog、Human8、Shaking)對(duì)算法進(jìn)行測(cè)試。如表3所示,所選的這4個(gè)序列包括以下挑戰(zhàn):平面內(nèi)旋轉(zhuǎn)(in-plane rotation,IPR)、平面外旋轉(zhuǎn)(out-of-plane rotation,OPR)、尺度縮放(scale variation,SV)、光照變化(illumination variation,IV)、發(fā)生形變(deformation,DEF)、快速運(yùn)動(dòng)(fast motion,F(xiàn)M)、背景干擾(background clutters,BC)等。如圖10所示,共對(duì)比了4種算法,包括本文算法、基于梯度更新目標(biāo)模板的GradNet、基于孿生網(wǎng)絡(luò)算法SiamFC和基于通道加權(quán)可靠性的算法CSR-DCF。在面對(duì)視頻序列中的復(fù)雜場(chǎng)景,本文算法都實(shí)現(xiàn)了比較好的跟蹤效果。

表3 各測(cè)試序列包含的挑戰(zhàn)屬性

在Couple序列中,第92幀和第109幀其它3種算法均出現(xiàn)了丟失目標(biāo)的情況,而本文算法能準(zhǔn)確捕獲目標(biāo)。可見在圖像分辨率低和背景干擾的情況下,本文算法魯棒性更好。在Dog序列和Shaking序列,面對(duì)光照強(qiáng)度變化、尺度縮放、目標(biāo)形變等場(chǎng)景,本文算法同其它3種也都能較好地跟住目標(biāo),但在Shaking序列第8幀和第77幀,CSR-DCF出現(xiàn)了丟失目標(biāo)的情況。在Human8序列中,SiamFC和GradNet算法在第17幀開始出現(xiàn)背景變暗時(shí)丟失目標(biāo),且在后續(xù)幀中無法找回目標(biāo),魯棒性更低,而本文算法能較好地完成跟蹤任務(wù)。由此可見,本文算法在應(yīng)對(duì)具有挑戰(zhàn)性的場(chǎng)景時(shí),也能較好地完成跟蹤任務(wù),實(shí)現(xiàn)比其它對(duì)比算法更好的跟蹤效果,并且算法魯棒性更好。

3.5 消融研究

為了驗(yàn)證本文算法所提的改進(jìn)策略的有效性,對(duì)改進(jìn)策略進(jìn)行消融實(shí)驗(yàn)研究。我們?cè)诨鶞?zhǔn)數(shù)據(jù)集OTB100和VOT2018上進(jìn)行主要部件的消融實(shí)驗(yàn)。

表4展示了在固定其它部件的情況下,不同網(wǎng)絡(luò)塊組合后進(jìn)行自適應(yīng)加權(quán)融合對(duì)算法性能的影響。我們可以看到Block1+Block2+Block3和Block1+Block2+Block4網(wǎng)絡(luò)塊的組合效果后對(duì)算法效果提升幅度不大,這種組合沒有能夠得到目標(biāo)的語(yǔ)義信息,僅有外觀和位置信息,特征表達(dá)不具魯棒性。同樣,對(duì)Block3+Block4+Block5組合而言,特征中缺乏目標(biāo)的外觀、位置等低層次信息,使得定位目標(biāo)變得困難。對(duì)于Block1+Block3+Block5按等差數(shù)列選取的平衡層次而言,會(huì)因?yàn)樘卣鲌D分辨率過高,導(dǎo)致計(jì)算量增大。經(jīng)過實(shí)驗(yàn)對(duì)比,按Block2+Block4+Block5組合進(jìn)行特征自適應(yīng)加權(quán)融合能得到最好的跟蹤效果。

表4 不同網(wǎng)絡(luò)塊組合在OTB100數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

與此同時(shí),我們?cè)贠TB100數(shù)據(jù)集上的前20個(gè)視頻序列上對(duì)比特征固定權(quán)重方式和特征自適應(yīng)加權(quán)融合方式的各個(gè)算法對(duì)比。對(duì)比指標(biāo)分別為平均中心位置誤差(CLE)、平均重疊率(OP)和平均精度(DP),對(duì)比結(jié)果見表5。可見自適應(yīng)加權(quán)融合方式明顯優(yōu)于其它算法和特征固定權(quán)重的方式。

表5 不同算法的平均CLE、OP和DP對(duì)比

為了驗(yàn)證雙注意力機(jī)制的有效性,對(duì)其組成部件單獨(dú)進(jìn)行實(shí)驗(yàn)。如圖11所示,其中Base是指除雙注意力機(jī)制外的其它算法模塊,CA代表通道注意力,SA代表空間注意力,本文算法在OTB100數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),并對(duì)比SiamFC和CSR-DCF算法,單獨(dú)融合通道注意力模塊的方法在跟蹤精度指標(biāo)上比SiamFC提高0.066,驗(yàn)證了本文算法所提雙注意力機(jī)制策略的有效性。

圖11 雙注意力機(jī)制部分在OTB100上實(shí)驗(yàn)對(duì)比

如表6所示,在VOT2018數(shù)據(jù)集上,本文算法在各部件單獨(dú)作用的情況下,在準(zhǔn)確率(A)、魯棒性(R)和平均重疊率(EAO)指標(biāo)上比SiamFC均有提升,并且隨著獨(dú)立部件的增加,指標(biāo)A和指標(biāo)EAO都隨之提高。固定算法其它模塊的情況下增加空間注意力模塊,在準(zhǔn)確率和平均重疊率指標(biāo)上比SiamFC分別提升6.2%和7.1%。在此基礎(chǔ)上,算法融合通道注意力后,EAO指標(biāo)比SiamFC提高了10.2%。同時(shí),算法的魯棒性得到了明顯提升(0.585→0.310)。

表6 雙注意力機(jī)制部分在VOT2018上實(shí)驗(yàn)對(duì)比

如表7所示,我們?cè)贠TB50數(shù)據(jù)集上對(duì)算法的3個(gè)組成模塊(自適應(yīng)加權(quán)融合模塊、混合注意力模塊、聚合時(shí)序信息模塊)進(jìn)行對(duì)比實(shí)驗(yàn),其中Base1是指融合了空洞卷積的ResNet50為主干網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤算法。AdaptiveFusion是指自適應(yīng)加權(quán)融合,DualAttn指雙注意力機(jī)制,LTFS+CroAttn表示聚合時(shí)序信息模塊。從表中結(jié)果可以看到聚合時(shí)序信息模塊對(duì)算法整體性能提升最明顯,混合注意力模塊次之。通過實(shí)驗(yàn)結(jié)果對(duì)比,能夠驗(yàn)證本文所提出算法的有效性。

表7 算法3個(gè)組成模塊在OTB50上實(shí)驗(yàn)對(duì)比

4 結(jié)束語(yǔ)

本文基于孿生網(wǎng)絡(luò)框架提出了一種改進(jìn)的算法STASiam,使用融合空洞卷積的改良的深層次主干網(wǎng)絡(luò)ResNet50作為特征提取器。同時(shí)多層特征自適應(yīng)加權(quán)融合,結(jié)合雙通道注意力機(jī)制和聚合時(shí)序信息模塊,前向傳播時(shí)間運(yùn)動(dòng)上的先驗(yàn)信息給搜索區(qū)域,加強(qiáng)網(wǎng)絡(luò)模型對(duì)目標(biāo)的辨別力,提升了孿生網(wǎng)絡(luò)算法在處理目標(biāo)遮擋、變形、旋轉(zhuǎn)時(shí)的魯棒性。在OTB和VOT數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文算法的有效性。本文算法適用于通用目標(biāo)跟蹤,可以應(yīng)用于包括視頻監(jiān)控、車輛跟蹤等應(yīng)用領(lǐng)域。

猜你喜歡
特征融合信息
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 中文字幕乱码中文乱码51精品| 亚洲无码37.| 欧美黄色a| 中文字幕 欧美日韩| 国产精品黄色片| 日韩国产黄色网站| 亚洲黄色激情网站| 免费看美女自慰的网站| 国产精品第页| 精品一區二區久久久久久久網站| 亚洲大尺码专区影院| 午夜福利在线观看入口| 好吊妞欧美视频免费| 国产成人精品18| 国产成人久视频免费| 精品国产自| 亚洲精品视频免费| 成人小视频在线观看免费| 亚洲人成在线免费观看| 99人妻碰碰碰久久久久禁片| 18禁影院亚洲专区| 亚洲天堂网2014| 中文字幕欧美日韩| 欧美劲爆第一页| 干中文字幕| 久久一色本道亚洲| 91成人试看福利体验区| 国产精品免费p区| 国产成人无码AV在线播放动漫| 国产在线97| 日韩欧美国产成人| 日本午夜三级| 国产精品成人久久| 极品av一区二区| 国产自在线拍| 喷潮白浆直流在线播放| 久久综合九色综合97网| 欧美国产精品不卡在线观看| 黄片一区二区三区| 免费国产高清视频| 久久精品中文字幕免费| 中文字幕波多野不卡一区| 成人va亚洲va欧美天堂| 无码福利日韩神码福利片| 久久国产V一级毛多内射| 久久国产黑丝袜视频| 欧美三级视频在线播放| 国内丰满少妇猛烈精品播| 四虎永久免费地址在线网站| 国产亚洲第一页| 中国一级特黄大片在线观看| 欧美丝袜高跟鞋一区二区| 亚洲 日韩 激情 无码 中出| 伊人久久久大香线蕉综合直播| 久久久久亚洲Av片无码观看| 国内精自线i品一区202| 欧美在线综合视频| 欧洲极品无码一区二区三区| 国产激情在线视频| 在线视频精品一区| 美臀人妻中出中文字幕在线| 国产噜噜噜视频在线观看| 日本人真淫视频一区二区三区| 很黄的网站在线观看| 欧美专区在线观看| 国产在线观看成人91| 色偷偷一区二区三区| 日韩A∨精品日韩精品无码| a毛片基地免费大全| 青青极品在线| 97久久精品人人| 免费国产不卡午夜福在线观看| 2020国产免费久久精品99| 少妇精品在线| 亚洲欧洲日韩综合色天使| 欧美成人手机在线视频| 亚洲一区二区三区国产精品| 五月六月伊人狠狠丁香网| 9啪在线视频| 亚洲成A人V欧美综合天堂| 欧美一级视频免费| 国产一区在线视频观看|