韓 明,王景芹,王敬濤,孟軍英
1.石家莊學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院,石家莊 050035
2.河北工業(yè)大學(xué) 省部共建電工裝備可靠性和智能化國(guó)家重點(diǎn)實(shí)驗(yàn)室,天津 300130
目標(biāo)跟蹤技術(shù)作為計(jì)算機(jī)視覺的主要研究?jī)?nèi)容之一,越來越受到廣泛關(guān)注,在智能交通管理、視頻監(jiān)控、自動(dòng)駕駛、軍事偵察等多領(lǐng)域具有廣泛的應(yīng)用[1-2]。目標(biāo)跟蹤的任務(wù)是估計(jì)目標(biāo)在圖像序列中的軌跡。然而目前大多數(shù)算法是依賴于第一幀圖像,使得目標(biāo)跟蹤利用有限的訓(xùn)練數(shù)據(jù)創(chuàng)建一個(gè)適用于各種外觀變化的跟蹤器[3]。但是,當(dāng)出現(xiàn)光照變化、目標(biāo)旋轉(zhuǎn)、目標(biāo)尺寸巨變、背景相似物干擾、遮擋等情況時(shí),對(duì)目標(biāo)的準(zhǔn)確有效跟蹤提出了嚴(yán)峻的挑戰(zhàn)。當(dāng)下最流行的目標(biāo)跟蹤算法是基于深度學(xué)習(xí)和相關(guān)濾波器的目標(biāo)跟蹤器。
隨著深度學(xué)習(xí)的發(fā)展,最近,基于Siamese網(wǎng)絡(luò)架構(gòu)的跟蹤器[4-7]由于其出色的跟蹤性能,特別是對(duì)跟蹤準(zhǔn)確性和速度的良好平衡性,引起了廣泛的關(guān)注。孿生網(wǎng)絡(luò)算法采用兩個(gè)網(wǎng)絡(luò)分支,分別提取目標(biāo)和候選目標(biāo)的特征,將目標(biāo)跟蹤問題轉(zhuǎn)化為了相似度計(jì)算問題。Bertinetto等人[8]提出的SiamFC是一種端到端的全卷積孿生網(wǎng)絡(luò)跟蹤模型,SiamFC跟蹤器將視覺目標(biāo)跟蹤任務(wù)定義為目標(biāo)匹配問題,使用全卷積網(wǎng)絡(luò)結(jié)構(gòu),離線訓(xùn)練網(wǎng)絡(luò)參數(shù),通過學(xué)習(xí)目標(biāo)模板的特征表示與搜索區(qū)域之間的互相關(guān)操作來計(jì)算兩者的相似度,得到一張響應(yīng)圖,然后根據(jù)響應(yīng)圖判斷目標(biāo)出現(xiàn)的位置。由于一個(gè)單一的相似圖包含有限的空間和語義信息,許多研究學(xué)者也提出了大量的改進(jìn)方法,使得目標(biāo)跟蹤更加高效準(zhǔn)確。
SiamFC[8]算法是以AlexNet[9]作為主干網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤器,但是輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)AlexNet對(duì)于復(fù)雜環(huán)境下的目標(biāo)跟蹤效果較差,尤其是處理復(fù)雜環(huán)境問題(旋轉(zhuǎn)、光照變化、變形、背景相似等)時(shí),容易出現(xiàn)跟蹤漂移和跟蹤丟失的問題。隨著更深更寬的深度神經(jīng)網(wǎng)絡(luò)的研究,一些學(xué)者用更深更寬的網(wǎng)絡(luò)取代前景網(wǎng)絡(luò)。SiamVGG[10]算法采用更深層的VGG-16網(wǎng)絡(luò)替代SiamFC中的AlexNet網(wǎng)絡(luò)進(jìn)行大數(shù)據(jù)集上的訓(xùn)練,充分利用VGG-16網(wǎng)絡(luò)的特點(diǎn)提取目標(biāo)高維特征,實(shí)現(xiàn)高效準(zhǔn)確跟蹤。SiamDW[11]為了實(shí)現(xiàn)對(duì)更廣更深網(wǎng)絡(luò)的應(yīng)用,首先,基于“瓶頸”殘差塊,提出了一組內(nèi)部裁剪殘差(CIR)單元。CIR單元裁剪出塊內(nèi)受填充影響的特征,從而防止卷積濾波器學(xué)習(xí)位置偏差。然后,通過CIR單元的堆疊,設(shè)計(jì)了更深網(wǎng)絡(luò)和更寬網(wǎng)絡(luò)兩種網(wǎng)絡(luò)架構(gòu)。通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)基于“殘差塊”的主干網(wǎng)絡(luò)跟蹤器在跟蹤性能上都有較大的提升。DenseNet[12]孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法將全局上下文特征模塊嵌入到孿生網(wǎng)絡(luò)分支,將DenseNet網(wǎng)絡(luò)作為了孿生網(wǎng)絡(luò)框架,從而實(shí)現(xiàn)目標(biāo)深度特征的提取,提高跟蹤精度和魯棒性。
SiamRPN[13]算法引入?yún)^(qū)域提議網(wǎng)絡(luò)(region proposal network,PRN),其中孿生網(wǎng)絡(luò)用于提取特征,RPN用于產(chǎn)生候選區(qū)域,跟蹤器回歸目標(biāo)位置大小,不需要進(jìn)行多尺度測(cè)試。RPN網(wǎng)絡(luò)又分為兩個(gè)分支,一個(gè)分支用來對(duì)目標(biāo)和背景進(jìn)行分類實(shí)現(xiàn)判別區(qū)分;另外一個(gè)分支用來微調(diào)候選區(qū)域?qū)崿F(xiàn)回歸,從而適應(yīng)目標(biāo)尺度變化,提高跟蹤精度和速度。SiamRPN++[14]算法在SiamRPN算法的基礎(chǔ)上增加干擾-感知訓(xùn)練和增量式學(xué)習(xí),主要目的是解決現(xiàn)有的孿生網(wǎng)絡(luò)框架的平移不變性限制,采用空間感知采樣策略,設(shè)置均勻分布不同偏移量,從而在SiamRPN網(wǎng)絡(luò)上實(shí)現(xiàn)多層特征的融合,提高跟蹤性能。DSiam[15]算法(dynamic siamese network)為解決離線訓(xùn)練的問題,提出動(dòng)態(tài)孿生網(wǎng)絡(luò),通過動(dòng)態(tài)在線調(diào)整學(xué)習(xí)模型,實(shí)現(xiàn)在線學(xué)習(xí)歷史數(shù)據(jù)上的目標(biāo)外邊變化以及背景抑制。該算法能夠直接在視頻序列上進(jìn)行整體訓(xùn)練,并能夠充分利用目標(biāo)的時(shí)空特征。DasiamRPN[16]算法主要解決運(yùn)動(dòng)目標(biāo)周圍干擾問題,通過目標(biāo)周圍干擾物感知模型,實(shí)現(xiàn)類內(nèi)區(qū)分,解決跟蹤漂移問題,并利用Local-to-Global策略解決長(zhǎng)時(shí)間跟蹤問題。SiamMask[17]算法在SiamFC基礎(chǔ)上增加了Mask分支,同時(shí)解決了視頻目標(biāo)跟蹤與目標(biāo)分割問題,利用優(yōu)化模塊提高分割精度。該算法僅利用初始幀的一個(gè)邊界框即可實(shí)現(xiàn)無類別差的實(shí)時(shí)目標(biāo)分割與跟蹤。SiamCAR[18]算法通過anchor-free的策略,將網(wǎng)絡(luò)的回歸輸出變成了特征圖映射在搜索區(qū)域上點(diǎn)與選定的目標(biāo)區(qū)域邊界(樣本標(biāo)注gt,ground-truth)四條邊的距離。通過觀察分類得分圖和中心度得分圖,決定最佳目標(biāo)中心點(diǎn)。然后提取最佳目標(biāo)中心點(diǎn)與gt框四條邊的距離,得到預(yù)測(cè)框,從而實(shí)現(xiàn)跟蹤。但是,SiamCAR算法將預(yù)測(cè)的位置映射到原始圖像可能會(huì)導(dǎo)致偏差,從而導(dǎo)致跟蹤過程中的出現(xiàn)漂移。
最近,注意力機(jī)制與孿生網(wǎng)絡(luò)相結(jié)合被廣泛地應(yīng)用到各種目標(biāo)跟蹤任務(wù)中,商湯科技的王強(qiáng)提出的RASNet[19]算法在孿生網(wǎng)絡(luò)中引入殘差注意力機(jī)制實(shí)現(xiàn)目標(biāo)的高性能跟蹤,但是該算法只考慮了模板信息,從而導(dǎo)致限制了其特征表達(dá)能力。為了解決這一問題,SiamAttn[20]算法提出了可變形的孿生注意力網(wǎng)絡(luò),提出自注意和跨分支注意相結(jié)合實(shí)現(xiàn)模板互相聚合和搜索分支的上下文特征提取,更好地挖掘?qū)\生網(wǎng)絡(luò)的特征注意力的潛在特征,同時(shí)結(jié)合變形操作來增強(qiáng)目標(biāo)的可識(shí)別性表達(dá),提出了一種隱式的模板更新,最后通過區(qū)域細(xì)化得到更加精確的回歸框。成磊等人[21]引入殘差網(wǎng)絡(luò)形式的注意力機(jī)制和特征融合策略,提出了添加殘差注意力機(jī)制的視覺目標(biāo)跟蹤算法,該算法通過級(jí)聯(lián)的方式融合網(wǎng)絡(luò)的深層和淺層特征,進(jìn)一步豐富目標(biāo)定位信息,在網(wǎng)絡(luò)訓(xùn)練過程中利用區(qū)域重疊率損失函數(shù)對(duì)網(wǎng)絡(luò)輸出進(jìn)行優(yōu)化,最終實(shí)現(xiàn)目標(biāo)的長(zhǎng)時(shí)間準(zhǔn)確跟蹤。王玲等人[22]在孿生網(wǎng)絡(luò)模板分支中融合通道注意力和空間注意力,提出了融合注意力機(jī)制的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,該算法通過抑制背景信息提高正樣本辨識(shí)度,離線訓(xùn)練模型實(shí)現(xiàn)對(duì)跟蹤目標(biāo)的深層和淺層特征的提取與融合,從而實(shí)現(xiàn)對(duì)目標(biāo)漂移和復(fù)雜背景下的目標(biāo)準(zhǔn)確跟蹤。程旭等人[23]將時(shí)空注意力機(jī)制引入到孿生網(wǎng)絡(luò),實(shí)現(xiàn)空間和通道位置的目標(biāo)特征提取,通過模板在線更新機(jī)制實(shí)現(xiàn)圖像特征融合,降低目標(biāo)漂移的風(fēng)險(xiǎn)。
為了提高目標(biāo)跟蹤的準(zhǔn)確性,近幾年一些學(xué)者通過特征融合實(shí)現(xiàn)對(duì)目標(biāo)信息的準(zhǔn)確提取。Yuan等人[24]提出了多模板更新的無錨孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,采用了一種基于多層特征的雙融合方法將多個(gè)預(yù)測(cè)結(jié)果分別進(jìn)行組合。將低級(jí)特征映射與高級(jí)特征映射連接起來,充分利用空間信息和語義信息。為了使結(jié)果盡可能穩(wěn)定,將多個(gè)預(yù)測(cè)結(jié)果相結(jié)合得到最終結(jié)果,但是該算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,算法的實(shí)時(shí)性較差。
YCNN[25]算法結(jié)合淺特征和深特征。深度特征用于區(qū)分物體和背景,淺特征用于表示物體的外觀。提出了一種針對(duì)目標(biāo)任意外觀的目標(biāo)跟蹤方法,雙流卷積神經(jīng)網(wǎng)絡(luò),該算法經(jīng)過網(wǎng)絡(luò)訓(xùn)練之后適用于所有的對(duì)象。該算法幀率為45 frame/s,性能相對(duì)較高,但是該算法在光照條件變化、遮擋運(yùn)動(dòng)模糊等情況下,跟蹤性能較差。為了進(jìn)一步提高跟蹤的識(shí)別能力,文獻(xiàn)[26]中的跟蹤器融合hog特征作為形狀來解決擁擠場(chǎng)景中的遮擋問題。Zhai等人[27]提出了一種基于CF的融合跟蹤方法,然而,該方法的跟蹤精度不夠好,魯棒性不強(qiáng)。
這些跟蹤器融合了hog特征、顏色特征,以及不同深度的CNN特征,但是卻沒有考慮空間信息在跟蹤中的重要性。
為了在特征學(xué)習(xí)中融合空間信息,跟蹤器SRDCF[28]提出了一種空間正則化相關(guān)濾波器,該濾波器在優(yōu)化模板時(shí)對(duì)KCF引入了空間正則化。Lan等人[29]提出了一種高精度的融合跟蹤算法,但速度僅為0.7 frame/s,與實(shí)時(shí)速度相差甚遠(yuǎn)。這些慢速跟蹤器在實(shí)際應(yīng)用中很難應(yīng)用。考慮到不同的特征信道適應(yīng)不同的跟蹤場(chǎng)景,文獻(xiàn)[30]中的跟蹤器采用聚合的信道特征來提高對(duì)交通標(biāo)志的魯棒性,該算法對(duì)于復(fù)雜的交通環(huán)境下的目標(biāo)跟蹤準(zhǔn)確性大大提高。
雖然基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤取得了長(zhǎng)足的發(fā)展,然而,視覺目標(biāo)跟蹤算法仍然受到一些問題的困擾。首先,大多數(shù)Siamese跟蹤器使用較淺的分類網(wǎng)絡(luò)(如AlexNet)作為骨干網(wǎng)絡(luò),但未能利用較深網(wǎng)絡(luò)結(jié)構(gòu)中較強(qiáng)的特征提取能力。其次,在匹配跟蹤中,只使用了包含更多語義信息的最后一層特征,而低層空間特征對(duì)跟蹤性能的影響還沒有得到充分的探索,有些算法雖然采用了特征融合操作實(shí)現(xiàn)特征提取,但是大多局限于通道特征和空間特征的融合,或者是簡(jiǎn)單的深層和淺層特征的簡(jiǎn)單應(yīng)用,導(dǎo)致深層特征分辨率較低,語義信息應(yīng)用不充分。然后,這些算法大多是依賴于第一幀圖像作為模板圖像,當(dāng)光照變化、目標(biāo)變形、背景相似物干擾、目標(biāo)遮擋時(shí),模板容易失效,出現(xiàn)目標(biāo)跟蹤丟失的問題。
本文提出了基于多級(jí)特征融合孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,該算法建立在ResNet-50[31]網(wǎng)絡(luò)上。主要貢獻(xiàn)如下:
(1)為了更好地利用深層網(wǎng)絡(luò)的特征提取能力,對(duì)ResNet-50網(wǎng)絡(luò)進(jìn)行改進(jìn),包括網(wǎng)絡(luò)步長(zhǎng)、感受野,以及空間采樣策略等,減少模型參數(shù)和計(jì)算量,從而提高模型的跟蹤速度。
(2)將ResNet-50的最后一階段的3層特征進(jìn)行逐級(jí)級(jí)聯(lián)融合,充分利用高層語義信息與淺層空間信息,從而實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境下目標(biāo)的準(zhǔn)確跟蹤。
(3)引入模板更新機(jī)制解決目標(biāo)跟蹤過程中目標(biāo)模板退化的問題,利用相似度閾值法進(jìn)行模板更新。
(4)本文算法在OBT2015、VOT2016和VOT2018公共跟蹤數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并取得了良好的跟蹤效果。
本文算法基于SiamRPN[13],整體流程如圖1所示。該網(wǎng)絡(luò)架構(gòu)由ResNet-50組成的主干網(wǎng)絡(luò)、特征融合模塊、結(jié)果預(yù)測(cè)模塊、模板更新模塊組成。本文采用改進(jìn)的5階段的ResNet-50作為孿生網(wǎng)絡(luò)的主干網(wǎng)絡(luò),該網(wǎng)絡(luò)主要負(fù)責(zé)提取模板圖像和搜索圖像的淺層和深層特征;特征融合模板主要實(shí)現(xiàn)對(duì)模板分支和搜索分支的最后一階段3層特征的逐級(jí)級(jí)聯(lián)融合;然后將級(jí)聯(lián)融合之后的獲得特征圖進(jìn)行交叉互相關(guān)計(jì)算;最后通過無錨框網(wǎng)絡(luò)將融合后的特征進(jìn)行目標(biāo)的分類和回歸,實(shí)現(xiàn)結(jié)果的預(yù)測(cè)。在模板分支中引入模板更新模塊,通過相似度閾值法實(shí)現(xiàn)對(duì)模板的動(dòng)態(tài)更新,保證隨著跟蹤時(shí)間的增加模板自適應(yīng)變化。

圖1 級(jí)聯(lián)特征融合網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture of cascading features fusion
多特征融合方法在目標(biāo)分割與目標(biāo)跟蹤中能夠有效地提高算法精度[32-33],通過對(duì)圖像在神經(jīng)網(wǎng)絡(luò)中進(jìn)行卷積運(yùn)算,可以得到圖像不同的淺層外觀特征和深層語義特征。由于卷積特征的不同層次特性,不同層次的特征可以相互補(bǔ)充,因此通過特征融合是非常有效地提高跟蹤精度的直接方法。在SiamFC等后續(xù)的孿生網(wǎng)絡(luò)跟蹤器中,大多只討論了最后一層特征對(duì)目標(biāo)跟蹤的影響,而忽略了深層特征,導(dǎo)致丟失了大量的深層細(xì)節(jié)信息,尤其是當(dāng)背景與目標(biāo)屬于相同或者是相似的語義特征時(shí),目標(biāo)跟蹤過程容易出現(xiàn)跟蹤丟失的現(xiàn)象。多層特征融合指的是沿通道維度方向?qū)Σ煌瑢哟翁卣鬟M(jìn)行融合,可以通過在通道上添加元素或者是直接連接元素從而獲得通道上的更多特征。
殘差網(wǎng)絡(luò)使得網(wǎng)絡(luò)的深度得到了極大的釋放,使得目標(biāo)檢測(cè)和語義分割任務(wù)的骨干網(wǎng)絡(luò)逐漸地被ResNet[34]結(jié)構(gòu)所取代,通過在骨干網(wǎng)絡(luò)中增加填充結(jié)構(gòu)實(shí)現(xiàn)網(wǎng)絡(luò)的高分辨率特征提取,然而如果簡(jiǎn)單地使用VGG[35]、ResNet或其他更深層次的網(wǎng)絡(luò)代替Siamese框架中的骨干網(wǎng)絡(luò)AlexNet[9],則會(huì)導(dǎo)致性能下降。
SiamRPN++[14]調(diào)整正樣本采樣策略,訓(xùn)練更深層次網(wǎng)絡(luò)驅(qū)動(dòng)的Siamese跟蹤器(如ResNet[22]),并提出多層聚合模塊,進(jìn)一步利用更深層次的特征,打破了Siamese跟蹤器與深度網(wǎng)絡(luò)之間的差距。SiamDW[11]通過對(duì)網(wǎng)絡(luò)的內(nèi)在因素進(jìn)行了非常詳細(xì)的消融分析實(shí)驗(yàn),實(shí)驗(yàn)內(nèi)容包括AlexNet[9]、ResNet[34]、VGG[35]和Inception[36]骨干網(wǎng)絡(luò)的步長(zhǎng)、填充和感受野等因素。通過實(shí)驗(yàn)得出了如下結(jié)論:
(1)Siamese跟蹤器更中意于中層水平特征,通過實(shí)驗(yàn)表明4或者8的網(wǎng)絡(luò)步長(zhǎng)更由于16的網(wǎng)絡(luò)步長(zhǎng)。
(2)感受野的比例對(duì)骨干網(wǎng)絡(luò)不敏感,輸入樣本圖像的60%~80%可以是經(jīng)驗(yàn)有效的。
(3)網(wǎng)絡(luò)填充導(dǎo)致空間偏差,對(duì)跟蹤性能有極大的負(fù)面影響。采用適當(dāng)偏移的空間感知采樣策略可以避免對(duì)目標(biāo)產(chǎn)生較大的中心偏差。
實(shí)驗(yàn)表明使用更深層次的模型和更合理的訓(xùn)練策略可以顯著提高孿生網(wǎng)絡(luò)跟蹤器的性能。
通過上述分析,本文采用改進(jìn)的5階段的ResNet-50作為孿生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)構(gòu)建目標(biāo)跟蹤框架。ResNet-50會(huì)隨著網(wǎng)絡(luò)層次的加深提取更深層的圖像特征信息。網(wǎng)絡(luò)改進(jìn)如下:
(1)由于中淺層視覺特征在Siamese網(wǎng)絡(luò)跟蹤器中表現(xiàn)良好,為了平衡目標(biāo)跟蹤的準(zhǔn)確性和效率。將Res4和Res5塊的原始步幅從16和32像素減少到8像素,并通過擴(kuò)張卷積操作增加感受野。
(2)采用空間感知采樣策略對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,解決深層網(wǎng)絡(luò)中填充造成的絕對(duì)平移不變量破壞問題。
(3)為了減少參數(shù)的數(shù)量,通過1×1卷積操作將多層特征映射的通道改變?yōu)?56。由于模板特征的空間大小為15×15,為了減少網(wǎng)絡(luò)的計(jì)算負(fù)擔(dān),將中心7×7區(qū)域裁剪為模板特征,其中每個(gè)特征單元仍然可以捕獲整個(gè)目標(biāo)區(qū)域。
本文的骨干網(wǎng)絡(luò)模板分支和搜索分支具有相同的卷積結(jié)構(gòu)和相同的網(wǎng)絡(luò)參數(shù)。
淺層特征主要包括顏色、形狀和邊緣等空間信息,對(duì)于目標(biāo)位置標(biāo)定更具有意義。深層特征包含更多的語義信息,對(duì)于目標(biāo)跟蹤過程中識(shí)別相似物干擾、遮擋和形變具有更重要的意義。因此本文充分利用Resnet-50網(wǎng)絡(luò)的最后一階段的3層進(jìn)行特征的逐級(jí)融合。
特征融合模塊主要是研究將殘差網(wǎng)絡(luò)的最后三個(gè)殘差塊Res3、Res4、Res5進(jìn)行級(jí)聯(lián)融合,實(shí)現(xiàn)圖像特征提取。該特征融合模板實(shí)現(xiàn)了通道識(shí)別基礎(chǔ)上的整體的特征提取,通過逐級(jí)融合,有效融合了不同層的特征,特征融合模塊結(jié)構(gòu)如圖2所示。該模塊結(jié)構(gòu)以R5和Res4為例進(jìn)行說明。其中R5是經(jīng)過Res5通過3×3的卷積獲得的特征圖,該特征圖保持空間分辨率不變,并將通道的數(shù)量變成256。

圖2 特征融合模塊Fig.2 Feature fusion module
本文使用改進(jìn)的ResNet-50進(jìn)行特征提取,該特征融合模塊首先經(jīng)過Res4之后的輸出特征使用一個(gè)3×3的卷積核(通道數(shù)為256)和一個(gè)Softmax函數(shù),來感知整體特征中每個(gè)特征點(diǎn)的注意力特征權(quán)重,這里的特征權(quán)重主要是指的上下文特征中的每個(gè)特征點(diǎn)的權(quán)重。然后,R5通過2個(gè)3×3的卷積核(通道數(shù)為256)和一個(gè)ReLU函數(shù),實(shí)現(xiàn)特征轉(zhuǎn)換,并獲取通道間的依賴。最后采用逐像素相加和ReLU運(yùn)算,將整體特征與通道識(shí)別的特征實(shí)現(xiàn)在每個(gè)位置上的融合,得到語義更加豐富但是具有相同分辨率的融合結(jié)果R4。同理Res3與R4融合得到R3特征,并將R3、R4、R5用于后續(xù)跟蹤過程中。
使用特征融合機(jī)制可以得到更加豐富的上下文特征信息,以及具有相同分辨率的特征圖,從而提高后續(xù)目標(biāo)跟蹤的效果。
本文通過端到端的卷積來訓(xùn)練網(wǎng)絡(luò),其中主干網(wǎng)絡(luò)在ImageNet-1K[37]上進(jìn)行預(yù)訓(xùn)練,利用ILSVRC[37]的圖像對(duì)訓(xùn)練整體網(wǎng)絡(luò),其中ILSVRC包含大約4 500個(gè)視頻,共計(jì)約100萬個(gè)注釋來描述不同跟蹤場(chǎng)景。在訓(xùn)練過程中隨機(jī)挑選一幀圖像,剪裁包含目標(biāo)的127×127的區(qū)域作為目標(biāo)模板,然后在搜索圖像上剪裁255×255的搜索框大小,生成訓(xùn)練樣本,其中最大間隔為50幀。通過以上訓(xùn)練實(shí)現(xiàn)對(duì)每個(gè)目標(biāo)和位置的分類與回歸。
在目標(biāo)跟蹤過程中多數(shù)采樣為正樣本采樣,并且使用填充方法,從而導(dǎo)致丟失了語義信息。雖然目前的訓(xùn)練方法已經(jīng)增強(qiáng)了模型的判別能力,但是模型還是很難區(qū)分出圖像中相似物干擾的情況,因此需要增加負(fù)樣本采樣,來學(xué)習(xí)不同語義的相似物干擾。
對(duì)于訓(xùn)練集來說每個(gè)圖像上已經(jīng)標(biāo)注好的真實(shí)邊框,其中Tw為寬度,Th為高度,( x1,y1)為左上角坐標(biāo),( x0,y0)為中心坐標(biāo),( x2,y2)為右下角坐標(biāo)。為了有效區(qū)分采樣的正負(fù)樣本,以( x0,y0)為中心,以Tw/2和Th/2分別為軸長(zhǎng)做橢圓E1,如式(1)所示:

其中,(xi,yj)表示采樣點(diǎn)的坐標(biāo)位置。
同上,做以(x0,y0)為中心,以Tw/4和Th/4分別為軸長(zhǎng)做橢圓E2,如式(2)所示:

如果采樣點(diǎn)(xi,yj)位于E2內(nèi)部則為正樣本,如果位于E1外部則為負(fù)樣本,如果位于二者之間則忽略該樣本。將標(biāo)記為正樣本的位置用于跟蹤框回歸。
回歸分支中計(jì)算的回歸目標(biāo)可以通過目標(biāo)位置距離跟蹤框的距離進(jìn)行表示,跟蹤框計(jì)算如下:

其中,l、t、r、b分別表示目標(biāo)位置到跟蹤框邊界的距離。
然后,計(jì)算預(yù)測(cè)跟蹤框與真實(shí)邊框之間的IOU(intersection over union)。僅計(jì)算正樣本的IOU,其他情況IOU設(shè)置為0,因此回歸損失函數(shù)定義為:


其中,λ1和λ2為超級(jí)參數(shù)。經(jīng)過多次實(shí)驗(yàn)調(diào)參,設(shè)定λ1=1,λ2=2。
基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法中大多使用第一幀圖像作為模板,通過與后續(xù)幀的相似度匹配判斷是否為被跟蹤目標(biāo),在跟蹤過程中不再更新模板。由于使用固定不變的模板,當(dāng)目標(biāo)出現(xiàn)旋轉(zhuǎn)、遮擋、變形等劇烈變化時(shí),會(huì)出現(xiàn)模板匹配相似度低,導(dǎo)致跟蹤失敗。因此在目標(biāo)跟蹤過程中進(jìn)行模板更新是非常有必要的。但是如果每幀都進(jìn)行模板更新,一方面因?yàn)槟0甯逻^于頻繁導(dǎo)致出現(xiàn)跟蹤漂移現(xiàn)象,另一方面更新頻繁會(huì)導(dǎo)致網(wǎng)絡(luò)整體實(shí)時(shí)性下降,因此本文采用閾值法進(jìn)行更新,在必須更新時(shí)才進(jìn)行更新,既滿足了模板更新要求,又避免出現(xiàn)跟蹤漂移,同時(shí)使得網(wǎng)絡(luò)實(shí)時(shí)性損失最低。
為了解決模板動(dòng)態(tài)更新問題,本文利用簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)一個(gè)模板更新子網(wǎng)絡(luò),模板更新公式如下:

其中,S0為第一幀圖像模板,為整個(gè)模板更新過程的最真實(shí)模板,Ti為第i幀所提取的模板,Si-1為i-1幀時(shí)的歷史累積模板,Si為下一幀需要匹配的最佳更新模板,F(xiàn)為激活函數(shù)。對(duì)于第一幀而言,需要設(shè)置Ti和Si-1均為S0。
由此可見不僅和上一幀的模板有關(guān),還和本幀所提取的模板有關(guān)。
對(duì)于閾值更新,本文采用平均峰值相關(guān)能量APCE進(jìn)行閾值評(píng)價(jià),實(shí)現(xiàn)模板更新。平均峰值相關(guān)能量APCE計(jì)算公式如下:

其中,F(xiàn)max和Fmin分別為響應(yīng)圖中的最大和最小值,F(xiàn)w,h為坐標(biāo)( w,h)處對(duì)應(yīng)的響應(yīng)值。
正常情況下當(dāng)前景目標(biāo)正常時(shí)響應(yīng)圖峰值較高,APCE值較大,并且呈現(xiàn)單峰狀態(tài),但是當(dāng)目標(biāo)形狀發(fā)生劇烈變化或者是被遮擋時(shí)APCE值較小,且出現(xiàn)多峰,為了避免模板頻繁更新,本文通過設(shè)定新舊模板之間相似度閾值的形式進(jìn)行更新限定。通過APCE閾值判斷是否進(jìn)行更新,公式為:

其中,mean(apce)為APCE的歷史均值,η為設(shè)定的APCE的閾值,當(dāng)滿足公式(10)時(shí)說明目標(biāo)可能發(fā)生了較大的變化。為了防止發(fā)生誤判斷,進(jìn)而通過模板相似度進(jìn)行對(duì)比,模板之間卷積運(yùn)算的響應(yīng)值之比作為相似度S:

如果滿足式(10),同時(shí)滿足模板之間相似度小于式(11)設(shè)定的閾值時(shí),通過式(8)進(jìn)行模板更新。
動(dòng)態(tài)模板的使用充分利用了歷史幀的豐富信息,構(gòu)建更加穩(wěn)健的模型,同時(shí)對(duì)于目標(biāo)發(fā)生劇烈變化,尤其是遮擋情況下網(wǎng)絡(luò)具有更強(qiáng)的魯棒性。
本文算法運(yùn)行平臺(tái)配置為Intel?Xeon?CPU E5-2660 V2@3.50 GHz×40,顯卡為兩個(gè)NVIDIA GTX 1080Ti GPUs,共計(jì)內(nèi)存24 GB。
本文使ImageNet Large Scale Visual Recognition Challenge(ILSVRC)[37]數(shù)據(jù)集進(jìn)行訓(xùn)練,使用LaSOT[38]數(shù)據(jù)集訓(xùn)練模板更新模塊。在ILSVRC的視頻數(shù)據(jù)集上進(jìn)行端到端訓(xùn)練。該視頻數(shù)據(jù)集可以安全地用于訓(xùn)練跟蹤的深度模型,而不會(huì)過度擬合到跟蹤基準(zhǔn)所使用的視頻領(lǐng)域。隨機(jī)選取包含相同物體的兩幀。在進(jìn)入跟蹤網(wǎng)絡(luò)之前,模板幀圖像大小預(yù)先被調(diào)整為127×127,搜索幀圖像尺寸被調(diào)整為255×255。LaSOT[38]是一個(gè)大型視頻數(shù)據(jù)集,共有1 400個(gè)序列,測(cè)試集有280個(gè)序列。提供了高質(zhì)量的密集注釋,LaSOT[38]存在大量的變形和遮擋情況,方便實(shí)現(xiàn)模板更新的訓(xùn)練,在LaSOT[38]數(shù)據(jù)集上隨機(jī)挑選20個(gè)類別的20個(gè)序列作為訓(xùn)練集訓(xùn)練模板更新子網(wǎng)絡(luò)。
本文采用廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集OTB2015[39]、VOT2016[40]、VOT2018[41]對(duì)算法進(jìn)行評(píng)估,與現(xiàn)有的主流算法進(jìn)行比較實(shí)驗(yàn),驗(yàn)證算法的準(zhǔn)確性以及魯棒性。同樣,在進(jìn)入跟蹤網(wǎng)絡(luò)之前,模板幀圖像大小為預(yù)先被調(diào)整為127×127,搜索幀圖像尺寸被調(diào)整為255×255。其中,OTB2015是視覺目標(biāo)跟蹤最常用的基準(zhǔn)之一,它有100個(gè)完整注釋的視頻序列,對(duì)于該數(shù)據(jù)集使用兩個(gè)評(píng)價(jià)指標(biāo),跟蹤精度和成功率圖的曲線下面積(AUC)。VOT2016和VOT2018是用于視覺目標(biāo)跟蹤而廣泛使用的基準(zhǔn),二者均包含60個(gè)具有不同挑戰(zhàn)因子的序列,VOT2018數(shù)據(jù)集用旋轉(zhuǎn)的跟蹤框進(jìn)行標(biāo)注,并采用基于重置的方法進(jìn)行評(píng)估。
3.2.1 評(píng)價(jià)標(biāo)準(zhǔn)
對(duì)于OBT2015基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn),本文主要通過跟蹤精度和成功率對(duì)算法進(jìn)行評(píng)價(jià)。
(1)跟蹤精度
設(shè)目標(biāo)預(yù)測(cè)框的中心位置為( xp,yp),真實(shí)邊界框中心位置為( xr,yr),則目標(biāo)的跟蹤精度通過二者的歐氏距離進(jìn)行度量,公式表示如下:

d的值越小表明跟蹤精度越高。跟蹤精度的評(píng)價(jià)標(biāo)準(zhǔn)是歐式距離d小于設(shè)定閾值T的幀數(shù)占所有跟蹤幀數(shù)的比例,在本文中T設(shè)定為20個(gè)像素點(diǎn)。
(2)成功率
目標(biāo)跟蹤的成功率指的是目標(biāo)預(yù)測(cè)框區(qū)域Areap與目標(biāo)真實(shí)邊界框區(qū)域Arear的重疊率IOU,IOU計(jì)算公式如下:

IOU的值越大表明算法的跟蹤成功率越高。成功率圖表示重疊率大于閾值t的視頻幀數(shù)占總幀數(shù)的比例,其中t∈[0,1,]在本文中取t的閾值為0.5。
本文中的跟蹤準(zhǔn)確率和跟蹤成功率的計(jì)算都基于曲線下面積(area under the curve,AUC)的得分。
3.2.2 消融實(shí)驗(yàn)
為了評(píng)價(jià)本文算法的有效性和準(zhǔn)確性,本文選擇目前主流的7種跟蹤算法與本文算法進(jìn)行對(duì)比做消融實(shí)驗(yàn),分別是DaSiamRPN[16]、SiamRPN[13],SiamRPN++[14]、GradNet、SiamVGG[10]、SiamFC[8]、FDSST[42]。消 融 實(shí) 驗(yàn)結(jié)果如圖3所示。由圖可見本文算法的成功率和精確度分別為0.702和0.749。在成功率上相對(duì)于基準(zhǔn)算法SiamRPN高0.084,比SiamVGG高0.02,比DiaSiamRPN高0.031。在精確度上相對(duì)于基準(zhǔn)算法SiamRPN高0.037,比SiamRPN++高0.011,比DaSiamRPN高0.018。
通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),本文算法無論是精度還是成功率都有明顯的提升,說明本文的級(jí)聯(lián)特征融合與模板更新機(jī)制是有效的。同時(shí)本文算法在OBT2015數(shù)據(jù)集上的速度達(dá)到了41 frame/s的速度,對(duì)于目標(biāo)的穩(wěn)定實(shí)時(shí)跟蹤是有效的。
3.2.3 定量實(shí)驗(yàn)
為了進(jìn)一步證明本文算法對(duì)于復(fù)雜環(huán)境的適應(yīng)性,本文進(jìn)行進(jìn)一步的定量實(shí)驗(yàn)。實(shí)驗(yàn)基準(zhǔn)數(shù)據(jù)集OBT2015包含光照變化、遮擋、背景相似物干擾、變形、低分辨率、快速運(yùn)動(dòng)、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、運(yùn)動(dòng)模糊、快速移動(dòng)、離開視野11個(gè)相關(guān)場(chǎng)景。通過精度圖展示本文算法與以上7種算法在這11個(gè)相關(guān)場(chǎng)景下的對(duì)比,如圖4所示。

圖4 11種不同場(chǎng)景下精度對(duì)比結(jié)果Fig.4 Precision comparison results in 11 different scenarios

由圖4可見本文算法在遮擋和低分辨率兩種場(chǎng)景下精確度相對(duì)較低,排在第2的位置,其他9種情況,均優(yōu)于其他7種算法,充分證明了本文算法的有效性。
當(dāng)出現(xiàn)光照變化、遮擋、變形、旋轉(zhuǎn)、背景相似物干擾等情況時(shí),目標(biāo)的語義會(huì)因?yàn)閳?chǎng)景的影響而發(fā)生變化,而本文充分利用級(jí)聯(lián)特征深化語義特征的提取,使得目標(biāo)的語義特征信息更豐富,從而使得算法的精確度更高,在光照變化中為0.896、遮擋中為0.830、變形為0.867,平面內(nèi)旋轉(zhuǎn)為0.892,平面外旋轉(zhuǎn)為0.881,背景相似物干擾情況下為0.833。由圖4中各場(chǎng)景下的不同算法的對(duì)比精度可見跟蹤精度相對(duì)較高,充分說明本文算法中的模板更新具有積極的作用,能夠使跟蹤器獲得更加有效的準(zhǔn)確的語義信息,并及時(shí)更新模板,實(shí)現(xiàn)準(zhǔn)確有效跟蹤。
3.2.4 定性分析實(shí)驗(yàn)
在本實(shí)驗(yàn)中,將本文算法與SiamRPN++、DaSiam-RPN、SiamFC進(jìn)行對(duì)比。從OBT2015中選取場(chǎng)景具有代表性的4組視頻序列,這4組視頻序列分別是ClifBar、Jogging、Lemming和MotoRilling。這四組視頻序列中包含運(yùn)動(dòng)模糊、目標(biāo)旋轉(zhuǎn)、尺寸變化、目標(biāo)與背景相似、光照變化、遮擋等多種復(fù)雜場(chǎng)景,幾種對(duì)比算法的跟蹤效果如圖5所示。

圖5 OBT2015視頻序列中不同算法的對(duì)比結(jié)果Fig.5 Comparison results of different algorithms in OBT2015
在ClifBar、Lemming、MotoRolling視頻序列出現(xiàn)了背景相似干擾、目標(biāo)旋轉(zhuǎn)、目標(biāo)尺寸變化、光照變化、運(yùn)動(dòng)模糊、遮擋等多種復(fù)雜情況。由圖可見,本文算法通過級(jí)聯(lián)特征融合,有效提取目標(biāo)的語義特征和位置特征,增強(qiáng)了對(duì)目標(biāo)重要特征的準(zhǔn)確表達(dá),因此本文算法針對(duì)以上復(fù)雜情況也能夠?qū)崿F(xiàn)準(zhǔn)確定位目標(biāo),實(shí)現(xiàn)目標(biāo)的有效跟蹤。SimaRPN和DaSiamRPN算法相對(duì)跟蹤精度較差,并且在模糊和旋轉(zhuǎn)情況下由圖可見跟蹤的重疊率和成功率降低,而SiamFC則出現(xiàn)跟蹤丟失的現(xiàn)象,但是在后續(xù)的背景簡(jiǎn)單情況下又實(shí)現(xiàn)了目標(biāo)的重定位和重新跟蹤的情況,整體性能較差。
在Jogging、Lemming視頻序列中主要針對(duì)遮擋情況下的實(shí)驗(yàn)驗(yàn)證,本文算法因?yàn)椴捎昧四0甯聶C(jī)制,使得在遮擋情況下能夠?qū)崿F(xiàn)目標(biāo)準(zhǔn)確跟蹤,但是SimaRPN、DiaSiamRPN和SiamFC算法則出現(xiàn)了跟蹤丟失的現(xiàn)象,當(dāng)目標(biāo)再次出現(xiàn)時(shí)雖然SimaRPN、DiaSiam-RPN能夠重新跟蹤,但是重疊率較低,而SiamFC則出現(xiàn)了完全跟蹤失敗的現(xiàn)象。
通過以上定性實(shí)驗(yàn)分析,表明本文算法能夠有效適應(yīng)復(fù)雜環(huán)境變化,進(jìn)一步證明了本文算法的有效性,以及應(yīng)對(duì)復(fù)雜環(huán)境的較強(qiáng)魯棒性。
本文為了驗(yàn)證算法應(yīng)對(duì)光照變化、遮擋、尺寸變化、背景相似、目標(biāo)旋轉(zhuǎn)等復(fù)雜情況下的挑戰(zhàn),測(cè)試本文算法在VOT2016和VOT2018上的表現(xiàn),并將之與近幾年的先進(jìn)算法進(jìn)行比較。該評(píng)估通過VOT(visual object tracking)官方工具包執(zhí)行,評(píng)價(jià)指標(biāo)包括準(zhǔn)確度(accuracy)、魯棒性(robustness)和期望平均重疊(expected average overlap,EAO)。
測(cè)試結(jié)果如表1所示,EAO在VOT2016和VOT2018上不同算法的對(duì)比結(jié)果如圖6所示。由表1可見,本文算法在VOT2016上的結(jié)果優(yōu)于DaSiamRPN、SPM等算法,在精度上與SPM相同,魯棒性上與ECO相同,但是均優(yōu)于其他算法。相對(duì)于基準(zhǔn)算法SiamRPN則在精度上提升了6%,在魯棒性上提升了6%。在VOT2018的結(jié)果上精度略低于SiamRPN++,位于第二的位置,在魯棒性上則與SiamRPN++持平,相對(duì)于基準(zhǔn)算法SiamRPN則在精度上提高了10%,在魯棒性上提高了23%。從圖6中的EAO對(duì)比可見本文算法在VOT2016上均高于其他算法,在VOT2018上則相對(duì)低于SiamRPN++,位于第二的位置。從結(jié)果分析可見本文算法在對(duì)比跟蹤器中取得了良好的競(jìng)爭(zhēng)力。

表1 不同算法在VOT2016和VOT2018上的測(cè)試結(jié)果Table 1 Results of different algorithms on VOT2016 and VOT2018

圖6 不同算法在VOT2016和VOT2018上的EAO對(duì)比結(jié)果Fig.6 EAO comparison results of different algorithms on VOT2016 and VOT2018
本文提出了一種端到端的級(jí)聯(lián)特征融合的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,該算法以ResNet-50作為骨干網(wǎng)絡(luò),并通過減少模型參數(shù),提高計(jì)算速度等方法進(jìn)行了改進(jìn),從而提高跟蹤器的特征提取能力。然后將ResNet-50的最后一階段的3層特征通過特征融合模塊進(jìn)行逐級(jí)級(jí)聯(lián)融合,實(shí)現(xiàn)目標(biāo)淺層外觀特征和深層語義特征的有效融合,提高目標(biāo)的有效識(shí)別和定位。同時(shí)為了解決目標(biāo)模板退化問題,實(shí)時(shí)適應(yīng)目標(biāo)的外觀和狀態(tài)變化,引入模板更新機(jī)制,通過相似度閾值解決模板更新問題。該算法的模型訓(xùn)練彌補(bǔ)了不同特征在跟蹤效果上的缺陷,算法通過在OBT2015、VOT2016、VOT2018上的實(shí)驗(yàn)表明,本文提出的級(jí)聯(lián)特征融合網(wǎng)絡(luò)有效提高了跟蹤器的通用性,在快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊、遮擋、背景相似、光照變化、變形等復(fù)雜場(chǎng)景中取得了優(yōu)異的性能。未來,將繼續(xù)探索深度特征在目標(biāo)跟蹤任務(wù)中的有效集成。