陳茂林, 侯志強, 余旺盛, 馬素剛, 蒲 磊
(1.西安郵電大學(xué)計算機學(xué)院,西安,710121;2.西安郵電大學(xué)陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點實驗室,西安,710121;3.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安,710077;4.火箭軍工程大學(xué)作戰(zhàn)保障學(xué)院,西安,710025)
目標(biāo)跟蹤是計算機視覺領(lǐng)域中最重要的研究方向之一[1],是指在視頻初始幀中給出目標(biāo),在后續(xù)幀中對目標(biāo)進(jìn)行狀態(tài)估計和精準(zhǔn)定位的過程[3],在安防、監(jiān)控和巡檢等領(lǐng)域有著廣泛的應(yīng)用[4-5]。
目前,要實現(xiàn)魯棒的目標(biāo)跟蹤器依然面臨著諸多困難,主要包括相似背景、尺度變化和目標(biāo)遮擋等[6]。Wang等[7]通過實驗表明:良好的特征表達(dá)是實現(xiàn)魯棒的目標(biāo)跟蹤系統(tǒng)的關(guān)鍵因素之一。眾多學(xué)者也先后設(shè)計了灰度、顏色和方向梯度直方圖等手工特征,在簡單場景中具有良好的性能表現(xiàn),但是在復(fù)雜場景中性能不佳。近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[8]在計算機視覺領(lǐng)域中得到了廣泛應(yīng)用,并在圖像分類、目標(biāo)檢測和圖像分割等任務(wù)中獲得大幅度的性能提升。Bertinetto等[9]提出全卷積的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法SiamFC,將目標(biāo)跟蹤問題轉(zhuǎn)化為相似性匹配問題,取得了良好的跟蹤性能。Li等人[10]提出SiamRPN算法,將孿生網(wǎng)絡(luò)與區(qū)域建議網(wǎng)絡(luò)結(jié)合,實現(xiàn)了靈活應(yīng)對目標(biāo)尺度的變化。Zhu等[11]提出DaSiamRPN算法,通過引入干擾感知模塊,增加訓(xùn)練時的負(fù)樣本,使模型有效地捕捉更多上下文信息以適應(yīng)目標(biāo)外觀變化。
但是,孿生網(wǎng)絡(luò)對同類目標(biāo)中特定目標(biāo)的特征表達(dá)能力不足,不能很好地將特定目標(biāo)從同類目標(biāo)中區(qū)分出來,同時,由于基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法大多數(shù)都只使用了一階圖像信息表示,這嚴(yán)重限制了孿生網(wǎng)絡(luò)的非線性建模能力,因此需要學(xué)習(xí)高階統(tǒng)計信息表示來增強非線性建模能力[12]。高階統(tǒng)計信息能夠很好地描述同類目標(biāo)中特定目標(biāo)的信息,并在圖像分類和細(xì)粒度圖像分類等任務(wù)中得到應(yīng)用。
本文針對基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法對相似目標(biāo)表達(dá)能力不足的問題,提出一種輕量級的基于二階池化特征融合的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法。
本文算法框架見圖1。該算法使用了結(jié)構(gòu)相同并且權(quán)值共享的孿生網(wǎng)絡(luò)結(jié)構(gòu),其主干網(wǎng)絡(luò)是AlextNet,該算法將視頻序列的第1幀作為模板幀,后續(xù)幀作為搜索幀[13]。首先,使用孿生網(wǎng)絡(luò)結(jié)構(gòu)獲取模板幀目標(biāo)的特征和搜索幀中候選樣本的深度特征;然后,在孿生網(wǎng)絡(luò)結(jié)構(gòu)末端并行添加二階池化網(wǎng)絡(luò)和輕量級通道注意力,獲取目標(biāo)的二階池化特征和通道注意力特征,其中二階池化特征是對深度特征的細(xì)化和增強,可以提高對相似目標(biāo)的判別能力;通道注意力特征更關(guān)注目標(biāo)的語義信息,最后,將目標(biāo)的深度特征、二階池化特征和通道注意力特征以Add方式進(jìn)行融合,使用融合后的特征進(jìn)行互相關(guān)操作,得到的響應(yīng)圖能很好地區(qū)分目標(biāo)和背景,提高模型的判別能力,改善目標(biāo)定位的精度,從而提升跟蹤性能。

圖1 算法框架圖
SiamFC[9]分為離線訓(xùn)練和在線評估兩個階段。
1)離線訓(xùn)練階段:首先,對訓(xùn)練集中的視頻幀進(jìn)行裁剪縮放,得到以目標(biāo)為中心,大小為127×127的模板圖像z和255×255的搜索圖像x;然后,使用AlexNet端到端的訓(xùn)練相似度匹配函數(shù)f(z,x):
f(z,x)=φ(z)*φ(x)+b1
(1)
式中:φ表示卷積嵌入函數(shù);*表示卷積互相關(guān)操作;b1表示得分圖中各個位置的不同偏置項。
Gao等人[14]指出二階池化網(wǎng)絡(luò)能夠顯著增強卷積神經(jīng)網(wǎng)絡(luò)模型的非線性擬合能力,受此工作啟發(fā),本文將二階池化網(wǎng)絡(luò)應(yīng)用到SiamFC算法中,所使用的二階池化網(wǎng)絡(luò)如圖2所示,包括擠壓模塊(squeeze module)和激勵模塊(excitation module)。

圖2 SoP模型
擠壓模塊的目的是在通道維度上對輸入張量的信息進(jìn)行二階統(tǒng)計建模,獲取具有通道相關(guān)性的協(xié)方差矩陣。假設(shè)特征提取網(wǎng)絡(luò)最后一層的輸出張量X″∈Rw×h×d,其中d代表特征通道數(shù),w和h為特征圖的寬和高。為了降低后續(xù)計算開銷,采用卷積進(jìn)行降維處理,得到張量X′∈Rw×h×d′,并進(jìn)行二階池化操作,其過程如圖3所示。

圖3 二階池化操作
首先將X′進(jìn)行兩次Reshape操作,得到X∈Rd′×(w×h)和XT∈R(w×h)×d′的特征矩陣,然后計算特征圖X′的協(xié)方差矩陣:
(2)

P=UΛUT
(3)
式中:Λ=diag(λ1,λ2,…,λn)為對角矩陣;λi為特征值;U=[u1,u2,…,un],為對應(yīng)的特征向量。通過上述的特征值分解可以將對矩陣的冪運算轉(zhuǎn)換為對特征值的冪運算進(jìn)行求解:
P?UF(Λ)UT
(4)
在本文中α=0.5,F(xiàn)(Λ)=diag(f(λ1),f(λ2),…,f(λn)),其中f(λi)表示對特征值進(jìn)行冪運算:
據(jù)云南陸軍講武堂歷史博物館編輯的官方資料,這26年中,講武堂培養(yǎng)學(xué)員8300人,其中有300多人先后被北洋政府、廣州民國政府、南京國民政府、中華人民共和國以及韓國、朝鮮等授銜為將軍、元帥。其比例之高,世所罕見,真可謂“將帥搖籃”。
(5)
協(xié)方差矩陣是為獲得各通道中像素間的相關(guān)性,描述如下:
(6)
式中:Xi表示第i個通道的特征圖,i∈[1,d′]。
激勵模塊的目的是在通道維度上對輸入張量的信息進(jìn)行重新標(biāo)定,獲取具有通道相關(guān)性的輸出張量。為保持輸入張量的原始結(jié)構(gòu)信息,首先對d′×d′協(xié)方差矩陣進(jìn)行逐行卷積操作,得到一個d′×1的向量;然后使用卷積和非線性激活函數(shù)Sigmoid,得到一個d×1的權(quán)重向量;最后執(zhí)行權(quán)重向量和通道之間的點積操作,得到具有通道相關(guān)性的輸出張量,該張量是對原始深度特征的細(xì)化,對相似目標(biāo)具有良好的判別能力。
本文算法使用的實驗平臺為Ubuntu 16.04,GPU為1080 Ti,采用PyTorch1.6實現(xiàn)。所提算法僅使用Got-10k[15]數(shù)據(jù)集進(jìn)行端到端的訓(xùn)練,在訓(xùn)練過程中,batch_size設(shè)置為8,學(xué)習(xí)率從0.01衰減到0.000 01,動量設(shè)置為0.9,使用平衡損失函數(shù)提高跟蹤精度,使用隨機梯度下降優(yōu)化器擬合收斂速度,測練周期為50個批次。在兩個具有代表性的目標(biāo)跟蹤測試集OTB100[16]和VOT2018[17]來驗證本文算法的有效性。
在OTB100上對本文算法進(jìn)行消融實驗來驗證所提算法各個模塊的有效性和對目標(biāo)跟蹤的實時性影響。實驗結(jié)果如表1所示(最優(yōu)性能加粗表示),首先,復(fù)現(xiàn)基準(zhǔn)算法SiamFC,精確度和成功率分別為0.777和0.580,速度為37FPS;然后,在SiamFC中添加ECA模塊,精確度和成功率分別為0.807和0.604,速度為35FPS,表明ECA模塊在增加少量運算的同時可以獲取更多目標(biāo)的語義信息,優(yōu)化跟蹤模型,使跟蹤性能得到一定的提升;其次,在SiamFC中添加SoP模塊,精確度和成功率分別為0.828和0.616,速度為32FPS,表明SoP模塊在增加一定運算的基礎(chǔ)上可以獲取目標(biāo)的二階信息,能夠更好地優(yōu)化跟蹤模型增強對目標(biāo)的判別能力,使跟蹤性能得到顯著的提升;最后,在SiamFC中添加ECA模塊和SoP模塊,精確度和成功率分別為0.852和0.632,速度為31FPS,表明融合目標(biāo)的原始特征、二階池化特征和通道注意力特征可以更好地優(yōu)化跟蹤模型,提高目標(biāo)定位的精確性,從而獲得良好的跟蹤性能。

表1 ECA模塊和SoP模塊在OTB100上的消融實驗
OTB100[16]由100個視頻序列組成,是目標(biāo)跟蹤領(lǐng)域中最流行的數(shù)據(jù)集之一,該數(shù)據(jù)集的兩個重要評價指標(biāo)是精確度(Precision)和成功率(Success)。將本文算法與KCF[18]、SRDCF[19]、SiamFC[9]、Staple[20]、BACF[21]、SiamRPN[10]、SiamDW-FC[22]、ATOM[23]、UniTrack[24]、SiamSE[25]等具有代表性的目標(biāo)跟蹤算法進(jìn)行比較,其中SiamFC作為所提算法的基準(zhǔn)算法。在OTB100數(shù)據(jù)集上進(jìn)行定性和定量分析。
2.2.1 定性分析
為了定性分析本文算法的性能,在OTB100數(shù)據(jù)集中挑選6組視頻進(jìn)行比較。圖4給出了本文算法和另外5種對比算法的部分跟蹤結(jié)果,下面對跟蹤中存在的3個挑戰(zhàn)屬性進(jìn)行定性分析。

圖4 選定視頻序列跟蹤效果(注:第1行為Bird1,第2行為Box,第3行為Girl2,第4行為Jump,第5行為Motor Rolling,第6行為Skilling)
1)快速運動:以視頻Bird1和Skilling為例,快速運動導(dǎo)致目標(biāo)表觀信息發(fā)生變化。由于KCF和SRDCF等相關(guān)濾波類算法訓(xùn)練模型的判別性不足,導(dǎo)致跟蹤漂移;快速運動對互相關(guān)類跟蹤算法也會產(chǎn)生較大的影響,SiamFC在快速運動后丟失目標(biāo),后續(xù)過程不能恢復(fù)跟蹤;而本文算法使用二階池化網(wǎng)絡(luò)和輕量級通道注意力可以提高模型的判別能力,在快速運動過程中能夠持續(xù)穩(wěn)定地進(jìn)行跟蹤。
2) 目標(biāo)遮擋:以視頻Box和Girl2為例,在目標(biāo)被遮擋時,AlexNet提取特征的能力有限,導(dǎo)致SiamFC跟蹤漂移;雖然Staple結(jié)合了HOG和CN特征能很好地解決目標(biāo)尺度變化問題, 但是由于沒有采用CNN提取深度特征,在目標(biāo)被遮擋時,提取的特征能力有限,導(dǎo)致跟蹤漂移;而本文算法使用二階池化網(wǎng)絡(luò)和通道注意力,在目標(biāo)特征提取上更能關(guān)注到目標(biāo)的顯著特征,提取的特征更具有魯棒性。
3) 目標(biāo)形變:以視頻MotorRolling和Jump為例,目標(biāo)視角和姿態(tài)的變換,導(dǎo)致目標(biāo)發(fā)生形變和旋轉(zhuǎn),從而會引入一定的背景干擾信息。由于SiamFC判別能力不足,導(dǎo)致跟蹤漂移;然而BACF沒有考慮目標(biāo)形變問題,導(dǎo)致提取的特征不能完全表示目標(biāo)整體特征信息;而本文算法使用二階池化網(wǎng)絡(luò)和通道注意力可以提高表觀模型的抗干擾能力,提取的特征更具有泛化性。
2.2.2 定量分析
圖5給出了本文算法與其它10種對比算法在OTB100數(shù)據(jù)集上的整體精確曲線和成功曲線,本文算法的精確度和成功率分別為85.2%和63.2%。精確度高于現(xiàn)主流算法UniTrack、SiamDW-FC和SiamRPN;成功率高于UniTrack,與SiamDW-FC和SiamRPN相當(dāng)。由于ATOM和SiamSE算法比較復(fù)雜,都使用了性能更優(yōu)的網(wǎng)絡(luò)和更復(fù)雜的優(yōu)化策略,故本文算法的性能略低于ATOM和SiamSE,但本文算法性能相較于現(xiàn)主流算法依然有一定的競爭力。與基準(zhǔn)算法SiamFC相比,跟蹤性能取得了顯著提升,精確度提升了7.5%,成功率提升了5.2%。


圖5 OTB100的定量對比結(jié)果
為進(jìn)一步分析本文算法的優(yōu)缺點,提供了基于屬性的性能分析來說明本文算法在關(guān)鍵屬性上的優(yōu)勢。OTB100中的視頻序列標(biāo)注了11個具有挑戰(zhàn)性的屬性,包括:光照變化(illumination variation, IV)、尺度變化(scale variation, SV)、遮擋(occlusion, OCC)、形變(deformation, DEF)、運動模糊(motion blu, MB)、快速移動(fast motion, FM)、平面內(nèi)旋轉(zhuǎn)(in-plane rotation, IPR)、平面外旋轉(zhuǎn)(out-of-plane rotation, OPR)、離開視野(out-of-view, OV)、相似背景(background clutters, BC)、低分辨率(low resolution, LR)。
表2列出了11種屬性下的本文算法和對比算法的精確度(結(jié)果最優(yōu)加粗表示,次優(yōu)加下劃線表示,第三優(yōu)加點式下劃線表示)。通過分析表2,本文算法在多個跟蹤場景中均取得了較好的跟蹤效果,尤其是在相似背景(BC)、尺度變化(SV)、快速運動(FM)等挑戰(zhàn)屬性下精確度處于次優(yōu)和較優(yōu)位置,同時,在其它屬性下精確度均處于較優(yōu)位置。這是因為本文算法在相似背景、尺度變化、快速運動等屬性下,通過二階池化網(wǎng)絡(luò)獲取目標(biāo)特征信息的全局依賴關(guān)系,通過通道注意力分配網(wǎng)絡(luò)中的權(quán)重參數(shù),更好地關(guān)注目標(biāo)特征中的重要信息,改善了特征提取網(wǎng)絡(luò)的表達(dá)能力,提高了跟蹤模型的判別能力,從而取得了良好的跟蹤性能。

表2 不同屬性下算法的跟蹤精確度結(jié)果
VOT2018[17]數(shù)據(jù)集包含60個具有挑戰(zhàn)性的彩色視頻序列,是目標(biāo)跟蹤領(lǐng)域中最流行的數(shù)據(jù)集之一,該數(shù)據(jù)集的主要評價指標(biāo)是預(yù)期平均重疊率(expected average overlap, EAO)、準(zhǔn)確率(accuracy)和魯棒性(robustness)。
表3展示了本文算法與具有影響力的跟蹤器SiamFC[9]、DCFNet[26]、DSiam[27]、DensSiam[28]、SiamRPN[10]、SiamDW-FC[22]、SiamSE[25]的各項指標(biāo)結(jié)果(性能最優(yōu)結(jié)果加粗表示,次優(yōu)結(jié)果加下劃線表示,第三優(yōu)結(jié)果加點式下劃線表示),本文算法的預(yù)期平均重疊率為0.231,準(zhǔn)確度為0.516,魯棒性為0.503。在預(yù)期平均重疊率指標(biāo)上略高于主流跟蹤器SiamDW-FC,在準(zhǔn)確度指標(biāo)上高于主流跟蹤器SiamDW-FC和SiamRPN,在魯棒性指標(biāo)上比SiamDW-FC、SiamPRN、SiamSE略低。相較于基準(zhǔn)算法SiamFC,預(yù)期平均重疊率提高了4.3%,準(zhǔn)確度提升了1.6%,魯棒性提升了5.6%,其原因是本文算法使用二階池化網(wǎng)絡(luò)和通道注意力可以提高跟蹤模型的判別能力,在目標(biāo)特征提取上更能關(guān)注到目標(biāo)的顯著特征,提取的特征具有魯棒性和泛化性。

表3 VOT2018實驗結(jié)果
本文提出一種輕量級的基于二階池化特征融合的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法。首先,使用孿生網(wǎng)絡(luò)結(jié)構(gòu)獲取目標(biāo)的深度特征;然后,在孿生網(wǎng)絡(luò)結(jié)構(gòu)的末端并行添加二階池化網(wǎng)絡(luò)和輕量級通道注意力,獲取目標(biāo)的二階池化特征和通道注意力特征;最后,將目標(biāo)的深度特征、二階池化特征和通道注意力特征進(jìn)行融合,使用融合后的特征進(jìn)行互相關(guān),得到的響應(yīng)圖能很好地區(qū)分目標(biāo)和背景,提高模型的判別能力,改善目標(biāo)定位的精度,從而提升跟蹤性能。
在未來的研究中,將進(jìn)一步挖掘二階池化網(wǎng)絡(luò)的潛力,使用性能更優(yōu)的主干網(wǎng)絡(luò),獲取中間層特征與圖像全局的依賴關(guān)系,充分利用中間層特征潛在的信息,增強特征提取網(wǎng)絡(luò)的表達(dá)能力,提高模型的判別能力,從而更有效地提升目標(biāo)跟蹤的性能。