竇凱奇, 朱福珍
(黑龍江大學(xué) 電子工程學(xué)院, 哈爾濱150080)
近年來,視覺目標(biāo)跟蹤逐漸成為計(jì)算機(jī)視覺領(lǐng)域最為活躍的研究分支之一,小型無人機(jī)技術(shù)得到了迅猛發(fā)展,廣泛應(yīng)用于農(nóng)業(yè)種植、橋梁檢測、航拍娛樂和交通監(jiān)管等領(lǐng)域,成為獲取信息的重要平臺[1]。與傳統(tǒng)的固定成像系統(tǒng)相比,無人機(jī)平臺具有體積小和機(jī)動(dòng)性強(qiáng)等優(yōu)點(diǎn),能在任意位置進(jìn)行起飛和降落。無人機(jī)具備長時(shí)間滯空的能力,能夠最大化的維持拍攝。雖然無人機(jī)平臺擁有諸多的優(yōu)勢,但其自身的特性也為無人機(jī)目標(biāo)跟蹤帶來了許多新的挑戰(zhàn)。基于無人機(jī)平臺的目標(biāo)跟蹤,由于受到航拍視頻分辨率低、目標(biāo)占比相對較小以及背景雜波等諸多問題的干擾,為近景圖像中目標(biāo)跟蹤任務(wù)所設(shè)計(jì)的跟蹤器不能直接應(yīng)用于無人機(jī)遙感目標(biāo)跟蹤中。
隨著視覺目標(biāo)跟蹤技術(shù)的發(fā)展,基于孿生網(wǎng)絡(luò)類的目標(biāo)跟蹤算法逐漸走入研究學(xué)者的關(guān)注視野。作為開創(chuàng)性工作之一,Bertinetto等提出了一種基于孿生全卷積網(wǎng)絡(luò)的跟蹤器(SiamFC)。SiamFC通過暴力的多尺度搜索來回歸目標(biāo)邊界框,效率低且準(zhǔn)確度不高[2]。受物體檢測中區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN)的啟發(fā),Li等提出了SiamRPN,它在孿生網(wǎng)絡(luò)輸出端進(jìn)行區(qū)域建議提取,獲得了更準(zhǔn)確的目標(biāo)邊界框[3]。為了使跟蹤模型更加關(guān)注語義干擾因素,Zhu 等提出了DaSiamRPN,它聚合了一個(gè)干擾感知模塊來進(jìn)行增量的學(xué)習(xí),通過這種方式,網(wǎng)絡(luò)的類內(nèi)判別能力得到了增強(qiáng)[4]。Li等提出了SiamRPN++,它使用多層聚合的方式來融合淺層特征和深層特征,利用了現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)對特征的捕捉能力[5]。Wang 等提出了SiamMask,它將孿生網(wǎng)絡(luò)的思想與分割的思想相結(jié)合,在孿生網(wǎng)絡(luò)的基礎(chǔ)上增加了一個(gè)掩碼分支來計(jì)算分割網(wǎng)絡(luò)的損失,提升了跟蹤的精確度[6]。Xu等提出了SiamFC++,以無錨框的方式直接對響應(yīng)特征圖每個(gè)位置的目標(biāo)候選框進(jìn)行分類和回歸,避免了預(yù)定義錨框的超參數(shù),提升了算法的性能[7]。
本文研究了無人機(jī)遙感視頻的目標(biāo)跟蹤問題,通過對基于孿生網(wǎng)絡(luò)的跟蹤算法中的孿生骨干網(wǎng)絡(luò)以及頭部網(wǎng)絡(luò)進(jìn)行改進(jìn),將近景視頻中的相關(guān)方法擴(kuò)展應(yīng)用到遙感視頻領(lǐng)域,跟蹤車輛、艦船和飛機(jī)等目標(biāo)。在預(yù)測頭部網(wǎng)絡(luò)中聚合了質(zhì)量評估分支,來抑制低質(zhì)量預(yù)測邊界框的生成。分類置信度與定位精度的相關(guān)性較低,離目標(biāo)較遠(yuǎn)的位置往往會產(chǎn)生低質(zhì)量的預(yù)測邊界框,若直接根據(jù)分類得分確定最終的預(yù)測邊界框,會使定位精度下降。使用改進(jìn)的ResNet-50作為骨干網(wǎng)絡(luò)對模板和搜索區(qū)域進(jìn)行深度特征提取,將骨干網(wǎng)絡(luò)所提取的淺層特征和深層語義特征相融合,提升了跟蹤的精度。實(shí)驗(yàn)在UAV123數(shù)據(jù)集中驗(yàn)證,證明了改進(jìn)之后的跟蹤框架在性能上的提高。
基于改進(jìn)的孿生網(wǎng)絡(luò)的無人機(jī)遙感目標(biāo)跟蹤的網(wǎng)絡(luò)架構(gòu),可以將跟蹤任務(wù)分解為分類和回歸兩個(gè)子問題,以逐像素預(yù)測的方式對跟蹤問題進(jìn)行求解。如圖1所示,所提出的網(wǎng)絡(luò)架構(gòu)由三個(gè)部分組成:孿生骨干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及預(yù)測頭部網(wǎng)絡(luò)。為了提升在低分辨率視頻中對目標(biāo)的捕獲能力,使用修改的ResNet-50作為骨干網(wǎng)絡(luò)對模板和搜索區(qū)域進(jìn)行特征提取。為了使跟蹤器能在存在大量背景雜波的條件下實(shí)現(xiàn)對目標(biāo)的精確定位,在預(yù)測頭部網(wǎng)絡(luò)中聚合了質(zhì)量評估分支,來抑制低質(zhì)量預(yù)測邊界框的生成,實(shí)現(xiàn)對目標(biāo)的精確定位。
使用文獻(xiàn)[5]中改進(jìn)的ResNet-50作為主干網(wǎng)絡(luò)對目標(biāo)進(jìn)行特征提取。雖然通過ResNet-50可以學(xué)習(xí)到目標(biāo)抽象的特征表示,但空間分辨率因此降低,孿生網(wǎng)絡(luò)跟蹤器需要根據(jù)詳細(xì)的空間信息對目標(biāo)的位置進(jìn)行預(yù)測。為了解決這個(gè)問題,將Conv4和Conv5塊中的下采樣操作移除,同時(shí)應(yīng)用擴(kuò)張卷積來增大網(wǎng)絡(luò)的感受野。此外,受到多網(wǎng)格方法[8]的啟發(fā),對孿生骨干網(wǎng)絡(luò)應(yīng)用了不同的擴(kuò)張速率。詳細(xì)操作:將Conv4塊中的步幅設(shè)置為1,擴(kuò)張率設(shè)置為2;將Conv5塊中的步幅設(shè)置為1,擴(kuò)張率設(shè)置為4,以此來增大感受野。由于邊緣、角、顏色和形狀等淺層特征能夠較好地表示視覺屬性,有利于目標(biāo)的定位。深層語義特征往往擁有優(yōu)秀的表達(dá)能力,更有利于目標(biāo)的分類,因此,本文將淺層特征與深度語義特征相融合,來提升跟蹤的精度。為了提升跟蹤器的判別能力,將從主干網(wǎng)絡(luò)最后3個(gè)殘差模塊所提取的特征進(jìn)行級聯(lián)操作:
φ(X)=Cat(O3(X),O4(X),O5(X))
(1)
式中:O3(X)、O4(X)和O5(X)分別表示ResNet-50骨干網(wǎng)絡(luò)最后3個(gè)殘差模塊所輸出的特征;Cat代表信道的級聯(lián)操作,Oi=3∶5(X)都包含256個(gè)通道,因此φ(X)的通道個(gè)數(shù)為3×256。

圖1 基于改進(jìn)的孿生網(wǎng)絡(luò)的無人機(jī)遙感目標(biāo)跟蹤的網(wǎng)絡(luò)架構(gòu)
使用無填充的全卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建用于視覺特征提取的孿生骨干網(wǎng)絡(luò)。孿生骨干網(wǎng)絡(luò)由兩個(gè)共享權(quán)重的主干子網(wǎng)絡(luò)構(gòu)成:一個(gè)稱為模板分支,它接收模板補(bǔ)丁Z作為輸入,通過主干子網(wǎng)絡(luò)得到模板特征φ(Z);另一個(gè)稱為搜索分支,以搜索區(qū)域X作為輸入,通過主干子網(wǎng)絡(luò)得到搜索特征φ(X)。這兩個(gè)分支在卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)設(shè)置是相同的,以確保對這兩個(gè)輸入應(yīng)用相同的轉(zhuǎn)換。為了獲得包含目標(biāo)豐富信息的特征響應(yīng)圖F,以φ(Z)作為卷積核,在φ(X)上執(zhí)行互相關(guān)運(yùn)算:
Fi=φ(X)*φ(Z),i∈{cls, reg}
(2)


(3)
式中dl、dt、dr和db分別表示(pi,pj)到4個(gè)邊界框的距離。
由t(i, j)可以計(jì)算出真實(shí)邊界框與預(yù)測邊界框之間的交并比(Intersection over Union, IoU),接著通過下式來計(jì)算回歸損失:
(4)

(5)
式中如果響應(yīng)特征圖上的點(diǎn)(i,j)在搜索區(qū)域所對應(yīng)的位置(pi,pj)在真實(shí)的候選框內(nèi),那么I(·)的值就為1,否則為0。

(6)
式中:C(i,j)的值與搜索區(qū)域中(pi,pj)和搜索區(qū)域中目標(biāo)中心之間的距離成反比,如果(pi,pj)位于背景之中,那么將C(i,j)的值設(shè)置為0。
質(zhì)量評估分支的損失函數(shù)可以表示為:
(7)
因此,總體的損失函數(shù)可以表示為:
L=Lcls+λ1Lqty+λ2Lreg
(8)
式中:常數(shù)λ1和λ2為加權(quán)超參數(shù);Lcls為交叉熵?fù)p失;Lreg為IoU損失,在訓(xùn)練期間將λ1和λ2分別設(shè)置為1和3。
視覺目標(biāo)跟蹤的目標(biāo)就是預(yù)測當(dāng)前幀中目標(biāo)的位置。對于響應(yīng)特征圖上的任意位置(i,j),本文所設(shè)計(jì)的視覺目標(biāo)跟蹤框架可以生成一個(gè)六維的向量Aij=(cls,qty,dl,dr,dt,db),其中cls表示分類分支的前景得分,qty表示質(zhì)量評估得分,(dl+dr)和(dt+db)分別表示當(dāng)前幀中預(yù)測目標(biāo)的寬度和高度。當(dāng)預(yù)測框生成后,可以利用尺度變化懲罰pij對目標(biāo)的移動(dòng)和形變進(jìn)行抑制,對分類分支的前景得分cls進(jìn)行重新排序,并對六維向量進(jìn)行更新PAij=(clsij×pij,dl,dr,dt,db),那么跟蹤過程可以公式化的表述為:
(9)
式中:H表示余弦窗口;常數(shù)λ3為相關(guān)權(quán)重;輸出b是得分最高的目標(biāo)像素的位置,然后選擇得分最高的邊界框作為預(yù)測邊界框。
實(shí)驗(yàn)在CPU為Intel Xeon E5-2660 V2、顯卡為GeForce GTX 2080Ti的硬件平臺上完成,軟件環(huán)境為Ubuntu 16.04,編程環(huán)境為基于Python 3.7的Pytorch 10.2。
UAV123是一個(gè)廣泛使用的無人機(jī)跟蹤測試基準(zhǔn),包含了從低航空視角捕獲的123個(gè)視頻序列,所有視頻序列都用垂直的邊界框進(jìn)行了完整的注釋[10]。數(shù)據(jù)集中的目標(biāo)的特點(diǎn)主要表現(xiàn)為運(yùn)動(dòng)速度快、尺度變化大、光照變化大和遮擋嚴(yán)重等,這給跟蹤帶來了巨大的挑戰(zhàn)。利用精確度(Precision)和成功率(Success)對跟蹤算法的性能進(jìn)行評估。精確度是指與目標(biāo)中心位置誤差Δ小于某一閾值的幀數(shù)占總幀數(shù)的比例,通常將該閾值設(shè)置為20,計(jì)算公式為:
(10)
式中目標(biāo)中心位置誤差Δ的計(jì)算公式為:
(11)
式中(xr,yr)和(xp,yp)分別表示預(yù)測邊界框的中心坐標(biāo)和真實(shí)邊界框的中心坐標(biāo)。
重疊率是指預(yù)測邊界框與真實(shí)邊界框之間的交并,計(jì)算公式為:
(12)
式中Ar和Ap分別表示預(yù)測邊界框的面積和真實(shí)邊界框的面積。
成功率是指預(yù)測邊界框與真實(shí)邊界框之間的IoU大于某一閾值的幀數(shù)占總幀數(shù)的比例,通常將這一閾值設(shè)置為0.5,計(jì)算公式為:
(13)
為了評估跟蹤算法的性能,將本文所設(shè)計(jì)的跟蹤算法與多個(gè)跟蹤算法在UAV123測試集上進(jìn)行了比較,包括DaSiamRPN[4]、CCOT[11]、UPDT[12]和ECO[13]等,這些都是目標(biāo)跟蹤領(lǐng)域較為優(yōu)秀和經(jīng)典的跟蹤算法,實(shí)驗(yàn)結(jié)果如圖2所示。可以看出,所提出的跟蹤算法的精確度曲線和成功率曲線的得分分別達(dá)到了0.803和0.616,在這些跟蹤算法中排名第一。相較于DaSiamRPN,所設(shè)計(jì)的跟蹤器在精確度曲線和成功率曲線上的得分分別提升了2.2%和4.7%。

圖2 UAV123數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
為了進(jìn)一步分析所提出的跟蹤算法在跟蹤過程中可能出現(xiàn)問題的處理能力,基于UAV123測試集將所提出的跟蹤算法與其他幾種跟蹤算法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如圖3所示。可以看出,所設(shè)計(jì)的跟蹤器能夠很好地處理快速運(yùn)動(dòng)(Fast motion)、光照變化(Illumination variation)、出視野(Out-of-view)和尺度變化(Scale variation)等問題,并且在這幾個(gè)屬性上的跟蹤精度明顯提升,得益于本文所提出的預(yù)測頭部網(wǎng)絡(luò)對隱性信息的解碼。

圖3 UAV123數(shù)據(jù)集上4種屬性的精確度與成功率對比
為了對本文所設(shè)計(jì)跟蹤器的性能進(jìn)行評估,對UAV123數(shù)據(jù)集中3個(gè)具有代表性的視頻序列進(jìn)行了可視化操作,結(jié)果如圖4所示。圖中綠色邊框代表地面真實(shí)邊界框,黃色代表本文所設(shè)計(jì)跟蹤算法的跟蹤結(jié)果。跟蹤結(jié)果與地面真實(shí)邊界框的重疊率越高,說明跟蹤算法的性能越好。可以看出,在這3個(gè)典型的無人機(jī)視頻序列中,本文的跟蹤器都能對目標(biāo)實(shí)現(xiàn)穩(wěn)定的跟蹤,證明了本文所設(shè)計(jì)的跟蹤算法的有效性。

圖4 UAV123數(shù)據(jù)集上選定序列的定性結(jié)果
本文提出了一種基于改進(jìn)的孿生網(wǎng)絡(luò)的無人機(jī)遙感目標(biāo)跟蹤算法。針對傳統(tǒng)孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法在處理無人機(jī)遙感視頻中分辨率低、目標(biāo)占比小和背景干擾較多等問題,通過在預(yù)測頭部網(wǎng)絡(luò)中聚合質(zhì)量評估分支以及使用改進(jìn)的ResNet-50作為骨干網(wǎng)絡(luò)對模板和搜索區(qū)域進(jìn)行深度特征提取,同時(shí)將骨干網(wǎng)絡(luò)所提取的淺層特征和深層語義特征相融合,以此來抑制低質(zhì)量預(yù)測邊界框的生成和提升跟蹤的精度。本算法在UAV123數(shù)據(jù)集上,在對比算法中取得最優(yōu)的效果。相較于經(jīng)典的DaSiamRPN跟蹤算法,所設(shè)計(jì)的跟蹤器在精確度曲線和成功率曲線上的得分分別提升了2.2%和4.7%。實(shí)驗(yàn)結(jié)果表明,本算法具有更高的精確度和成功率,能夠有效地緩解在無人機(jī)遙感目標(biāo)跟蹤中由于目標(biāo)分辨率低、目標(biāo)占比小和背景干擾較多而引起的跟蹤漂移和目標(biāo)丟失等問題,具有較好的應(yīng)用價(jià)值。在此基礎(chǔ)之上,將繼續(xù)對無人機(jī)遙感目標(biāo)跟蹤器進(jìn)行改進(jìn),提升跟蹤模型對全局信息的聚合能力,充分利用時(shí)空信息建立遠(yuǎn)距離特征之間的關(guān)聯(lián),使跟蹤器能夠?qū)崿F(xiàn)更加精確實(shí)時(shí)的無人機(jī)目標(biāo)的跟蹤。