姜文濤,崔江磊
1.遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105
2.遼寧工程技術大學 研究生院,遼寧 葫蘆島 125105
目標跟蹤是計算機視覺領域內一項具有挑戰性的任務,一般指通過運算設備在一段連續時間內的數字化圖像或視頻序列中,對單個或多個人為預設且具有明顯語義特征的數字圖像目標連續地進行位置檢測。目前這項技術在自動駕駛[1-3]、智能監控[4]、手勢識別[5-6]、軍事偵查[7]以及智慧城市[8]等技術領域內均有重要應用。近年來,目標跟蹤方向的發展迅速,技術迭代頻繁,且融合了信號、深度學習等多個領域的相關方法[9-10]。但是,目標跟蹤任務依然存在著諸如光照變化、目標遮擋、目標形變及旋轉等一系列難點,如何在復雜情況下對目標進行穩定準確地跟蹤仍是當前亟待解決的熱點問題。
2016年以來,孿生神經網絡以其優異的跟蹤速度和較高的跟蹤精度,獲得了國內外研究人員的大量關注。全卷積孿生神經網絡目標跟蹤算法[11](SiamFC)首次將Siamese Net應用到目標跟蹤領域,通過Siamese Like結構對模板與搜索區域進行相似度比較,在搜索區域中尋找目標的最大響應值,在速度和精準度上達到當年最優。受目標檢測算法Faster-RCNN[12]的啟發,高性能的孿生區域提議跟蹤算法[13](SiamRPN)將區域提議網絡(region proposal network,RPN)用于目標跟蹤,先通過Siamese結構對模板區域與搜索區域進行特征提取,在兩個區域的特征圖進行互相關操作后,將相關特征圖進行分組,分別進行分類和回歸操作,最后根據兩個分支做相似性度量,得到最終預測結果,該方法通過錨框對目標進行位置預測,省略掉圖像金字塔的運算過程,在提高跟蹤精度的同時,大大提高了跟蹤速度。深度網絡的孿生神經網絡跟蹤算法[14](SiamRPN++)將深層神經網絡應用到孿生神經網絡的目標跟蹤中,對殘差特征提取網絡中多層特征進行融合,并在多個特征層分別使用SiamRPN方法,過濾掉簡單樣本,從而提升網絡的判別能力,大大提高了網絡的跟蹤能力,但該方法受到RPN網絡本身的限制,在物體發生旋轉時,這種簡單的預測框會產生較大的損失,導致跟蹤網絡對目標的覆蓋效果不佳,跟蹤性能下降。在線更新模型的孿生跟蹤網絡[15](Update Net)通過訓練一個能夠在線更新模型的孿生目標跟蹤器,根據目標及當前狀態之前的若干幀對被跟蹤模型進行更新,提高了跟蹤過程中的魯棒性。同年,在線分割孿生神經網絡跟蹤方法[16](SiamMask)將目標分割的思想應用于目標跟蹤中,在Siamese網絡架構中額外增加Mask分支,在搜索區域中得到目標分割結果,通過最小外包矩形方法生成預測框。該方法雖然提高了預測精度,但由于Mask分支較為復雜,導致該網絡的訓練難度大,并且跟蹤速度大幅下降,無法滿足實時性?;谀繕斯烙嫷母呔若敯粜愿櫨W絡[17](SiamFC++)將目標物體與背景分離,對目標狀態進行估計以得到更精確的預測框,同時引入分類得分分支,避免出現類似RPN假陽性樣本,去除先驗知識以提高泛化能力。RESiam Net[18]在跟蹤之前對目標進行了8個方向的旋轉,從而加強跟蹤器對旋轉目標的跟蹤效果,但該方法對旋轉的處理較為復雜,導致跟蹤速度較慢,并且旋轉樣本較少,跟蹤效果仍存在提高的空間。
上述方法都是通過平行于坐標軸的矩形預測框進行跟蹤,但在實際跟蹤過程中,這種預測框對目標的覆蓋效果不佳,包含了過多的背景信息,導致跟蹤效果下降。雖然Update Net通過不斷對模板進行更新,SiamFC++對預測框進行質量檢測,以削減跟蹤時背景信息造成的影響,但由于平行坐標軸的矩形預測框在目標外觀覆蓋上存在根本性的缺陷,因此這些方法的效果仍存在很大的提升空間。針對上述問題,本文提出了一種基于孿生旋轉區域提議神經網絡的跟蹤算法。(1)在骨干網絡的不同階段對目標位置進行預測,并進行融合,避免細節特征的丟失。(2)引入AO-RPN[19](arbitrary-oriented region proposal network)網絡生成旋轉錨框,增加對目標的覆蓋率,抑制背景對目標產生的影響,提高目標旋轉姿態的跟蹤效果,充分挖掘覆蓋精度上的信息。(3)根據跟蹤任務對該網絡進行有針對性的數據集處理,并對損失函數進行調整,將該網絡有效引用在目標跟蹤任務上。(4)采取多分支聯合預測子網絡對目標的最終位置進行判斷,在提高跟蹤器泛化能力的同時降低網絡參數。在數據集OTB2015、VOT2016和VOT2018上評估本文算法,實驗結果表明,與主流算法相比,本算法具有更好的跟蹤效果,跟蹤速度達到88.5 frame/s。
現有的目標跟蹤算法通常使用淺層特征提取網絡作為跟蹤器骨干網絡,對目標與搜索區域的特征提取能力較弱,本文將特征提取能力較強的ResNet-50作為本文方法的骨干網絡,并將最后三個特征提取階段的特征圖輸入進AO-RPN網絡進行旋轉區域提議,這種處理方式能夠提取到更具有判別力的特征,并且能夠保留特征提取中的部分細節,提高跟蹤器在跟蹤過程中的精確率。
同時,在目標旋轉時,目標的深度特征將會產生一定變化,如果僅通過區域提議網絡進行提議跟蹤,則可能導致跟蹤漂移,因此引入AO-RPN網絡和旋轉區域對齊操作將對待搜索區域進行旋轉矯正,有效避免漂移產生,提高跟蹤器在跟蹤過程中的成功率。
最后,由于VOT2018等較新的數據集采用更符合人類直覺的最小外包矩形框對目標的位置進行標記,如果僅輸出水平的外包矩形框將降低跟蹤器在VOT2018等數據集中的性能,因此本文采用多分支聯合預測網絡對跟蹤的最終結果進行預測,其中角度分支則參與預測目標最小外包矩形的旋轉角度,從而有效提高跟蹤過程中對目標的覆蓋率。
因此,本文提出的旋轉區域提議孿生神經網絡結構如圖1所示,將用于目標檢測的任意方向區域提議網絡(AO-RPN)與用于特征提取的殘差孿生神經網絡進行結合,同時在多個特征提取層使用AO-RPN網絡進行提取,將候選區域融合后,通過Align操作對結果區域進行旋轉對齊。最后通過分類預測分支、位置預測分支、尺寸預測分支和角度預測分支對目標位置進行預測,從而實現端到端的訓練。

圖1 旋轉區域提議網絡孿生神經網絡圖Fig.1 Siamese network tracing algorithm of rotating region proposal network
在特征提取網絡上,本文將殘差神經網絡最后兩個塊的步長置為1,并增加空洞卷積,保證最后三個特征提取塊輸出的分辨率相同,以方便不同階段提取特征的融合。傳統的區域提議網絡會生成一系列垂直于水平坐標軸的錨框,一般記為( x,y,w,h)以對目標位置進行標記。旋轉區域提議孿生神經網絡通過特征網絡提取到特征后,通過AO-RPN網絡目標進行區域提議,得到三個特征提議元組,其中class用以對正負樣本進行區分,bbox和傳統的錨框相同,包含( )x,y,w,h四個元素,分別代表旋轉提議錨框的中心坐標和尺度。在旋轉角度為α的情況下,由錨框和旋轉分支得到的旋轉區域表示為:

式中,(x,y)為水平錨框中心點坐標,w為旋轉后錨框的寬度,h為旋轉后錨框的高度,Dα為旋轉錨框的旋轉因子,Ds為旋轉錨框的放縮因子,( )xi,yi,i∈{0,1,2,3}為bbox計算得到的四個頂點坐標,而( x'i,y'i),i∈{0,1,2,3}為旋轉放縮處理后錨框的四個頂點坐標。而rotate為由4個旋轉放縮因子( v'1,v'2,v'3,v'4)組成的元組,記為:

式(3)為旋轉錨框的一般表示方法,式(4)為rotate分支產生的旋轉放縮元組,將式(4)代入式(3)可以得到一階旋轉提議錨框的表示方法為:

每個特征圖通過AO-RPN網絡后,可以得到1k數量一階旋轉提議錨框,由于本文算法從3個不同的特征提取層進行錨框預測,因此可以得到3k個錨框對應的特征區域。接下來需要將旋轉錨框的映射在特征圖上的特征矩陣通過Align操作,進行特征圖和錨框的映射變換,將一個旋轉錨框對應的特征矩陣轉換成尺寸為W×H×C的特征圖,以便在多分支聯合預測子網絡進行輸入。
在多分支預測子網絡中,輸入特征的通道數C和特征提取網絡提取的特征通道數保持一致,假設輸入到多分支子網絡的一個特稱圖的尺寸為W×H,沒有經過映射變換的特征圖記為Featureori,每個特征點對應的坐標為( xori,yori,cori),完成映射變換可以輸入到多分支預測子網絡的特征圖記為Featurein,每個特征點對應的坐標記為( xin,yin,cin),可以得到映射變換公式:

由于在映射變換時,涉及到旋轉和放縮處理,因此未被映射到的點通過高斯插值進行處理,經過映射變換后,可以得到3k個尺寸為W×H×C的特征圖。Align層將對應特征提取網絡特征,根據旋轉錨框通過放縮變換進行對齊,將錨框對應特征圖轉化為與多分支預測網絡輸入結構相同的特征圖。
得到新的特征圖集合后,對3k個特征圖進行篩選后選擇置信度高的512個特征圖,將特征圖集合作為Input輸入到多分支預測網絡即可得到預測結果。如圖2所示,多分支預測網絡可以被分為四個子網絡,分別被用以預測分類情況、跟蹤框中心坐標、跟蹤框尺度和旋轉角度。

圖2 多分支預測頭結構Fig.2 Multi-branch prediction head structure
對于角度預測分支和分類分支,采用兩個全連接層進行預測,對于中心目標和尺度則采用兩個殘差塊、四個卷積層和均值池化層進行處理。先通過角度預測分支、中心點預測分支和尺度與預測分支對跟蹤結果的最終位置進行預測,之后再通過分類分支對預測框進行篩選,并得到最終結果。如圖3,殘差神經塊的結構由三個卷積層構成。

圖3 殘差神經網絡塊結構Fig.3 Residual network block structure
經過多分支預測結構后,可得到由一個五元組( x,y,w,h,α)構成的結果,再針對不同數據集對應的Benchmark,對輸出結果進行調整,即可得到最終結果。
對于不同的數據集,由于數據集的目標和難度不同,結果的標注方式也有所差異,對于OTB2013、OTB2015、TC128、VOT2015~VOT2017等數據集,均采用( )
x,y,w,h
的結構對結果進行標記,而VOT從2018年之后,則采用最小外包矩形,通過給出矩形的4個頂點來對預測結果進行標記。
對于4頂點標記的最小覆蓋矩形框的結果形式,在通過多分支預測網絡得到( )x,y,w,h,α,可以得到旋轉前的結果為
旋轉后的結果矩形框記為( x'i,y'i),i∈{0,1,2,3},其中( x'i,y'i)的計算方式為:

對于( x,y,w,h)類型的標記結果,則需要在得到最小外包矩形后,將該矩形的水平外包矩形結果輸出。
本文算法使用Python3.7,深度學習框架PyTorch實現,實驗環境為Ubuntu 16.08 LTS,處理器為Intel Core i9-9900,3.6 GHz,八核CPU,64 GB內存,顯卡為NVIDIA Tesla V100 16 GB。本文使用GOT-10K、YoutubeBB、HRSC2016和ILSVRC-VID/DET數據集作為訓練數據集。
本文算法使用SGD隨機梯度下降法進行訓練,其中設置權重衰減系數為4.5×1E-4,學習率以指數方式從1E-2衰減到1E-5,動量系數為0.92,輸入模板尺度為127×127,搜索區域模板尺度為255×255,采集通道數為3。
實驗采用目標跟蹤公開數據集OTB2015、VOT2016和VOT2018對本文提出的目標跟蹤方法進行評估與分析,包括了光照變化、尺度放縮變化、遮擋、目標變形、出視野、低分辨率等11種不同類別的跟蹤場景。采用一次通過評估的方式來計算跟蹤器準確率和成功率,將準確率、成功率、魯棒性、平均覆蓋率以及跟蹤速度作為跟蹤器性能的評估依據,對比的基線算法為SiamRPN,并在圍繞不同跟蹤場景進行了性能分析,指標的計算方法如下。
(1)跟蹤精確率一般就是指中心位置誤差(center location error,CLE),它是指預測的目標中心與真實的目標中心之間的歐式距離,其計算方法如公式(8)所示:

(2)跟蹤成功率是用以判斷跟蹤器在整個視頻序列中跟蹤效果的衡量指標,一般當前幀的預測區域與真實區域的交并比指數超過0.5的時候,記為在當前幀下跟蹤器跟蹤成功。將一段視頻序列中的成功幀數量記為M,該視頻序列的總幀數記為N,則跟蹤成功率的計算方法如公式(9)所示:

(3)跟蹤魯棒性是記錄算法在相同視頻序列下跟蹤出現失敗的次數的指標,在跟蹤過程中,某一幀的精確率低于0.5時,認為算法跟蹤失敗。VOT官方定義視頻的平均魯棒性記為F()i,k,式中k為重復測量次數,可以得到視頻的平均魯棒性計算方法,如公式(10)所示:

(4)平均覆蓋率(expected average overlap,EAO)也是VOT競賽中判定跟蹤器跟蹤性能的重要指標,定義視頻序列中,第Ns幀的平均覆蓋率為ΦNs,計算方法如公式(11)所示:

其中,Φi為預測框與真實框之間的精確率,一般隨著視頻幀數的增加,平均覆蓋率也會有相應降低,因此Φi≤1,并可以計算得到EAO的表達式,如公式(12)所示:

(5)平均跟蹤速度是算法在跟蹤過程中,在不同視頻序列中跟蹤速度的平均值,設在第i個視頻序列中的跟蹤速度為Ρi,則該跟蹤器的在數據集上的平均跟蹤速度為:

由于本文算法從特征提取網絡、區域提議網絡和特征融合三個角度對SiamRPN進行了改進,為了確定不同改進方法對跟蹤性能的貢獻,本文在VOT2018數據集上進行了消融實驗。如表1所示,本文通過使用不同的特征提取網絡,取消引入AO-RPN和多分支預測網絡,取消在不同特征層之間進行特征融合共三個角度對跟蹤模型進行了實驗,結果顯示對跟蹤性能提升最明顯的是引入AO-RPN和多分支預測網絡,其次是使用深度特征提取網絡和對多階段的跟蹤結果進行融合。在進行消融實驗的過程中,由于SiamRPN的訓練方法破壞了深層特征提取網絡的平移不變性,學習到的特征會存在位置偏見。因此,本文算法在使用深層特征提取網絡時,將正樣本按照均勻分布的方法圍繞中心點進行偏移,以緩解破壞平衡不變性對位置偏見產生的影響。

表1 消融實驗結果Table 1 Results of ablation experiment
如表1所示,編號3為本文所提方法在VOT2018上的性能數據,引入了現代化特征提取網絡、多階段結果融合模塊和AO-RPN與多分支預測網絡。編號9為基線算法的性能數據,骨干網絡為AlexNet,未引入多階段結果融合模塊和AO-RPN與多分支預測網絡。
在表1中,將編號4、編號5和編號9的實驗數據進行比較,可以發現不同的特征提取網絡對跟蹤器的影響不同,較深的ResNet-50和VGGNet-16能夠有效提升跟蹤器的精確率,這是由于增加骨干網絡的深度可以提取到更具有判別力的特征,從而有效提升跟蹤網絡的跟蹤性能。
將編號7和編號9的實驗數據進行比較,可以看到以AlexNet為骨干網絡,引入多階段結果融合模塊時,精確率提升了0.4個百分點,提升效果不大,這是由于AlexNet的層數較淺,提取到的特征差別不大,在此基礎上進行特征融合并不能取得較好的效果。但是,將編號2和編號4的實驗數據進行比較,可以發現以ResNet-50作為特征提取的骨干網絡時,引入多階段結果融合模塊可以提升2.7個百分點,這是由于在深層特征提取網絡中,引入多階段結果融合模塊可以保留目標的細節特征,提高跟蹤器的跟蹤效果。
將編號8和編號9的實驗數據進行比較,可以看到在引入AO-RPN和預測網絡后,雖然精確率有所增加,但是魯棒性有所降低,這是由于AO-RPN對目標的預測框覆蓋率較高,雖然在更新模板的時候會對減少背景的影響,但降低了跟蹤器的泛化性,同時在出現相似目標的時候也很難根據背景信息進行判別,因此在引入AO-RPN和多分支預測網絡時,本文方法的魯棒性會略微下降。
通過消融實驗可以得出,特征提取網絡、區域提議網絡和特征融合三個改進模塊均能夠有效提升跟蹤器的跟蹤效果。
為了客觀并且有針對性地驗證本文算法的有效性,本文在3個被廣泛應用的跟蹤基準數據集上對算法的性能和速度進行實驗,并與其他的優秀算法進行了對比分析,最后在一些特殊場景的數據集上對算法的泛化能力進行了驗證。
本文選擇用于對比實驗的算法有SiamFC,該方法繼SINT后首次將孿生神經網絡用于目標跟蹤的算法模型,避免了深度學習領域在目標跟蹤應用上精度高但速度慢的缺點,在極大提升算法性能的同時,保持著較高的跟蹤速度,為后續深度學習在目標跟蹤方向上的應用提供了思路。SiamRPN,該方法將區域提議網絡用于目標跟蹤,拋開傳統圖像金字塔式的匹配模式,在提高跟蹤速度的同時提高了精準度。SiamRPN++,首次將深層特征提取網絡用于目標跟蹤,解決了平衡不變性對位置偏見的影響,同時提高了算法的跟蹤性能。DaSiam‐RPN[20],引入了更多數據集來充實正樣本數據,提高了算法的泛化能力,同時擴充了困難樣本來提高算法的判別能力,設計了干擾物感知模型,通過減小跟蹤器對干擾物的響應,從而提高跟蹤器的準確率。SiamCAR[21]通過無錨框策略將回歸分支轉化為中心點及中心點到錨框的距離,再將結果分類得到最佳目標的中心點,之后提取錨框的坐標,從而實現跟蹤。SiamSE[22]通過構造一個等比例變換的縮放模塊,為SiamFC構造了一個改進模式,大大提高了跟蹤性能與效率。
2.4.1 OTB2015數據集實驗結果
OTB2015數據集是目標跟蹤領域通用的經典數據集之一,包括了光照變化(illumination variation,IV)、尺度放縮變化(scale variation,SV)、遮擋(occlusion,OCC)、目標變形(deformation,DEF)、運動模糊(motion blur,MB)、快速移動(fast motion,FM)、平面內旋轉(in-plane rotation,IPR)、平面外旋轉(out-of-plane rotation,OPR)、離開視野(out-of-view,OV)、相似背景(background clutters,BC)、低分辨率(low resolution,LR)共11種不同類別的跟蹤場景。在實驗中,本文采用一次通過評估(one-pass evaluation,OPE)的方式來計算跟蹤器準確率和成功率,將準確率、成功率以及跟蹤速度作為評判跟蹤器性能的評估依據。
表2為本文算法與其他算法在OTB2015數據集中的實驗結果對比,經過對比實驗可知,在引入深度特征提取網絡、多階段融合和AO-RPN加多分支預測網絡之后,本文方法相較于SiamRPN在OTB2015數據集上,成功率提高了8.5個百分點,準確率提高了6.4個百分點,同時在近年同類型方法中成功率和準確率都達到最優水平,同時跟蹤速度超過了DaSiamRPN方法,滿足跟蹤方法對實時性的要求。

表2 OTB2015數據集的對比實驗Table 2 Comparative experiment on OTB2015 dataset
圖4為本文算法在OTB2015數據集上與其他相關算法進行對比實驗時,部分難度較高視頻序列的跟蹤情況。Motor Rolling是一個以旋轉為主的目標跟蹤視頻序列,在34幀的時候,由于目標出現小幅度旋轉,可以看到SiamRPN和SiamRPN++已經在跟蹤時出現了偏移,而引入AO-RPN的網絡對旋轉的跟蹤性能更好。在84和100幀時,可以發現其他三個跟蹤器已經不能較好地對目標進行覆蓋,而本文算法能夠對目標進行非常好的覆蓋,雖然這段時間目標發生了旋轉和放縮變換,但由于本文方法用了多階段結果的融合方法,對尺度變換和旋轉變換有較高的魯棒性,因此能在這個視頻序列中取得較好的成績。

圖4 對比算法在OTB2015序列上的跟蹤結果對比Fig.4 Comparison of tracking results of various algorithms on OTB2015
在Box序列中,可以看到在150幀雖然跟蹤器對目標的覆蓋效果都較好,但由于該視頻中目標的形變和旋轉較多,在237幀的時候,SiamRPN已經在跟蹤時產生了偏移。在349幀的時候,光照、旋轉和放縮變化同時發生,SiamRPN和SiamRPN++在跟蹤中已經出現丟失目標的情況,但本文方法通過深度骨干網絡和多分支預測網絡提高了模型的泛化能力,能夠在較為復雜的情況下保持跟蹤狀態。在Liquor和Tiger2序列中,部分遮擋和完全遮擋的情況非常多,可以看到Liquor的第879幀和Tiger2的264幀、355幀,由于遮擋導致目標的信息多少,DaSiamRPN和SiamRPN甚至已經出現了目標丟失的情況,但由于本文的特征提取網絡較深,感受野較大,因此能夠在復雜的情況下保持跟蹤效果。
2.4.2 VOT2016數據集實驗結果
VOT2016數據集是由60個視頻序列構成的基準數據集,相較于OTB2015,該數據集的視頻序列難度更高,更具有挑戰性。在該數據集上測試更能夠體現算法在困難情況下的跟蹤效果,因此在該數據集上,本文選擇了SiamRPN、DaSiamRPN、SiamRPN++、SiamFC和SiamSE進行對比實驗。
表3為本文算法與其他算法在VOT2016數據集中的實驗結果對比,由實驗可知,經過改進后,本文方法相較于SiamRPN在VOT2016上,EAO提高了1.4個百分點,精確率提高了4.1個百分點,并保持了較高的跟蹤速度,同時在近年同類型方法中成功率和準確率都達到最優水平。

表3 VOT2016數據集的對比實驗Table 3 Comparative experiment on VOT2016 dataset
圖5為本文算法在VOT數據集上與其他相關算法進行對比實驗時,在部分視頻序列上的跟蹤情況。可以看到在Soldier這種復雜背景的視頻序列中,深度特征提取網絡能夠發揮較好的效果,一方面能夠對目標保持較好的覆蓋率和跟蹤準確度,另一方面不會出現目標丟失的情況,而SiamFC已經徹底丟失了目標。在Bmx這種旋轉變換較多的視頻序列,通過旋轉區域提議網絡,本文算法能夠對目標產生非常好的覆蓋效果,在53和60幀,本文算法能夠對目標進行完整的覆蓋,而SiamFC和SiamRPN在18幀已經開始出現了目標丟失的情況,而SiamSE則開始對目標的衣服進行跟蹤。在光照的情況下,可以看到由于使用深度特征提取網絡并對結果進行融合,能夠有效提高覆蓋率和準確率,相較于其他算法,本文的方法對目標的覆蓋率更好。同樣,在大尺度放縮變換時,本文方法的感受野更大,泛化能力更高,在103幀攝像機快速拉進的時候能夠保持目標的跟蹤,并在拉遠時,跟蹤器能夠不丟失目標,在保持高準確率和覆蓋率的情況下保持較高的跟蹤速度,本對比實驗能夠體現改進方法的有效性。

圖5 對比算法在VOT2016序列上的跟蹤結果對比Fig.5 Comparison of tracking results of various algorithms on VOT2016
2.4.3 VOT2018數據集實驗結果
VOT2018數據集是由60個視頻序列構成的基準數據集,與OTB2015和VOT2016不同的是,該數據集改變了結果的標注方法,通過目標的最小外包矩形框來對結果進行標記,這種標記方法雖然更貼近真實跟蹤場景,但大大提高了跟蹤難度,本文在VOT2018數據集上將旋轉區域提議網絡的孿生神經網絡跟蹤算法與SiamFC、SiamRPN、SiamRPN++、DaSiamRPN和SiamCAR進行對比實驗,EAO比SiamRPN算法提高了3.4個百分點,精確率提高了9.9個百分點,同時在對比實驗中精確率達到最優水平,EAO達到次優水平。該對比實驗能夠驗證,在改變數據集的標注形式下,由于本文使用旋轉區域提議網絡進行跟蹤,精確率仍沒有明顯下降,覆蓋率僅下降1.9個百分點,因此可以體現改進模塊的有效性。

表4 VOT2018數據集的對比實驗Table 4 Comparative experiment on VOT2018 dataset
2.4.4 旋轉場景視頻序列實驗結果
本文所提方法在SiamRPN系列方法的基礎上,針對目標跟蹤過程中的旋轉問題,提出了AO-RPN方法,為了測試跟蹤器在旋轉場景下的跟蹤性能,本文在OTB數據集中挑選了51個包含旋轉因素的視頻序列進行測試。如表5所示,在引入現代化深度特征提取網絡、旋轉區域提議網絡以及多分支預測網絡后,本文在包含旋轉因素的視頻測試序列中,成功率達到0.702,在基線算法的基礎上提高了11.2個百分點,比第二名高出3.7個百分點。精確率達到0.937,在基線算法的基礎上提高了13.4個百分點,比第二名高出3.4個百分點??梢钥闯霰疚姆椒ㄔ谛D場景下的性能指標較好,遠高于基線算法對旋轉目標的跟蹤性能。同時,在SiamRPN系列方法中,本文對旋轉場景的跟蹤效果也處于較優水平,能夠體現出本文所提模塊對旋轉場景跟蹤效果提升的有效性。

表5 算法在旋轉序列中的實驗結果對比Table 5 Experimental results comparison of algorithms on rotation sequence
2.4.5 其他特殊場景視頻序列實驗結果
最后,作為通用型跟蹤器,為了驗證本文在一些特殊環境與情況下的跟蹤效果與跟蹤性能。本文將OTB和VOT中一些特殊場景的視頻序列進行討論,并與DaSiam、SiamRPN和SiamRPN++進行對比實驗。
如圖6,水下生物跟蹤視頻與演唱會的跟蹤視頻面臨的挑戰近似,水下跟蹤往往由于亮度和折射原因,并且水下生物具有一定的保護色,因此水下跟蹤是一個相似背景下的目標跟蹤問題。在面臨相似背景的目標跟蹤時,提高感受野大小,并且加深特征提取網絡可以在目標跟蹤時有效地對目標進行信息提取,再加上多層特征結果融合。可以看到,由于SiamRPN僅使用了Alex作為特征提取網絡,導致在跟蹤過程中只能對響應最高處進行跟蹤,對觸須等細節位置覆蓋率較差。而Siam‐RPN++雖然采用了深層特征提取網絡,但是在訓練過程中沒有對充實正樣本,提高跟蹤器的泛化能力,因此跟蹤效果較差,本文方法由于采取了深層網絡,增加了多分支預測網絡,因此對細節的提取程度更高,能夠在相似背景下對目標進行更精準地覆蓋與跟蹤。

圖6 對比算法在特殊序列上的跟蹤結果Fig.6 Comparison of tracking results of various algorithms on special
Matrix是OTB2015中一個較難視頻序列,其中復雜情況包含光照變化、快速運動、遮擋、形變、旋轉等,并且多種情況在非常短的時間內共同作用于目標,可以看到由于采用了AO-RPN網絡和多分支預測網絡,本文提出的方法對目標的跟蹤能力更強,同時加深特征提取網絡,能夠提取到更高層的特征,感受野更大,最后對選取多層特征進行預測,提取置信度最高的結果。因此,在93幀SiamRPN已經出現了目標丟失的情況,而DaSiam和SiamRPN++對目標的覆蓋已經產生偏移,但本文的方法仍能精準地對目標進行覆蓋。
在Skating1序列中,分別出現了相似背景、光照變換、尺度變換等復雜,在相似背景和光照變化的情況上,深度特征提取網絡和多層特征結果融合能夠有效地對這些情況進行處理,在目標旋轉或形變的時候,AO-RPN和多分支預測網絡對跟蹤結果的幫助更大,因此可以看到在357和311幀的情況下,由于光照原因目標與背景極為相似,本文方法可以有效對目標進行跟蹤,而SiamFC和SiamRPN++已經丟失了需要跟蹤的目標。
針對傳統區域提議網絡應用于目標跟蹤時,目標旋轉會對跟蹤器的跟蹤性能造成較大影響這一問題,本文提出了一種旋轉區域提議孿生神經網絡跟蹤算法,先通過深層骨干網絡提取目標與搜索區域的特征,再通過AO-RPN結構對旋轉區域進行預測,最終通過旋轉預測頭對目標進行跟蹤,這種跟蹤方法能夠在保持高跟蹤速度的同時,大幅提高跟蹤精度。通過在OTB2015、VOT2016和VOT2018公開數據集上進行實驗,并與多種跟蹤器進行比較分析。結果表明,本文所提出的旋轉區域提議網絡跟蹤模型在遮擋、旋轉、復雜背景、光照變化等場景的跟蹤性能都優于目前綜合性能較好的主流算法,并且跟蹤速度快,滿足實時性要求。雖然本方法的跟蹤性能較好,但并沒有對模板進行更新處理,如何在跟蹤過程中更新并得到一個高置信度的跟蹤模板,將是下一步的研究方向。