周益飛 徐文卓
1(武漢大學信息中心 湖北 武漢 430072)2(北京電子工程總體研究所 北京 100854)
隨著計算機硬件水平、視頻圖像處理技術以及人工智能技術的迅猛發展,目標跟蹤[1-2]在視覺監控、增強現實、人機交互、自動駕駛等領域[3]應用也越來越廣泛。目標跟蹤是在連續的視頻序列中,根據給定的第一幀圖像的目標坐標位置來計算目標在下一幀圖像中的確切位置。目前視覺跟蹤已經取得了非常大的進展,有許多優秀的跟蹤算法用于解決跟蹤問題,但在目標運動的過程中,由于尺度變化、形變、遮擋和復雜背景等眾多因素的影響,開發一個魯棒的跟蹤算法仍非常具有挑戰性。
為了解決上述難題,實現魯棒的跟蹤算法,研究者們提出了很多解決辦法?;谙嚓P濾波的跟蹤算法KCF[17]通過循環移位來擴充樣本集數量,提高了跟蹤速度和跟蹤效率。SRDCF[12]使用空間正則化來增大特征學習的區域,Staple[18]提出顏色直方圖的方法,ACFN[13]提出注意力機制相關濾波網絡,使用注意力網絡從多個特征提取器中選擇最優的模塊用于跟蹤目標。CSR-DCF[14]利用顏色直方圖約束相關濾波學習,構建前景空間可靠性圖。還有更多的基于深度學習的相關濾波跟蹤算法如DeepSRDCF[11]、CCOT[19]等。近年來,孿生網絡被廣泛應用于視覺跟蹤。SiamFC[4]第一個提出用全卷積孿生網絡結構來解決跟蹤問題。CFNet[5]將相關濾波(CF)整合為一個網絡層,并將其嵌入到基于孿生網絡的框架中。Dsiam[6]使用動態孿生網絡快速變換學習目標外觀變化,并處理來自先前幀的背景抑制。SiamRPN/DASiamRPN[7-8]使用區域推薦網絡將目標分類和目標狀態估計進行結合。
然而,基于孿生網絡的目標跟蹤算法通過目標與搜索區域的相似性學習得到響應圖,通過響應圖最大值來計算目標狀態。在目標發生尺度變化或復雜運動等情況下,目標周圍出現干擾因素,響應圖的最大值可能由次峰值逐漸增大形成,此時使用不準確的響應最大值進行計算目標可能的位置,會導致跟蹤模型漂移。
基于上述分析,本文提出了一種簡單有效的基于響應正則化的孿生網絡目標跟蹤算法,用于魯棒目標跟蹤。本文從跟蹤響應正則化的角度出發,在SiamRPN網絡的基礎上,抑制潛在的子峰,同時聚合最大峰值響應,通過在分類模塊中使用更準確的響應值來計算目標的狀態,更準確地判斷目標的前景和背景,降低模型漂移的風險。本文在OTB2013、OTB100和VOT2016上進行了大量的實驗,同時與當前主流的目標跟蹤算法進行了詳細對比分析。實驗結果表明,本文的算法在尺度變化和快速運動時具有更好的魯棒性。
孿生網絡將目標圖片與待搜索圖片進行逐塊區域對比,從左往右,從上至下。孿生網絡跟蹤算法提出了用一個函數f(z,x)定義z(模板幀)和x(檢測幀)的相似度,最終得到相似度分值表(響應圖),相似度較高的地方分值較高,反之相似度較低的地方分值較低。
在孿生區域推薦網絡跟蹤算法中,模板幀和檢測幀的相似度匹配過程分為分類分支和回歸分支兩個分支。分類分支用來判讀錨點框是前景或是背景,回歸分支用來得到錨點框的位置偏移量。核心公式如下:
式中:z是第一幀所給出的目標框,x可以看為當前幀的搜索區域。“*”表示互相關層,可以看成是φ(z)在φ(x)上滑動搜索,最后得到一個響應圖,圖上最大值對應的點就是算法認為的目標中心所在位置。cls表示分類分支,reg表示回歸分支。
在孿生網絡的模板幀與檢測幀的相似度匹配結果中可能存在具有干擾性的最大值,尤其在孿生區域推薦網絡中,分類分支決定著候選框為前景或是背景,這些具有干擾性的響應圖最大值可能會影響候選框的判斷,進而帶來跟蹤算法的漂移。因此需要計算出更可靠的響應值最大值,減少分類分支的錯誤判斷概率,以提高跟蹤算法的魯棒性。
為了解決此問題,本文基于孿生區域推薦網絡的基礎之上,在分類分支部分增加響應正則化模塊將峰值集中到目標幾何中心,并與原響應值進行融合得到新的響應圖。算法如圖1所示。
我們直接操作預測的目標響應圖,并重新公式化為:
[φ(x)]cls*[φ(z)]cls
(2)

圖1 算法框架圖

式中:M表示應用于每個響應圖的響應正則化模塊,通過使用響應正則化確保響應圖有以目標為中心的單個最大值。M([φ(x)]cls*[φ(z)]cls)表示響應值經過響應正則化之后的結果,[φ(x)]cls*[φ(z)]cls表示分類分支中模板幀與檢測幀的原響應圖。
響應正則化模塊對每個通道分別提取響應圖的水平和垂直方向的最大值,然后求和將跟蹤響應圖上的最大值集中到目標幾何中心[9-10]。本文在孿生網絡的分類分支輸出的目標響應圖上,在水平方向找到每一行的最大值并為該行的所有像素分配最大響應值,在垂直方向找到每一列的最大值并為該列的所有像素分配最大響應值。響應正則化模塊之后響應圖的元素值計算如下:

本文通過離線訓練的方式訓練模型,并通過最小化損失函數來獲取最優模型。使用反向傳播BPTT和隨機梯度下降SGD進行梯度傳播和參數更新。如下:
loss=Lcls+Lreg
(5)
式中:Lcls分類損失;Lreg表示回歸損失。
分類損失函數如下:
l(y,v)=log(1+exp(-yv))
(6)
回歸損失函數為:
算法流程:
輸入:視頻序列[t],和第一幀的真值框,坐標位置p1。
輸出:目標坐標p2,p3,…,pn。
1 Fort=1:ndo
2 ift==1 then
3 根據p1學習模板幀目標的特征,分為分類特征和回歸特征
4 else
5 提取檢測幀的特征,分為分類特征和回歸特征
7 對模板幀和檢測幀的分類特征和回歸特征分別進行相關匹配
8 對于分類分支得到的響應圖進行響應正則化操作
9 融合分類分支經過響應正則化后的響應圖和原響應圖得到新的響應圖
10 根據響應圖得到綜合的分類結果和回歸結果,進而得到排行前k的候選框
11 根據候選框選擇策略得到第t幀目標的位置pt
12 end if
13 end for
為了驗證本文算法的性能,本文將在3個標準數據集上運行實驗,包括OTB2013[15]、OTB100[16]和VOT[20]等,對比算法包括SiamRPN[7]、DeepSRDCF[11]、SRDCF[12]、CFNet[5]、SiamFC[4]、ACFN[13]、CSRDCF[14]、Staple[18]、CCOT[19]和KCF[17]等。
在本文的實驗中,計算機的配置為一臺帶有Intel i7 3.6 GHz CPU和GeForce GTX 1060 Ti GPU的PC機。
本文的網絡與SiamRPN具有相同的結構,使用AlexNet的網絡作為基礎網絡。本文網絡結構在ILSVRC15視頻對象檢測數據集上進行離線預訓練,使用動量為0.9的隨機梯度下降(SGD)從零開始訓練網絡,并將權值衰減設置為0.000 5。學習速率的指數從10-2至10-5衰減。訓練周期為50個周期,最小批量為32。
對于上述方法,我們在OTB2013和OTB100上用跟蹤精度和跟蹤成功率來評估所有的算法。
OTB的兩個標準評價指標是成功率(AUC)和精度(Precision)。精度是指跟蹤框和真值框的歐氏距離在給定閾值以內條件下的幀數占總幀數的百分比。采用閾值dis=20像素作為評價和對比標準。成功率表示跟蹤框和真值框之間的重疊率大于閾值時,幀數占總幀數的百分比。通常取閾值為0.5。
在VOT2016數據集上,算法的性能通過準確率(Accuracy)、魯棒性(Robustness)和平均重疊期望(EAO)來進行評估。
3.3.1在OTB2013與OTB100上對比結果
通過與SiamRPN[7]、DeepSRDCF[11]、SRDCF[12]、CFNet[5]、SiamFC[4]、ACFN[13]和CSRDCF[14]等眾多主流的跟蹤器在OTB 2013/100數據集上進行比較,我們對所提出的算法進行了評估。SiamRPN、CFNet和SiamFC是最新的基于孿生網絡的跟蹤器,CSR-DCF和SRDCF使用注意機制,SiamRPN和DeepSRDCF是深度跟蹤器。在第一幀中,所有跟蹤器都初始化為真值狀態,并報告平均成功率。單路徑評價(OPE)的精度圖和成功率圖如圖2所示。表1總結了更多的結果。比較表明,我們的算法在這兩種OTB基準上的實時跟蹤性能都是最優的。

(a) OTB2013精度圖

(b) OTB2013成功率圖

(c) OTB100精度圖

(d) OTB100成功率圖圖2 OTB2013和OTB100數據集上成功率和精度對比

表1 OTB成功率、精度和平均運行速度的對比結果
(1) 在OTB2013上對比結果。OTB-2013的結果顯示,我們提出的算法成功率和精度達到66.3%和88.9%,排名第一。在使用Siamese網絡的跟蹤器中,我們的性能優于SiamRPN、CFNet和SiamFC,在成功率評分中分別相對提高了0.5%、5.2%和5.6%,在精度方面分別提高了0.5%、8.2%和8%。與使用其他方法的跟蹤器相比,我們的性能優于CSR-DCF和ACFN,在成功率評分中分別相對提高了7%和5.6%,在精度方面分別提高了8.6%和2.9%。
(2) 在OTB100上對比結果。在OTB-100的結果中,我們提出的方法達到了最優,在成功率評分和精度上比排名第二的跟蹤器SiamRPN提高0.4%和0.7%。在使用孿生網絡的跟蹤算法中,本文的算法性能優于SiamRPN、CFNet和SiamFC。與SiamFC、CFNet和SiamRPN相比,將響應正則化整合到我們的跟蹤器中,使得我們的成功率得分和精度值提高到64.1%和85.8%,說明了響應正則化在實際跟蹤中的有效性。而與其他方法的CSR-DCF和ACFN相比,本文的算法不僅在AUC評分和精度上得分更高,在速度上也更快。
(3) 運行速度。在表1中的平均速度上,前三名是SiamRPN算法、SiamFC算法和本文的算法,每秒傳輸幀數分別達到了160、86以及80。這三個算法中,本文算法的速度為80幀/s,低于前兩個算法,這是因為本文算法采用響應正則化策略增加了計算負載。盡管如此,本文的算法在速度上接近于SiamFC算法,但是本文的算法在跟蹤的精度和成功率得分上相比SiamFC有更大的優勢。
3.3.2在VOT2016上對比結果
圖3和表2展示了在VOT2016中我們的算法與SiamRPN[7]、CSRDCF[14]、CCOT[19]、Staple[18]、DeepSRDCF[11]、SRDCF[12]、SiamFC[4]和KCF[17]的對比結果。本文算法的EAO值為0.348 4,排名第一。SiamRPN雖然速度比我們的跟蹤器快了很多,但是在EAO和Failure方面低了很多,這表明引入的響應正則化提高了跟蹤的性能。此外我們的跟蹤器較CCOT、DeepSRDCF和CSRDCF速度上快了很多。這驗證了我們的算法具有較快的處理速度和優異的性能,顯示出了實際跟蹤應用的潛力。

圖3 VOT2016數據集上對比結果

表2 VOT2016對比結果
(1) 快速運動(FM):圖4(a)展示了4個算法在目標經歷了快速運動的視頻序列Tiger1中的跟蹤結果截圖。在Tiger1視頻序列中,由于目標的快速走動和攝像機抖動等因素影響,SiamRPN、CFNet和SiamFC均一定程度的丟失目標,本文的算法能很好地跟蹤目標。
(2) 尺度變化(SV):圖4(b)展示了4個算法在目標經歷了尺度變化的視頻序列Lemming中的跟蹤結果截圖。在Lemming視頻序列中,由于尺度變化和光照影響,CFNet和SiamFC丟失目標,而本文的算法和SiamRPN能保持對目標的穩定定位。
在這2個視頻序列中,本文的算法均能準確地定位目標,而SiamRPN、CFNet和SiamFC均有一定程度的丟失。本文提出的算法性能良好的原因主要是我們關注目標的干擾響應,對于目標響應進行適當調整,以減少這些特征對于變形、旋轉和背景雜波引起的外觀變化的干擾影響。

(a)

(b)

圖4 定性分析結果
在跟蹤方法中,響應圖的選擇對最終的跟蹤算法結果影響至關重要。本文提出的基于響應正則化的孿生網絡目標跟蹤算法是一種簡單且具有較強魯棒性的目標跟蹤算法。本文使用了響應正則化減少孿生網絡分類分支中干擾信息的影響,增強算法對尺度變化和快速運動時差異的魯棒性。最后在OTB2013、OTB100以及VOT2016上的全面評估證實了本文提出的算法相比目前主流的一些跟蹤算法取得了較好的效果。為了獲得更好的準確率和時效性,未來我們將著手使用深層網絡來解決目標跟蹤問題。