基于雙孿生網絡的自適應選擇跟蹤系統

2020-06-18 03:41:26張騰飛周書仁

計算機工程 2020年6期

張騰飛,周書仁,彭建

(長沙理工大學 a.綜合交通運輸大數據智能處理湖南省重點實驗室; b.計算機與通信工程學院,長沙 410114)

0 概述

目標跟蹤是計算機視覺和模式識別領域的研究熱點之一,得到了廣泛關注與應用。在智能交通系統中,相機與無人機的自動跟蹤拍攝、人機智能交互系統都需要應用目標跟蹤方法。雖然近年來目標跟蹤方法取得了快速的發展,但是物體被遮擋、目標發生嚴重形變、目標運動速度過快、光照尺度變化和背景干擾等因素導致的目標跟蹤系統魯棒性低和實時性差等問題依然存在[1]。

現有目標跟蹤方法可以分為生成模型方法和判別模型方法兩類[2]。生成模型方法在當前幀對目標區域進行建模,運用生成模型描述目標區域的表觀特征,在后續幀中進行目標預測,從而尋找到與目標最為相似的區域。該類方法的典型代表有卡爾曼濾波[3]、粒子濾波[4]和Mean-Shift算法[5]等。判別模型方法通過訓練分類器來區分背景和目標,這種方法也被稱作檢測跟蹤模型。判別模型由于旨在區分一幀中的目標和背景,因此,其具有更強的魯棒性,得到了廣泛應用。經典的判別模型方法有CT[6]和TLD[7]等算法。文獻[8]通過多次連續蒙特卡羅采樣得到最優目標區域,利用子塊遮擋比例自適應調節學習速率,從而解決了時空上下文跟蹤易漂移和遮擋敏感的問題。目前,多數基于深度學習的方法均在判別式框架的范疇內。文獻[9]提出了全卷積的孿生網絡SiamFC。SiamFC的優點在于將跟蹤任務轉化為檢測匹配的過程,通過比較目標幀和模板幀圖片的相似度,計算出相似度最大的位置,從而得到目標在模板幀中的位置。CFNet[10]通過為低級別的CNN引入相關濾波,將相關濾波看作CNN網絡中的一層,以提高跟蹤速度并保證跟蹤精度。文獻[11]提出的SINT結合光流信息,取得了更好的跟蹤性能,然而,其引入光流信息導致了跟蹤速度緩慢,不能達到實時的要求。文獻[12]提出的SA-Siam雙孿生網絡,在SiamFC的基礎上加入了語義分支,其能夠提高跟蹤精度但降低了跟蹤的速度。

為進一步提高跟蹤速度,本文提出一種基于雙孿生網絡的自適應選擇跟蹤方法ASTS。系統自動判斷目標幀信息,在簡單幀中只運用外觀信息進行判斷,復雜幀權重確定則結合語義信息和外觀信息。在OTB2013/50/100[13]和VOT2017數據集上進行實驗,以驗證該方法的跟蹤性能與魯棒性。

1 孿生網絡

全卷積孿生網絡的提出在跟蹤領域具有重大意義。孿生網絡在訓練集ImageNet2015上進行離線訓練,得到相似度匹配函數,在跟蹤過程中,通過模板相似度比較得到相似度最大的位置。具體地,以第1幀為模板圖像,用以在后續255×255的搜索圖像中匹配定位127×127的模板圖像z。通過離線訓練出的相似度函數將模板圖像z與搜索圖像x中相同大小的候選區域進行比較。經過卷積得到最后的得分圖,其中,目標區域會得到高分,非目標區域會得到低分。相似度函數為:

Fl(z,x)=φl(z)*φl(x)+v

(1)

2 自適應選擇跟蹤網絡

ASTS方法的總系統框圖如圖1所示。ASTS由外觀信息與語義信息2個分支組成。系統網絡的輸入是視頻第1幀經人工標記的目標真實位置和當前幀裁剪出的目標搜索區域。其中,z和zg分別表示目標和目標周圍環境,x表示搜索區域。x和zg尺寸相同,都為Wg×Hg,z的尺寸為Wt×Ht×3,其中,Wt

圖1 基于雙孿生網絡的自適應選擇跟蹤系統

2.1 系統外觀分支

系統外觀分支的輸入為目標區域z和搜索區域x。系統外觀分支并非一個簡單的孿生網絡,而是加入了深度Q學習網絡[14]。和EAST不同的是,外觀分支P中最后2層卷積層covn4和covn5沒有Q網絡則不會提前停止,原因是covn4和covn5層屬于深層的網絡信息,語義分支會較好地處理,因此,網絡不會在最后2層提前停止。

在外觀分支P中執行提前停止的過程被認為是一個馬爾可夫決策過程(Markov Decision Process,MDP)。本文通過深度強化學習訓練一個有效的決策網絡(Agent)[15]。通過訓練決策網絡能夠學習動作(Action)和判斷狀態(State),得到提前停止標準從而提前停止網絡。決策網絡可以跨過特征層進行一系列的操作,比如判斷將何時執行停止或者進入下一層,以及如何有效地對邊界框進行變形。

在強化學習過程中,馬爾可夫決策過程分為一組動作A、一組狀態S和獎勵函數R。在第n(n<4)層,決策網絡檢查當前狀態Sn,然后決定動作An是停止并輸出還是對邊界框進行移動變形以進入下一層,同時獲得正面或負面的反饋獎勵并反映當前框對目標的覆蓋程度,以及動作停止前所執行的步驟。

1)動作:動作集A通過驗證設置為6個不同的縮放動作和一個停止動作,如圖2所示?？s放動作包括整體縮小和整體放大2個全局動作變換以及4個改變寬高的局部動作變換。每個邊界框由坐標b=[x1,x2,y1,y2]表示,每次轉換動作都會通過式(2)對邊界框進行離散變換。

圖2 馬爾可夫決策中的動作說明

αw=α*(x2-x1)

αh=α*(y2-y1)

(2)

通過對x坐標(y坐標)加上或者減去αw(αh)來進行變換,與文獻[15]相同,本文取α=0.2。

2)狀態:狀態是當前層的得分圖和歷史層得分圖的平均值Fn和采取動作的歷史向量hn組成的二元組,這種結構將會使系統更加魯棒。歷史向量跟蹤hn包含了3次歷史動作,每個動作又是7維的矢量,則h∈R21。

3)獎勵:獎勵函數R在采取特定動作后,該機制定位物體的提升為正反饋。所設定的提升標準通過計算預測的目標矩形框與手動標記的目標矩形框的交叉聯合(Intersection-over-Union,IoU)來衡量。IoU定義為:

(3)

其中,b為預測的目標框面積,Rg為目標實際所在的位置。獎勵函數通過一個狀態到另一個狀態的IoU差別來估計,即當決策網絡執行動作A、狀態從Sn轉到Sn+1時,每個狀態S都有一個相關的矩形框b,則獎勵函數為:

R(Sn,Sn+1)=sign(IoU(bn+1,Rg)-IoU(bn,Rg))

(4)

從式(4)可以看出,若IoU變大,則獎勵為正(+1);反之,獎勵就為負(-1)。式(4)適用于所有轉換矩形框的動作,通過這種方式獎勵正向的變化,直到沒有更好的動作來使定位更精確或者到達卷積層第3層。停止動作擁有異于其他動作的獎勵函數。根據文獻[14]可得:

(5)

最后,本文應用文獻[14]的深度Q強化學習網絡來學習行動值函數。

2.2 系統語義分支

系統語義分支的輸入為目標周圍環境zg和搜索區域x,本文直接使用在圖像分類任務中已經訓練好的AlexNet[16]作為語義分支,在訓練和測試期間確定所有參數。網絡中用conv4和conv5最后2個卷積層的特征作為輸出,并在特征提取后插入一個1×1的卷積層進行特征融合,這樣做的目的是使語義分支網絡能夠更好地進行相關操作,并且提高跟蹤精度。外觀分支G的輸出表示為:

Fg(zg,x)=corr(f(φg(zg)),f(φg(x)))

(6)

其中,corr(·,·)表示相關操作,f(·)表示特征融合,φ(·)表示級聯的多層特征。

2.3 雙孿生自適應網絡

訓練期間2個網絡完全單獨分開訓練,互不干擾,跟蹤時才對2個網絡進行選擇性疊加。跟蹤期間,在一串連續的跟蹤序列中,幀與幀之間存在大量的相似幀,相比目標幀,這些幀圖片的目標形變較小、周圍環境語義信息變換不明顯。這些幀只利用外觀分支較淺層的特征信息跟蹤器就能很好地對目標進行跟蹤,這時如果完全考慮2個分支,則會使跟蹤速度減慢,因此,針對變換不明顯語義信息的簡單幀,語義分支完全可以忽略。同時在較淺層的網絡中,空間的分辨率較高,但特征的語義信息較少,隨著網絡的加深,從深層網絡中提取到的特征語義信息會比較豐富,但是會導致空間的分辨率降低,不利于目標定位與跟蹤。因此,在外觀分支上淺層的信息能夠更好地跟蹤目標,定位出目標所在位置。

在外觀分支中,讓網絡通過訓練好的深度強化學習Q網絡來選擇合適的停止層,既能夠增加跟蹤器的跟蹤速度,又能很好地利用淺層網絡空間分辨率高的特性定位出目標,提高跟蹤性能。在變化較大的復雜幀中,外觀分支不會提前停止,能夠提取到目標更豐富的特征信息,得到的特征與語義分支提取到的特征進行疊加能夠更準確地定位出目標的位置,使跟蹤器在速度與性能之間得到平衡。當外觀網絡提前停止時,則外觀分支對整體網絡作反饋,語義分支的占比為0,完全由外觀分支輸出;當外觀網絡沒有提前停止時,將上述2個網絡得到的相關系數得分圖按一定比例進行疊加,即:

(7)

其中,τ代表外觀分支對整體網絡的反饋,λ是平衡2個分支重要性的加權參數,其可以通過實驗來取值,F(zg,x)表示被跟蹤的目標位置。

3 實驗結果與分析

本文在MatConvNet庫[17]上進行仿真,實驗環境為Ubuntu 4.8.2 系統,Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.3 GHz四核處理器,配備有NVIDIA GeForce GTX TITAN X GPU,在OTB50、OTB100、OTB2013和VOT2017基準上分別進行實驗。

采用2015年版Imagenet大規模視頻識別挑戰(ILSVRC)[18]的視頻數據集進行訓練,該數據集包含約4 500個視頻,接近一百萬個注釋幀。具體地,在訓練過程中,隨機地從數據集同一個視頻中選取兩幀,對其中一幀裁剪出以z為中心的zg,從另一幀中裁剪出以人工標注目標為中心的x。目標圖像z大小為127×127×3,對大小為255×255×3像素的搜索區域圖像x進行搜索,并且外觀分支網絡的zg與x具有相同的大小,最終的輸出都為17×17維。學習率設定為10-4。經過實驗得出,當外觀網絡沒有提前停止,即返回值τ為1時,當λ為0.36時系統性能最佳。

3.1 OTB基準實驗

OTB包含OTB50、OTB100、OTB2013 3個數據集[13]。OTB數據集中的序列分為遮擋、比例變化、快速運動和平面內旋轉等11個不同的注釋屬性,OTB一般有2個評估標準,分別是成功率和精確度。對于每一幀,計算跟蹤矩形框與人工標注的目標框邊界的IoU以及它們中心位置的距離,采用跟蹤成功率與精確度來評估跟蹤器。

本文在OTB50、OTB100、OTB2013 3個基準數據集上對SiamFC[9]、CFNet[10]、SINT[19]、Staple[20]、EAST[21]及本文系統6個跟蹤器進行評估,結果如表1所示,最好的結果用加粗表示。從表1可以看出,在OTB2013基準下,ASTS具有最佳的性能,其AUC(Area-Under-Curve)達到了0.657,超出孿生網絡SiamFC跟蹤器0.050。雖然SINT的AUC也達到了0.655,但是SINT并非一個實時的跟蹤器,其跟蹤速度只有4.0 FPS。在OTB50基準下,EAST跟蹤器雖然達到了高速的148 FPS,ASTS的AUC也只比其高出0.001,但在OTB2013和OTB100中,ASTS跟蹤器的AUC分別高出EAST約0.019和0.013。OTB100是OTB50的擴充,因此,其更具有挑戰性。本文ASTS跟蹤器在OTB100基準中AUC依然保持在0.644,比OTB50基準中更高。而在OTB2013中表現良好的SINT跟蹤器,在更多的測試中其AUC不夠穩定。

表1 OTB基準下的評估結果

3.2 VOT基準實驗

VOT測試基準擁有多個不同的版本,最新的版本有VOT2015[22]、VOT2016[23]和VOT2107[24]。VOT2015和VOT2016擁有相同的序列,但是VOT2016中的人工標注標簽比VOT2015更加準確。由于VOT2016中的部分標簽已經能夠被多數跟蹤器準確跟蹤,因此VOT2017將VOT2016中的10個序列替換為新的序列,但依然保持總體序列屬性分布不變。本文應用VOT2017作為評測基準。VOT基準主要的評測指標為平均重疊期望(Expected Average Overlap,EAO)、準確率(Accuracy,A)、魯棒性(Robustness,R)。一個性能良好的跟蹤器應該有較高的準確率和平均重疊期望分數,但魯棒性較低。

在VOT2017基準下對ECOhc[25]、Staple[20]、SiamFC[9]、SA-Siam[12]和ASTS進行比較,結果如表2所示,其中量化展示了5個跟蹤器的平均重疊期望、準確率、魯棒性和跟蹤速度。從表2可以看出,ASTS的平均重疊期望為0.227,略低于ECOhc,但ASTS具有速度優勢,準確率達到0.527,高于ECOhc跟蹤器。在準確率方面,ASTS跟蹤器表現最優異,高于SA-Siam約0.02。在跟蹤速度方面,ASTS最高達到了97.0 FPS。在魯棒性方面,ASTS表現不如ECOhc,同樣是因為ECOhc在速度方面做出了巨大犧牲,但本文方法的魯棒性均優于其他跟蹤器。

表2 VOT2017基準下的評估結果

圖3所示為均值漂移算法[5]、SiamFC、CT、Staple和ASTS的跟蹤實驗結果,可以看出,除本文ASTS方法外,其他方法都發生了不同程度的漂移現象。

圖3 5種跟蹤器的跟蹤結果比較

4 結束語

本文提出一種基于雙孿生網絡的自適應選擇跟蹤方法ASTS。2個孿生網絡分別負責語義信息和外觀信息,在外觀分支上加入自動停止操作,當在簡單幀時自動停止網絡向前傳播,此時不再與語義信息相結合從而提高跟蹤速度,在復雜幀時,孿生網絡的速度優勢使得ASTS方法同樣取得了較高的跟蹤速度。實驗結果驗證了ASTS方法的高效性與高準確率。下一步將探究更好的注意力機制,并將深度特征與HOG特征進行融合,以提高本文方法的跟蹤性能。