李運寰,聞繼偉,彭 力
物聯網技術應用教育部工程研究中心(江南大學 物聯網工程學院),江蘇 無錫 214122
目標跟蹤作為計算機視覺的基本任務之一,在過去十年內取得了重大的突破,已經被廣泛用于視頻監控、自動駕駛、人機交互等眾多生活場景中。在實際應用中追求跟蹤精度提升的同時,跟蹤器的速度也相當重要。
現代跟蹤器可以大致分為兩個分支。第一個分支是基于相關濾波的跟蹤算法,以核循環結構算法(circulant structure kernels,CSK)、核相關濾波(kernelized correlation filter,KCF)為代表的傳統相關濾波算法,它可以在線跟蹤并同時有效地更新濾波器的權重。然而方向梯度直方圖(histogram of oriented gradient,HOG)等手工標注的淺層特征在面對尺度變化、光照變換等挑戰時的表現顯得不那么穩定可靠。近些年,卷積神經網絡在其他計算機視覺任務中大放異彩,相關濾波類算法便開始使用神經網絡提取的特征代替那些手工標注的特征,神經網絡提取出的特征相比手工標注的特征更具對跟蹤目標特征的表達能力,準確度得到一定的提高,但是在模型更新過程中極大地損害速度指標。第二個分支以多域卷積網(multi-domain convolutional neural networks,MDNet)為代表旨在利用離線預訓練的深度網絡進行特征提取,提升目標的特征表達能力,進而大幅提升跟蹤精度,但是由于未使用特定域的信息,這類方法的效果始終不如基于相關濾波的算法的綜合效果好,并且該類使用的預訓練網絡十分龐大,特征維度的升高直接影響跟蹤速度的大幅下降,多數算法即使在GPU 上的速度也只有個位數,無法適應現實應用。
最近,遵循相似性度量策略的孿生網絡跟蹤算法由于其在精度和速度都取得良好的性能獲得極大的關注。全卷積孿生網絡(fully convolutional siamese networks,SiamFC)作為這類算法框架的開創工作,首先對孿生網絡通過大規模且種類豐富的圖片對進行離線訓練,然后計算待搜索區域與模板圖片的相似度,響應最高的位置為目標的估計位置,且跟蹤過程中無需更新模型,因此十分高效。在此基礎上,為了增強SiamFC 算法的特征表征能力,陸續提出很多高效的跟蹤算法。SA-Siam(semantic and appearance siamese networks)構建一個雙重孿生網絡,提升了基礎算法的泛化能力。SiamVGG 使用VGG 網絡代替AlexNet,充分使用了深層網絡的特征提取能力,提高了基礎算法的精確度但是模型參數量的劇增導致跟蹤速度下降很多。
在保證算法參數量小,兼顧精度和速度都有大幅提升的前提下,本文以SiamFC 算法框架為基準,提出四點改進策略。首先,使用輕量級卷積神經網絡MobileNetV1作為主干網絡,比AlexNet更深的網絡發掘出的特征對目標特征的表達能力更強。其次,逐層裁剪受到填充影響的特征圖,消除填充操作對特征圖的影響,提高跟蹤精度。緊接著,對選取的主干網絡進行調整,選取網絡的前9 層,修改網絡總步長為8,并且在特征提取層的最后增加通道降維操作。使得為分類問題設計的MobileNetV1 適用于目標跟蹤任務。最后,在孿生網絡的模板分支最后增加通道注意力模塊,加權突出目標的重要信息,抑制無關或次要信息對特征的影響,進一步增強模板分支對目標語義信息的表達能力。
經過本文提出的改進策略,本文算法在OTB2015數據集和VOT2018 數據集上與基準算法相比均有了顯著提升。在OTB2015 上,Precision(Prec)提升了5.4%,AUC 提升了4.8%;在VOT2018 上,平均重疊期望(expected average overlap,EAO)提升了26.6%,在精度提升的同時算法在NVIDIA GTX1080Ti 下的平均速度高達120 frame/s,速度提升了39.5%。并且本文算法模型十分輕量,在移動端或嵌入式等算力相對不足的設備中更具競爭力。
基于孿生網絡的目標跟蹤算法的實施是將目標跟蹤任務轉化為相似性度量問題,如式(1)所示。

式中,f(,)是相似性度量函數;是視頻序列的第一幀,即模板圖片;是視頻序列的后續幀,即待搜索圖片;φ(·)表示經由參數為的卷積神經網絡得到的特征圖;*表示互相關運算;·1 表示在響應圖中每個位置的取值。則跟蹤過程可以轉變成:模板圖片和搜索圖片送入孿生網絡中,對得到的兩個特征圖進行互相關運算即以模板分支最后的特征圖作為卷積核對搜索分支最后的特征圖進行卷積,得到的結果就是得分響應圖,得分越高的地方則越可能是待跟蹤對象出現的位置,反之得分越低的地方則越不可能出現待跟蹤目標,對得分最高的地方進行多尺度變化回溯到原圖中。
本文算法框架如圖1 所示。相比于SiamFC,本文使用參數量更小、網絡更深、特征表達能力更強且便于在嵌入式設備中移植的輕量級網絡Mobile-NetV1 作為主干網絡。對在進行前向傳播過程中受到填充影響的特征圖進行裁剪,消除填充帶來的消極影響,修改網絡的總步長為8,在特征提取層后添加通道降維操作,使其適用于跟蹤任務。在模板分支的最后添加通道注意力模塊(channel attention module,CAM),增強模板分支特征圖對待跟蹤目標語義信息的表達能力。

圖1 輕量級孿生網絡框架Fig.1 Framework of light-weight siamese network
SiamFC 算法由于其在速度和精度都達到較好的水準而備受關注。然而SiamFC 的主干網絡使用的是相對較淺的AlexNet,較淺的網絡保證其參數量較小,因此SiamFC 的跟蹤速度在孿生網絡系列算法中占領先位置??墒禽^淺的神經網絡不具備強大的特征提取能力,提取的特征對目標特征的表達能力相對不足。置換更深的卷積神經網絡,伴隨而來的是結構越加復雜,網絡體積逐漸增大,對硬件配置需求逐漸增多。大多神經網絡都是在具有強大計算能力、性能優越的服務器平臺上運行,普通PC 設備不能完成如此龐大的計算任務,那么算力更加不足的移動端設備就更難以部署了。
為解決在提升主干網絡特征提取能力的同時,參數量還能更小以保證跟蹤速度和滿足特定算力相對不足的場景,本文選用比AlexNet 更深,但是參數量更小的MobileNetV1 作為算法的主干網絡。更深的網絡保證輸出的特征圖具有強大的特征表示能力,同時更少的參數量可以保證跟蹤器的速度可以高幀率運行。經實驗分析,算法的準確度和速度都有了很大的提升。
MobileNetV1 是谷歌提出的一種輕量級卷積神經網絡,如表1 所示,參數量和主流的其他神經網絡相比十分小,因此可以在移動端或嵌入式設備中應用。不同于表中其他網絡的地方在于該網絡使用的卷積方式是深度可分離卷積,這是其在較深的網絡結構下,參數量卻很小的關鍵。深度可分離卷積是分解卷積的一種形式,它將標準卷積分解為深度卷積和點卷積,點卷積就是卷積核的寬高都是1的標準卷積。

表1 各神經網絡參數量對比Table 1 Parameters comparison of various neural networks
標準卷積運算包含了卷積核的計算和合并計算,可直接將輸入變成一個新尺寸的輸出,如圖2 所示。

圖2 標準卷積Fig.2 Standard convolution
深度可分離卷積操作則分解為兩步,先是深度卷積(depthwise convolution,Dw Conv),然后是點卷積(pointwise convolution,Pw Conv)。深度卷積是對輸入的每一個通道都有一個卷積核,對每個通道單獨運算,然后通過點卷積對深度卷積后的結果進行1×1 的標準卷積運算,合并出一個新尺寸的輸出,如圖3 所示。這種分解方式可以大大減少參數計算量和模型的大小。
圖2、圖3 中D表示輸入圖片的尺寸,D表示卷積核的尺寸,和表示輸入輸出的通道深度。
則一次標準卷積的計算量可表示為式(2):

圖3 深度可分離卷積Fig.3 Depthwise separable convolution

一次深度可分離卷積的計算量為深度卷積與點卷積的運算量之和,可表示為式(3):

MobileNetV1 中D都是3,則兩個運算量的比例可表示為式(4):

分析可得,理論上,一次標準卷積的運算量是深度可分離卷積的運算量的8 到9 倍。
相對于主流的卷積神經網絡模型,MobileNetV1擁有更小的體積,更小的參數計算量,更高的精度,得益其諸多優勢,可以更好地在移動端設備部署,因此本文選取MobileNetV1 作為孿生網絡的特征提取網絡。
SiamFC 使用的特征提取網絡AlexNet 是不帶填充的全卷積神經網絡。通過使用深層神經網絡替換AlexNet 以提高提取的特征對目標的表達能力,隨著網絡深度的增加,為了保證輸出特征的尺寸不會因卷積操作而越來越小,不可避免地在卷積層中引入填充(padding)操作。SiamDW中提及大量的填充操作會在模型訓練時帶來潛在的位置偏差,從而導致跟蹤精度下降。例如當目標移動至搜索圖片的邊界時,跟蹤器很難得到一個精準的位置預測,如圖4所示。因此需要消除填充所帶來的消極影響。

圖4 填充的影響Fig.4 Padding influence
以OTB2015 中MotorRolling 序列為例,圖4 中間的是模板圖片的特征圖,′是帶有填充的模板圖片的特征圖,左邊是待搜索圖片的特征圖,右邊是移動一定步幅后的目標在邊界時的待搜索圖片的特征圖,紅色框的內容與進行互相關操作得到響應R和R,藍色框的內容與′進行互相關操作得到響應R和R。

在無填充的情況下,目標運動到邊界時,與的內容一致,因此R=R。
在有填充的情況下,目標運動到邊界時,′與′的內容不一致,′的邊緣包含了大量填充信息,因此R≠R。
分析這兩種情況可知,無填充時,相同的物體移動后在響應圖中的響應是相同的;有填充時,相同的物體移動后在響應圖中的響應是不同的。不同的響應回溯到原圖中的位置必然不同,回歸框會在目標周圍發生偏移,損害跟蹤精度。因此在保證得分響應圖的大小在合理范圍的前提下,如表2 所示,對主干網絡的部分層后增加裁剪(crop)操作,消除填充對特征圖的消極影響,從而提升跟蹤精度。
原有的MobileNetV1 有5 個卷積步長為2 的卷積層,網絡總步長設置為32,如此大的網絡步長會導致最后一層輸出的特征圖很小且空間分辨率較低,不能夠精準地定位目標。這與本文跟蹤任務旨在快速且精確地定位目標位置相違背,因此為分類問題而設計的MobileNetV1 并不適用于跟蹤任務。網絡總步長決定了最后的輸出特征圖的大小,太大的特征圖對目標的空間位置不敏感,太小的特征圖對物體的結構信息不敏感。為了保證最后的輸出特征圖在合理的范圍內,本文將原有的網絡進行調整,控制網絡的總步長為8,模板分支輸出大小為7×7×256,搜索分支輸出大小為23×23×256,得分響應圖的大小為17×17×1。主干網絡細節如表2 所示。表中Crop代表特征圖裁剪,Dw Conv 代表深度卷積,Pw Conv代表點卷積。

表2 基于MobileNetV1 的孿生網絡結構Table 2 Architecture of siamese network based on MobileNetV1
基于孿生網絡的跟蹤算法采取離線訓練、在線跟蹤的模式,不同于相關濾波算法的在線訓練。這就要求網絡能夠對目標的細節有所提煉,對不同目標的差異表現敏感。然而在互相關計算的過程中,不同通道和不同位置對于相似度計算的貢獻是平均的,限制了網絡的特征提取能力和對相似目標的判別能力。
為了對跟蹤目標特征圖中不同通道的重要性進行突出,同時可以更好地利用輸入至網絡的圖片對的背景信息,例如噪聲大的背景可能導致跟蹤器的漂移。本文通過引入通道注意力模塊對目標的重要信息進行加權突出,不相關或無效的信息減小權重進行抑制,提高網絡對目標的重要特征的表達能力。通道注意力在改善卷積神經網絡性能方面具有巨大潛力,大多數現有的方法如SE(squeeze and excitation)模塊、CBAM(convolutional block attention module)模塊等致力于開發更復雜的注意力模塊以獲得更好的性能,不可避免地增加了計算負擔。
受ECA-Net 啟發,為了契合主干網絡選取的輕量級神經網絡,本文選取超輕量級的注意力模塊,嵌入至搜索分支后,消融實驗表明算法的性能有了顯著提升。
不同于SE 模塊通過全連接層建立一個通道與其他所有通道復雜關系導致模型的超高復雜度和計算量,本文通道間的交互則注重單個通道與相鄰通道的交互上,計算量大幅減少。通道注意力模塊如圖5所示,首先將搜索分支提取的特征全局平均池化,然后在相鄰通道之間進行一維卷積,之后由一個Sigmoid 函數來計算出每個通道的權重w。將權重與原特征逐層相乘后再與原特征相加得到一個與原特征尺寸完全相同,但是對目標特征表達能力更強的新特征′。新特征的各個層可由式(9)表述。

圖5 中GAP 代表全局平均池化,代表激活函數由式(10)表述,代表經過一維卷積后1×1×的特征。

圖5 通道注意力模塊Fig.5 Channel attention module
本文算法實驗平臺配置:CPU 為IntelCorei5-8500,基礎頻率3.00 GHz,內存16 GB,GPU 為NVIDIA GTX1080Ti,顯存11 GB。
訓練集選用Got-10K,包含10 000 個視頻序列以及150 萬個標注的軸對齊的邊界框。訓練過程中使用MobileNetV1 預訓練模型初始化卷積層參數,采用隨機梯度下降,訓練時的學習率從指數10衰減至10,mini-batches 設置為8,整個訓練共經歷50 個階段,本文互相關操作的偏置為0。通道注意力模塊中一維卷積的卷積核大小為3,填充為1。
邏輯損失定義為式(11),表示得分圖中每個候選位置的得分,其中代表模板圖片和搜索圖片組成的圖片對的相似度得分,∈{+1,-1}代表真值標簽。

不同的候選位置有著不同的得分,所有的候選位置構成總得分響應圖,代表得分響應圖的所有位置。訓練時采用所有候選位置的平均邏輯損失來表示損失函數,由式(12)表示。圖6 給出訓練階段損失函數的收斂曲線。


圖6 損失函數收斂曲線Fig.6 Loss function convergence curve
OTB2015 是一種被廣泛使用的跟蹤數據集,包含100 個完全注釋的序列,其中包含26 個灰色序列,76 個彩色序列,不同序列有著不同屬性的11 個跟蹤挑戰。其使用Prec 和AUC 得分作為主要的兩種評價指標。前者指標是中心位置偏差,是跟蹤框的中心位置和真值之間的歐式距離;后者指標是跟蹤框與真值之間的交疊比。兩個指標通過設定一定的閾值對跟蹤結果進行判定。
為對比分析,本文挑選四個基于孿生網絡的算法,使用輕量級網絡的SiamSqueeze、SiamTri、Siam-FC、CFNet,三個基于相關濾波的方法SRDCF、Staple、fDSST,包括本文算法共計8 個跟蹤器,在OTB2015 數據集表現如表3、圖7 所示。本文算法在Prec.和AUC 兩項指標上均達到最佳水平,并且在GPU 上運行速度高達120 frame/s。相比于基準算法SiamFC,Prec 提升了5.4%,AUC 提升了4.8%,速度提升了39.5%。

表3 各跟蹤器在OTB2015 上的性能對比Table 3 Performance comparison of each tracker on OTB2015

圖7 OTB2015 上的精度-成功率對比實驗結果Fig.7 Precision-success rate comparison experiment results on OTB2015
與孿生網絡類方法相比,本文算法的跟蹤成功率和精度較高的原因在于,本文使用的網絡更深層,提取出的特征對目標的語義表達能力更強,經過優化策略后的網絡更適用于跟蹤任務。通道注意力機制的引入使得模板分支提煉的特征充分利用了待跟蹤目標以及目標背景的信息,對于目標的光照變化和尺度變化具有一定的魯棒性。
與相關濾波類方法相比,除去跟蹤精度和成功率的大幅增長,跟蹤速度有了顯著的提升,本文算法的速度比Staple 和fDSST 提升了一倍多。相較于SRDCF,其較好的精度和成功率得益于跟蹤器的在線訓練和實時更新,但是在線訓練過程十分耗時,因此它的速度只有4.3 frame/s,遠達不到實時跟蹤需求。
本文算法高精度的跟蹤效果歸功于選用更深層的卷積神經網絡進行特征提取,并且對主干網絡進行了優化。在高精度的同時保持高速運行則是因為選取的輕量級網絡和輕量型注意力模塊,大幅減少算法的參數量。
為了與其他跟蹤算法進行全面對比,本文使用OTB2015 數據集上的11 個帶注釋的屬性評估各跟蹤器。這11 個跟蹤難點分別是:(a)快速運動、(b)背景相似目標遮擋、(c)運動模糊、(d)形變、(e)光照變化、(f)平面內旋轉、(g)低分辨率、(h)遮擋、(i)平面外旋轉、(j)視野內消失、(k)尺度變化。圖8、圖9 給出各個跟蹤器在每個跟蹤挑戰對應序列上的Prec 和AUC指標。本文算法在8 個跟蹤挑戰上表現都位列第一,在背景雜亂、形變兩個挑戰上位列第二。遮擋挑戰上位列第五。背景雜亂挑戰序列中,本文算法的AUC 是0.580,第一的SRDCF 是0.583。形變挑戰序列中,本文算法的AUC是0.548,第一的Staple是0.550,相差十分小。遮擋挑戰序列中,本文算法0.540,相較第一的0.559 有一定的差距。
在除去遮擋挑戰的10 個跟蹤挑戰的序列中選擇4 個具有代表性的序列,依次是Biker、Couple、Dragon-Baby、ironman,來評估跟蹤器在實際跟蹤中的性能表現,跟蹤效果如圖10 所示。在4 個序列中,本文算法表現良好。
對于Biker 測試序列的跟蹤,其難點在于低分辨率、快速運動。在前65 幀,騎行者緩速前進正對著攝像頭時,各跟蹤器均能準確跟蹤,在第21 幀目標快速運動至空中,除了本文算法,SiamTri 和SiamSqueeze準確地跟蹤到目標,其他跟蹤器全部丟失。但是SiamTri 和SiamSqueeze 有著一定程度的偏移,本文算法準確地定位目標,分析可知引入特征圖裁剪操作消除了填充對跟蹤精度的影響。相對于SiamFC,得益于通道注意力機制的引入,使得特征對目標的重要特征的語義表達能力更強。
對于Couple 測試序列的跟蹤,其難點在于背景雜亂以及目標形變,基于孿生網絡類的算法表現都優于基于相關濾波類算法。
對于DragonBaby 測試序列的跟蹤,其難點在于平面外旋轉、平面內旋轉、運動模糊。序列中的小男孩旋轉兩次,并且快速運動導致形狀模糊。相對于基準算法,SiamFC 在第一次旋轉過后第70 幀就丟失目標,而本文算法在兩次旋轉后都準確地定位到目標。深層網絡提取到的特征相較于淺層網絡更具有對目標特征的表達能力。
對于ironman 測試序列的跟蹤,其難點在于光照變化、形變。序列中的光照變化十分劇烈,在第94幀,場景亮度變低,準確定位到目標的有本文算法、SiamTri 和SiamSqueeze,但是到第166 幀時,亮度再次變高以及目標的劇烈形變,只有本文算法準確定位到目標,證明本文算法的良好性能。

圖8 OTB2015 各挑戰屬性的跟蹤精度對比結果Fig.8 Attribute-based precision comparison results on OTB2015
針對表現較差的遮擋挑戰,選擇遮擋挑戰序列中的Bird1,該序列是一群鳥兒飛行,然后穿越云層,之后再次出現,如圖11 所給出的三個階段。在一開始鳥兒正常飛行的時候各跟蹤器均能準確跟蹤鳥兒的飛行,在第165 幀鳥兒飛進云層里,目標完全丟失,第286 幀飛出云層。分析第286 幀發現只有在線更新模型的Staple 勉強跟蹤到鳥兒的邊緣,其他相關濾波類算法直接跟丟。基于孿生網絡類的跟蹤器CFNet、SiamFC、SiamTri、SiamSqueeze 以及本文算法,其中SiamFC、SiamTri 跟丟目標,本文算法和CFNet 漂移到鳥兒的翅膀或者其他鳥兒身上,這則表明基于相似性度量的跟蹤算法在面對同類不同個體及相似物上跟蹤效果不是很好。

圖9 OTB2015 各挑戰屬性的跟蹤成功率對比結果Fig.9 Attribute-based success rate comparison results on OTB2015

圖10 OTB2015 上跟蹤結果對比Fig.10 Comparison of tracking results on OTB2015

圖11 Bird1 序列上跟蹤結果對比Fig.11 Comparison of tracking results on Bird1 sequence
基于OTB2015 的實驗表明,除去遮擋挑戰序列表現相對一般,本文算法在其余10 個挑戰上都有著良好的表現。
為了進一步測試本文算法的通用性,在VOT2018數據集上進行了實驗。VOT2018 是更具挑戰性的數據集,其包含60 個彩色序列,每個序列的真值由旋轉的回歸框標記。該測試集的評價指標包含:精度(A),指跟蹤器在單個序列下的平均重疊率;魯棒性(R),指單個測試序列下的失敗次數,當重疊率為0 時視為失敗;以及最重要的評價指標EAO,是結合了精度和魯棒性的綜合,EAO 指跟蹤器在一個短時圖像序列上的非重置重疊的期望值。
為了對比分析,挑選了6 個跟蹤器,分別是UNet-SiamFC、DSiam、DCFNet、DensSiam、Staple以及本文的基礎算法SiamFC。表4 列出了各跟蹤器在VOT2018 基準測試的實驗結果。在EAO 指標方面,本文算法0.238 最優,相比于基礎算法SiamFC 的平均重疊期望是0.188,提升了26.6%。對比Staple 算法,雖然它的精度比本文高0.09,但是在平均重疊期望表現不如本文算法,本文算法優于Staple 40.8%,魯棒性0.520 相比0.688 低很多,即失敗次數少,魯棒性也相對優秀。圖12 給出在butterfly 序列上,本文算法結果與真值的對比。在蝴蝶飛舞過程中,劇烈形變,本文算法能夠準確跟蹤到目標。

表4 各跟蹤器在VOT2018 上的性能對比Table 4 Performance comparison of each tracker on VOT2018

圖12 Butterfly 序列上跟蹤結果對比Fig.12 Comparison of tracking results on butterfly sequence
為證實本文改進策略的有效性,在OTB2015 上進行了五組對照實驗。如表5 所示,SiamFC 是本文的基準算法,實驗1 代表基準算法加上通道注意力模塊,實驗2 代表原MobileNetV1 直接應用至目標跟蹤任務中,實驗3 代表主干網絡換成增加了特征圖裁剪和網絡總步長調整兩個優化策略改進過的Mobile-NetV1,實驗4 代表在實驗3 的基礎上增加通道注意力機制后的算法,即本文提出的總體算法。

表5 本文方法與基準算法在OTB2015 上的消融實驗Table 5 Ablation experiment of proposed algorithm and benchmark algorithms on OTB2015
分析實驗1,在基準算法的基礎上在模板分支最后添加通道注意力模塊,基準算法的跟蹤成功率從0.582 提升至0.592,驗證了通道注意力模塊的引入可以提升算法的跟蹤精度。
分析實驗2,直接使用原MobileNetV1 至目標跟蹤任務中,其AUC 只有0.354,證明其不適用于跟蹤任務。對比分析SiamFC 和實驗3,AUC 從0.582 提升至0.594,表明經過特征圖裁剪和網絡總步長調整后的算法有了一定的提升。對比實驗3 和實驗4,通道注意力機制的加入,算法的兩項指標都有了提升,證明加入通道注意力機制增強了模板分支對目標特征的表達能力。如圖13 所示,繪制通道注意力機制引入前后的輸出響應,分析可得通道注意力機制的引入確實增強了部分通道的響應,也抑制了部分通道的響應。最后對比SiamFC 和實驗4,經過本文提出的優化策略后,Prec 提升了5.4%,AUC 提升了4.8%,在精度提升的同時算法平均速度高達120 frame/s,速度提升了39.5%,參數量減少了59.8%。

圖13 有無注意力機制的每個通道的響應Fig.13 Activation of each channel with attention mechanism or not
本文提出了一種輕量級網絡MobileNetV1 作為特征提取主干網絡,提出兩點針對主干網絡的優化策略,融合超輕量級通道注意力機制的端到端的跟蹤算法。在OTB2015 和VOT2018 測試集上做了大量的實驗,證明了算法的良好效果。在OTB2015 測試集上的實驗表明,本文算法成功率0.610,跟蹤精度達到0.813。在VOT2018 的EAO 可達0.238,且在較好的跟蹤精度下,在NVIDIA 1080Ti下的平均跟蹤速度可達120 frame/s。在保持良好的跟蹤性能同時,超小的參數量在移動端或嵌入式設備的應用場景下相較其他主流算法具有很大的優勢。