張余冉,段喜萍,李昀松,劉庭圓
(哈爾濱師范大學)
視頻目標跟蹤技術一直以來作為計算機視覺領域的一個重要分支,在許多實時視覺應用中起著至關重要的作用,如軍事制導、賽事直播、游戲娛樂、以及醫療診斷等許多領域[1].跟蹤是指僅給定視頻第一幀中目標的狀態,估計視頻序列中目標的軌跡.理想的在線跟蹤器應該具有精確性和魯棒性,以適應復雜的跟蹤任務.
目標跟蹤模型可以總結為基于生成式模型、基于判別式模型以及基于深度學習方法的模型3個大類.其中,判別式相關濾波跟蹤模型具有高效性和魯棒性.2010 年MOSSE 跟蹤器將相關濾波理論首次應用到目標跟蹤領域[2].2012 年Henriques等引入了循環矩陣和核函數提出了CSK跟蹤器[3],這兩個跟蹤器在特征選取方面都采用單通道灰度特征.2014 年Henriques等又提出的KCF 模型可以處理多通道特征,提高了特征的表示能力[4].Danelljan利用圖像的多通道顏色名稱(color names,CN)特征來應對目標遮擋、形變等問題[5].此時的研究表明,在跟蹤算法中選用方向梯度直方圖(HOG)特征和CN 特征相對于單通道灰度特征可以出色的對目標進行描述.之后的一些算法,如RPT[6]、DSST[7]、FDSST[8]、LMCF[9]等都采用了這兩種特征作為圖像特征.近年來,具有強大的特征學習能力的卷積神經網絡開始應用到各個領域[10],許多結合深度卷積特征的CFTs 應運而生.2015 年,擁有更深的網絡結構的VGGNet[11]提高了跟蹤算法的準確率.Danelljan 等利用VGG-Net 提取的兩層深度特征和原始彩色圖像作為特征提出了學習連續卷積算子(learning continuous convolution operators,C-COT)[12]跟蹤算法,所提取特征具有更強大特征表達能力、泛化能力和遷徙能力,雖然提升了精度,但是特征變得復雜從而影響了計算速度.ECO[13]在其基礎上從模型尺度、樣本集尺度和濾波器更新方法3 個方面進行改進,通過因式分解操作,對手工特征與深度特征的維度進行了不同級別的降維,減少了濾波器參數數量,使用高斯混合模型壓縮訓練樣本集,有效提高了計算速度.很長一段時間在OTB2015上排名第一[14].隨后,He 等學者使用加權的思想對ECO算法改進提出了(correlation filters with weighted convolution responses,CFWCR)[15]算法,此算法采用VGGNet 網絡提取多尺度的卷積特征,對深、淺卷積特征的相關濾波響應結果進行加權處理,增加了算法的跟蹤準確率.Goutam 等用ResNet50[16]替換ECO 中的VGG16[11],采用數據增強的方案,提出了利用深度卷積網絡進行跟蹤的(unveiling the power of deep tracking,UPDT)跟蹤算法[17].CNN 體系結構設計的實際方法是基于離散卷積算子(例如,3×3 或5×5 卷積),這有效地施加了空間局部性和平移性等效性.然而,卷積這種操作缺乏對圖像本身的全局理解,無法建模特征之間的依賴關系,從而不能充分地利用上下文信息[24].近年來,計算機視覺中的自注意力得到了快速的發展,并在圖像生成和超分辨率領域頗具發展潛力[18-19].自注意力能夠自適應的聚焦不同的區域,提取特征的長距離表示能力強,使得模型更具可解釋性.早階段的研究,如SENet[26]、CBAM[27]表明,自我注意力機制可以作為卷積模塊的增強.Prajit Ramachandran等學者提出了一種獨立的局部自我注意模塊設計,它可以完全取代ResNet 架構中的空間卷積[22].
從特征提取網絡結構出發,該文提出了一種基于ResNet-ACmix 改進的ECO 算法RAECT(ResNet-ACmix for efficient convolution tracker).ACmix模塊是卷積和自注意力混合模塊,能夠享受兩者帶來的好處,相對于純卷積與純自注意力模塊又有最小的計算開銷.實驗表明,在保持跟蹤高準確率的同時,采用ResNet-ACmix 特征提取網絡的RAECT算法模型在復雜度和計算量上有所降低,這為輕量化目標跟蹤算法模型提供了參考.
ECO算法具有高效卷積特性,是以提高時間效率和空間效率為出發點的一種對C-COT 算法優化的目標跟蹤算法.該算法從模型尺度、訓練集尺度和濾波器更新頻率3個角度考慮,采用了PCA降維、高斯混合模型和間隔幀更新濾波器的策略,實現了濾波器數量減少、訓練樣本集數量減少和濾波器更新頻率的減少,提高了算法的跟蹤性能.
ECO算法采用插值方法將搜索區域的多分辨率特征x進行如式(1)所示的運算轉換到連續空間域:

ECO算法在C-COT算法的基礎上,采用主成分分析法(principal component analysis,PCA)對其優化,計算新的響應得分為:
式中,f為通道d 的相關濾波核,*表示卷積運算,P表示主成分分析法D 行C 列的投影矩陣,SP,f{xd}表示響應得分.使用高斯混合模型(Gaussian mixture mode,GMM)方法壓縮訓練集,并對卷積響應得分與高斯標簽的誤差取L2范數,式(3)表示構造的損失函數:
式中,M為訓練樣本,μm和πm表示訓練樣本的均值和權重,SP,f{μm}表示訓練樣本與當前相關濾波核f的卷積響應得分,y0表示訓練樣本的高斯標簽,ω是f的懲罰項.一般地,P在初始幀確定保持不變,式(3)每6幀使用共軛梯度更新.
1.2.1 卷積和注意力
卷積運算是一種有效的提取圖像特征的方法.卷積運算是通過一個卷積核,以固定步長在輸入圖像上滑動,計算得到圖像的卷積特征圖.卷積核的深度應與圖像的深度相同,卷積核的個數決定了卷積特征圖的深度.卷積運算的過程如圖1、圖2所示.

圖1 單通道圖像的卷積運算過程:卷積核大小為3 × 3,個數為1,padding =0,stride =1

圖2 多通道圖像的卷積運算過程:卷積核大小為3 × 3,個數為3,padding =0,stride =1
自注意力是注意力機制的一種,同樣包括Query、Key和Value 3個要素.在視覺應用中,自注意力模塊通過對圖像本身的計算,統計圖像的全局信息,來確定要關注的部分,相對于卷積來說,自注意力擁有更廣闊的感受野.自注意力特征的提取過程如圖3所示.

圖3 自注意力特征圖計算過程
1.2.2 ACmix模塊
深度卷積網絡基于離散卷積算子移位聚合對圖像進行投影,這些卷積算子權重在整個特征圖中共享,固有特質為圖像處理帶來了感應偏差,因此并不能很好的建模圖像內容和特征的長期依賴關系,而自注意力模塊基于輸入特征的上下文應用加權平均操作,更加擅長捕捉數據或特征的內部相關性.針對這個問題Pan Xuran,等學者首先證明了k × k卷積可以分解為k2個1 ×1卷積然后進行移位求和計算,并將自注意力模塊中的查詢、鍵和值視為多個1 × 1卷積,然后計算注意權重和值的聚合.如圖4根據兩個模塊操作之間的強聯系,提出了一種卷積與自注意力混合(ACmix)模塊,該模塊享受兩個模塊的好處,并有效避免了兩次昂貴的投影操作[25].

圖4 ACmix混合模型圖示
1.2.3 ResNet-ACmix網絡
ACmix的設計是一個自我注意與卷積融合模塊,可以代替ConvNet中的標準卷積.在這里,使用集成了ACmix塊的ResNet 體系結構,網絡結構見表1.

表1 ResNet-ACmix50網絡的詳細結構
該文提出一種應用ResNet-ACmix網絡提取混合特征對ECO 進行改進的目標跟蹤算法RAECT,該算法主要由兩大模塊組成:特征提取模塊、目標定位和濾波器更新模塊.RAECT跟蹤算法框架圖如圖5所示.特征提取模塊對視頻中的每一幀圖像提取手工特征和卷積特征.為驗證所提RAECT算法和原ECO算法在采用不同深度特征下的跟蹤性能差異,故保持和ECO 算法一致的手工特征、相關計算過程以及濾波器更新方式.RAECT算法將ResNet-ACmix 網絡提取的第一層卷積特征和res4提取的混合特征作為用于進行相關濾波運算的深度特征,在完成特征提取后,再由目標定位模塊和濾波器更新模塊實現整個視頻的跟蹤過程.

圖5 RAECT跟蹤算法框架圖
RAECT跟蹤算法步驟如下:
(1)讀取視頻的每一幀圖像,根據視頻的第一幀圖像及給定目標位置確定搜索區域,裁剪子訓練樣本.
(2)初始化參數:降維矩陣P,相關濾波核f,高斯標簽yc,余弦窗.
(3)利用ResNet-ACmix特征提取網絡對裁剪的子訓練樣本提取特征,得到圖像的深層和淺層特征,同時對子訓練樣本提取手工特征.之后將特征進行加窗、插值處理得到連續域特征J{x}.
(4)使用J{x}初始化訓練集GMM產生第一組訓練集.
(5)根據訓練集GMM更新相關濾波核f的參數,并保存相關濾波核信息.
(6)讀取視頻的下一幀,同步驟(3)處理,得到新的J{x}.
(7)使用傅里葉變化將J{x}和當前相關濾波核f 轉化到頻域進行卷積計算,得到響應分數SP,f{μm},找到圖中最高響應得分的位置,將其作為當前幀中目標位置進行保存.
(8)將上步得到的目標信息在當前幀中裁剪出子訓練樣本.
(9)將子訓練樣本的J{x}納入訓練集,并使用GMM更新訓練集.
(10)判斷是否更新濾波器,如需更新,執行步驟(5)的操作.
(11)對跟蹤是否完成進行判斷,如沒有,執行步驟(6);如跟蹤完成,輸出目標信息,保存結果.
該文實驗代碼運行環境均為python3.6,深度學習框架為pytorch.所做實驗在Google Colab平臺進行,顯存為16GB.所做實驗在操作系統為64位的windows10系統上進行,顯存為16GB.
(1)網絡訓練參數設置見表2.

表2 超參數值
(2)RAECT算法參數設置為下:采用ResNet- ACmix網絡來提取深度特征,選擇網絡的第一卷積層和res4 的輸出作為提取的淺層和深層特征,其余參數和原ECO算法保持一致.
3.3.1 特征提取網絡參數量和計算量分析比較
對比VGG-16、ResNet50 網絡與ResNet-ACmix50網絡的參數量和計算量,以此來驗證該文所提RAECT算法采用的特征提取網絡具有輕量性.表3為統計的各網絡參數量和計算量.表3中第1列表示ECO 算法在特征提取過程采用的網絡模型,第2列表示網絡的參數量,第3列表示網絡的計算量.輸入圖像采用224 ×224像素的三通道彩色圖像,分析可得ResNet-ACmix50的參數量為17.48Mbit,少于VGG-16的139.36Mbit和ResNet50的25.56Mbit.ResNet-ACmix50 的計算量為3.16GFLOPs 也少于VGG-16 的15.62GFLOPs和ResNet50的3.9GFLOPs.

表3 不同網絡結構的參數量與計算量
3.3.2 網絡有無預訓練過程對結果的影響
通過對特征提取網絡有無預訓練過程進行實驗,來比較無預訓練的RAECT-NP 算法和有預訓練的RAECT 算法在整個跟蹤過程中的效果.特征網絡訓練數據集為imagenet-mini,訓練超參數見表2.表4表示有無預訓練的算法在數據集VOT2016 上的跟蹤結果.RAECT 跟蹤算法的準確率0.537 高于RAECT-NP 跟蹤算法的0.534.魯棒值0.331 低于RAECT-NP 算法的0.429.平均重疊期望(Expected average overlap,EAO)0.296高于RAECT-NP算法的0.24.實驗結果表明,采用有預訓練網絡的RAECT 算法在目標跟蹤的過程中有更好的表現.

表4 有無預訓練過程在VOT2016的跟蹤結果
3.3.3 特征可視化分析
為了研究該文所提RAECT算法在特征的表征能力并分析、選取有效的目標特征,將ResNet-ACmix50 特征提取網絡提取的淺層特征和深層特征進行可視化輸出,圖6為ResNet-ACmix50特征提取網絡可視化輸出的imagenet-mini數據集中小鳥圖像的特征圖.結果表明,淺層特征注重圖像的紋理,包含了更多的位置、細節信息,深層特征更注重圖像的語義信息,對細節的感知能力比較差.目標跟蹤算法利用用淺層的紋理信息進行位置匹配,同時利用高級語義信息適應目標狀態的改變,因此該文采用第一層卷積輸出特征和res4 提取的特征來完成目標位置相關匹配和訓練更新濾波器.

圖6 ResNet-ACmix50網絡提取特征的可視化顯示
3.3.4 跟蹤速度分析
該文在VOT2016數據集上對比RAECT算法與ECO-ResNet50、ECO-VGG16算法,來驗證RAECT算法時間性能上的提升.表5為各算法的運行速度,算法的運行速度用FPS 來表示,RAECT算法的速度為5.87FPS,相對于ECO-ResNet50 的速度提升了31%,相對于ECO-VGG16的速度提升了74.7%.結果表明,采用ResNet-ACmix作為特征提取網絡的RAECT算法相比于采用ResNet50、VGG16 作為特征提取網絡的ECO算法在速度上有明顯的優勢.

表5 采用不同特征提取網絡的ECO算法在VOT2016上的跟蹤速度對比
3.3.5 跟蹤性能對比
為了驗證RAECT跟蹤算法的有效性,該文將RAECT算法與主流相關濾波算法在VOT2016和OTB50數據集上進行對比.對比的主流算法包括核相關濾波(kernel correlation filter,KCF)算法、基于線性核的對偶的相關濾波器(dual correlation filter,DCF)算法等算法.
(1)算法在數據集VOT2016 的跟蹤結果比較.RAECT 算法與主流相關濾波算法在VOT2016的跟蹤結果見表6.RAECT算法跟蹤準確率為0.537,魯棒值為0.331 以及EAO 為0.296,相對其他相關濾波算法具有更好的跟蹤性能.實驗結果表示,該文所提RAECT算法有較高的跟蹤準確率,相比其他算法有最高的EAO綜合評價指標,表明了RAECT 算法具有高準確性和高穩定性.

表6 算法在VOT2016上的跟蹤結果對比
(2)算法在數據集OTB50的跟蹤結果比較.RAECT算法與主流相關濾波算法在公開數據集OTB50上進行跟蹤對比,評價方式選用一次跟蹤評估OPE(one-pass evaluation).跟蹤結果如圖7所示.RAECT算法跟蹤準確率和成功率稍低于ECO,高于實驗中其他的目標跟蹤算法.表明RAECT算法具有較高準確率和跟蹤成功率.

圖7 算法在OTB50數據集上的跟蹤比較結果
該文中提出的算法采用一種輕量級的網絡ResNet-ACmix作為主干特征提取網絡,減小了目標跟蹤算法特征提取網絡的參數量和計算量,提高了目標跟蹤算法的時間性能,同時也保持了跟蹤的高準確率.隨著深度學習的發展,輕量級網絡的研究也取得了很大的進展,該論文為輕量級網絡在目標跟蹤算法中的應用提供了參考.