賈金露 姚自強 趙玉卿 錢育蓉
(新疆大學軟件學院 新疆 烏魯木齊 830046)
(新疆大學軟件工程重點實驗室 新疆 烏魯木齊 830046)
(新疆維吾爾自治區信號檢測與處理重點實驗室 新疆 烏魯木齊 830046)
目標跟蹤技術作為計算機視覺領域的主要研究熱點,普遍應用于視頻監控、城市交通、人機交互、醫療技術、軍事等領域[1],其主要作用是在獲取的視頻圖像中定位目標,并在接下來視頻幀中對其跟蹤[2]。隨著計算機軟硬件性能和人工智能技術的迭代更新,對目標跟蹤實際應用算法提出了新的要求,如何在背景雜亂、目標遮擋以及目標自身尺度變化等復雜環境下也能保證跟蹤算法的穩定性和準確性,成為當前計算機視頻跟蹤領域難點之一[3]。
目前解決目標跟蹤問題的模型分為兩大類:生成式模型(Generative Method)和判別式模型(Discriminative Method)。基于生成式模型的跟蹤方法的核心思想是在當前幀對目標區域建模,下一幀中以相似性度量為準則,搜尋與目標模型最相似的區域即為預測的目標位置,并更新目標區域模型。代表作有Kalman濾波[4]、SINT[5]和CST[6]。基于判別式模型的跟蹤方法運用機器學習的思想將目標跟蹤問題看作是二分類問題,在當前幀中將目標區域和背景區域作為兩個類別的訓練樣本,運用機器學習的方法訓練最優判別函數,在后續幀中使最優判別函數最小的區域即為目標位置所在區域[7]。經典判別式有RPAC[8]、KCF[9]和STRCF[10]算法等。深度學習的發展為目標跟蹤帶來了新的研究方向——基于CNN的目標跟蹤算法[11]。MDNet[12]算法是一種輕量型CNN架構,通過從多個標注的視頻序列中學習目標的共有屬性進行目標跟蹤[13]。但MDNet算法對所有通道采用同等對待方式[14],沒有重點關注目標通道信息,導致目標特征表達包含較多無關信息,限制網絡的判別能力;采用傳統卷積方法,面對尺度變化、比例變換、旋轉和縱橫比等幾何形變問題時,網絡特征表達能力不足,導致跟蹤精度較低、健壯性較差。
針對上述問題,本文提出基于注意力機制的多域卷積神經網絡(Channel Attention Multi-domain Convolutional Neural Network,CAMDNet)。在網絡卷積層Conv1和卷積層Conv2之間,引入高效通道注意力機制(Efficient Channel Attention,ECA)[15],使網絡更加關注與目標相關的通道信息,重點提取目標有效特征信息,提高網絡在背景雜亂和目標遮擋情況下對目標的特征提取能力。在卷積層Conv3選用可變形卷積(Deformable ConvNets v2,DCNv2)[16]取代傳統卷積層,加強網絡處理跟蹤目標發生比例變換、旋轉和縱橫比等幾何形變的能力。實驗表明,CAMDNet具有較好的跟蹤性能。
基于CNN的目標跟蹤算法可以從大量訓練集中自動學習目標的所有有效特征,取得了較好的跟蹤效果。如Danelljan等[17]提出的C-COT算法通過插值方法將學習檢測過程推廣到連續空間域,獲得了較好的跟蹤效果,但計算量較大,跟蹤速度較慢。ECO(Efficient Convolution Operators)算法[18]采用卷積分解、樣本緊湊和魯棒性較好的更新策略對C-COT進行改進,在保障跟蹤精度的同時大大提升了跟蹤速度。Li等[19]提出的TADT算法通過篩選目標定位信息來提高模型魯棒性。Huang等[20]采用深度特征級聯自適應跟蹤方法(EArly-Stopping Tracker-EAST),將自適應跟蹤問題轉換成為決策過程,通過端到端的方式訓練與跟蹤目標相匹配特征,從而獲得更好的跟蹤結果。MDNet算法通過利用多域學習對網絡進行離線訓練,并根據跟蹤目標特性進行網絡在線更新,取得了較好的跟蹤結果[21]。
通道注意力機制以其自身優勢廣泛應用于目標分類[22]、目標跟蹤[23]和姿態估計[24]等領域。通道注意力機制幫助網絡學習有效的特征表示來提高網絡跟蹤性能[25]。通道注意力機制給每個通道信號賦予一個權重來表明通道對關鍵信息的作用度,權重越大代表相關度越高,越需要注意該通道信息。代表作Squeeze-and-Excitation Network(SENet)[26]通過對每個卷積塊加入通道注意力機制,在各種CNN架構上都獲得明顯的性能提升。Li等[27]提出的FICFNet跟蹤算法利用通道注意力機制將淺層特征和深層特征進行自適應集成來進行端到端網絡訓練,有效提升了跟蹤算法的性能。Qin等[28]提出的IMG-Siam跟蹤算法結合通道注意力機制和超像素光照算法來融合目標特征,融合后的目標特征不僅有目標外觀的細節信息還包含更多結構信息,可以有效地平衡跟蹤速度和跟蹤精度。Yang等[29]提出的MemDTC跟蹤算法使用基于通道注意力的長短期內存(LSTM)控制器控制使用內存,使跟蹤器在跟蹤過程中可以應對目標外觀變化情況。Rahman等[30]提出的SCSAtt跟蹤算法將通道注意力機制和空間注意力機制結合,可以使網絡在卷積過程中完善中間特征,從而有效地集中于有用的特征信息。
本節詳細介紹本文的CAMDNet網絡結構,通過在網絡結構中引入高效通道注意力機制進行特征篩選,加強目標特征表達能力,并采用可變形卷積提高模型對幾何形變的應對能力,在不深化網絡的前提下充分挖掘特征潛力,網絡結構如圖1所示。該網絡具有三個卷積層和三個全連接層。卷積層用于進行特征提取,通道數依次是96、256、512,ECA模塊通過自學習鄰近通道的相互關系,提高網絡對目標特征的關注度并抑制無關特征。卷積層Conv3選用DCNv2取代傳統卷積,解決網絡在幾何形變情況下容易出現目標丟失、跟蹤失敗問題,加強網絡健壯性。全連接層用于區分背景和目標,Fc4-Fc5表示目標和背景特征,Fc6為目標特定層,具有k個分支,每個分支均使用Softmax函數來區分背景和目標,灰色為目標,黑色為背景,每個視頻序列對應一個分支。

圖1 CAMDNet網絡結構
通道注意力機制是常用獲取通道關系方法[31],通過整合所有特征圖來提高網絡對互相關通道的關注度,從而有選擇地提取重要通道的特征信息。但通道注意力機制在生成通道權重時需要通過降維來降低模型復雜度,降維操作會嚴重影響通道關注度的預測。高效通道注意力機制是對通道注意力機制的改進,僅考慮鄰近通道之間的相關性,可以在不降維的前提下,加強網絡特征表達能力并減少計算參數的引入。
與基于通道注意力機制的跟蹤算法相比,本文提出的網絡利用高效通道注意力機制特性,通過學習鄰近通道間的依賴關系,實現無降維的局部跨通道交互,減少計算負擔。
CAMDNet網絡的高效通道注意力機制是在卷積層Conv1和卷積層Conv2之間嵌入ECA模塊,將其作為具有判別性的特征篩選器。通過考慮通道及其K個鄰居之間關聯性來捕獲局部交互關系,過濾無用信息,保留對目標有貢獻的特征信息,使網絡集中于跟蹤目標的有效特征,降低無用特征干擾,加強網絡的表征能力,解決網絡在背景雜亂和目標遮擋情況下跟蹤精度較低問題。ECA模塊結構如圖2所示。

圖2 ECA模塊結構圖
對Conv1提取到的51×51×96特征,利用全局平均池化操作將其轉變為1×1×96的表示特征通道全局信息的實數,該過程沒有參數引入。并依據已知通道數,利用如式(1)所示的通道尺寸自適應函數求出參與通道權重計算的鄰近通道個數K。

(1)
式中:|C|odd表示與通道C最接近的奇數,參數r和b本文分別設為2和1。利用一維卷積實現無降維局部跨通道交互,捕獲每個通道與鄰近K個通道的相關性,再通過Sigmoid函數獲得歸一化權重值w,最后將權重值通過乘法加權到原始特征上,完成原始特征在通道維度上的二次標記并輸入下一層。權重值w計算如下:
(2)

目標尺寸變化是計算機視覺中一個長期存在的問題[32],STN[33]是第一個學習平移不變性的深度CNN網絡,應用全局仿射變換扭曲特征圖來解決平移不變性問題。MACNN[34]通過在卷積網絡加入空洞卷積來擴大卷積層的空間支持,其填充參數是通過精心挑選和預先確定的,空間支持受靜態參數控制。以上方法采樣操作固定,每個像素點的接受域大小相同,沒有充分利用高級語義信息,無法應對視覺任務中的復雜幾何變化情況。DCN[35]通過學習目標偏移信息,使網絡用局部且密集的方式采集特征圖,有效提高了網絡對幾何變換的學習能力。DCNv2在DCN基礎上加入調制機制,每次采樣過程中不僅學習偏移信息,還根據學習到的調制權重進行調節,針對調制權重為0的位置選擇直接忽略,提取更多集中于有效區域的信息,使網絡可以學習更加復雜的幾何變換,在提高精度的同時避免帶來大量計算成本。
與基于CNN的跟蹤算法相比,本文提出的網絡采用可變形卷積取代傳統卷積,學習目標偏移信息,并通過調制權重進行位置信息篩選,加強網絡在目標發生復雜幾何形變情況下的學習能力。
CAMDNet網絡Conv3采用DCNv2來增強網絡對復雜幾何變換的學習能力。DCNv2模塊卷積過程如圖3所示。先對輸入特征圖(256×5×5)進行1×1卷積,卷積層通道數為768,前512個通道對應輸入特征圖上每個位置在x軸方向和y軸方向的可學習偏移量,后256個通道用來獲取每個位置的調制權重值。然后將偏移量和調制權重加權到輸入特征圖上,因偏移量通常不為整數,需要通過雙線性插值進行偏置映射。最后對帶有偏置映射的輸入特征進行3×3卷積獲取輸出特征圖。DCNv2的特征值計算公式如下:

圖3 DCNv2卷積示意圖
(3)
式中:x(p)為輸入特征圖上像素點p的特征;y(p)為輸出特征圖上像素點p的特征;wk為學習權重;pk為預先指定偏移量,pk∈{(1,0),…,(0,1),(1,1)};Δpk為像素點k的可學習偏移值;Δmk為像素點k的調制權重,取值范圍為0~1,Δmk和Δpk通過在輸入特征圖上應用單獨卷積層計算獲得。
1) 離線訓練。
本文使用在ImageNet-Vid[36]上預先訓練好的網絡參數初始化網絡結構。為了學習到不同視頻序列中的共有屬性,離線訓練時選用候選框與真實框的重疊交并比(IoU)選取正負樣本,設定IoU大于0.7為正樣本,IoU小于0.5為負樣本。對于每次迭代訓練,從某一視頻域中隨機選取8幀圖片來構建小批次樣本,并通過正負樣本定義從每幀圖像中選取32個正樣本和96個負樣本,總共生成256個正樣本和768個負樣本,每個視頻序列均對應一個自己的FC6層來存放該視頻序列的特有屬性,通過這樣的訓練方法來學習不同視頻序列的共有屬性。網絡每50次迭代進行一次更新。
2) 在線跟蹤。
(1) 模型初始化。在線跟蹤時,刪除多分支全連接層,并在網絡末端添加一個隨機初始化的單分支全連接層以用于測試視頻序列。模型初始化時,采用均勻隨機方式創建1 000個訓練樣本,1 000個樣本依次輸入網絡,利用線性回歸算法對邊框回歸函數進行參數更新。根據離線訓練的IoU標準,使用高斯分布隨機方法在帶有真實框標注的第一幀圖像上選取50個正樣本和5 000個負樣本,設置FC4/FC5學習率為0.000 1,FC6學習率為0.01,網絡迭代30次來更新FC4-FC6參數,保證網絡更適用于當前跟蹤目標。
(2) 目標跟蹤。針對每一幀待測試圖像,以上一幀圖像目標位置為中心,利用高斯分布形式生成256個候選框,將候選框裁剪為107×107大小后輸入網絡進行計算,最后由FC6層的Softmax函數輸出候選框得分數,選取得分最高的5個候選框,將其x軸坐標、y軸坐標、長度和寬度的平均值作為預測結果。
(3) 模型更新。為了保證模型的健壯性和精準度,本文網絡采用長期更新和短期更新相結合的在線更新方式。每10幀進行一次長期更新,但當跟蹤結果不可靠時(目標得分小于0.5),觸發短時更新,并將上一幀跟蹤結果作為當前幀跟蹤結果。為了平衡正負樣本不平衡問題,在每一次迭代過程中采用困難樣本挖掘技術獲取困難負樣本并加入到后續迭代過程中,加強網絡辨別能力,提高模型健壯性。
本文使用基準數據集OTB50[37]和OTB100[38]評估CAMDNet算法的性能。OTB50包含50個完全注釋的視頻序列,OTB100是OTB50的擴展,包含100個完全注釋的視頻序列。這些視頻序列共有11個屬性,分別是:背景雜亂(BC)、目標變形(DEF)、快速運動(FM)、平面內旋轉(IPR)、光照變化(IV)、低分辨率(LR)、運動模糊(MB)、目標遮擋(OCC)、平面外旋轉(OPR)、視線外(OV)和尺度變化(SV)。一個視頻序列可能帶有多個屬性,而某些屬性會比其他屬性出現頻繁,例如IPR和OPR。此外,目標的尺寸大小和位置信息在每個視頻序列中都已進行標注,用于模型評估。


(a) 中心位置誤差 (b) 重疊面積比
(4)
式中:Rtr表示目標真實邊界框;Rgt表示跟蹤結果的預測框;∪和∩表示兩個區域的交集和并集。本文使用單次通過方式(One-pass Evaluation,OPE)精準率和成功率完成模型評估,并使用成功率圖中曲線下面積值(AUC)對跟蹤算法進行排名。參數標準遵循OTB100默認設置。
本文實驗是在CPU Intel Xeon 3.60 GHz,32 GB內存,Windows 10系統下搭建PyTorch平臺環境下進行。實驗環境的配置參數如表1所示。

表1 實驗環境的配置參數
為了證明本文算法的合理性,采用OTB100數據集作為本節實驗的評定基準,將ECA模塊和DCNv2嵌入CAMDNet模型中,并探究驗證ECA和DCNv2對跟蹤結果的影響。實驗是在相同的計算平臺下實現的,以便公平地進行比較。
圖5為CAMDNet算法與MDNet算法的跟蹤結果對比,表2為11種屬性的對比結果。由實驗結果可知,CAMDNet比MDNet整體精準率和成功率提升2.25%和2.6%,證明本文算法可以有效處理各種挑戰性場景,且在背景雜亂、目標變形、目標遮擋和平面外旋轉這些屬性下表現尤為突出。MDNet-ECA是在MDNet網絡結構中引入ECA模塊,跟蹤精準率和成功率分別提升1.1%和2.4%,在背景雜亂、目標遮擋和尺度變化三種屬性下提升較大,分別提升0.28%、1.17%和0.88%,表明ECA模塊使網絡更多關注與目標有關的特征信息,即使在目標遮擋和背景雜亂情況下,網絡仍表現出較好的跟蹤性能。CAMDNet算法是在MDNet模型中引入ECA模塊和DCNv2,跟蹤結果得到進一步提升,且在目標變形和平面外旋轉兩種屬性下提高尤為突出,分別提升0.46%和0.58%,表明DCNv2有助于提高模型對目標尺度發生變化的特征學習能力,提升跟蹤性能。

表2 跟蹤算法在11種屬性下的跟蹤成功率(%)

(a) 精準率對比圖(b) 成功率對比圖
表3顯示了嵌入ECA模塊不同組合的跟蹤性能,ECA1代表在卷積層Conv1后嵌入ECA模塊,ECA12代表在卷積層Conv1層和卷積層Conv2層后均嵌入ECA模塊。由實驗結果可知,ECA1組合算法跟蹤效果最優,精準率為90.56%,成功率為67.36%。因為淺層網絡可以提取較多紋理特征和細節特征,ECA作為特征篩選器,過濾掉無用特征和背景干擾信息,保留目標有效特征,加強網絡對目標的表征能力。表4顯示了ECA1與DCNv2不同組合的性能,DCN1代表在卷積層Conv1選用DCNv2,DCN12代表在卷積層Conv1和卷積層Conv2均選用DCNv2。由表4實驗結果可知,ECA1+DCN3組合算法性能整體最佳,精準率為91.89%,成功率為67.44%。因為深層網絡提取較多目標輪廓、形狀、語義信息,具有較強的目標代表性,使DCNv2能更好地收斂到目標區域內,減少周圍無用信息的影響和干擾,提升網絡對目標的定位能力。

表3 ECA模塊不同組合的跟蹤結果(%)

表4 ECA與DCNv2不同組合的跟蹤結果(%)
為了進一步證明本文算法的有效性,與當前跟蹤效果較好的11個跟蹤算法進行定量比較,且這些跟蹤算法代碼均已公開,其中:ECO[18]、C-COT[17]、MDNet[13]、RT-MDNet[41]、TADT[19]、BACF[42]和MUSTer[43]是基于CNN網絡的跟蹤算法;MemDTC[29]和SCSAtt[30]是基于通道注意力機制的跟蹤算法;DaSiamRPN[39]和UDT[40]是基于孿生網絡的跟蹤算法。圖6和圖7表明了在OTB50和OTB100數據集上的跟蹤結果。

(a) 精準率對比圖(b) 成功率對比圖

(a) 精準率對比圖(b) 成功率對比圖
可以看出,CAMDNet算法在跟蹤精準率和成功率方面較MDNet均有提高。在OTB-50數據集上精準率達到88%,成功率達到63.16%。在OTB-100數據集上精準率達到91%,成功率達到67.44%,分別比MDNet算法提升2.25%、2.6%。
CAMDNet算法跟蹤精準率最高。從圖6(a)和圖7(a)中看出,本文算法精準率均高于其他跟蹤算法。在基準數據集OTB100的實驗結果中,比基于CNN網絡的ECO、C-COT、MDNet和TADT算法分別提高了1百分點、3百分點、2百分點和5百分點。比基于通道注意力機制的MemDTC和SCSAtt算法分別提高了7百分點和6百分點。基于孿生網絡算法DaSiamRPN提高了4百分點,表明高效通道注意力機制可以增強網絡特征表達能力,解決背景雜亂或目標遮擋下跟蹤精準率較差問題。
CAMDNet算法在跟蹤成功率方面達到次優結果。從圖6(b)和圖7(b)中可以看出,本文算法成功率優于大多數對比算法,在基準數據集OTB100的實驗結果中,與跟蹤效果最好的ECO算法僅差1百分點,比基于CNN網絡的C-COT、MDNet、TADT和RT-MDNet算法分別提高了1.69百分點、1.7百分點、1.89百分點和2.84百分點,比基于通道注意力機制的MemDTC和SCSAtt算法分別提高了4.87百分點和4.11百分點,比基于孿生網絡算法DaSiamRPN提高了2.07百分點,說明可變形卷積可以有效解決復雜幾何形變情況下跟蹤成功率較低問題。
本文算法是基于MDNet算法的改進,通過引入ECA機制使網絡所提取特征集中于目標本身,剔除一些無關信息,增強網絡對目標的表征能力,解決在背景雜亂或目標遮擋情況下跟蹤精準率較低問題;用可變形卷積替代傳統卷積的改進措施來提高模型對幾何形變的學習能力,提升網絡的健壯性,解決目標變形、快速移動平面外旋轉等目標外觀發生變形情況下模型跟蹤成功率較低問題。實驗證明了CAMDNet算法的有效性,跟蹤精準率和跟蹤成功率較MDNet算法提升2.25%和2.6%,下一步研究工作將考慮使用錨點機制生成候選框來提升模型跟蹤速度和跟蹤精度。