一種基于目標注意機制的MDNet目標跟蹤方法

2021-08-23 13:06:22任紅格梁晨史濤

現代計算機 2021年20期

任紅格，梁晨，史濤

（1.天津城建大學控制與機械工程學院，天津300384；2.華北理工大學電氣工程學院，唐山063210）

0 引言

作為現代計算機視覺領域的重要分支，目標跟蹤技術在工業生產、智能機器人、智能監控等領域有廣泛且深入的應用。目標跟蹤任務一般總體上是在的目標跟蹤任務中，通過鎖定第一幀中的目標區域，對后續幀的目標框進行持續的跟蹤[1]。在過去幾十年的研究開發過程中，這項技術獲得了許多令人矚目的成果，跟蹤效果得到了顯著的提升。但隨著研究的深入，研究者們發現在生活或者生產過程中存在許多的復雜情況，例如光照變化、目標形態變化、目標遮擋以及背景干擾等復雜因素，目標跟蹤技術仍然存在著一定的改善空間[2]。近年來隨著人工智能技術和機器學習算法的快速發展，神經網絡對于圖像方面的處理優勢啟發了計算機視覺領域，通過模擬人類腦神經視覺系統建立模型，分辨出圖像中最感興趣的部分，借此引導計算機算法對目標實施跟蹤過程。在本文中，通過建立視覺顯著性模型和MDNet跟蹤算法結合，在多重特征提取的基礎上對原有MD網絡追蹤過程進行改進，在不損失精度的基礎上盡可能通過視覺選擇機制來優化算法模型，提升算法運行速度，以此實現目標跟蹤的實時性。

視覺選擇注意機制和運動檢測機制在人眼視覺系統中至關重要[3]，這關系到長期記憶與視覺系統識別目標時是否判斷識別準確，在實際追蹤目標或對目標進行檢測過程中，調用長期記憶便依賴于人眼自身的注意。首先是通過眼部注意到色彩或者強光刺激信息，無意識的注意機制會快速的對重要信息進行篩選，輸入大腦視覺識別系統的就是初步處理過的感興趣信息了。以此不斷優化人腦的視覺記憶庫，如果再次看到記憶中的目標，通過這個流程會很快做出判斷。人腦視覺機能并不像人類所想的那樣全面，外部世界的信息事實上通過肉眼實際傳遞到視覺皮層的只有很少一部分，人腦在實際工作中會無意識的忽略大部分信息，可能是出于對有限大腦機能的保護，默認排除掉了難以理解的細節部分。一般認為人眼注意焦點和眼球運動密不可分，也就是所謂的顯性注意。但在1890年就有學者指出了眼角同樣能夠注意到目標的隱形注意，在這個過程中實際上并不需要眼球轉動，映入人眼的信息直接就能為人腦所捕獲，并進而實現后續的檢測、識別和追蹤等任務。

在大多數目標跟蹤任務中，如何平衡追蹤器的實時性與準確性，如何在形變、背景等干擾作用下依然保持一定精度的跟蹤而不丟失，仍然是這個領域所面臨的挑戰。深度網絡算法的逐漸發展在相當程度上影響了目標跟蹤的發展進程，訓練能夠對特征進行較為準確提取的跟蹤器變得十分重要。MDNet[4]在跟蹤領域對特征分別提取的構想以及其網絡結構都成為精準跟蹤的重要因素，優秀的特征提取性能以及對跟蹤器的有效訓練使得其脫穎而出。

在本文中提出了一個基于目標注意機制的MDNet目標跟蹤方法，通過結合MD網絡和視覺系統中的注意機制兩者的優勢，通過特征分別提取過程和建立顯著性注意模型來訓練有效的分類器。在盡量不影響原有跟蹤精度的前提下改善MD網絡面對復雜情況是所出現的運行速度下降[5]的問題，以期實現較高精度的實時跟蹤過程。

1 提出的算法

所提算法基于MD網絡結構進行正負樣本分別提取，并分別對樣本進行顯著性建模，對不同類別的樣本分配各自的權重，通過提取來的特征樣本對模型進行優化，優化過的模型再通過DSST分類器訓練進行追蹤過程，得到的結果再對訓練過程進行反饋調整。

所提算法的結構如圖1所示，大致分為特征提取和目標跟蹤，模型尺度矯正估計等兩個部分，之后根據跟蹤結果對尺度模型進行更新。

圖1

1.1 MD結構和特征提取

MD網絡作為一種基于目標跟蹤需要而經過特殊調整的網絡結構，在VGG網絡[6]的基礎上MDNet作為一個規模只有五層的淺層網絡，和應用于其他計算機視覺任務的結構相比顯得更輕量化，主要是出于特征提取的辨識度和運算時效率這兩點的考慮，網絡深度的增加某種意義上反而不利于實現實時穩定的跟蹤過程，因此過多的層數既無法保證實時性也沒有必要。

圖2

通過采集200個基礎樣本數據作為訓練需求，定義和目標相關重疊率大于70%的為正樣本，小于50%的為負樣本。訓練過程大致如下：將分別集中了正負特征和背景特征的各個多域網絡分別對應各自的追蹤數據進行訓練，在各個分支通過梯度下降法進行計算，如果某個分支達到了激活臨界值則進行激活并繼續訓練，和其他分支不交叉，訓練數據則會根據之后的視頻序列所需進行提供，并繼續依次激活之后的分支，逐漸訓練到收斂。

1.2 邊界框回歸

如果P和G誤差控制在一個相對較小的區間內，則上述變換過程可以視作線性的，這里便可以引入線性回歸的機器學習模型來對回歸框進行校正。

在MDNet中首先輸入的是第一幀圖片的目標位置，在回歸模型中輸入不再是P而是通過conv3后的特征向量

得到的是預測值P也就是估計區域信息，如果要得到和實際區域G的相關關系還需要經過變換詳細如下：

如果想要讓預估值無限接近于真實值，那么就需要把損失函數Loss盡可能降低，這樣得到的目標位置就會更準確。

1.3 困難例挖掘[7]

實際追蹤任務中，提取的樣本有正有負，但還存在困難例樣本，如果再訓練的時候適當的添加一定量的困難例負樣本可以在提高算法準確性的基礎上使網絡更穩定地訓練，更快的收斂。在邊界框回歸框架中，只需要尋找少量的對訓練有益的困難負樣本，以此結合正樣本一并成為總體的訓練數據。大體上就是利用初始負樣本訓練出一個能夠和困難例樣本進行結合的分類器以適用于之后的訓練。

當C是集合D的子集的時候，當且僅當滿足M(?*(D) )?C，則?*(C)=?*(D)。即在D上訓練一個分類器?，使用該分類器?*(D)在D上搜索困難例，所得到的在C上的分類器等價于D上的分類器；如果存在?*(M(?,D) )=?，那么?=?*(D)。即對于分類器?，它在D上得到的難例樣本集為M(?,D)，用M(?,D)訓練一個分類器?*(M(?,D) )，當訓練的結果與?相等，就停止訓練，?即為當前最優分類器。

D的困難和簡單樣本定義分別如式（4）和（5）：

設?*(D)=arg minLD(?)，則可得到模型參數在D上的表達。給定一個大樣本集合得到小樣本集合C，使滿足條件?*(C)=?*(D)。循環往復的模型學習開始之后，需要在保持正樣本不動的情況下對負樣本進行困難例挖掘，不斷添加樣本最后以實現模型更新。

1.4 顯著性特征加權融合

如果要使用新訓練好的網絡進行目標追蹤和任務，出于對新目標適應的考量，MDNet中會新建一個輸出層，在已訓練完成的卷積層數維持不變的基礎上只對全連接層和新輸出層進行更新[8]。在確定了首幀位置之后，通過采集300個正樣本和2000個負樣本對網絡初始化，同時對全連接層進行微調。第二幀開始選取用來分別對長期和短期網絡進行更新的50個正樣本和200個負樣本。如果出現此處的追蹤結果不精確的情況，需要通過降低負樣本的選取重疊標準，避免將目標歸入負樣本的情況發生。

首先對輸入的原始圖像進行線性濾波預處理，去除噪聲干擾后建立三個圖像通道，同時提取方向、顏色和亮度的值進行建模，之后一同導入高斯低通濾波器，以此對輸入信號進行處理和降采樣，產生數個不同顏色和亮度的特征輸出，并伴隨著四個方向向量，然后對三個通道不同的尺度特征圖進行歸一化，最后得到三個通道的綜合特征圖。

設r、g、b和分別代表輸入圖像的紅色、綠色和藍色通道，亮度信息通過下式獲得：

四個顏色通道紅、綠、藍、黃（R，G，B，Y）輸入分別通過以下式子獲取：

以上顏色通道輸出若有負值均設為0。

方向信息是用濾波器來實現的，用不同尺度的Gabor方向濾波Wbpf(σ,θ)對輸入圖像進行處理得到輸出為：

其中σ∈{0 ,1,2,…,8}代表不同分辨率大小的對應圖層，θ∈{0°,45°,90°,135°}表示向量方向。而方向檢測的Gabor濾波器Wbpf通過解調拉氏金字塔濾波器得到。

訓練的目標是獲得最后的特征圖，為此需要對所有通道特征進行加權求和。特征圖中如果現實輸出值更大則表示相對應的注意值更高，也就是更受算法的注意。另外算法還特意針對已經特別注意的區域不會分配更多的權重，避免注意力集中在某個地區，如果是階梯性的關注結果則是最優情況。當大部分特征區域完成對應關系計算后得到的特征結果圖則為最后需要的結果。

1.5 DSST分類器訓練[9]

在MDNet進行追蹤的基礎上再通過建立尺度濾波器結合視覺注意機制進行尺度調整和輔助追蹤。通過建立尺度金字塔來對特征進行選擇性提取，并通過相關濾波器搜索得出追蹤目標位置[10]。

通過設計濾波器H，輸入信號F（f），高斯輸出響應在跟蹤目標中心位置值最大，離目標越遠值越小，以此思路設：

轉換到頻域即為：

最后設計濾波器H應滿足損失函數：

1.6 模型更新

模型更新策略：

2 實驗驗證

在Windows 10系統下，采用MATLAB 2018作為實驗平臺。硬件配置如下：Intel Core i5-3337U@1.8GHz CPU，8GBRAM，英偉達760m顯示適配器。位置濾波器的學習率η=0.03，正則項λ=10-4。尺度濾波器的尺度因子a=1.03，采樣個數S=30，學習率η'=0.025，正則項λ=10-4。所用測試集為OTB100[11]公開數據集。

由于算法在充分考慮了目標模型尺度變化的基礎上采用了較強特征表征能力的深度殘差網絡提取特征，所提框架在幾乎所有挑戰屬性序列上表現都很好，在具有光照變化，遮擋屬性的視頻序列上表現出較好的跟蹤性能，同時因為記憶矯正的引入使得在形變，目標遮擋等復雜環境下仍然保持了一定的魯棒性。

2.1 整體算法性能

追蹤性能精確性和成功率如圖3、圖4所示，由于MDNet在設計時考慮了對負樣本進行專門提取收集，因而實際學習訓練出來的結果比其他算法都好。在第二名的基礎上準確率提升了約5.6%，成功率提升了約3.6%。并且在保證不損失太多精度的情況下基本維持了一定的實時性，運行速度達到了5fps。

圖3

圖4

2.2 具體挑戰表現

算法在具體跟蹤序列上的表現如圖5所示，所提算法在面對遮擋、形變以及復雜背景環境下運動的挑戰中[12]均獲得了優秀的表現。

圖5

2.3 算法速度比較

因為ROI大小隨著序列尺度的變化而變化，大尺度的目標在進行卷積時不可避免的會拖慢算法運行速度[13]。在以實時性為主要著眼點的相關濾波算法中，所提算法達到了基本實現實時性的4 f/s，具體對比如表1所示。

表1

3 結語

本文提出了一種基于ResNet和短期記憶尺度變換的視頻跟蹤算法，在通過利用深度殘差網絡特征提取的基礎上，使用和相關濾波模板得到響應位置并進行尺度采樣，利用短期視覺機制進行尺度矯正估計，并在OTB100數據集上測試可行性，與其他算法進行了對比。實驗結果表明，所提出的算法在具有一定實時性的基礎上能夠較好地面對尺度、光照的變化以及遮擋，在保證精確度的前提下也具有魯棒性。

實驗的同時也發現多層次的神經網絡各層的特征提取能力不同，如何在特征提取的基礎上進行多通道特征融合進而實現復雜情況下的目標識別檢測跟蹤依然是接下來研究的方向。