孫明杰, 周 林, 顧金玲, 李培庚
(1. 空軍工程大學防空反導學院, 陜西 西安 710051;2. 中國人民解放軍32272部隊, 甘肅 蘭州 730010;3. 中國人民解放軍95169部隊, 廣西 南寧 530031)
目標跟蹤問題是機器視覺領域的重要研究內容之一,高性能的目標跟蹤算法不斷出現[1]。然而紅外圖像信噪比和分辨率均較低,使得紅外目標跟蹤問題比可見光目標跟蹤更具挑戰性[2]。紅外成像技術是一種通過探測目標紅外輻射來成像的非接觸、被動檢測技術,其主要優勢是能夠在完全黑暗的情況下對目標成像[3]。隨著紅外成像技術的不斷進步,其不僅廣泛用于軍事領域,同時在民用領域具有廣闊的應用前景,如智能安防等[4]。
近十年來,國內外相關學者在紅外目標跟蹤領域做了大量工作[5-8]。盧楊等利用改進的低維度紋理特征來獲取各個像素的梯度方向和幅值信息,有效提高了目標跟蹤的穩定性[9]。西安電子科技大學的錢琨等將引導濾波和卷積神經網絡(convolutional neural network,CNN)應用于紅外目標跟蹤問題,并對應用效果進行了驗證[10]。Lamberti等仍以模板匹配算法為基礎,通過改進以提高算法的性能,仍然難以克服模版漂移的問題[11]。Mould等則將AM-FM一致性檢查用于紅外目標跟蹤,可以在一定程度上提高對紅外數據序列的跟蹤性能,在AMCOM紅外序列上也有不錯的表現[12]。盡管紅外目標跟蹤取得了一些進展,但跟蹤算法性能仍難以滿足應用要求。
得益于CNN杰出的特征表達能力,其在目標識別和檢測領域得到了成功的應用[13]。但是在目標跟蹤領域,這個序列中的目標可能是另一個序列的背景,因此CNN在目標跟蹤領域應用受到一定的限制。在2016年,韓國的POSTECH團隊提出了多域網絡(multi-domain networks, MDNet),由于其輕量級的網絡結構和多域訓練的模型設計,在目標跟蹤領域取得了杰出的效果[14]。由于紅外圖像本身質量不高,數十層復雜結構在CNN網絡將會使深度特征成為一個像素點,難以實現對目標特征的描述。同時,對于目標跟蹤問題而言,目標在相鄰幀的尺寸變化較小且變化具有一定的規律性。因此,在多域網格的基礎上引入了目標尺度預測,并稱之為基于尺度預測的多域網絡(scale prediction based MDNet, SPMDNet)。該算法能夠在充分利用深度特征表達能力的同時,提高跟蹤算法的魯棒性。
如圖1所示,多域網絡由共享層和分支層組成,其中每個域對應單個訓練序列,每個分支負責二值分類以識別每個域中的目標。網絡只有6層,其中卷積層是一個通用的特征提取器,而全連接層則針對任務和數據集的不同進行自適應調整。選擇多域網絡作為算法的基礎框架的原因主要有兩個:① 其結構只有6層,對低分辨率的紅外圖像具有較好的適應性;② 相對于可見光圖像而言,現有的紅外圖像數據庫較少,較淺的網絡結構可以有效避免過擬合。

圖1 多域網絡結構
對于多域網絡而言,在線跟蹤是通過評估在前一個目標位置周圍隨機采樣以生成候選框來進行的。在進行目標跟蹤時,候選框的產生是隨機的,隨機抽樣策略不能充分利用先驗信息。目標的尺度與當前幀之前的尺度高度相關,不會突然改變,因此可以作為重要的先驗信息進行利用。由于在線學習的精度與跟蹤精度有密切關系,質量差的在線學習甚至會導致跟蹤失敗。通過尺度預測的反饋,提高目標跟蹤算法的性能。在線學習中的尺度預測可以通過生成合理的學習樣本充分利用先驗信息,提高跟蹤器的準確性和魯棒性。
本節將主要介紹應用目標尺度預測的紅外目標跟蹤算法以及算法評估的標準。
人工神經網絡不需要預先確定輸入與輸出之間映射關系的數學方程,只通過自身訓練學習一些規則,在給定輸入值時,得到最接近期望輸出值的結果[15]。反向傳播(back propagation,BP)神經網絡是一種多層前饋神經網絡,其主要特點是信號的前向傳輸和誤差的后向傳播[16]。由于不同序列的尺度變化是不同的,只能根據當前幀之前的跟蹤結果來預測下一幀的尺度。神經網絡作為一種非線性建模和預測方法,以其良好的非線性質量、較高的擬合精度、靈活有效的學習方法、全分布式存儲結構和層次化的模型結構在許多領域得到了廣泛的應用[17]。因此,設計了一個改進的BP網絡來在線預測下一幀中目標的尺度。
如圖2所示,用于預測目標尺度的BP網絡由隱含層和輸出層兩層組成。其中輸入數據為當前幀以前的尺度信息,輸出數據為當前幀的預測尺度。輸入數據維度為m,輸出數據維度為1,即目標的預測結果。

圖2 BP網絡結構
多域網絡作為一種經典的BP網絡,具有傳統BP網絡的劣勢[18]。BP神經網絡的執行函數主要采用均方誤差(mean square error, MSE)函數,該函數較好地處理高斯分布誤差。然而,尺度預測的誤差并不滿足高斯分布[19]。與MSE相比,最大交叉熵(maximum correntropy criteria, MCC)更適合用于尺度預測[20]。MCC是一種用于評估兩個隨機變量之間的相似性的理論,例如X和Y。MCC的定義為
Vσ(X,Y)=E[kσ(X-Y)]
(1)
式中,kσ為核函數;σ為核寬度。
根據相關性理論,當相關性為最大時,預測誤差最小,可得到優化的BP網絡模型[21],即
(2)
如圖3所示,輸入的訓練數據是目標從當前t-1幀到t-m-n幀的比例,則訓練數據有2(m+n)個。這里的“2”表示目標的寬度和長度,分別是預測的。BP網絡的輸出每次只有一個結果。

圖3 BP網絡訓練數據結構

(3)
BP網絡的訓練是在線進行的,因為訓練數據是在跟蹤過程中產生的。目標的預測尺度可以為跟蹤器提供更加科學合理的樣本,提高跟蹤性能。

1. 初始化目標位置為x12. If t<1013. 候選框=random (xt-1);4. else5. 訓練數據為xit-100:xit-1;6. 利用BP網絡預測目標尺度xt;7. 輸出目標預測尺度,并選擇最優的候選框為目標位置x*.8. End
下面描述了進一步的實現細節。
(1) 訓練數據。BP網絡的訓練是在線進行的,因為訓練數據是在跟蹤過程中產生的。目標的預測尺度可以為跟蹤器提供更加科學合理的樣本,提高跟蹤性能。
(2) 網絡學習。為了提取滿足紅外圖像共同屬性的特征,使用VOT-TIR 2016訓練共享層。對于每個跟蹤序列,以0.05的學習率對網絡進行300次迭代訓練。
當前機器視覺領域的目標跟蹤問題主要圍繞可見光目標跟蹤問題,專門針對紅外圖像序列的數據庫和評價標準都比較缺乏[23]。VOT-TIR是紅外目標跟蹤領域最出色的數據庫,不僅包含大量的紅外序列,還有眾多優異算法的測試結果[24]。為了驗證所提出算法的性能,將算法與VOT-TIR 2016中的18種優秀算法進行了比較,并利用VOT2016評估工具包對所有跟蹤算法進行評估。
2.4.1 精度
精度測量是根據預測的邊界盒與地面真值的重疊來計算的。根據IOU(交集比并)的定義,對VOT中的精度定義為
(4)

(5)
式中,Φt(i)表示跟蹤器i第k次重復中的準確率;Nrep表示重復次數。因此,跟蹤器i的精度a(i)可以定義為
(6)
為了使精度的表達更加直觀,將式(6)修改為
A(i)=e-Sa(i)
(7)
S為一個常數項,一般在精度描述時指出其具體的數值。
2.4.2 魯棒性
魯棒性用于評價跟蹤算法的健壯性,能夠有效表征算法的適應性[25]。VOT的魯棒性R(i)定義如下:
(8)
2.4.3 預期平均重疊部分
由于評價方法的準確性-魯棒性不能充分利用行數據,因此提出了一種新的指標預期平均重疊部分(expected average overlap, EAO)方法。該算法只關注基于重疊定義的精度。EAO的計算為
(9)
式中,Ns為序列的長度,精度通過一次評估來(one-pass evaluation,OPE)評價。
2.4.4 實時性指標
算法的實時性是應用的重要前提,因此需要綜合考慮算法的運行速度。由于每個圖像序列的長度不同,為了使計算更加準確,對圖像序列進行平均運算。采用每秒能夠處理的圖像數量(figures per second,FPS)作為實時性評價指標,其定義為
(10)
式中,Ni表示第i個序列的長度;ti表示第i個序列耗費的時長。
為了驗證所提出算法的跟蹤性能,本節在著名的公開紅外數據集VOT-TIR 2016上進行了評估,其包含25個具有挑戰性的紅外圖像序列。數據集中包含的紅外序列包括9個不同的來源,其使用10種不同類型的紅外傳感器,場景遍布工業和研究機構。此外,通過空中移動平臺獲得的AMCOM序列在運動中會遭遇突然的不協調。與實際應用項目更接近。因此,在難度非常大的FLIR數據集AMCOM中評估了所提算法。
首先,對所提出的算法和VOT-TIR 2016中18個表現優異的跟蹤算法進行了定性評價。為了更簡潔地評估跟蹤器的性能,當算法丟失目標后,不再重新初始。
如圖4所示,將訓練數據重新組合為項目,每個項目包含m個數。所提的算法中,m=49和n=51,網絡預測200次生成在線學習候選窗口。圖4展示了相關算法在多個序列上的跟蹤結果,不同顏色的跟蹤框代表不同的算法,對跟蹤失敗的幀用“X”標記。可以看出,所提出的算法能夠穩定地跟蹤目標,甚至在相機運動、嚴重遮擋和快速運動等情況下保持了較好的跟蹤精度。

圖4 所提算法和其他11個跟蹤算法在9個高難度序列上的跟蹤結果
3.1.1 魯棒性和精度分析
序列合并魯棒性和精度等級圖是通過將所有序列的結果串聯起來并創建一個等級列表來獲得的,而屬性歸一化精度等級圖是通過對每個屬性的跟蹤器進行排序并對等級列表進行平均來創建的。圖5顯示了所有跟蹤器在不同屬性中的排序。

圖5 5種屬性下的魯棒性-精度排序
從圖5中可以看到,所提出的算法在幾乎所有屬性中具有出色的表現。尤其是在屬性攝像機運動、運動變化和大小變化上的整體精度排名第一,這充分顯示了目標尺度預測對算法精度的提升效果顯著。
3.1.2 EAO
期望重疊(expected overlap, EO)是一個能夠表現算法整體精度的評價指標,在評價中起著重要的作用。根據式(6)中的定義,一組一定長度序列的平均重合率來給出期望的平均重疊曲線。如圖6(a)所示,所提方法始終優于其他跟蹤器。將典型序列的EO從223幀到509幀,對EO曲線進行積分得到期望重疊分數。圖6(b)展示了所有算法的EAO排序,最右邊的跟蹤器是表現最好的。因此,可以看出所提出的算法排名第二,僅次于SHCT算法。

圖6 EO圖和EAO圖
為了更加科學地評價所提出算法的性能,從著名的FLIR數據集AMCOM中選取了兩個序列對所提出的算法進行了評估。該數據集圖像尺寸為128像素×128像素,為無人機掛載紅外攝像頭采集的,難度比較大。為了對比不同自算法的性能,選取5個優秀的跟蹤器的結果,包括MDNet[26]、LSST[27]、TLD[28]、KCF[29]、LCT[30]進行對比實驗。
表1對算法在紅外序列上的性能進行了定量分析,采用DPR和OSR衡量算法的精度,FPS衡量算法的實時性。
為了對算法的性能進行定量描述,采用在20個像素誤差閾值下的正確率(distance precision rate, DPR)和重疊度70%閾值下的重疊成功率(overlap success rate, OSR),對算法的精度進行定量評估,評估結果見圖7。實驗表明,對于序列lwir_1608,所提算法在精度上有很好的性能,成功率排名第二。對于序列lwir_1913,與其他5個跟蹤算法相比,定位精度排名第二,成功率排名第一。這也表明所提方法在AMCOM數據集上是有效的。

表1 算法和5種算法精度和速度對比

圖7 DPR和OSR的比較
分析表1可知,在兩個序列中,所提算法的平均跟蹤精度和成功率都優于其他5種算法,實時性達到5.2 fps。相比于MDNet,所提出的算法成功率提高了21.9%,平均重疊率提高了30.4%,算法的運行速度下降了2.3%。目標尺度預測增加了一定的計算量,因此實時性略有下降。同時,目標跟蹤的精度得到了顯著的提高,因此所采用目標尺度預測是有效的。
圖8將所提算法與5種算法的結果進行可視化,不同顏色的跟蹤框代表不同的算法。在目標跟蹤初期,多數算法可以實現對目標的跟蹤。在目標輻射強度出現變化或目標突然轉彎后,所提出的算法仍然可以實現對目標的穩定跟蹤,表現出優異的魯棒性。

圖8 跟蹤結果可視化對比
本文提出一種具有目標尺度預測機制的紅外目標跟蹤算法,通過改進的BP網絡對跟蹤過程中的目標尺度進行預測,可以充分利用先驗信息。與MDNet相比,尺度預測的應用可以顯著提高跟蹤精度和魯棒性。大量實驗結果表明,該算法在準確性和魯棒性方面優于現有的算法,對于紅外目標跟蹤問題的研究具有一定的參考價值。