吳貴山 ,林淑彬 ,楊文元
1.閩南師范大學 計算機學院,福建 漳州 363000
2.閩南師范大學 福建省粒計算及其應用重點實驗室,福建 漳州 363000
無人機目標跟蹤是計算機視覺的一個熱門的研究方向[1-2],受到越來越多的關注。隨著低成本小型無人機的日益普及,無人機廣泛應用于軍事、航拍、災難救援、環境監測、電力巡檢、人群監測等領域。在無人機的空中場景中,由于受到快速運動、攝像機抖動和視角變化等方面影響,目標跟蹤仍然具有挑戰性。
過去幾年,基于相關濾波的改進算法取得很大的進展。2014年Henriques等人[3]在CSK[4]的基礎上,拓展特征通道并引入方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征[5],提出核化相關濾波器KCF,進一步完善相關濾波跟蹤框架。2017年Danelljant M等人[6]在C-COT[7]基礎上加入因式分解的卷積層,提出ECO算法,進一步提高跟蹤精度。成悅等人[8]提出基于置信度的加權特征融合相關濾波跟蹤,加入了特征融合和更新機制,提高跟蹤的精度和魯棒性。
為了適應無人機輕量化的要求,符長虹等人[9]提出基于相關濾波的無人機在線多特征學習,利用測量響應峰值強度的峰值旁瓣比來加權每個響應;提出BEVT算法[10],通過在線增強背景學習和多幀一致性驗證,解決無人機目標跟蹤的邊界效應問題。董美寶等人[11]提出多特征重檢測的相關濾波無人機視覺跟蹤,解決目標遮擋的問題。李一鳴等人[12]提出AMCF算法,通過快速壓縮上下文學習方法,提高了濾波器的識別能力,在CPU上的速度超過40幀/s。
然而,在某些跟蹤挑戰被放大的空中場景中,包括快速移動、攝相機抖動、視角變化、偏離視線等,一些跟蹤算法不能體現良好的性能。為了提高精度引入的深度學習和預訓練網絡,大幅犧牲了跟蹤速度,使用GPU運算又不能適應無人機輕量化的要求。多特征的融合增強了算法的表達能力,但融合后的響應不可避免地含有噪聲,最終導致模型漂移。
針對上述問題,提出一種基于多特征融合的次峰響應抑制無人機目標跟蹤算法(Sub-peak Suppression of Multi-feature fusion in UAV object Tracking,SSMT),在融合后的響應中加入次峰抑制,解決多特征融合的噪聲問題,聚合中心主峰。首先,為了解決目標和背景相似時跟蹤出現漂移的問題,通過從背景中密集采樣獲得真實負樣本,提取HOG特征。為了避免顏色的高維性導致計算開銷的增加,采用降維技術提取二維顏色屬性特征(Color Names,CN)。然后,融合HOG特征和CN特征,生成響應。對融合后的響應進行剪裁,減少模糊響應,減小目標響應的方差;在每一行和每一列中查找最大響應,水平和垂直方向進行最大池化并求和,將多個次峰聚合為一個中心主峰。最后,通過峰值可靠性得分判斷目標是否發生遮擋等情況,引入自適應模型更新策略進一步增強算法的魯棒性。在UAV123和VisDrone2019數據集上進行實驗,與其他算法進行對比。實驗結果顯示在無人機的快速運動、攝像機抖動、視角變化、偏離視線等挑戰場景中表現出較好的精度和魯棒性。
主要介紹如何提取HOG特征和降維的CN特征,并將兩個特征進行融合生成響應。加入模型更新機制,提高跟蹤的精度和魯棒性。
傳統的相關濾波缺乏真正的負樣本。為了訓練一個能更好地區分前景目標和其移位樣本的濾波器,對圖像應用一個循環移位和裁剪操作。多通道背景感知相關濾波器w通過以下公式進行訓練:

其中,ε(w)為樣本 Bxk[Δτt]的響應與其回歸目標 y(t)的平方誤差和。
為了加快計算速度,在頻域內進行相關運算。因此,式(1)轉換到頻域,得到以下方程:

其中,X?∈CN×DN,g?∈CDN×1和 w∈RDM×1分別定義為表示克羅內克乘積,^表示信號的離散傅里葉變換。
背景感知相關過濾器使用HOG特性來表示對象,能很好地捕獲邊緣或梯度結構。但是當目標外觀發生變化時,跟蹤性能不夠理想。因此,加入二維顏色屬性特征,提高跟蹤性能。
高維的顏色屬性導致計算效率降低,不利于在無人機等領域的應用。為了解決這一問題,采用降維技術,在保留有用信息的同時,將顏色屬性特征降為二維。通過最小化代價函數,為當前幀p找到一個合適的降維映射方式:


SSMT使用一種簡單而有效的融合HOG特征和CN特征的跟蹤策略。給定圖像幀I(t),通過測量響應的峰值強度和權重,處理后的響應圖可由式(5)獲得:

在跟蹤過程中,為了防止跟蹤過程產生漂移,一個頻率適中模型更新能夠帶來理想的跟蹤結果。通過峰值可靠性得分來判斷目標是否發生遮擋等情況。假設最后得到的跟蹤響應圖為P,判斷條件如下:

通過判斷當前幀的最大響應值與歷史平均值之間的比例是否大于給定的閾值,s1是對峰值的檢測,s2是可靠性的判斷。
為了適應無人機輕量化的要求,采用手工特征。SSMT算法利用HOG特征和CN特征各自的優點,提高跟蹤性能。多特征的融合增強了算法的表達能力,但融合后的響應不可避免地含有噪聲。這種噪聲將產生多峰響應,次峰可能會逐漸增大,最終導致模型漂移。在多特征融合后加入次峰響應抑制,防止次峰“生長”為主峰。公式如下:

其中,P表示峰值響應池上的每個采樣響應。對于像素在目標范圍內但距離中心較遠的區域,背景或前景都可能存在模糊特征。使用 f(g(xt);ω)剪裁特征響應圖,將遠離峰值響應的像素設為零,相當于丟棄目標邊界處的響應。g(xt)表示邊界響應裁剪后的特征,該特征減少目標響應的方差,減小邊界效應。
對于局部遮擋或背景噪聲目標,f(xt;ω)不一定是一個高斯分布,也可能是離散的。通過最小化目標函數,可以強制響應映射 f(xt;ω)到近似高斯先驗。首先,在響應圖每一行中查找最大響應,并為行中的所有像素分配最大響應值,將響應集中到水平映射中。然后,用同樣的方式在每一列中查找最大響應,并為列中的所有像素分配最大響應值。響應的值可以計算為:
x?pq=max(xp1,xp2,…,xpn)+max(x1q,x2q,…,xmq)(11)其中,x?pq表示 p行和q列所在位置的原始響應值。對水平和垂直池化映射進行求和,以獲得經過校正的響應映射。該響應映射將較大的響應值聚合到目標幾何中心。經過多次學習迭代后,目標響應近似為二維高斯分布,與穩健目標跟蹤的高斯先驗分布吻合。
通過反復實驗發現,裁剪9%~11.5%高度/寬度的響應映射,可以達到最佳的效果。最終確定裁剪10%,丟棄4%的前景信息和12%的背景信息。
如圖1,跟蹤算法的框架分為三個部分。第一部分能提取HOG特征和二維的CN特征,并進行融合。第二部分對融合后的響應加入次峰抑制,去除多特征融合的噪聲。首先,對響應進行剪裁,減少模糊響應,減少目標響應方差;然后,在每一行和每一列中查找最大響應,在水平和垂直方向進行最大池化并求和,將多個次峰聚合為一個中心主峰。第三部分根據峰值可靠性得分判斷模型是否漂移,采用自適應更新模型策略,增強算法的精度和魯棒性。算法步驟如下。

圖1 SSMT跟蹤流程圖
算法 多特征融合的次峰抑制無人機目標跟蹤(SSMT)
輸出:跟蹤序列的最大響應位置P。
(1)循環移動,裁剪中間區域作為正樣本和真實負樣本,提取HOG特征。
(2)使用公式(3)尋找一個映射矩陣,獲得二維的CN特征。
(3)對HOG特征和二維CN特征進行融合。
(4)對融合后的響應使用公式(9)和公式(10)進行次峰抑制,將多個次峰聚合為一個中心主峰,即目標響應P。
(5)通過峰值可靠性得分判斷模型是否漂移,自適應更新模型。
返回:視頻系列的目標位置。
一些跟蹤算法在OTB-2013[13]、OTB-2015[14]、VOT2016[15]、TC128[16]和ALOV300++[17]等數據集上進行測試。這些數據集包括很少的空中序列,沒有嚴格評估跟蹤器在機載場景中的精度和魯棒性[18]。為驗證所提跟蹤算法SSMT的有效性,在UAV123[18]和VisDrone2019[19]兩個無人機公開數據集上進行實驗。所有實驗都運行在CPU的計算機上。
UAV123數據集是專業級無人機捕獲的123個全注釋高清視頻,是僅次于ALOV300++的第二大目標跟蹤數據集。UAV123數據集包含常見的視覺跟蹤挑戰,突出無人機運動對攝像機視角變化的影響,縱橫比相對于初始幀的變化明顯較大。
在UAV123數據集上與ECO-HC[6]、ARCF[20]、AMCF[12]、BACF[21]、OMFL[9]、MCCT-H[22]、SAMF[23]、SRDCF[24]八 個先進跟蹤算法進行對比。整體性能比較結果如圖2所示,跟蹤器SSMT一次通過的精度和成功率都取得很好的結果,分別為70.5%、50.4%。所選的對比算法中,主要是基于相關濾波方法改進的跟蹤算法,它們各自都具有代表性。與這些方法進行比較更能驗證SSMT算法的有效性。SSMT跟蹤器利用HOG特征和CN特征各自的優點,并對兩個特征進行融合。加入次峰抑制,有效地解決多特征融合后的噪聲問題。為了減少運算開支,使用二維的CN特征,跟蹤速度達到31幀/s,滿足無人機的輕量化運算和實時性的要求。
為了進一步分析SSMT跟蹤算法在UAV123數據集中的表現,與八個先進跟蹤算法在各個屬性上進行對比。圖3顯示SSMT跟蹤算法在快速運動、攝像機抖動、視角變化、偏離視線四個屬性上都取得較高的性能。這也驗證了加入次峰響應抑制機制,能夠很好地抑制次峰的生長,增強算法的魯棒性。表1列出SSMT跟蹤算法在另外七個屬性上的比較結果,加粗為最佳,加粗下劃線為第二好結果。表1顯示在相似對象(SO)和縱橫比變化(ARC)兩個屬性,取得較高的性能。在部分遮擋(POC)、光照變化(IV)、尺度變化(SV)和背景干擾(BC)屬性上性能也僅次于其他跟蹤算法。在低分辨率(LR)屬性上表現不佳。下一步,將著重研究新的采樣策略,進一步提高跟蹤性能。

表1 在UAV123數據集的AUC比較結果

圖2 在UAV123數據集上的精度和成功率

圖3 在UAV123上FM等屬性的精度和成功率
VisDrone2019是朱鵬飛等人拍攝和標注的數據集,包含263個視頻剪輯和10 209個圖像。定義10個感興趣的對象類別,注釋來自這些類別的250萬個對象實例的邊界框,包括對象邊界框、對象類別、遮擋、截斷率等。實驗挑選其中較有挑戰性的35個視頻序列進行測試。
在 VisDrone2019 數據集上與 ECO-HC[6]、ARCF[20]、AMCF[12]、BACF[21]、OMFL[9]、MCCT-H[22]和 Staple[25]七個先進跟蹤算法進行對比。整體性能比較結果如圖4所示,跟蹤器SSMT在一次通過的精度和成功率都取得很好的結果,分別為81.9%、60.2%。

圖4 在VisDrone2019數據集上的精度和成功率
為了進一步分析SSMT跟蹤算法在VisDrone2019數據集中的表現,與七個先進跟蹤算法在其他各個屬性上進行對比。圖5顯示SSMT跟蹤算法在快速運動、攝像機抖動、視角變化、偏離視線四個屬性上都取得較高的精度和成功率。表2列出SSMT跟蹤算法在另外七個屬性上的比較結果,加粗為最佳,加粗下劃線為第二好結果。表2顯示在尺度變化(SV)、縱橫比變化(ARC)、局部遮擋(POC)三個屬性上取得較高的性能。在背景干擾(BC)和相似目標(SO)屬性上的精度僅次于MCCT-H跟蹤算法,但成功率高于其他算法。在光照變化(IV)屬性上的表現僅次于ARCF跟蹤算法,在低分辨率(LR)屬性上表現不佳。

圖5 在VisDrone2019上FM等屬性的精度和成功率

表2 在VisDrone2019數據集上的AUC比較結果
為了直觀展示可視化跟蹤結果,分別在UAV123數據 集 上 與 ECO-HC[6]、MCCT-H[22]、AMCF[12]、OMFL[9]、SRDCF[24]、ARCF[20]六個先進跟蹤算法進行定性評估比較。如圖6所示,從上到下依次是person9_1、person12_2、wakeboard5_1、car3_s和group1_4視頻序列,SSMF跟蹤算法都表現出較好的性能,沒有出現跟蹤失敗的情況。這也驗證了多特征融合的次峰抑制的有效性,在無人機快速運動、攝像機抖動、視角變化、偏離視線等跟蹤挑戰中依然表現出良好的跟蹤性能。
本文提出了多特征融合的次峰抑制無人機目標跟蹤算法SSMT。使用次峰響應抑制,有效解決了無人機快速運動、視角變化等挑戰場景下多特征融合的噪聲問題,提高跟蹤精度和魯棒性。然而,在低分辨率情況下,SSMT性能表現不是最好。因此,下一步將探索新的采樣策略,減少有用信息的丟失,進一步提高跟蹤精度和魯棒性。

圖6 在UAV123數據集上的定性比較結果