杜 君, 孟夏瑩, 顧丹丹, 許禎瑜, 劉 健
(1.上海無線電設備研究所,上海 201109;2.上海衛星工程研究所,上海 201109)
近年來,基于判別相關濾波器(discriminative correlation filter,DCF)的方法在跟蹤基準測試的準確性和魯棒性方面表現出持續的性能提升。基于DCF的跟蹤算法一般是基于多維特征、魯棒性尺度估計、非線性內核、長期內存組件,或通過建立復雜的學習模型及減少邊界效應來實現的,但這些改進明顯降低了跟蹤速度,無法滿足目標跟蹤的實時性要求。近幾年,卷積神經網絡(convolutional neural networks,CNN)深度特征也被應用到基于判別相關濾波器的算法中,但高維參數空間容易過度擬合,且高維度將導致計算復雜度增加,跟蹤速度變慢,同樣無法滿足目標跟蹤的實時性要求。
為了在提升無人機對地面運動目標跟蹤精度的同時保持一定的實時性,本文提出了基于改進相關濾波器和目標多特征融合的運動目標跟蹤算法。通過提取梯度方向直方圖(histogram of gradient,HOG)特征、三維顏色(color names,CN)特征和CNN深度特征等多維特征,對各特征進行選擇性組合并融合,實現對目標的有效表征。其中,梯度方向直方圖特征對幾何和光學形變具有良好不變性;相對于一維灰度特征,三維顏色特征包含更加豐富的目標信息,且具有運動方向不變性,在快速運動、快速變形情況下跟蹤效果較好,并且沒有邊界效應;卷積神經網絡淺層的深度特征能較好地表征目標的輪廓信息,高層的深度特征能較好地表征目標的語義信息。
基于改進相關濾波器和目標多特征融合的運動目標跟蹤算法流程如圖1所示。首先從輸入圖像中的目標局部搜索區域提取目標多通道特征,在初始幀中初始化空間可靠性圖,基于空間可靠性圖對相關濾波器進行改進,自動估計的空間可靠性圖將相關濾波器限制在適合于跟蹤的部分,以改善不規則形狀目標的搜索范圍和跟蹤性能;然后利用線性降維算子矩陣,減少模型中的參數數目,訓練樣本分布的緊湊生成模型,降低空間和時間復雜度,提供更好的樣本多樣性;最后用改進的相關濾波器與提取的特征進行響應,確定目標跟蹤框的位置。相關濾波器、樣本和空間可靠性圖通過相應規則不斷優化更新。

圖1 跟蹤算法流程圖
根據上一幀確定的目標中心位置確定當前幀的局部搜索區域,提取目標局部搜索區域中的目標多通道特征,將提取的多通道特征存儲于一個元胞數組中,進而用于訓練,得到每個特征通道相應的相關濾波器。將各個通道特征與相應濾波器的響應分數的加和作為最終預測目標位置的響應分數。同一幀圖像提取的3種特征的某一通道的特征圖如圖2所示。

圖2 同一幀圖像提取的3種特征的某一通道的特征圖


式中:J{}為一個內插特征層,可看作是一個連續的周期函數,表示特征圖的周期擴展,其中為第個特征通道的訓練樣本;1,2,…,,表示第幀;b為一個周期為的插值核,且滿足>0。本文用{}={J{}}表示整個插值特征映射,其中{}()∈,相應的濾波器記為={f},其中f為第個特征通道對應的相關濾波器。
本算法基于空間可靠性圖,使最后學習到的相關濾波器參數只集中在置信分數高的區域,即目標區域,其他區域幾乎為0,可有效抑制背景信息。
大多數的相關濾波器都假定有獨立的特征通道。在學習階段通過最小化損失函數,即通道相關輸出與期望輸出∈()之間差的平方和,來獲得最佳濾波器。最小化損失函數等價關系遵循帕斯瓦爾(Parseval)定理,即

式中:argmin(·)為最小化函數;* 為卷積運算符;‖·‖ 為范數運算符;算子=vec(())是一個轉換成列向量的傅里葉變換;diag(·)為對角矩陣;H為厄米特轉置運算符;0.01為正則化參數。通過把式(2)中每個通道的梯度復雜度均衡到零,最小化公式得到封閉形式的解決方案。由于輸入循環假設,并假設所有像素對濾波器學習的可靠性相同,使該解決方案受到邊界缺陷制約。因此,引用一個有效的空間可靠性圖構造方法,得到一種新的空間約束相關濾波器學習框架。
空間可靠性圖的組成元素∈{0,1}表示每個像素的學習可靠性。像素與目標外觀有關的條件概率(=1|,)被指定為

式中:(|=1,)表示外觀模型似然度,通過貝葉斯規則從目標前景-背景顏色模型(其在跟蹤期間被保持為顏色直方圖)中計算得到;(|1)表示空間先驗概率;(1)表示前景和背景直方圖提取的區域面積的比率。中心元素可靠性的變形不變性在此方法中通過定義弱空間先驗而得到強化。弱空間先驗定義為

式中:(;)是一種改進的Epanechnikov內核。定義(;)1(/),其中為尺寸參數,表示小包圍框軸,取值區間為[0.5,0.9]。設目標在中心的先驗概率為0.9,可將遠離中心的像素概率轉換為統一的先驗概率。
標記空間可靠性圖的空間一致性,可通過將式(3)作為馬爾可夫隨機場中的一元項來實現。使用有效的求解器計算的最大后驗解,可得到目標后驗概率??臻g可靠性圖的構建過程如圖3所示。圖3(a)為跟蹤目標邊界框的訓練原圖,圖3(b)為在馬爾可夫隨機場優化中作為一元項使用的空間先驗概率,圖3(c)為根據前景-背景顏色模型得到的目標對數似然,圖3(d)為經馬爾可夫隨機場正則化后的目標后驗概率二值化空間可靠性圖。

圖3 空間可靠性圖的構建
為了符號清楚起見,假定只有一個特征通道,即1,并且丟棄通道索引。因為濾波器學習在通道上是獨立的,則簡化后的目標函數為

式中:⊙為同或邏輯運算符??臻g可靠性圖標識了在學習中應忽略的濾波器中的像素,即引入約束≡⊙。
引入對偶變量(它的主要作用是讓算法能夠收斂)和約束條件⊙≡0,根據Augmented Lagrangian方法構建增廣拉格朗日表達式,并通過乘子交替方向法迭代最小化。最終得到的空間約束濾波器


根據上一幀確定的目標中心位置確定當前幀的局部搜索區域。已知插值特征映射和相應的濾波器表達式,兩者通過卷積計算就可得到預測目標位置的響應。預測目標位置的檢測分數

采用最小化損失函數來學習濾波器,可將式(2)改寫為損失函數

式中:α≥0為樣本x的權重;y為樣本x的標記檢測分數,是周期重復的高斯函數;為空間懲罰項,用來緩解周期假設的缺點,允許擴展空間支持,是的函數;‖·‖為空間的2范數。定義為

式中:()表示一個周期函數;為周期。


式(10)的最后一個等式是由卷積的線性關系推導得出的。卷積分解還可以被看作以下兩步運算:在第幀上的特征向量{}首先乘以的轉置矩陣,得到的維特征圖再與濾波器進行卷積。因此矩陣類似于線性降維算子,從維特征濾波器到維特征濾波器降低了線性復雜度。
根據式(8),通過最小化式(10)的損失函數來一起學習矩陣和濾波器。本文使用高斯-牛頓(Gauss-Newton)法和共軛梯度法來學習矩陣和濾波器。
本算法從第一幀設置學習矩陣,并在之后的跟蹤中保持不變。學習過程中,只有投影的特征映射{}需要存儲,從而顯著節省內存。為了保持跟蹤器的魯棒性,采用主成分分析(principal component analysis,PCA)方法初始化系數矩陣。
經過測試,如本算法在每一幀中收集新的樣本,會產生樣本的大量冗余,導致跟蹤效率降低。為了既能減少因外觀上的緩慢變化導致的樣本大量冗余,又能較全面地描述外觀的變化,引入一個緊湊的樣本集模型。
將訓練數據建模為高斯分量的混合體,其中每個組件代表外觀的不同方面,實現緊湊而多樣的數據表示,從而降低過度擬合的風險。
此方法是基于樣本特征映射和相應的期望輸出的聯合概率分布(,)。給出(,),直觀的目標是找到可以最大限度地降低預期的相關誤差的過濾器。替換式(8),將損失函數進一步完善為

式中:(·)為數學期望。損失函數用樣本聯合概率分布(,)進行評估,表達式為

式中:α是權重系數;δ(·)是在訓練樣本和期望輸出(x,y)處的沖擊響應函數。式(8)的原始損失函數是通過估計樣本分布而得到的一個特例。α通常設置為指數衰減,由學習率控制,滿足α~(1-)。學習率決定了目標函數能否收斂到局部最小值,以及何時收斂到最小值。由實驗可知,當0.025時,損失函數能夠最快收斂到最小值。而提出估計樣本分布(,)的緊湊模型,可以使式(11)的損失函數得到更有效的近似。
樣本和其期望輸出是一一對應的,輸出的形狀符合峰值在目標中心的高斯分布。因此,可以假設目標位于圖像區域中,高斯分布峰值輸出假設為,通過移動使所有都是相同的。不變,改變的值,使峰值平移量體現在水平分量上。此時,樣本分布可以被分解為(,)()δ(),其中δ()表示單位沖激函數?,F在只需要估計()。應用高斯混合模型(Gaussian mixture model,GMM)估計(),表達式為式中:是高斯分量的數量;π是第個分量的優先權重;(;μ;)是GMM定義的高斯分量,其中μ∈是第個高斯分量的平均數,是恒等矩陣形式的協方差矩陣。協方差矩陣被設置為恒等矩陣,避免了高維樣本空間中的代價推斷。

利用Declercq和Piater在線算法的一個簡化版本更新GMM。每次新增一個樣本,初始化一個新的分量(;μ;),且權重π=γ,平均數μ=x。如果分量的數量超過事先設定的上限,則需要簡化GMM。若分量的權重低于設定門限,這個分量將被舍棄;否則,合并最近的兩個分量和為一個共同的分量。分量的權重π和平均數μ為

式中:π,π分別為分量和的權重;μ,μ分別為分量和的平均數。
在傅里葉域使用Parseval公式快速計算分量和之間的距離 ‖μ-μ‖。此時,式(11)可近似為

與式(8)比較,式(15)在復雜度上的主要區別是樣本的數量由原來的減少到。在實驗中,將分量的數量設置為/8,具體仿真參數設為400,50。樣本分布模型(,)結合1.5節的卷積分解,通過用映射樣本{}替換樣本,使計算復雜度進一步降低,從而提升跟蹤速度。這種映射不影響公式形式,因為矩陣在第一幀進行學習后,在之后的跟蹤中保持不變。


式中:η為學習率。
無人機航拍圖像中會出現目標過小,顏色與周圍環境分辨不明顯,外觀形狀模糊的問題。當目標被相似顏色物體遮擋時,如果每幀都更新空間可靠性圖,會因為臨近圖像幀樣本過度形似而產生樣本的過度擬合。經過大量的實驗發現,當空間可靠性圖每隔3幀或6幀更新一次時,跟蹤效果更好。
利用共軛梯度法更新濾波器和降維矩陣增量。如果濾波器模型更新在每一幀進行,計算數據量將偏大,計算負載將過重。本算法采用稀疏的更新方案,每間隔一定幀數更新一次濾波器。用模型更新間隔來確定更新的頻率,其中=1對應在每一幀都更新濾波器。
經實驗觀察,當≈5時跟蹤精度和成功率更高,說明模型適度更新時跟蹤效果更好。這是因為構建緊湊的樣本空間模型減少了對最近鄰近幀訓練樣本的過度擬合。但是也要有效把控的取值,取值太大會使得模型響應速度跟不上目標的變化速度。
當空間可靠性圖更新間隔與模型更新間隔滿足/=時,跟蹤效果更好。其中,≥1,且為整數。
將本文算法與同時考慮通道和空間可靠性的判別相關濾波器(discriminative correlation filter with channel and spatial reliability,CSR-DCF)算法、高效卷積運算符跟蹤(efficient convolution operactors for tracking,ECO)算法、采用直方圖和顏色特征的高效卷積運算符跟蹤(efficient convolution operactors for tracking-HOG and CN,ECO-HC)算法、連續域卷積操作跟蹤(beyond correlation filters:learning continuous convolution operators for visual tracking,CCOT)算法、融合學習的實時跟蹤(complementary learners for real-time tracking,Staple)算法、運用核相關濾波器(kernelized correlation filters,KCF)的高速跟蹤算法、多尺度空間跟蹤(discriminative scale space tracking,DSST)算法、自適應顏色特征貢獻的實時視覺跟蹤(adaptive color attributes for real-time visual tracking,CN)算法、基于多專家熵最小化的魯棒跟蹤(robust tracking via multiple experts using entropy minimization,MEEM)算法、長時間相關跟蹤(long-term correlation tracking,LCT)算法等10個算法進行跟蹤效果對比,實驗數據包括15個無人機航拍數據集,視頻序列分辨率為1280像素×720像素,實驗中目標均為像素數小于20像素×20像素的小目標。
真實目標矩形框中心與跟蹤結果矩形框中心之間的平均歐氏距離記為平均中心距離誤差(center location error,CLE),用表示。以為評價指標,本文算法與CSR-DCF、ECO、ECO-HC、C-COT、Staple、KCF、DSST、CN、MEEM、LCT算法的平均中心距離誤差如表1所示??芍?本文算法平均中心距離誤差低于其他算法,跟蹤效果更好。

表1 本文算法與其他算法平均中心距離誤差比較
跟蹤成功率表征的是估計目標矩形框與真實目標矩形框的重疊率,即兩個矩形框重疊(overlap score,OS)部分的面積比上兩個矩形框取并集的面積。重疊率的數學表達式為

式中:為人工標定的目標真實區域;為目標跟蹤框區域。
使用成功率曲線圖中各曲線下的面積(area under curve,AUC)作為評價指標,用表示。成功率曲線圖的橫坐標從0到1取連續閾值,縱坐標為重疊率大于該閾值的所有幀占該序列總幀數的百分比。本文算法與其他算法的如表2所示??芍?本文算法的成功率曲線的高于其他算法,具有更好的跟蹤性能。

表2 本文算法與其他算法成功率比較
目標跟蹤效率對比實驗,采用平均幀率(frames per second,FPS)作為評價指標,用表示,目標跟蹤平均幀率如表3所示。與同樣使用深度特征的ECO和C-COT算法相比,本文算法平均幀率更高。因為本文算法選取更容易表征物體輪廓信息的CNN淺層特征Conv-3或Conv-5中的一個特征層,而ECO和C-COT算法使用了淺層和高層兩個卷積特征層,導致參數更多。當只提取HOG特征和CN特征時,本文算法平均幀率可達44.09幀/秒,具有良好的實時性。

表3 本文算法與其他算法目標跟蹤平均幀率對比
本文提出基于改進相關濾波器和目標多特征的無人機對地運動目標跟蹤算法。提取和組合目標多通道特征,對目標進行更有效表征,基于高效卷積算子分解進行特征降維和緊湊的樣本空間模型構建,提高樣本多樣性。空間可靠性圖和濾波器模型進行較為稀疏的更新,提高目標跟蹤精度。將本文算法與國內外10個先進算法在15個無人機航拍序列上進行目標跟蹤實驗對比。實驗結果表明本文算法具有較優秀的跟蹤效果,幀頻最高可達44.09幀/秒,具有良好的實時性。