梁慧慧,何秋生,賈偉振,張衛峰
(太原科技大學 電子信息工程學院,山西 太原 030024)
目標跟蹤在視頻處理中有很多實際的用處,是經典的計算機視覺問題。在實際生活中,視頻監控、人機交互界面、機器人感知、動作識別、醫學成像、無人機[1]等都用到了目標跟蹤。在目標跟蹤過程中,遮擋、外觀變化、光照變化、運動模糊、背景相似干擾、平面內旋轉、平面外旋轉、尺度變化、出視野、快速運動等一系列的外界環境干擾都會導致目標跟蹤失敗或者跟蹤效果不理想[2]。
目標跟蹤方法可分為傳統方法、相關濾波和深度學習3種。基于相關濾波器的方法計算具有高效性,得到了廣泛的研究。誤差最小平方和(MOSSE)[3]算法使用誤差最小平方和濾波器,為濾波器在目標跟蹤算法的使用奠定了基礎。CSK(Circulant Structure Kernel)[4]使用循環密集采樣的方法使樣本數量增加,循環矩陣以及核函數的引入簡化了計算過程。KCF[5]提出一種基于HOG特征的目標跟蹤算法。CN[6]在CSK的基礎上加入了顏色特征,同時使用PCA降維方法進行降維,對光照變化有一定的魯棒性。SAMF[7]提出多尺度搜索方法,使用金字塔對樣本降采樣來加速計算,將最后得到的響應進行插值得到原尺度。SRDCF[8]通過引入空間正則化分量,根據空間位置懲罰相關濾波器的系數,解決周期性假設帶來的邊界效應。C-COT[9]算法加入多特征CNN+HOG+CN,允許多分辨率特征圖的自然整合,將位置估計轉化到連續的時域,但算法速度太慢。ECO[10]從模型參數、樣本數量以及更新策略3方面進行改進,高效的卷積操作加上每隔6幀更新一次的更新策略使算法在速度和精度上都得到了改善。CSR-DCF[11]在C-COT的基礎上利用空間置信圖對每個通道增加了權重,可以擴大搜索區域并改善非矩形對象的跟蹤,加快了計算速度,但精度較低。王民等[12]提出的一種融合Vibe前景檢測和時空上下文的運動手勢跟蹤算法,利用時空上下文信息提高了算法的魯棒性。韓亞君等[13]對紅外目標提取HOG特征和運動特征進行線性融合,算法精度有所提高,但不適用于低分辨率和光照變化場景。Bertinetto[14]等分別訓練顏色直方圖和 HOG 特征分類器并在決策層進行融合,在一定程度上緩解了目標變形問題,但其跟蹤精度不夠高,對于目標遮擋、尺度變化魯棒性不強。
以上算法從預測目標可靠性和濾波器更新策略方面進行了改進,能使濾波器實時獲得更新以適應目標外觀變化,也取得了一定的效果,但還不能有效解決目標形變、遮擋、尺度變化時跟蹤性能不穩定的問題。HOG和CN作為模板特征,可以保留目標局部區域的位置信息;顏色直方圖作為全局特征,不受目標形狀、姿態等變化的影響。結合這些特征的優點,本文提出多特征融合算法,并采用不同的融合策略對特征進行融合。最后根據融合后目標響應的可靠性對位置相關濾波器和尺度相關濾波器的學習速率進行動態調整。
在相關濾波框架的基礎上,Staple算法使用了位置濾波器和尺度濾波器[15],目標模型參數由最小化損失函數求得:
θt=argminθ∈{L(θ;χt)+λR(θ)},
(1)
根據前一幀目標位置和尺度大小裁剪得到的圖像xt,將目標響應值最大值的位置作為目標在第t幀時的位置pt:
pt=argmaxp∈Stf(T(xt,p);θt-1),
(2)
其中:T為特征提取函數,St為目標可能出現的位置集合,θt-1是t-1幀時的目標模型參數。
Staple算法結合HOG特征和顏色直方圖特征,兩個特征的特征響應計算如下:
(3)
其中:h為HOG模型參數,Γ為圖像x中有限的網格,φx[u]為圖像提取的HOG特征。
(4)
其中:β為顏色直方圖模型參數,Η為圖像x中有限的網格,ψx[u]為圖像提取的顏色直方圖特征。
Staple算法采用HOG特征和顏色直方圖線性結合的方式計算目標響應
f(x)=γtmplftmpl(x)+γhistfhist(x),
(5)
其中:ftmpl和fhist分別為HOG和顏色直方圖特征得到的響應值,γtmpl和γhist分別為HOG和顏色直方圖特征響應值權重。
本文多特征融合算法采用HOG(Histogram of gradient)、CN(Color Names)和顏色直方圖3種特征。HOG屬于模板特征,對快速運動和形變等情況下跟蹤效果不理想;顏色直方圖作為統計類特征,對形變以及運動模糊不敏感。當目標出現遮擋時,跟蹤質量不佳,顏色直方圖作為一種全局特征無法區分出目標和干擾物,這兩種特征已經不能滿足跟蹤需求,所以本文在Staple算法的基礎上加入CN特征,利用特征之間的互補性有效提高目標跟蹤的魯棒性。由于不同的特征描述目標的能力和判別力不一樣,要根據不同的特征采取不同的融合策略。本文先將HOG和CN這兩種特征的響應值進行自適應融合,提高目標特征的判別性,然后在HOG-CN特征結合的基礎上與顏色直方圖特征的響應值進行融合,提高跟蹤精度。
為了計算HOG和CN特征在目標跟蹤過程中的不同判別力,本文采用特征響應相鄰兩幀的PSR差值衡量特征的可信度,差值越小,說明特征波動越小,對應特征的可信度越高,跟蹤效果越好,在特征融合時權重越大。
峰值旁瓣比(Peak-to-Sidelobe Ratio, PSR)[16]是模板與圖像區域之間的相關程度,可用來預測跟蹤質量。PSR的定義為
(6)
其中:gmax(yi)為特征響應的峰值,μs1(yi)為特征響應的旁瓣的均值,σs1(yi)為特征響應旁瓣的標準差。
不同特征的判別力用P來表示:
(7)
其中:Rt和Rt-1分別為對應特征在第t幀和t-1幀時的PSR值。δ為防止分母為0設置的參數。所以HOG特征權重為
(8)
其中:PHOG和PCN分別為HOG和CN的P值。
在第t幀時,對權重w進行更新,更新公式為
w=(1-υ)wt-1+υwt,
(9)
其中:υ為HOG權重更新速率,wt-1和wt分別為第t幀和t-1幀時的權重值。
在計算模板特征響應時進行融合,融合后的輸出為yH-C,融合公式為
yH-C=wHOG*yHOG+(1-wHOG)*yCN,
(10)
其中:wHOG為HOG特征的權重,yHOG和yCN分別為HOG和CN特征的響應值。
由于顏色直方圖屬于全局特征,本文借鑒Staple算法中的融合策略,融合公式為
y=τ*yH-C+(1-τ)yHist,
(11)
其中:τ為融合系數,yH-C為HOG和CN融合后的響應值,yHist為顏色直方圖的響應值。
最終融合后,響應值最大處位置即目標中心位置。
在目標跟蹤過程中,濾波器的更新過程對最終的跟蹤結果影響很大。更新機制不同,目標跟蹤的成功率和精度相差很大。傳統的相關濾波器算法一般采用固定的更新率,隨著幀數的增加會帶來誤差積累,并不能應對實際跟蹤過程中復雜的情況,因此需要根據目標跟蹤的情況以及所處的環境對位置濾波器和尺度濾波器進行動態調整。
本文以目標前t-1幀響應值PSR的平均值與第t幀響應值PSR的差作為判斷算法第t幀跟蹤好壞的一個指標,用T來表示
(12)

濾波器的更新公式為
(13)
At=(1-η)At-1+ηAt,
(14)
Bt=(1-η)Bt-1+ηBt,
(15)
其中:H為濾波器模板,F為訓練的圖像,G為濾波器的高斯輸出,λ為正則項,η為濾波器更新率。
本文根據式(12)中的T值為標準對濾波器進行自適應更新。根據經驗對濾波器的更新率進行設置,其中位置濾波器的更新率為

(16)
尺度濾波器的更新率為

(17)
當T≤0.35時,表示跟蹤器跟蹤效果較好;當0.35
通過對目標跟蹤的可靠性進行分析,分別給予位置濾波器和尺度濾波器不同的更新速率,從而實現濾波器的自適應更新。
為了驗證本算法的有效性,本文均在軟件為MATLAB 2014a,硬件配置為Intel Core i5-4200CPU,主頻1.6 GHz,內存2 GB的計算機上進行實驗。實驗中對所有的測試視頻采用相同的參數,具體設置為:防止分母為零系數δ=0.01,權重更新系數υ=0.15,固定權重系數τ=0.7,正則化系數λ=0.001。
為有效地評估本算法性能,本文利用 OTB50數據集[17]的50個視頻進行測試,將本文算法與近年來比較流行的9個算法(CSK、KCF、DCF[8]、DSST、SAMF、KCFDP[18]、Staple、DCF_CA[19]、CSRDCF)進行對比。
5.2.1 實驗一:視頻序列定量分析
本文從OTB50數據集中選取12組視頻序列,這些視頻中的目標都帶有一定程度上的形變、遮擋和尺度變化,用來驗證本算法的有效性。采用文獻的評價指標:重疊精度(Overlap Precision, OP)、距離精度(Distance Precision, DP)[20]、中心位置誤差 (Center Location Error, CLE)進行評價。其中,CLE 為預測目標的中心位置與標注的準確位置之間的歐式距離,DP為CLE小于預設閾值20 像素的百分比,OP 為重疊率大于預設閾值 0.5 的百分比。CLE越小,OP、DP越大,算法跟蹤效果越好。實驗結果如表1~3所示。

表1 中心位置誤差(CLE)結果匯總表(最優結果用粗體表示)Tab.1 Summary of center position error (CLE) results (the optimal results are shown in bold)

續 表

表2 距離精度(DP)結果匯總表(最優結果用粗體表示)Tab.2 Summary of distance precision (DP) results (optimal results are shown in bold) (%)

表3 重疊精度(OP)結果匯總表(最優結果用粗體表示)Tab.3 Summary of overlap precision (OP) results (optimal results are shown in bold) (%)

續 表
表1~3對10種不同算法在12個視頻序列上的CLE、DP和OP值做出了精準的計算。通過表格中的數據可以看出本文算法結果在很多序列中都處于最優,Car4、FleetFace、Girl序列本文算法的CLE雖然不是最優,但接近于最優結果,且其DP和OP都是算法中最高。
5.2.2 實驗二:視頻序列定性分析
實驗一中對OTB50數據集中的12組視頻序列進行了定量分析,實驗二將針對這12組視頻序列給出10種算法在跟蹤過程中的部分視頻截圖,可以直觀地反映每個算法的跟蹤效果。實驗結果如圖1~3所示。

圖1 10種算法在目標形變視頻幀上的跟蹤結果Fig.1 Tracking results of ten algorithms on target deformation video frames

圖2 10種算法在目標遮擋視頻幀上的跟蹤結果Fig.2 Tracking results of ten algorithms on target occlusion video frames

圖3 10種算法在目標尺度變化視頻幀上的跟蹤結果Fig.3 Tracking results of ten algorithms on target scale variation video frames
在圖1所示的視頻幀中,第一行Basketball視頻中第16幀目標發生形變,本文算法跟蹤正常,其他算法的跟蹤框已經開始漂移。第642幀時目標受到顏色基本相似的隊員遮擋,Staple算法跟蹤失敗,而本文算法可以一直成功跟蹤目標。第二行的FleetFace視頻幀中,目標發生不僅發生形變,還有一定程度的旋轉,本文算法相比于其他算法,跟蹤良好。Football1視頻中目標主要發生了形變、遮擋以及快速運動,隨著跟蹤幀數的增加,其他算法已經慢慢偏離目標,本文算法不僅可以成功跟蹤,還以100%的精度和成功率優于所有算法。Ironman視頻中目標受到形變以及光照變化的影響,部分算法已經完全跟蹤失敗,只有本文算法成功跟蹤到的幀數較多。
圖2中Freeman4、Girl 、Jogging-2視頻中遮擋是主要的因素,當目標重新出現時,本文算法沒有跟隨遮擋物移動,還可以成功跟蹤到目標。最后一行的Walking2視頻幀中,目標由近到遠勢必會帶來尺度變化,而且第377幀時還受到了其他行人的遮擋,相比于其他算法本文算法可以很好地適應尺度變化,發生遮擋時還可以重新檢測到目標并成功跟蹤。
圖3的4個視頻幀中目標主要受到尺度變化的影響。雖然每個算法都基本跟蹤成功,但是跟蹤框的大小不能很好地隨尺度變化而變化,導致跟蹤成功率下降。從圖中可以看出,本文算法可以完全適應目標尺度的變化。
5.2.3 實驗三:平均跟蹤性能分析
實驗三分析算法的平均跟蹤性能以及不同跟蹤條件下的跟蹤性能。采用OPE (One-Pass Evaluation)、根據距離精度值與閾值之間的距離精度曲線圖(Precision Plot)以及目標框重疊率與閾值之間的成功率曲線圖(Success Plot)對算法進行評估,不同算法的跟蹤結果見圖4、圖5。

圖4 10種算法在OTB50上的跟蹤結果Fig.4 Tracking results of ten algorithms on OTB50
圖4為本文算法與其他9種算法在OTB50上的跟蹤結果圖。從跟蹤精度與成功率曲線可以看出本文算法均高于其他算法,具有較高的準確性和魯棒性。與Staple算法相比,本文算法的距離精度和成功率都提高了很多,說明3個特征的融合起到了互補的作用,增加了特征的判別力,同時濾波器根據跟蹤質量進行自適應更新,減少了跟蹤過程中的誤差積累。
圖5為本文算法與其他9種算法在OTB50中6個屬性的跟蹤距離精度與成功率曲線圖,分別為形變、遮擋、尺度變化、出視野以及平面內外旋轉。從圖中可以看出本文算法在不同屬性的測試結果上始終保持最優。

(a)形變(a) Deformation

(b)遮擋(b) Occlusion

(c)尺度變化(c) Scale variation

(d) 出視野(d) Out-of-view

(e) 平面內旋轉(e) In-plane-rotation

(f) 平面外旋轉(f) Out-plane-rotation圖5 10種算法在OTB50中6個屬性的跟蹤精度與成功率曲線Fig.5 Tracking accuracy and success rate of six attributes in ten algorithms in OTB50
5.2.4 實驗四:算法平均跟蹤速度
實驗四分析算法的平均速度。通過算法總的幀數除以時間計算得出每個算法的FPS(frame/s),不同算法的平均跟蹤速度見表4。

表4 算法平均跟蹤速度結果匯總表(最優結果用粗體表示)Tab.4 Algorithm average tracking speed results summary table (optimal results are shown in bold) (frame/s)
表4為10種不同的跟蹤算法在OTB50數據集上的平均跟蹤速度,從表中可以看出本文算法相比Staple算法速度有所下降,但速度仍大于SAMF、DSST、KCFDP、CSRDCF跟蹤算法的速度,在保持高精度的同時,也滿足了跟蹤算法的實時性需求。
本文提出的多特征融合目標跟蹤算法,將HOG、CN和顏色直方圖3種特征通過不同的融合策略融合在一起,利用特征之間的互補性提高了跟蹤算法的魯棒性。在濾波器更新方面,根據跟蹤的可靠性,將位置濾波器和尺度濾波器以分段更新的方式實現了濾波器的自適應更新。最后采用OTB50 數據集驗證本文算法的跟蹤性能,其中為精度81.9%,成功率為61.1%,并與其他9種主流算法進行對比分析。從實驗結果可以證明本文算法的有效性,在形變、遮擋以及尺度變化場景下的目標跟蹤具有更高的跟蹤精度和魯棒性。