張偉俊 鐘勝 徐文輝 WU Ying
隨著越來越多的智能機器的普及應用,計算機視覺作為機器的“眼睛”,擔負著感知和理解外部世界的功能,成為一項迫切的需求.視覺目標跟蹤[1?2]的主要任務是在視頻圖像序列中建立目標的運動軌跡,在智能視頻監控[3]、自動駕駛[4]、人機交互[5]、機器人導航[6]、醫學診斷[7]等領域均有廣泛的應用.這些上層算法應用的性能很大程度上受限于目標跟蹤算法的性能,因此提高目標跟蹤算法的魯棒性、準確率與實時性,能夠為各領域的發展提供必要的技術支撐與理論促進,具有重大的意義.
在視覺目標跟蹤技術的眾多分支中,針對通用物體的在線目標跟蹤技術由于不需要使用預訓練的物體模型,對跟蹤任務執行的場景、被跟蹤物體的類別、形狀、運動模式均無特殊的限定與要求,存在極其廣泛的應用需求,因此成為眾多計算機視覺系統與應用的底層關鍵技術之一,近十年來一直是計算機視覺領域中一個非常活躍的研究課題.與此同時,由于存在目標及場景先驗知識缺乏,物體及環境變化不可預測等諸多因素,與已知物體類別的跟蹤[8?9]相比,對建模方法的適應性有著更高的要求.要長時間準確定位目標,算法必須適應目標及場景的各種變化,典型的變化包括目標尺度變化、非剛體形變、背景干擾、快速運動與復雜運動等,這些都給通用物體的在線跟蹤任務帶來了極大的挑戰.盡管近年來在理論和應用上均取得了顯著的進展[10?11],在線目標跟蹤的研究仍有很多關鍵問題亟待解決,其中之一是被跟蹤物體的表征與建模,即目標表征問題.
無論是經典的生成式模型[12?13](Generative model),還是近年來較為主流的判別式模型[14?15](Discriminative model)以及基于深度學習的方法[16?18]都使用了外接目標區域的矩形模板來表征被跟蹤目標.雖然這些算法在剛性物體跟蹤上取得了很好的效果,但是大部分缺乏能夠十分有效區分目標與背景像素的機制.由于目標模型里包含了一部分背景區域,隨著噪聲和誤差的累積,模型容易慢慢偏移到背景上面去,同時也比較難對目標的形狀變化實現自適應調整,在背景干擾、目標形變明顯或者復雜運動的場景下容易逐漸丟失目標.
與此不同的是,人類視覺系統能夠明確地區分目標與背景的區域,并不以矩形模板的形式表征和建模物體.研究表明,人類的視覺機制具有異常突出的數據篩選能力,能夠快速有效地識別復雜場景中的顯著性區域,準確定位感興趣的目標[19?20].人類能夠輕松實現對目標的穩定跟蹤,視覺注意機制扮演了重要的角色.因此,在目標跟蹤算法中建模顯著性機制,對其提供的像素級觀測信息進行集成利用,以提高跟蹤算法的魯棒性與準確率,具有重要的意義.
人類處理運動物體的另一個特點是具備關于運動的先驗知識,知道屬于同一個物體的像素有同樣的運動趨勢.認知與心理學的研究[21?22]表明,幾個月大的嬰兒就已經有關于自由物體連續和平滑運動的知識,能夠根據這些知識輔助預測和判斷物體的走向.這些關于物體顯著性和運動的知識,目前都沒有在目標跟蹤方法中被很好地建模與集成利用.
上述像素級先驗信息沒有被有效利用,一個重要的原因是當前主流的目標跟蹤模型使用了基于矩形模板的目標表征模型,無法有效地融合這些像素級的圖像觀測.因此,本文提出使用像素級概率性目標表征模型,將目標跟蹤任務建模為一個像素級目標概率的貝葉斯推斷(Bayesian inference)問題,在每一幀使用前后幀的像素關聯來向前傳遞目標概率,再進一步融合當前幀顯著性模型和運動觀測模型提供的像素級圖像證據,遞推地產生目標概率圖.該模型提供了與當前主流矩形模板目標表征模型互補的信息,可以用來預測目標位置,與使用矩形模板目標表征的算法進行融合決策,提升目標跟蹤算法在背景干擾、目標形變、復雜運動等場景下的魯棒性.同時,像素級的目標概率圖也可產生目標分割結果,為視頻目標分割、增強現實以及行為分析等應用和研究提供幫助.
目前較為主流的視覺跟蹤算法使用判別式模型,在已跟蹤圖像序列上采集目標與非目標樣本訓練分類器,通過對新圖像上采樣的候選目標矩形框進行分類判決來完成跟蹤任務[14?15],也被一些研究者稱為檢測?跟蹤(Tracking-by-detection)框架.其中,基于嶺回歸(Ridge regression)分類器的算法由于可以利用循環矩陣的特性,將空間域的訓練樣本轉換到頻域進行加速計算,得到基于相關濾波(Correlation filter,CF)的算法實現[14],具備算法速度與準確率俱佳的特點,吸引了大量的研究和改進工作[23?25].
為了避免基于矩形模板的目標表征模型受到目標形變、背景噪聲以及誤差累積的影響,導致算法目標模型偏移的問題,一些跟蹤算法[26?27]采用基于子塊的模型(Part-based model)來進行目標表征,以減少背景區域對模型的干擾,對目標形變和遮擋等常見挑戰性因素具有一定的自適應能力.但是,相對于單個矩形模板的表征方法,基于子塊的目標表征模型存在參數較多,模型較為復雜,需要靈活處理如何選擇和更新子塊等問題,在長時間跟蹤(Long-term tracking)過程中仍然無法保持足夠的算法魯棒性,限制了其進一步的應用.
另一類跟蹤算法將目標分割引入到跟蹤過程中,得到像素級的目標模型,目標表征更為精確.Fan等使用了摳圖技術(Image matting)對目標前背景進行分割,并把分割結果反饋到跟蹤過程中[28].Godec等使用Grabcut算法進行目標分割,并在每幀使用分割結果指導下一幀的檢測[29].Bibby等使用水平集(Level set)進行目標的分割,以處理目標形狀變化[30].這一類算法存在的問題是,模型極大依賴于圖像分割算法的魯棒性,在背景干擾嚴重的情況下,單幀的分割誤差對后續操作影響較大,容易循環積累,導致后面的模型出現偏差.
上述基于分割的目標表征方法對每個像素是否在目標物體上做出了確定性的判決,像素級目標概率模型則在此基礎上進一步改進,對像素點是否在目標上進行概率性的估計.這樣的模型相當于對目標進行了軟分割,在建立了像素級目標模型的同時,對于分割誤差有更高的容忍度.Oron等對目標進行了像素級的建模,并把像素概率推斷融入到Lucas-Kanade目標跟蹤框架之中[31].Possegger等針對目標和背景分別建立了顏色直方圖來作為分類器,對每個像素給出目標概率推斷[32].Son等使用了梯度提升決策樹算法(Gradient boosting decision Tree,GBDT)來作為分類器給出目標與背景的分類[33].Duffner等則綜合使用霍夫投票(Hough voting)與顏色直方圖進行像素分類器的建模[34].
在文獻[34?36]中目標跟蹤與分割問題被聯合建模,不同來源的像素級圖像特征由一個貝葉斯推斷框架進行融合.雖然這些工作和本文的貝葉斯推斷方法有相似之處,但在傳遞概率和像素級似然概率的建模方式等方面,都和本文提出的方法有很大的區別.此外,貝葉斯推斷也被廣泛應用到多物體估計[37]、識別[38]與跟蹤[39]問題當中.在這些任務中運動信息通常被用來關聯不同幀之間檢測到的目標.
近年來,視覺顯著性檢測[19?20]作為一項新興的課題,吸引了大量的研究,它通過模擬人類視覺注意機制對圖像信息進行篩選處理,選取優先處理區域,提供給其他較上層的計算機視覺算法進行使用.顯著性檢測領域的代表算法包括由Itti等提出的基于空間域的計算模型[40]、Hou等提出的基于頻譜域的方法[41]等.此外,基于測地距離(Geodesic distance)和基于最小障礙距離(Minimum barrier distance,MBD)的顯著性算法[42?43]使用背景先驗和距離度量來衡量像素點的顯著性,在數據集上取得了很好的效果,Zhang等在此基礎上提出的加速算法[44]由于較快的計算速度和出色的檢測效果而受到關注.一些研究者嘗試將視覺顯著性計算模型引入跟蹤系統中,通過模擬人類特有的視覺選擇性注意機制為采樣提供先驗知識,從而提高跟蹤效率[45].
目標跟蹤領域的另一個近期發展趨勢是深度學習與卷積神經網絡(Convolutional neural network,CNN)技術的應用.一部分研究者在判別式跟蹤模型框架內通過使用對目標表征能力更強的CNN特征,來獲得更好的跟蹤效果[46?48],其中Choi等通過對CNN特征進行壓縮來保證算法的實時性[48].另外一部分研究者則通過構造和訓練端對端(End-to-end)的卷積神經網絡來完成跟蹤任務,其中Ber t inet t o等提出的全卷積孿生神經網絡(Fully-convolutional siamese networks,SiamFC)是十分具有代表性的工作[16],Valmadre等提出的CFNet算法在此基礎上將相關濾波器建模為深度神經網絡的一個層[17],使得算法集成了深度學習與相關濾波技術的優點.此外,Hong等使用卷積神經網絡特征通過后向傳播(Back-projecting)技術構造目標的顯著圖[46],Choi等在跟蹤算法中通過訓練深度回歸網絡(Deep regression network)建立注意力機制[18],Gladh等在基于深度學習方法的跟蹤框架內引入了深度運動特征[49],這些工作雖然采用了與我們截然不同的建模方式,但是與本文具有相似的出發點,認為注意力機制以及基于運動的圖像觀測能夠提供與現有模型呈現互補性的信息,從而有效提升目標跟蹤算法的精度與魯棒性.
本文使用了基于檢測器的目標跟蹤框架,其核心思想是根據已跟蹤的目標采集正負樣本訓練檢測器,在待跟蹤圖像上通過一定的預測搜索策略產生大量的候選樣本,使用之前訓練的檢測器對這些樣本是目標物體的概率進行估計,選取最佳選項作為跟蹤輸出結果.
具體的,在第t幀的時候,在圖像I t中采集大量候選目標樣本形成集合Qt,從中選擇一個作為目標矩形框p t,以使得目標函數最大化:

其中,T(I,p) 是一個圖像變換,對圖像I中的矩形窗口p提取一定的特征描述符,構成目標的視覺表征,評估函數f(T(I,p);θ) 再對視覺表征數據根據模型參數θ賦值一個分數.第t幀的模型參數θt根據之前幀的圖像觀測與目標位置的集合來進行選擇.
在每一幀,目標跟蹤問題的核心轉化為評估函數f(I,p) 的構造與求解.為了融合互補的跟蹤模型,充分利用不同類型圖像特征和目標表征方式的優勢,把評估函數f(I,p) 設置為兩個分數的線性組合,兩個分數fpxl(I,p) 和ftmpl(I,p) 分別基于像素級目標表征模型和矩形框表征模型來進行計算,加權系數分別為γ和 1?γ:

圖1 給出了多目標表征模型融合跟蹤框架的示意圖.基于矩形框目標表征的相關濾波器模型、基于像素級概率性目標表征的運動模型和顯著性模型均通過上一幀(訓練幀It?1) 提供的目標鄰域圖像數據進行模型訓練,在當前幀(測試幀It)對搜索區域中的候選目標框位置進行評估分數的求解.其中,相關濾波器模型與當前幀數據直接進行求解可得到評估分數ftmpl(I t,p);運動模型和顯著性模型結合當前幀圖像數據求解得到像素級目標似然概率圖,再進一步通過本文提出的轉化方法得到fpxl(I t,p).兩種目標表征模型的評估分數線性融合之后,應用式(1)定位最優的目標位置p t.
基于像素級的目標表征模型計算候選樣本的評估分數fpxl(I,p) 時,可使用該樣本矩形框內每個像素的目標概率來進行估計.具體的,對于已知目標位置,矩形目標框p內的像素位置集合記為H ?Z2,目標概率函數ψI(x):H →R是從每個像素位置x到目標概率分數的映射,定義評估函數為:

即取目標框內像素目標概率分數的平均值來作為目標框的評估分數.像素點目標概率函數ψI(x)的建模與求解是本方法的重點,具體在第4節進行詳細的闡述.
在實際算法實現中,我們取搜索區域 ?,計算搜索區域上每個像素位置到目標概率分數的函數映射ψI(x). 再通過積分圖像[50](Integral image)計算得到密集采樣的每個目標框位置的目標函數fpxl(I,p).具體的,在第t幀計算目標函數fpxl(I,p)的時候,根據第t ?1 幀已經估算的目標中心位置x[x,y]T以及尺度大小[d1,d2]T,取中心位置為[x,y]T,尺度大小為的矩形區域作為搜索區域 ? 來進行積分圖像的計算(如圖1左下圖中的黑色虛線框所示),其中系數α控制了搜索區域相對于目標尺度的擴大比例,經驗性地設置為 1 .每一幀根據目標函數f(I,p) 和式(1)確定新的目標位置之后,使用判別式尺度空間跟蹤器[23](Discriminative scale space tracking,DSST)進行新的目標尺度的估算.

圖1 總體跟蹤流程圖Fig.1 Overall tracking procedure
在矩形框目標模型中,對于矩形目標框p內的采樣網格點集合T ?Z2,定義D通道的特征圖像?I:T →RD,基于矩形框模型的分數定義為特征圖像?I的一個線性組合:

在這里使用了常見的基于矩形框目標表征的判別式相關濾波器[23]進行統計建模,參數h ∈R|T|×D對應于模型中的濾波器參數,h[x] 表示其在像素位置x處對應的長度為D的向量.本文使用步長為4的特征網格,提取方向梯度直方圖(Histogram of oriented gradient,HOG)特征來與基于矩形框的目標表征模型配合使用.
該算法利用目標圖像平移產生的循環樣本近似表示密集采樣的訓練樣本,使用循環的樣本數據集來訓練嶺回歸分類器.嶺回歸的本質是一種加入正則化的最小二乘法,對病態數據有很好的擬合能力.假設訓練樣本特征圖像記為f,其第l個通道特征表示為fl,l ∈{1,···,D}.記相關濾波器為h,由D個單通道濾波器h l組成.多通道相關濾波器算法的目標是最小化相關濾波響應結果與期望的輸入響應結果g之間的L2殘差,即

其中,?表示循環相關操作,g表示相關濾波訓練輸入,由一個峰值位于f中心的高斯函數生成,表示通過循環移位得到的訓練樣本與目標重疊度高的取為正樣本,偏離目標較遠的取為負樣本.公式后半部分是一個權重系數為λ的正則化項,用來防止過擬合.
上式是一個線性最小二乘問題,通過求偏導并化簡即可計算得到分類器參數h l,其閉式解為:

將時域的卷積轉化為頻域的點乘,能極大地降低計算量,保障算法的實時性.文獻[51]通過應用帕塞瓦爾公式(Parseval′s formula)以及離散傅里葉變換的特性,推導得到相關濾波器h l在頻域內的閉式解為

式中,大寫字母表示相應變量的離散傅里葉變換,乘法除法均為矩陣對應元素相乘或相除,和分別表示Fk和G的復數共軛形式.
在僅考慮單個目標樣本的情況下,式(7)進行離散反傅里葉變換給出了最優濾波器h.在目標跟蹤過程中,目標的外觀會發生變化,為了能持續跟蹤目標,需要考慮不同時刻t的目標樣本對濾波器進行在線更新.在第t幀圖像上進行目標跟蹤時,相關濾波器h在頻域內的更新公式為

在第t幀的時候,使用密集采樣的搜索策略,在搜索區域上采集候選樣本,遠離目標中心的樣本通過目標中心樣本循環移位產生,則通過相關濾波器輸出可一次性計算每個候選樣本的評估分數.對搜索區域提取相應的特征圖像,轉化成頻域特征圖像Φt,可以方便地在頻域內計算相關濾波器輸出,再轉換為時域濾波結果,即

第2.1節提出基于像素級概率性目標表征模型ψI(x)來構造評估函數.本節對ψI(x) 的建模與求解進行詳細的介紹.
以x[x,y]T記搜索區域 ? 中的像素位置,使用表示像素位置x在第t幀的圖像觀測向量,∈{0,1}表示像素位置x在第t幀的類別(以0表示背景,1表示目標),表示從到的圖像觀測的集合.對于每個像素位置x,屬于類別C ∈{0,1}的概率通過當前幀以及之前幀的所有圖像觀測進行推斷.有別于傳統的對候選目標框是目標的概率進行估計的做法,像素級概率性目標表征模型對搜索區域的像素點在目標上的概率進行估計,將目標跟蹤任務建模為一組并行的像素級目標概率估計問題,如圖2所示.概率的推斷通過遞推的貝葉斯模型完成,分為預測過程和更新過程,分別集成動態模型與觀測模型.

圖2 像素級目標概率推斷模型的貝葉斯網絡示意圖Fig.2 Bayesian network representation of pixel-level target probabilistic inference model

其中,x′表示第t幀的像素位置x在第t ?1 幀對應的像素位置.
更新過程是得到當前時刻的觀測信息z t之后,將式(11)計算得到的預測概率分布根據目標的觀測方程進行更新,得到:


其中,Dt(x) 表示像素位置x在時間t的背景距離測度,Mt(x) 表示像素位置x在時間t的后向光流矢量,分別為兩個子觀測模型在第t幀的觀測量.
本文提出的像素級模型對圖像中的運動信息有兩個方面的利用.一方面,時間上的運動關聯通過動態模型來進行表示,在第3.2節具體闡述;另一方面,空間上的運動關聯通過基于運動估計的觀測模型來進行建模,在第3.4節具體闡述.另外,基于顯著性信息的像素級模型在第3.3節具體展開.這三方面的信息可分別理解為基于時間域運動連續性的顯著性估計、基于空間域運動連續性的顯著性估計、以及基于本幀空間域信息的顯著性估計,三者通過一個統一的貝葉斯推斷框架進行融合,構成完整的時空顯著性模型.以下對每一部分進行詳細介紹.

由于x′可以是亞像素級別的位置,而且對于搜索區域中的(像素x ∈?)已經有上一幀的像素級目標概率估計,因此式(11)中像素位置x′的上一幀目標概率可以通過插值來計算獲得.
Duffer等提出的方法[34]也使用了像素級貝葉斯模型,不過他們的方法并沒有顯式地建模幀與幀之間的像素關聯,而是假定像素位置之間是獨立的,以簡化計算復雜度.這樣的假設僅僅適用于幀率較高,幀間目標相對位移很小的場景,導致該方法無法很好地處理目標形變、快速運動等更復雜的情況.
在目標跟蹤任務中,常見的像素級觀測模型是基于顏色特征,對于目標和背景在線地建立統計直方圖[32]或者訓練分類器[29].這樣的模型很容易受到背景噪聲的影響(如圖3(b)所示),在目標與背景表觀特征具有相似性的情況下很難建立有效的判別模型.本方法受到顯著性檢測文獻的啟發,綜合地考慮空間距離和顏色距離兩方面的信息.一方面,和背景區域在空間距離上更遠的像素,屬于目標的概率更高.另一方面,和背景區域在顏色上差異更大的像素,屬于目標的概率也更高.因此,本文提出一種新型的觀測模型,綜合衡量目標鄰域像素與已知背景區域在顏色和空間兩個維度的距離,來估計像素的目標概率,在目標和背景顏色特征十分相似的情況下仍然能夠給出非常魯棒的估計結果.圖3(a)給出了跟蹤圖像的樣例,黑色虛線框內是目標概率待估計的搜索區域,圖3(c)顯示了本章模型給出的像素級目標似然概率估計,相比于顏色直方圖模型[32]得到的結果,顯著性模型給出的估計結果明顯對背景噪聲的干擾更加魯棒.

圖3 基于顏色與基于顯著性的目標似然概率估計結果對比Fig.3 Results of color-based and saliency-based target likelihood estimation
背景先驗理論[42]假設大多數圖像邊界區域是背景,以此為基礎的圖像邊界先驗方法已被應用于物體顯著性檢測任務中,在實驗中展示了可靠的結果.本方法在目標跟蹤場景中對背景先驗進行應用,根據第t ?1 幀目標所在位置和尺度取擴大區域作為搜索區域,假設該區域之外的圖像為背景區域,當前幀的觀測量定義為每個像素點到背景區域的最短距離.
理論上,需要定義待求解區域 ? 中每個像素點到背景的距離.假定基于二維單通道圖像區域來進行計算,把區域中一條從某像素點x到背景種子點的路徑記為π〈π(0),···,π(k)〉,其中π(i) 和π(i+1)是區域 ? 中相鄰的兩個像素,設F(π) 為路徑消耗,S為背景種子像素集合,則要計算的路徑圖D(·) 定義為:

其中,ΠS,x表示連接S和x之間的所有路徑.兩個像素點x1和x2之間的路徑長度有如下性質f(x1→x2)f(x2→x1)≥0.路徑消耗的定義取決于不同的應用.一種經典的定義是使用測地距離[42],可以對顏色和空間位置兩方面的距離進行綜合的衡量.這種方法累加了路徑上所有相鄰像素點的灰度差作為路徑消耗,即

其中,I(·) 表示像素點灰度值.文獻[43]提出使用最小障礙距離來進行顯著性檢測,其路徑消耗定義為:

最小障礙距離檢測相比于經典的測地距離,可以得出對噪聲和分辨率更加魯棒的顯著性檢測結果.Zhang等提出了快速最小障礙距離算法[44],利用光柵掃描算法,計算每個像素與鄰近像素的距離,累加其中的最大值來進行近似計算,使得算法的實時性得到保證.
將文獻[44]計算得到的最小障礙距離圖歸一化使得最大值為 1,并進一步應用基于對數運算的Sigmoid函數進行對比度拉升操作:


其中,模型參數βt是根據已跟蹤圖像進行在線統計得到的閾值參數,用于區分目標與背景,b為固定的控制系數,用來控制對比度拉升的程度.
自由物體的運動具有連續和平滑的屬性,屬于同個物體的像素通常具有一致的運動趨勢,這一先驗知識有助于視覺系統有效區分目標和背景的像素區域.本節對目標和背景的運動參數進行解算,基于這一關于運動的先驗知識建立觀測模型.在圖4中,背景區域中存在與目標在顏色特征上十分相似的像素點,傳統的基于顏色的分類器很難有效地區分這些像素點,然而由于它們具有和目標明顯不同的運動趨勢,通過對運動的建模可以很容易被區分開來.對該信息進行建模表達,可以在物體進行復雜運動(比如旋轉+平移),其他模型難以適應目標變化的情況下提供有效信息,得到準確的目標定位結果.

圖4 基于目標與背景運動模型的似然概率估計示意圖Fig.4 Demonstration of likelihood estimation based on motion models of target and background
對于每個類別C ∈{0,1}(其中0代表背景,1代表目標)在每一幀估算其旋轉角度θC和位移矢量 [u C,v C]T,所有的運動狀態參數記為s[θ0,u0,v0,θ1,u1,v1].記A1和b1分別為目標的旋轉矩陣和位移矢量,A0和b0分別為背景的旋轉矩陣和位移矢量,已知運動狀態參數s的情況下有:

運動參數s計算的時候以本幀為參考幀,即估計的運動參數定義了目標和背景從本幀到上一幀的運動.在理想運動參數s已估計的情況下,M0(x,s)表示位置x屬于背景區域假設下理想的后向光流矢量,M0(x,s) 表示位置x屬于目標區域假設下理想的后向光流矢量,則有

在本模型中觀測量為每個像素點的后向光流矢量M(x),在像素點屬于目標/背景的條件下,該觀測量分別是目標/背景模型理想運動矢量的一個帶噪聲的觀測.假定在這兩種條件下,光流矢量兩個方向運動分量的觀測誤差均服從高斯分布且相互獨立,即

假設對于當前幀得到了s的最佳估計,基于運動估計的像素級似然概率通過下式進行估計:

在式(20)~(23)中為了公式的簡潔省略掉了上標t.
計算機視覺應用中常用的魯棒估計算法包括隨機抽樣一致性(Random sample consensus,RANSAC)算法、M估計抽樣一致性(M-estimator sample and consensus,MSAC)算法和隨機抽樣最大似然估計(Maximum likelihood estimation by sample and consensus,MLESAC)算法等[53].這些算法根據隨機表決的原理來計算模型參數,基本思想是選擇一個小的數據點集,對其進行擬合,查看有多少其他點可以匹配到擬合的物體上,繼續l次迭代直至達到某個終止條件時找到有較大概率的模型參數.
本文使用MLESAC算法,從l次抽樣中選擇使得似然度最大的那次抽樣的模型,得到運動模型參數并進一步通過式(23)得到了基于運動估計的似然概率,提供給像素級貝葉斯推斷模型與多目標表征融合跟蹤框架進行融合計算,最終得出目標位置.圖1詳細展示了基于運動估計的像素級似然概率,基于顯著性的像素級似然概率,與基于矩形框目標表征的相關濾波器模型響應如何從圖像觀測中計算產生,并且由一個統一的框架融合,產生最終跟蹤結果.
本節首先選取了幾個具有代表性的跟蹤序列,和與本文方法相關性較大的最新算法進行了定性的比較,以驗證本文的方法動機與所取得的效果.其次,在廣泛使用的目標跟蹤標準數據集(Object tracking benchmark)OTB-100[10]上定量比較所提出的算法和目前主流目標跟蹤算法的性能,對總體性能以及不同挑戰性因素影響下的性能分別進行分析,以明確方法的優劣勢與適用場景.最后,為進一步客觀評估本文算法,使用最近一期視覺物體跟蹤挑戰賽(Visual object tracking challenge)的數據集VOT 2018[11],與所有參與測試的最新算法進行了比較,對算法的短期跟蹤性能進行評估.
本文使用Matlab實現了提出的目標跟蹤算法,部分模塊使用C++實現,實驗在配備有3.1GHz i7 CPU和8GB RAM的計算機上進行,在實驗中的平均幀率為21幀每秒(Frames per second,FPS).
本節定性比較提出的算法和與本文算法相關度較高的幾個主流方法,包括經典的相關濾波器算法DSST[23]和SRDCF[24],深度學習的代表性方法CFNet[17],以及使用深度學習技術建模注意力機制的ACFN[18]方法.本節從OTB-100數據集中選擇8個具有代表性的序列進行著重分析,截取樣例幀在圖5中進行展示分析.這些序列包含了目前最新跟蹤算法致力于解決的各種視覺挑戰,包括尺度變化、背景復雜、目標形變、平面內旋轉等.
圖5中的8個序列從上到下總體上按照跟蹤難度遞增排列,前3個為形狀比較規則方正,在跟蹤過程中形變不大的序列,前兩個尺度變化較平緩,第3個尺度變化較為明顯.第4到第6序列包含了明顯的目標非剛體形變,跟蹤難度明顯加大,最后兩個序列除了形變還包含持續的平面內旋轉運動,是目前主流跟蹤方法普遍難以實現魯棒跟蹤的場景.此外,多個跟蹤序列包含不同程度的復雜背景干擾.以下針對每個挑戰性因素進行分別討論.
尺度變化通常由相機和目標之間的距離變化引起,是目標跟蹤中比較常見的一個視覺挑戰,圖5中幾乎所有的序列都包含了不同程度的尺度變化.從前面3個較為簡單的序列可以看出,對于此類形狀較為方正,跟蹤過程中形變較小的序列,參與比較的幾個主流算法幾乎都能夠較為準確地定位目標位置.而在尺度估計方面,本文算法和DSST算法具備一定的優勢,在幾乎所有尺度變化的地方都能夠及時更新目標框大小.尤其在第2、第3個序列的后面階段,本文方法與DSST算法的尺度估計明顯更為精確合理.由于本文提出了多目標表征融合框架,對基于矩形框和像素級表征的方法進行融合,基于矩形框部分選用DSST作為基線方法,因此繼承了該算法在處理尺度變化上的優勢.
背景復雜的情況在目標跟蹤場景中也十分常見.一種情況是場景里存在和被跟蹤目標外觀十分相似的其他疑似目標,典型例子是圖5第5行的Soccer序列;另一種是背景本身顏色等特征和目標相似,難以通過分類器有效辨識,圖5第2、第7和第8行的Singer2、Diving和Motor Rolling序列均在跟蹤過程中的部分片段存在此類情況.從圖中可以看出,在這些場景里面,本文的算法受益于基于顯著性先驗和運動先驗的觀測模型,對背景干擾具有很強的魯棒性,在其他多個主流算法跟蹤失敗的情況下仍然獲得了十分準確的跟蹤結果.
目標形變在非剛性物體的跟蹤場景里普遍存在,典型例子是圖5第4~7行的Bolt、Soccer、Panda和Diving序列.Bolt序列中的運動員在跟蹤過程中存在快速運動,同時伴隨有目標形變,在起跑之后SRDCF和CFNet很快丟失目標,ACFN雖然準確定位了目標位置但是尺度估計偏差較大.Soccer序列中除了目標形變,還存在較為明顯的背景干擾和運動模糊現象,DSST、ACFN和CFNet跟蹤器均在不同階段出現較大的偏移.Panda序列中SRDCF、DSST和CFNet先后丟失目標,而本文算法在這幾個序列中均保持魯棒而準確的跟蹤效果,在此類跟蹤場景中具有明顯的優勢.
目標平面內旋轉是目前主流目標跟蹤算法面臨的難題之一,基于矩形模板的目標表征模型很難對旋轉運動導致的目標形狀與外觀變化進行自適應調整,導致跟蹤失敗.圖5第7和第8行顯示了兩個典型的例子,序列中的跳水運動員和摩托車均存在持續的平面內旋轉和移動,且部分幀存在復雜背景干擾問題,參與比較的幾個主流算法(包括本文的基線方法DSST算法)均在目標開始運動不久之后丟失目標,而本文算法對兩個序列均做到了對目標的全程跟蹤,且具有較高的跟蹤精度,說明所提出的像素級模型、集成的顯著性與運動信息與現有模型呈現互補性,能夠十分有效提高此類場景下的算法跟蹤精度和魯棒性.

圖5 本文提出的跟蹤算法和DSST[23]、SRDCF[24]、ACFN[18]、CFNet[17]在8個典型OTB序列上的跟蹤結果(從上往下分別是David、Singer2、Doll、Bolt、Soccer、Panda、Diving和MotorRolling序列)Fig.5 Tracking results using our proposed method compared with DSST,SRDCF,ACFN and CFNet on 8 OTB image sequences(From top to down:David,Singer2,Doll,Bolt,Soccer,Panda,Diving and Motor Rolling
OTB-100數據集[10]總共包含有100個測試序列,數據集上的所有圖像序列都已經被人工標注,標注的真值在圖像上表現為包含有目標的矩形框.數據集本身提供了包括Struck、SCM、TLD等在內的29個經典跟蹤算法的跟蹤結果,后續提出的主流目標跟蹤算法大多數在該數據集上進行了評測并提供了實驗結果數據,所以使用該數據集能夠很方便地評估跟蹤算法的性能.
為了使得評估的效果更加公平有效,選用后續提出的性能更優越的主流算法,以及與本文方法相關度較高的算法進行性能比較,包括相關濾波模型的代表性算法DSST[23]、Staple[25]、SRDCF[24],判別式模型代表性方法DLSSVM[15],使用卷積神經網絡特征構造顯著圖的CNN-SVM[46]算法,結合深度學習與相關濾波模型的CF2[47]、CFNet[17]、ACFN[18]和TRACA[48]算法.其中CFNet方法作者提供了使用深度卷積神經網絡不同層特征的多個版本,本文中用于比較的是使用conv3特征的版本,記為CFNet-conv3.
4.2.1 算法評價指標
OTB-100數據集建議采用精度圖和成功率圖的方式對算法性能進行衡量和比較.精度圖和成功率圖分別基于中心位置誤差指標和重疊率指標進行統計獲得,這兩個指標也是目前比較主流的衡量跟蹤器性能的標準.
中心位置誤差(Center location error,CLE)是被廣泛使用的一個評價標準,具體指跟蹤所得的目標中心位置與基準中心位置之間的歐氏距離,單位為像素,即

其中,(x t,y t)表示第t幀時跟蹤算法計算得到的目標中心位置坐標,表示該時刻視頻中目標的基準中心位置坐標.可以看出,中心位置誤差僅僅衡量了像素位置的差異,無法反映目標尺度大小上的誤差.通常定義SCLE≤20 為跟蹤成功.精度圖(Precision plots)對中心位置誤差指標進行統計,橫坐標為中心位置誤差,縱坐標為精度(Precision),表示中心位置誤差小于某個閾值的視頻幀數占總視頻幀數的百分比.通常使用SCLE20的精度指標衡量算法在數據集上的綜合性能,并對其進行排序.
重疊率(Overlap)是另一個常見的算法評價標準,具體定義為

其中,Rt表示第t幀時算法輸出的目標框,是數據集標注的標準目標框,表示兩個區域重疊面積,表示兩個區域并集的面積.重疊率指標在衡量了跟蹤算法輸出結果與標準值在像素位置上差異的同時,也反映了目標尺度大小估計上的準確程度,在目標尺度估計不準確的情況下算法很難得到高的重疊率指標.
成功率圖(Success plots)對算法在數據集各個序列上的重疊率指標進行統計,橫坐標為重疊率,縱坐標為成功率(Success rate),具體表示重疊率大于某個閾值的幀數占視頻總幀數的百分比.通常使用成功率圖的曲線下方面積(Area under curve,AUC)指標來對算法進行排序比較.
本實驗采用一次通過估計(One pass evaluation,OPE)的方式給出跟蹤算法的精度圖與成功率圖.OPE評估方法從視頻開頭使用標注的基線矩形框進行初始化,對算法在整個視頻跟蹤過程中的性能指標進行統計,通過考察算法的長期跟蹤能力評估其實用價值.
4.2.2 總體性能評估分析
在OTB-100數據集上,本文提出的目標跟蹤算法與主流目標跟蹤算法的性能比較結果如圖6所示.從圖6中可以看出,本文提出的算法在融合了運動與顯著性信息之后,相比于本文的基線方法,經典的相關濾波器算法DSST,中心位置誤差等于20距離精度(即跟蹤成功的幀數比例)從 68.0% 大幅提升到 84.4%,成功率圖的AUC指標從51.3%提升到 60.4%,充分證明了本文算法融合框架、以及所建模的運動信息與顯著性信息的有效性.
圖6(a)的精度圖曲線充分說明,本文提出的算法不僅相比于傳統簡單的算法模型有明顯的優勢,在跟蹤精度性能上也優于模型復雜和運行緩慢的SRDCF,以及多類整合利用了深度學習特征,或者使用端對端深度卷積神經網絡完成跟蹤任務的最新主流方法.圖6(b)的成功率圖曲線也說明了同樣的結論.

圖6 在OTB-100數據集上的一次通過估計曲線Fig.6 One-pass-evaluation(OPE)curves on OTB-100 dataset
4.2.3 不同挑戰性因素影響下的性能分析
OTB-100中的100個測試視頻涵蓋了現實生活中常見的包含各種復雜困難的跟蹤場景,具體使用11個挑戰性因素屬性進行了標注,分別是光照發生變化(Illumination variation,IV)、尺度變化(Scale variation,SV)、目標發生遮擋(Occlusion,OCC)、目標發生形變(Deformation,DEF)、運動模糊(Motion blur,MB)、快速運動(Fast motion,FM)、平面內旋轉(In-plane rotation,IPR)、平面外旋轉(Out-of-plane rotation,OPR)、跳出視野(Out-of-view,OV)、背景復雜(Background clutter,BC)以及低分辨率(Low resolution,LR).
對這些視頻序列按照屬性進行統計得到成功率圖,可以用于分析算法對于包含不同挑戰性因素的跟蹤場景的適用性與優缺點.圖7(a)~(d)顯示了本文的算法最占優勢的4個屬性,圖7(e)~(h)則顯示了最不占優勢的4個屬性.從圖7 中可以看出,本文算法對于背景復雜、尺度變化、目標發生形變這3個場景下的目標跟蹤,成功率圖的AUC 分別高于次優算法 1.3%,1.1%,0.6%,平面內旋轉情況下略低于TRACA算法,高于其他算法.實驗結果表明,通過本文的算法模型整合的顯著性信息能夠有效減少復雜背景對于外觀模型的干擾,增強算法的魯棒性,所建立的運動模型也能夠有效地捕捉目標與背景的運動,帶來有效信息.

圖7 在OTB-100數據集不同挑戰性因素影響下的成功率圖Fig.7 Success plots on sequences with different challenging attributes on OTB-100 dataset
另一方面,在低分辨率、目標發生遮擋、快速運動、運動模糊4個困難場景下,本文算法成功率圖的AUC指標均低于SRDCF,且分別低于最優算法 9.1%,2.1%,1.4%和1.2% .由于在上述4種困難場景下,目前的光流估計算法比較難得到非常準確的光流估計,這一實驗結果表明,本文算法模型可能會一定程度上受到光流估計算法結果的影響.盡管如此,本文算法在這4個場景下,相對于沒有引入顯著性與運動信息的基線方法DSST算法,在AUC指標上仍然分別取得了8.5%,9.6%,12.4%和 11.0% 的提升.
視覺物體跟蹤挑戰賽從2013年開始,每年在計算機視覺頂級會議上舉行.為了將本文算法與目前最先進的方法進行客觀的性能比較與分析,我們使用最近一期的VOT挑戰賽數據集VOT2018[11],與所有參與測試的最新算法進行比較.該數據集包含60個測試視頻,選取的序列與OTB數據集相比具有更高的跟蹤難度,所有視頻幀上的目標標準位置均經過人工標注.
VOT2018競賽提交的跟蹤器總共有72個,其中包括36個需要高性能GPU設備的算法,以及36個僅需要CPU就可以運行的算法.前者使用表征能力更強的深度神經網絡特征,在計算過程中依賴于使用高性能GPU來實現或接近實時效果,總體跟蹤精度和魯棒性較高,而后者由于不依賴于GPU計算,可在各類不配備GPU或GPU算力不足的平臺上使用,其應用范圍更加廣泛.本文致力于通過建模先驗知識構造不依賴于GPU計算能力的實時跟蹤器,與后者屬于同一類方法,因此我們與后者進行了重點比較.
4.3.1 算法評價指標
VOT 數據集基于重疊率(Overlap)指標來評價算法跟蹤性能,計算方法與OTB相同,詳見式(25),具體測試條件和統計方式與OTB略有不同.OTB側重于評價算法的長期跟蹤能力,且在一次測試中只進行一次初始化,不對跟蹤失敗的情況進行判斷和重新初始化,VOT則選用了一些跟蹤難度較大的序列,為充分利用數據集,每次在算法跟蹤失敗(重疊率小于 0) 5 幀之后對其進行重新初始化,并且在重新初始化 10 幀之后繼續統計重疊率.具體使用精確度(Accuracy)和魯棒性(Robustness)兩個指標,精確度計算了有效幀的平均重疊率,魯棒性則通過統計跟蹤失敗的次數來計算,使用算法在這兩個指標上的排序綜合衡量了其跟蹤性能.
為了在衡量算法的短期跟蹤性能的同時,減少重新初始化帶來的統計偏差,VOT挑戰賽從2015年引入的另一個算法評價指標是平均重疊率期望(Expected average overlap,EAO),具體統計方法是在測試視頻中截取長度較短的片段,采用不重新初始化的方式進行一次性跟蹤,統計算法在片段上的平均重疊率,通過對多個不同的長度下的平均重疊率求期望得到.通過跟蹤器EAO指標在目前最新算法中的排序,可以比較客觀地衡量其短期跟蹤性能.
4.3.2 實驗結果分析
在VOT2018數據集上,本文提出的目標跟蹤算法與主流目標跟蹤算法的性能比較結果如圖8所示.圖8(a)列出了所有參與測試的跟蹤器,圖8(b)的精確度?魯棒性圖顯示了本文算法同類方法(不依賴于GPU設備的方法)在精確度和魯棒性兩個維度上的排名,越靠近圖的右上方表明算法總體跟蹤性能越好.與目前最先進的方法(包括已正式發表文獻的最新方法,以及部分尚未發表文獻的方法)相比,本文的方法在精確度上排名第4,在魯棒性上排名第7,取得較高的綜合性能.
為了更進一步客觀評估本文算法的性能,呈現與目前最先進跟蹤器的比較結果,我們在圖8(c)的平均重疊率期望排序圖中列出了所有參與測試的跟蹤算法,包括36個依賴于GPU計算能力的跟蹤算法和36個不需要GPU設備的算法.不需要GPU設備的跟蹤器在圖的下方使用灰色圓圈進行了標記,從圖示中可以看出排名前 30 的跟蹤器中僅有 6個即 1/5 不需要GPU設備,說明這一方面的研究有待進一步的加強,以滿足此類情況下視覺目標跟蹤技術的應用需求.
圖8(c)的平均重疊率期望排序圖顯示,我們的方法在所有參與測試的算法中排名第 31 .在所有不依賴于GPU設備的同類跟蹤算法中,本文方法跟蹤性能優于大部分(36個中的30個)同類方法.值得一提的是,跟蹤性能優于我們的6個同類方法中包括已正式發表文獻的方法,也包括尚未公開發表文獻的方法,其中排名第4、第12、第20和第27的UPDT[54]、SRCT[55]、MCCT[56]、CSRDCF[57]為已公開發表的方法,在VOT2018競賽工具包中報告的幀率分別為 0.43,1.12,1.29和 8.75 fps,排名第1和第28的LADCF和DCFCF方法未標注公開發表的文獻,報告的幀率分別為 0.52和 0.18 fps,均明顯低于本文方法的 21.33 fps.相比之下,本文方法在精確度、魯棒性和速度方面具有較大的綜合優勢,具有較高的實用價值.

圖8 在VOT2018數據集上的實驗結果Fig.8 Experimental results on VOT2018 dataset
本文在視覺目標跟蹤的應用中,提出了一種像素級概率性目標表征模型,用于集成與主流的矩形框模板表征模型互補的觀測信息,并且對多目標表征模型提供的信息進行融合決策.具體建立了感興趣區域像素目標概率的貝葉斯推斷模型,每一幀通過上一幀的估計結果和狀態傳遞概率預測本幀像素點的目標概率,再融合本幀的像素級圖像觀測進行修正.像素級圖像觀測部分建模和集成了被主流目標跟蹤算法所忽略、而在人類視覺系統中十分重要的顯著性信息與運動信息.其中,基于顯著性的觀測模型具體使用背景先驗和最小障礙距離算法進行建模,能夠在背景干擾的情況下提供具備高辨識度的圖像證據;基于運動信息的觀測模型則利用了相機與目標運動的連續性,通過計算目標和背景的運動模式,建立像素級的圖像證據,能夠為目標復雜運動的場景提供有效決策信息.實驗結果表明,提出的模型能夠有效地融合像素級的顯著性與運動信息,增強跟蹤算法在背景干擾、目標形變嚴重、復雜運動等挑戰性跟蹤場景下的魯棒性,與同類跟蹤算法相比,在跟蹤精度、魯棒性和運行速度方面具有較大的綜合優勢,具有較高的實用價值.