999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺的目標檢測與跟蹤綜述

2016-11-10 05:21:02尹宏鵬陳波柴毅劉兆棟
自動化學報 2016年10期
關鍵詞:背景特征檢測

尹宏鵬 陳波 柴毅 劉兆棟

基于視覺的目標檢測與跟蹤綜述

尹宏鵬1,2陳波2柴毅2劉兆棟2

基于視覺的目標檢測與跟蹤是圖像處理、計算機視覺、模式識別等眾多學科的交叉研究課題,在視頻監控、虛擬現實、人機交互、自主導航等領域,具有重要的理論研究意義和實際應用價值.本文對目標檢測與跟蹤的發展歷史、研究現狀以及典型方法給出了較為全面的梳理和總結.首先,根據所處理的數據對象的不同,將目標檢測分為基于背景建模和基于前景建模的方法,并分別對背景建模與特征表達方法進行了歸納總結.其次,根據跟蹤過程有無目標檢測的參與,將跟蹤方法分為生成式與判別式,對基于統計的表觀建模方法進行了歸納總結.然后,對典型算法的優缺點進行了梳理與分析,并給出了其在標準數據集上的性能對比.最后,總結了該領域待解決的難點問題,對其未來的發展趨勢進行了展望.

計算機視覺,目標檢測,目標跟蹤,背景建模,表觀建模

引用格式尹宏鵬,陳波,柴毅,劉兆棟.基于視覺的目標檢測與跟蹤綜述.自動化學報,2016,42(10):1466-1489

隨著信息技術的發展,基于視覺的運動目標檢測與跟蹤,已逐漸滲透到人們生活的方方面面,其重要性日益突出,吸引了越來越多的海內外學者及研究機構參與到此領域的研究.目前,基于視覺的運動目標檢測與跟蹤已廣泛應用于視頻監控、虛擬現實、人機交互、行星探測、行為理解等領域,實現了公共安全監控與管理,意外事件防范、檢測及處理,應急推演,老幼病殘監護以及自主導航等功能,其具體應用分類詳見表1.

早在60年代,國外就已開展了對運動目標檢測與跟蹤的研究[1].Papageorgiou等[2]提出了靜態圖像中用于目標檢測的一般框架,該框架直接從樣本中學習特征,不需要任何的先驗知識、模型或者運動分割.Viola等[3]將積分圖用于圖像特征表達,采用級聯分類器實現了對目標的魯棒實時檢測.Lowe[4]通過獲取圖像關鍵點附近的梯度信息來描述運動目標,提出了尺度不變特征(Scale invariant feature transform,SIFT).Dalal等[5]提出了梯度直方圖特征(Histogram of oriented gradient,HOG),將其用于解決靜態圖像的行人檢測問題.Felzenszwalb等[6]將HOG與支持向量機(Support vector mach-ine,SVM)相結合,提出了可變形部件模型(Deformable part model,DPM),逐漸成為近年來最受歡迎的目標檢測模型之一,該工作在2010年被授予了模式分析,統計建模,計算學習視覺目標分類(Pattern Analysis,Statistical Modelling and Computational Learning Visual Object Classes,PASCAL VOC)挑戰賽[7]“終身成就獎”.

表1 基于視覺的目標檢測與跟蹤應用領域Table 1 Applications of vision-based object detection and tracking

國內從2002年到2012年,相繼召開了3屆全國智能視覺監控學術會議,其內容主要涉及了智能視頻監控、背景建模、圖像分割、目標檢測與跟蹤、行為理解與分析、數據壓縮與傳輸、系統構建與集成等內容.另外,從2011年到2016年相繼召開了6屆視覺與學習青年研討會(Vision and Learning Seminar,VALSE)也涉及了計算機視覺、圖像處理、模式識別與機器學習等眾多領域,重點討論了圖像分類、目標檢測、視覺跟蹤等相關技術的進展.

隨著對基于視覺的目標檢測與跟蹤研究的深入,大量的相關成果不斷涌現.為此,眾多學者逐漸展開了對目標檢測與跟蹤的綜述工作,對該領域進行了歸納與總結,典型的綜述文獻及主要內容如表2所示.在已有的綜述文獻中,部分綜述性工作只是面向某一類具體應用進行展開,如文獻[8]對手勢識別中的目標跟蹤進行了深入討論,文獻[9]針對行星地形分類問題對目標檢測方法展開了綜述;部分文獻只是討論了目標檢測與跟蹤的一個較小的組成部分,如文獻[10-12]討論了目標表觀建模方面的一些研究進展,文獻[13-14]討論了目標檢測中的背景建模方法,文獻[15]對多種跟蹤算法進行了實驗對比與分析;部分文獻在總結時,對目標檢測與跟蹤部分只進行了簡要概述,如文獻[16-17]分別綜述了行為理解和智能監控的研究進展,在其底層部分簡要地介紹了目標的檢測與跟蹤,沒有給出針對該領域較全面的整理;當然,也有一些學者對運動目標檢測與跟蹤進行了較為全面的闡述、分析與整理,如文獻[18-22],這部分工作極大地推動并促進了該領域的研究與發展.然而,隨著時代的發展,目標檢測與跟蹤技術也在突飛猛進,近幾年來該領域的研究成果可謂日新月異,各種優秀算法也是層出不窮,特別是計算機視覺三大會議(CVPR(Computer Vision and Pattern Recognition),ICCV(International Conference on Computer Vision),ECCV(European Conference on Computer Vision))每年均有許多相關報道,對這些工作及成果進行梳理與總結,將會有效地推動和促進計算機視覺領域的發展.運動目標的檢測和跟蹤主要用于獲取運動目標的位置、姿態、軌跡等基本運動信息,是理解服務對象或對目標進行控制的前提和基礎.本文試圖對運動目標檢測與跟蹤,在不同層面上的典型算法進行較為全面的梳理與總結,將其整體結構歸納為如圖1所示的框架.其中,目標檢測可看作是目標跟蹤的組成部分,主要用于對目標狀態的初始化,目標跟蹤則是在目標檢測的基礎上,對目標的狀態進行連續估計的過程.

本文分別對運動目標檢測及其跟蹤兩方面進行了梳理與總結.第1節按算法所處理的數據對象的不同,將目標檢測分為基于背景建模與基于目標建模的檢測方法,并分別闡述了目標檢測技術的常用方法,重點討論了背景建模方法以及表觀建模中的特征表達方法;第2節將目標跟蹤按其與目標檢測的關系的不同,分為生成式與判別式跟蹤方法,重點討論了表觀建模中的統計建模方法;第3節綜合目標檢測、目標跟蹤的研究現狀,對該領域未來的研究趨勢進行了展望.

1 目標檢測

目標檢測的目的是從不同復雜程度的背景中辨識出運動目標,并分離背景,從而完成跟蹤、識別等后續任務.因此,目標檢測是高層理解與應用的基礎任務,其性能的好壞將直接影響后續的目標跟蹤、動作識別以及行為理解等中高層任務的性能.

表2 目標檢測與跟蹤相關綜述文獻Table 2 Related surveys about object detection and tracking

圖1 基于視覺的目標檢測與跟蹤框架Fig.1 General framework of vision-based object detection and tracking

目標檢測的任務是要分割“我們不關心”的背景從而獲取“我們所關心”的前景目標.因此,按算法處理對象的不同,目標檢測方法可以分為基于背景建模的目標檢測方法和基于前景建模的目標檢測方法.其中,基于背景建模的方法通過對背景進行估計,建立起背景模型與時間的關聯關系,將當前幀與所建背景模型進行對比作差,間接地分離出運動前景,最后經過前景分割得到跟蹤目標;基于前景目標建模的方法則是采用灰度、顏色、紋理等同質特征,建立起跟蹤目標的表觀模型,并設計適當的分類器對其進行分類與檢測.

1.1基于背景建模的目標檢測

基于背景建模的方法將當前幀與背景參考模型進行比對,再通過閾值法來判斷各個像素是否屬于運動前景,最終對檢測出的運動前景進行分割得到跟蹤目標.基于背景建模的目標檢測方法一般包含背景模型的初始化、模型維護及前景檢測與分割等步驟,其處理的一般流程如圖2所示,N表示用于背景模型初始化的視頻幀數.

圖2 基于背景建模的目標檢測流程圖Fig.2 Flow chart of object detection based on background modeling

背景初始化(Background initialization)[23]指對背景模型的初始化工作.其中,最簡單的初始化方法是得到一幀不包含任何運動目標的背景圖像.通常的初始化模型可以從一段較短且不包含前景目標的訓練序列中獲取.然而,實際場景卻較難滿足不包含前景目標的純背景特性,這就要求我們使用包含前景目標的一組序列去獲取背景初始模型.Wang等[24]對初始化背景模型Median進行改進,提出了一種能容納超過50%前景目標或噪聲的魯棒初始化模型.Colombari等[25]提出了基于塊的背景初始化方法,能夠處理前景目標在場景中靜止一段時間的復雜情況.

實際場景中背景因受光照變化、場景中目標的進入或退出等因素的影響而時刻發生變化,準確的背景模型變得難以獲取.因此如何構造魯棒、自適應的背景模型是基于背景建模的運動目標檢測算法的關鍵.目前,對于背景建模已有大量的研究工作.Lee等[26]將均值背景模型用于視頻監控,Mc-Farlane等[27]在對小豬的跟蹤過程中采用了中值濾波模型.另外,還有幀間差分、最大最小值濾波等其他早期常被使用的基本模型.隨著對背景建模研究工作的推進,又出現了統計模型[28-29]、聚類模型[30-31]、神經網絡模型[32-33]、估計模型[34-35]、模糊模型[36]、魯棒子空間模型[37]、稀疏模型[38]、變換域模型[39-40]等背景模型.Bouwmans等分別在2010年[28]、2011年[29]和2014年[14]對背景建模進行了綜述工作,對背景建模方法進行了詳細的分類與總結,有興趣的讀者可以參考相關文獻.

背景模型中,高斯模型[41]和支持向量模型[42]通常用于處理動態背景;子空間學習模型[37]多用于處理光照變化問題;模糊模型[36]能同時處理光照變化和動態背景;魯棒子空間模型[37]特別是魯棒獨立主成分分析(Robust principal components analysis,RPCA)能利用視頻幀間的關聯關系,較好地處理時空約束,在前背景的分離上潛力巨大,但該類模型通常不能較好地滿足實時性能,需要更多的研究提升算法的時效性;神經網絡模型[33]在精確性能和計算成本上尋求了一個折中,該類模型中的空間相干性自組織背景減除法(Spatially coherent selforganizing background subtraction,SC-SOBS)[43]與3D自組織背景減除改進算法(Enhanced 3D selforganizing background subtraction,3dSOBS+)[44]在ChangeDetection.Net數據集[45]上取得領先的檢測結果.此外,在該數據集上檢測結果較好的算法還有統計模型中的視覺背景提取器(Visual background extractor,ViBe)[46]、像素自適應分割(Pixel-based adaptive segmenter,PBAS)[47]算法等,它們都使用了魯棒更新模型,能同時處理光照變化和背景動態變化等情況.Sobral等[48]基于OpenCV搭建了背景減除方法的通用框架(Background subtraction library,BGSLibrary),提供了37種背景建模算法的實現1,極大地促進了學術研究與工程實踐.

1.2基于前景目標建模的目標檢測

基于目標建模的目標檢測方法通常分為離線訓練與在線檢測兩個階段.離線訓練階段對訓練樣本中的前景目標與背景分別進行特征表達,建立起目標或背景表觀模型,再進行分類器訓練得到分類器模型.在線檢測階段對測試樣本在多個尺度上進行滑動窗口掃描后,采用同樣的特征表達方法建立起表觀模型,然后再用離線階段訓練得到的分類器模型對其進行分類,從而判斷各個窗口是否為前景目標.基于前景目標建模的目標檢測方法的一般處理流程如圖3所示.與基于背景建模的方法不同,該類方法不受場景限制,應用范圍相對較廣泛,且檢測結果不需要進行再度分割.

圖3 基于目標建模的目標檢測流程圖Fig.3 Flow chart of object detection based on object modeling

事實上,上述檢測方法用到了目標檢測、目標識別以及行為識別等任務的一個通用框架,即“特征表達”+“分類器”的框架.因此,如何高效準確地進行特征表達以及構造適當的分類器是此類方法的核心所在.如果所選取的表達特征能夠有效地反映檢測目標的本質,那么目標檢測與跟蹤任務便會取得事半功倍的效果.

1.2.1特征表達

圖像的特征表達就是將原始圖像像素映射到一個可區分維度空間數據的過程,它是打破底層像素與高層語義之間的語義鴻溝至關重要的一步.圖像特征按其能否通過自學習得到,可以分為基于人工設計的特征與基于學習的特征.其中,人工的設計特征是一種利用人類先驗知識與智慧,并將這類知識應用于目標檢測、識別等任務的很好的方式.這類方法實現相對容易、計算也比較簡單,但其極大地依賴了人類知識、經驗的總結,且不能做到對圖像或目標模型最本質的刻畫.基于學習的特征表達主要是通過無監督學習的方式,讓機器自動地從樣本中學習到表征這些樣本更加本質的特征.

1)基于人工設計的特征表達

基于人工設計的特征是人們通過手動設計提取得到的特征,即存在一個對輸入信號“顯式”的預處理過程.目前,人工設計的特征按視覺特性與特征計算的不同可以大致分為四類:梯度特征、模式特征、形狀特征以及顏色特征.

梯度特征通過計算空間區域上的梯度強度和方向等的分布來描述目標.其中,使用最為廣泛的梯度特征是Lowe[4]提出的尺度不變特征(SIFT),其通過獲取特定關鍵點附近的梯度信息來描述目標,通常關鍵點在空間上分布相對較稀疏,該類特征具有非常卓越的尺度、旋轉不變特性,其改進特征主要有PCA-SIFT[49]、梯度位置方向直方圖(Gradient location-orientation histograms,GLOH)[50]、加速魯棒特征(Speed-up robust features,SURF)[51]、雛菊花特征(DAISY)[52]等.另外,Dalal等[5]為解決靜態圖像中的行人檢測問題而提出的梯度直方圖特征(HOG),也逐漸成為近年來最具影響的特征之一,其改進特征主要有變尺寸梯度直方圖(HOG with variable size,v-HOG)[53]、共生梯度直方圖(Co-occurrence histogram of oriented gradients,CoHOG)[54]、GIST[55]等.

模式特征是通過分析圖像局部區域的相對差異而得出的一種特征描述,通常被用于對圖像紋理信息的表示.1997年,Jain等[56]將Gabor濾波器用于目標檢測中,取得了較好的檢測結果.Ahonen等[57]將局部二值模式(Local binary patterns,LBP)用于人臉特征描述,實現了對人臉的識別.其中,LBP的改進特征主要有中心對稱局部二值模式

1https://github.com/andrewssobral/bgslibrary(Center symmetric LBP,CS-LBP)[58]、無冗余局部二值模式(Non redundant LBP,NR-LBP)[59]等.此外,比較常用的模式特征還有Haar-like[60]、統計變換直方圖(Census transform histogram,CENTRIST)[61]、姿態描述子(Poselets)[62]、稀疏表示目標描述(Sparselets)[63]、中層共享部分描述(Shared mid-level parts,Shufflets)[64]、局部區域描述(Regionlets)[65]、局部組合二值(Locally assembled binary,LAB)[66]等.相對于梯度特征而言,模式特征的數據維度較高,因此,在特征選擇與分類學習時計算負擔相對較大.

形狀特征來源于基于模型的目標檢測[67],一般用于對目標輪廓的描述.文獻[68]對形狀特征提取進行了綜述工作,常見形狀特征描述有形狀上下文(Shape context)[69]、角矩陣[70]、k近鄰分割(k adjacent segments,kAS)[71]、圖形基元[72]、線描述子(Bunch of lines descriptor,BOLD)[73]、尺度不變形狀特征[74]等.形狀特征具有優良的尺度、旋轉、平移不變特性,可用于描述形變表觀,但其優良性能很大程度上依賴了如邊界檢測及分割等預處理步驟[75].另外,許多不同類型的目標也可能會擁有相似的形狀,因此基于形狀特征的檢測方法在應用層面上受到了一定的限制.此外,形狀特征表達忽略了紋理和顏色等有用信息,這在一定程度上降低了其目標檢測的可靠性.

顏色特征是通過計算局部的圖像屬性(如灰度、顏色等)的概率分布而得到一種特征描述,該類特征主要包括了顏色 SIFT特征[76]、顏色屬性(Color names)[77]、顏色共生矩陣(Color cooccurrence matrix,CCM)[78]、顏色自相似(Color self-similarity,CSS)[79]、局部自相似(Local selfsimilarity,LSS)[80]、全局自相似(Global selfsimilarity,GSS)[81]、協方差特征(Covariance feature)[82]、C-SIFT[83]、HSV顏色空間SIFT特征(HSV-SIFT)[84]、色調直方圖 SIFT特征(Hue-SIFT)[85]等.顏色特征能得到對光照不敏感的顏色表達,近年來廣泛地應用于目標檢測[86]、目標跟蹤[87]等任務,取得了很好的應用效果.其中,基于熵的顯著性特征[88]通過熵值的計算來獲取感興趣區域;CCM[78]通過計算顏色的聯合概率分布來獲取對目標的局部表觀描述;顏色屬性[77]通過將圖像像素映射至相應的屬性獲取對目標的顏色描述,一般需要融合梯度特征一起來對目標進行表觀建模.顏色特征同時描述了視覺目標的亮度信息與彩色信息,能有效地描述顏色通道類內一致的目標,極大地提高了視覺目標的檢測精度.然而,顏色信息及其不穩定性在一定程度上限制了顏色特征的應用,如顏色特征不適用于對紅外圖像的處理.此外,顏色特征的融合也會增加特征維數及其計算成本.總之,顏色特征能很好地用于目標檢測與跟蹤任務中,但在其使用的過程中需要適當地抑制其不穩定性.

基于人工設計的特征表達方法具有設計簡單、實現容易、易于理解等優點,受到科研人員的廣泛研究與使用.近年來,眾多海內外學者以及研究機構在相關方面,已經相繼開展了許多研究工作,取得了一系列顯著的研究成果,表3對典型的基于人工設計的特征表達方法進行了歸納與總結.

表3 基于人工設計的特征表達方法Table 3 Human-engineering-based feature representation methods

基于人工設計的特征表達充分利用了人類知識與智慧,這類特征已經能夠很好地應用于目標檢測、識別等任務,但它們對于目標的描述存在著一個“顯式”的處理過程,對目標的刻畫不夠本質.根據神經科學關于哺乳動物的信息表達的研究[89-90]表明,哺乳動物大腦中關于執行識別等任務的大腦皮層并沒有一個對信號進行“顯式”預處理的過程,而是將輸入信號在一個大腦的復雜的層次結構中傳播,通過每一層次對輸入信號進行重新提取和表達,最終讓哺乳動物感知世界.而基于學習的特征表達就是通過無監督學習的方式讓機器自動地,從樣本中學習到表征樣本更加本質的特征,從而使計算機模擬人腦感知視覺信號的機制,實現目標檢測與跟蹤等視覺功能.

2)基于學習的特征表達

基于學習的特征表達主要是采用無監督學習的方法,使機器自動學習刻畫樣本更加本質的特征.其中,該類方法中最常用的是基于深度學習的特征表達方法,其通過逐層地構建一個多層網絡,使機器自動地學習隱含在數據內部的關系.基于深度學習的特征表達一直是目標檢測的研究熱點之一,為了促進該領域的研究與發展,相繼出現了一系列的深度學習開源平臺,如2014年Jia等[91]使用C++搭建了用于快速特征提取的深度學習框架(Caffe),并封裝了Python和Matlab接口,廣泛用于計算機視覺、語義理解等應用中;Google在第一代深度學習系統(DistBelief)[92]的基礎上對網絡架構等進行優化,推出了第二代深度學習系統(TensorFlow)[93]使其學習速度更快、精度更高,并在2015年11月將該系統宣布開源,支持卷積神經網絡(Convolutional neural network,CNN)、遞歸神經網絡(Recurrent neural network,RNN)以及長短期記憶單元(Long short-term memory,LSTM)等算法.此外,使用較多的工具還有Torch7[94]、Cuda-ConvNet[95]、MatConvNet[96]、Pylearn2[97]、Theano[98]等.

基于深度學習的特征表達按其構成單元的不同,一般可以分為基于限制玻爾茲曼機(Restricted Boltzmann machine,RBM)[99]、基于自編碼機(Auto encoder,AE)[100]和基于卷積神經網絡(Convolutional neural network,CNN)[101]的特征表達方法.其中,RBM是深度置信網絡(Deep belief nets,DBN)的基本單元,基于玻爾茲曼機的特征表達通過使學習到的模型產生符合條件的樣本的概率最大進行特征表達.基于自編碼機的特征表達將輸入信號進行編碼得到表達特征,將該特征輸入解碼器后得到的重構信號與原始信號滿足最小殘差的約束.基于卷積神經網絡的特征表達通過應用不同的卷積核,提取不同的觀測特征,同時引入了子采樣過程進行特征降維.

a)基于限制玻爾茲曼機的特征表達

RBM是一個雙層的無向圖模型,它是玻爾茲曼機的簡化模型.RBM的示意圖如圖4所示,其中v是可見層單元,h是隱層單元,其層內單元間沒有連接關系,層間單元呈全連接關系,這種層間獨立的條件使得RBM的訓練顯得十分高效[99].

圖4 限制玻爾茲曼機Fig.4 Restricted Boltzmann machine

將RBM逐層疊加,就構成了DBN,底層的輸出特征作為上一層的輸入信號,對每層分別使用對比散度的方法單獨進行訓練.2006年,Hinton等[99]提出了DBN的高效訓練方法.Lee等[102]將卷積概念引入RBM,提出了卷積深度置信網絡(Convolutional deep belief network,CDBN)用于分層的特征表達,得到很好的高層視覺特征.受Lee等[102]的啟發,Nair等[103]將生成式梯度與判別式梯度相結合,提出一種3階RBM的高層模型,用于對3D目標的識別中.Eslami等[104]將深度玻爾茲曼機(Deep Boltzmann machine,DBM)[105]引入對目標形狀的描述,提出形狀玻爾茲曼機(Shape Boltzmann machine,SBM),消除了背景中與目標形狀相似的物體的干擾.

b)基于自編碼機的特征表達

基于自編碼機的特征表達方法通過對輸入信號的自動編碼,能有效地去除冗余信息,獲取輸入信號的主要信息,使輸入信號得以更加簡潔的表達.自編碼機的主要結構如圖5所示,其中v是可見的輸入層單元,h是特征隱層單元.將自編碼機逐層堆疊,就構成了深度自編碼機(Stacked auto-encoder).與DBN一樣,深度自編碼機的底層輸出特征作為上一層的輸入信號,每一層單獨地進行優化.

文獻[106]將K均值聚類、稀疏編碼、主成分分析也理解為一個自編碼機.Xiong等[107]使用多堆疊自編碼機(Multiple stack auto-encoders,MSAE)來模擬人類視覺,從不同角度對識別目標進行深層特征表達.Yin等[108]采用單層的稀疏自編碼機(Sparse auto-encoder,SAE)提取場景特征,并結合SVM對場景進行分類.Bai等[109]對彩色與深度圖像分別采用SAE特征表達,并利用遞歸神經網絡(Recurrent neural network,RNN)對學習特征進行降維,最終學習到魯棒的分層表達特征,用于RGB-D圖像的目標檢測.Su等[110]將稀疏自編碼用于深度圖像中的人體檢測,學習到了能表征人體內在結構的特征.

圖5 基于自編碼機的特征表達Fig.5 Feature representation based on auto-encoder

c)基于卷積神經網絡的特征表達

單層卷積神經網絡包含了卷積與子采樣2個過程,其實現過程如圖6所示.其中,卷積過程通過引入不同的卷積核提取信號的不同特征,實現對輸入信號特定模式的觀測;子采樣過程主要用于對特征圖的降維,通常采用平均池化或最大值池化操作,該過程雖然降低了特征圖的分辨率,但能較好地保持高分辨率特征圖的特征描述.

圖6 單層卷積神經網絡Fig.6 Single layer convolutional neural network

為方便與前兩種基本構成單元相對比,將上述過程等價為圖7.其中,每兩個節點之間的連線,表示從輸入節點經歷卷積、子采樣變為輸出節點的過程.根據Hubel等[111]對貓視覺皮層的研究表明,視覺系統對外界的認知是局部感知的.受此生物學研究啟發,CNN也采用了局部連接,這與層間全連接的RBM有所不同.CNN采用這種局部連接與權值共享的思想,極大地減少了網絡參數,加快了訓練速度,使其對網絡的訓練變得切實可行.

圖7 基于單層卷積神經網絡的特征表達Fig.7 Feature representation based on single layer CNN

將單層卷積神經網絡進行逐層堆疊,就構成了CNN,底層的輸出特征作為上一層的輸入信號. Donahue等[112]提出了深度卷積激活特征(Deep convolutional activation feature,DeCAF)用于通用的視覺識別.Girshick等[113]將大容量的卷積神經網絡(CNN)應用于自下而上的區域方法,提出了基于區域的卷積神經網絡(Regions with CNN features,R-CNN),并基于Caffe平臺實現了對目標的精確檢測與語義分割.Girshick等將空間金字塔池化網絡(Spatial pyramid pooling based neural network,SPPNet)[114]用于R-CNN,對其進行加速提出了Fast R-CNN[115],在計算速度和準確度上均有所提高,而后在此基礎上又提出了Faster R-CNN[116].Zhu等[117]將上下文信息引入深度卷積神經網絡中提出了segDeepM模型,在PASCAL VOC 2010數據集[7]上檢測精度比R-CNN高4.1%.Han等[118]使用深度卷積神經網絡提取特征成功用于MatchNet中.

基于學習的特征表達方法受到了廣泛的關注和研究,表4對該類特征表達方法進行了歸納總結.與人工設計的特征相比,由于深度學習特征是通過構建深層的網絡結構,直接從原始圖像像素中提取得到,故其將特征設計問題轉換為了網絡架構問題.這種自學習的方法極大地減少了不必要的特征設計細節,同時深度神經網絡的高層特征映射也顯示出了一定的語義屬性,在PASCAL VOC[119]、ImageNet大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)[120]等相關國際賽事中,基于深度學習的模型取得了最好的效果,這都體現了深度學習的強大學習能力.雖然深度學習特征表達具有更本質的特征表現,但由于學習深層神經網絡涉及了大量的參數,網絡的訓練需要大量的數據,因此計算過程比較繁重,需要進一步優化.

1.2.2分類器

文獻[131]對現有的分類器進行了詳細的闡述,其中,支持向量機(SVM)是使用最為廣泛的分類器之一.基于對本文篇幅的考量,這里僅對SVM分類器進行簡要的闡述,對其他分類器將不作贅述,有興趣的讀者可以參考相關文獻.目前,SVM在數據分類任務上取得了很好的效果,尤其是引入了核方法的SVM.其中,合理的核函數選取將有效地改善分類器性能,常用的核函數主要有Linear、Sigmoid、RBF、GussianRBF等[132].

表4 基于學習的特征表達方法Table 4 Learning-based feature representation methods

隨著時代的發展,更多的核方法相繼被提出,如Lu等[133]將空間失配核(Spatial mismatch kernels,SMK)引入SVM對圖像進行分類,Lazebnik等[134]提出了空間金字塔匹配核(Spatial pyramid matching,SPM)并將其用于自然場景分類問題. Yang等[135]通過學習過完備稀疏特征,將稀疏編碼(Sparse coding,SC)與SPM相結合提出了ScSPM方法,使用線性SVM達到了當時最好的分類效果.然而,稀疏編碼對特征變化非常敏感[136],且稀疏編碼過程忽略了局部特征之間的相關性.針對上述問題,Gao等[137]通過引入正則化項,保證了相似的局部特征之間稀疏編碼的一致性,提出了LScSPM方法,使分類精度得以提升.核方法的使用使SVM分類性能得以極大提升,然而,其最大的優點也是其最致命的弱點,分類器的分類性能也會極大地依賴核的選取.因此,如何根據實際需求選取合適的核方法仍需進一步探索.

盡管基于核的SVM已廣泛地應用于分類任務中,但隨著對圖像分類的研究的進展,目前所使用的視覺單詞大小越來越大,相應的圖像表達數據維度與日俱增,傳統的單個分類器已經難以滿足高維數據的分類要求.普遍的做法是將多個分類器集成在一起[138],得到一個分類性能更優良的強分類器,常用的方法主要有Bagging、Boosting以及隨機森林等.然而,集成分類器方法也存在一些問題尚未有定論,如子分類器如何選取與組合、如何在不降低分類性能的情況下使分類器數量盡可能少等.因此,研究子分類器模型的產生、調整以及整合,將有助于適應高維數據的分類任務.

1.3小結

目標檢測的目的是從不同復雜程度的環境背景中分離出運動目標,本小節按算法所處理的數據對象的不同,將其分為基于背景建模和基于目標建模的檢測方法.其中,基于背景建模的檢測方法一般具有實現簡單、運算效率較高等優點,但其適用范圍比較狹小,通常只能用在固定攝像機拍攝的場景下,且固定場景也存在諸多干擾因素,如光照變化、陰影、局部動態背景(搖晃的樹枝、波動的水面)等,這些因素都將極大地影響算法的性能,給前景提取帶來巨大的挑戰.

基于目標建模的檢測方法克服了基于背景建模的方法固定場景的缺點,可以用于動態環境(如車載攝像頭等)的目標檢測,且一般檢測出的運動區域不需再度進行分割,擴展了目標檢測的應用范圍.但其在應用過程中也存在諸多的挑戰,如較大的遮擋與光照變化,較小的類間差與較大的類內差,較大的目標形變與尺度變化,較低的圖像分辨率等.另外,特征學習需要依賴大量的學習樣本,且不同場景需要訓練不同的分類器,在實際應用中一般較難滿足實時要求.研究者仍然需要從特征表達與分類器設計上進行思考,提高算法的精確度、魯棒性,同時也不能忽略算法的時效性能.目前,在目標檢測領域已經公開發布了許多可供算法評測的數據集,表5對典型的數據集及其特點進行了簡要的歸納.

2 目標跟蹤

運動目標跟蹤問題可以等價為在連續的圖像幀之間,構建基于目標位置、速度、形狀、紋理、色彩等有關特征的對應匹配問題.其一般處理流程如圖8所示,由目標狀態初始化、表觀建模、運動估計及目標定位4部分組成,其中N表示用于跟蹤初始化的視頻幀數.

目標狀態的初始化一般采用人工標定或目標檢測的方法進行實現.表觀建模主要包括了對目標的視覺特征(顏色、紋理、邊緣等)的描述,以及如何度量視覺特征之間的相似性,它是實現魯棒跟蹤的關鍵所在.運動估計則是采用某種運動假設來預估目標可能出現的位置,常用的運動估計方法主要有線性回歸[146]、均值漂移[147]、隱馬爾科夫模型[148]、卡爾曼濾波[149]以及粒子濾波[150]等.最后,在表觀建模與運動估計的基礎上,采用某種最優化策略獲取目標最可能的位置,實現對跟蹤目標的定位.

表5 目標檢測典型數據集Table 5 Typical data sets for object detection

圖8 運動目標跟蹤一般流程Fig.8 Flow chart of moving object tracking

如圖8所示,表觀建模可以分為特征表達與統計建模,關于特征表達在上一小節中已經作了詳細的闡述,這里將不再進行贅述.一般地,目標跟蹤按有無檢測過程的參與,可以分為生成式跟蹤與判別式跟蹤.其中,生成式跟蹤方法是在目標檢測的基礎上,對前景目標進行表觀建模后,按照一定的跟蹤策略估計跟蹤目標的最優位置.判別式跟蹤方法則是通過對每一幀圖像進行目標檢測來獲取跟蹤目標狀態,因此這類方法也常被稱為基于檢測的跟蹤方法.

生成式跟蹤方法采用一定的跟蹤策略,估計下一幀中跟蹤目標的狀態,其跟蹤過程與檢測過程是相互獨立的,二者有一定的時間先后順序.判別式跟蹤方法將跟蹤問題看作前景與背景的二分類問題,通過學習分類器,在當前幀中搜索與背景區分最大的前景區域,其跟蹤過程與檢測過程彼此聯系,二者是同時進行的.

2.1生成式跟蹤方法

生成式跟蹤方法假設跟蹤目標可以由某種生成過程所描述,其目標是從眾多候選目標中尋找最優的候選目標.生成式跟蹤方法的關鍵在于如何精確地對跟蹤目標進行重構表達,采用在線學習方法對跟蹤目標進行表觀建模以適應目標表觀的變化,實現對目標的跟蹤.目前,生成式表觀模型的建立可以分為基于核的方法、基于子空間的方法以及基于稀疏表示的方法三類.

2.1.1基于核的方法

基于核的方法通常采用核密度估計的方式構建表觀模型,并使用Mean shift方法[147]對運動目標位置進行估計.Comaniciu等[151]使用顏色直方圖建立表觀模型,采用各向同性的核函數施加空間平滑,通過Mean shift尋找局部極值對目標進行定位.Rahmati等[152]使用顏色直方圖建立跟蹤目標表觀模型的同時,對基于核的Mean shift方法進行改進,實現了對嬰兒四肢的跟蹤以輔助其運動. Melzer等[153]對典型相關分析(Canonical correlation analysis,CCA)進行非線性擴展,提出了基于核的典型相關分析(Kernel-CCA)方法用于表觀模型的構建,并將其應用于目標姿態估計與運動跟蹤.

早期的基于核的方法雖然考慮了跟蹤目標的顏色及灰度等信息,但其忽略了如梯度、形狀等其他重要的視覺信息,在復雜的場景、目標的部分遮擋、快速運動以及尺度變化等情況下容易出現漂移問題.為了解決目標尺度的自適應問題,研究者提出了一系列方法,如Yilmaz[154]將非對稱核引入Mean shift方法,實現了對跟蹤目標的尺度自適應以及方向的選擇.Hu等[155]通過計算主成分的協方差矩陣來更新跟蹤目標的方向,并使用相關特征值檢測目標的尺度變化,實現了對跟蹤目標尺度及方向的自適應估計.

2.1.2基于子空間的方法

基于子空間的方法的關鍵在于如何構建相關的基以及它們所張成的子空間,對目標表觀進行表示.Levey等[156]與Brand[157]采用增量奇異值分解(Singular value decomposition,SVD)的方法獲取子空間學習的解,將其應用于計算機視覺處理以及音頻特征提取中.De等[158]提出了一種魯棒子空間學習(Robust subspace learning,RSL)的通用框架,該框架適用于各類線性學習問題,如特征分析、運動結構獲取等.Li[159]結合子空間學習提出了一種增量PCA方法,并將其推廣到了魯棒PCA方法,極大地提高了算法效率.Skocaj等[160]將加權增量學習用于子空間學習中,分別對人臉表觀與動態背景進行建模,均取得了較好的識別效果.

上述基于增量PCA的方法在子空間學習過程中,樣本均值不能及時地得到在線更新.針對該問題,Ross等[161]考慮了樣本均值的在線更新,其提出的跟蹤算法能夠增量地學習低維子空間,在線地自適應目標表觀的變化.Wang等[162]使用偏最小二乘(Partial least squares,PLS)分析來學習低維可區分的特征子空間,通過表觀模型的在線更新,減輕了跟蹤漂移問題.Li等[163]提出了一種高效的在線張量子空間學習算法,其通過增量地學習一個低階的張量特征子空間建立表觀模型,考慮了樣本均值和特征基的自適應更新.Wen等[164]針對傳統的張量表示方法易受光照變化影響的問題,給出了一種加權張量子空間(Weighted tensor subspace,WTS)方法,增量地學習光照變化,適應了跟蹤過程中目標表觀的變化.

相對于訓練數據處于同一線性子空間的子空間模型,研究者還嘗試了利用非線性子空間的方法對目標表觀進行建模.Khan等[165]在Grassmann流形上對跟蹤目標進行非線性動態建模,解決了跟蹤目標在部分遮擋情況下的表觀模型更新問題. Chin等[166]使用核獨立主成分分析(Kernel principal component analysis,KPCA)構建非線性子空間模型,并在此基礎上提出了增量計算方法,解決了標準KPCA方法不能進行在線處理的問題.

2.1.3基于稀疏表示的方法

基于稀疏表示的方法通常假設跟蹤目標在一個由目標模板所構成的子空間內,其跟蹤結果是通過尋求與模板重構誤差最小而得到的最佳候選目標. Mei等[167]通過對重構系數引入稀疏約束,獲取跟蹤目標的表觀模型,實現了對目標的跟蹤.Li等[168]為提高Mei等[167]的方法的時效性,將壓縮感知理論引入到跟蹤目標的表觀模型建立中,極大地提高了算法速度,達到了實時跟蹤的性能要求.

在Mei等[167]的工作基礎上,Jia等[169]將跟蹤目標進行局部分塊處理,采用局部稀疏表示與對齊池化對目標表觀建模,其跟蹤結果對局部遮擋和光照變化具有較好的魯棒性,極大地提高了跟蹤精確. Dong等[170]將聯合稀疏表示引入圖像的多特征融合,建立起對目標的多特征表觀描述,并在粒子濾波框架下進行視覺跟蹤.Hu等[171]在全局模板集中引入稀疏權重約束動態選取相關模板,將多特征聯合稀疏表示用于遮擋情況下的多目標跟蹤.

Zhang等[172]認為大多數基于稀疏表示的跟蹤方法,僅考慮了多特征融合或局部表觀建模,而忽略了候選目標的內在結構.為此他們提出了結構稀疏跟蹤器(Structural sparse tracking,SST),充分地利用了候選目標的內在結構及其局部分塊間的空間布局信息,極大地提高了跟蹤精度.Zhong等[173]提出了基于稀疏表示混合模型的跟蹤方法,綜合利用了全局模板和局部表達,能高效地處理目標表觀變化,解決跟蹤漂移問題.Bai等[174]采用塊正交匹配追蹤算法(Block orthogonal matching pursuit,BOMP)對結構稀疏表觀模型進行求解,降低了計算成本.

Zhang等[175]將在線學習引入稀疏表示,分別處理跟蹤過程中目標與背景的可區分性和目標表觀變化的魯棒性,也取得了魯棒的跟蹤結果.另外,基于字典學習的方法[176-177]也被廣泛地運用于目標跟蹤中.文獻[10]對2013年以前的基于稀疏表示的目標跟蹤方法進行了綜述工作,有興趣的讀者可以參考相關文獻.

生成式跟蹤方法使用了豐富的圖像表示,能精確地擬合目標的表觀模型.然而,由于實際應用中跟蹤目標通常沒有特定的表觀形式,因此對此類方法的正確性的驗證顯得極其困難.同時,該類方法忽略了背景信息,當場景中出現與目標表觀相似的物體時,跟蹤算法極易受到干擾,出現跟蹤失敗.為能充分地利用背景信息,克服生成式跟蹤方法的不足,通常采用判別式跟蹤方法.

2.2判別式跟蹤方法

判別式跟蹤方法將視覺目標跟蹤視為一個二分類問題,其基本思路是尋求跟蹤目標與背景間的決策邊界.判別式跟蹤方法通常采用在線增量學習的方法,獲取前景目標與背景的分界面,降低計算成本,提升計算效率.由于該方法通常是對每一幀圖像進行目標檢測來獲取目標狀態,因此這類方法也常被稱為基于檢測的跟蹤方法.目前,判別式跟蹤方法可以分為基于在線Boosting的方法、基于支持向量機的方法、基于隨機學習的方法以及基于判別分析的方法4類.

2.2.1基于在線Boosting的方法

基于在線Boosting的方法[178]來源于Valiant提出的PAC學習模型[179],其基本思路是通過對弱分類器進行重新整合來提升分類性能.由于該類方法具有較強的判別學習能力,因此其已廣泛地應用于目標跟蹤任務中[180].一般地,此類算法通過自適應地選擇區分性較強的特征,根據目標的變化,自適應地改變分類器完成跟蹤任務.

Liu等[181]通過初始化一個弱分類器集合,將梯度特征選擇整合到了在線Boosting的學習框架下,用于構建判別式表觀模型,極大地提升了算法的效率.然而,該類方法沒有考慮特征之間的相關性,容易造成其所選特征具有極大的冗余性,且該類方法不能較好地利用不同特征之間的互補性.解決此類問題的常見做法是為候選特征引入一個加權的策略,對其特征進行不同程度的加權.

Avidan[182]通過對弱分類器的特征加權,重新整合弱分類器對像素進行分類,其最大的不足在于該方法需要對特征池中的所有特征進行計算和存儲,因此其具有較高的計算復雜度.Parag等[183]對弱分類器進行改進,使其能自適應環境的變化,提出了一種新的特征加權算法,在實驗中取得了較好的跟蹤效果.然而,這類特征加權的方法通常需要固定弱分類器的個數,故其應用過程不夠靈活.

實際應用中通常需要對弱分類器數量進行動態調整,以適應表觀變化下的自適應跟蹤任務.Visentini等[184]將弱分類器進行動態整合,打破了傳統方法不能自適應表觀變化的局限.隨著研究的推進,一些研究者開始將粒子濾波引入特征選擇中,以提高目標跟蹤算法效率.Okuma等[185]將混合粒子濾波與Adaboost相結合,提出了一種級聯粒子濾波器用于多目標檢測與跟蹤.Wang等[186]通過在特征選擇過程中嵌入粒子濾波,同時引入Fisher判別準則在線地選取區分性強的特征,對跟蹤目標進行表觀建模.

2.2.2基于支持向量機的方法

基于SVM的方法通過引入最大化分類間隔約束,學習到具有較強分類性能的SVM分類器,對目標與非目標進行劃分,最終實現對運動目標的跟蹤. Avidan[187]將SVM 分類器與基于光流的跟蹤方法相結合,提出了支持向量跟蹤器(Support vector tracking,SVT)對車輛目標進行跟蹤,并在分類階段采用了由粗到精的方法,解決了跟蹤目標發生較大運動的問題.Williams等[188]將稀疏貝葉斯學習與基于核的SVM相結合,提出一種概率表觀模型用于目標定位.Tian等[189]通過對多個SVM分類器進行加權,整合了多個線性SVM對目標表觀進行建模,實現了復雜場景下的目標跟蹤.盡管該方法十分簡單,但由于其能高效地更新線性分類器,且能較好地利用歷史信息,故其對較大的表觀變化也具有良好的魯棒性.

上述表觀模型的更新,通常是在上次跟蹤結果附近,啟發式地獲取正負樣本數據進行訓練得到的,其訓練樣本的選取策略存在著極大的不確定性、隨機性、不可靠性.為了盡可能地提高樣本選取的可靠性,研究者提出了一系列相應的策略,可以分為基于結構化輸出的策略[190]和基于Ranking SVM的策略[191].Hare等[192https://archive.ics.uci.edu/ml/datasets.html]結合核SVM 提出了一種基于結構化輸出預測的框架(Struck),該框架能夠非常容易地整合其他附加特征以及不同的核最終提升跟蹤性能.Yao等[190]針對目標形變與部分遮擋問題,使用潛變量對未知部分進行建模,避免了較復雜的初始化過程.Bai等[191]將跟蹤問題看作弱分類器排序問題,提出了在線拉普拉斯Ranking SVM跟蹤器,實現了對運動目標的魯棒跟蹤.

Tang等[193]提出了一種在線半監督學習框架,使用協同訓練方法進行新數據的分類以及分類器的更新,充分地利用了無標記數據.Zhang等[194]為解決前背景分界線模糊問題,使用了混合支持向量機(Hybrid SVMs)進行表觀建模,有效地避免了漂移問題.Zhang等[195]結合壓縮感知理論與增量LS-SVM,有效地獲取了上下文信息,提高了跟蹤精度.

2.2.3基于隨機學習的方法

基于隨機學習的方法[196]通過對隨機特征與輸入的選取建立跟蹤目標的表觀模型,典型的方法主要有在線隨機森林[197]、MIForests[198]與隨機樸素貝葉斯[199]等.

Wang等[200]將隨機森林同時用于在線學習分類與視覺目標跟蹤中,在UCI數據集2https://archive.ics.uci.edu/ml/datasets.html上進行實驗取得了魯棒的實驗結果.與隨機森林相比,隨機樸素貝葉斯在訓練階段實時性能更高.Godec等[199]利用隨機樸素貝葉斯具有較低時間與空間復雜度的優點,提出了基于隨機樸素貝葉斯的目標跟蹤方法,提升了視頻處理的時效性能.Leistner等[198]結合多示例學習(Multiple instance learning,MIL)分類器的優點,提出了基于隨機樹的多示例學習算法(MIForests)用于表觀建模.

由于隨機學習的方法通常可以使用GPU實現并行加速計算,故相比于基于在線Boosting和基于SVM的方法,基于隨機學習的方法處理速度更快、效率更高,且易擴展到對多分類問題的處理.但由于該類方法的特征選取比較隨機,故在不同的應用環境下,該類方法的跟蹤性能不夠穩定.

2.2.4基于判別分析的方法

基于判別分析的方法的基本思路是通過尋找一個具有高類間差異的低維子空間對跟蹤目標表觀進行建模,這類方法主要有線性判別分析、基于度量學習的判別分析以及基于圖的判別分析方法.

線性判別分析是較簡單、使用也較廣泛的一種方法,Lin等[201]將目標與背景分別看作高斯分布,提出了一種基于增量Fisher的線性判別分析的表觀建模方法,能較好地自適應目標外觀及背景的變化. Nguyen等[202]對前景與背景分別進行局部紋理特征提取,并采用線性判別分析(Linear discriminant analysis,LDA)對其進行判別跟蹤,實現了視角及光照變化下的魯棒跟蹤.Li等[203]將二維線性判別分析引入了跟蹤目標的表觀建模中,并采用了矩陣形式進行計算,極大地提高了跟蹤效率.

基于度量學習的判別分析方法的基本思想是在滿足樣本類內距離最小、類間距離最大的約束下,將圖像原始特征空間映射至另一個可度量的空間來完成表觀模型的構建.Wang等[204]將表觀建模與視覺匹配看作是視覺跟蹤的一個單目標優化問題,基于度量學習提出了一種判別式表觀模型用于視覺跟蹤中.Tsagkatakis等[205]將在線距離度量學習(Distance metric learning,DML)與最近鄰分類器相結合,在缺少目標表觀先驗信息下,實現了對運動目標的穩定跟蹤.然而,上述方法在目標或背景呈現多模態分布時,不能很好地適用于目標跟蹤任務,解決此類問題的常用思路是首先對數據進行聚類分析,然后在每個類上分別使用判別式分析方法進行表觀模型構建.Xu等[206]采用最近鄰聚類方法將數據進行了分類,提出了自適應子類判別分析方法(Subclass discriminant analysis,SDA)解決了前背景的多模態分布問題.

基于圖的判別學習方法可以分為基于圖嵌入以及圖直推學習的方法.其中,基于圖嵌入的方法通過將高維樣本嵌入到一個具有判別能力的低維空間,實現對運動目標的判別與跟蹤.Zhang等[207]假設目標類樣本近似于高斯分布,背景類樣本服從多模態分布,使用基于圖嵌入的判別分析方法來構造目標表觀模型,并結合增量學習自適應了目標表觀以及光照的變化.基于圖直推學習的方法通過估計候選樣本屬于目標類的似然概率對目標或背景進行分類.查宇飛等[208]將跟蹤問題看作是一個基于圖的直推學習問題,并以正樣本和候選樣本為頂點建立了一張圖,同時學習目標所在的流形以及樣本的聚類結構,提出了一種基于圖直推模型的跟蹤方法,對姿態、表情及光照的變化、部分遮擋等具有良好的魯棒性.

2.3算法評測

目前,能用于目標跟蹤評測的公開視頻序列比較多3http://www.cvpapers.com/datasets.html,4http://homepages.inf.ed.ac.uk/cgi/rbf/CVONLINE/entries.pl?TAG363,5http://www.computervisiononline.com/datasets,6http://riemenschneider.hayko.at/vision/dataset/,表6對比較常用的典型數據集進行了簡要歸納,并給出了相關數據集的下載鏈接.文獻[217]在數據集VOT2015上對典型的跟蹤算法進行了評測,其評測結果如表7所列出(性能前三的指標分別用粗體、粗體加斜體與花體顯示),所選取的評價指標共有4個,即跟蹤精度、平均失敗數、重疊率以及跟蹤速度.其中,為了保證算法在不同實現平臺上的速度等效,跟蹤速度指標采用文獻[227]所給出的等效濾波運算(Equivalent filter operations,EFO)進行衡量.

表6 目標跟蹤典型數據集Table 6 Typical data sets for object tracking

表7 典型跟蹤算法的性能對比Table 7 Performance comparison of typical tracking algorithms

從評測結果可以明顯看到,MDNet[128]、Deep-SRDCF[129]跟蹤器在跟蹤準確度、平均失敗數以及重疊指標三個跟蹤精度指標上,分別取得了第一和第二的成績,SODLT[130]跟蹤器在跟蹤準確度上與DeepSRDCF[129]跟蹤器并居第二,這三個跟蹤器都采用了基于CNN的特征表達方法來對跟蹤目標進行表觀建模,這說明基于學習的特征表達方法確實獲得了刻畫目標更加本質的特征.然而,盡管它們個別使用了GPU進行加速,其跟蹤速度仍然是跟蹤方法中最慢的一類,其根本原因在于它們的網絡架構的設計需要計算大量復雜的參數.相比而言,基于核的跟蹤方法在跟蹤速度上具有較大的優勢,但其跟蹤準確度稍遜于基于學習的方法.

2.4小結

目標跟蹤是在目標檢測的基礎上對運動目標的狀態進行連續估計的過程.本小節將目標跟蹤按其與檢測的關系的不同分為了生成式與判別式跟蹤方法,分別對其典型方法進行了歸納與總結,并給出了常用的評測數據集與典型算法的性能對比.其中,生成式跟蹤方法使用了豐富的圖像表示,在復雜環境中通常會得到更加精確的擬合結果.但其在參數估計上容易受到局部極值的影響,且該類方法忽略了背景信息,易受背景干擾,場景中出現與目標相似的背景時容易出現跟蹤漂移;判別式跟蹤方法克服了生成式跟蹤方法的缺陷,考慮了背景信息,對較大的遮擋和變化具有更強的魯棒性.然而,判別式跟蹤方法對訓練樣本的依賴程度相對較高,樣本的選取會極大地影響這類方法的性能表現.

3 結束語

運動目標的檢測和跟蹤主要用于獲取運動目標的位置、姿態、軌跡等基本運動信息,是理解服務對象或對目標實施控制的前提和基礎.在場景較固定、環境較簡單時,通常采用基于背景建模的方法,就能夠很好地進行運動目標的檢測與跟蹤任務.在動態背景下,環境較復雜時,一般需要對運動目標進行表觀建模,實現其檢測與跟蹤任務.

運動目標檢測與跟蹤的準確性與魯棒性,很大程度上依賴于精確的表觀建模.傳統的特征表達通常是依靠人類智慧、先驗知識,通過人工的總結設計用于視覺任務的特征,這類特征能夠較好地用于檢測與跟蹤任務,且實現比較容易,實時性能較強.近年來,眾多研究者針對人工特征的設計難度大、表現不夠本質等特性,紛紛提出了一系列基于自學習的特征,集中體現為基于深度學習的特征.這類方法通過對樣本的自學習,獲取更加本質的特征表達,極大地提升了檢測與跟蹤的精度.

然而,現有算法大多還只是停留在對特定場景下的運動目標的分析與建模,較難實現對復雜自然環境下運動目標的精確檢測與跟蹤.同時,其在算法實時性能上也較難保證.因此,復雜自然場景下的運動目標檢測與跟蹤及其實時性能仍然是需要努力的目標.筆者在這里根據自己的理解總結一下目標檢測與跟蹤的研究熱點以及發展趨勢:

1)場景信息與目標狀態的融合

場景信息包含了豐富的環境上下文信息,對場景信息進行分析及充分利用,能夠有效地獲取場景的先驗知識,降低復雜的背景環境以及場景中與目標相似的物體的干擾;同樣地,對目標的準確描述有助于提升檢測與跟蹤算法的準確性與魯棒性.總之,嘗試研究結合背景信息和前景目標信息的分析方法,融合場景信息與目標狀態,將有助于提高算法的實用性能.

2)多維度、多層級信息融合

為了提高對運動目標表觀描述的準確度與可信性,現有的檢測與跟蹤算法通常對時域、空域、頻域等不同特征信息進行融合,綜合利用各種冗余、互補信息提升算法的精確性與魯棒性.然而,目前大多算法還只是對單一時間、單一空間的多尺度信息進行融合,研究者可以考慮從時間、推理等不同維度,對特征、決策等不同層級的多源互補信息進行融合,提升檢測與跟蹤的準確性.

3)基于深度學習的特征表達

基于深度學習的特征表達具有強大的分層自學習能力,能深度地挖掘隱含在數據內部間的潛在關系.其中,基于卷積神經網絡的特征表達方法效果尤為突出,近年來取得了顯著的檢測效果[126-128].同時,深度學習框架相繼開源[92-98],為思想的碰撞與交融帶來了更多可能.然而,基于深度學習的特征表達方法也存在一些問題尚未定論,如深度學習的層數以及隱層節點個數如何確定,深度學習所學得特征的優劣如何評價等.因此,對基于深度學習的特征表達方法的進一步研究可能會產生突破性成果,最終將促進該領域的發展.

4)基于核的支持向量機分類方法

支持向量機(SVM)因其分類性能優良、操作實現簡單等特性,仍是目前倍受青睞的常用分類方法之一,尤其是核方法的引入更使其性能得以極大提升.然而,其最大的優點也是其最致命的弱點,其分類性能也會極大地依賴于核的選取,盡管目前已經開展了相當一部分的工作[133,135,137],但對于不同分類任務下的核方法的選取,仍然還沒有一個普遍通用的定論.因此,如何根據實際分類需求,選取合適的核方法仍需進一步探索.

5)高維數據的分類方法

隨著分類任務研究的發展,分類中所使用的視覺單詞的大小不斷地增加,其相應的圖像表達數據維度也與日俱增,傳統的單個分類器已經難以滿足高維數據的分類要求.目前,普遍的做法是將多個分類器集成在一起,以獲取分類性能更好的強分類器.然而,集成分類器方法也存在一些問題尚未定論,如子分類器如何選取與組合,如何在不降低分類性能的情況下使分類器數量盡可能少等.因此,研究子分類器模型的產生、調整以及整合,將有助于適應高維數據的分類任務.

References

1 Harold W A.Aircraft warning system,U.S.Patent 3053932,September 1962

2 Papageorgiou C P,Oren M,Poggio T.A general framework for object detection.In:Proceedings of the 6th IEEE International Conference on Computer Vision.Bombay,India: IEEE,1998.555-562

3 Viola P,Jones M J.Robust real-time object detection.International Journal of Computer Vision,2001,4:51-52

4 Lowe D G.Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision,2004,60(2):91-110

5 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA:IEEE,2005.886-893

6 Felzenszwalb P F,Girshick R B,McAllester D,Ramanan D. Object detection with discriminatively trained part-based models.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645

7 Everingham M,Van Gool L,Williams C K I,Winn J,Zisserman A.The pascal visual object classes(VOC)challenge. International Journal of Computer Vision,2010,88(2): 303-338

8 Rautaray S S,Agrawal A.Vision based hand gesture recognition for human computer interaction:a survey.Artificial Intelligence Review,2015,43(1):1-54

9 Gao Y,Spiteri C,Pham M T,Al-Milli S.A survey on recent object detection techniques useful for monocular visionbased planetary terrain classification.Robotics and Autonomous Systems,2014,62(2):151-167

10 Zhang S P,Yao H X,Sun X,Lu X S.Sparse coding based visual tracking:review and experimental comparison.Pattern Recognition,2013,46(7):1772-1788

11 Li X,Hu W M,Shen C H,Zhang Z F,Dick A,van den Hengel A.A survey of appearance models in visual object tracking.ACM transactions on Intelligent Systems and Technology(TIST),2013,4(4):Article No.58

12 Gao Shi-Bo,Cheng Yong-Mei,Xiao Li-Ping,Wei Hai-Ping. Recent advances of sparse representation for object detection.Acta Electronica Sinica,2015,43(2):320-332(高仕博,程詠梅,肖利平,韋海萍.面向目標檢測的稀疏表示方法研究進展.電子學報,2015,43(2):320-332)

13 Piccardi M.Background subtraction techniques:a review. In:Proceedings of the 2004 IEEE International Conference on Systems,Man and Cybernetics.The Hague,Holland: IEEE,2004.3099-3104

14 Bouwmans T.Traditional and recent approaches in background modeling for foreground detection:an overview. Computer Science Review,2014,11-12:31-66

15 Smeulders A W M,Chu D M,Cucchiara R,Calderara S,Dehghan A,Shah M.Visual tracking:an experimental survey.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(7):1442-1468

16 Gowsikhaa D,Abirami S,Baskaran R.Automated human behavior analysis from surveillance videos:a survey.Artificial Intelligence Review,2014,42(4):747-765

17 Huang Kai-Qi,Chen Xiao-Tang,Kang Yun-Feng,Tan Tie-Niu.Intelligent visual surveillance:a review.Chinese Journal of Computers,2015,38(6):1093-1118(黃凱奇,陳曉棠,康運鋒,譚鐵牛.智能視頻監控技術綜述.計算機學報,2015,38(6):1093-1118)

18 Yilmaz A,Javed O,Shah M.Object tracking:a survey. ACM Computing Surveys(CSUR),2006,38(4):Article No. 13

19 Hou Zhi-Qiang,Han Chong-Zhao.A survey of visual tracking.Acta Automatica Sinica,2006,32(4):603-617(侯志強,韓崇昭.視覺跟蹤技術綜述.自動化學報,2006,32(4): 603-617)

20 Wan Ying,Han Yi,Lu Han-Qing.The methods for moving object detection.Computer Simulation,2006,23(10): 221-226(萬纓,韓毅,盧漢清.運動目標檢測算法的探討.計算機仿真,2006,23(10):221-226)

21 Zhang Juan,Mao Xiao-Bo,Chen Tie-Jun.Survey of moving object tracking algorithm.Application Research of Computers,2009,26(12):4407-4410(張娟,毛曉波,陳鐵軍.運動目標跟蹤算法研究綜述.計算機應用研究,2009,26(12):4407-4410)

22 Niu Xiang-Jie,Huang Yong-Chun.Research on detection and tracking identification algorithm of weak moving target.Computer Simulation,2010,27(4):245-247(牛薌潔,黃永春.微弱運動目標的檢測與跟蹤識別算法研究.計算機仿真,2010,27(4):245-247)

23 Gutchess D,Trajkovics M,Cohen-Solal E,Lyons D,Jain A K.A background model initialization algorithm for video surveillance.In:Proceedings of the 8th IEEE International Conference on Computer Vision.Vancouver,BC,Canada: IEEE,2001.733-740

24 Wang H Z,Suter D.A novel robust statistical method for background initialization and visual surveillance.In:Proceedings of the 7th Asian Conference on Computer Vision(ACCV 2006).Hyderabad,India:Springer,2006.328-337

25 Colombari A,Fusiello A.Patch-based background initialization in heavily cluttered video.IEEE Transactions on Image Processing,2010,19(4):926-933

26 Lee B,Hedley M.Background estimation for video surveillance.In:Proceedings of the Image and Vision Computing New Zealand.Auckland,New Zealand,2002.315-320

27 McFarlane N J B,Schofield C P.Segmentation and tracking of piglets in images.Machine Vision and Applications,1995,8(3):187-193

28 Bouwmans T,El Baf F,Vachon B.Statistical background modeling for foreground detection:a survey.Handbook of Pattern Recognition and Computer Vision.Singapore: World Scientific Publishing,2010.181-189

29 Bouwmans T.Recent advanced statistical background modeling for foreground detection:a systematic survey.Recent Patents on Computer Science,2011,4(3):147-176

30 Butler D E,Bove V M Jr,Sridharan S.Real-time adaptive foreground/background segmentation.EURASIP Journal on Advances in Signal Processing,2005,2005:2292-2304

31 Kim K,Chalidabhongse T H,Harwood D,Davis L.Background modeling and subtraction by codebook construction. In:Proceedings of the 2004 IEEE International Conference on Image Processing.Singapore:IEEE,2004.3061-3064

33 De Gregorio M,Giordano M.Background modeling by weightless neural networks.In:Proceedings of the 2015 Workshops on New Trends in Image Analysis and Processing(ICIAP 2015).Genoa,Italy:Springer,2015.493-501

34 Toyama K,Krumm J,Brumitt B,Meyers B.Wallflower: principles and practice of background maintenance.In:Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE,1999.255-261

35 Ridder C,Munkelt O,Kirchner H.Adaptive background estimation and foreground detection using Kalman-filtering. In:Proceedings of the 1995 International Conference on Recent Advances in Mechatronics.Istanbul,Turkey:University,1995.193-199

36 Kim W,Kim C.Background subtraction for dynamic texture scenes using fuzzy color histograms.IEEE Signal Processing Letters,2012,19(3):127-130

37 Bouwmans T,Zahzah E H.Robust PCA via principal component pursuit:a review for a comparative evaluation in video surveillance.Computer Vision and Image Understanding,2014,122:22-34

38 Cevher V,Sankaranarayanan A,Duarte M F,Reddy D,Baraniuk R G,Chellappa R.Compressive sensing for background subtraction.In:Proceedings of the 10th European Conference on Computer Vision(ECCV 2008).Marseille,France:Springer,2008.155-168

39 Wren C R,Porikli F.Waviz:spectral similarity for object detection.In:Proceedings of the 2005 IEEE International Workshop on Performance Evaluation of Tracking and Surveillance.Breckenridge,Colorado,USA:IEEE,2005. 55-61

40 Baltieri D,Vezzani R,Cucchiara R.Fast background initialization with recursive Hadamard transform.In:Proceedings of the 7th IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS).Boston,USA: IEEE,2010.165-171

41 Bouwmans T,El Baf F,Vachon B.Background modeling using mixture of gaussians for foreground detectiona survey.Recent Patents on Computer Science,2008,1(3): 219-237

42 Lin H H,Liu T L,Chuang J H.A probabilistic SVM approach for background scene initialization.In:Proceedings of the 2002 International Conference on Image Processing. Rochester,New York,USA:IEEE,2002.893-896

43 Maddalena L,Petrosino A.The SOBS algorithm:what are the limits? In:Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).Providence,RI,USA:IEEE,2012.21-26

44 Maddalena L,Petrosino A.The 3dSOBS+algorithm for moving object detection.Computer Vision and Image Understanding,2014,122:65-73

45 Goyette N,Jodoin P M,Porikli F,Konrad J,Ishwar P. Changedetection.net:a new change detection benchmark dataset.In:Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).Providence,RI,USA:IEEE,2012.1-8

46 Barnich O,Van Droogenbroeck M.ViBe:a powerful random technique to estimate the background in video sequences.In: Proceedings of the 2009 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Taipei,China:IEEE,2009.945-948

47 Hofmann M,Tiefenbacher P,Rigoll G.Background segmentation with feedback:the pixel-based adaptive segmenter. In:Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).Providence,RI,USA:IEEE,2012.38-43

48 Sobral A,Bouwmans T.BGS Library:A Library Framework for Algorithm′s Evaluation in Foreground/Background Segmentation.London:CRC Press,2014.

49 Ke Y,Sukthankar R.PCA-SIFT:a more distinctive representation for local image descriptors.In:Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA: IEEE,2004.II-506-II-513

50 Mikolajczyk K,Schmid C.A performance evaluation of local descriptors.IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(10):1615-1630

51 Bay H,Ess A,Tuytelaars T,Van Gool L.Speeded-up robust features(SURF).Computer Vision and Image Understanding,2008,110(3):346-359

52 Tola E,Lepetit V,Fua P.Daisy:an efficient dense descriptor applied to wide-baseline stereo.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(5): 815-830

53 Zhu Q,Yeh M C,Cheng K T,Avidan S.Fast human detection using a cascade of histograms of oriented gradients. In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2006.1491-1498

54 Watanabe T,Ito S,Yokoi K.Co-occurrence histograms of oriented gradients for human detection.Information and Media Technologies,2010,5(2):659-667

55 Torralba A,Oliva A,Castelhano M S,Henderson J M.Contextual guidance of eye movements and attention in realworld scenes:the role of global features in object search. Psychological Review,2006,113(4):766-786

56 Jain A K,Ratha N K,Lakshmanan S.Object detection using Gabor filters.Pattern Recognition,1997,30(2): 295-309

59 Nguyen D T,Ogunbona P O,Li W Q.A novel shape-based non-redundant local binary pattern descriptor for object detection.Pattern Recognition,2013,46(5):1485-1500

60 Viola P,Jones M.Robust Real-time Object Detection,Technical Report CRL-2001-1,Cambridge Research Laboratory,University of Cambridge,United Kingdom,2001

61 Wu J X,Rehg J M.CENTRIST:a visual descriptor for scene categorization.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1489-1501

62 Bourdev L,Malik J.Poselets:body part detectors trained using 3D human pose annotations.In:Proceedings of the 12th IEEE International Conference on Computer Vision. Kyoto,Japan:IEEE,2009.1365-1372

63 Girshick R,Song H O,Darrell T.Discriminatively activated sparselets.In:Proceedings of the 30th International Conference on Machine Learning(ICML-13).Atlanta,GA,USA: ACM,2013.196-204

64 Kokkinos I.Shufflets:shared mid-level parts for fast object detection.In:Proceedings of the 2013 IEEE International Conference on Computer Vision(ICCV).Sydney,Australia: IEEE,2013.1393-1400

65 Wang X Y,Yang M,Zhu S H,Lin Y Q.Regionlets for generic object detection.In:Proceedings of the 2013 IEEE International Conference on Computer Vision(ICCV).Sydney,Australia:IEEE,2013.17-24

66 Yan S Y,Shan S G,Chen X L,Gao W.Locally assembled binary(LAB)feature with feature-centric cascade for fast and accurate face detection.In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Anchorage,Alaska,USA:IEEE,2008.1-7

67 Arman F,Aggarwal J K.Model-based object recognition in dense-range images-a review.ACM Computing Surveys(CSUR),1993,25(1):5-43

68 Yang M Q,Kpalma K,Ronsin J.A survey of shape feature extraction techniques.Pattern Recognition.IN-TECH,2008.43-90

69 Belongie S,Malik J,Puzicha J.Shape matching and object recognition using shape contexts.IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(4): 509-522

70 Kontschieder P,Riemenschneider H,Donoser M,Bischof H. Discriminative learning of contour fragments for object detection.In:Proceedings of the 2011 British Machine Vision Conference.Dundee,Scotland:British Machine Vision Association,2011.4.1-4.12

71 Ferrari V,Fevrier L,Jurie F,Schmid C.Groups of adjacent contour segments for object detection.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(1): 36-51

72 Chia A Y S,Rahardja S,Rajan D,Leung M K.Object recognition by discriminative combinations of line segments and ellipses.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,CA,USA:IEEE,2010.2225-2232

73 Tombari F,Franchi A,Di L.BOLD features to detect texture-less objects.In:Proceedings of the 2013 IEEE International Conference on Computer Vision(ICCV).Sydney,Australia:IEEE,2013.1265-1272

74 Jurie F,Schmid C.Scale-invariant shape features for recognition of object categories.In:Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2004.II-90-II-96

75 Dhankhar P,Sahu N.A review and research of edge detection techniques for image segmentation.International Journal of Computer Science and Mobile Computing(IJCSMC),2013,2(7):86-92

76 Rassem T H,Khoo B E.Object class recognition using combination of color SIFT descriptors.In:Proceedings of the 2011 IEEE International Conference on Imaging Systems and Techniques(IST).Penang,Malaysia:IEEE,2011. 290-295

77 Van De Weijer J,Schmid C,Verbeek J,Larlus D.Learning color names for real-world applications.IEEE Transactions on Image Processing,2009,18(7):1512-1523

78 Vadivel A,Sural S,Majumdar A K.An integrated color and intensity co-occurrence matrix.Pattern Recognition Letters,2007,28(8):974-983

79 Walk S,Majer N,Schindler K,Schiele B.New features and insights for pedestrian detection.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,CA,USA:IEEE,2010.1030-1037

80 Shechtman E,Irani M.Matching local self-similarities across images and videos.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Minneapolis,Minnesota,USA:IEEE,2007.1-8

81 Deselaers T,Ferrari V.Global and efficient self-similarity for object classification and detection.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,CA,USA:IEEE,2010.1633-1640

82 Tuzel O,Porikli F,Meer P.Human detection via classification on Riemannian manifolds.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Minneapolis,Minnesota,USA:IEEE,2007. 1-8

83 Burghouts G J,Geusebroek J M.Performance evaluation of local colour invariants.Computer Vision and Image Understanding,2009,113(1):48-62

84 Bosch A,Zisserman A,Mu~noz X.Scene classification using a hybrid generative/discriminative approach.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(4):712-727

85 Van De Weijer J,Schmid C.Coloring local feature extraction.In:Proceedings of the 9th European Conference on Computer Vision(ECCV 2006).Graz,Austria:Springer,2006.334-348

86 Khan F S,Anwer R M,van de Weijer J,Bagdanov A D,Vanrell M,Lopez A M.Color attributes for object detection. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA:IEEE,2012.3306-3313

87 Danelljan M,Khan F S,Felsberg M,van de Weijer J.Adaptive color attributes for real-time visual tracking.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,OH,USA: IEEE,2014.1090-1097

88 Kadir T,Zisserman A,Brady M.An affine invariant salient region detector.In:Proceedings of the 8th European Conference on Computer Vision(ECCV 2004).Prague,Czech Republic:Springer,2004.228-241

89 Lee T S,Mumford D,Romero R,Lamme V A F.The role of the primary visual cortex in higher level vision.Vision Research,1998,38(15-16):2429-2454

90 Lee T S,Mumford D.Hierarchical Bayesian inference in the visual cortex.Journal of the Optical Society of America A,2003,20(7):1434-1448

91 Jia Y Q,Shelhamer E,Donahue J,Karayev S,Long J,Girshick R,Guadarrama S,Darrell T.Caffe:convolutional architecture for fast feature embedding.In:Proceedings of the 22nd ACM International Conference on Multimedia.Orlando,Florida,USA:ACM,2014.675-678

92 Dean J,Corrado G,Monga R,Chen K,Devin M,Mao M,Ranzato M,Senior A,Tucker P,Yang K,Le Q V,Ng A Y.Large scale distributed deep networks.In:Proceedings of the 2012 Advances in Neural Information Processing Systems 25.Lake Tahoe,Nevada,USA:MIT Press,2012. 1223-1231

93 Abadi M,Agarwal A,Barham P,Brevdo E,Chen Z F,Citro C,Corrado G S,Davis A,Dean J,Devin M,Ghemawat S,Goodfellow I,Harp A,Irving G,Isard M,Jia Y Q,Jozefowicz R,Kaiser L,Kudlur M,Levenberg J,Mane D,Monga R,Moore S,Murray D,Olah C,Schuster M,Shlens J,Steiner B,Sutskever I,Talwar K,Tucker P,Vanhoucke V,Vasudevan V,Viegas F,Vinyals O,Warden P,Wattenberg M,Wicke M,Yu Y,Zheng X Q.TensorFlow:large-scale machine learning on heterogeneous distributed systems.arXiv: 1603.04467,2016.

94 Collobert R,Kavukcuoglu K,Farabet C.Torch7:a Matlablike environment for machine learning.In:Proceedings of Annual Conference on Neural Information Processing Systems.Granada,Spain:MIT Press,2011.

95 KrizhevskyA.CUDA-convnet:high-performance C++/CUDA implementation of convolutional neural networks[Online],available:http://code.google.com/p/cudaconvnet/,August 6,2016

96 Vedaldi A,Lenc K.MatConvNet-convolutional neural networks for MATLAB.arXiv:1412.4564,2014.

97 Goodfellow I J,Warde-Farley D,Lamblin P,Dumoulin V,Mirza M,Pascanu R,Bergstra J,Bastien F,Bengio Y.Pylearn2:a machine learning research library.arXiv: 1308.4214,2013.

98 The Theano Development Team.Theano:a Python framework for fast computation of mathematical expressions. arXiv:1605.02688,2016.

99 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7): 1527-1554

100 Hinton G E,Zemel R S.Autoencoders,minimum description length and Helmholtz free energy.In:Proceedings of the 1993 Advances in Neural Information Processing Systems 6.Cambridge,MA:MIT Press,1993.3-10

102 Lee H,Grosse R,Ranganath R,Ng A Y.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations.In:Proceedings of the 26th Annual International Conference on Machine Learning.,Canada:ACM,2009.609-616

103 Nair V,Hinton G E.3D object recognition with deep belief nets.In:Proceedings of the 2009 Advances in Neural Information Processing Systems 22.Vancouver,B.C.,Canada: MIT Press,2009.1339-1347

104 Eslami S M A,Heess N,Williams C K I,Winn J.The shape Boltzmann machine:a strong model of object shape. International Journal of Computer Vision,2014,107(2): 155-176

105 Salakhutdinov R,Hinton G.Deep Boltzmann machines.In: Proceedings of the 12th International Conference on Artificial Intelligence and Statistics.Clearwater Beach,Florida,USA:ACM,2009.448-455

106 Zheng Yin,Chen Quan-Qi,Zhang Yu-Jin.Deep learning and its new progress in object and behavior recognition. Journal of Image and Graphics,2014,19(2):175-184(鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展.中國圖象圖形學報,2014,19(2):175-184)

107 Xiong M F,Chen J,Wang Z,Liang C,Zheng Q,Han Z,Sun K M.Deep feature representation via multiple stack auto-encoders.In:Proceedings of the 16th Pacific-Rim Conference on Advances in Multimedia Information Processing(PCM 2015).Gwangju,South Korea:Springer,2015. 275-284

108 Yin H P,Jiao X G,Chai Y,Fang B.Scene classification based on single-layer SAE and SVM.Expert Systems with Applications,2015,42(7):3368-3380

109 Bai J,Wu Y,Zhang J M,Chen F Q.Subset based deep learning for RGB-D object recognition.Neurocomputing,2015,165:280-292

110 Su S Z,Liu Z H,Xu S P,Li S Z,Ji R R.Sparse auto-encoder based feature learning for human body detection in depth image.Signal Processing,2015,112:43-52

111 Hubel D H,Wiesel T N.Receptive fields,binocular interaction and functional architecture in the cat′s visual cortex. The Journal of Physiology,1962,160(1):106-154

112 Donahue J,Jia Y Q,Vinyals O,Hoffman J,Zhang N,Tzeng E,Darrell T.DeCAF:a deep convolutional activation feature for generic visual recognition.arXiv:1310.1531,2013.

113 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,OH,USA:IEEE,2014.580-587

114 He K M,Zhang X Y,Ren S Q,Sun J.Spatial pyramid pooling in deep convolutional networks for visual recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916

115 Girshick R.Fast R-CNN.arXiv:1504.08083,2015.

116 Ren S Q,He K M,Girshick R,Sun J.Faster R-CNN:towards real-time object detection with region proposal networks.arXiv:1506.01497,2015.

117 Zhu Y K,Urtasun R,Salakhutdinov R,Fidler S.SegDeepM: exploiting segmentation and context in deep neural networks for object detection.arXiv:1502.04275,2015.

118 Han X F,Leung T,Jia Y Q,Sukthankar R,Berg A C. MatchNet:unifying feature and metric learning for patchbased matching.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.3279-3286

119 Everingham M,Eslami S M A,Van Gool L,Williams C K I,Winn J,Zisserman A.The pascal visual object classes challenge:a retrospective.International Journal of Computer Vision,2015,111(1):98-136

120 Russakovsky O,Deng J,Su H,Krause J,Satheesh S,Ma S,Huang Z H,Karpathy A,Khosla A,Bernstein M,Berg A C,Li F F.ImageNet large scale visual recognition challenge. International Journal of Computer Vision,2015,115(3): 211-252

121 Sermanet P,Eigen D,Zhang X,Mathieu M,Fergus R,Le-Cun Y.OverFeat:integrated recognition,localization and detection using convolutional networks.arXiv:1312.6229,2013.

122 Lin M,Chen Q,Yan S C.Network in network.arXiv: 1312.4400,2013.

123 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.1-9

124 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.arXiv:1409.1556,2014.

125 Ouyang W L,Luo P,Zeng X Y,Qiu S,Tian Y L,Li H S,Yang S,Wang Z,Xiong Y J,Qian C,Zhu Z Y,Wang R H,Loy C C,Wang X G,Tang X O.DeepID-Net:multi-stage and deformable deep convolutional neural networks for object detection.arXiv:1409.3505,2014.

126 Maturana D,Scherer S.VoxNet:a 3D convolutional neural network for real-time object recognition.In:Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).Hamburg,Germany:IEEE,2015.922-928

127 He S F,Lau R W H,Liu W X,Huang Z,Yang Q X.SuperCNN:a superpixelwise convolutional neural network for salient object detection.International Journal of Computer Vision,2015,15(3):330-344

128 Nam H,Han B.Learning multi-domain convolutional neural networks for visual tracking.arXiv:1510.07945,2015.

130 Wang N Y,Li S Y,Gupta A,Yeung D Y.Transferring rich feature hierarchies for robust visual tracking.arXiv: 1501.04587,2015.

131 Kotsiantis S B,Zaharakis I D,Pintelas P E.Machine learning:a review of classification and combining techniques.Artificial Intelligence Review,2006,26(3):159-190

133 Lu Z W,Ip H H S.Image categorization with spatial mismatch kernels.In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Miami,Florida,USA:IEEE,2009.3974-404

134 Lazebnik S,Schmid C,Ponce J.Beyond bags of features: spatial pyramid matching for recognizing natural scene categories.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York,USA:IEEE,2006.2169-2178

135 Yang J C,Yu K,Gong Y H,Huang T.Linear spatial pyramid matching using sparse coding for image classification.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,Florida,USA:IEEE,2009.1794-1801

136 Kavukcuoglu K,Ranzato M A,Fergus R,LeCun Y.Learning invariant features through topographic filter maps.In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Miami,Florida,USA:IEEE,2009. 1605-1612

137 Gao S H,Tsang I W H,Chia L T,Zhao P L.Local features are not lonely-Laplacian sparse coding for image classification.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.3555-3561

138 Meshram S B,Shinde S M.A survey on ensemble methods for high dimensional data classification in biomedicine field.International Journal of Computer Applications,2015,111(11):5-7

139 Papageorgiou C,Poggio T.A trainable system for object detection.International Journal of Computer Vision,2000,38(1):15-33

140 Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors.In:Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing,China: IEEE,2005.90-97

141 Wu B,Nevatia R.Cluster boosted tree classifier for multiview,multi-pose object detection.In:Proceedings of the 11th IEEE International Conference on Computer Vision. Rio de Janeiro,Brazil:IEEE,2007.1-8

142 Wang Y,Jodoin P M,Porikli F,Konrad J,Benezeth Y,Ishwar P.CDnet 2014:an expanded change detection benchmark dataset.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus,OH,USA:IEEE,2014.393-400

145 Lin T Y,Maire M,Belongie S,Hays J,Perona P,Ramanan D,P,Zitnick C L.Microsoft COCO:common objects in context.In:Proceedings of the 13th European Conference on Computer Vision(ECCV 2014).Zurich,Switzerland:Springer,2014.740-755

146 Seber G A F,Lee A J.Linear Regression Analysis(Second Edition).New York:John Wiley&Sons,2003.

147 Comaniciu D,Ramesh V,Meer P.Real-time tracking of non-rigid objects using mean shift.In:Proceedings of the 2000 IEEE Conference on Computer Vision and Pattern Recognition.Hilton Head,SC,USA:IEEE,2000.142-149

148 Chen F S,Fu C M,Huang C L.Hand gesture recognition using a real-time tracking method and hidden Markov models.Image and Vision Computing,2003,21(8):745-758

149 Ali N H,Hassan G M.Kalman filter tracking.International Journal of Computer Applications,2014,89(9):15-18

150 Chang C,Ansari R.Kernel particle filter for visual tracking. IEEE Signal Processing Letters,2005,12(3):242-245

151 Comaniciu D,Ramesh V,Meer P.Kernel-based object tracking.IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(5):564-577

152 Rahmati H,Aamo O M,Stavdahl ?,Adde L.Kernel-based object tracking for cerebral palsy detection.In:Proceedings of the 2012 International Conference on Image Processing,Computer Vision,and Pattern Recognition(IPCV).United States:CSREA Press,2012.17-23

153 Melzer T,Reiter M,Bischof H.Appearance models based on kernel canonical correlation analysis.Pattern Recognition,2003,36(9):1961-1971

154 Yilmaz A.Object tracking by asymmetric kernel mean shift with automatic scale and orientation selection.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,Minnesota,USA:IEEE,2007.1-6

155 Hu J S,Juan C W,Wang J J.A spatial-color mean-shift object tracking algorithm with scale and orientation estimation.Pattern Recognition Letters,2008,29(16):2165-2173

156 Levey A,Lindenbaum M.Sequential Karhunen-Loeve basis extraction and its application to images.IEEE Transactions on Image Processing,2000,9(8):1371-1374

157 Brand M.Incremental singular value decomposition of uncertain data with missing values.In:Proceedings of the 7th European Conference on Computer Vision(ECCV 2002). Copenhagen,Denmark:Springer,2002.707-720

158 De La Torre F,Black M J.A framework for robust subspace learning.International Journal of Computer Vision,2003,54(1-3):117-142

159 Li Y M.On incremental and robust subspace learning.Pattern Recognition,2004,37(7):1509-1518

160 Skocaj D,Leonardis A.Weighted and robust incremental method for subspace learning.In:Proceedings of the 9th IEEE International Conference on Computer Vision.Nice,France:IEEE,2003.1494-1501

161 Ross D A,Lim J,Lin R S,Yang M H.Incremental learning for robust visual tracking.International Journal of Computer Vision,2008,77(1-3):125-141

162 Wang Q,Chen F,Xu W L,Yang M H.Object tracking via partial least squares analysis.IEEE Transactions on Image Processing,2012,21(10):4454-4465

163 Li X,Hu W M,Zhang Z F,Zhang X Q,Luo G.Robust visual tracking based on incremental tensor subspace learning. In:Proceedings of the 11th IEEE International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007. 1-8

164 Wen J,Li X L,Gao X B,Tao D C.Incremental learning of weighted tensor subspace for visual tracking.In:Proceedings of the 2009 IEEE International Conference on Systems,Man and Cybernetics.San Antonio,Texas,USA:IEEE,2009.3688-3693

165 Khan Z H,Gu I Y H.Nonlinear dynamic model for visual object tracking on grassmann manifolds with partial occlusion handling.IEEE Transactions on Cybernetics,2013,43(6):2005-2019

166 Chin T J,Suter D.Incremental kernel principal component analysis.IEEE Transactions on Image Processing,2007,16(6):1662-1674

167 Mei X,Ling H B.Robust visual tracking using l1minimization.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009. 1436-1443

168 Li H X,Shen C H,Shi Q F.Real-time visual tracking using compressive sensing.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA:IEEE,2011.1305-1312

169 Jia X,Lu H C,Yang M H.Visual tracking via adaptive structural local sparse appearance model.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA:IEEE,2012. 1822-1829

170 Dong W H,Chang F L,Zhao Z J.Visual tracking with multifeature joint sparse representation.Journal of Electronic Imaging,2015,24(1):013006

171 Hu W M,Li W,Zhang X Q,Maybank S.Single and multiple object tracking using a multi-feature joint sparse representation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(4):816-833

172 Zhang T Z,Liu S,Xu C S,Yan S C,Ghanem B,Ahuja N,Yang M H.Structural sparse tracking.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.150-158

173 Zhong W,Lu H C,Yang M H.Robust object tracking via sparse collaborative appearance model.IEEE Transactions on Image Processing,2014,23(5):2356-2368

174 Bai T X,Li Y F.Robust visual tracking with structured sparse representation appearance model.Pattern Recognition,2012,45(6):2390-2404

175 Zhang S P,Yao H X,Zhou H Y,Sun X,Liu S H.Robust visual tracking based on online learning sparse representation. Neurocomputing,2013,100:31-40

176 Wang N Y,Wang J D,Yeung D Y.Online robust nonnegative dictionary learning for visual tracking.In:Proceedings of the 2013 IEEE International Conference on Computer Vision(ICCV).Sydney,Australia:IEEE,2013. 657-664

177 Zhang X,Guan N Y,Tao D C,Qiu X G,Luo Z G.Online multi-modal robust non-negative dictionary learning for visual tracking.PLoS One,2015,10(5):657-664

178 Oza N C.Online bagging and boosting.In:Proceedings of the 2005 IEEE International Conference on Systems,Man and Cybernetics.Waikoloa,Hawaii,USA:IEEE,2005. 2340-2345

179 Valiant L.Probably Approximately Correct:Nature′s Algorithms for Learning and Prospering in a Complex World. New York,USA:Basic Books,2013.

180 Grabner H,Grabner M,Bischof H.Real-time tracking via on-line boosting.In:Proceedings of the 2006 British Machine Conference.Edinburgh,UK:British Machine Vision Association,2006.6.1-6.10

181 Liu X M,Yu T.Gradient feature selection for online boosting.In:Proceedings of the 11th IEEE International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007.1-8

182 AvidanS.Ensembletracking.IEEETransactionson Pattern Analysis and Machine Intelligence,2007,29(2): 261-271

183 Parag T,Porikli F,Elgammal A.Boosting adaptive linear weak classifiers for online learning and tracking.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,Alaska,USA:IEEE,2008.1-8

184 Visentini I,Snidaro L,Foresti G L.Dynamic ensemble for target tracking.In:Proceedings of the 8th IEEE International Workshop on Visual Surveillance(VS2008).Marseille,France:IEEE,2008.1-8

185 Okuma K,Taleghani A,De Freitas N,Little J J,Lowe D G. A boosted particle filter:multitarget detection and tracking.In:Proceedings of the 8th European Conference on Computer Vision(ECCV 2004).Prague,Czech Republic: Springer,2004.28-39

186 Wang J Y,Chen X L,Gao W.Online selecting discriminative tracking features using particle filter.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA: IEEE,2005.1037-1042

187 Avidan S.Support vector tracking.IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(8): 1064-1072

188 Williams O,Blake A,Cipolla R.Sparse Bayesian learning for efficient visual tracking.IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1292-1304

189 Tian M,Zhang W W,Liu F Q.On-line ensemble SVM for robust object tracking.In:Proceedings of the 8th Asian Conference on Computer Vision(ACCV 2007).Tokyo,Japan:Springer,2007.355-364

190 Yao R,Shi Q F,Shen C H,Zhang Y N,van den Hengel A.Part-based visual tracking with online latent structural learning.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,OR,USA:IEEE,2013.2363-2370

191 Bai Y C,Tang M.Robust tracking via weakly supervised ranking SVM.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Providence,RI,USA:IEEE,2012.1854-1861

192 Hare S,Saffari A,Torr P H S.Struck:structured output tracking with kernels.In:Proceedings of the 2011 International Conference on Computer Vision(ICCV).Barcelona,Spain:IEEE,2011.263-270

193 Tang F,Brennan S,Zhao Q,Tao H.Co-tracking using semisupervised support vector machines.In:Proceedings of the 11th IEEE International Conference on Computer Vision. Rio de Janeiro,Brazil:IEEE,2007.1-8

194 Zhang S L,Sui Y,Yu X,Zhao S C,Zhang L.Hybrid support vector machines for robust object tracking.Pattern Recognition,2015,48(8):2474-2488

195 Zhang X M,Wang M G.Compressive tracking using incremental LS-SVM.In:Proceedings of the 27th Chinese Control and Decision Conference(CCDC).Qingdao,China: IEEE,2015.1845-1850

196 Breiman L.Random forests.Machine Learning,2001,45(1):5-32

197 Saffari A,Leistner C,Santner J,Godec M,Bischof H.Online random forests.In:Proceedings of the 12th IEEE International Conference on Computer Vision(ICCVW).Kyoto,Japan:IEEE,2009.1393-1400

198 Leistner C,Saffari A,Bischof H.Miforests:multipleinstance learning with randomized trees.In:Proceedings of the 11th European Conference on Computer Vision(ECCV 2010).Crete,Greece:Springer,2010.29-42

199 Godec M,Leistner C,Saffari A,Bischof H.On-line random naive bayes for tracking.In:Proceedings of the 20th International Conference on Pattern Recognition(ICPR). Istanbul,Turkey:IEEE,2010.3545-3548

200 Wang A P,Wan G W,Cheng Z Q,Li S K.An incremental extremely random forest classifier for online learning and tracking.In:Proceedings of the 16th IEEE International Conference on Image Processing(ICIP).Cairo,Egypt:IEEE,2009.1449-1452

201 Lin R S,Ross D A,Lim J,Yang M H.Adaptive discriminative generative model and its applications.In:Proceedings of the 2004 Advances in Neural Information Processing Systems 17.Vancouver,British Columbia,Canada:MIT Press,2004.801-808

202 Nguyen H T,Smeulders A W M.Robust tracking using foreground-background texture discrimination.International Journal of Computer Vision,2006,69(3):277-293

203 Li X,Hu W M,Zhang Z F,Zhang X Q,Zhu M L,Cheng J.Visual tracking via incremental log-Euclidean Riemannian subspace learning.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage,Alaska,USA:IEEE,2008.1-8

204 Wang X Y,Hua G,Han T X.Discriminative tracking by metric learning.In:Proceedings of the 11th European Conference on Computer Vision(ECCV 2010).Heraklion,Crete,Greece:Springer,2010.200-214

205 Tsagkatakis G,Savakis A.Online distance metric learning for object tracking.IEEE Transactions on Circuits and Systems for Video Technology,2011,21(12):1810-1821

206 Xu Z F,Shi P F,Xu X Y.Adaptive subclass discriminant analysis color space learning for visual tracking.In:Proceedings of the 9th Pacific Rim Conference on Advances in Multimedia Information Processing(PCM 2008).Tainan,China:Springer,2008.902-905

207 Zhang X Q,Hu W M,Chen S Y,Maybank S.Graphembedding-basedlearningforrobustobjecttracking. IEEE Transactions on Industrial Electronics,2014,61(2): 1072-1084

208 Zha Yu-Fei,Bi Du-Yan,Yang Yuan,Dong Shou-Ping,Luo Ning.Transductive learning with global and local constraints for robust visual tracking.Acta Automatica Sinica,2010,36(8):1084-1090(查宇飛,畢篤彥,楊源,董守平,羅寧.基于全局和局部約束直推學習的魯棒跟蹤研究.自動化學報,2010,36(8):1084-1090)

209 Wu Y,Lim J,Yang M H.Online object tracking:a benchmark.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2411-2418

210 Wu Y,Lim J,Yang M H.Object tracking benchmark.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1834-1848

211 Collins R,Zhou X H,Teh S K.An open source tracking testbed and evaluation web site.In:Proceedings of IEEE International Workshop on Performance Evaluation of Tracking and Surveillance.Beijing,China:IEEE,2005.

212 Fisher R B.The PETS04 surveillance ground-truth data sets.In:Proceedings of the 6th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance.Prague,Czech Republic:IEEE,2004.1-5

213 Pellegrini S,Ess A,Schindler K,van Gool L.You′ll never walk alone:modeling social behavior for multi-target tracking.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009. 261-268

214 Leibe B,Schindler K,Van Gool L.Coupled detection and trajectory estimation for multi-object tracking.In:Proceedings of the 11th IEEE International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007.1-8

215 Milan A,Leal-Taixe L,Reid I,Roth S,Schindler K.MOT16: a benchmark for multi-object tracking.arXiv:1603.00831,2016.

216 Li L Z,Nawaz T,Ferryman J.PETS 2015:datasets and challenge.In:Proceedings of the 12th IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS).Karlsruhe,Germany:IEEE,2015.1-6

217 Kristan M,Matas J,Leonardis A,Felsberg M,Cehovin L,Fernandez G,Vojir T,Hager G,Nebehay G,Pflugfelder R,Gupta A,Bibi A,Lukezic A,Garcia-Martin A,Saffari A,Petrosino A,Montero A S.The visual object tracking VOT2015 challenge results.In:Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops.Santiago,Chile:IEEE,2015.564-586

218 Lee J Y,Yu W.Visual tracking by partition-based histogram backprojection and maximum support criteria.In: Proceedings of the 2011 IEEE International Conference on Robotics and Biomimetics(ROBIO).Karon Beach,Thailand:IEEE,2011.2860-2865

219 Vojir T,Noskova J,Matas J.Robust scale-adaptive meanshift for tracking.Pattern Recognition Letters,2014,49: 250-258

220 Zhang K H,Zhang L,Yang M H.Real-time compressive tracking.In:Proceedings of the 12th European Conference on Computer Vision(ECCV 2012).Florence,Italy: Springer,2012.864-877

221 Bao C L,Wu Y,Ling H B,Ji H.Real time robust l1tracker using accelerated proximal gradient approach.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA:IEEE,2012.1830-1837

222 Binh N D.Online boosting-based object tracking.In:Proceedings of the 12th International Conference on Advances in Mobile Computing and Multimedia.Kaohsiung,China: ACM,2014.194-202

223 Dinh T B,Vo N,Medioni G.Context tracker:exploring supporters and distracters in unconstrained environments. In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI: IEEE,2011.1177-1184

225 Hare S,Golodetz S,Saffari A,Vineet V,Cheng M M,Hicks S,Torr P.Struck:structured output tracking with kernels. IEEE Transactions on Pattern Analysis and Machine Intelligence,DOI:10.1109/TPAMI.2015.2509974

226 Babenko B,Yang M H,Belongie S.Robust object tracking with online multiple instance learning.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8): 1619-1632

227 Kristan M,Pflugfelder R,Leonardis A,Matas J,L,Nebehay G,T,G,A,Dimitriev A,Petrosino A,Saffari A,Li B,Han B,Heng C,Garcia C,D,G,Khan F S,Oven F,Possegger H,Bischof H,Nam H,Zhu J K,Li J J,Choi J Y,Choi J W,Henriques J F,van de Weijer J,Batista J,Lebeda K,K,Yi K M,Qin L,Wen L Y,Maresca M E,Danelljan M,Felsberg M,Cheng M M,Torr P,Huang Q M,Bowden R,Hare S,Lim S Y,Hong S,Liao S C,Hadfield S,Li S Z,Duffner S,Golodetz S,Mauthner T,Vineet V,Lin W Y,Li Y,Qi Y K,Lei Z,Niu Z H.The visual object tracking VOT2014 challenge results.In:Proceedings of the European Conference on Computer Vision(ECCV 2014),Lecture Notes in Computer Science.Zurich,Switzerland:Springer International Publishing,2015.191-217

尹宏鵬重慶大學自動化學院副教授. 2009年獲得重慶大學博士學位.主要研究方向為模式識別,圖像處理與計算機視覺.本文通信作者.

E-mail:yinhongpeng@gmail.com

(YIN Hong-PengAssociate professor at the College of Automation,Chongqing University.He received his Ph.D.degree from Chongqing University in 2009.His research interest covers pattern recognition,image processing,and computer vision.Corresponding author of this paper.)

陳 波重慶大學自動化學院碩士研究生.2015年獲得重慶大學學士學位.主要研究方向為深度學習,計算機視覺.

E-mail:qiurenbieyuan@gmail.com

(CHEN BoMaster student at the College of Automation,Chongqing University.He received his bachelor′s degree from Chongqing University in 2015.His research interest covers deep learning and computer vision.)

柴毅重慶大學自動化學院教授.2001年獲得重慶大學博士學位.主要研究方向為信息處理,融合與控制,計算機網絡與系統控制.

E-mail:chaiyi@cqu.edu.cn

(CHAI YiProfessor at the College of Automation,Chongqing University.He received his Ph.D.degree from Chongqing University in 2001.His research interest covers information processing,integration and control,and computer network and system control.)

劉兆棟重慶大學自動化學院博士研究生.主要研究方向為稀疏表示,機器學習.

E-mail:liuzhaodong@cqu.edu.cn

(LIUZhao-DongPh.D.candidate at the College of Automation,Chongqing University.His research interest covers sparse representation and machine learning.)

Vision-based Object Detection and Tracking:A Review

YIN Hong-Peng1,2CHEN Bo2CHAI Yi2LIU Zhao-Dong2

Vision-based object detection and tracking is an active research topic in image processing,computer vision,pattern recognition,etc.It finds wide applications in video surveillance,virtual reality,human-computer interaction,autonomous navigation,etc.This survey gives a detail overview of the history,the state-of-the-art,and typical methods in this domain.Firstly,object detection is divided into background-modeling-based methods and foreground-modelingbased methods according to the different data objects processed.Background modeling and feature representation are further summarized respectively.Then,object tracking is divided into generative and discriminative methods according to whether the detection process is involved.Statistical based appearance modeling is presented.Besides,discussions are presented on the advantages and drawbacks of typical algorithms.The performances of different algorithms on benchmark datasets are given.Finally,the outstanding issues are summarized.The future trends of this field are discussed.

Computer vision,object detection,object tracking,background modeling,appearance modeling

Manuscript December 14,2015;accepted May 16,2016

10.16383/j.aas.2016.c150823

Yin Hong-Peng,Chen Bo,Chai Yi,Liu Zhao-Dong.Vision-based object detection and tracking:a review. Acta Automatica Sinica,2016,42(10):1466-1489

2015-12-14錄用日期2016-05-16

國家自然科學基金(61203321),重慶市基礎科學與前沿研究技術專項重點項目(cstc2015jcyjB0569),中央高校基本科研業務專項基金(106112016CDJZR175511,106112015CDJXY170003),重慶市研究生科研創新項目(CYB14023)資助

SupportedbyNationalNaturalScienceFoundation of China(61203321),ChongqingNatureScienceFoundationofFundamentalScienceandFrontierTechnologies(cstc2015jcyjB0569),ChinaCentralUniversitiesFoundation(106112016CDJZR175511,106112015CDJXY170003),ChongqingGraduateStudentResearchInnovationProject(CYB14023)

本文責任編委劉躍虎

Recommended by Associate Editor LIU Yue-Hu

1.信息物理社會可信服務計算教育部重點實驗室(重慶大學)重慶4000302.重慶大學自動化學院重慶400044

1.Key Laboratory of Dependable Service Computing in Cyber Physical Society(Chongqing University),Ministry of Education,Chongqing 4000302.College of Automation,Chongqing University,Chongqing 400044

猜你喜歡
背景特征檢測
“新四化”背景下汽車NVH的發展趨勢
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
《論持久戰》的寫作背景
當代陜西(2020年14期)2021-01-08 09:30:42
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
晚清外語翻譯人才培養的背景
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 超级碰免费视频91| 日韩在线欧美在线| 69av在线| 国产精品美人久久久久久AV| 日韩国产综合精选| 亚洲愉拍一区二区精品| 亚洲系列中文字幕一区二区| 亚洲一区毛片| 亚洲第一天堂无码专区| 亚洲成A人V欧美综合天堂| 广东一级毛片| 欧美色伊人| 国产最新无码专区在线| 国产午夜精品鲁丝片| 国产资源免费观看| 一区二区三区精品视频在线观看| 经典三级久久| 亚洲无卡视频| 久久99久久无码毛片一区二区| 亚洲国产精品一区二区高清无码久久| 国产成在线观看免费视频| 中文字幕调教一区二区视频| 中文字幕久久精品波多野结| 黄片在线永久| 国产呦视频免费视频在线观看| 色综合五月婷婷| 波多野结衣一二三| 免费三A级毛片视频| 国产香蕉97碰碰视频VA碰碰看| 亚洲精品卡2卡3卡4卡5卡区| 色婷婷色丁香| 亚洲婷婷丁香| 午夜性爽视频男人的天堂| 亚洲中文无码av永久伊人| 成年av福利永久免费观看| 91丨九色丨首页在线播放| 国产精品第一区在线观看| 国产精品人人做人人爽人人添| 国产一级片网址| 日韩欧美国产区| 一区二区理伦视频| 无码'专区第一页| 激情爆乳一区二区| 日本高清视频在线www色| 正在播放久久| 高清无码手机在线观看| 亚洲,国产,日韩,综合一区| 影音先锋丝袜制服| 日本伊人色综合网| 国产高颜值露脸在线观看| 国产熟女一级毛片| 久久人妻xunleige无码| 被公侵犯人妻少妇一区二区三区 | 日韩精品一区二区三区swag| 亚洲女同一区二区| 久久综合一个色综合网| 亚洲精品欧美日韩在线| 欧美国产日韩另类| AⅤ色综合久久天堂AV色综合| 亚洲美女一级毛片| 天天综合色天天综合网| 国产成人高清精品免费| 视频二区中文无码| 亚洲天堂视频网站| 国产另类视频| 中文字幕伦视频| 青青草欧美| 久草视频精品| 亚洲欧州色色免费AV| 亚洲国产成人久久精品软件| 亚洲精品人成网线在线| 久久婷婷六月| 大学生久久香蕉国产线观看| 91精品久久久无码中文字幕vr| 欧美日本在线观看| 亚洲中文字幕无码mv| 国产91小视频| 亚洲精品国产综合99| 久久香蕉欧美精品| 美女无遮挡免费网站| 国产va欧美va在线观看| 99国产精品一区二区|