999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

行人重識別研究綜述

2018-01-17 09:06:14宋婉茹趙晴晴陳昌紅干宗良劉峰
智能系統學報 2017年6期
關鍵詞:深度特征方法

宋婉茹,趙晴晴,陳昌紅,干宗良,劉峰

在人的感知系統所獲得的信息中,視覺信息大約占到80%~85%。圖像與視頻等相關的應用在國民日常生活的地位日益突出。圖像處理學科既是科學領域中具有挑戰性的理論研究方向,也是工程領域中的重要應用技術。行人重識別(person re-identification)是近幾年智能視頻分析領域興起的一項新技術,屬于在復雜視頻環境下的圖像處理和分析范疇,是許多監控和安防應用中的主要任務[1-3],并且在計算機視覺領域獲得了越來越多的關注[4-8]。

1 行人重識別概述

1.1 背景與研究意義

行人重識別是指在已有的可能來源與非重疊攝像機視域的視頻序列中識別出目標行人。以圖1為例,因為這些鏡頭是無重疊的,所以視域完全不同,假設我們要對在攝像頭2中拍攝到的目標個體1在其他鏡頭中進行重識別,需要在其他的攝像頭中定位到這個目標,除了目標本身在不同鏡頭下外觀上的不同,還會受到其他個體的影響,比如在攝像頭2中目標個體1需要與攝像頭1中的4個目標個體都進行比較。因此研究該問題對公共安全和刑偵有著非常重要的現實意義。

圖1 多鏡頭監控中的行人重識別Fig. 1 Person Re-identification under different cameras

行人重識別的研究面臨著諸如圖像分辨率低、視角變化、姿態變化、光線變化以及遮擋等帶來的諸多挑戰。比如,1)監控視頻的畫面一般比較模糊,分辨率也比較低,如圖2(a)所示,所以利用人臉識別等方式無法進行重識別的工作,只能利用頭部之外的人體外觀信息進行識別,而不同行人的體型和衣著服飾有可能相同,這為行人重識別的準確度帶來了極大的挑戰;2)行人重識別的圖像往往采自于不同的攝像機,由于拍攝場景、攝像參數不同,行人重識別工作一般存在光照變化及視角變化等問題,如圖2(b)、(c)所示,這導致同一個行人在不同攝像機下存在較大的差異,不同行人的外貌特征可能比同一個人的外貌特征更相似;3)進行重識別的行人圖像可能拍攝于不同的時間,行人姿態、衣著會有不同程度的改變。此外在不同的光照條件下,行人的外觀特征也會有很大的差異,如圖2(c)。此外實際視頻監控下的場景非常復雜,很多監控場景人流量大,場景復雜,畫面很容易出現遮擋等情況,如圖2(d), 這種時候靠步態等特征就很難進行重識別。以上情況都給行人重識別的研究帶來了巨大的挑戰,因此目前的研究距離實際應用層面還有很大的距離。

圖2 行人重識別的困難與挑戰Fig. 2 Difficulty and challenge to person reidentification

1.2 研究現狀

相對于行人檢測來說,行人重識別的研究還不算成熟,但早在1996年,就有學者關注行人重識別問題[9],在2006年,行人重識別的概念第一次在CVPR上提出后[10],相關的研究不斷涌現。2007年Gray提出一個對于行人重識別的研究具有重大意義的數據庫VIPeR[11]。此后越來越多的學者開始關注行人重識別的研究。近些年,每年在國際頂級的會議以及頂級期刊上關于行人重識別的工作不在少數,如圖3。2012年,第一個行人重識別研討會在ECCV會議上召開;2013年,Gong等[12]出版第一本行人重識別的專著;2014年后,深度學習被應用到行人重識別領域;2016年,行人重識別迎來井噴式的增長,在各大計算機視覺的會議中出現了幾十篇相關論文,尤其是基于深度神經網絡的方法引起了廣泛的關注;同時,相關數據集在不斷地擴充,在各個數據集上的結果也獲得很大的提升,到目前,行人重識別問題已成為計算機視覺的一個熱點問題。

圖3 頂級會議收錄行人的論文篇數Fig. 3 Percentage of person re-ID papers on top conferences over the years

傳統的行人重識別從特征提取和距離度量學習兩個方面進行研究。2014年后,越來越多的研究者嘗試將行人重識別的研究與深度學習結合在一起[13-15],深度學習不僅應用于提取高層特征,也為度量學習的研究帶來了革新。即使深度學習在規模較小的數據集上的結果沒有很明顯的提升,但隨著研究方法的成熟以及較大規模的數據集的出現,深度學習在行人重識別領域越來越受研究者們青睞。行人重識別最開始是在基于圖片的情況下[13,16-19],即在每個數據集中每個攝像機視角下只有一幅或者幾幅行人圖像。但是視頻相較于圖像而言擁有更多信息,并且基于視頻的研究更符合視頻監控環境下的現實情況,因此我們很自然地考慮處理基于視頻的行人重識別問題。從2010年后,很多學者開始對基于視頻的行人重識別進行研究[20-24]。我們將按照基于圖像和基于視頻的行人重識別研究進行介紹。

1.3 評價標準

在研究中為了評價所提出的行人重識別方法的性能,通常將數據庫中的行人分為訓練集和測試集兩個部分,在測試時,第1個攝像機所拍攝的數據作為查找集,而第2個攝像機中的行人數據為候選集。目前常用的評價標準主要是CMC曲線(cumulated matching characteristic),當查找的對象在候選集中進行距離比較之后,將候選集中的行人按照距離的遠近由小到大進行排序,要查找的行人排序越靠前,則算法的效果越好。假設總共有N個行人,即共進行N次查詢和排序,每次查詢中目標行人的排序結果用表示,那么CMC曲線可以表示為

在近幾年,Zheng等[18]在論文中提出用平均正確率均值(mean average precision, mAP)來進行算法的評價標準,指出同時使用mAP (mean average precision)作為評價標準能更好地比較方法的優劣,目前已有文獻[20]將CMC曲線和mAP結合作為評價標準。

2 基于圖像的行人重識別研究

行人重識別算法大致可分為基于特征描述的方法和基于距離度量學習的方法兩類?;谔卣髅枋龅姆椒P注的是找到較好的描述行人外貌特征的表觀模型,基于度量學習的方法關注的是找到有效的行人特征相似度的度量準則。下面將分別介紹這兩類。

2.1 特征表達方法

基于特征表示的方法重點在于設計魯棒可靠的行人圖像特征表示模型,即能夠區分不同行人,同時能夠不受光照和視角變化的影響,將其主要分為以下幾類進行介紹, 典型特征總結見表1。

表1 典型特征的總結Table 1 A summary of typical features

1)底層視覺特征:這種方法基本上都是將圖像劃分成多個區域,對每個區域提取多種不同的底層視覺特征,組合后得到魯棒性更好的特征表示形式。最常用的就是顏色直方圖,多數情況下行人的衣服顏色結構簡單,因此顏色表示是有效的特征,通常用RGB、HSV直方圖表示。把RGB空間的圖像轉化成HSL和YCbCr顏色空間,觀察對數顏色空間中目標像素值的分布,顏色特征在不同光照或角度等行人識別的不適環境中具有一定的不變性。形狀特征如方向梯度直方圖[14](histogram of oriented gradients,HOG)以及局部特征,如局部不變特征–尺度不變特征變換(scale-invariant feature transform,SIFT)[15],SURF[25]和 Covariance描述子 ELF(ensemble of localized features)方法中,結合 RGB、YCbCr、HS顏色空間的顏色直方圖,具有旋轉不變性的Schmid和Gabor濾波器計算紋理直方圖。還有紋理特征、Haar-like Represention[26]、局部二值模式(LBP)[27]、Gabor濾波器[28]、共生矩陣(Co-occurrence Matrics)[29]。

2)中層語義屬性:可以通過語義信息來判斷兩張圖像中是否屬于同一行人,比如顏色、衣服以及攜帶的包等信息。相同的行人在不同視頻拍攝下,語義屬性很少變化。Layne等[30]采用15種語義來描述行人,包括鞋子、頭發顏色長短、是否攜帶物品等,分類器用SVM定義每幅行人圖像的以上語義屬性。結合語義屬性重要性加權以及與底層特征融合,最終描述行人圖像。Shi等[31]對圖像超像素劃分,最近分割算法對圖像塊定義多種特征屬性,顏色、位置和SIFT特征,效果有提高。

3)高級視覺特征:特征的選擇技術對行人再識別的識別率的性能進行提升,如Fisher向量[32]編碼;提取顏色或紋理直方圖,預先定義塊或條紋形狀的圖像區域;或者編碼區域特征描述符來建立高級視覺特征[33]。Gou等[34]用某種描述符對密集軌跡、紋理、直方圖進行編碼,突出重要信息。受到多視角行為識別研究和Fisher向量編碼的影響,一種捕獲軟矩陣的方法,即DynFV(dynamic fisher vector)特征和捕獲步態和移動軌跡的Fisher向量編碼的密集短軌跡時間金字塔特征被提出。Fisher向量編碼方法是首先用來解決大尺度圖像分類的方法,也能改善行為識別的性能。Karanam等[35]對行人的n幅圖像的每個圖像分成6個水平條帶,在每個條帶上計算紋理和顏色直方圖。在YCbCr、HSV、白化的RGB顏色空間計算直方圖建立顏色描述符,并用local fisher disrciminant analysis(LFDA)降維。Sugiyama等[36]學習出的矩陣把特征轉換到新的空間,LFDA能在嵌入過程中使特征的局部結構適用于圖像遮擋,背景變化和光照變化的情況,最后把計算變換空間中的特征向量的均值作為這個行人最終的特征向量表示。T. Matsukawa等[37]提出GOG(Gaussian Of Gaussian),把一幅圖像分成水平條帶和局部塊,每個條帶用一個高斯分布建模。每個條帶看作一系列這樣的高斯分布,然后用一個單一的高斯分布總體表示。GOG特征提取的方法好表現在用像素級特征的一個局部高斯分布來描述全局顏色和紋理分布,并且GOG是局部顏色和紋理結構的分層模型,可以從一個人的衣服的某些部分得到。

此外,深度學習也被應用于行人重識別的特征提取中,在AlexNet-Finetune中,開始在ImageNet數據集上預訓練的基于AlexNet結構的CNN,并用這個數據集對數據進行微調[38]。在微調過程中,不修改卷積層的權重,訓練后兩個全連接層。McLaughlin等[39]采用了類似的方法,對圖像提取顏色和光流特征,采用卷積神經網絡(CNN)處理得到高層表征,然后用循環神經網絡(RNN)捕捉時間信息,然后池化得到序列特征。T. Xiao等[40]對來自各個領域的數據訓練出同一個卷積神經網絡(CNN),有些神經元學習各個領域共享的表征,而其他的神經元對特定的某個區域有效,得到魯棒的CNN特征表示。

2.2 度量學習方法

由于攝像機的視角、尺度、光照、服飾與姿態變化、分辨率不同以及存在遮擋,不同攝像頭間可能會失去連續的位置和運動信息,使用歐氏距離、巴氏距離等標準的距離度量來度量行人表觀特征的相似度不能獲得很好的重識別效果,因此,研究者們提出通過度量學習的方法。該方法獲得一個新的距離度量空間,使得同一行人不同圖像的特征距離小于與不同人的距離。距離度量學習方法一般是基于馬氏距離(Mahalanobis distance)而進行。 2002年,Xing等[41]提出以馬氏距離為基礎的度量學習算法,根據樣本的類別標簽,將具有相同標簽的樣本組成正樣本對,反之組成負樣本對,并以此作為約束訓練得到一個馬氏矩陣,通過這樣學習到的距離尺度變換,使得相同的人的特征距離減小,而不同的人特征距離增大,以此開創了行人重識別中距離度量學習的先河。

目前在行人重識別研究中有一些普遍用于比較的度量學習算法,見表2。Weinberger等[42]提出LMNN算法,通過學習一種距離度量,使在一個新的轉換空間中,對于一個輸入xi的k個近鄰屬于相同的類別,而不同類別的樣本與xi保持一定大的距離。Dikmen等[43]對LMNN進行改進提出LMNNR方法,用所有樣本點的平均近鄰邊界來代替LMNN中不同樣本點所采用的各自近鄰邊界,相較于LMNN方法具有更強的約束效果。同一年,Guillaumin等[44]基于概率論提出了LDML算法。LDML算法基于邏輯回歸的思想, 使用S型函數來表示樣本對是否屬于等值約束的概率。Prosser等[28]將重識別問題抽象為相對排序問題,提出RankSVM學習到一個子空間,在這個子空間中相匹配的圖像有更高的排序。

表2 行人重識別研究中常用的度量學習的方法Table 2 A summary of metric learning

Zheng等[45]提出PRDC算法,相同人的圖像組成同類樣本對,不同行人目標之間組成異類樣本對,獲得度量函數對應的系數矩陣,優化目標函數使得同類樣本對之間的匹配距離小于異類樣本對之間的距離,對每一個樣本,選擇一個同類樣本和異類樣本與其形成三元組,在訓練過程通過最小化異類樣本距離減去同類樣本距離的和,得到滿足約束的距離度量矩陣。算法的基本思想在于增加正確匹配之間會擁有較短距離的可能性。2013年,Zheng等[46]在PRDC的基礎上提出了一種相對距離比較算法RDC,RDC采用Adaboost算法來減少對標注樣本的需求。

K?stinger等[27]提出KISSME算法,認為所有相似樣本對和不相似樣本對的差向量均滿足一個高斯分布,因此可以通過相似和不相似訓練樣本對分別大致計算出均值向量和協方差矩陣。給定兩個樣本組成的樣本對,作者分別計算該樣本對屬于相似樣本對的概率和該樣本屬于不相似樣本對的概率,并用其比值表示兩個樣本之間的距離,并把該距離變幻成馬氏距離的形式,而馬氏距離中的矩陣正好等于相似樣本對高斯分布協方差矩陣的逆減去不相似樣本對高斯分布協方差矩陣的逆。因此,該方法不要用迭代優化過程,適合用于大尺度數據的距離度量學習。

Pedagadi等[17]提出LFDA算法進行度量學習,該方法在進行特征提取的時候,首先提取不同特征的主要成分,然后拼接成特征向量。在距離度量學習上,該方法考慮不是對所有樣本點都給予相同的權重,考慮到了局部樣本點,應用局部Fisher判別分析方法為降維的特征提供有識別能力的空間,提高度量學習的識別率。

Liao等[47]提出了XQDA算法,這是KISSME算法在多場景下的推廣。XQDA算法對多場景的數據進行學習,獲得原有樣本的一個子空間,同時學習一個與子空間對應的距離度量函數,該距離度量函數分別用來度量同類樣本和非同類樣本。

此外,2015年,Zheng等[18]在之前研究的基礎上,提出了非對稱的距離度量模型CVDCA,解決了不重疊的攝像機下的環境不同所導致特征變換不同的問題。核方法(kernel method)是目前機器學習領域內的研究焦點之一,引入核方法可以更好地解決行人重識別的距離度量中的非線性問題。上文中作者將核方法引入距離度量學習中,提出KCVDCA算法[18],使得重識別結果有所提升。同樣,LFDA需要對高維散列矩陣進行PCA降維,降低了特征的表達能力,因此Xiong等[19]在LFDA的基礎上同樣引入核方法,提出了核局部Fisher判別分析(kernel local fisher discriminant analysis, kLFDA )算法,可避免求解高維的散列矩陣,既減少了運算量,又提高了重識別的準確率。深度學習的發展同樣帶來了度量方法的變革。Yi等[48]基于孿生卷積神經網絡提出了一種深度度量學習方法,取得了不錯的效果。Liu等[49]基于鄰域成分分析和深度置信網絡提出一種深度非線性度量學習方法。鄰域變換分析的作用是通過數據變換使訓練數據中每類數據的可識別樣本數目最大化。為了擴展鄰域變換分析中的數據變換,采用深度置信網絡來學習非線性特征變換。Li等[50]提出了一種深度學習框架來學習濾波器組,該濾波器組旨在對不同視角下的photometric變換進行自動編碼。Ding等[51]在損失函數和學習算法上做了改進,提出了一種基于深度神經網絡的可擴展距離驅動特征學習框架,取得了不錯的效果。

2.3 數據集

目前已存在很多基于圖像的行人重識別庫,具體見表3。

表3 常見的行人重識別數據集Table 3 Common dataset in person re-identification based on image

VIPeR數據集是行人重識別中使用最為普遍的數據集,也是最具挑戰性的數據集之一。VIPeR基于圖像,包含632個行人,1 264幅圖片,具有兩個相機視角,每個相機視角下包含一個行人的一副圖片。數據集中同一行人的兩個相機下的成像視角差距較大,大部分在90°以上。數據集中所有的圖像都歸一化到相同的分辨率128×48。

CUHK01也是具有較高的挑戰性的數據集。該數據集包含3 884幅圖像,971個行人。每個行人對應從兩個相機視角拍攝的4幅圖像,每個相機2幅。所有圖像分辨率均歸一化到160×60。

Market-1501數據集包含1 501個行人,超過30 000幅圖像,視頻圖像來源于6個攝像機。在大數據化的今天,以往的行人重識別數據集規模比較小,Market-1501的提出,彌補了這點

3 基于視頻的行人重識別研究

研究者們將行人重識別分為single-shot和multishot兩種。single-shot行人再識別是指每個行人在每個場景中只有一幅圖像,而multi-shot行人重識別主要是指每個行人在一個攝像機場景中對應一個視頻或者圖像序列中每個行人在每個場景有多幅圖像或圖像序列。與single-shot相比,該類方法可利用的信息較多,同時研究工作也更具有挑戰性:一方面,multi-shot包含較多冗余信息,如何提取行人圖像序列的關鍵部分是該類問題的難點;另一方面,如何有效地利用行人序列特征設計度量模型,也是該類問題需要考慮的部分。下面將介紹基于視頻序列的multi-shot行人重識別的方法。

3.1 傳統方法

由于攝像機拍攝的數據大多都是視頻信息,可以提供更多的信息幫助我們更好地進行行人匹配與再識別,因此隨著圖像的深入研究,基于視頻序列的行人再識別問題也應運而生。不少方法嘗試去提取視頻中的三維數據來進行外貌表征,如HOG3D[23]以及3DSIFT[60]等特征都是從廣泛使用的2-D擴展而來的。不少工作拿步態來研究基于視頻的行人再識別問題[61]。然而步態的獲取需要行人輪廓信息域者身體部位信息等,而沒有考慮行人的外貌信息。在遮擋較多、背景較復雜的監控環境下,如何提取到精確的行人輪廓或身體部位信息,仍是一個比較棘手的問題。Simonnet等[62]提出了用動態時間彎曲距離,對視頻序列進行度量學習。Wang等[21]提出一種基于時空描述子對行人進行重識別的方法,融合了HOG3D、步態能量圖(GEI)[63],提取視頻中光流強度值(FEP)進行步態周期檢測,進而提取出運動特征。提出通過運動能量強度,將視頻在時間上分割為不同的片段,并在匹配的過程中通過學習的方法訓練一個排序模型,自動地選擇最具判定性的片段。You等[24]提出top-push distance learning model(TDL),在特征提取上融合了顏色特征、LBP特征和HOG3D特征, 并通過改進了LMNN算法提出TDL算法。LMNN的目標是縮小附近正樣本間的差異,懲罰附近所有的負樣本;而TDL的目標是縮小正樣本間的差異,懲罰離得最近的負樣本;所以TDL比LMNN有更強的約束。

3.2 結合深度學習方法

近些年來,隨著深度學習發展,在基于視頻的行人重識別也有所應用。以往的數據集規模不大,因此Zheng等[22]建立了一個更大規模的基于視頻序列的行人重識別數據集MARS,并用深度學習的方法在此數據集上進行實驗,獲得了不錯的結果。未來的研究中,包括MARS在內的越來越多的大規模數據集將會作為基準數據集使用,將深度學習的方法引入到研究中,可以獲得較好的重識別結果。在基于視頻的行人重識別任務中,數據集是由行人序列構成,僅采用和基于圖像相同的研究方法不能很好地利用數據的時間信息。然而,由于行人重識別的數據集本身較為模糊,具有很大的挑戰性,傳統的光流、HOG3D以及步態等提取圖像運動信息的方法已經很難取得突破性進展。隨著CNN在基于圖像的任務中應用的成熟,部分研究者把其運用到了基于視頻的領域中,此外,為了彌補CNN只能處理空間維度信息的缺陷,獲取更多的時間信息,研究者們開始將RNN以及其改進模型LSTM等用于序列建模。不同于CNN的深度體現在網絡層數及參數規模上,RNN/LSTM的深度主要體現在時間節點上的深度。Yan等[64]提出提出了一種recurrent feature aggregation network (RFA-Net),先提取圖像的顏色特征和LBP特征,獲得基于圖像的特征,然后與LSTM結合,獲得基于序列的特征,充分利用序列數據集的信息。Mclaughlin等[39]提出將輸入的信息分為外觀特征和光流信息,將CNN和RNN網絡相結合,在CNN的基礎上加入RNN使得該網絡可以處理視頻序列,而在RNN層上加入時域池化層使得該網絡可以處理任意長度的視頻,進行聯合調參。Zhou等[65]提出利用深度神經網絡將特征學習和度量學習統一在一個框架下,進行端到端的訓練和推理。在特征學習階段,我們利用基于時序的注意模型(temporal attention model)來自動識別具有判別力的幀,使其在特征學習階段具有較大的權重;度量學習階段,我們首先逐個位置計算一對視頻片段的相似度量,然后利用基于空間的循環神經網絡模型(spatial recurrent model)來考慮空間位置的信息,使得相似度度量融合進了上下文信息而變得魯棒,目前都取得了不錯的效果。Liu等[66]提出基于是累積運動上下文的視頻人重識別,采用了時間和空間分離的兩路卷積網絡結構, 之后將獲得的表觀特征和運動特征融合,作為RNN的輸入,和目前現有的方法相比,該方法的rank-1非常高。

3.3 數據集

現已存在不少基于視頻序列的行人重識別數據庫,主要數據集見表4與圖4。

iLIDS-VID[21]數據集也是基于視頻情況下的行人重識別最為常用的數據集之一。該數據集包含319個行人。每個視頻序列包含23~192個行人圖像,平均幀數為73幀。由于該數據集在一個機場大廳拍攝,很多行人的外觀特征比較接近,兩個攝像機的成像效果比較差,成像視角和光照強度都存在較大差異,每個圖像中存在遮擋等不少干擾信息,因此是很有挑戰性的數據集,見圖2(a)。

表4 常見基于視頻序列的行人重識別數據集Table 4 Common dataset in person re-identification based on video

圖4 不同攝像機下的行人Fig. 4 Sample person under different cameras

PRID2011[69]數據集也是基于視頻的情況下行人重識別最為常用的數據集之一。該數據集由兩個攝像機拍攝,cam_a視角下有385組行人序列,cam_b視角下有749組行人序列,其中兩個視角下有200個行人相同,每個視頻序列包含5-675幀圖像,平均幀數100。與iLIDS-VID不同的是,該數據集的背景比較干凈,圖像中較少存在遮擋這種干擾信息,圖像的成像效果比較好。和iLIDS-VID類似,兩個攝像機成像視角和光照強度也存在很大的差異, 見圖 2(b)。

隨著深度學習在行人重識別中的應用,小規模的數據集逐漸難以滿足需求,因此近些年,在基于視頻序列的行人重識別研究中,也有大規模的數據集提出,如 MARS[22]。

4 發展趨勢

由于智能監控系統在國防建設、人民日常生活中的巨大應用前景,以及其所涉及的領域廣泛性、研究的巨大挑戰性,因此國內外很多研究者對該研究方向越來越重視。同時行人再識別問題也是很多知名的學術會議和國際期刊的重點研究方向之一,例如2016年,在CVPR上有關于行人重識別的文章就高達12篇。由于不斷對方法進行革新,行人重識別的研究在各大數據集上都取得了不錯的進展。

在基于圖像的行人重識別研究中,VIPeR作為最廣泛被采用的數據集,rank-1的準確率從2008年的12.0%[4]提高了2015年的63.9%[70];同時,CUHK01上的rank-1自2010—2016年,也取得了56.7%的提升。由于這些數據集的規模都不大,因此,即使使用了深度學習的方法,依然和手工設計出的特征以及度量方法取得的最好結果近似。但是在Market-1501上,深度學習的應用明顯提高了rank-1的準確率,從2015年該數據集剛開始應用到行人重識別的研究中時,rank-1的準確率從44.42%[20]提高到了2016年的76.04%[71]。

基于視頻的行人重識別研究起步相較圖像稍晚一點,但是近幾年來引起了很大的重視。早期的ETHZ數據集由于情況簡單,相對iLIDS-VID來說,情況復雜了很多,但rank-1準確率從2014年的23.3%[21]到在2016年McLaughlin等[39]提出的方法,可達到58%,在2017年的出現的文章,有研究者提出基于是累積運動上下文以及聯合CNN、RNN的AMOC方法[66],rank-1可以達到68.7%, 具體結果可見圖5;同樣Zheng等[22]利用對從數據集MARS上獲得的CNN特征進行微調運用到PRID2011上,使得其rank-1準確率可以達到77.3%。MARS數據集被提出,rank-1準確率可達到68.3%,同時,作者提出了另外一鐘補充評價標準mAP。2017年,Zhou等[65]提出利用深度神經網絡將特征學習和度量學習統一在一個框架下的方法,在iLIDS-VID、PRID2011以及MARS上的rank-1準確率分別達到了55.2%、79.4%以及70.6%,在MARS上的mAP也有所提高。

圖5 幾種重要方法在數據集iLIDS-VID上的結果對比Fig. 5 Person re-ID accuracy on iLIDS-VID by several principal methods

5 結束語

我們看出行人重識別的研究取得了一定的成果,研究日益趨向成熟。但是也可以看出,時至今日,行人重識別的研究依然很難實現很好的結果,對于環境惡劣的數據集,rank-1準確率以及mAP均不高,距離實際應用有更長的路要走。 因此本文通過對已存在的行人重識別的方法進行總結與比較,對常用數據集進行研究,我們認為:1)大規模行人視頻數據庫較少。有學者提出深度學習與傳統模式識別方法的最大不同在于它所采用的特征是從大數據中自動學習得到,而非采用手工設計。深度學習可以從大數據中自動學習特征的表示,可以包含成千上萬的參數。采用手工設計出有效的特征往往需要5~10年時間,而深度學習可以針對新的應用從訓練數據中很快學習到新的有效的特征。然而在VIPeR等常用數據集上,因為規模限制,即使結合深度學習等方法,目前來說沒有相較于傳統方法有較大突破。為了更好地結合CNN、RNN等方法,在今后的發展中大規模的數據集將會成為研究者的研究重點,另外更多的有實際研究價值的大規模數據集會被提出,適應研究發展的需要。2)在新技術的應用方面還非常不足。雖然引入了深度學習進行特征提取或分類,但多集中于深度判別式學習,而很少用到深度生成式模型。生成式模型的目的是找到一個函數可以最大的近似數據的真實分布。如果我們用f(X;θ)來表示這樣一個函數,那么找到一個使生成的數據最像真實數據的θ就是一個最大化概率估計的過程。深度網絡結構可以表達這樣一個復雜的函數,含有隱變量單元的生成式模型是使得模型更好地理解由訓練數據所決定的真實的世界的有效方式。DeepMind研究員們最近在arXiv上傳了一篇論文[71],提出了一種新的深度學習模型——記憶生成時序(generative temporal models with memory,GTMM),對廣泛使用于語音識別、圖像識別、語義理解等領域的循環神經網絡(RNN)性能帶來了顯著提升。該模型是在變分推理框架下開發的,提供了實用訓練方法和深入了解模型運作的方法,模型從序列的早期階段開始存儲信息,對不可預測的元素標示不確定性,并能有效地對已存儲的信息進行再利用。對于行人重識別來講,本身行人序列是時序的,但是由于視角、服飾、姿態、分辨率、遮擋、光線等諸多因素的影響,又有很多不確定因素,而且不能保證數據的充足性,這些問題采用GTMM模型都可以很好地解決。因此可以構建記憶生成時序模型GTMM對行人序列進行建模和再識別。

[1]LI Y, WU Z, KARANAM S, et al. Real-world re-identification in an airport camera network[C]//International Conference on Distributed Smart Cameras. Venice, Italy, 2014: 35.

[2]GONG S, CRISTANI M, YAN S, et al. Person re-identification [M]. London, UK: Springer, 2014.

[3]CAMPS O, GOU M, HEBBLE T, et al. From the lab to the real world: Re-identification in an airport camera network[J]. IEEE transactions on circuits and systems for video technology, 2016, (99): 540–553.

[4]GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]//European Conference on Computer Vision. Marseill, France,2008: 262–275.

[5]PROSSER B, ZHENG W S, GONG S, et al. Person re-identification by support vector ranking[C]//The British Machine Vision Conference. Aberystwyth, British, 2010: 1–21.

[6]JURIE F, MIGNON A. PCCA: a new approach for distance learning from sparse pairwise constraints[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012: 2666–2672.

[7]ZHAO R, OUYANG W, WANG X. Unsupervised salience learning for person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Oregon, USA,2013: 3586–3593.

[8]ZHENG W S, LI X, XIANG T. Partial person re-identifi cation[C]//IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4678–4686.

[9]CAI Q, AGGARWAL J K. Tracking human motion using multiple cameras[C]//International Conference on Pattern Recognition. Vienna, Austria, 1996: 68–72.

[10]GHEISSARI N, SEBASTIAN T B, HARTLEY R. Person re-identification using spatiotemporal appearance[C]//IEEE Conference on Computer Vision and Pattern Recog-nition. New York, USA, 2006: 1528–1535.

[11]GRAY D, BRENNAN S, TAO H. Evaluating appearance models for recognition, reacquisition, and tracking[J]. International journal of computer vision, 2007, 89(2): 56–68.

[12]GONG S G, CRISTANI M, YAN S C, et al. Person reidentification[J]. Advances in computer vision and pattern recognition, 2013, 42(7): 301–313.

[13]YI D, LEI Z, LI S Z, Deep metric learning for practical person re-identification[C]//International Conference on Pattern Recognition. Stockholm Waterfront, Sweden, 2014.

[14]OREOFEJ O, MEHRAN R, SHAH M. Human identity recognition in aerial images[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA,2010: 709–716.

[15]JUNGLING K, BODENSTEINER C, ARENS M. Person re-identification in multi-camera networks[C]//Computer Vision and Pattern Recognition Workshops. Colorado,USA, 2010: 709–716.

[16]ZHENG W S, GONG S G, XIANG T. Re identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.

[17]PEDAGADI S, ORWELL J, VELASTIN S, et al. Local fisher discriminant analysis for pedestrian re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3318–3325.

[18]CHEN Y C, ZHENG W S, LAI J H, et al. An asymmetric distance model for cross-view feature mapping in person re-identification[J]. IEEE transactions on circuits and systems for video technology, 2016(99): 1661–1675.

[19]XIONG F, GOU M, CAMPS O, et al. Person re-Identification using kernel-based metric learning methods[C]//European Conference on Computer Vision. Zurich,Switzerland, 2014:1–16.

[20]ZHENG L, SHEN L, TIAN L, et al. Scalable person reidentification: a benchmark[C]//IEEE International Conference on Computer Vision. Santiago, Chile, 2015; 1116–1124.

[21]WANG T, GONG S G, ZHU X, et al. Person re-identification by video ranking[C]//European Conference on Computer Vision. Zurich, Switzerland, 2014: 688–703.

[22]ZHENG L, BIE Z, SUN Y, et al. MARS: A video benchmark for large-scale person re-identification[M]//European Conference on Computer Vision. Springer International Publishing, 2016: 868–884.

[23]KLASER A, MARSZALEK M, SCHMID C. A spatiotemporal descriptor based on 3D-gradients[C]//British Machine Vision Conference 2008. Nottingham, British, 2008:152–159.

[24]YOU J, WU A, LI X, et al. Top-push video-based person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las vegas, USA, 2016:1345–1353.

[25]ZHAO R, OUYANG W, WANG X R. Unsupervised salience learning for person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3586–3593.

[26]BAK S, CORVEE E, BREMOND F, et al. Person re-identification using haar-based and DCD-based signature[C]//IEEE International Conference on Advanced Video and Signal Based Surveillance. Boston, USA, 2010: 1–8.

[27]KOESTINGER M, HIRZER M, WOHLHART P, et al.Large scale metric learning from equivalence constraint[C]//IEEE Conference on Computer Vision and Pattern Recognition. Providence, Rhode island, 2012: 2288–2295.

[28]ENGEL C, BAUMGARTNE P, HOLZMANN M, et al.Person re-identification by support vector ranking[C]//British Machine Vision Conference 2010. Aberystwyth,UK, 2010: 1–11.

[29]SCHWARTZ W R, DAVIS L S. Learning discriminative appearance-based models using partial least squares[C]//XXII Brazilian Symposium on Computer Graphics and Image Processing. Gramado, Brazil, 2010: 322–329.

[30]LAYNE R, HOSPEDALES T M, GONG S G. Person Reidentification by Attributes[C]//The British Machine Vision Conference. Nottingham, Park, 2014, 2(3): 8.

[31]SHI Z, HOSPEDALSE T M, XIANG T. Transferring a semantic representation for person re-identification and search[C]//Computer Vision and Pattern Recognition. Boston, USA, 2015: 4184–4193.

[32]MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]//International Conference on Computer Vision. Barcelona, Spain, 2012:413–422.

[33]CHEN D, YUAN Z, HUA G, et al. Similarity learning on an explicit polynomial kernel feature map for person reidentification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1565–1573.

[34]GOU M, ZHANG X, RATES-BORRAS A, et al. Person re-identification in appearance impaired scenarios[C]//British Machine Vision Conference. [S.l.], 2016: 1–48.

[35]KARANAM S, LI Y, RADKE R J. Person re-identification with discriminatively trained viewpoint invariant dictionaries[C]//IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4516–4524.

[36]SUGIYAMA, MASASHI. Local fisher discriminant analysis for supervised dimensionality reduction[J]. Machine learning, 2010, 78(1/2): 35–61.

[37]MATSUKAWA T, OKABE T, SUZUKI E, et al. Hierarch-ical gaussian descriptor for person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1363–1372.

[38]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems. Doha, Qatar, 2012: 1097–1105.

[39]MCLAUGHLIN N, RINCON J M, MILLER P. Recurrent Convolutional Network for Video-based Person Re-Identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2012: 51–58.

[40]XIAO T, LI H, OUYANG W, et al. Learning deep feature representations with domain guided dropout for person reidentification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1249–1258.

[41]XING E P, NG A Y, JORDAN M I, et al. Distance metric learning, with application to clustering with side-information[C]//International Conference on Neural Information Processing Systems. Vancouver: MIT Press, 2002:521–528.

[42]WEINBERGER K Q, SAUL K L. Distance metric learning for large margin nearest neighbor classification[J].Journal of machine learning research, 2009, 10(1):207–244.

[43]DIKMEN M, AKBAS E, HUANG T S, et al. Pedestrian recognition with a learned metric[J]. Lecture notes in computer science, 2010, 6495: 501–512.

[44]GUILLAUMIN M, VERBEEK J, SCHMID C. Is that you?Metric learning approaches for face identification[C]//Proceedings of the 12th International Conference on Computer Vision. Kyoto, Japan, 2009: 498–505.

[45]ZHENG W, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]//IEEE conference on Computer Vision and Pattern Recognition. Colorado Springs, USA, 2011: 649–656.

[46]ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.

[47]LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 2197–2206.

[48]YI D, LEI Z, LI S Z. Deep metric learning for practical person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA,2014: 34–39.

[49]LIU H, MA B, QIN L, et al. Set-label modeling and deep metric learning on person re-identification[J]//Neurocomputing, 2015 (151): 1283–1292.

[50]LI W, ZHAO R, XIAO T, et al. Deepreid: Deep filter pairing neural network for person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 152–159.

[51]DING S, LIN L, WANG G, et al. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern recognition, 2015, 48(10): 2993–3003.

[52]ZHENG W S, GONG S, XIANG T. Associating groups of people[C]//Proceedings of the British Machine Vision Conference. London, UK, 2009: 251–259.

[53]CHEN C L, XIANG T, GONG S. Multi-camera activity correlation analysis[C]//IEEE conference on Computer Vision and Pattern Recognition. Miami, USA, 2009:1988–1995.

[54]DONG S C, CRISTANI M, STOPPA M, et al. Custom pictorial structures for re-identification[C]//British Machine Vision Conference. Dundee, British. 2011: 159–165.

[55]LI W, ZHAO R, WANG X. Human re-identification with transferred metric learning[C]//Asian Conference on Computer Vision. Daejeon, Korea, Springer-Verlag, 2012:31–44.

[56]LI W, WANG X. Locally aligned feature transforms across views[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA,2013: 3594–3601.

[57]LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 152–159.

[58]DAS A, CHAKRABORTY A, ROY-CHOWDHURY A K.Consistent re-identification in a camera network[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 330–345.

[59]ROTH P M, HIRZER M, KOSTINGER M, et al. Mahalanobis distance learning for person re-identification[M].London: Person re-identification, 2014: 247–267.

[60]SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]//15th ACM International Conference on Multimedia. New York, USA, 2007: 357–360.

[61]BEDAGKAR-GALA A, SHAH S K. Gait-assisted person re-identification in wide area surveillance[C]//Asian Conference on Computer Vision. Singapore: Springer International Publishing, 2014: 633–649.

[62]SIMONNET D, LEWANDOWSKI M, VELASTIN S A, et al. Re-identification of pedestrians in crowds using dynamic time warping[C]//International Conference on Computer Vision. Springer-Verlag, 2012: 423–432.

[63]MAN J,BHANU B. Individual recognition using gait energy image[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(2): 316–322.

[64]YAN Y, NI B, SONG Z, et al. Person Re-identification via recurrent feature aggregation[C]//European Conference on Computer Vision. Springer International Publishing, 2016:701–716.

[65]ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: joint spatial and temporal recurrent neural networks in video-based person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, USA, 2017: 143–147.

[66]LIU H, JIE Z, JAYASHREE K, et al. Video-based person re-identification with accumulative motion context[J].IEEE transactions on circuits and systems for video technology, 2017(99): 23–29.

[67]ESS A, LEIBE B, GOOL L V. Depth and appearance for mobile scene analysis[C]//International Conference on Computer Vision. Rio de Janeiro, Brazil, 2007: 1–8.

[68]BALTIERI D, VEZZANI R, CUCCHIARA R. 3DPeS: 3D people dataset for surveillance and forensics[C]//Joint ACM Workshop on Human Gesture and Behavior Understanding. DOI: 10.1145/2072572.2072590.

[69]HIRZER M, BELEZNAI C, ROTH P M, et al. Person reidentification by descriptive and discriminative classification[C]//Scandinavian Conference on Image Analysis.Springer Berlin Heidelberg, 2011: 91–102.

[70]GARCIA J, MRTINEL N, MICHELONI C, et al. Person re-identification ranking optimisation by discriminant context information analysis[C]//IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1305–1313.

[71]VARIOR R R, HALOI M, WANG G. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision.Amsterdam, The Netherlands, 2016: 791–808.

[72]GEMICI M, HUANG C, SANTORO A, et al. Generative temporal models with memory[J]. arXiv preprint arXiv:1702.04649, 2017.

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产大全韩国亚洲一区二区三区| 91精品国产丝袜| 男女男精品视频| 97国产精品视频人人做人人爱| 99精品国产高清一区二区| 97se综合| 久久精品人人做人人爽电影蜜月 | 四虎精品黑人视频| 亚洲男女在线| 日韩精品久久无码中文字幕色欲| 精品人妻一区无码视频| 久久永久精品免费视频| 在线观看国产小视频| 欧美一区日韩一区中文字幕页| 无码一区二区三区视频在线播放| 伊人精品视频免费在线| 在线观看亚洲人成网站| 99在线小视频| 午夜电影在线观看国产1区| 伊人精品视频免费在线| 黄色成年视频| 园内精品自拍视频在线播放| 亚洲国产欧美国产综合久久| 欧美成人午夜在线全部免费| 国产高清无码第一十页在线观看| 久久久久久久久18禁秘| 亚洲va欧美ⅴa国产va影院| 欧美日韩午夜视频在线观看| 欧美日韩精品在线播放| 国产又色又刺激高潮免费看| 国产高清不卡| 国产精品播放| 波多野结衣一区二区三视频| 亚洲精品手机在线| 国产精品福利社| 欧美色香蕉| 精品国产电影久久九九| av一区二区人妻无码| 午夜毛片免费看| 女人天堂av免费| 国产极品美女在线观看| 国产精品免费入口视频| 国产日本欧美在线观看| 精品人妻AV区| 日本影院一区| 色偷偷男人的天堂亚洲av| 99热国产在线精品99| 永久免费精品视频| 蜜桃视频一区| 午夜啪啪网| 亚洲成aⅴ人片在线影院八| 内射人妻无码色AV天堂| 亚洲天堂视频网站| 女人18毛片水真多国产| 茄子视频毛片免费观看| 国产亚洲欧美日韩在线观看一区二区| 岛国精品一区免费视频在线观看| 亚洲一区二区日韩欧美gif| 国产欧美自拍视频| 91视频首页| 91无码国产视频| 欧美综合一区二区三区| 乱人伦视频中文字幕在线| 99精品在线视频观看| 国产一级α片| 国产香蕉在线视频| 伊人久久大香线蕉综合影视| 在线观看亚洲精品福利片| 91在线视频福利| 免费观看亚洲人成网站| 亚洲欧美日本国产专区一区| 色综合色国产热无码一| 国内精品视频在线| 日本黄色a视频| 成人国产精品2021| 91成人免费观看| 一级不卡毛片| 97视频免费在线观看| 国产微拍精品| 国产精品无码一二三视频| 国产91麻豆视频| 国产丝袜91|