黃業文, 許智聰, 單 純
(廣東技術師范大學 電子與信息學院, 廣東 廣州 510665)
行人重識別(Person re-identification,Re-ID)是將被不同攝像頭捕捉到的特定的人進行檢索,由于其在監控系統中的實際重要性,重新識別技術引起了廣泛的研究與關注,這對安全監控和行人行為分析具有重要意義。當前行人重識別被認為是一個圖像檢索的子問題。行人重識別的主要作用是給定一個監控行人圖像,然后通過檢索其他監控拍的行人圖像,找出該行人在其他監控下的圖像。在監控視頻中,由于相機分辨率和拍攝角度的原因,人臉有可能被遮擋或者比較模糊,通常情況下無法得到質量比較高的人臉圖片。所以,在當人臉識別失效的情況下,行人重識別這一技術就成了非常重要的替代技術。因為行人重識別的關鍵技術是跨攝像頭追蹤同一行人的行走軌跡,所以如何從不同攝像頭監控圖像中準確識別同一行人是行人重識別研究的主要問題。
然而,由于一個人在不同攝像機之間的類內變化很大,如遮擋、光照、視點和姿態,因此,在計算機視覺領域,重新識別仍然是一個具有挑戰性的任務。如何提取特征和匹配特征是行人重識別的關鍵問題。2016年之前的行人重識別大量的工作是基于傳統計算機視覺方法,利用手工提取一些低級視覺特征[1-5],進行行人重識別的研究。
行人重識別雖然已經在學術界研究多年,但是自2016年以來,隨著深度學習在許多領域的成功應用,研究人員開始嘗試將深度學習應用到行人重識別上,這項研究才取得比較好的成果。深度學習不僅應用于提取高級特征,也為度量學習的研究帶來了新的思路。雖然當前深度學習在規模較小的數據集上的結果沒有很明顯的提升,但是隨著越來越多新的性能更好的模型的提出以及大規模的數據集的出現,許多研究者投入到深度學習應用在行人重識別這一研究上。目前,這些深度學習的方法主要研究思路為采用深度學習方法進行特征向量提取,再利用度量學習對特征向量進行判別,將圖像之間的差異量化,并使用大量標注數據對模型進行訓練迭代。主要的流程是從待查詢(Quary)的行人圖像中利用神經網絡提取特征,然后將提取的特征和其他攝像頭拍攝的圖像(Gallery)進行相似度對比,從中得出最為相似的圖像并輸出結果,如圖1所示。將基于深度學習的方法分為有監督學習、弱監督學習和跨模態學習3個部分,并且就行人重識別目前的常用數據集進行了一些比較及其最優的模型分析。
近年來,隨著深度學習在許多領域的成功應用,研究人員開始嘗試將深度學習應用到行人重識別上,并已取得一定的成果。其主要研究思路為采用深度學習方法進行特征向量提取,再利用度量學習對特征向量進行判別,將圖像之間的差異進行量化,并使用大量標注數據對模型進行訓練迭代?,F有的依賴于深度學習的行人重識別模型絕大部分采用的是有監督方式,即訓練數據需要人工打上標簽,然后進行訓練。目前在這種有監督的方式下的識別率可以做得很高。但是,這樣的方式需要消耗大量的人力物力,而且大多數的圖像數據都比較少或者沒有標簽,因此,弱監督的方式被提出來。這種方式不需要大量的標簽數據,由于其目前識別率較低且貼近現實生活,現在也是熱門的研究領域。弱監督學習包括在只有少量標簽的數據集中進行特征提取的半監督學習,以及在無任何標簽的數據集中特征提取的無監督學習。
面對復雜的實際場景,有研究人員開始進入到跨模態相關的研究中。跨模態學習是指待處理的行人圖像不同于在正常太陽光下的攝像頭拍攝的RGB圖像,而是一些其他模態的圖像。將現有的跨模態學習分為可見光-紅外行人重識別、深度圖像行人重識別、文本-圖像行人重識別和跨分辨率行人重識別4種類別。
有監督學習是一直以來的研究熱點,依據充分標簽的實驗數據,提取具有判別力的特征數據,依據提取的特征來區別行人,從而達到識別的目的。現有的行人重識別的模型,將它們分為特征學習、度量學習和排序學習。
1.1.1 特征學習
特征學習,即表示特征學習,特征學習是對復雜的原始數據化繁為簡,把原始數據的無效信息剔除,把有效信息更有效地進行提煉,形成特征,它的目的是提取圖像特征,便于圖像之間差異的量化。隨著深度學習的發展,廣泛使用卷積神經網絡作為特征提取器,提取圖像或者視頻的特征向量。
在圖像分類領域中,已有一些較為有效的特征提取方法[6-8],因此在行人重識別研究的初期,一些學者將行人重識別轉換為分類問題進行研究,全局特征學習是主要的研究方法。全局特征學習為每一個行人圖像提取全局特征向量。全局特征學習比較簡單,Wang等[9]提出了一種結合單張圖像特征的方法,對輸入的圖像對,分別使用獨立的卷積神經網絡提取各自的特征,并抽取特征提取過程中的特征圖進行融合,這種方法結合了提取單張圖像特征的高效率以及CIR方法對圖像間信息提取的優勢。Chen等[10]將注意力機制和全局特征學習結合起來,提出了一種自我批判的注意學習方法進行行人重識別。全局特征提取方法雖然能較好地提取圖像特征,但是由于行人重識別的數據集存在著遮擋、部位不齊等問題,直接提取全局特征并不能達到較好的效果,由此,有學者把局部特征學習用于行人重識別。
局部特征學習是從圖像局部區域中抽取的特征,包括邊緣、角點、線、曲線和特別屬性的區域等。早期的一些方法,將圖像按照預設的劃分方式進行劃分,但當使用從不同角度拍攝的數據時,固定的分割方式并不能很好地將圖像中身體各部位分開,圖像間對應區域包含的部位也不能很好地對應。Sun等[11]提出了一個基于零件的卷積基線(PCB)來學習零件信息的特征。PCB采用簡單的統一劃分策略,將部分信息特征組裝成卷積描述符。Li等[12]提出一個多尺度上下文感知網絡(MSCAN)來捕獲行人特征學習的上下文知識,通過在每一層疊加多尺度卷積,可以較好地捕獲局部上下文知識。近年來,有學者丟棄以往基于卷積神經網絡的框架,使用別的框架來實現算法的提升。He等[13]首次提出基于視覺Transformer(ViT)的行人重識別框架,能簡單自然地將相機和視點等非可視化信息編碼為矢量嵌入到訓練過程,并在多個數據集上表現出優秀性能,顯示此框架具有較大的開發潛能。
1.1.2 度量學習
對于行人重識別來說,特征學習是把行人圖像特征提取,但是還需要應用度量學習把提取的特征進行量化對比、分析相似度,從而識別行人。以前的度量學習是構造矩陣,現在深度學習框架下的度量學習主要體現在損失函數上,用來更新網絡參數,從而提高圖像的識別度。目前主流研究的損失函數主要是對比損失函數、分類損失函數和三元組損失函數。
對比損失函數:對比損失函數用于訓練孿生網絡(Siamese network)[14],孿生網絡的輸入是一組共2張的圖片(Ia和Ib),設定這一組照片可以為同一行人,也可以為不同行人。每一組訓練圖片都有一個標簽y,其中,y=1表示2張圖片屬于同一個行人,稱之為正樣本組,反之y=0表示它們屬于不同行人,稱之為負樣本組,因此,變量y值為+1或-1,作為圖像組的標簽,引入閾值margin,對圖像對距離加以約束。最后對比損失函數:
(1)
其中,dij表示2個輸入樣本xi和xj的嵌入特征之間的歐幾里德距離。δij是一個二元標簽指示符(當xi和xj屬于同一身份時,δij=1,否則δij=0),ρ是訓練閾值參數。
分類損失函數[15]:分類損失函數又稱ID損失函數,訓練集中行人的ID數為網絡的類別數,特征層后接一個分類全連接層,經過Softmax激活函數計算交叉熵損失。測試階段使用倒數第二層的特征向量進行檢索,分類全連接層丟棄。每批中的訓練樣本數為n,給定一個標簽為yi的輸入圖像xi,通過交叉熵計算ID損失函數。
(2)
三元組損失函數[16]:三元組損失函數基本思想是正樣本對之間的距離應該比負樣本對之間的距離小于預定義的余量。通常,一個三元組包含一個固定樣本xi、一個相同身份的正樣本xj和一個不同身份的負樣本xk。帶有閾值參數的三元組損失表示為
ltri(i,j,k)=max(ρ+dij-dik,0)
(3)
其中,ρ是訓練閾值參數,dij表示正樣本的歐幾里得距離,dik表示負樣本的歐幾里得距離。三元組損失函數結構簡單,如果直接使用,會造成網絡鑒別能力下降。由此Hermans等[17]指出,讓網絡一直學習簡單的樣本組合會限制網絡的泛化能力,針對這一問題,提出三元組損失函數的改進方法,通過選擇一個批次中較難區分的正樣本和負樣本,來對三元組損失函數進行訓練,加強三元組損失函數對于困難樣本對的挖掘能力,從而提升三元組損失函數的性能。圖2為3種損失函數的示意圖。
1.1.3 排序學習
除了對于特征學習與度量學習的探索,近年來,一些研究學者將主要精力集中于對行人重識別結果排序的優化上,即結果重排序(Re-ranking)。一般情況下,給定一張目標圖像,通過提取圖像特征并計算目標圖像與待匹配圖像(Gallery)的距離,得到匹配圖像的排序結果,根據該結果計算Rank-n Accuracy,并繪制CMC曲線。重排序就是利用相關方法,對當前的排序結果進行優化,從而提升行人重識別的精度,如圖3。
Luo等[18]推導出了一種名為Local Blurring Re-ranking的輕量級重排序方法,采用聚類結構來改進鄰域相似性度量。考慮到Query的差異,一些方法設計了Query自適應檢索策略來代替統一搜索引擎以提高性能。Zhou等[19]提出了一種新穎的在線局部度量自適應算法,用于在測試階段為每個探針學習專用的馬氏度量。這種方法僅使用負樣本進行度量適應,這在實際情況下是實用的。它在很大程度上減少了現有Re-ID方法對大量正訓練數據的需求,并且只產生最小的計算成本來執行在線訓練。Ye等[20]提出了一種基于KNN的排序聚合方法,分別提取圖像的全局特征與局部特征,分別根據兩者得到結果的排序,通過對2種特征的結合,利用最近鄰算法對排序結果進行優化。Li等[21]率先提出了利用最近鄰算法對行人重識別的排序結果進行優化的方法。通過相關方法對排序結果進行優化,在沒有大幅增加計算量與參數量的前提下,有效地提升了行人重識別算法的精度,同時重排序方法可以直接應用到其他高精度的行人重識別算法中,是一種提升模型性能的有效方法,同時也是未來的一個熱門研究方向。
盡管現在有監督的行人重識別的識別率已經很高了,但是人工打標簽是一件費時費力的事。因此,越來越多的研究人員投入到更接近實際情況的少標簽或者無標簽的弱監督學習中。此類學習方法是對于輸入數據少量標記或者無標記,也沒有確定的結果。因為輸入的樣本數據類型未知,所以需要根據樣本間的相似性來對樣本集進行分類,然后用相關方法使得樣本數據類內差距最小化,類間差距最大化。弱監督學習分為半監督學習和無監督學習2種情況。
1.2.1 半監督學習
近年來,研究者開始關注標簽少的半監督學習中,研究如何利用少量的標簽應用在行人重識別中。研究者面臨的問題是:如何學習訓練中的少量的標簽的特征數據,并且應用在測試集中的大量無標簽的數據,并且建立優化模型。由于標注數據有限,Bak等[22]提出一種新穎學習方法來學習度量,假設一個度量可以分成獨立的顏色和紋理分量而不會損失性能?;诖?,對于紋理,該方法只學習深度顏色不變的特征,另外學習色塊的顏色度量來捕獲特定相機對的顏色變化。Wang等[23]提出了一種新的網絡由一個共享的特征提取主干和2個分支組成,分別用于攝像機內和攝像機間的學習。根據ICS的逐相機標記特性,提出了聯合學習相機特有的非參數分類器和混合挖掘五元組損失的相機內學習方法。設計的組件充分利用了每個相機的標簽,因此,該方法的相機內學習部分只比大多數現有的ICS方法性能更好。
1.2.2 無監督學習
無監督學習使用的數據是無標簽的,因此更具有適應性和魯棒性。Fu等[24]提出了一種自相似分組(Self-similarity Grouping, SSG)方法,該方法利用未標記樣本的潛在相似性(從整體到局部),從不同的視圖自動構建多個聚類。然后給這些獨立的集群分配標簽,這些標簽作為偽身份來監督培訓過程。Ye等[25]設計了一個動態圖匹配(DGM)框架,通過從中間估計的標簽學習更好的相似性度量,迭代地細化圖結構,從而改進標簽估計過程。此外,還設計了一種正加權策略來細化中間標簽,提高了對不準確匹配輸出和噪聲初始訓練數據的魯棒性。為了進一步提高性能,Liao等[26]提出的QAConv方法在不需要進一步遷移學習的情況下,具有較好的匹配效果,且具有比現有基線更好的泛化能力。一些研究還嘗試了局部特征學習,Yang等[27]提出了一個基于patch的無監督學習框架(PAUL),該框架設計了PatchNet來從人臉圖像的特征圖中抽取patch,并在一個沒有標記的重新標識數據集上有區別地學習patch特征。為此,還開發了一種補丁鑒別特征學習損耗,為在無標記的RE-ID數據集上學習具有鑒別性的補丁特征提供了有效的指導。
由于數據標簽的缺失,有些研究者進行將有標記的源域的判別性信息遷移到目標域[28],由于源域數據集強大的監督學習,它是另一種流行的沒有目標數據集標簽的無監督行人重識別方法。學者們利用生成對抗網絡(Generative Adversarial Networks, GAN)[29],來進行數據集的擴充。使用生成的圖像,可以實現在未標記的目標域中實現有監督的行人重識別模型學習,從而加強行人重識別模型的泛化能力。Zheng等[30]第一次嘗試將GAN技術應用到行人重識別,它使用生成的行人圖像改進監督特征表示學習,然而生成圖像質量低,對Re-ID模型性能提高有限。Wei等[31]提出PTGAN,這是為彌補數據集之間的領域差距而提出的一項關于人員轉移的原創工作。PTGAN能有效地減小間隙。不同的相機可能呈現不同的風格,這使得一個映射功能很難實現多種風格的轉換。面對缺乏交叉視圖配對訓練數據,以及在存在大姿態變化的情況下學習區分身份敏感和視圖不變特征這2個問題,Qian等[32]提出了一種新的基于位姿條件的真實感人物圖像生成模型來解決這2個問題。該模型專門為Re-ID中的姿態歸一化而設計,稱為姿態歸一化GAN(PN-GAN)。利用合成的圖像,該模型可以學習一種新的不受姿態變化影響的深度識別特征。
有些方法直接在源域訓練好模型,然后直接應用在目標域上。Liu等[33]提出了一種新的自適應轉移網絡(ATNet)的跨域行人重識別。該網絡提出了一種自適應集成策略,通過感知各因子對圖像的影響程度來融合因子方向的傳輸。這種“分解與集成”的策略使ATNet能夠在要素水平上進行精確的風格遷移,并最終實現跨域的有效遷移。Chen等[34]提出了一種新的基于實例的上下文呈現方案,用于跨領域的Re-ID模型學習。通過精心設計的雙重條件映射,豐富的目標實例被用作圖像生成的上下文指導。由于領域差距和不令人滿意的聚類性能,上述的方法沒有充分利用所有有價值的信息。為了解決這些問題,Ge等[35]提出了一種基于混合記憶的自定步長對比學習框架?;旌蟽却鎰討B地生成源域類級、目標域集群級和非集群實例級監督信號,用于學習特征表示。與傳統的對比學習策略不同,該框架將源域類、目標域集群和非集群實例結合起來進行區分。最重要的是,所提出的自定步長方法逐漸創建更可靠的集群來細化混合記憶和學習目標,這是該模型取得優異性能的關鍵。
跨模態行人重識別是指不同類型行人數據相互匹配的問題。大多數行人重識別主要集中在同一模態下的行人重識別上,如監控下的RGB圖像,這些圖像大部分采集于光源比較充足的場景。但是隨著現實生活中出現的弱光甚至是無光情況下,因此,為了克服可見光攝像頭無法全天候進行圖像采集的缺點,越來越多的研究者關注從其他模態對行人進行識別。
跨模態行人重識別是近年來計算機視覺領域的熱點問題,在實際生活除了一般行人RGB圖像還有許多其他模態的圖像,如紅外圖像、深度圖像、文本信息和跨分辨率圖像等。因此,跨模態行人重識別與一般行人重識別相比更具有挑戰性和實用性。
1.3.1 可見光-紅外行人重識別
可見光-紅外行人再識別(VI-ReID)的目標是實現跨模態行人圖像的匹配,突破了單模態行人重識別在黑暗環境下的局限性??梢姽?紅外行人再識別(VI-ReID)的問題,即在交叉模式設置中檢索一組由可見或紅外攝像機捕獲的人員圖像。VI-ReID的2個主要挑戰是人物圖像的類內變化,以及可見光和紅外圖像之間的跨模態差異。Wu等[36]首次嘗試解決這個問題,提出了像素級對齊和聯合判別策略,以自適應地學習模態共享特性。Fu等[37]發現適當地分離BN層可以產生更好的性能,由此提出了一種新的CM-NAS來解決具有挑戰性的VI-ReID。該方法開發一種面向BN的NAS算法,能夠自動決定BN層的分離,搜索最優的架構。Ye等[38]提出了一個層次化的交叉模態匹配模型,通過聯合優化模態特定和模態共享的度量。特定于模態的度量將2種不同的模態轉化為一致的空間,從而學習模態共享度量。不同光譜相機拍攝的異構行人圖像在圖像風格上存在顯著差異,導致特征表征的可分辨性較差。為了解決這個問題,Wei等[39]提出了一種新的融合模態協同學習(SMCL)模型來學習VI-ReID的模態不變標識-判別表示。融合模態的自生成特征保留了可見光和紅外圖像的重要信息,可以引導網絡將異構圖像投射到公共空間,挑戰增強同質性學習和輔助分布相似度學習。利用跨模態人物圖像之間的密集對應關系,Park等[40]提出了一種新穎的特征學習框架雙流CNN框架,從相應的人物圖像中提取RGB和IR特征,然后將特征與CMAlign模塊對齊。它在RGB和IR特征之間建立密集的跨模態對應關系,并使用相應的匹配概率將這些特征相互扭曲。還提出了利用像素級關聯的ID一致性和密集三元組損失,使得該模型能夠學習更具辨別力的人表示。
1.3.2 深度圖像行人重識別
深度圖像捕捉行人體型和骨骼信息,這為低光照和換衣場景下行人重識別提供了可能性,對個性化的人機交互應用也很重要。Haque等[41]提出了一個基于注意力的模型,在沒有RGB信息的情況下,從人體形狀和運動動力學的角度來識別個體。提出的模型是基于強化學習和回歸神經網絡的結合,目標是識別小的區別性區域,表明人類身份。當人們出現在極端的照明或更換衣服,RGB外觀為基礎的重現方法往往失敗。為了克服這個問題,Wu等[42]提出利用深度信息來提供更多的不變的身體形狀和骨架信息,而不管光照和顏色的變化。為了解決數據稀缺的問題,Karianakis等[43]提出了分離率RGB深度轉移,以此有效地利用預訓練模型的RGB數據,并學習強大的幀級特性。為了提高對視頻序列的重新識別能力,該方法提出了加強時間注意單元,它位于幀級特征之上,不依賴于網絡結構。
1.3.3 文本-圖像行人重識別
文本-圖像的行人重識別解決了文本描述和RGB圖像之間的匹配問題。當無法獲得查詢人的可視圖像時,必須提供自然語言文本描述。圖文匹配的關鍵是如何準確地度量視覺輸入和文本輸入之間的相似性。Zhang等[44]提出了一種新的跨模態投影匹配損失算法和跨模態投影分類損失算法,用于深度識別圖文嵌入。Cmpm損失利用kl發散最小化匹配圖文對的兼容性得分,同時最大化匹配圖文對之間的相關性。該算法在不同批量下對圖像和文本進行關聯具有很好的穩定性和優越性,不存在傳統的雙向排序損失的三重抽樣和邊緣選擇。Liu等[45]設計了一種基于圖關系挖掘的深度對抗性圖注意力卷積網絡(A-GANet)。利用模態鑒別器和特征變換器開發了一個對抗式學習模塊,用于學習匹配跨模態的聯合文本-視覺特征空間,圖形注意力卷積層有效地利用了圖形結構來學習視覺和文本具有判別性的特征。傳統的基于文本的人員再識別方法嚴重依賴于身份標注。然而,這種標簽過程是昂貴和耗時的。為了解決這種問題,Zhao等[46]提出了一個跨模式相互培訓(CMMT)框架。具體來說,為了緩解類內的變化,使用了一種聚類方法來為可視和文本實例生成偽標簽。為了進一步細化聚類結果,CMMT提供了標簽細化模塊,該模塊利用一種模式的聚類結果來細化受文本-圖像成對關系約束的另一種模式的聚類結果。
1.3.4 跨分辨率行人重識別
跨分辨率(Cross-resolution)行人重識別將低分辨率和高分辨率圖像進行匹配,解決了較大的行人圖像分辨率變化難匹配的問題。面對低分辨率的問題,為了提高圖像的尺度自適應提升和圖像特征提取能力,Wang等[47]提出了一種新的結構CSR-GAN。設計了common-human損失,使得生成的行人圖像更加真實,設計了unique-human損失,使得行人圖像特征更具有判別力。為了克服由于相機和相關人員之間的距離不同,可能會出現分辨率不匹配的問題,Li等[48]提出了一種新的生成對抗網絡來解決交叉分辨率的人身份驗證,允許不同分辨率的查詢圖像。通過改進對抗學習技術,提出的模型學習分辨率不變的圖像表示,同時能夠恢復低分辨率輸入圖像中缺失的細節。由于保持了分辨率不變性和恢復了面向重定向的鑒別細節,所得特征可以聯合應用于提高人體識別性能。從低分辨率到高分辨率中,大多數只關注行人特征的提取,忽略了原始行人圖像的有效信息。為了克服這個問題,Zhang等[49]提出了一種基于分辨率的分辨率重構網絡(RNN),無論輸入分辨率如何,都可以同時生成HR和LR 2個版本。此外,還設計了雙特征融合網絡(DFFN)來提取鑒別性的多分辨率表示。
行人重識別的評價指標有以下4種:
(1)Rank-n Accuracy[50]:這是一種在圖像分類、檢索領域廣泛使用的評價指標。給定一張目標圖像,訓練好的行人重識別模型會給出一個按照置信度排序的識別結果序列。最常用的2種評價指標是Rank-1 Accuracy與Rank-5 Accuracy,分別代表在測試中,第1位即為正確匹配的比例,以及前5位存在正確匹配的比例。
(2)CMC曲線[50](Cumulative Match Characteristic):累積匹配曲線,在候選行人庫(gallery)中檢索待查詢(probe)的行人,前r個檢索結果中包含正確匹配結果的比率。其中,第1匹配率r=1指標rank-1反映了最匹配候選目標剛好為待查詢圖片目標的概率,即該指標為真正的識別能力,因此很重要。但是當r值很小但大于1時,由于可以通過人眼進行輔助識別查找目標,因此也很有現實意義,如第5匹配率r=5指標反映前5個匹配候選目標中存在待查詢圖片目標的概率,主要用來評估閉集中排序結果的正確率。
(3)ROC曲線(Receiver Operating Characteristic Curve):ROC曲線是檢測、分類、識別任務中很常用的一項評價指標。ROC曲線上的每一點反映的是不同的閾值對應的FP(False Positive)和TP(True Positive)之間的關系。
(4)mAP(mean Average Precision):平均精度均值,是多目標檢測與多標簽分類的常用評價指標,繪制精確率與召回率的關系曲線(P-R曲線),該曲線與坐標軸的面積即為平均精確率(Average Precision),對所有類別測試得到各自的平均精確率,取均值得到平均精度均值mAP。平均精度指標不僅體現了模型的精確率,還能對模型給出的排名順序做出評價。
行人重識別的研究方法從基于傳統的人工特征發展為基于深度學習方法,這離不開大規模數據集的發展。當前比較常用的行人重識別數據集主要有以下幾種:CUHK03數據集[51]、Market-1501數據集[52]、DukeMTMC-ReID數據集[53]和MSMT17數據集[54],以及4個視頻數據集:PRID-2011數據集[55]、iLIDS-VID數據集[56]、MARS數據集[57]和DukeMTMC-VideoReID數據集[58]。具體常用的數據集參數如表1和表2所示。

表1 行人重識別常用圖像類型數據集Table 1 Datasets of common image types for person re-identification

表2 行人重識別常用視頻類型數據集Table 2 Datasets of common video types for person re-identification
下面簡單介紹幾個常用開源的數據集:
(1)CUHK03
CUHK03數據集示例,如圖4所示。
CUHK03數據集是香港中文大學于2014年提出來的數據集,其數據集圖像來源于6個監控攝像頭捕獲的。每個身份由2個不相交的相機視圖觀察,每個視圖中平均有4.8張圖像。
(2)Market-1501
Market-1501數據集示例,如圖5所示。
Market-1501數據集是2015年發布的,由6個攝像頭收集行人重新識別大規模數據集。它包含19 732張用于測試的圖像和12 936張用于訓練的圖像。
(3)DukeMTMC-ReID
DukeMTMC-ReID數據集示例,如圖6所示。
DukeMTMC-ReID數據集是2017年發布的行人重識別數據集。它包括來自8個高分辨率相機的1 812個身份的36 411張照片。其中,訓練集包含從整體圖像中隨機選取的702個身份的16 522張照片,測試集包含其他2 228張查詢照片和17 661張圖庫照片。
(4)MSMT17
MSMT17數據集示例,如圖7所示。
MSMT17數據集是北京大學采集的行人重識別數據集,該數據集于2017年發布,有15個網絡攝像頭拍攝的4 101個身份的126 441張照片,包含12個室外攝像機和3個室內攝像機。
除了以上幾個已經開源的常用數據集以外,近幾年內還有一些優秀的數據集被提出,其中比較典型的有:①2017年由中山大學發布的SYSU-MM01數據集[36],包括來自6個攝像機(其中2個紅外攝像機和4個可見光攝像機)的491個身份的RGB和IR圖像,共得到287 628張RGB圖像和15 792張IR圖像。②2017年3月發布的RegDB數據集[59]包含了412個行人身份,每個行人收集了10張RGB圖像和10張熱圖像,其中有254個女性和158個男性,并且412個人中有156個人是從正面拍攝,256個人從背面拍攝。由于該數據集圖像小,清晰度較差,每個身份的RGB圖像和熱圖的姿態都是一一對應的,并且同一個身份在姿態上變化很小,這些因素都降低了該數據集RegDB上的跨模態行人重識別任務的難度。③2018年發布的由北京航空航天大學采集的LPW數據集[60],包含2 731個行人的7 694個軌跡序列,總共有56萬多張圖像。該數據集盡管規模相對較大,但注釋也具有較高的清潔度。而且,更具挑戰性的還有以下幾個方面:人物的年齡從小到大不一樣,人們的姿勢是多種多樣的,除了正常的步行狀態外,還包括跑步和騎自行車。④對于跨分辨率的數據集MLR-VIPeR是從VIPeR數據集[61]構建的。VIPeR由632個身份組成,每個身份包含從2個不同的相機捕獲的2個圖像。所有圖像都被歸一化為128×48像素。VIPeR被隨機分成兩等份,一份用于訓練,另一份用于測試。每一半包含316個身份。對于每個標識,都是從一個相機中獲取一個圖像作為查詢,并執行跨相機搜索;⑤2017年發布的CUHK-PEDES數據集[62]包含13 003個身份的40 206幅行人圖像。每個行人圖像由2個不同的文本描述??偣彩占?0 412個句子。
除了上述的常用數據集之外,許多研究人員也在開發最新的數據集用以來豐富數據集類型。包括:①2021年發布的Person30K數據集[63]是一個大規模數據集,其中包含30K個不同身份的138萬張圖像,都是由部署在89個不同站點的6 497個攝像機中收集到的。該數據集豐富的樣本多樣性,包括不同的背景和不同的人物姿勢。②2021年發布的LUPerson數據集[64],它是一個未標記的數據集,包含從46K個場景中收集的超過200K個身份的圖像。由于目前的數據集都是基于平行攝像頭拍攝的,有研究學者針對此種情況,從俯瞰的角度出發,在2021年發布了名為BV-Person據集[65],包含18K個身份的114K張圖像,其中近7.4K個身份的20K張的圖像是從鳥瞰視圖中獲取的。
數據集對行人重識別的發展起著重要的作用。目前的行人重識別模型最為常用的評價指標為Rank-n Accuracy與mAP,表3整理了目前常用數據集上表現最優的模型(State of the Art, SOTA)以及其他一些優秀模型的精度數據。

表3 各數據集的性能最優模型以及精度數據Table 3 State-of-the-art methods and accuracy data for each dataset
隨著當前計算機算力的提升,以及大規模數據集的出現,為深度學習提供了大量的訓練數據和驗證數據,把深度學習應用在行人重識別的研究成果也得到了很大的突破。越來越多的研究者投入到行人重識別的研究中。在此,本文也簡要提出行人重識別當前存在的問題以及未來研究方向。
(1)現有的全監督模型整體性能雖然接近飽和狀態,但是弱監督的整體性能依舊難以取得理想的成績,而且不同數據集之間關聯度不高,模型的泛化能力明顯不足。
(2)跨模態模型中度量不同模態數據之間的內容相似性的能力不足,整體性能不夠理想,模態與模態之間泛化能力不高。
(3)行人重識別算法實現一般需要布署在邊緣計算設備上,如智能監控攝像頭、嵌入式設備等?,F有的算法參數量與計算量較大,邊緣設備的算力根本無法滿足要求。
(1)弱監督學習的性能優化:應該怎樣在保證模型表征學習能力的基礎上,提出更為有效的弱監督學習方法,降低數據標注的工作量,是行人重識別未來研究的熱點問題。
(2)數據集的遷移:減少人工標注依賴,提高模型的泛化能力是深度學習領域所要面對的核心問題,從虛擬數據進行學習(Learning from virtual data),如何才能解決虛擬數據中的domain gap,提高模型泛化能力,這也是一個研究熱點。
(3)輕量化模型:輕量型快速的行人重識別算法設計,降低模型參數數量,提升模型運行速度,自適應的針對不同類型的硬件配置(小型的移動手機和大型服務器)調整和優化模型,這也是未來的研究熱點之一。
(4)基于Transformer的神經網絡有著比CNN更多的優點,將其應用在行人重識別已經有了初步的成效,進一步挖掘Transformer在行人重識別中也是一個熱門的研究方向。
本文針對行人重識別領域的研究現狀,從有監督學習、弱監督學習和跨模態學習3個方向,對現有的基于深度學習的行人重識別方法進行了歸納與總結,針對近幾年的最新成果作出分析與討論,并對現存的主要問題與未來的研究方向進行闡述。當前基于深度學習的行人重識別問題研究尚未成熟,特別是針對弱監督和跨模態這2大熱門方向的性能還尚有不足。目前行人重識別還面臨著諸多問題和挑戰。對于行人重識別的未來研究熱門方向也亟需研究者進行深耕。本文針對行人重識別相關概念、方法和數據集進行了簡單闡述,旨在使讀者對基于深度學習的行人重識別方法有全面的了解,為開展行人重識別領域的研究提供些許幫助。