楊永勝,鄧淼磊,李 磊,張德賢
1.河南工業大學 信息科學與工程學院,鄭州450001
2.河南省糧食信息處理國際聯合實驗室,鄭州450001
行人重識別(person re-identification,Re-ID)也稱為行人再識別,是一個典型的圖像檢索問題,在給定的跨設備收集的行人圖像庫中檢索目標行人圖像,即利用計算機視覺、模式識別和機器學習等多項技術判斷圖像或視頻中目標行人是否存在。近年來,已受到工業界和學術界的廣泛研究[1-2]。行人重識別技術可以在智能安防、視頻監控等領域彌補人臉識別技術和固定攝像頭視覺局限性;并可與行人檢測[3]、行人跟蹤技術[4]組合為行人重識別系統,如圖1所示。

圖1 行人重識別系統Fig.1 System of Re-ID
由于攝像機參數和拍攝環境不同拍攝的行人圖像在背景、光照、分辨率、視角和姿勢等方面都存在較大差異。如何提取具有判別性的特征和設計特征匹配度量算法,是解決該問題的關鍵。一般而言,行人重識別任務包括特征提取和特征匹配兩個方面。2016年以前,特征提取主要是提取判別力的低級視覺特征,包括形狀特征(HOG特征)[5]、顏色直方圖(RGB、HSV)[6-7]、關鍵點(SIFT)[8]、紋理特征(Gabor)[9]等。特征度量學習指在特征空間中計算特征之間的距離或相似性,使同類對象更加緊湊,不同類之間更加分離。度量學習方法常用的有馬氏距離[6]、顯加權度量學習[7]、局部自適應決策函數[10]等。上述低級視覺特征提取算法在面對風格多樣的圖像樣本(光線、背景等)時,較難提取具有判別力的特征。
自2016年開始,隨著深度學習研究的快速進展,研究者們開始關注基于深度學習的行人重識別方法,與傳統方法不同,基于深度學習的行人重識別方法集成了特征提取與度量學習兩個模塊[11],即圖像特征的提取和特征向量的相似度比較在一個模型中完成。根據識別方式的不同,可以將基于深度學習的行人重識別模型分為表征模型[12]和匹配模型[13],其中表征模型將行人重識別任務當作分類問題,表征模型的損失函數有分類損失[14]和驗證損失[12]等。匹配模型將行人重識別任務當作圖像相似度比較問題,大部分使用類似Siamese 網絡[15]的端到端模型,其損失函數有對比損失[16]、三元組損失[13]等。最近,有研究者將兩種模型集成起來,如Zheng 等人[12]將表征模型和匹配模型結合起來提高模型特征表示,從而縮小類內距離和增大類間距離。
傳統方法基于低級視覺特征提取圖像信息具有較多局限性,面對復雜多變場景的行人圖像不能提取到具有判別力的特征。主要原因有:手工特征具有很大的主觀因素,不能較好地獲得圖像有效信息,進而影響到重識別的推理階段;背景噪聲對傳統方法的影響較大,無法判斷圖像的顯著性區域;傳統的距離度量方法不具有普適性,難以對多個樣本批次度量。近年來,隨著深度學習的發展,行人重識別研究獲得飛速發展,其識別精度有了很大提高,具體的表現在兩個方面:在特征提取方面,利用深度學習方法的卷積神經網絡(convolutional neural network,CNN)可以提取到圖像中顯著性區域,從而解決了傳統方法主觀性的問題;在模型方面,基于深度學習訓練的模型能夠挖掘群體樣本間的關聯性,因此數據量爆炸的信息時代提供的海量樣本對模型訓練有著巨大的推動作用。
基于上述現狀,本文重點分析近幾年深度學習在行人重識別任務上的研究進展,整理歸納了該領域的一些優秀算法,并討論了未來的研究方向。本文主要結構如下:(1)依據特征提取方式的不同將行人重識別模型分為監督學習、弱監督學習兩大類;(2)依據研究熱點,研究分析了跨模態行人重識別和端到端行人重識別。
基于深度學習的行人重識別模型研究,大部分采用有監督的方式,即訓練數據需要人工耗時耗力的標注信息,為了增加模型的可擴展性和更貼近實際生活中應用,近年來,越來越多的學者開始關注無監督和半監督學習在行人重識別問題上的研究,并逐漸取得了實驗結果接近甚至超過有監督學習方法。面對復雜多變的實際場景,有研究開始關注數據跨模態問題和端到端行人重識別。
一直以來廣泛應用的有監督學習充分利用有標注信息的數據,提取具有較強判別力的特征,依據特征相似度判斷是否屬于同一個行人。根據模型設計方法不同,將其分為特征學習、度量學習、排序優化三個方面介紹有監督學習。
1.1.1 特征學習
全局特征學習為每個行人圖像提取全局特征向量,如圖2(a)所示。由于深度神經網絡最早應用于圖像分類[17],在早期將先進的深度學習技術集成到行人重識別領域時,全局特征學習是主要選擇。全局特征學習比較簡單,將一幅圖像直接輸入到卷積神經網絡來提取特征[18],但不能關注到行人圖像中相對有判別力的區域;之后,有學者將注意力機制和全局特征學習聯合設計,以增強表征學習[19]。一般圖像直接輸入到卷積提取的都是全局特征,因此模型比較簡單不做過多贅述。

圖2 四種不同的特征學習方式Fig.2 Four different feature learning strategies
局部特征學習利用局部圖像區域學習聚合特征,使其對行人局部不對齊場景預測更具魯棒性,如圖2(b)所示。身體部位通過姿勢估計自動生成,或者大致水平分割。采用均勻分割的方法得到水平條紋部分,靈活性較高,但對嚴重遮擋和大背景雜波比較敏感。用姿態估計模型來估計出人體關鍵點,然后用局部特征匹配能較好地解決姿態不對齊問題[20]。然而,需要額外的姿態估計模型,并且容易出現噪聲姿態檢測。Sun 等人[21]無需額外的姿態估計等輔助方法,提出PCB方法將行人特征圖均等水平分為6塊,對每塊使用卷積代替全連接提取特征,然后將每塊進行全連接再接分類器;提出RPP 方法即自適應的根據每塊的內容相似性劃分邊緣,但忽略了相鄰局部塊之間的關聯性,從而丟失判別性的信息。一般局部特征學習只關注單個行人圖像局部內關系,而忽略了多張圖像局部間的關系,陳璠等人[22]設計的多層級重疊條紋特征融合算法,利用多分辨率網絡提取低層全局特征和高層語義信息,對網絡輸出特征圖水平分割,然后提取重疊條紋特征來補充丟失的有用信息,減少圖像中無關背景噪聲,關注分割塊間關系,增強行人局部對齊性能。Zhang等人[23]設計了異構局部圖注意力網絡(HLGAT),建模完成局部圖中的局部內關系和局部間關系,并且不同行人圖像中各部分之間的局部關系,更進一步挖掘了行人信息。
輔助特征學習使用部分輔助信息來加強特征學習的效果,如語義信息、視角信息、域信息、GAN生成的信息、數據增強等,如圖2(c)所示。結合語義屬性和注意力機制以改進局部特征學習[24]。Zhu等人[25]在視角感知特征學習中加入了角度正則化,將行人視角投影到統一的特征子空間中,有效地擬合視角聚類標簽分配的模糊性。行人重識別會受到因不同攝像機引起的圖像樣式變化的影響,文獻[26]在模型中融入相機特定信息,如相機視角信息或檢測到的相機位置,以改進模型的特征表示能力。Zheng 等人[27]第一次嘗試將GAN 技術應用到行人重識別,它使用生成的行人圖像改進監督特征表示學習,然而生成圖像質量低,對ReID模型性能提高有限。
視頻特征學習提取視頻時序信息并且融合多幀圖像特征來構建行人特征,如圖2(d)所示。由于視頻序列有著豐富的人體姿勢和時序信息,給視頻特征學習帶來了額外的挑戰,主要的挑戰是準確地捕獲時序信息,為此,McLaughlin等人[28]基于視頻的行人重識別設計了循環神經網絡(RNN),充分利用了視頻的時序信息,但對視頻的所有幀進行了同等處理,而無法學習到最具有判別力的特征,且RNN 對長視頻序列訓練較復雜且耗時長。聯合空間和時間注意力網絡(ASTPN)[29]在視頻中選擇具有判別力的信息幀,考慮視頻序列之間的相互依賴性,雖然注意力的引入可以很好篩除視頻中冗余和背景噪聲信息,但網絡結構復雜,訓練需要占用較多顯存。Chen等人[30]將長視頻序列分成多個短視頻片段,并聚合排名最高的片段相似性,以進行序列相似性估計。該策略可以最小化每個樣本的視覺差異以進行相似性估計,同時保留不同的外觀和時間信息,但此方法無法自適應地劃分語義連貫的短視頻。現有的方法往往集中在最顯著的圖像區域,容易因為圖像序列中人物的不同而遺漏細粒度的線索,Liu 等人[31]提出一個基于視頻的全局引導的交互學習框架(GRL),捕獲圖像序列中的細粒度線索,但是對圖像全局特征提取,而無法獲得長時間序列的特征。
主干網絡設計更加適應于Re-ID 特定場景的網絡架構,早期,研究者試圖修改圖像分類場景中常用的ReNet50主干結構,近年來,有研究者設計了多尺度、細粒度等的網絡結構更加適用于Re-ID 場景。Wang 等人[32]提出了一個帶有專門設計的WConv 層和Channel Scaling層網絡架構。WConv層提取兩幅圖像的差異信息以增強局部不對齊圖像的魯棒性,Channel Scaling層緩解反向傳播過程中梯度消失問題。但該方法無法同時學習全局和局部尺度特性。近年來,有學者丟棄以往基于卷積神經網絡的框架,He等人[33]首次提出基于視覺Transformer(ViT)的行人重識別框架,能簡單自然地將相機和視點等非可視化信息編碼為矢量嵌入到訓練過程,并在多個數據集上表現出優秀性能,顯示此框架具有很大的開發潛能。最近,Jia等人[34]提出DRL-Net方法利用改進的Transformer 框架處理有遮擋的行人圖像,無需人物圖像嚴格的身體部位對齊。研究證明[35]基于ViT 的框架比基于CNN 的框架更依賴大量訓練數據集才能最大限度體現此網絡的優越性,但行人重識別數據集較小,因此該模型結構還有待提高。
1.1.2 度量學習
早年的度量學習(metric learning)重點是構造不同類型的距離或相似度度量矩陣。深度學習時代,主要是設計不同類型的損失函數[36]。四種被廣泛研究的損失函數及其變體,包括分類損失、驗證損失、對比損失和三元組損失,如圖3所示。

圖3 四種損失函數Fig.3 Four kinds of loss functions
分類損失又稱ID 損失(identification loss)[14](圖3(a)),只有ID損失的網絡稱為ID Embedding網絡(IDE網絡),訓練集中行人的ID 數為網絡的類別數,特征層后接一個分類全連接層,經過Softmax 激活函數計算交叉熵損失。測試階段使用倒數第二層的特征向量進行檢索,分類全連接層丟棄。每批中的訓練樣本數為n,給定一個標簽為yi的輸入圖像xi,通過交叉熵計算ID損失。

驗證損失(verification loss)[12]又稱為二分類損失(圖3(b)),輸入兩幅圖像判別是正樣本對或負樣本對。使用高維的特征向量做相似度計算fij=(fi-fj)2,其中fi和fj是兩個樣本xi和xj的特征向量。使用p(δij|fij)來表示輸入對(xi和xj)被識別為δij(0 或1)的概率。具有交叉熵的驗證損失為:

通常,驗證損失與ID損失相結合以提高性能[37]。
對比損失(contrastive loss)[38](圖3(c))改進了行人圖像特征向量相對距離比較,公式為:

其中,dij表示兩個輸入樣本xi和xj的嵌入特征之間的歐幾里德距離。δij是一個二元標簽指示符(當xi和xj屬于同一身份時,δij=1,否則δij=0),ρ是訓練閾值參數。
三元組損失(triplet loss)[13]基本思想是正樣本對之間的距離應該比負樣本對之間的距離小于預定義的余量(圖3(d))。通常,一個三元組包含一個固定樣本xi、一個相同身份的正樣本xj和一個不同身份的負樣本xk。帶有閾值參數的三元組損失表示為:

近年來,相繼有學者提出等距度量學習(equid-MLAPG)[39],改進三元組損失(improved triplet loss)、四元組損失(quadruplet loss)、難樣本采樣(hard sample mining)的方法[40]。
1.1.3 排序優化
排序優化(ranking optimization)的基本思想是利用gallery-to-gallery的相似度挖掘[41-42]或者人工交互[43]來優化初始排序列表,對于提高預測階段的檢索性能起著至關重要的作用,如圖4所示。

圖4 重排序Fig.4 Illustration of re-ranking
Luo 等人[41]推導出了一種名為local blurring reranking 的輕量級重排序方法,采用聚類結構來改進鄰域相似性度量。考慮到query 的差異,一些方法設計了query 自適應檢索策略來代替統一搜索引擎以提高性能[42]。Zhou 等人[42]提出了一種有效的在線本地度量自適應方法,該方法通過為每個probe 挖掘負樣本來學習嚴格的本地度量。Wang等人[43]提出了一種混合的人機增量學習模型,該模型從人的反饋中積累學習,提高實時的行人重識別排名性能。排序融合[44]是另一種流行的方法,利用通過不同方法獲得的多個排序列表來提高檢索性能。最近,研究者為排序融合設計了unified ensemble diffusion(UED)[44]。UED 保留了現有樸素融合,張量積融合,正則化集成擴散三種融合算法的優點,并通過新的目標函數和推導公式進行了優化。
盡管有監督場景中的行人重識別問題有了突破性的研究,但是需要大量有標注的數據進行訓練,因此不能夠在其他場景中泛化。工業界和學術界越來越關注弱監督場景(weakly supervised learning)下少量標注數據的學習,這對于行人重識別系統相關的應用落地方面具有重要的價值和意義。本文基于行人重識別問題,將弱監督學習分為半監督學習(semi-supervised learning,SSL)和無監督學習(unsupervised learning)。
1.2.1 半監督學習
近年來,部分研究者們開始關注如何利用少量有標注的數據訓練一個較優的模型。在基于半監督學習的行人重識別任務中,目前面臨的挑戰是,如何利用少量有標簽數據提取具有判別性的特征,并為大量無標簽數據準確高效地打上偽標簽以進一步優化模型。由于標注數據有限,文獻[45]中提出了一種一次性度量學習方法,該方法結合了深度紋理表示和顏色度量,實現了與有監督方法相比具有競爭力的性能。為了在單樣本學習中更好地利用未標注數據,文獻[46]提出了基于視頻的步進學習方法(EUG),對未標記數據生成偽標簽,根據預測的可信度選擇偽標簽數據訓練,使用擴充數據集對模型更新。文獻[47]提出多實例注意力學習框架,使用視頻級標簽進行表示學習,減輕對大量標注數據的依賴。
1.2.2 無監督學習
無監督學習不需要有標注的數據,因此更具有適應性和魯棒性。早期的無監督Re-ID主要學習不變成分,即字典學習[48]、度量學習[49]或顯著性分析[50],這導致可辨別性或可擴展性有限。
Ye等人[51]提出無監督跨相機標簽估計方法,為每個相機建立樣本圖,迭代更新標簽估計和樣本圖,用動態圖匹配(DGM)方法實現跨相機標簽關聯,解決了關聯過程中交叉視圖產生的特征表示質量不佳和噪聲問題。為了進一步提高性能,Wang 等人[52]提出一個一致的交叉視角匹配(CCM)框架,利用全局攝像機網絡約束來保證匹配對的一致性,利用全局攝像機網絡約束的跨視角匹配策略,以探索整個攝像機網絡的匹配關系,解決了相機內和相機間樣本匹配相關性時,忽略整個相機網絡的高階關系,從而導致不同相機對的匹配結果不準確的問題。
對于端到端的無監督行人重識別,Fan 等人[53]首次在跨域數據集中為目標域打偽標簽,提出了迭代聚類的行人重識別模型,先在源域上訓練一個卷積網絡,再到目標域圖像特征提取,由KMeans聚類為設定的族數,用聚類好的結果再微調模型,如此反復迭代。類似地,Zeng等人[54]提出的分層聚類與hard-batch triplet loss相結合的偽標簽聚類算法,通過層次聚類,充分利用目標數據集中樣本間的相似性,通過hard-batch triplet loss來降低難樣本的影響,產生高質量的偽標簽和提高模型性能。通過聚類算法為行人分配為標簽,但不能關注到潛在的鑒別性信息。Li等人[55]提出的(TAUDL)方法,通過利用無監督的單攝像頭軌跡信息,訓練端到端的神經網絡,然后用這個圖像模型對跨攝像頭的圖像進行自動標注和學習。類似地,一種無監督的相機感知相似性一致性挖掘方法[56],解決攝像頭內部匹配和交叉攝像機匹配的一致性相似性分布問題。大多數無監督學習不考慮攝像機之間的分布差異,Xuan等人[57]通過生成攝像機內和攝像機間的偽標簽,迭代優化攝像機間的相似性,該方法聚類階段主要關注攝像機因素的影響,而忽略了提取行人圖像局部細粒度有判別性的信息。
此外,一些研究嘗試了圖像局部特征學習,基于此的研究發現挖掘圖像局部標簽信息比挖掘整個圖像標簽信息更容易,Yang 等人[58]提出的PatchNet 從patch 而不是整幅圖像中學習可判別特征,即利用patch 之間的相似性學習有判別力的模型;設計基于patch 的判別特征學習丟失方法,指導PatchNet 學習無標注數據集;設計圖像級的特征損失函數,利用所有patch 特征指導PatchNet 圖像級學習。無監督自相似性分組(SSG)方法[59]主要思想是兩個數據庫的圖像風格差異很大,將圖像分割為局部小塊即全身、上半身和下半身,差異將會減小,能夠學到更具有魯棒性的特征,挖掘整體到局部的潛在相似性,然而該算法沒有從根本上解決域間差異問題,如不同攝像機參數和視角等因素的影響。
1.2.3 無監督域自適應學習
無監督域自適應(unsupervised domain adaptation,UDA)將有標記的源域的判別性信息遷移到目標域[60],由于源域數據集的強大的監督學習,它是另一種流行的沒有目標數據集標簽的無監督行人重識別方法。
使用生成對抗網絡(GAN)將源域圖像轉換為目標域樣式是UDA行人重識別的一種流行方法。使用生成的圖像,可以在未標記的目標域中實現有監督的行人重識別模型學習。Wei等人[61]采用了一種人員遷移生成對抗網絡(FD-GAN),實現從源域到目標域數據集行人圖像遷移,大幅縮小域間差距。保留自相似性和域差異性[38]使用保留自相似性的生成對抗網絡(SPGAN)進行訓練,將源域圖像風格遷移到目標域圖像風格,保持ID不變性,無監督Re-ID任務轉換為有監督Re-ID任務,但是SPGAN 算法的特征信息傳輸較慢,且生成器的特征轉換尺度單一,因此風格遷移效果不好。異構同質學習(HHL)方法[62]同時考慮了具有同構學習的相機不變性和具有異構學習的域連通性,在一定程度上建立了源域與目標域特征空間的聯系,但沒能真正解決域間較大差別的問題。自適應傳輸網絡[63]將適應過程分解為某些成像因素,包括光照、分辨率、相機視圖等。該策略提高了跨數據集的性能。Chen 等人[64]設計了一種對偶條件圖像生成器以生成行人的不同風格圖像,該方法能將一張圖片遷移到多個風格,此外,還添加了Li等人提出的(PDA-Net)方法[65]以改進圖像生成。然而,在實際復雜多變的環境中,圖像生成的可擴展性和穩定性仍然具有挑戰性。Chen等人[66]將GAN和對比學習聯合到一個學習框架,GAN為對比性學習提供數據增強,對比性學習為GAN 學習了視圖不變性,該方法對目標域數據利用對比學習和GAN 技術進行了數據增強,但源域數據的判別性信息挖掘不充分。
有些方法直接利用源域數據集中訓練良好的模型對未標記的目標域數據集進行監督挖掘。傳統方法主要減小源域和目標域的特征分布差異,而忽略了目標域中類內的不變屬性,Zhong 等人[67]提出記憶模塊將三個不變性屬性,即個體不變性,相機風格不變性和鄰居不變性強制執行到系統中,實驗證明,這三大屬性對風格遷移能力提升必不可少。域不變映射網絡(DIMN)[68]為域遷移任務制定了元學習,并在每個訓練集采樣源域子集以更新存儲庫,增強可擴展性和可判別性。在文獻[69]中,攝像機視圖信息也作為監督信號來減小跨域差異,將每個相機設置成單獨的子域,并且關注了相機拍攝連續時間的圖像的內聯性,建立有鑒別性的信息。最近,Ge等人[70]開發了一種混合存儲的自定進度對比學習框架,充分利用目標域訓練時,一般被忽略的有真實準確標簽的源域數據和在訓練早期丟棄聚類離群值的目標域中的無標簽數據,編碼源域和目標域可利用的有用信息進行特征學習。Zheng等人[71]設計了一種組感知標簽轉移(GLT)算法,首次將聚類和特征學習集成到一個框架下,使偽標簽預測和特征學習可以在線交互和相互促進,并且利用標簽精煉算法和組感知特征學習策略結合,在線糾正帶有噪聲的偽標簽,減小目標身份搜索空間,對生成的偽標簽進行優化,提高特征學習的質量。
除此之外,無監督的時空模型TFusion[72]使用貝葉斯融合模型將源域中學習到的時空模式轉移到目標域。Liao 等人[73]采用一種新的卷積方式QAConv,直接在特征圖上進行局部特征匹配而不需要提取特征向量,提高了遷移學習模型的泛化能力和跨域數據集的準確性。
跨模態行人重識別任務是指不同類型行人數據相互匹配的問題。在實際生活除了一般行人RGB圖像還有許多其他模態的圖像,如紅外圖像,深度圖像,文本信息和跨分辨率圖像等,如圖5 所示。因此,跨模態行人重識別比一般行人重識別相比更具有挑戰性和實用性。

圖5 跨模態行人重識別Fig.5 Illustration of re-ID using multi-modality and low-resolution person data
1.3.1 可見光-紅外行人重識別
可見光到熱紅外行人重識別(圖5(a))任務主要是處理RGB 圖像和熱紅外圖像匹配問題,在黑夜和光照條件不充足的場景只能由紅外攝像機拍攝。Wu等人[74]首次嘗試解決這個問題,提出了像素級對齊和聯合判別策略,以自適應地學習模態共享特性。文獻[75]中引入了一個雙流卷積神經網絡來學習多模態可共享特征表示,同時處理模態內和模態間的變化,此方法關注了模態間的共享特征,而未關注模態內的特異特征。為了充分利用特征嵌入子空間和分類子空間的相關性,Hao等人[76]設計了一種具有識別約束和分類的端到端雙流超球面流行嵌入網絡(HSMEnet),將人臉識別領域中sphere softmax loss 遷移到行人重識別領域,即將二維坐標系轉換為球面坐標系,行人圖像的特征表示映射到超球體上,然后做分類任務。分類結果取決于特征向量和權重向量的角度。文獻[77]首次采用GAN 技術生成跨模態人體圖像,以減少圖像和特征層面的跨模態差異,然而使用GAN技術生成的圖像質量不高,含有噪聲干擾,導致重識別性能欠佳。大部分方法只關注如何減少模態間的差異,而缺少對模態內差異的關注,Choi 等人[78]提出一種層次模態分解(Hi-CMD)方法,排除光照、姿態冗余特征對跨模態行人識別的影響,提取出具有判別力的衣著、體態等有用信息,不同于其他方法采用特征嵌入網絡,此方法關注圖像級方式,并且使用圖像生成技術,減少模態間的差異。Ye等人[79]提出了一種新的動態雙注意聚合(DDAG)學習方法,捕獲多級關系,挖掘模態內實例級和跨模態圖級別的信息,提高特征表示學習,設計的實例級注意力模塊自適應地分配身體不同部位的權重,模型中的圖結構注意力能挖掘跨模態行人圖像關系。Chen等人[80]提出一種新的通用范式,基于自動機器學習數據驅動的神經特征搜索方法(NFS),實現特征選擇過程的自動化,減少人為干預,結合了雙層特征搜索空間和可微搜索策略,在粗粒度通道和細粒度空間像素中聯合選擇與身份相關的線索。這種組合使NFS能夠自適應地過濾背景噪聲,并以數據驅動的方式將注意力集中在人體的信息部分。此外,跨模態對比優化方案進一步引導NFS搜索,最小化模態差異同時最大化類間距離的特征。
1.3.2 深度圖像行人重識別
深度圖像捕捉行人體型和骨骼信息(圖5(b)),這為低光照和換衣場景下行人重識別提供了可能性,對個性化的人機交互應用也很重要。Haque等人[81]主要從行人獨特的體態輪廓和運動特征研究,提出了一種基于循環注意力的模型來學習行人時空特征。在強化學習框架中,結合了卷積神經網絡和循環神經網絡來識別人體有判別力的較小的局部區域,模型對視角、光照和姿勢變化具有較強的魯棒性。設計Glimpse 層將輸入視頻降維,降低噪聲并保留時空細節,結合注意力自動選擇了信息量大的視頻幀,但是忽略了其他視頻幀中的有用信息。一些方法[82-83]還研究了RGB 圖像和深度圖像信息的組合,以提高行人重識別性能,解決行人換衣服的挑戰。Wu 等人[82]研究發現深度信息不可用時從RGB 圖像隱式估計特征深度。將估計的深度特征與基于RGB的外觀特征相結合,有助于更好地減少由照明和類似衣服引起的外觀特征的視覺模糊性。Karianakis等人[84]研究發現在RGB數據集上訓練的淺層網絡模型同樣適用于深度行人圖像數據集,實現兩種模態ReID 模型淺層參數共享,解決了深度行人重識別數據集少訓練模型不佳的問題,模型進一步融合了時間注意力,為每一幀打上注意力權重,但運用RGB 數據預訓練增加了模型訓練的復雜性。
1.3.3 文本-圖像行人重識別
文本到圖像的行人重識別(圖5(c))解決了文本描述和RGB圖像之間的匹配問題。當無法獲得查詢人的可視圖像時,必須提供自然語言文本描述。使用循環神經網絡的門控神經注意力模型(GNA-RNN)[85]學習文本描述和人物圖像之間的共享特征,根據詞匯與圖像的相關度反饋不一樣的權值,由相似度檢索目標,使得文本到圖像行人檢索的端到端訓練成為可能,且實驗結果表明,文本名詞提供的信息最多,形容詞次之,動詞提供的信息最少。該方法只關注全局圖像特征與文本間的聯系,缺少局部細粒度特征與詞匯精細化的內聯性。Chen等人[86]提出了一種全局判別圖像-語言關聯學習方法,在全局描述的監督下學習全局視覺特征,而且通過建立全局和局部圖像語言關聯,來增強語言特征和局部視覺特征兩者的語義相關性。基于身份標注建立全局圖像語言關聯和基于圖像塊與文本信息之間的對應關系建立局部圖像語言關聯,證明了這兩種關聯方案將語言作為訓練監督的可行性。Zhang 等人[87]提出兩種損失函數,即跨模態投影匹配損失(CMPM)和跨模態投影分類損失(CMPC),CMPM最小化兩個模態特征投影分布的KL 散度,CMPC 將一種模態投影到另一種模態的特征進行分類,加強模態間的緊湊性。Liu 等人[88]設計了一種基于圖關系挖掘的深度對抗性圖注意力卷積網絡(A-GANet)。利用模態鑒別器和特征變換器開發了一個對抗式學習模塊,用于學習匹配跨模態的聯合文本-視覺特征空間,圖形注意力卷積層有效地利用了圖形結構來學習視覺和文本具有判別性的特征。
1.3.4 跨分辨率行人重識別
跨分辨率(cross-resolution)行人重識別(圖5(d))將低分辨率和高分辨率圖像進行匹配,解決了較大的行人圖像分辨率變化難匹配的問題。針對行人低分辨率圖像Wang等人[89]提出CSR-GAN方法以級聯方式,將低分辨率圖像上采樣生成高分辨率人物圖像,提高尺度自適應能力,設計了common-human 損失,使得生成的行人圖像更加真實,設計了unique-human 損失,使得行人圖像特征更具有判別力,為了增強具有判別力的行人特征提取能力,加入行人重識別網絡,捕獲行人外觀信息,不足之處需要預先定義圖像對之間的尺度比例,然后設置不同的匹配放大因子。Li 等人[90]采用對抗式學習技術獲得分辨率不變的圖像表示,同時能夠恢復低分辨率圖像中丟失的細節。雖然提高了跨分辨率ReID 性能,但是與ReID 的集成兼容性不夠。文獻[91]提出了基于注意力機制的局部超分辨率聯合身份學習網絡,利用注意力輔助網絡查詢不同分辨率行人圖像相同區域的顯著性信息,利用任意上采樣因子重建任意低分辨率的圖像,而該方法重建圖像和重識別過程中,而忽略了原始低分辨率圖像中的有用信息。Zhang等人[92]研究發現超分辨率技術可能為低分辨率圖像補充了不真實的外觀細節,因此從這些圖像中提取的特征沒有足夠的判別力;盡管低分辨率圖像在細節上有所丟失但可以提供全局信息。因此提出了一種多分辨率表征聯合學習(MRJL)方法,充分利用了高分辨率中的細節信息和低分辨率中的全局信息。
端到端行人重識別的任務是將圖像或視頻作為輸入,集成行人檢測、跟蹤和重識別技術為一體。與傳統行人重識別對比如圖6 所示。由于模型在單個框架中聯合執行行人檢測和重識別,因此可以減少對生成邊界框等額外步驟的依賴性,又由于兩個子任務的側重點不同,因此更具有挑戰性。

圖6 端到端和傳統Re-ID對比Fig.6 Comparison of end-to-end and traditional Re-ID
Zheng等人[14]提出了一個端到端行人檢測和行人識別的聯合框架,并系統地評估了行人重識別系統中多種行人檢測方法的優勢和局限性。相較于現階段大部分研究都是行人檢測和行人重識別組合的方法,Liu 等人[93]采用NPSM框架來模擬人的視覺搜索機制,遞歸地不斷縮小待查詢圖像中目標行人區域。類似地,Yan等人[94]提出的圖學習框架,利用圖像中上下文信息進一步挖掘人物之間的關系,核心思想是拓展實例特征的表達能力,不再局限于只利用目標行人的特征,也將圖像中周圍行人作為特征學習的一部分,以改進端到端的人物搜索。Han等人[95]提出了一個基于行人重識別的定位修正框架,它能夠微調行人檢測框,使其更加有利于重識別任務。Lan等人[96]提出一種行人身份判別注意力強化學習(IDEAL)方法,可以在自動檢測的邊界框內進行注意力選擇,從而優化行人重識別的準確性。
端到端的行人重識別也與多人多攝像頭跟蹤密切相關。針對多人跟蹤,Tang等人[97]提出一種基于圖的公式來連接人的假設,開發了行人重識別深度學習架構,它結合了人體整體特征和身體姿勢布局。Ristani 等人[98]通過一種難樣本挖掘技術和自適應權重的三元組損失,來學習多目標多攝像機跟蹤和行人重識別之間的關系。最近,Hou等人[99]提出了一套可學的關注局部鄰域內目標外觀的度量(LAAM)和局域感知的外觀度量(LAAM),即用于相機內和相機間的度量,并證明了局部學習的度量可成功應用于學習全局的ReID的特征。
不同于從視頻序列中搜索示例圖像中的端到端行人重識別,Yamaguchi等人[100]研究了一個更具挑戰性的問題,即從帶有文本描述的視頻中搜索行人,提出了一種多階段的時空行人檢測和多模態檢索方法,訓練得到的模型具有魯棒性,能夠應用于視頻剪輯檢索和時空動作檢測任務,但在這一方向上還有待進一步的探索。
全局特征方法將一幅圖像輸入到卷積網絡直接特征提取,方法簡單高效,但極易受背景噪聲影響,目前幾乎不再單獨使用;局部特征的方法能夠有效提取圖像細粒度信息,但忽略了全局語義信息,目前流行的方法是將圖像水平切塊,然后使行人局部對齊,并結合全局特征,注意力模塊等方法,極大地提高行人重識別性能;輔助特征方法利用GAN 技術數據增強,提高了模型的泛化能力,但增加了額外噪聲且模型復雜,訓練難度大,利用行人外觀屬性的描述提高模型性能,但需要額外的數據標注;主干網絡的設計能較好地符合行人重識別特定場景的應用,近年來,基于ViT的行人重識別方法,彰顯了巨大的發展潛能,但主干網絡設計需要豐富的經驗,復雜的調試,開發難度較大;視頻特征的方法能夠提取視頻序列中豐富的行人時序和空間信息,但訓練需占用較多的硬件資源;有監督行人重識別方法性能已接近飽和,近年來,越來越多的研究者關注弱監督的行人重識別方法,尤其是基于無監督行人重識別方法,減少了對標注數據的依賴,更具實際應用價值,但一般由于背景噪聲影響和聚類算法性能低導致模型性能欠佳;近年來,關于紅外圖像的行人重識別研究,在CVPR等頂級學術交流會議上論文較多,是目前研究的一個熱點,主要解決紅外圖像和RGB 圖像交叉模態行人特征匹配的問題,由于模態間難以提取具有判別力的共享特征等多種不明因素影響,模型性能有待較大提高;深度圖像特征學習利用3D 點云等技術捕捉行人特征,能很好地解決在行人換衣和光照不好情景下行人重識別的難題,但模型復雜,訓練難度較大;文本描述行人重識別方法挖掘文本描述和行人圖像之間的特征關系,當缺少目標人物圖像時的另一可行方案,但目前識別率較低;跨分辨率行人重識別方法一般將低分辨圖像通過超分辨或對抗學習技術轉化為高分辨率圖像,雖然豐富了圖像外觀信息,但卻引入了額外噪聲;端到端行人重識別將行人檢測和重識別技術集成在一個框架里,更能接近實際應用,但模型設計復雜,訓練難度較大。以上幾種行人重識別方法各自都有機制、優勢、局限性和適用范圍,具體如表1所示。

表1 不同類型行人重識別方法對比分析Table 1 Comparison and analysis of different types of person re-identification methods
總結了常用的單模態(表2)和跨模態行人重識別數據集。表2給出了常用的單模態11個數據集,包括7個圖像數據集(VIPeR[101]、iLIDS[102]、PRID2011[103]、CUHK03[104]、Market-1501[105]、DukeMTMC-ReID[27]和MSMT17[61])和4個視頻數據集(PRID-2011[103]、iLIDS-VID[106]、MARS[107]和DukeMTMC-VideoReID[46]);并列舉了跨模態行人重識別數據集如紅外行人數據集、深度圖像數據集、文本數據集和跨分辨率數據集。
(1)紅外行人數據集:2017 年發布的SYSU-MM01數據集[74],2 個紅外攝像機采集和4 個可見光攝像機的兩種圖像,采集環境包括室外和室內兩種情況包括來自6 個攝像頭的491 個身份的IR 和RGB 圖像,總共提供15 792 張IR 圖像和287 628 個RGB 圖像。2017 年3 月份RegDB數據集[108]使用紅外和可見光雙攝像機同時拍攝了412人。每人10幅可見光圖像和相應的10幅紅外圖像。其中女性254 人,男性158 人。156 人從正面拍攝,另外256人從背面拍攝。由于圖像是在人移動時拍攝的,因此每人的10幅圖像在光照條件、拍攝距離和姿勢上有所不同。但是,同一個人的10張圖像之間的相機的視角、天氣狀況和捕獲的視圖(前/后視圖)是相同的。
(2)深度圖像數據集:PAVIS數據集[83]由4組不同的數據組成。第1個“協作”組記錄79人緩慢行走、正面視圖、伸展手臂和避免遮擋。第2 組(“行走1”)和第3 組(“行走2”)數據由同樣79 人在進入工作室時正常行走的正面視圖組成。第4 組(“后視”)是人們離開工作室的后視記錄。因為拍攝地點和時間不同,所以無法保證服裝或配飾等視覺方面保持不變。BIWI RGBD-ID 數據集[109]收集50個不同的行人在不同的時間和地點的運動視頻序列,其中包括RGB圖像(1 280像素×960像素)、行人分割圖、深度圖像、骨骼數據和地平面坐標。另外,還收集了187 728 個人靜止和行走的序列圖作為測試集,以大約8~10 幀/s 速度拍攝視頻,每人的拍攝時間約為1 min,每人正對攝像機走兩次,對角走兩次,因為拍攝地點和時間不同,所以同一人的服裝也不同。
(3)文本數據集:CUHK-PEDES 數據集[85]包含13 003 個身份的40 206 幅行人圖像。每個行人圖像由兩個不同的文本描述。總共收集了80 412 個句子。包含關于人的外表、動作、姿勢和交互的豐富細節。句子描述一般較長(平均>23個詞),詞匯量豐富,重復信息少。數據集中共有1 893 118 個單詞和9 408 個唯一單詞。最長的句子有96個詞,平均詞長為23.5。Flickr30k[110]是最大的跨模態檢索數據集之一。它包含從Flickr網站收集的31 783張圖片,其中每張圖片有5句文本描述。
(4)跨分辨率數據集:MLR-VIPeR 是從VIPeR[101]數據集構建的。VIPeR包含由兩個攝像頭捕獲的632個人像對。每張圖像都是高分辨率的128×48像素。為了使該數據集適用于LR人員重新識別評估,按照從{1/2,1/3,1/4}隨機選取采樣率對來自一個攝像機視圖的所有圖像進行下采樣,而另一個視圖的其余圖像相同。
為能直觀對比,本文根據模型算法和數據集提取方式不同分別介紹基于深度學習的行人重識別模型性能對比,包括監督學習在圖像數據集下的表現(表3)、監督學習在視頻數據集中的表現(表4)、無監督學習在常用數據集的表現(表5)和跨模態行人重識別方法在常用的行人數據集上的表現(表6)。

表3 有監督學習在圖像數據集下的表現Table 3 Performance of supervised learning under image datasets %

表4 有監督學習在視頻數據集中的表現Table 4 Performance of supervised learning under video datasets %

表5 無監督學習下的表現Table 5 Performance of unsupervised learning %

表6 跨模態行人重識別算法性能比較Table 6 Performance comparison of cross-modality Re-ID %
從表3可以看出,有監督學習行人重識別模型在圖像數據集上取得了很大進步,在Market-1501數據集上,Rank1 準確率從2018 年的83.7%上升至98.0%提升了14.3個百分點;在DukeMTMC-ReID數據集上,Rank1準確率從2018 年的76.44%上升至94.7%提升了18.26 個百分點。比較得出,局部特征模型在數據集上性能表現較優。不同模型在不同數據集上的取得效果也不一致,研究人員仍需進一步關注模型的性能。
從表4 中看出,隨著深度學習技術的發展,監督學習行人重識別模型在視頻數據集上的性能在不斷提高。具體來說,在PRID-2011數據集上,Rank1準確率從2016年的70%提高到2021年的96.2%;在iLIDS-VID數據集上,Rank1準確率從58%提高到90.4%;在MARS數據集上,準確率從2017年的44%提高到91.0%。
從表5可看出,無監督行人重識別得到了越來越多的關注,這可以從頂級出版物數量的增加中得到證明。無監督行人重識別模型性能近年來顯著增加。在Market-1501數據集上,Rank1準確率在四年內從62.2%提高到92.2%;DukeMTMC-ReID 數據集性能從46.9%提高到82.0%。監督學習的上界與無監督學習的差距顯著縮小,這證明了無監督行人重識別的成功。
從表6可以看出,近年來跨模態行人重識別模型大部分是基于度量學習方法和基于特定的特征模型,基于跨分辨率行人重識別主要應用統一模態的方法,基于文本的行人重識別任務較難實現統一模態方法,而統一模態方法還未深入研究和應用。
大多數現有的行人重識別工作在數據集標注完善的場景下評估他們的方法。然而,真實復雜環境中的數據采集是不可控的。數據可能來自不可預測的模態、模態組合,甚至是衣服更換。因此,在行人重識別領域還有許多需要研究的方向。
(1)半監督、無監督模型研究。目前行人重識別數據集樣本量與百萬級的人臉數據集相比相差甚遠,且人工標注成本高,因此半監督和無監督學習雖然在性能上與監督學習有一定差距,但能減少對數據集標注的依賴,有利于擴充數據集。將來半監督學習應該致力于如何利用較少標注數據集和較多的未標注數據集來提取有判別力的行人特征。面對未標注的數據,無監督模型應探索有效的特征映射空間。無監督中遷移學習能夠解決目標域不同場景變換問題,克服場景變換是領域自適應的重要研究方向。
(2)跨模態行人重識別模型。在實際應用中,數據可能是從多個模態中收集的,即人物圖像的分辨率變化很大,查詢集和圖庫集可能包含不同的模態(RGB 圖像,紅外圖像,深度圖像或配有文字說明的圖像),這對于行人重識別任務具有重大挑戰。具有實際應用價值的行人重識別系統要能夠自動處理不斷變化的分辨率、不同模態、各種環境和多個域的圖像。因此,如何綜合多種跨域場景,設計一種更具適應性和魯棒性的模型具有重要的理論意義和實用價值。
(3)換衣行人重識別方法研究。在實際的監控系統中,很可能包含大量換衣服的目標人員。目前研究方法較少,部分研究人員通過提取面部、身體上下文信息和空間極坐標變換來解決這個問題,然而,他們仍然嚴重依賴面部和身體外觀,這可能是在真實場景中是不穩定的。研究者可進一步探索其他具有辨別性的線索(例如步態、姿勢,3D模型)來解決換衣問題。
(4)端到端模型。在單個框架中同時涉及行人檢測和重新識別的端到端模型研究較少。由于大多數數據集是在受控環境下收集的,人員檢測通常是先驗條件,因此模型具有較高性能,但實際場景復雜多變,將行人檢測和重識別相結合的端到端的模型更加符合實際需要和應用價值。
行人重識別是計算機視覺領域的一個熱門話題,幾年越來越多的學者關注這一領域,而深度學習極大地促進了該領域的發展。本文首先圍繞特征提取方式不同介紹了監督學習行人重識別中特征學習、度量學習和排序優化三個方面;同時著重介紹了未來具有重大研究潛力的半監督學習,無監督學習,跨模態數據和端到端的行人重識別;之后,并介紹了不同模型算法常用的數據集和多種算法比較分析;最后展望未來值得研究的問題和方向。