陳 丹,李永忠,于沛澤,邵長斌,
1(江蘇科技大學 計算機科學與技術系,鎮江 212003)
2(南京大學 計算機學院,南京 210023)
隨著社會的進步與發展,人們的安全意識逐漸加強,對公共安全的要求也越來越高,大量的攝像頭被安裝在街道、商場、高鐵站、電影院等公共場所進行監控.由于大型攝像網絡的建立,視頻信息數據量十分龐大,使得僅僅依靠人力來準確有效地定位人的行蹤或通過攝像機跟蹤一個人變得極其困難,傳統的人工處理和識別監控視頻的方法已經無法適應現在網絡發展的趨勢.隨著人工智能和深度學習的興起,出現了利用機器處理視頻數據,在跨攝像鏡頭下識別行人的技術,稱為行人重識別(person Re-IDentification,簡稱Re-ID).行人重識別技術能夠快速有效的尋找特定的行人,在實際生活中應用性很強,由此得到了學術界的廣泛關注,成為計算機視覺領域的一個重要的研究熱點.
先前大部分的研究工作主要關注可見光的行人重識別問題,并且取得了很大的成功.然而,在現實生活中,犯罪分子往往都是夜間作案,可見光攝像機無法捕捉到有效的行人外觀特征.隨著科技的進步,大量的紅外攝像頭在視頻監控系統中投入使用,利用紅外線捕捉行人的外貌特征,幫助執行監察工作,大大地提高了破案的效率.因此,RGB-IR 跨模態行人重識別技術被提出,解決該問題對公共安全和刑偵有著非常重要的現實意義[1],在加強社會管理、預防犯罪行為發生、維護國家安全等方面具有廣闊的應用前景.
2.1.1 定義
行人重識別是圖像檢索的一個子任務,目的是在一系列由獨立監控攝像頭拍攝的圖像中尋找特定的人[2],即判斷跨鏡頭下是否是同一個行人,如圖1所示.大部分的識別工作關注于RGB-RGB 的圖像匹配,所以行人重識別也叫做單模態下行人重識別.
2.1.2 面臨的問題
行人重識別技術在現實生活中受到圖像分辨率低、不同的光照條件及視角、行人姿態變化以及外界遮擋等許多挑戰.在這些因素下,即使是同一個行人,在不同的攝像頭下也會造成很大的外觀差異,難以區分.
2.1.3 發展現狀
單模態行人重識別的研究主要有兩個關鍵點,一是特征提取,即對目標行人圖像和候選行人圖像進行學習,提取出具有魯棒性的行人特征;二是度量學習,即計算兩者特征向量之間的距離,比較它們的相似性.早期的工作主要利用顏色直方圖、Gabor 特征[3]、HOG 特征[4]、LBP[5]、顏色域[6]、SIFT 特征[7]等方法,以手工方式提取行人特征,再利用LMNN[8]、PRDC[9]、KISSME[10]、RDC[11]、LFDA[12]、XQDA[13]等算法進行相似性度量學習.但是由于人工方式的局限性,難以適用當今社會的大數據任務,取得的成果也不太理想.直到2012年,卷積神經網絡在ImageNet[14](ILSVRC)大型視覺識別大賽上獲得了冠軍,由此以卷積神經網絡為代表的深度學習開始流行起來.Li 等首次將深度學習應用到行人重識別中,取得了驚人的效果.從此,越來越多的學者將深度學習與行人重識別技術相結合,通過提取魯棒的局部特征[15,16],設計不同的損失函數[17,18]等方法提高了模型的泛化能力,在公開數據集上達到了非常高的準確率.

圖1 行人重識別示意圖
2.2.1 定義
當白天外界環境光線不足或者夜晚時,可見光攝像頭無法拍到清晰的行人圖像,而紅外攝像頭可以利用紅外線采集到行人圖像,實現24 小時的監控.與單模態行人重識別不同,RGB-IR 跨模態行人重識別主要研究紅外圖像與可見光圖像之間的匹配,即給定一個特定人物的可見(紅外)圖像,嘗試從由其他光譜相機采集的圖庫中搜索相應的紅外(可見)圖像,如圖2所示.
2.2.2 面臨的困難
RGB-IR 跨模態行人重識別在現實世界具有很強的實用性,但它很少被研究.直到近幾年來,才受到學術界的關注.在研究的過程中存在很大的困難,具體問題:
(1)兩個模態之間的巨大差異.從本質上來講,RGB圖像和IR 圖像有很大的不同,RGB 圖像有3 個包含可見光顏色信息的通道,而IR 圖像只有一個包含不可見光信息的通道;從圖像成像的原理來講,RGB 圖像和IR 圖像的波長范圍也不同,IR 圖像丟失了顏色,曝光等重要的信息,使的識別更加困難.
(2)傳統行人重識別的模態內差異,例如視角變化,姿態變化等問題仍然存在.以上情況都給RGB-IR 跨模態行人重識別的研究帶來了巨大的挑戰,導致在現實生活中無法應用.

圖2 RGB-IR 跨模態行人重識別
2.2.3 發展現狀
早期,Jungling 等[19]使用紅外圖像進行匹配,但是只考慮了IR-IR 圖像之間的識別.后來有學者關注文本與圖像之間的檢索,Zhao 等[20]提出了新穎的端到端的深度學習框架,首次將多視圖問題轉換為單視圖哈希問題.Peng 等[21]首次使用GAN 學習文本和圖像之間的共享特征,解決了它們之間的差異.由于文本和紅外圖像之間的不同,這些方法無法在跨模態行人重識別中直接使用.直到2017年,Wu 等[22]首次為RGBIR 行人重識別的研究提供了一個公開的基準SYSU Multiple Modality Re-ID (SYSU-MM01)數據集,與常用的行人重識別數據集[23–27]比較,如表1所示,有很大的不同.隨后,越來越多的人開始投入到RGB-IR 跨模態行人重識別的研究中去,由此開啟了跨模態行人重識別的研究大門.

表1 SYSU-MM01 與傳統行人重識別數據集的比較
跨模態行人重識別是近幾年新興的研究方向,相比于其他領域起步較晚,發表在頂級計算機視覺會議上的文章相對較少.解決跨模態行人重識別的關鍵在于學習兩種模態的共享特征,減小不同模態之間的差異.起初的方法一般同時考慮特征學習和度量學習,先用雙路的卷積網絡分別提取RGB 圖像和紅外圖像的特征,然后將兩個模態的特征輸入共享參數的網絡.隨著對跨模態行人重識別的深入研究,出現了越來越多的優秀算法,并逐漸取得不錯的效果,識別率得到了很大的提高.
下面對目前的RGB-IR 跨模態行人重識別的方法進行歸納總結,跨模態行人重識別可分為3 類.
基于統一特征模型法,即將不同模態的信息映射到相同的特征空間后學習出具有鑒別性和魯棒性的特征模型,從而減小模態間數據的差異.
最初,Wu 等[22]分析了3 種不同的網絡框架(單路網絡、雙路網絡和非對稱的全連接網絡)之間的關系,發現所有的結構最終都可以用單路網絡結構表示,并且提出深度補零操作,將RGB 圖像轉換為單通道的灰色圖像放置在第一通道,其補零圖像放置在第二通道,將IR 圖像直接放置在第二通道,其補零圖像放置在第一通道,這樣可以靈活的學到特定域的信息,最終提出深度補零優化單路網絡結構的方法解決跨模態行人重識別問題.
后來,許多工作運用雙路網絡結構學習共享特征.Ye 等[28]利用雙路網絡結構學習RGB 和IR 圖像的共有特征,并提出了一種分層跨模態學習方法(Hierarchical Cross-modality Matching Model,HCML)融合特征損失和對比損失進行相似度學習.Dai 等[29]首次將GAN 應用到跨模態行人重識別中,提出了一種跨模態生成對抗網絡(cross-modality Generative Adversarial Network,cmGAN),利用生成器學習不同模態下的特征,利用鑒別器進行模態分類,結合識別損失和跨模態三重損失訓練,減少了跨模態的差異和模態間的變化.考慮到不同的CNN 結構對應著不同的語義特征,Liu 等[30]提出了一種增強鑒別特征學習(Enhancing the Discriminative Feature Learning,EDFL),采用端到端的雙流網絡結構,融合中層特征提取出更具有魯棒性的特征.在傳統的雙路結構的基礎上,Zhang 等[31]設計了一種雙路徑空間結構保持的公共空間網絡(DSCSN)和一個對比相關網絡(CCN),采用三維張量表示特征空間而不是傳統的一維向量,增加對比特征的學習有利于區別不同的行人.Hao 等[32]考慮了空間和模態的一致性,采用局部特性來提取模態的不變信息,并設計了一個類內分布損失函數來減小可見圖像和紅外圖像之間的間隙以及一個類內相關損失來對齊可見圖像和紅外圖像的特征空間.Xiang 等[33]利用RGB 和IR 圖像之間的內在聯系,提出了一個端到端的雙路多分支交叉模態網絡,并引入MGN 架構學習具有鑒別性的跨模態特征,通過結合圖像的局部和全局信息來提取魯棒性的特征.
基于度量學習的跨模態行人重識別,目前的工作主要集中在采用不同的度量方法或者設計不同的損失函數提高模型的泛化能力,目的是縮小兩個模態同ID 各個圖像之間的距離和跨模態同ID 各個圖像之間的距離,增大跨模態不同ID 各個圖像之間的距離.Ye 等[34]同時考慮模態間和模態內的變化,在雙路網絡結構的基礎上設計了一種基于雙向約束高階損失(Bi-directional Dual-constrained Top-Ranking loss,BDTR)對行人特征進行約束.Hao 等[35]提出了超球面流行嵌入網絡(Hyper-Sphere Manifold Embedding network,HSME),該方法主要通過Sphere Softmax 函數將學習到的共享特征映射到超球面上,結合身份損失和排序損失訓練模型,再使用KL 散度衡量兩個領域預測的匹配性,最終通過單矢量分解(SVD)方法修正Sphere Softmax 最大值權矩陣.Lin 等[36]首次將單模態下行人重識別的網絡遷移到跨模態行人重識別中,提出了新的特征學習框架(Hard Pentaplet and Identity Loss Network,HPILN),設計了新的硬五態損失結合特征損失提高模型的準確性.通過引入協同學習,Ye 等[37]提出了一種基于雙流網絡的模式感知協同學習方法(Modality-Aware Collaborative,MAC )同時處理特征級和分類器級的模態差異,并提出協同學習方案來規范共享模式和特定模式的身份分類器.Zhu 等[38]設計了雙流局部特征網絡(Two-Stream Local Feature Network,TSLFN),為了改進類內跨模態相似性,提出異質中心損失(HC loss)限制兩個異質模態中心之間的距離.Ye 等[39]在雙路網絡的基礎上提出了一個雙向中心約束頂級排序(eBDTR),將前兩個約束合并到一個公式中,同時解決了跨模態和模態內變化.
區別于一般的解決方法,考慮到將不同模態的圖像數據轉換成統一的模態數據可以在很大程度上減小兩種模態的差異.
隨著生成對抗網絡(GAN)的發展,CycleGAN[40]、PNGAN[41]、FDGAN[42]等方法的提出可以實現圖片風格的轉換,有效地緩解了模態差異這一難點.大部分工作主要使用GAN 進行圖像轉換,主要思想是將RGB圖像轉換為對應的IR 圖像或者將IR 圖像轉換為對應的RGB 圖像,之后再進行單模態下的行人重識別的一般操作,可以有效地提高識別率.Wang 等[43]提出一種雙級差異減少方法(Dual-level Discrepancy Reduction Learning,D2RL),具體來講,圖像級差減子網絡TI利用GAN 將RGB (IR)圖像生成其對應的IR (RGB)圖像,形成統一的多光譜圖像,減少了模態間差異;在統一的基礎上,特征級差減子網絡TF利用傳統的Re-ID 方法減小外觀差異,兩個子網絡TIand TF以端到端的方式進行聯合訓練.Wang 等[44]提出一種對齊生成對抗網絡(Alignment Generative Adversarial Network,AlignGAN),包含像素對齊模塊(P),特征對齊模塊(F),聯合判別模塊(Dj)3 個模塊,P 模塊利用CycleGAN 模型將RGB 圖像訓練生成偽IR 圖像,并通過cycleconsistency loss 和identity loss 進行訓練,Gp 減少跨模態間差異,F 模塊用特征生成器Gf 將偽紅外圖像和真紅外圖像編碼到一個共享的特征空間中以減少模式內的差異,Dj 使得Gp 和Gf 相互學習,最終學習到魯棒的特征.
不同于上述利用GAN 的思想,利用CycleGAN 等方法會產生噪聲圖像,影響最終的圖像匹配效果.Tekeli 等[45]將RGB 圖像轉換為灰度圖像后,提出了基于距離的分數層,利用距離度量對網絡進行訓練.Basaran 等[46]提出了四流網絡結構學習有區別性的特征,將圖像進行轉換后作為輸入圖像,在每個流中利用CNN 單獨訓練,從每個流中學習不同且互補的特征.Wang 等[47]提出了生成跨模態配對圖像,并執行全局集合級和細粒度實例級對齊,這種方法可以通過解開特定于模態和模態不變的特征來執行集合級對齊,同時可以從交換的圖像生成跨模態成對圖像,最小化每對圖像的距離直接執行實例級對齊.
為了評估跨模態行人重識別的相關方法,一般在公開數據集上進行實驗,并通過統一的評價標準來評估所提出方法的性能.下面介紹了跨模態行人重識別的相關數據集和評價標準.
目前只有兩個公開數據集,如表2所示,用于跨模態行人重識別的實驗.
SYSU-MM01[22](圖3)是在2017年首次公開跨模態行人重識別的數據集,也是目前最具有挑戰性的數據集.它由6 個攝像頭采集的圖像組成,分別是2 個紅外攝像頭和4 個可見光攝像頭.紅外攝像頭與可見光攝像頭不同,即使在黑暗環境下,它也能正常的工作,捕捉到行人的特征.該數據集包含491 個不同身份行人,其中296 個用于訓練,99 個用于驗證,96 個用于測試,總共有30071 張RGB 圖片和15792 張IR圖片.
RegDB 數據集[48](圖4)同時使用可見光攝像頭和紅外攝像頭拍攝.總共有412 個不同的行人,其中女性254 人,男性158 人,每個人分別對應10 張可見光圖像和10 張紅外圖像,其中拍攝到156 個行人的正面,256 個行人的背面.該數據集總共有4120 張可見光圖像和4120 張的熱圖像.

圖3 SYSU-MM01 數據集行人實例

圖4 RegDB 數據集行人實例
(1)CMC 曲線
CMC 曲線全稱是Cumulative Match Characteristic(CMC)Curve,即累計匹配曲線,是行人重識別重要的評測指標,它可以綜合反映分類器的性能.具體來說,在候選行人庫(gallery)中檢索待查詢(probe)的行人,前k個檢索結果中包含正確匹配結果的比率,通常用Rank-k的形式表示.Rank-1 識別率就是表示按照某種相似度匹配規則匹配后,第一次就能返回正確匹配的概率,即最匹配候選目標剛好為待查詢圖片目標的概率,Rank-5 識別率就是指前5 個匹配候選目標中存在待查詢圖片目標的概率.
(2)mAP 均值平準精度
目前大部分的研究都是跨多個攝像頭,而CMC 曲線只適用于兩個攝像頭之間的檢索,因此Zheng 等人[49]提出了均值平均精度(mean Average Precision,mAP)對算法進行評估.mAP 的具體操作是,分別求出每個類別的AP 值后取平均值.AP 值是求PR 曲線下的面積,綜合考慮了P(準確率)和R(召回率),是衡量一個模型好壞的標準.
本節對近些年具有代表性算法進行分析,基于統一特征模型和度量學習的方法包括Deep Zero-Padding[22]、HCML[28]、cmGAN[29]、EDFL[30]、DSCSN+CCN[31]、DFE[32]、BDTR[34]、HSME[35]、HPILN[36]、MAC[37]、TSLFN+HC[38]、eBDTR[39]、IPVT-1 and MSR[50];基于模態轉換的方法包括D2RL[43]、AlignGAN[44]、Dist.based[45]、4-stream framework+LZM[46].表3總結比較了這十余種方法在跨模態行人重識別數據集RegDB 和SYSU-MM01 的識別率以及發表狀況.采取準確率(Rank-1)和平均準確率(mAP)作為評價標準,—表示沒有實驗結果.
總的看來,跨模態行人重識別方法發展迅速,最優的與最初的算法相比,準確率大概增長50%.在RegDB 數據集上,DSCSN+CCN[31]取得了最高識別率,Rank-1 達到60.80%,mAP 達到60.00%.在SYSUMM01 數據集上,4-stream framework+LZM[46]效果最好,Rank-1 達到63.05%,mAP 達到67.13%.在上述算法中,HSME[35]、IPVT-1 and MSR[50]、EDFL[30]、DSCSN+CCN[31]和AlignGAN[44]在RegDB 數據集上識別率超過50%,而在SYSU-MM01 數據集上,只有TSLFN+HC[38]和4-stream framework+LZM[46]準確率超過了50%.大部分方法在SYSU-MM01 數據集上的識別率都比在RegDB 數據集上高,表明數據集SYSUMM01 比RegDB 更具有挑戰性.在2019年發表在期刊上的優秀論文迅猛增長,跨模態行人重識別逐漸得到學術界的重視.經分析,我們發現網絡結構越來越復雜,起初采用單流和雙流結構,到目前有人提出四流網絡結構,學習到更具鑒別性的特征;同時發現基于模態轉換的方法相比于其他方法,識別率提升較高,存在巨大的優勢.

表3 跨模態行人重識別方法在數據集RegDB 和SYSU-MM01 的識別結果
跨模態行人重識別是行人重識別的一個新的發展趨勢,對智能化社會有著重要的研究意義和應用價值.雖然目前取得了一定的研究成果,但跨模態行人重識別的發展仍處在初級階段.想要取得更大的突破,未來的發展方向可以從以下方面考慮.
(1)構建高質量的數據集.現有跨模態行人重識別的數據集數量少,并且其規模也很小只包含了幾百個行人的ID,可供訓練的圖片非常有限,影響跨模態行人匹配的效果.同時目前數據集的場景不夠豐富[51],但是現實會遇到多樣的環境,不同的環境,不同的光線等因素都會影響跨模態圖像之間的匹配,造成很大的差異.
(2)關注模態轉換的研究.研究者們通常采用一般的方法,結合特征提取和度量學習解決模態間和模態內變化.根據對現有方法的分析,發現采用模態轉換的方法,識別率明顯優于傳統的方法.其中GAN、風格遷移等方法可以有效地實現兩個域之間的轉換,有效緩解模態間的差異.
(3)結合局部特征學習.在行人重識別中顏色是區別行人的有效信息,由于紅外圖像特殊性,無法在跨模態行人重識別中使用.因此,其他的信息變得異常關鍵,我們可以結合局部特征,學習出具有魯棒性特征,從而提高行人識別率.