摘要 行人重識別(Re-ID)旨在跨像機檢索同一目標行人,它是智能視頻監(jiān)控領域的一項關鍵技術.由于監(jiān)控場景的復雜性,單模態(tài)行人重識別在低光、霧天等極端情況下的適用性較差.因?qū)嶋H應用的需要以及深度學習的快速發(fā)展,基于深度學習的多模態(tài)行人重識別受到了廣泛的關注.本文針對近年來多模態(tài)行人重識別的發(fā)展脈絡進行綜述:闡述了傳統(tǒng)單模態(tài)行人重識別方法存在的不足;歸納了多模態(tài)行人重識別的常見應用場景及其優(yōu)勢,以及各數(shù)據(jù)集的構(gòu)成;重點分析了各種場景下多模態(tài)行人重識別的相關方法及其分類,并探討了當前研究的熱點和挑戰(zhàn);最后,討論了多模態(tài)行人重識別的未來發(fā)展趨勢及其潛在應用價值.關鍵詞深度學習;神經(jīng)網(wǎng)絡;行人重識別;多模態(tài)
中圖分類號TP391.41文獻標志碼A
0引言
隨著城市現(xiàn)代化建設的加速發(fā)展和智能安防的普及,行人重識別(Person Re-identification,Re-ID)作為智能視頻分析領域的重要技術,具有不可或缺的作用.Re-ID任務的核心目標是在不同的監(jiān)控攝像機下提取行人圖像衣著、配飾、體態(tài)等特征實現(xiàn)對同一行人的識別.由于實際應用的需要,Re-ID技術得到了越來越多的重視,并在智能安防、智能交通、無人駕駛等領域[1] 得到了廣泛應用.然而,由于監(jiān)控場景的復雜性以及多樣性,采集的行人圖像面臨光照、視角、姿勢變化,以及遮擋等因素的影響,存在巨大的模態(tài)內(nèi)差異,行人重識別仍然具有一定的挑戰(zhàn)性.
為了應對上述挑戰(zhàn),近年來,研究人員專注于緩解外在因素引起的類內(nèi)變化,通過優(yōu)化特征提取算法和增強數(shù)據(jù)預處理技術,顯著地減少了由光照、視角和姿勢變化等導致的識別誤差.然而,可見光圖像在弱光、雨天、霧天等復雜條件下的成像質(zhì)量較差,限制了可見光單模態(tài)行人重識別在極端場景下的適用能力.考慮到不同傳感器捕獲的目標行人信息具有互補性,學者們開始探索其他非可見光模態(tài)信息的利用[2-4],例如紅外圖像、草圖、文本描述等,以最大化其互補優(yōu)勢,此類模態(tài)信息能夠在不同環(huán)境條件下提供穩(wěn)定的特征信息,有效補充或替代可見光圖像,提升模型整體的識別性能.
多模態(tài)行人重識別可以分為兩種:1)跨模態(tài)行人重識別;2)模態(tài)融合行人重識別.具體來說,跨模態(tài)行人重識別旨在確立兩種不同模態(tài)之間的有效匹配關系,例如從可見光到紅外圖像[5]、從草圖到可見光圖像[6]、從文本到圖像[7]等,而模態(tài)融合行人重識別旨在充分利用多種模態(tài)信息之間的互補性和協(xié)同性,融合不同角度的行人判別性信息以豐富行人的特征表示,進而實現(xiàn)更全面、更準確的識別.
隨著多模態(tài)行人重識別任務的飛速發(fā)展,研究者提出了多種涉及多模態(tài)信息利用的應用場景及方法[8-9].本文將重點介紹基于深度學習的多模態(tài)行人重識別方法,首先闡述其相關知識,隨后介紹各種應用場景中的常用方法和相關數(shù)據(jù)集,最后是總結(jié)和展望.
1相關知識
1.1單模態(tài)行人重識別
行人重識別作為智能圖像處理領域的一個重要研究課題,其核心目標是跨攝像機追蹤和識別行人.由于監(jiān)控場景的復雜性,行人重識別技術仍面臨許多亟待解決的難題[10]:1)由于監(jiān)控系統(tǒng)中硬件設備及其部署的遠近距離不同,獲取的行人圖像可能存在分辨率不同的情況(圖1a);2)由于行人圖像或視頻的拍攝角度和地點不同,會產(chǎn)生光照、姿勢、視角變化,對行人的外觀特征產(chǎn)生巨大影響(圖1b—d);3)真實場景中行人處于移動狀態(tài),不可避免地會出現(xiàn)行人部位遮擋(圖1e);4)某些復雜場景會導致檢測框不準確(圖1f).
針對上述問題,當前的方法主要側(cè)重于表示學習[11-18]和度量學習[19-22].表示學習側(cè)重于學習如何從原始數(shù)據(jù)中提取更具有表現(xiàn)力的行人特征表示.Chen等[11]提出一種空間和通道分區(qū)表示網(wǎng)絡(SCR),在金字塔多分支架構(gòu)中將特征圖按通道分為相互關聯(lián)的特征組,并聯(lián)合全局特征構(gòu)建具有識別性和概括性的特征表示.Chen等[13]引入一種自我批評注意力學習方法,批評者衡量注意力質(zhì)量并提供強大的監(jiān)督信號來指導特征學習過程;此外,批評者模型通過估計注意力圖的質(zhì)量,有助于解釋學習過程中注意力機制的有效性.度量學習側(cè)重于設計一個合適的度量或距離函數(shù),以便在特征空間中更好地衡量各樣本的相似度或差異性,常用的度量函數(shù)有身份損失函數(shù)、三元組損失函數(shù)等.Yi等[19]使用“暹羅”深度神經(jīng)網(wǎng)絡聯(lián)合學習顏色特征、紋理特征,使用二項式偏差來評估相似性和標簽之間的成本.Sikdar等[21]提出一種批量自適應三元組損失函數(shù),使最硬樣本的權(quán)重根據(jù)其與錨的距離自適應調(diào)整,較好地克服了圖像尺度對模型效果的影響.
然而,這些模型通常針對單一可見光模態(tài)設計,當涉及具有較大模態(tài)差異的多模態(tài)重識別任務時,這些方法一般不適用.
1.2多模態(tài)行人重識別
不同于單模態(tài)行人重識別,多模態(tài)行人重識別考慮到可見光圖像在低光、霧天等極端場景中成像質(zhì)量差的特殊情況.本文將多模態(tài)行人重識別分為兩種:1)跨模態(tài)行人重識別;2)模態(tài)融合行人重識別.
當前常見的跨模態(tài)行人重識別任務有可見光紅外行人重識別(Visible-Infrared Person Re-identification,VIReID)、草圖到可見光圖像行人重識別(Sketch ReID)、文本到可見光圖像行人重識別(Text-to-Image Person Re-identification,TIReID)等.
行人紅外圖像可以反映目標物體的熱分布情況,這種熱分布信息在惡劣天氣或者復雜環(huán)境的情況下(如夜間、弱光條件下、雨天、霧天、遮擋等)也能提供魯棒性較強的行人信息.但由于可見光與紅外圖像之間存在較大的模態(tài)差異,除固有的模態(tài)內(nèi)變化外,可見光紅外行人重識別還需應對模態(tài)間差異帶來的匹配困難問題.Wu等[23]首先為行人重識別構(gòu)建了一個名為SYSU-MM01的大規(guī)??梢姽饧t外數(shù)據(jù)集,并引入了一種深度零填充方法自動推進網(wǎng)絡中的特定領域節(jié)點進行跨模態(tài)對齊.最近,學者們提出了基于模態(tài)不變特征學習的可見光紅外行人重識別,將各模態(tài)的特征映射到共享的特征空間中[24-25],此種方法注重學習模態(tài)間的共享特征,不能充分利用各模態(tài)的特定線索.Zhang等[26]提出一種師生對抗模型(TS-GAN)將現(xiàn)有的可見光數(shù)據(jù)生成偽紅外表示,以減少跨模態(tài)變化并指導模型提取模態(tài)特定特征.
行人的文本描述通常包含有關行人外貌特征和環(huán)境的描述,例如行人衣著顏色、發(fā)型、面部特征、所處地點等.在很多刑事案件中,工作人員可以根據(jù)證人的自然語言描述直接搜索目標行人圖像,即文本到圖像行人重識別任務.Li等[2]首先提出用自然語言描述搜索目標行人的問題.Zhou等[27]通過使用注意力機制引導模型對齊圖像和文本模態(tài)的行人表示,充分利用行人的識別性信息.最近,Shao等[28]分析了視覺和文本模態(tài)之間的粒度差異,提出一種基于文本行人重識別的粒度統(tǒng)一表示學習方法,緩解了文本圖像信息粒度不統(tǒng)一的問題.
另一方面,還可以根據(jù)文字描述制作行人草圖進行間接行人搜索.行人草圖描述通常包含對行人輪廓的簡略描繪,強調(diào)身體的整體形狀、輪廓和姿勢等基本外觀特征.此外,草圖還可以強調(diào)一些特殊的標志或細節(jié),如發(fā)型、眼鏡、服裝上的圖案和手部動作等.Pang等[29]首先提出使用專業(yè)草圖作為查詢在RGB圖庫中搜索目標人物,設計了跨模態(tài)對抗性學習方法來挖掘模態(tài)不變的特征表示.Chen等[3]提出一種新穎的非對稱解耦方案解決草圖和RGB模態(tài)之間的信息不對稱問題.
考慮到跨模態(tài)行人重識別利用的模態(tài)信息有限,而模態(tài)融合行人重識別聯(lián)合利用多種模態(tài)信息,最大化模態(tài)間的互補優(yōu)勢,獲得更加全面的行人表示,提高模型在復雜場景中的性能.為了探索草圖模態(tài)和文本模態(tài)特征間的互補性,Zhai等[30]引入一種多模態(tài)行人重識別任務,它將草圖和文本模態(tài)結(jié)合起來作為檢索查詢.為了解決描述性行人重識別模態(tài)缺失問題,Chen等[31]首次提出了用描述性行人重識別來研究模態(tài)不可知的重識別任務,聯(lián)合訓練文本到RGB、草圖到RGB、文本和草圖到RGB三個任務,集成跨模態(tài)和多模態(tài)任務學習.
然而,當前的研究更多地側(cè)重于處理兩種模態(tài)的數(shù)據(jù),涉及三種及以上模態(tài)數(shù)據(jù)處理的方法較少,多模態(tài)行人重識別的更多應用場景及方法有待深入探索和拓展,從而更好地適應實際的應用需求.
2基于深度學習的常用方法
深度學習的興起顯著推動了行人重識別領域的進步,尤其是與神經(jīng)網(wǎng)絡相關的一系列算法[32-34]表現(xiàn)出色,研究人員開始關注基于深度學習的多模態(tài)行人重識別任務,其中最具代表性的是跨模態(tài)行人重識別.本章將首先介紹不同場景的跨模態(tài)行人重識別方法,隨后論述模態(tài)融合行人重識別相關方法,最后對現(xiàn)有的多模態(tài)學習架構(gòu)做分類概括.
2.1跨模態(tài)數(shù)據(jù)對齊
根據(jù)查詢和目標數(shù)據(jù)的模態(tài),跨模態(tài)行人重識別可分為可見光到紅外、草圖到可見光圖像和文本到圖像行人重識別等.由于不同模態(tài)信息的數(shù)據(jù)分布不同,不同模態(tài)間存在巨大的模態(tài)差異,因此,跨模態(tài)特征對齊存在極大困難.為充分學習不同模態(tài)的相關匹配信息,需設計合適的特征提取和匹配模型.本節(jié)對可見光到紅外、草圖到可見光圖像和文本到圖像三種跨模態(tài)行人重識別方法及其分類做詳細介紹.由于可見光到紅外行人重識別和草圖到可見光圖像行人重識別方法分類類似,故將其同時進行可視化(圖2).
2.1.1可見光紅外行人重識別
可見光紅外行人重識別旨在利用一種模態(tài)組成的查詢集與另一模態(tài)組成的候選集進行匹配,例如可見光到紅外圖像匹配和紅外到可見光圖像匹配.該任務主要有兩方面挑戰(zhàn):模態(tài)內(nèi)變化和模態(tài)間差異.模態(tài)內(nèi)變化主要是由同一模態(tài)下光照、視角、行人姿勢等條件的變化引起,而模態(tài)間差異是由可見光和紅外圖像間的特征分布造成的.具體來說,可見光和紅外圖像的成像原理不同,前者通常具有三個通道,主要包含色彩和紋路等豐富的視覺信息,而后者只有一個通道,提供輪廓和熱力信息,細節(jié)信息較少,因此,二者的特征分布各異,進而造成同一身份模態(tài)間差異大于不同身份之間的模態(tài)內(nèi)差異.
現(xiàn)有的方法可以分為基于模態(tài)共享特征學習[4,35-36]和基于模態(tài)補償學習[37-39]兩種.模態(tài)共享特征學習側(cè)重于將不同模態(tài)特征投影到共享空間中,進而學習共享特征(圖2a).而基于模態(tài)補償學習側(cè)重于對現(xiàn)有的模態(tài)做圖像或特征補償,從多角度獲取行人判別性信息,以獲得更加全面的行人表示(圖2b、c).
基于模態(tài)共享特征學習的方法試圖提取可見光圖像與紅外圖像的共享特征,進而獲取有判別性的行人表示(圖2a).常用方法有探索多級特征[4,35,40-42]、挖掘全局和局部信息[43-44]、采用頻度信息[45-46]、解耦[47]等.Xiang等[35]在雙流網(wǎng)絡中采用多粒度網(wǎng)絡,以多級特征方式提取具有判別性的共享特征.Lu等[48]提出一種共享特定特征轉(zhuǎn)移(cm-SSFT)算法,在特征提取器上添加對抗和重建模塊,對不同模態(tài)樣本之間的親和力建模以傳播信息,充分利用了每個樣本之間的豐富關系.Wei等[42]提出一種基于靈活身體分區(qū)模型的對抗性學習方法(FBP-AL),可以根據(jù)特征圖中最大響應的位置靈活地對特征圖進行聚類,達到行人圖像特征自動區(qū)分部分表示的效果.最近,有研究人員對圖像使用傅里葉變換提取圖像的頻度信息和相位信息,進而利用其對齊圖像的風格和語義.如Zhang等[45]提出一種新穎的頻域細微差別挖掘(FDNM)方法,通過幅度引導相位模塊和幅度細微差別挖掘模塊探索頻域可見光與紅外圖像間的細微差別,從而有效地減少頻域的模態(tài)差異.此外,Hu等[47]從信息解耦角度創(chuàng)新性地提出一種新穎的對抗性解耦和模態(tài)不變表示學習(DMiR)方法,該模型使用身份網(wǎng)絡和領域網(wǎng)絡,通過對抗解耦過程將輸入特征分別解耦為身份相關特征和領域相關特征,進而進行特征表示與對齊.
基于模態(tài)共享特征學習的方法目前已經(jīng)取得了很大的進步,但這些模型不可避免地會丟棄大量與個人相關的模態(tài)特定信息,阻礙行人的部分判別性信息充分利用,因此引入基于模態(tài)補償學習的方法.基于模態(tài)補償學習的方法試圖充分利用模態(tài)共享特征學習過程中忽略的各模態(tài)特定的特征,通過聯(lián)合共享特征和易忽略的特定特征獲得更全面的行人表示.根據(jù)信息補償?shù)姆绞娇蓪⒒谀B(tài)補償學習分為圖像端補償[5,37-38,49]和特征端補償[39,41,50-51]兩種(圖2b、c).
圖像端補償通常使用GAN網(wǎng)絡或變分自動編碼器等技術將不同模態(tài)圖像轉(zhuǎn)化成同一模態(tài),包括可見光模態(tài)轉(zhuǎn)化為紅外模態(tài)、紅外模態(tài)轉(zhuǎn)化為可見光模態(tài)以及生成中間模態(tài).Wang等[37]結(jié)合像素對齊和特征對齊,提出一種新的可見光紅外行人重識別對齊生成對抗網(wǎng)絡(AlignGAN),由可見光圖像生成偽紅外圖像后,通過對抗網(wǎng)絡減少跨模態(tài)和模態(tài)內(nèi)的變化,并捕獲身份一致特征.Dai等[38]設計了一種新穎的CE2L模型,通過模態(tài)轉(zhuǎn)換操作將紅外圖像轉(zhuǎn)換為可見光圖像后,使用特征提取模塊和特征學習模塊來提取它們的判別特征.Hu等[49]提出一種新穎的對抗性解耦相關網(wǎng)絡(ADCNet),該網(wǎng)絡通過特征解耦網(wǎng)絡提取模態(tài)共享表示并結(jié)合各模態(tài)特定信息生成可見光紅外圖像對,進而通過二階非局部操作來細化身份一致性信息.Zhang等[5]將可見光圖像轉(zhuǎn)換為灰度圖像以減輕可見光和紅外圖像間的視覺差異,提取灰度圖像與紅外圖像共享特征后,通過雙重注意力特征增強模塊從共享特征中挖掘更多有用的上下文信息,以縮短模態(tài)內(nèi)的類間距離.
與圖像端補償不同,特征端補償通常是在初步特征提取后進行特征交互達到特征補償?shù)男Ч?,進而執(zhí)行對齊操作.Yu等[39]提出一種新穎的模態(tài)統(tǒng)一網(wǎng)絡(MUN),通過跨模態(tài)學習器和模態(tài)內(nèi)學習器生成一種強大的中間特征,隨后用身份對齊損失和模態(tài)對齊損失約束網(wǎng)絡跨三種模態(tài)對齊身份.Zhang等[51]引入一種特征級模態(tài)補償網(wǎng)絡(FMCNet),利用模態(tài)共享特征生成另一模態(tài)的特定特征,進而融合共享特征與特定特征達到特征補償?shù)哪康模瓼eng等[50]提出跨模態(tài)交互Transformer(CMIT)框架,利用不同模態(tài)的CLS標簽之間的特征交互實現(xiàn)特征補償.
2.1.2草圖到可見光圖像行人重識別
草圖到可見光圖像行人重識別是指利用手繪的行人草圖實現(xiàn)與行人可見光圖像的匹配.草圖通常是由用戶根據(jù)語言描述手繪而成,包含人物輪廓信息,缺乏顏色與紋理信息.該任務的難點主要在于不同繪畫者手繪的草圖通常是抽象和風格各異的,與真實攝像機捕獲的可見光圖像具有顯著的模態(tài)差異.
早期研究者針對基于草圖的圖像檢索任務提出了許多方法[52-54],包括注意力機制、圖神經(jīng)網(wǎng)絡等.與可見光紅外行人重識別類似,在草圖到可見光圖像的行人識別中,現(xiàn)有方法可以分為基于模態(tài)共享特征學習和基于模態(tài)補償學習兩種.
基于模態(tài)共享特征學習的方法一般使用雙流網(wǎng)絡,采用額外的局部特征學習分支,這些分支可以促進模型更好地關注不同模態(tài)的相關信息,學習有判別性的特征表示[29,55-63](圖2a).Pang等[29]提出一種對抗特征學習機制,通過跨模態(tài)對抗特征學習框架來過濾低級干擾特征并保留高級語義信息,學習身份特征和模態(tài)不變特征.但該方法丟失了部分有利于行人識別的模態(tài)特定信息,并且沒有考慮聯(lián)合優(yōu)化草圖和可見光圖像特征表達學習.Lin等[57]針對草圖描述的主觀性設計非局部融合模塊和屬性對齊模塊融合草圖主觀性,并利用屬性作為隱式掩碼來對齊跨模態(tài)特征,達到引入客觀性的效果.Yang等[58]針對適度服裝變化行人重識別任務提出一種可學習的空間極坐標變換模型來自動選擇相對不變和有區(qū)別的局部草圖曲線特征,并引入角度特定提取器來對每個角度條紋的特征圖通道之間的相互依賴性進行建模,以探索細粒度的角度特定特征.Chen等[59]從光譜角度入手提出一種跨譜圖像生成(CSIG)方法,使用雙流特征提取器在多種光譜圖像上訓練,迫使網(wǎng)絡挖掘多頻譜圖像的共享特征.Zhu等[63]提出一種新穎的跨模態(tài)注意力(CDA),使模型更多地關注可見光圖像中與草圖相關的區(qū)域,有效地減小了兩個模態(tài)之間的差距.
基于模態(tài)補償學習的方法試圖利用現(xiàn)有的模態(tài)生成輔助信息在共享特征的基礎上補充更多的特定信息,進而獲得更全面的行人表示[3,6,64](圖2b、c).Chen等[3]基于Transformer提出SketchTrans模型解決了草圖識別任務,借助動態(tài)生成的輔助草圖模態(tài)特征與原始可見光圖像特征之間的關系進行非對稱解耦學習,并通過知識遷移將草圖特征表示轉(zhuǎn)換為可見光圖像特征表示進行模態(tài)間優(yōu)化對齊.SketchTrans模型也被應用到行人重識別領域[6],通過非對稱解耦后做信息補償進行跨模態(tài)對齊;此外,還提出模態(tài)感知原型對比學習方法拉近不同模態(tài)之間的距離.上述方法忽略了每種模態(tài)內(nèi)的顯著差異,因此,Liu等[64]提出一種輔助學習網(wǎng)絡,聯(lián)合草圖、生成的輔助模態(tài)和可見光圖像三種模態(tài)數(shù)據(jù),通過模態(tài)交互注意力模塊迫使學習到的表示分布在不同模態(tài)和每種模態(tài)內(nèi)保持不變,以達到特征對齊的目的.
2.1.3文本到圖像行人重識別
文本到圖像行人重識別旨在利用給定的文本描述與圖像中的行人進行準確關聯(lián)和匹配,主要有以下挑戰(zhàn):
1)圖像特征和文本特征之間模態(tài)差異的問題:圖像是通過像素點的顏色和位置來表示的,而文本描述是通過字詞的排列組合來表達的,所以圖像和文本描述的特征分布是不同的.
2)文本描述質(zhì)量和形式的變化劇烈問題:文本描述通常是靈活的、具有主觀性的,這可能導致同一圖像有不同的文本描述方式.
3)文本描述和圖像之間信息不平衡問題:相對于文本描述,圖像信息可能會包含更多的環(huán)境或行人特殊情況信息.
早期的工作[2,65]利用VGG和LSTM來學習視覺文本模態(tài)的表示,并使用匹配損失來對齊它們.后來的工作使用ResNet50/101[32]和BERT[66]改進特征提取主干,并設計新穎的跨模態(tài)匹配損失[67-69]在聯(lián)合嵌入空間中對齊圖像與文本特征.最近的工作則廣泛采用額外的局部特征學習分支[67,70-71],這些分支充分利用了身體部位和文本短語等信息進行特征對齊.Chen等[70]提出一個部分卷積基線(TiPCB),在視覺主干后應用PCB模型[12]進行圖像局部特征提取.Ding等[67]在局部分支引入單詞注意力模塊引導模型關注與局部圖像相關的單詞,同時引入多視圖非局部網(wǎng)絡(MV-NLN)解決模態(tài)間的特征對齊問題.
考慮圖像和文本描述信息之間的粒度不同,一些工作從細粒度角度進行特征學習[7,14,72-73](圖3a).Niu等[7]提出一種多粒度圖像文本對齊(MIA)模型,分層次地進行全局-全局、全局-局部和局部-局部三種不同粒度的對齊,以緩解跨模態(tài)粒度不同的問題.Yan等[72]提出一種CLIP驅(qū)動的細粒度信息挖掘框架(CFine),設計了跨粒度特征細化模塊和細粒度對應發(fā)現(xiàn)模塊,以在不同粒度建立跨模態(tài)對應,確保局部補?。瘑卧~的可靠性.Chen等[14]在現(xiàn)有的TiPCB模型中引入文本部分感知匹配(TPM)模塊,使模型從視覺和文本部分感知方面挖掘更全面的局部感知信息,進而將得到視覺/文本局部特征和視覺/文本局部感知特征進行多級特征融合,以進行后續(xù)的匹配.姜定等[73]借助CLIP模型的跨模態(tài)文本圖像對齊的能力,提出僅使用全局特征的Transformer網(wǎng)絡,并提出溫度縮放跨模態(tài)投影匹配損失,以約束模型進行細粒度的語義特征對齊.
考慮顯式生成的局部部分可能會產(chǎn)生上下文缺乏和噪聲引入的問題,一些工作通過注意力機制或引入可學習的數(shù)據(jù)單元等方法隱式地進行局部特征學習[28,74-77](圖3b).Shao等[28]針對模態(tài)間特征粒度的差異,引入一種新穎的學習粒度統(tǒng)一表示(LGUR)框架,通過引入多模態(tài)共享字典和一組可學習的原型構(gòu)建兩個模塊達到粒度統(tǒng)一對齊的效果.Yan等[75]提出一種高效聯(lián)合多級對齊網(wǎng)絡(MANet),通過關系引導的注意力和通道注意力獲得增強特征后,引入可學習的語義主題中心隱式地進行局部對齊.Gao等[77]針對文本圖像之間信息不平衡的問題提出一種文本引導去噪和對齊(TGDA)模型,利用一個可學習的原型隱式地指導圖像特征突出行人部分,進而利用偏差感知注意力從局部對齊文本圖像特征.有些學者利用最近的視覺語言模型強大的多模態(tài)表示理解能力來構(gòu)建相關模塊以降低模型復雜度,Jiang等[76]證明了CLIP模型可以輕松地轉(zhuǎn)移到文本到圖像的人物檢索任務,提出一種跨模態(tài)隱式關系推理和對齊框架(IRRA)來學習更具辨別力的圖像文本嵌入.
2.2多模態(tài)數(shù)據(jù)融合與泛化
目前,多模態(tài)行人重識別任務以兩種模態(tài)之間進行跨模態(tài)匹配為主,許多方法生成輔助模態(tài)并利用輔助模態(tài)信息聯(lián)合訓練網(wǎng)絡[6,9,39],直接結(jié)合多種模態(tài)數(shù)據(jù)進行訓練的行人重識別方法[8,30-31]較少,亟待研究者探索.聯(lián)合使用多種模態(tài)信息需要設計合適的融合模型和訓練策略,以確保捕獲的行人特征既保留關鍵信息又不受模態(tài)間噪聲的干擾.
利用多模態(tài)數(shù)據(jù)獲取行人表征常見的方法是根據(jù)已有的數(shù)據(jù)生成輔助模態(tài)并利用輔助模態(tài)信息聯(lián)合訓練網(wǎng)絡.Ye等[9]針對可見光紅外行人重識別提出了同質(zhì)增強三模態(tài)(HAT)學習方法,從均勻的可見光圖像生成輔助灰度圖像聯(lián)合訓練,從多模態(tài)分類和多視圖檢索角度處理三模態(tài)特征學習問題.Chen等[6]基于Transformer提出的SketchTrans模型解決了草圖識別任務,借助草圖動態(tài)生成網(wǎng)絡生成輔助草圖與原始可見光圖像進行非對稱解耦學習,隨后通過知識遷移將草圖特征表示轉(zhuǎn)換為可見光圖像特征表示進行信息融合,并進行模態(tài)間優(yōu)化對齊.
生成輔助模態(tài)進行多模態(tài)聯(lián)合訓練需引入現(xiàn)有的生成模型,進而增加模型的復雜度與計算量,一些方法利用現(xiàn)有的多種模態(tài)的數(shù)據(jù)直接進行數(shù)據(jù)融合與泛化[8,30-31].為了探索草圖模態(tài)和文本模態(tài)間的互補性,Zhai等[30]首先提出使用草圖和文本模態(tài)作為查詢來實現(xiàn)多模態(tài)行人重識別,借助生成對抗性網(wǎng)絡分別將視覺空間和描述性空間的結(jié)構(gòu)信息與內(nèi)容信息分離,進而將分離的信息進行交叉融合以縮小視覺特征與描述特征之間的差異.隨后,為了解決描述性行人重識別模態(tài)不可知和模態(tài)缺失問題,Chen等[31]提出一種統(tǒng)一行人重識別架構(gòu)(UNIReID),聯(lián)合訓練文本到RGB、草圖到RGB以及文本和草圖到RGB識別三個任務,以集成跨模態(tài)和多模態(tài)任務學習.
最近,一些研究者從開放場景的角度在多種場景的數(shù)據(jù)集上對模型進行聯(lián)合訓練[78-80].He等[78]提出統(tǒng)一的指令行人重識別,在多種場景的訓練數(shù)據(jù)上通過場景指令聯(lián)合訓練模型,使其能夠通過查詢圖像和多模態(tài)指令解決常見的6個行人重識別任務,即傳統(tǒng)行人重識別、換衣行人重識別、基于衣服模板的換衣行人重識別、語言指令行人重識別、可見光紅外行人重識別和文本到圖像行人重識別,為多場景行人重識別任務作出了巨大貢獻.Zhang等[80]為開放世界行人重識別構(gòu)建了一個名為OWD的大規(guī)模、多樣化、跨時空數(shù)據(jù)集,并在此基礎上提出潛在域擴展方法(LDE),通過解耦和域擴展模塊開發(fā)模型的泛化能力.Wei等[79]考慮到在光照條件弱的情況下進行換衣的場景,構(gòu)建了一個名為NEU-VICC的可見光紅外換衣數(shù)據(jù)集,并在此基礎上提出一種語義約束換衣增強網(wǎng)絡(SC3ANet),對可見光和紅外圖像分別進行換衣操作之后,引入雙粒度約束損失模塊指導細粒度特征學習.
2.3多模態(tài)學習架構(gòu)分類
分析前兩節(jié)不同場景的多模態(tài)行人重識別相關方法,可以將多模態(tài)學習架構(gòu)分為兩類:輔助模態(tài)學習和模態(tài)融合學習(圖4).
如圖4a所示,輔助模態(tài)學習側(cè)重于對現(xiàn)有的模態(tài)做圖像或特征補償,并通過特征交互以獲得更全面的行人表示[3,37,39,61].如Jiang等[61]提出一種新穎的跨模態(tài)轉(zhuǎn)換器(CMT),引入模態(tài)級對齊模塊,通過Transformer編碼器-解碼器架構(gòu)來補償模態(tài)特定信息的缺失.
而如圖4b所示,輔助模態(tài)學習側(cè)重于利用現(xiàn)有的多種模態(tài)的數(shù)據(jù)直接進行數(shù)據(jù)融合與泛化[8,30-31].如Wang等[8]基于Transformer提出TOP-ReID模型,通過循環(huán)標記排列模塊聯(lián)合利用RGB圖像、近紅外圖像和熱紅外圖像的互補信息,以對齊不同光譜的空間特征,同時可以促進不同光譜信息感知其他光譜的局部細節(jié).
3數(shù)據(jù)集及評價指標
3.1常用數(shù)據(jù)集
目前,常用的多模態(tài)數(shù)據(jù)集涉及可見光紅外數(shù)據(jù)集、草圖到可見光圖像數(shù)據(jù)集和文本圖像數(shù)據(jù)集,為促進多模態(tài)行人重識別的發(fā)展,仍需要探索更多模態(tài)和更大規(guī)模的多模態(tài)數(shù)據(jù)集.本節(jié)對常見數(shù)據(jù)集做詳細介紹.
3.1.1可見光紅外數(shù)據(jù)集
為了評估可見光紅外行人重識別方法的性能,常用的包含可見光圖像和紅外圖像的公開基準數(shù)據(jù)集有三個,分別是SYSU-MM01[23]、RegDB[81]和LLCM[4],匯總信息如表1所示.
1)SYSU-MM01數(shù)據(jù)集共包含491個行人身份,其中296個身份用于訓練,其余195個身份用于驗證和測試.訓練時,應用訓練集中296人的所有圖像,在測試階段,來自RGB相機的樣本用于候選集,來自紅外相機的樣本用于查詢集.數(shù)據(jù)集設計了全搜索模式和室內(nèi)搜索模式2種測試模式.全搜索模式中,RGB攝像機1、2、4和5用于候選集,紅外攝像機3和6用于查詢集;室內(nèi)搜索模式中,RGB攝像機1和2用于候選集,紅外攝像機3和6用于查詢集.
2)RegDB數(shù)據(jù)集使用雙攝像機捕獲了412個人在沒有任何指令的情況下移動的圖像,它包含412個行人身份的8 240張圖像,每個行人對應的可見光和紅外圖像分別有10張.412人中,女性254人,男性158人,其中156人是從正面拍攝的,另外256人是從背面拍攝的,每個人的10張圖像在身體姿勢、光照條件等方面都存在差異.該數(shù)據(jù)集被隨機分成兩部分用于訓練和測試,每部分包含206個身份,有可見光到紅外、紅外到可見光2種測試模式.
3)LLCM數(shù)據(jù)集是一個在低光環(huán)境下收集的跨模態(tài)數(shù)據(jù)集,利用部署在弱光環(huán)境中的9個攝像機白天捕獲可見光圖像,夜間捕獲紅外圖像,數(shù)據(jù)集收集時間為100 d,考慮了氣候條件和衣服變化.按照大約2∶1的比例將數(shù)據(jù)集劃分為2個部分分別用于訓練和測試,訓練集包含713個身份的30 921個邊界框(16 946個邊界框來自可見光模態(tài),13 975個邊界框來自紅外模態(tài)),測試集包含351個身份的15 846個邊界框(8 680個邊界框來自可見光模態(tài),7 166個邊界框來自紅外模態(tài)).與RegDB類似,在測試階段,該數(shù)據(jù)集也分為可見光到紅外、紅外到可見光2種測試模式.此外,也同樣計算10次測試結(jié)果的平均值作為最終結(jié)果,以獲得穩(wěn)定的測試效果.
3.1.2草圖到圖像數(shù)據(jù)集
為了評估草圖到圖像行人重識別方法的性能,常用的包含草圖圖像和可見光圖像的公開基準數(shù)據(jù)集有PKU-Sketch[29]、Market-Sketch-1K[57],匯總信息如表2所示.
1)PKU-Sketch數(shù)據(jù)集是第1個草圖到可見光圖像數(shù)據(jù)集.該數(shù)據(jù)集由200個行人組成,每個身份都有來自2個不同相機的2張可見光圖像和1張草圖,草圖由5位繪圖人員完成,并從每個繪圖人員繪畫的圖像中隨機選擇3/4的行人圖像進行訓練,1/4的行人圖像進行測試,以消除繪畫風格的影響,總體而言,有150人進行訓練,50人進行測試.
2)Market-Sketch-1K數(shù)據(jù)集基于Market-1501數(shù)據(jù)集構(gòu)建,從Market-1501的訓練集中選擇498個身份,從查詢集中選擇498個身份,充當Market-Sketch-1K數(shù)據(jù)集的可見光圖像部分,每個身份的行人草圖由6位繪圖人員繪制,共包含996個身份的4 763個草圖圖像和1 501個身份的32 668張可見光圖像,與PKU-Sketch數(shù)據(jù)集相比具有規(guī)模大、多視角和多風格的特點.
3.1.3文本到圖像數(shù)據(jù)集
為了評估文本到圖像行人重識別方法的性能,常用的包含圖像和文本描述的公開基準數(shù)據(jù)集有三個,分別是CUHK-PEDES[2]、ICFG-PEDES[67]和RSTPReID[82],匯總信息如表3所示.
1)CUHK-PEDES數(shù)據(jù)集由香港中文大學于2017年提出,是第1個文本圖像基準數(shù)據(jù)集,包含詳細的自然語言描述和來自各種來源的人物樣本.數(shù)據(jù)集分為3個子集用于訓練、驗證和測試,且沒有相同的人員身份重疊,訓練集由13 003個身份、40 206張圖像和80 412個句子描述組成,驗證集和測試集分別包含3 078和3 074張圖像,且都有1 000個行人,測試數(shù)據(jù)的圖像和文字描述分別構(gòu)成候選集和查詢集.
2)ICFG-PEDE數(shù)據(jù)集由華南理工大學于2021年提出,與CUHK-PEDES相比,該數(shù)據(jù)集包含更多關注身份和更細致的文本描述.該數(shù)據(jù)集共包含4 102個身份的54 522張行人圖像,所有圖像均來自MSMT17數(shù)據(jù)集[83],每張圖像有一個文本描述,每個描述平均包含37.2個單詞,共包含5 554個唯一單詞.該數(shù)據(jù)集分為2個子集用于訓練和測試,前者包含3 102人的34 674個圖像文本對,而后者包含其余的1 000人的19 848個圖像文本對.
3)RSTPReID數(shù)據(jù)集是南京工業(yè)大學于2021年提出,基于MSMT17[83]構(gòu)建,包含來自15個攝像機的4 101個人的20 505張圖像,每個行人有5張不同相機拍攝的對應圖像,每張圖像都附有2段文字描述.對于數(shù)據(jù)劃分,分別使用3 701、200和200個身份進行訓練、驗證和測試,每段描述不少于23個詞,丟棄出現(xiàn)次數(shù)少于2次的單詞后,單詞數(shù)量為2 204.
3.2評價指標
模型訓練后需要一個統(tǒng)一的評價指標來衡量方法的準確度好壞,目前常用的評價指標有:平均精度(mAP)和標準累積匹配特征(CMC),下面將分別對其進行介紹:
1)平均精度(mAP)是對多個查詢的性能的平均度量.首先,計算每個查詢的AP值,即對單個查詢的命中概率的平均值,然后取所有查詢的AP的平均值得mAP.mAP綜合了多個查詢的性能,可以更全面地評估模型在整個數(shù)據(jù)集上的表現(xiàn).實際應用中,Rank-K,即查詢圖像的正確匹配出現(xiàn)在檢索結(jié)果的前K個候選集中的概率,通常與mAP一起使用,以全面評估模型的性能.
2)標準累積匹配特征(CMC)曲線顯示的是在前K個檢索結(jié)果中是否包含真正匹配的樣本,其中,K從1開始逐漸增加.曲線橫坐標表示排名,縱坐標表示在前K個結(jié)果中包含真正匹配的概率.CMC曲線越高,表示在前K個結(jié)果中包含真正匹配的概率越大.CMC曲線直觀地表示了在前K個結(jié)果中包含真正匹配的概率,易于理解,但CMC的結(jié)果會受到K值選擇的影響,因此,在使用CMC時需要選擇合適的K值,通常會結(jié)合其他指標一起考慮.
總的來說,mAP 提供了一個全面的性能評估,反映了整個數(shù)據(jù)集上的平均表現(xiàn),而標準累積匹配特征(CMC)曲線則提供了在前N次檢索中成功匹配的概率,更直觀地展示了不同檢索次數(shù)下的性能.但這兩種評價指標的計算方式都是計算對應查詢排名的離散值.近年來,一些新穎的評價指標開始從相似度的連續(xù)值入手,計算相應相似度的平均值并取得了優(yōu)異的效果.通過結(jié)合這些傳統(tǒng)和新興的評價方法,我們能夠更全面和準確地評估行人重識別模型的性能.
4問題及發(fā)展趨勢
4.1存在的問題
本文概述了多模態(tài)行人重識別的最新發(fā)展,總結(jié)了廣泛采用的方法、可用的數(shù)據(jù)集,并對現(xiàn)有技術進行了比較.多模態(tài)行人重識別是一個活躍且有前途的研究領域,具有廣泛的潛在應用價值,但許多問題仍然存在:
1)缺乏大規(guī)模多模態(tài)數(shù)據(jù)集.對于多模態(tài)行人重識別的各種應用場景,現(xiàn)有的數(shù)據(jù)集大多是涉及兩種模態(tài)的跨模態(tài)數(shù)據(jù)集,且該類數(shù)據(jù)集還存在選擇有限、不同模態(tài)數(shù)據(jù)量不平衡、場景單一等問題,缺乏大規(guī)模的、包含多模態(tài)多場景的數(shù)據(jù)集限制了深度學習模型在真實多模態(tài)場景中的訓練和泛化能力,這對提升模型性能和實際應用效果提出了嚴峻挑戰(zhàn).
2)泛化能力不足.當前的多模態(tài)行人重識別模型主要是針對特定場景數(shù)據(jù)集中的行人進行特征學習與對齊,在面對新的、未見過的數(shù)據(jù)時,其適應能力和表現(xiàn)能力仍有待提高.這一問題在實際應用中尤為明顯,因為真實世界中的行人數(shù)據(jù)具有高度的多樣性和復雜性,而現(xiàn)有模型在訓練過程中往往缺乏對這些多樣性和變化性的有效處理,導致其在新的環(huán)境或條件下的識別效果降低.
3)缺乏更多標準的評估指標.多模態(tài)行人重識別的評估涉及到多個模態(tài)的信息,當前多模態(tài)行人重識別任務的評估仍是在具體的應用情況及其對應的數(shù)據(jù)集下進行的,缺乏多樣的標準評估指標,這不僅影響了模型開發(fā)和優(yōu)化的進程,也給學術研究和工業(yè)應用帶來了不便.具體來說,現(xiàn)有評估指標主要集中在精度、召回率等傳統(tǒng)指標上,未能充分考慮多模態(tài)數(shù)據(jù)的特性和要求,如跨模態(tài)識別任務中,如何有效地評估不同模態(tài)之間的匹配效果,如何量化模型在處理模態(tài)差異時的表現(xiàn),這些都是需要深入研究的問題.
總體來說,盡管多模態(tài)行人重識別領域已經(jīng)取得了顯著的進展,但仍有許多關鍵問題亟待解決,只有在數(shù)據(jù)集建設、模型泛化能力提升和評估標準完善等方面取得突破,才能真正推動這一技術在實際應用中的廣泛落地和發(fā)展.
4.2發(fā)展趨勢
在深度多模態(tài)行人重識別領域,為了提升方法的性能和實用性,未來的發(fā)展趨勢主要涉及以下幾個方面:
1)行人特征方面.研究者應該對行人的本質(zhì)特征進行深入探索,關注何種特征最能代表行人的判別性,而不僅僅專注于提高特征匹配的準確度.這包括對行人不同模態(tài)下的特征進行深度挖掘和分析,以及這些特征在不同環(huán)境條件下的表現(xiàn),通過深入理解和提取這些本質(zhì)特征,可以構(gòu)建更加穩(wěn)定和魯棒的特征表示,提升模型的準確率和可靠性.
2)技術演進方面.隨著大語言模型(如GPT-4、BERT等)的迅速發(fā)展,研究者應該探索如何利用這些大模型推動多模態(tài)行人重識別任務充分利用先驗信息,促進模型魯棒性的發(fā)展.例如,大語言模型可以提供豐富的上下文信息和先驗知識,這些信息可以幫助多模態(tài)行人重識別模型更好地理解和解釋圖像中的細節(jié),從而提升模型的整體性能.
3)應用場景方面.通過聯(lián)合建模以及拓展技術應用場景實現(xiàn)對多模態(tài)數(shù)據(jù)、多任務協(xié)同和多場景分析的統(tǒng)一任務處理,也是未來的趨勢之一.例如,在智能城市建設中,可以將多模態(tài)行人重識別技術應用于交通管理、公共安全監(jiān)控、智能安防等多個場景,實現(xiàn)對不同數(shù)據(jù)源的綜合分析和處理,提高系統(tǒng)的整體效率和智能化水平.
4)模型參數(shù)方面.多模態(tài)行人重識別模型通常包含更多參數(shù),為提升實用性,輕量級模型的開發(fā)也尤為重要.研究者可以通過模型壓縮、剪枝、量化等技術手段,優(yōu)化模型的結(jié)構(gòu)和參數(shù),開發(fā)出性能優(yōu)異且計算成本低的輕量級模型,這不僅可以降低計算資源,提高模型的運行效率,還可以在資源受限的環(huán)境中實現(xiàn)高效的行人重識別.
總體而言,未來深度多模態(tài)行人重識別的發(fā)展將圍繞提升特征表示的區(qū)分性和魯棒性、融合先進技術、擴展應用場景以及優(yōu)化模型參數(shù)等方面展開.通過這些努力,將不斷推動該領域的技術進步,滿足實際應用需求,推動社會發(fā)展和智能化進程.
5總結(jié)和展望
本文針對多模態(tài)行人重識別領域的研究現(xiàn)狀,對深度多模態(tài)行人重識別方法從不同應用場景進行了歸納和總結(jié).首先介紹多模態(tài)行人重識別的基礎概念和相關知識,描述該技術在各種實際情況下的應用情況,隨后系統(tǒng)地介紹當前各種應用場景中的常用方法和模型,以及常見的相關數(shù)據(jù)集和評價指標,并總結(jié)了多模態(tài)行人重識別當前存在的亟待解決的問題和未來發(fā)展趨勢,為初學者了解多模態(tài)行人重識別常見分類與方法提供了有效途徑,為研究者提供了快速歸納現(xiàn)有方法的視角以及值得探索的方向.雖然經(jīng)過多年的發(fā)展,多模態(tài)任務取得了一定的成就,但隨著深度學習技術的不斷進步,對于模型輕量化、無監(jiān)督學習、多任務統(tǒng)一學習等方向的研究需求逐漸凸顯.期待未來出現(xiàn)更加全面、高效、魯棒的行人重識別方法,以滿足不斷增長的實際應用需求,為社會發(fā)展帶來更大的推動力,在公共安全、智能城市建設等領域發(fā)揮更重要的作用.
參考文獻References
[1]何智敏,許佳云.基于深度學習的行人重識別算法研究進展[J].智能制造,2023(3):80-83HE Zhimin,XU Jiayun.Research progress of pedestrian re-recognition algorithm based on deep learning[J].Intelligent Manufacturing,2023(3):80-83
[2]Li S,Xiao T,Li H S,et al.Person search with natural language description[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:5187-5196
[3]Chen C Q,Ye M,Qi M B,et al.Sketch transformer:asymmetrical disentanglement learning from dynamic synthesis[C]//Proceedings of the 30th ACM International Conference on Multimedia.October 10-14,2022,Lisboa,Portugal.ACM,2022:4012-4020
[4]Zhang Y K,Wang H Z.Diverse embedding expansion network and low-light cross-modality benchmark for visible-infrared person re-identification[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-22,2023,Vancouver,BC,Canada.IEEE,2023:2153-2162
[5]Zhang G Q,Zhang Y Y,Zhang H W,et al.Learning dual attention enhancement feature for visible-infrared person re-identification[J].Journal of Visual Communication and Image Representation,2024,99:104076
[6]Chen C Q,Ye M,Qi M B,et al.SketchTrans:disentangled prototype learning with transformer for sketch-photo recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2024,46(5):2950-2964
[7]Niu K,Huang Y,Ouyang W L,et al.Improving description-based person re-identification by multi-granularity image-text alignments[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2020,29:5542-5556
[8]Wang Y H,Liu X H,Zhang P P,et al.TOP-ReID:multi-spectral object re-identification with token permutation[J].arXiv e-Print,2023,arXiv:2312.09612
[9]Ye M,Shen J B,Shao L.Visible-infrared person re-identification via homogeneous augmented tri-modal learning[J].IEEE Transactions on Information Forensics and Security,2021,16:728-739
[10]Wei W Y,Yang W Z,Zuo E G,et al.Person re-identification based on deep learning:an overview[J].Journal of Visual Communication and Image Representation,2022,82:103418
[11]Chen H,Lagadec B,Bremond F.Learning discriminative and generalizable representations by spatial-channel partition for person re-identification[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV).March 1-5,2020,Snowmass,CO,USA.IEEE,2020:2472-2481
[12]Sun Y F,Zheng L,Yang Y,et al.Beyond part models:person retrieval with refined part pooling (and a strong convolutional baseline)[M]//Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018:501-518
[13]Chen G Y,Lin C Z,Ren L L,et al.Self-critical attention learning for person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 3,2019,Seoul,Korea (South).IEEE,2019:9636-9645
[14]Chen Y H,Zhang G Q,Zhang H W,et al.Multi-level part-aware feature disentangling for text-based person search[C]//2023 IEEE International Conference on Multimedia and Expo (ICME).July 10-14,2023,Brisbane,Australia.IEEE,2023:2801-2806
[15]Zhang G Q,Liu J,Chen Y H,et al.Multi-biometric unified network for cloth-changing person re-identification[J].IEEE Transactions on Image Processing,2023,32:4555-4566
[16]Zhang G Q,Ge Y,Dong Z C,et al.Deep high-resolution representation learning for cross-resolution person re-identification[J].IEEE Transactions on Image Processing,2021,30:8913-8925
[17]Zhang G Q,Zhang H W,Lin W S,et al.Camera contrast learning for unsupervised person re-identification[J].IEEE Transactions on Circuits and Systems for Video Technology,2023,33(8):4096-4107
[18]Zhang G Q,Luo Z Y,Chen Y H,et al.Illumination unification for person re-identification[J].IEEE Transactions on Circuits and Systems for Video Technology,2022,32(10):6766-6777
[19]Yi D,Lei Z,Liao S C,et al.Deep metric learning for person re-identification[C]//2014 22nd International Conference on Pattern Recognition.August 24-28,2014,Stockholm,Sweden.IEEE,2014:34-39
[20]Sarafianos N,Xu X,Kakadiaris I.Adversarial representation learning for text-to-image matching[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 3,2019,Seoul,Korea (South).IEEE,2019:5813-5823
[21]Sikdar A,Chowdhury A S.Scale-invariant batch-adaptive residual learning for person re-identification[J].Pattern Recognition Letters,2020,129:279-286
[22]Zhang H W,Zhang G Q,Chen Y H,et al.Global relation-aware contrast learning for unsupervised person re-identification[J].IEEE Transactions on Circuits and Systems for Video Technology,2022,32(12):8599-610
[23]Wu A C,Zheng W S,Yu H X,et al.RGB-infrared cross-modality person re-identification[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:5390-5399
[24]Feng Z X,Lai J H,Xie X H.Learning modality-specific representations for visible-infrared person re-identification[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2019,29:579-590
[25]Hao Y,Wang N N,Li J,et al.HSME:hypersphere manifold embedding for visible thermal person re-identification[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):8385-8392
[26]Zhang Z Y,Jiang S,Huang C,et al.RGB-IR cross-modality person ReID based on teacher-student GAN model[J].Pattern Recognition Letters,2021,150:155-161
[27]Zhou J F,Huang B G,F(xiàn)an W J,et al.Text-based person search via local-relational-global fine grained alignment[J].Knowledge-Based Systems,2023,262:110253
[28]Shao Z Y,Zhang X Y,F(xiàn)ang M,et al.Learning granularity-unified representations for text-to-image person re-identification[C]//Proceedings of the 30th ACM International Conference on Multimedia.October 10-14,2022,Lisboa,Portugal.ACM,2022:5566-5574
[29]Pang L,Wang Y W,Song Y Z,et al.Cross-domain adversarial feature learning for sketch re-identification[C]//Proceedings of the 26th ACM International Conference on Multimedia.October 22-26,2018,Seoul,Republic of Korea.ACM,2018:609-617
[30]Zhai Y J,Zeng Y W,Cao D,et al.TriReID:towards multi-modal person re-identification via descriptive fusion model[C]//Proceedings of the 2022 International Conference on Multimedia Retrieval.June 27-30,2022,Newark,NJ,USA.ACM,2022:63-71
[31]Chen C Q,Ye M,Jiang D.Towards modality-agnostic person re-identification with descriptive query[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-22,2023,Vancouver,BC,Canada.IEEE,2023:15128-15137
[32]He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778
[33]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv e-Print,2014,arXiv:1409.1556
[34]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90
[35]Xiang X Z,Lv N,Yu Z T,et al.Cross-modality person re-identification based on dual-path multi-branch network[J].IEEE Sensors Journal,2019,19(23):11706-11713
[36]Zhang G Q,Zhang Y Y,Chen Y H,et al.Multi-granularity feature utilization network for cross-modality visible-infrared person re-identification[J].Soft Computing,2023:10:1-4
[37]Wang G A,Zhang T Z,Cheng J,et al.RGB-infrared cross-modality person re-identification via joint pixel and feature alignment[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 3,2019,Seoul,Korea (South).IEEE,2019:3622-3631
[38]Dai H P,Xie Q,Ma Y C,et al.RGB-infrared person re-identification via image modality conversion[C]//2020 25th International Conference on Pattern Recognition (ICPR).January 10-15,2021,Milan,Italy.IEEE,2021:592-598
[39]Yu H,Cheng X,Peng W,et al.Modality unifying network for visible-infrared person re-identification[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV).September 30-October 7,2023,Paris,F(xiàn)rance.IEEE,2023:11151-11161
[40]Ye M,Shen J B,Crandall D J,et al.Dynamic dual-attentive aggregation learning for visible-infrared person re-identification[M]//Computer Vision-ECCV 2020.Cham:Springer International Publishing,2020:229-247
[41]Cheng D,Li X H,Qi M B,et al.Exploring cross-modality commonalities via dual-stream multi-branch network for infrared-visible person re-identification[J].IEEE Access,2020,8:12824-12834
[42]Wei Z Y,Yang X,Wang N N,et al.Flexible body partition-based adversarial learning for visible infrared person re-identification[J].IEEE Transactions on Neural Networks and Learning Systems,2022,33(9):4676-4687
[43]Kim M,Kim S,Park J,et al.PartMix:regularization strategy to learn part discovery for visible-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-22,2023,Vancouver,Canada.IEEE,2023:18621-18632
[44]Wu Z S,Ye M.Unsupervised visible-infrared person re-identification via progressive graph matching and alternate learning[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-22,2023,Vancouver,BC,Canada.IEEE,2023:9548-9558
[45]Zhang Y K,Lu Y,Yan Y,et al.Frequency domain nuances mining for visible-infrared person re-identification[J].arXiv e-Print,2024,arXiv:2401.02162
[46]Li Y L,Zhang T Z,Zhang Y D.Frequency domain modality-invariant feature learning for visible-infrared person re-identification[J].arXiv e-Print,2024,arXiv:2401.01839
[47]Hu W P,Liu B H,Zeng H T,et al.Adversarial decoupling and modality-invariant representation learning for visible-infrared person re-identification[J].IEEE Transactions on Circuits and Systems for Video Technology,2022,32(8):5095-5109
[48]Lu Y,Wu Y,Liu B,et al.Cross-modality person re-identification with shared-specific feature transfer[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 16-18,2020,Seattle,WA,USA.IEEE,2020:13376-13386
[49]Hu B Y,Liu J W,Zha Z J.Adversarial disentanglement and correlation network for rgb-infrared person re-identification[C]//2021 IEEE International Conference on Multimedia and Expo (ICME).Shenzhen,China.IEEE,2021:1-6
[50]Feng Y J,Yu J,Chen F,et al.Visible-infrared person re-identification via cross-modality interaction transformer[J].IEEE Transactions on Multimedia,2023,25:7647-7659
[51]Zhang Q,Lai C Z,Liu J N,et al.FMCNet:feature-level modality compensation for visible-infrared person re-identification[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 21-24,2022,New Orleans,LA,USA.IEEE,2022:7339-7348
[52]Yu Q,Liu F,Song Y Z,et al.Sketch me that shoe[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.June 26-July 1,2016,Las Vegas,Nevada,USA.IEEE,2016:799-807
[53]Song J F,Yu Q,Song Y Z,et al.Deep spatial-semantic attention for fine-grained sketch-based image retrieval[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:5552-5561
[54]Pang K Y,Song Y Z,Xiang T,et al.Cross-domain generative learning for fine-grained sketch-based image retrieval[C]//The 28th British Machine Vision Conference.April 9-September 17,2017,London,UK.2017:1-12
[55]Gui S J,Zhu Y,Qin X X,et al.Learning multi-level domain invariant features for sketch re-identification[J].Neurocomputing,2020,403:294-303
[56]Yang F,Wu Y,Wang Z,et al.Instance-level heterogeneous domain adaptation for limited-labeled sketch-to-photo retrieval[J].IEEE Transactions on Multimedia,2021,23:2347-2360
[57]Lin K J,Wang Z X,Wang Z,et al.Beyond domain gap:exploiting subjectivity in sketch-based person retrieval[C]//Proceedings of the 31st ACM International Conference on Multimedia.October 29-November 3,2023,Ottawa,ON,Canada.ACM,2023:2078-2089
[58]Yang Q Z,Wu A C,Zheng W S.Person re-identification by contour sketch under moderate clothing change[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(6):2029-2046
[59]Chen Q S,Quan Z Z,Zhao K,et al.A cross-modality sketch person re-identification model based on cross-spectrum image generation[C]//International Forum on Digital TV and Wireless Multimedia Communications.December 9-10,2022,Singapore.Springer,2022:312-324
[60]Wang Z,Wang Z X,Zheng Y Q,et al.Beyond intra-modality:a survey of heterogeneous person re-identification[J].arXiv e-Print,2019,arXiv:1905.10048
[61]Jiang K Z,Zhang T Z,Liu X,et al.Cross-modality transformer for visible-infrared person re-identification[C]//Computer Vision-ECCV 2022:17th European Conference.October 23-27,2022,Tel Aviv,Israel.ACM,2022:480-496
[62]Zhang Y F,Wang Y Z,Li H F,et al.Cross-compatible embedding and semantic consistent feature construction for sketch re-identification[C]//Proceedings of the 30th ACM International Conference on Multimedia.October 10-14,2022,Lisboa,Portugal.ACM,2022:3347-3355
[63]Zhu F Y,Zhu Y,Jiang X B,et al.Cross-domain attention and center loss for sketch re-identification[J].IEEE Transactions on Information Forensics and Security,2022,17:3421-3432
[64]Liu X Y,Cheng X,Chen H Y,et al.Differentiable auxiliary learning for sketch re-identification[J].Proceedings of the AAAI Conference on Artificial Intelligence,2024,38(4):3747-3755
[65]Chen T L,Xu C L,Luo J B.Improving text-based person search by spatial matching and adaptive threshold[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV).March 12-15,2018,Lake Tahoe,NV,USA.IEEE,2018:1879-1887
[66]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[J].arXiv e-Print,2018,arXiv:1810.04805
[67]Ding Z F,Ding C X,Shao Z Y,et al.Semantically self-aligned network for text-to-image part-aware person re-identification[J].arXiv e-Print,2021,arXiv:2107.12666
[68]Wei D L,Zhang S P,Yang T,et al.Calibrating cross-modal features for text-based person searching[J].arXiv e-Print,2023,arXiv:2304.02278
[69]Zhang Y,Lu H.Deep cross-modal projection learning for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV).Sepember 8-14,2018,Munich,Germany.Springer,2018:686-701
[70]Chen Y H,Zhang G Q,Lu Y J,et al.TIPCB:a simple but effective part-based convolutional baseline for text-based person search[J].Neurocomputing,2022,494:171-181
[71]Bird S.NLTK:the natural language toolkit[C]//Proceedings of the COLING/ACL 2006 Interactive Presentation Sessions.July 17-18,2006,Sydney,Australia.ACM,2006:69-72
[72]Yan S L,Dong N,Zhang L Y,et al.CLIP-driven fine-grained text-image person re-identification[J].IEEE Transactions on Image Processing,2023,32:6032-6046
[73]姜定,葉茫.面向跨模態(tài)文本到圖像行人重識別的Transformer網(wǎng)絡[J].中國圖象圖形學報,2023,28(5):1384-1395
JIANG Ding,YE Mang.Transformer network for cross-modal text-to-image person re-identification[J].Journal of Image and Graphics,2023,28(5):1384-1395
[74]Li S Y,Sun L,Li Q L.CLIP-ReID:exploiting vision-language model for image re-identification without concrete text labels[J].Proceedings of the AAAI Conference on Artificial Intelligence,2023,37(1):1405-1413
[75]Yan S L,Tang H,Zhang L Y,et al.Image-specific information suppression and implicit local alignment for text-based person search[J].IEEE Transactions on Neural Networks and Learning Systems,2023,PP(99):1-14
[76]Jiang D,Ye M.Cross-modal implicit relation reasoning and aligning for text-to-image person retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-22,2023,Vancouver,Canada.IEEE,2023:2787-2797
[77]Gao L Y,Niu K,Jiao B L,et al.Addressing information inequality for text-based person search via pedestrian-centric visual denoising and bias-aware alignments[J].IEEE Transactions on Circuits and Systems for Video Technology,2023,33(12):7884-7899
[78]He W Z,Deng Y H,Tang S X,et al.Instruct-ReID:a multi-purpose person re-identification task with instructions[J].arXiv e-Print,2023,arXiv:2306.07520
[79]Wei X B,Song K C,Yang W K,et al.A visible-infrared clothes-changing dataset for person re-identification in natural scene[J].Neurocomputing,2024,569:127110
[80]Zhang L,F(xiàn)u X W,Huang F X,et al.An open-world,diverse,cross-spatial-temporal benchmark for dynamic wild person re-identification[J].arXiv e-Print,2024,arXiv:2403.15119
[81]Nguyen D T,Hong H G,Kim K W,et al.Person recognition system based on a combination of body images from visible light and thermal cameras[J].Sensors,2017,17(3):605
[82]Zhu A C,Wang Z J,Li Y F,et al.DSSL:deep surroundings-person separation learning for text-based person retrieval[C]//Proceedings of the 29th ACM International Conference on Multimedia.October 20-24,2021,Virtual Event,China.ACM,2021:209-217
[83]Wei L H,Zhang S L,Gao W,et al.Person transfer GAN to bridge domain gap for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-22,2018,Salt Lake City,UT,USA.IEEE,2018:79-88
Multi-modal person re-identification based on deep learning:a review
ZHANG Guoqing1YANG Shan1WANG Hairui2WANG Zhun2YANG Yan1ZHOU Jieqiong1
1School of Computer Science,Nanjing University of Information Science & Technology,Nanjing 210044,China2School of Software,Nanjing University of Information Science & Technology,Nanjing 210044,China
AbstractPerson re-identification (Re-ID),which involves retrieving the same person across cameras,is a key technology in the field of intelligent video surveillance.However,due to the complexity of surveillance scenarios,traditional single-modal approaches encounter limitations in extreme conditions such as low lighting and foggy days.Given the practical demands and the swift advancement in deep learning,multi-modal person Re-ID based on deep learning has received widespread attention.This article provides a review of the progress in multi-modal person Re-ID based on deep learning in recent years,elaborates on the shortcomings of traditional single-modal approaches and summarizes the common application scenarios and advantages of multi-modal person Re-ID,as well as the composition of various datasets.The article also highlights the relevant methods and classification of multi-modal person Re-ID across diverse scenarios,exploring current research hotspots and challenges.Finally,it discusses the future development trends and potential applications of multi-modal person Re-ID.Key wordsdeep learning; neural network; person re-identification (Re-ID); multi-modal