999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于融合注意力和特征增強的跨模態(tài)行人重識別

2024-01-01 00:00:00黃馳涵沈肖波
南京信息工程大學學報 2024年4期
關(guān)鍵詞:特征提取

摘要 跨模態(tài)行人重識別是一項具有挑戰(zhàn)性的任務(wù),目的是在可見光和紅外模式之間匹配行人圖像,以便在犯罪調(diào)查和智能視頻監(jiān)控應(yīng)用中發(fā)揮重要作用.為了解決跨模態(tài)行人重識別任務(wù)中對細粒度特征提取能力不強的問題,本文提出一種基于融合注意力和特征增強的行人重識別模型.首先,利用自動數(shù)據(jù)增強技術(shù)緩解不同攝像機的視角、尺度差異,并基于交叉注意力多尺度Vision Transformer,通過處理多尺度特征生成具有更強區(qū)分性的特征表示;接著,提出通道注意力和空間注意力機制,在融合可見光和紅外圖像特征時學習對區(qū)分特征重要的信息;最后,設(shè)計損失函數(shù),采用基于自適應(yīng)權(quán)重的難三元組損失,增強了每個樣本之間的相關(guān)性,提高了可見光和紅外圖像對不同行人的識別能力.在SYSU-MM01和RegDB數(shù)據(jù)集上進行大量實驗,結(jié)果表明,本文提出方法的mAP分別達到了68.05%和85.19%,相較之前的工作性能有所提升,且通過消融實驗和對比分析驗證了本文模型的先進性和有效性.關(guān)鍵詞行人重識別;跨模態(tài);交叉注意力;特征提取;多尺度

中圖分類號TP391.41文獻標志碼A

0引言

行人重識別(Re-Identification,Re-ID)是智能監(jiān)控系統(tǒng)中最重要的部分之一,它可以在不同的攝像頭視圖之間識別行人.行人重識別在許多視頻任務(wù)中都具有實際應(yīng)用,包括法證搜索[1]、多攝像頭跟蹤[2]、門禁控制[3]和體育分析[4].它還被應(yīng)用于服務(wù)機器人和人機交互,老年人監(jiān)控和協(xié)助執(zhí)行個性化任務(wù)等[5].然而,由于觀察角度、照明強度、姿勢、遮擋和背景雜亂等變化,行人重識別在計算機視覺領(lǐng)域中仍然是一個具有挑戰(zhàn)性的任務(wù).

以往大多數(shù)的Re-ID任務(wù)都是在白天或是可見光(RGB)充足的情況下進行單模態(tài)的識別,但在夜間,監(jiān)控攝像頭很難利用可見光譜的攝像頭來進行識別[6].故目前的監(jiān)控攝像頭在夜間能轉(zhuǎn)換為紅外(IR)模式,而IR圖像存在缺少顏色信息的重要問題,這就需要Re-ID能夠適用于跨模態(tài)的行人檢索.

為了解決跨模態(tài)行人重識別問題,目前已有多種方法,主要包括兩種思路:第一種是利用網(wǎng)絡(luò)捕獲兩種模態(tài)下的行人特征來進行行人圖像匹配[7];第二種是對圖像的模態(tài)進行轉(zhuǎn)換或生成新的模態(tài)來進行行人重識別.對于第一種思路,Yuan等[8]引入了并行的多流分類器,通過使每個流中的分類器關(guān)注不同的特征維數(shù),以確保特征提取器的類內(nèi)一致性.但是其并未考慮對原始圖像進行數(shù)據(jù)增強,處理數(shù)據(jù)時也較為困難.Chen等[9]引入一個新的特征搜索空間,并提出一種自動選擇通道和空間維度中身份信息的特征選擇方法.但是其直接將特征映射到公共特征空間來縮小模態(tài)差異,使得一些重要的行人判別特征丟失,影響模型的性能.對于第二種思路, Choi等[10]提出一種層次跨模態(tài)解耦(Hi-CMD)模型,改變光照屬性和行人的姿態(tài)使得編碼器能夠提取到更具有判別性的特征.但是訓(xùn)練一個好的生成器和判別器需要花費大量的計算資源,且在利用生成對抗網(wǎng)絡(luò)的同時勢必引入一些噪聲,影響模型的穩(wěn)定性.Liu等[11]采用對齊灰度模態(tài)(AGM)將可見紅外雙模學習重新表述為灰度-灰度單模學習問題,在圖像空間中顯著減少了模態(tài)差異.Xia等[12]在真實圖像上訓(xùn)練圖像模態(tài)轉(zhuǎn)換(IMT)網(wǎng)絡(luò),并生成目標模態(tài)樣本,以擴大訓(xùn)練數(shù)據(jù)集的大小并增加其多樣性,同時將源圖像和模態(tài)傳遞的圖像組合訓(xùn)練Re-ID-CNN模型,以提高跨模態(tài)檢索性能.但是這些模型網(wǎng)絡(luò)中需要進行圖像風格轉(zhuǎn)換,不可避免地會增加噪聲干擾,影響模型的穩(wěn)定性,使得生成的圖像并不可靠,且這些模型高度依賴訓(xùn)練樣本,很難應(yīng)用于大規(guī)模監(jiān)測場景.

針對以往研究中對細粒度信息提取能力不強的問題,本文提出了基于交叉注意力多尺度殘差Vision Transformer (ViT)的特征提取器,它能夠處理多尺度特征,生成區(qū)分性較強的特征表示.提取到可見光和紅外圖像的特征后,采用通道和空間注意力機制來融合不同模態(tài)的特征.最后,利用平滑的標簽損失和自適應(yīng)權(quán)重的難三元組損失對訓(xùn)練過程聯(lián)合監(jiān)督.

本文的貢獻可以概括如下:1)提出一種基于交叉注意力多尺度殘差ViT框架,專注于提取判別性和魯棒性更強的特征;2)在融合可見光和紅外圖像特征時,在網(wǎng)絡(luò)中使用通道和空間注意力來學習對特征區(qū)分重要的信息;3)對難三元組損失進行自適應(yīng)權(quán)重的改進,增強了每個樣本之間的相關(guān)性;4)在SYSU-MM01和RegDB數(shù)據(jù)集上進行評估實驗,結(jié)果表明本文提出的方法具有良好的性能.

1模型設(shè)計

行人重識別是計算機視覺領(lǐng)域中的一個關(guān)鍵任務(wù),旨在從不同的攝像頭視角中識別并匹配同一行人的圖像.該任務(wù)通常涉及兩個主要組成部分:查詢(query)和圖庫(gallery).查詢是指用戶提供的用于檢索的行人圖像,而圖庫是已存儲的、需要與查詢圖像進行比較的行人圖像集合.整個網(wǎng)絡(luò)的輸入是從不同攝像頭捕獲的行人圖像,輸出是與查詢圖像相匹配的行人圖像的排名列表.

本節(jié)將介紹如圖1所示的基于融合注意力和特征增強的行人重識別模型框架.首先,設(shè)計了交叉注意力多尺度ViT,并對IR和RGB圖像以及它們的灰度圖分別使用CrossViT提取特征,形成不同的特征集.接著,設(shè)計了通道和空間注意力模塊,利用通道注意力(Channel Attention,CA)和空間注意力(Spatial Attention,SA)來突出輸入的RGB-IR圖像對的有意義的信息.最后,對標簽損失和難三元組損失進行改進,使用標簽平滑和自適應(yīng)權(quán)重實現(xiàn)聯(lián)合監(jiān)督.以下將對各個模塊進行詳細介紹.

1.1自動數(shù)據(jù)增強

自動數(shù)據(jù)增強(AutoAugment)[13]于2018年被提出,通過強化學習來搜索數(shù)據(jù)增強策略.但是其搜索空間過大,使得實驗時間過長、計算成本過高,在實際中難以直接應(yīng)用.故提出了Trivial Augment(TA)[14],它不需要采用AutoAugment類似的代理任務(wù),直接采用簡單的網(wǎng)格搜索即可獲得更好的效果.

本文使用Trivial Augment的流程如下:在給定一組圖像和一組數(shù)據(jù)增強操作A的情況下,每次隨機選擇一張圖像I,并在A中隨機選擇一個數(shù)據(jù)增強操作以及它的增強幅度.在這里,數(shù)據(jù)增強操作一般是較為基礎(chǔ)的圖像處理方法,例如裁剪、翻轉(zhuǎn)、旋轉(zhuǎn)、銳化、對比度增強等.這樣的數(shù)據(jù)增強方法能夠在不引入額外噪聲的同時使模型獲得更多樣化、更豐富的數(shù)據(jù),從而提升模型的魯棒性和泛化能力.

1.2CrossViT

跨注意力機制確保模型根據(jù)不同模態(tài)的信息關(guān)注到圖像中的重要區(qū)域,多尺度特征在圖像內(nèi)捕獲不同空間分辨率或尺度的信息.圖像中的行人可能會因視角或尺度差異而改變大小,而不同尺度的特征恰能捕獲細粒度和粗粒度的結(jié)構(gòu).

多尺度特征有助于處理圖像內(nèi)行人大小和形狀的變化.本文在標準的Vision Transformer (ViT)[15]中引入了多尺度殘差連接,以分析不同空間分辨率下的特征,處理由于不同成像條件而引起的外觀變化.CrossViT有效地整合了可見光和紅外模態(tài)的信息,捕獲了空間關(guān)系,且考慮了全局和局部語境.它能夠處理多尺度特征,生成區(qū)分性較強的特征表示.

1.2.1ViT

ViT是一種基于Transformer的神經(jīng)網(wǎng)絡(luò)模型,最初被設(shè)計用于解決圖像分類任務(wù).它將圖像視為一系列補丁,并利用Transformer架構(gòu)對這些補丁進行處理.由于ViT采用了自注意力機制,因此Transformer編碼器需要包含位置信息.為此,ViT將位置嵌入到每個含有CLS的令牌中.該網(wǎng)絡(luò)的編碼器由一系列塊組成,每個塊都包含多頭自注意力和一個前饋層網(wǎng)絡(luò)(FFN).FFN由兩層多層感知器組成,其中隱藏層包含擴展比率,并在后續(xù)層中采用GELU激活函數(shù).每個塊都采用層歸一化進行處理,以生成殘差特征.記ViT的輸入為z0,第l個塊的公式如下:

1.2.2交叉注意力多尺度特征

圖2展示了使用交叉注意力ViT學習多尺度特征的框架.該模型由L個多尺度Transformer編碼器組成,每個編碼器中都包括一個粗粒度分支C和一個細粒度分支F.粗粒度分支負責提取較為粗糙的特征,具有更多的編碼器和嵌入維度,而細粒度分支則專注于提取更加細致的特征,具有較少的編碼器和嵌入維度.在這兩個分支的每個令牌中都需要添加位置嵌入.在多次應(yīng)用粗粒度分支和細粒度分支之后,通過多尺度Transformer編碼器進行處理,并最終利用CLS令牌進行分類.該網(wǎng)絡(luò)的關(guān)鍵在于通過交叉注意力機制進行特征處理,從而實現(xiàn)多尺度特征的學習.在交叉注意力機制中,取一個分支的CLS令牌,在另一個分支中取補丁令牌并將它們?nèi)诤显谝黄?

1.3通道及空間注意力模塊

1.3.1通道注意力

1.3.2空間注意力

1.4損失函數(shù)設(shè)計

1.4.1標簽平滑交叉熵損失

1.4.2自適應(yīng)權(quán)重的難三元組損失

2實驗與分析

2.1數(shù)據(jù)集與實驗參數(shù)

本實驗選用SYSU-MM01[19]多模態(tài)行人重識別數(shù)據(jù)集.該數(shù)據(jù)集包含了來自室內(nèi)和室外6臺攝像機的491個行人的287 628張RGB圖像和15 792張紅外圖像.訓(xùn)練集包含395個身份的22 258張RGB圖像和11 909張紅外圖像,測試集則包含96個身份的301張RGB圖像和3 803張紅外圖像.SYSU-MM01提供了2種搜索模式,分別為全搜索(all search)和室內(nèi)搜索(indoor search).前者將可見光相機1、2、4、5的圖像作為gallery集,將紅外相機3、6的圖像作為query集;而后者則將可見光相機1、2的圖像作為gallery集,將紅外相機3、6的圖像作為query集.

RegDB[20]是一個用于行人重識別的數(shù)據(jù)集,它模擬了室外環(huán)境下的行人檢測和識別任務(wù).RegDB數(shù)據(jù)集包含了來自2個不同攝像頭的412個行人的圖像序列,分別為可見光和紅外圖像,每個人包含10張可見光和10張紅外圖像.RegDB數(shù)據(jù)集的評估模式是可見光到紅外(V "to I)和紅外到可見光(I to V).

本實驗使用Windows 11操作系統(tǒng),采用PyTorch 1.13.1+cu117深度學習框架,PyCharm 17.4.0.1作為編輯器.Python版本為3.9,模型訓(xùn)練過程中利用NVIDIA GeForce RTX 3050圖形處理器.采用累積匹配特性(Cumulative Matching Characteristics,CMC)和平均準確率mAP作為評估指標,其中,CMC反映了在不同排名下的命中率.

在實驗過程中設(shè)定了一系列超參數(shù):批量大小為16,行人圖像尺寸為288×144像素,圖像增強中隨機擦除的概率為0.5;訓(xùn)練輪數(shù)設(shè)定為100,優(yōu)化器為Adam優(yōu)化器[21],權(quán)重衰減設(shè)置為5×10-4,動量為0.9;學習率在前20輪設(shè)定為0.1,在第21~第50輪設(shè)定為0.01,在第51~第100輪設(shè)定為0.001;在自適應(yīng)權(quán)重的難三元組損失中,α值設(shè)定為1.

2.2模型對比

2.2.1本文提出模型與先進算法的對比

為了驗證本文所提出模型的優(yōu)越性,將本文提出模型的性能與該領(lǐng)域的先進算法比較,包括IMT[12]、GPFF[22]、PDRNet[23]、AGM[11]、FMCNet[24]、MSO[25]、PMT[26]、NFS[9]和TVTR[27].為了更加全面地比較,本文將上述方法在SYSU-MM01的all search和indoor search兩種模式下進行實驗,對比結(jié)果如表1所示.從與其他先進算法的對比來看,本文提出的算法在all search模式的Rank-1、Rank-10、Rank-20和mAP均較高,分別達到了70.71%、96.63%、98.83%和68.05%,比其他先進算法至少高出1.08、0.36、0.01和1.94個百分點,這說明本文提出模型的魯棒性強,檢索和匹配性能較好.然而,在indoor search模式中,本文提出算法的Rank-10為98.49%,不如PDRNet模型,比其低了0.47個百分點,這反映出本文提出的模型對某些室內(nèi)場景下的變化不夠敏感,因此這成為下一階段的工作重心.

本文方法在RegDB數(shù)據(jù)集上與上述先進算法的對比結(jié)果如表2所示,其中V to I表示可見光到紅外模態(tài)的檢索,I to V表示紅外到可見光模態(tài)的檢索.從與其他先進算法的對比來看,本文提出的算法在多數(shù)評價指標上達到了較好的性能,Rank-1和mAP都達到了SOTA,但是在部分Rank-10和Rank-20中沒有GPFF模型表現(xiàn)得好,這可能是因為模型在不同域間的泛化性能以及數(shù)據(jù)規(guī)模遷移能力不強.這也是下一階段需要解決的問題.

2.2.2可視化對比

圖3可視化了通過CSA模塊增強的注意力特征圖與基線模型的對比.從特征圖的直觀比較中可以觀察到,本文模型能夠更有效地聚焦行人的關(guān)鍵生物特征,如頭部、肩部和腿部區(qū)域.這種精細的注意力定位表明,本文模型對行人的關(guān)鍵識別信息有更高的靈敏度.此外,與基線模型相比,本文模型在背景噪聲抑制方面展現(xiàn)出更優(yōu)的性能.在多個測試場景中,基線模型的注意力圖往往包括大量非目標區(qū)域的活躍響應(yīng),它們通常是行人后面的背景或其他干擾元素.本文模型則通過引入改進的空間注意力機制,有效地減少了對這些無關(guān)區(qū)域的關(guān)注,從而增強了模型對實際行人目標的聚焦能力.

為了直觀地驗證本文所提出模型的先進性,在SYSU-MM01數(shù)據(jù)集上進行了檢索結(jié)果的可視化,如圖4所示.將紅外模態(tài)圖像作為query,可見光模態(tài)圖像作為gallery,綠色外框代表檢索正確,紅色外框代表檢索錯誤.從圖4中可以直觀地感受到本文提出的基于融合注意力和特征增強的行人重識別模型的檢索能力遠高于基線模型,檢索圖像和待檢索圖像的匹配度較高,能夠更加準確地識別行人身份.

2.3消融實驗

2.3.1模塊消融實驗

為了驗證本文提出模型中各個模塊的有效性,對模塊的有效性進行消融實驗分析,結(jié)果如表3所示,其中,TA表示自動數(shù)據(jù)增強,CSA表示通道和空間注意力機制,Ltrihardw表示自適應(yīng)權(quán)重的難三元組損失.本文模型在文獻[20]的基礎(chǔ)上進行優(yōu)化,故選取其作為基線模型.在all search模式下,最終本文提出模型的Rank-1、Rank-10、Rank-20和mAP分別比基線模型高5.83、2.98、1.62和3.59個百分點,證明本文模型的有效性.在使用TA模塊后,模型性能有小幅度的提升,說明自動數(shù)據(jù)增強確實能夠緩解一部分視角、尺度差異,提升模型魯棒性.進一步添加了CrossViT模塊后,模型性能有了巨大提升,說明CrossViT能夠在融合并豐富不同模態(tài)特征的同時捕獲細粒度信息和高級語義表征.在加入CSA模塊后,模型性能有一定的提升,說明CSA模塊增強了網(wǎng)絡(luò)捕獲不同模態(tài)的通道和空間特征的能力.在加入Ltrihardw后模型性能有一定的提升,說明自適應(yīng)權(quán)重的難三元組損失能夠有效地約束模型學習方向.

2.3.2損失函數(shù)消融實驗

在損失函數(shù)設(shè)計中,本文提出了自適應(yīng)權(quán)重的難三元組損失.為了驗證其相較其他損失函數(shù)的優(yōu)越性,將其與常見的中心損失Lcenter[28]和難三元組損失Ltrihard[16]進行對比消融實驗,結(jié)果如表4所示.可以看出,自適應(yīng)權(quán)重的難三元組損失在各個評價指標上均高于中心損失和難三元組損失.在SYSU-MM01數(shù)據(jù)集上,Rank-1和mAP在all search模式下至少提高了0.91和0.31個百分點,indoor search模式下至少提高了0.62和0.58個百分點.在RegDB數(shù)據(jù)集上,Rank-1和mAP在V to I模式下至少提高了0.78和0.47個百分點,在I to V模式下至少提高了0.47和0.29個百分點.對比實驗證明自適應(yīng)權(quán)重的難三元組損失通過分配不同權(quán)重來提高每個樣本的相關(guān)性,能夠改善度量學習方法的性能并加速網(wǎng)絡(luò)收斂速度.

3總結(jié)

針對以往研究中對細粒度特征提取能力不強的問題,本文提出一種基于融合注意力和特征增強的跨模態(tài)行人重識別模型.本文的主要工作如下:1)利用自動數(shù)據(jù)增強對原始數(shù)據(jù)進行增強,增加模型的魯棒性,緩解視角、尺度等差異;2)提出了基于交叉注意力多尺度CrossViT特征提取模型,能夠在融合不同模態(tài)特征的同時捕獲來自網(wǎng)絡(luò)不同層次的信息,并獲取細粒度信息和高級語義表征;3)提出了CSA模塊,同時關(guān)注通道和空間級特征,在融合可見光和紅外圖像特征時學習對區(qū)分特征重要的信息;4)提出了自適應(yīng)權(quán)重的難三元組損失,增強了樣本之間的相關(guān)性,提高了可見光和紅外圖像對不同行人的識別能力.

參考文獻References

[1]Bhardwaj S,Dave M.Enhanced neural network-based attack investigation framework for network forensics:identification,detection,and analysis of the attack[J].Computers amp; Security,2023,135:103521

[2]Zhu J L,Li Q L,Gao C B,et al.Camera-aware re-identification feature for multi-target multi-camera tracking[J].Image and Vision Computing,2024,142:104889

[3]Zennayi Y,Benaissa S,Derrouz H,et al.Unauthorized access detection system to the equipments in a room based on the persons identification by face recognition[J].Engineering Applications of Artificial Intelligence,2023,124:106637

[4]Eli M B,Lidor R,Lath F,et al.The feudal glove of talent-selection decisions in sport-strengthening the link between subjective and objective assessments[J].Asia Journal of Sport and Exercise Psychology,2024,4(1):1-6

[5]Co塂ar S,Bellotto N.Human re-identification with a robot thermal camera using entropy-based sampling[J].Journal of Intelligent amp; Robotic Systems,2019,98:85-102

[6]Fu D P,Chen D D,Bao J M,et al.Unsupervised pre-training for person re-identification[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:14750-14759

[7]周非,舒浩峰,白夢林,等.生成對抗網(wǎng)絡(luò)協(xié)同角度異構(gòu)中心三元組損失的跨模態(tài)行人重識別[J].電子學報,2023,51(7):1803-1811ZHOU Fei,SHU Haofeng,BAI Menglin,et al.Cross-modal person re-identification based on generative adversarial network coordinated with angle based heterogeneous center triplet loss[J].Acta Electronica Sinica,2023,51(7):1803-1811

[8]Yuan B W,Chen B R,Tan Z Y,et al.Unbiased feature enhancement framework for cross-modality person re-identification[J].Multimedia Systems,2022,28(3):749-759

[9]Chen Y,Wan L,Li Z H,et al.Neural feature search for RGB-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:587-597

[10]Choi S,Lee S,Kim Y,et al.Hi-CMD:hierarchical cross-modality disentanglement for visible-infrared person re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:10257-10266

[11]Liu H J,Xia D X,Jiang W.Towards homogeneous modality learning and multi-granularity information exploration for visible-infrared person re-identification[J].IEEE Journal of Selected Topics in Signal Processing,2023,17(3):545-559

[12]Xia D X,Liu H J,Xu L L,et al.Visible-infrared person re-identification with data augmentation via cycle-consistent adversarial network[J].Neurocomputing,2021,443:35-46

[13]Cubuk E D,Zoph B,Mané D,et al.AutoAugment:learning augmentation strategies from data[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:113-123

[14]Müller S G,Hutter F.TrivialAugment:tuning-free yet state-of-the-art data augmentation[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).October 10-17,2021,Montreal,QC,Canada.IEEE,2021:754-762

[15]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[J].arXiv e-Print,2020,arXiv:2010.11929

[16]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV),2018:3-19

[17]Radenovic F,Tolias G,Chum O.Fine-tuning CNN image retrieval with no human annotation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(7):1655-1668

[18]Liu H J,Tan X H,Zhou X C.Parameter sharing exploration and hetero-center triplet loss for visible-thermal person re-identification[J].IEEE Transactions on Multimedia,2080,23:4414-4425

[19]Wu A C,Zheng W S,Yu H X,et al.RGB-infrared cross-modality person re-identification[C]// IEEE International Conference on Computer Vision.October 22-29,2017,Venice,Italy.IEEE,2017:5380-5389

[20]Ye M,Shen J B,Lin G J,et al.Deep learning for person re-identification:a survey and outlook[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(6):2872-2893

[21]Kingma D P,Ba J.Adam:a method for stochastic optimization[J].arXiv e-Print,2014,arXiv:1412.6980

[22]Wang X J,Cordova R S.Global and part feature fusion for cross-modality person re-identification[J].IEEE Access,2038,10:122038-122046

[23]劉志剛,常樂樂,趙宜珺,等.基于通道干預(yù)漸進式差異減小網(wǎng)絡(luò)的跨模態(tài)行人重識別[J/OL].計算機輔助設(shè)計與圖形學學報,2024:1-11.[2024-03-14].https://kns.cnki.net/kcms/detail/11.2925.TP.20240314.1047.012.htmlLIU Zhigang,CHANG Lele,ZHAO Yijun,et al.Progressive difference reduction network with channel intervention for visible-infrared re-identification[J/OL].Journal of Computer-Aided Design amp; Computer Graphics,2024:1-11.[2024-03-14].https://kns.cnki.net/kcms/detail/11.2925.TP.20240314.1047.012.html

[24]Zhang Q,Lai C Z,Liu J N,et al.FMCNet:feature-level modality compensation for visible-infrared person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).June 19-20,2022,Long Beach,CA,USA.IEEE,2022:7349-7358

[25]Gao Y J,Liang T F,Jin Y,et al.MSO:multi-feature space joint optimization network for RGB-infrared person re-identification[C]//Proceedings of the 29th ACM International Conference on Multimedia.New York,NY,USA.ACM,2021:5257-5265

[26]Lu H,Zou X Z,Zhang P P.Learning progressive modality-shared transformers for effective visible-infrared person re-identification[J].Proceedings of the 37th AAAI Conference on Artificial Intelligence,2023,37(2):1835-1843

[27]Yang B,Chen J,Ye M.Top-K visual tokens transformer:selecting tokens for visible-infrared person re-identification[C]// 2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).June 4-10,2023,Rhodes Island,Greece.IEEE,2023:1-5

[28]Luo H,Gu Y Z,Liao X Y,et al.Bag of tricks and a strong baseline for deep person re-identification[C]/2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).June 16-17,2019,Long Beach,CA,USA.IEEE,2019:1487-1495

Cross-modal person re-identification based on fused attention and feature enhancement

HUANG Chihan SHEN Xiaobo

1School of Design Art and Media,Nanjing University of Science & Technology,Nanjing 210094,China2School of Computer Science and Engineering,Nanjing University of Science & Technology,Nanjing 210094,China

AbstractRGB-Infrared person re-identification (Re-ID) is a challenging task which aims to match person images between visible and infrared modalities,playing a crucial role in criminal investigation and intelligent video surveillance.To address the weak feature extraction capability for fine-grained features in current cross-modal person Re-ID tasks,this paper proposes a person re-identification model based on fused attention and feature enhancement.First,automatic data augmentation techniques are employed to mitigate the differences in perspectives and scales among different cameras,and a cross-attention multi-scale Vision Transformer is proposed to generate more discriminative feature representations by processing multi-scale features.Then the channel attention and spatial attention mechanisms are introduced to learn information important for distinguishing features when fusing visible and infrared image features.Finally,a loss function is designed,which adopts the adaptive weight based hard triplet loss,to enhance the correlation between each sample and improve the capability of identifying different persons from visible and infrared images.Extensive experiments conducted on the SYSU-MM01 and RegDB datasets show that the proposed approach achieves mAP of 68.05% and 85.19%,respectively,outperforming many state-of-the-art approaches.Moreover,ablation experiments and comparative analysis validate the superiority and effectiveness of the proposed model.Key wordsperson re-identification (Re-ID); cross-modal; cross attention; feature extraction; multi-scale

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術(shù)
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 国产精品区网红主播在线观看| 日本黄色不卡视频| 在线观看国产精美视频| 素人激情视频福利| 亚洲国内精品自在自线官| 国产亚洲精品va在线| 亚洲国产日韩在线成人蜜芽| 二级特黄绝大片免费视频大片| 999精品色在线观看| 国产色伊人| 日本黄色a视频| 在线中文字幕网| www.亚洲色图.com| 夜夜爽免费视频| 波多野结衣二区| 亚洲第一成年免费网站| 亚洲水蜜桃久久综合网站| AV不卡在线永久免费观看| 波多野衣结在线精品二区| 欧美www在线观看| 国产欧美日韩精品第二区| 国产一区二区免费播放| 国产91导航| 中文字幕2区| 久久精品人妻中文视频| 亚洲欧洲免费视频| 视频一本大道香蕉久在线播放| 中文字幕亚洲精品2页| 亚洲国产成人久久77| 国产成人高清精品免费5388| 国产精品三区四区| 国产一区三区二区中文在线| 综合天天色| 欧美亚洲国产一区| 亚洲国产精品VA在线看黑人| 日韩欧美一区在线观看| 精品视频91| 996免费视频国产在线播放| 久久精品免费国产大片| 97亚洲色综久久精品| 麻豆a级片| 亚洲自偷自拍另类小说| 久久精品最新免费国产成人| 香蕉国产精品视频| 999国产精品永久免费视频精品久久 | 国产精品区视频中文字幕| 国产视频欧美| 麻豆国产精品视频| 高清国产在线| 亚洲天堂.com| 在线免费a视频| 国产午夜无码片在线观看网站| 国产成人无码AV在线播放动漫| 亚洲精品天堂在线观看| 亚洲视频一区| 国产精品欧美亚洲韩国日本不卡| 精品国产美女福到在线不卡f| 欧美成人精品一级在线观看| 亚洲一区波多野结衣二区三区| 欧美第一页在线| 91九色国产porny| 亚洲国产成人久久77| 亚洲中文精品人人永久免费| 久久性视频| 日日碰狠狠添天天爽| 人妖无码第一页| 欧美一道本| 亚洲av无码牛牛影视在线二区| 欧美日本不卡| 午夜免费小视频| 激情无码字幕综合| 99久久性生片| 欧美一级高清片欧美国产欧美| 久久久久中文字幕精品视频| 亚洲国产精品久久久久秋霞影院 | 国产午夜精品鲁丝片| 婷婷色婷婷| yjizz国产在线视频网| 亚洲嫩模喷白浆| 欧美色综合久久| 婷婷伊人五月| 国产偷国产偷在线高清|