999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用局部監(jiān)督的跨模態(tài)行人重識別研究

2023-01-01 00:00:00江鍇威王進張琳鈺蘆欣劉國慶
計算機應(yīng)用研究 2023年4期

作者簡介:江鍇威(1998-),男,江蘇南通人,碩士研究生,主要研究方向為計算機視覺;王進(1981-),男(通信作者),江蘇南通人,副教授,碩導(dǎo),博士,主要研究方向為人工智能(wj@ntu.edu.cn);張琳鈺(1997-),女,江蘇南通人,碩士研究生,主要研究方向為計算機視覺;蘆欣(1978-),女,廣東肇慶人,碩士,主要研究方向為計算機應(yīng)用技術(shù);劉國慶(1988-),男,山東濟寧人,博士研究生,主要研究方向為計算機視覺、智能化產(chǎn)品開發(fā).

摘 要:跨模態(tài)行人重識別技術(shù)旨在從非重疊視域不同模態(tài)的攝像頭捕獲的行人圖像中,識別出特定行人,行人圖像間存在巨大的跨模態(tài)差異以及模態(tài)內(nèi)部差異,導(dǎo)致識別率不高。為此,提出了一種利用局部監(jiān)督的跨模態(tài)行人重識別方法(LSN)。首先將可見光圖像轉(zhuǎn)換成與紅外圖像更為接近的灰度圖像,在圖像層面緩解跨模態(tài)的差異,并使用共享參數(shù)的雙流網(wǎng)絡(luò),提取具有判別性的共享特征,在特征層面緩解跨模態(tài)差異;其次,設(shè)計了局部監(jiān)督網(wǎng)絡(luò),增強了對背景、遮擋等噪聲的魯棒性,緩解了模態(tài)內(nèi)部差異;最后,設(shè)計了跨模態(tài)分組損失、聯(lián)合身份損失對網(wǎng)絡(luò)進行約束。實驗結(jié)果顯示,在SYSU-MM01數(shù)據(jù)集上,評價指標(biāo)rank-1和mAP分別達(dá)到了53.31%、50.88%;在RegDB數(shù)據(jù)集上,達(dá)到了73.51%、68.55%,實驗結(jié)果優(yōu)于同類方法,驗證了該方法的有效性和先進性。

關(guān)鍵詞:跨模態(tài)行人重識別;智能安防;雙流網(wǎng)絡(luò);局部監(jiān)督;跨模態(tài)分組損失

中圖分類號:TP391 文獻標(biāo)志碼:A

文章編號:1001-3695(2023)04-043-1226-07

doi:10.19734/j.issn.1001-3695.2022.07.0390

Abstract:Cross-modality person re-identification technique aims to identify specific pedestrians from pedestrian images captured by cameras with different modalities in non-overlapping fields of view.There are huge cross-modality differences between pedestrian images as well as intra-modality differences,resulting in poor recognition rates.In order to solve this problem,this paper proposed a cross-modality person re-identification method using local supervision(LSN).Firstly,it converted the visible images into grayscale images that were closer to the infrared images to mitigate the cross-modality differences at the image level,and extracted discriminative shared features using a two-stream network with shared parameters to mitigate the cross-modality differences at the feature level.Secondly,it designed a local supervision network to enhance the robustness to background,occlusion and other noises and mitigate the intra-modality differences.Finally,it designed a cross-modality group loss in combination with the identity loss to constrain the network.The experimental results show that the evaluation metrics rank-1 and mAP reach 53.31% and 50.88% on the SYSU-MM01 dataset,and 73.51% and 68.55% on the RegDB dataset,respectively.The experimental results outperform similar methods,which verifies the effectiveness and advancement of the proposed method.

Key words:cross-modality person re-identification;intelligent security;two-stream network;local supervision;cross-modality group loss

0 引言

隨著人工智能的不斷發(fā)展,智慧城市建設(shè)項目近年來在國內(nèi)外受到了廣泛的關(guān)注,智能安防[1,2]作為其中不可或缺的一環(huán),成為了當(dāng)下研究的熱點。要做好智能安防,如何在日常生活場景中準(zhǔn)確地識別行人身份便成了一個亟待解決的關(guān)鍵問題。目前人臉識別[3~5]的技術(shù)已經(jīng)較為成熟,但它需要高質(zhì)量的行人正臉圖像,而日常生活大多場景下的監(jiān)控攝像頭無法獲取到符合要求的圖像,往往只能拍攝到行人整體圖像。在這種非合作場景下,行人重識別[6~9]技術(shù)(person re-identification)便被提出作為人臉識別的補充技術(shù),對行人身份進行識別。

行人重識別也稱為行人再識別,是指在多個非重疊的攝像頭拍攝的場景下,給定一幅待查詢的行人圖像,進而從大規(guī)模行人圖像庫中檢索出與其身份相同的行人圖像[10]。在早期的研究中,大多關(guān)注的是白天由可見光攝像頭捕獲的可見光圖像,是單一模式的圖像。而在實際應(yīng)用中,可見光攝像頭只能滿足部分場景的需求。在夜間或者低光照條件下,可見光攝像頭無法獲取到行人清晰的特征信息,從而影響識別的準(zhǔn)確率,為此業(yè)界開始引入紅外攝像頭來彌補這一缺陷。這樣,在白天或光照條件良好的條件下采用可見光攝像頭拍攝高質(zhì)量的可見光行人圖像,在夜間或低光照環(huán)境下可以利用紅外攝像頭拍攝對光照依賴更小的紅外行人圖像,較好地擺脫了光照條件的限制。但同時處理兩種模態(tài)的圖像,也增加了行人重識別任務(wù)的難度,使其從單模態(tài)的行人重識別升級為多模態(tài)的行人重識別,即基于可見光—紅外的跨模態(tài)行人重識別[11~14](visible thermal person re-identification,VT-ReID)。

如圖1所示,VT-ReID目的是匹配可見光和紅外兩種攝像頭采集到的兩種模態(tài)的行人圖像。可見光圖像和紅外圖像間巨大的跨模態(tài)差異是VT-ReID的主要挑戰(zhàn)之一,并由于可見光圖像和紅外圖像的波長范圍不同,且可見光圖像的通道數(shù)為3,而紅外圖像的通道數(shù)為1,這使得可見光圖像和紅外圖像在本質(zhì)上存在著巨大的差異,所以要比傳統(tǒng)的單模態(tài)行人重識別更加困難。目前大多數(shù)研究以共享網(wǎng)絡(luò)參數(shù)的方式來實現(xiàn)特征對齊[15~18],但這樣容易忽視模態(tài)的特有信息。也有部分研究開始采用GAN(generative adversarial networks)來生成偽紅外圖像,以此解決這種圖像間跨模態(tài)的差異[19~23],但由于圖像重建破壞了圖像的原有信息,不可避免地引入了額外的噪聲,同時使用GAN大幅度擴大了網(wǎng)絡(luò)的規(guī)模,需要消耗極大的訓(xùn)練時間,也會出現(xiàn)難以收斂的情況。

除了跨模態(tài)的差異,與單模態(tài)行人重識別類似的,VT-ReID也存在模態(tài)內(nèi)部差異。由于每個行人可能是由不同的攝像頭所拍攝的,這些攝像頭的視點位置、拍照角度等存在差異,得到的行人圖像間難免會出現(xiàn)姿勢不同、背景不同、遮擋等問題,如圖2所示。這會導(dǎo)致即使是同一個行人,他自己的圖像之間的相似度也可能非常低,甚至低于和其他行人圖像間的相似度,產(chǎn)生類內(nèi)差異大于類間差異的情況。一些傳統(tǒng)的方法僅考慮使用整體特征[24~26],或者某一特定維度的局部特征進行處理[27],這往往收獲不到好的效果。此外,由于圖像異質(zhì),類內(nèi)差距越發(fā)擴大,導(dǎo)致直接將單模態(tài)行人重識別方法遷移到跨模態(tài)任務(wù)上來,也達(dá)不到好的效果。

因此,若想較好地完成跨模態(tài)行人重識別任務(wù),在考慮跨模態(tài)差異問題的同時,也要兼顧解決模態(tài)內(nèi)部差異的問題。針對VT-ReID面臨的上述挑戰(zhàn),本文提出了利用局部監(jiān)督的跨模態(tài)行人重識別方法。其主要思想是,首先將可見光圖像轉(zhuǎn)換成與紅外圖像較為相近的灰度圖像,在圖像層面緩解跨模態(tài)差異,并結(jié)合殘差網(wǎng)絡(luò)ResNet50和非局部注意力機制,提取具有判別性和長依賴性的共享特征,在特征層面緩解跨模態(tài)差異。接著通過提取局部特征對全局特征進行監(jiān)督,使得全局特征對背景、遮擋等噪聲具有魯棒性,來緩解模態(tài)內(nèi)部差異。最后設(shè)計了跨模態(tài)分組損失,聯(lián)合身份損失對網(wǎng)絡(luò)進行約束,同時起到緩解跨模態(tài)差異和模態(tài)內(nèi)部差異的效果。本文的主要貢獻如下:

a)提出利用經(jīng)典圖像處理的方法,將可見光模態(tài)圖像轉(zhuǎn)換成與紅外圖像更為接近的灰度圖像并且使用結(jié)合了非局部注意力機制的雙流網(wǎng)絡(luò)來提取具有辨別性的模態(tài)共享特征,分別在圖像層面和特征層面緩解了跨模態(tài)差異。

b)提出利用局部特征監(jiān)督全局特征的方法,使得模型最終獲得的全局特征具備局部特征的優(yōu)點,增強了對背景、遮擋等噪聲的魯棒性,緩解模態(tài)內(nèi)部差異。

c)提出了跨模態(tài)分組損失對網(wǎng)絡(luò)進行約束,在跨模態(tài)的情況下,增加組間距離的同時,保持組內(nèi)距離穩(wěn)定,既緩解了模態(tài)內(nèi)部的差異,也緩解了跨模態(tài)的差異。

1 相關(guān)工作

1.1 單模態(tài)行人重識別

單模態(tài)行人重識別一般指的是針對可見光模態(tài)圖像的行人重識別,該技術(shù)的難點在于解決由于攝像頭安裝位置、拍攝角度不同導(dǎo)致行人背景不一致、姿態(tài)變化以及可能存在遮擋等問題。傳統(tǒng)方法主要有人工提取特征方法和度量學(xué)習(xí)方法。人工提取特征方法[28,29]主要提取行人具有可辨識度的特征,例如性別、衣著顏色、骨架信息等。度量學(xué)習(xí)方法[30~32]通過設(shè)計損失函數(shù),以減小類內(nèi)距離,增大類間距離。隨著深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的行人重識別方法[33~35]將特征提取和度量學(xué)習(xí)整合到一個框架中,以端到端的方式進行訓(xùn)練。與傳統(tǒng)方法相比,在識別精度和效率上有了極大的提升,部分先進的行人重識別方法也在一些公開數(shù)據(jù)集上超過了人類的認(rèn)識,但它們面向的仍是由可見光圖像所構(gòu)成的數(shù)據(jù)集,遷移到跨模態(tài)任務(wù)中來,識別率有較大下降。

1.2 跨模態(tài)行人重識別

跨模態(tài)行人重識別,最早在2017年由Wu等人[11]提出,他們貢獻了一個專用于跨模態(tài)行人重識別的SYSU-MM01數(shù)據(jù)集,評估了現(xiàn)有的流行跨域模型,包括三種常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(單流、雙流和非對稱FC層),并分析了它們之間的關(guān)系。在此基礎(chǔ)上,進一步提出了深度零填充(deep zero-padding)的方法,用于訓(xùn)練單流網(wǎng)絡(luò),學(xué)習(xí)模態(tài)的共享特征,較好地解決了跨模態(tài)差異問題。但是該方法缺少度量學(xué)習(xí)的過程,沒有考慮到模態(tài)內(nèi)部差異的問題。

于是Ye等人[15]提出了一種雙向雙重約束損失的雙流網(wǎng)絡(luò)。一方面,它直接進行端到端的特征學(xué)習(xí),不需要額外的度量學(xué)習(xí)步驟,另一方面,它使用了雙重約束的排序損失,解決跨模態(tài)差異問題,并采用身份損失函數(shù),進一步減小類內(nèi)差異,同時處理模態(tài)內(nèi)部和跨模態(tài)差異。

隨著生成對抗網(wǎng)絡(luò)的發(fā)展,Wang等人[20]利用GAN來緩解跨模態(tài)差異,提出了一個端到端對齊生成對抗網(wǎng)絡(luò)(AlignGAN),聯(lián)合了像素對齊和特征對齊兩種策略。其中像素對齊模塊利用CycleGAN進行風(fēng)格遷移,生成偽紅外圖像來彌補可見光圖像與紅外圖像之間的差距。之后,Wang等人[22]提出雙重差異減小方法(D2RL),首先用變分自編碼器(VAE)分析圖像的風(fēng)格,之后使用GAN生成特定域的圖像,將可見光和紅外模態(tài)統(tǒng)一到多光譜模態(tài),來解決模態(tài)差異。這類方法雖然在當(dāng)前任務(wù)上取得了不錯的效果,但利用GAN生成圖像會不可避免地帶來額外的噪聲,且生成圖像與真實圖像間仍存在較大的差距。此外,使用GAN需要額外的訓(xùn)練過程,消耗大量的時間,從而影響在現(xiàn)實場景下的應(yīng)用效率。

之后,Ye等人[36]將注意力機制應(yīng)用到跨模態(tài)行人重識別任務(wù)中來,設(shè)計了具有非局部注意力機制的基線,并提出了廣義平均池化方法和加權(quán)正則化三元組損失。該基線通過非局部注意力機制獲取中層與高層的信息,增強特征的可判別能力。然而,該模型提取共享特征是以全局特征為基礎(chǔ),樣本中含有較多的諸如背景、遮擋等具有干擾性質(zhì)的噪聲,僅使用全局特征的模型對噪聲的魯棒性差。

由此可見,跨模態(tài)差異和模態(tài)內(nèi)部差異在現(xiàn)有方法的作用下,均有了不同程度的緩解,但很少有方法能很好地兼顧兩者,導(dǎo)致跨模態(tài)行人重識別任務(wù)的識別率依舊不高。現(xiàn)有方法利用GAN實現(xiàn)模態(tài)統(tǒng)一效果不佳,或者僅利用全局特征無法確保對遮擋等干擾的魯棒性,本文從現(xiàn)有方法的不足出發(fā),提出了一種利用局部監(jiān)督的跨模態(tài)行人重識別方法。

2.1 模態(tài)轉(zhuǎn)換

本文選用與紅外圖像較為接近的灰度圖像作為過渡,將可見光圖像輸入網(wǎng)絡(luò)訓(xùn)練前,先轉(zhuǎn)換成灰度圖像,這樣既保留了可見光圖像的結(jié)構(gòu)信息,同時減弱了后續(xù)網(wǎng)絡(luò)訓(xùn)練時對色彩信息的依賴,在圖像層面緩解了跨模態(tài)差異。灰度化處理的效果如圖4所示。

3 實驗與分析

3.1 數(shù)據(jù)集

本文采用跨模態(tài)行人重識別任務(wù)中最常用的SYSU-MM01和RegDB數(shù)據(jù)集對所提方法進行評估。

SYSU-MM01數(shù)據(jù)集是跨模態(tài)行人重識別領(lǐng)域中的第一個標(biāo)準(zhǔn)數(shù)據(jù)集,由4個可見光攝像頭和2個紅外攝像頭采集獲得。該數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)由395位行人的22 258張可見光圖像和11 909張紅外圖像組成,且每位行人至少被兩個不同視角和位置的攝像頭所捕獲。測試集分為兩種評價模式,并且包含另外的95位行人。在兩種評價模式內(nèi),查詢集是一致的,包含3 803張由2個紅外攝像頭所捕獲的紅外圖像,圖庫集在all-search模式下,包含了4個可見光攝像頭捕獲的圖像,在indoor-search模式下,只包含其中2個室內(nèi)的可見光攝像頭捕獲的圖像。本實驗在SYSU-MM01數(shù)據(jù)集中,采用最嚴(yán)格的評估方式,測試集采用single-shot的構(gòu)建方式,以all-search和indoor-search兩種評價模式分別對方法進行評估。

RegDB數(shù)據(jù)集是由1個可見光攝像頭和1個遠(yuǎn)紅外攝像頭捕獲的圖像組成的小規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包含412位行人,每個行人含有10張可見光圖像和10張紅外圖像。本實驗隨機選取206位行人對應(yīng)的2 060張圖像用于訓(xùn)練,剩余的206位行人對應(yīng)的2 060張圖像用于測試。本實驗采用可見光圖像檢索紅外圖像(visible-to-thermal)、紅外圖像檢索可見光圖像(thermal-to-visible)這兩種檢索模式,并采用10次隨機分割的方式,選取訓(xùn)練集和測試集,記錄平均精度作為該數(shù)據(jù)集上的最終性能。

3.2 實驗設(shè)置

本實驗采用PyTorch框架,在單塊NVIDIA GeForce 1080Ti GPU上進行訓(xùn)練和測試。本文采用ResNet50作為骨干網(wǎng)絡(luò),并采用在ImageNet上預(yù)訓(xùn)練的參數(shù)初始化網(wǎng)絡(luò)權(quán)重。圖像大小設(shè)置為256×128,采用隨機裁剪和隨機水平翻轉(zhuǎn),增強實驗的泛化能力。在訓(xùn)練過程中,每次隨機選擇8個行人,然后對每個行人身份隨機選擇4張可見光圖像、4張紅外圖像,則batchsize為64。本實驗設(shè)置初始學(xué)習(xí)率為0.01,采用隨機梯度下降的方式優(yōu)化,動量參數(shù)設(shè)置為0.9,并在前10輪采用熱身學(xué)習(xí)率(warm up learning rate)策略,共訓(xùn)練80輪,學(xué)習(xí)率隨訓(xùn)練輪次的變化如式(7)所示。

3.3 評價指標(biāo)

為公平起見,參照現(xiàn)有工作的方法,本實驗同樣以累計匹配特性(cumulative matching characteristic,CMC)和平均精度均值(mean average precision,mAP)作為評價指標(biāo)。CMC中的rank-k測量前k個檢索結(jié)果中出現(xiàn)正確跨模態(tài)行人圖像的概率,而mAP可以體現(xiàn)方法的平均檢索性能。

3.4 對比實驗

本節(jié)選擇一些現(xiàn)有比較具有代表性的方案與本文方法的實驗結(jié)果進行比較,以此驗證本文方法的優(yōu)越性。實驗中將選擇的對比方法如下:單流網(wǎng)絡(luò)(one-stream)[11]、雙流網(wǎng)絡(luò)(two-stream)[11]、深度零填充網(wǎng)絡(luò)(zero-padding)[11]、分層跨模態(tài)度量學(xué)習(xí)(HCML)[37]、跨模態(tài)生成對抗網(wǎng)絡(luò)(cmGAN)[19]、雙向雙約束排序損失(BDTR)[15]、雙向中心約束排序損失(eBDTR)[25]、超球面流形嵌入模型(HSME)[38]、雙重差異減小學(xué)習(xí)(D2RL)[22]、對齊生成對抗網(wǎng)絡(luò)(AlignGAN)[20]、分層模間解調(diào)算法(Hi-CMD)[23]、跨模態(tài)相似性保持算法(CMSP)[16]、動態(tài)雙注意力聚合學(xué)習(xí)(DDAG)[17]和加權(quán)三元組損失的注意力廣義平均池化算法(AGW)[36]。

在SYSU-MM01數(shù)據(jù)集上的對比結(jié)果如表1、2所示。其中表1為all-search模式下的對比結(jié)果,表2為indoor-search模式下的對比結(jié)果。

在以往SOTA方案中,BDTR、eBDTR等基于雙流網(wǎng)絡(luò)改進損失函數(shù)和距離度量,以優(yōu)化樣本圖像在特征空間的距離,但忽略了網(wǎng)絡(luò)模型特征提取的部分。本文在特征提取階段利用了non-local注意力機制,提取具有判別性和長依賴性的共享特征,有利于后續(xù)的度量學(xué)習(xí)。D2RL、Hi-CMD、AlignGAN等利用GAN對模態(tài)進行統(tǒng)一,這樣做雖然緩解了跨模態(tài)差異,但需要額外的訓(xùn)練過程,極大地擴大了網(wǎng)絡(luò)的規(guī)模,同時也容易產(chǎn)生額外的噪聲,影響訓(xùn)練到的模型的穩(wěn)定性。本文借助灰度圖像進行過渡,同樣達(dá)到了緩解跨模態(tài)差異的目的,但避免了使用GAN的一些弊端。實驗結(jié)果表明,與現(xiàn)有利用GAN來處理跨模態(tài)差異的方法中效果最好的AlignGAN相比,本文方法在all-search模式下,rank-1、rank-10、mAP分別提高了11.11%、5.48%、10.18%。

在上述對比實驗中,除了本文方案,效果最好的是AGW算法,該方法在特征提取階段利用了非局部注意力機制提取全局特征,并使用廣義平均池化和加權(quán)正則化三元組損失進行約束。本文在此基礎(chǔ)上,充分發(fā)揮局部特征的優(yōu)勢,利用局部特征對全局特征進行監(jiān)督,使學(xué)習(xí)到的全局特征繼承了局部特征對背景雜波及遮擋等噪聲的魯棒性,緩解了模態(tài)內(nèi)部差異,并且設(shè)計了新的跨模態(tài)分組損失,結(jié)合身份損失對網(wǎng)絡(luò)進行約束,提升網(wǎng)絡(luò)整體性能。實驗結(jié)果表明,與AGW相比,本文方法在all-search模式下,rank-1、rank-10、mAP分別提高了6.01%、6.09%、3.23%;在indoor-search模式下,rank-1、rank-10、mAP分別提高了5.04%、2.75%、3.21%。

為進一步展示本文方法的先進性,選取次優(yōu)方案AGW進行對比,對實驗結(jié)果進行可視化。選取3張從不同視角拍攝到的不同行人的圖像作為代表,其中查詢圖像1為一男生的正面圖像,其上衣有較為鮮明的圖像、查詢圖像2為一男生的側(cè)面圖像,具有挎包對身體明顯的遮擋和桌子等背景噪聲的干擾、查詢圖像3為一女生的背面圖像,身體輪廓清晰但沒有人眼可見具有辨識性的特征。檢索結(jié)果如圖7所示,綠框表示匹配正確,紅框表示匹配錯誤。

此外,本文也在規(guī)模較小的RegDB數(shù)據(jù)集進行了對比實驗,結(jié)果如表3、4所示。其中表3為thermal-to-visible(T2V)模式下的對比結(jié)果,表4為visible-to-thermal(V2T)模式下的對比結(jié)果。

由此可見,在RegDB數(shù)據(jù)集上,本文方法在各項指標(biāo)上,也都領(lǐng)先于現(xiàn)有方法,與次優(yōu)方法AGW相比,在T2V模式下,rank-1、rank-10、mAP分別提高了3.02%、1.84%、2.65%;在V2T模式下,rank-1、rank-10、mAP分別提高了2.80%、1.42%、2.56%。同樣地,也選取AGW作為對比方法,在RegDB數(shù)據(jù)集上對實驗結(jié)果進行可視化。針對T2V和V2T兩種檢索模式,分別隨機選取兩個不同行人的圖像作為查詢集,其結(jié)果分別如圖8、9所示。

圖8中,待查詢圖像為紅外圖像,缺乏顏色、紋理等信息,識別主要依靠行人的體態(tài)姿勢。圖9中,待查詢圖像為可見光圖像,包含豐富的顏色信息和紋理信息,但也同時包含較為復(fù)雜的背景及遮擋等噪聲。實驗結(jié)果顯示,本文方法在兩種匹配模式中的表現(xiàn)都優(yōu)于AGW算法。

3.5 消融實驗

為驗證本文各個部分的有效性,對所提方法進行消融實驗。本文以基于ResNet50的雙流網(wǎng)絡(luò)結(jié)合非局部注意力機制作為baseline,依次加入本文所提出的各個模塊,來驗證各模塊的有效性。消融實驗選擇在SYSU-MM01數(shù)據(jù)集上以single-shot的構(gòu)建方式和all-search的評估模式進行測試,結(jié)果如表5所示。

方案1為本文選用的baseline,它使用ResNet50結(jié)合非局部注意力機制提取兩種模態(tài)共享特征,并采用身份損失和三元組損失作為度量學(xué)習(xí),較好地在跨模態(tài)行人重識別任務(wù)中進行全局特征表示學(xué)習(xí)。

方案2在1的基礎(chǔ)上,加上了局部監(jiān)督(L),該模塊通過水平切片的方法提取局部特征,將局部信息附加在全局特征的通道維度上,使學(xué)習(xí)到的全局特征擁有對背景雜波、遮擋等噪聲較強的魯棒性。表5顯示,方案2的性能要優(yōu)于方案1,證明了局部監(jiān)督的有效性。

方案3在2的基礎(chǔ)上,加上了模態(tài)轉(zhuǎn)換(P),該模塊在將圖像輸入網(wǎng)絡(luò)前,將可見光模態(tài)的行人圖像轉(zhuǎn)換成與紅外模態(tài)較為接近的灰度模態(tài),在圖像層面緩解了跨模態(tài)差異,在一定程度上將跨模態(tài)行人重識別問題轉(zhuǎn)換成了單模態(tài)行人重識別問題。表5顯示,加上模態(tài)轉(zhuǎn)換模塊后的性能要高于方案2,驗證了該模塊的效果。

方案4則為本文整體方案,在方案3的基礎(chǔ)上,設(shè)計了跨模態(tài)分組損失(G)替換了經(jīng)典的三元組損失。提取兩種模態(tài)樣本的特征,按行人身份進行分組,最小化組內(nèi)距離,最大化組間距離,并在拉大組間距離的同時,維持組內(nèi)特征的距離不變,這樣同時緩解了跨模態(tài)差異和模態(tài)內(nèi)部差異。表5顯示,方案4的實驗結(jié)果要優(yōu)于方案3,證明了跨模態(tài)分組損失的有效性。

4 結(jié)束語

本文提出了一種利用局部監(jiān)督的跨模態(tài)行人重識別方法,該方法兼顧處理行人重識別任務(wù)中的跨模態(tài)差異和模態(tài)內(nèi)部差異,從而提高了整體性能。首先,將可見光模態(tài)的圖像轉(zhuǎn)換成與紅外模態(tài)較為接近的灰度模態(tài),在圖像層面緩解跨模態(tài)差異,接著通過共享參數(shù)的雙流網(wǎng)絡(luò),結(jié)合非局部注意力機制,實現(xiàn)特征對齊,進一步在特征層面緩解了跨模態(tài)差異。然后設(shè)計了局部監(jiān)督模塊,利用局部特征對全局特征進行監(jiān)督,使得到的全局特征獲得局部特征的優(yōu)點,對背景雜波、遮擋等噪聲具有更強的魯棒性。最后設(shè)計了跨模態(tài)的分組損失,結(jié)合身份損失來訓(xùn)練網(wǎng)絡(luò)模型,并通過實驗驗證了本文方法的有效性和先進性。未來工作會從更好地緩解跨模態(tài)差異以及利用多層次、細(xì)粒度的特征著手,進一步提升跨模態(tài)行人重識別任務(wù)的識別率。

參考文獻:

[1]張迪,魯寧,李宜展,等.智能視覺感知與理解研究態(tài)勢分析[J].計算機工程與應(yīng)用,2018,54(19):18-25,33.(Zhang Di,Lu Ning,Li Yizhan,et al.Research situation analysis of intelligent visual perception and understanding[J].Computer Engineering and Applications,2018,54(19):18-25,33.)

[2]許鯤.智能視頻分析技術(shù)在智慧安防中的應(yīng)用與展望[J].數(shù)字技術(shù)與應(yīng)用,2021,39(9):150-152.(Xu Kun.Application and prospect of intelligent video analysis technology in smart security[J].Digital Technology amp; Application,2021,39(9):150-152.)

[3]Li Bi,Xi Teng,Zhang Gang,et al.Dynamic class queue for large scale face recognition in the wild[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:3762-3771.

[4]Zhang Yaobin,Deng Weihong,Zhong Yaoyao,et al.Adaptive label noise cleaning with meta-supervision for deep face recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:15045-15055.

[5]Deng Jiankang,Guo Jia,Yang Jing,et al.Variational prototype lear-ning for deep face recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:11901-11910.

[6]羅浩,姜偉,范星,等.基于深度學(xué)習(xí)的行人重識別研究進展[J].自動化學(xué)報,2019,45(11):2032-2049.(Luo Hao,Jiang Wei,F(xiàn)an Xing,et al.A survey on deep learning based on person re-identification[J].Acta Automatica Sinica,2019,45(11):2032-2049.)

[7]Bai Song,Tang Peng,Torr P,et al.Re-ranking via metric fusion for object retrieval and person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:740-749.

[8]馮霞,杜佳浩,段儀濃,等.基于深度學(xué)習(xí)的行人重識別研究綜述[J].計算機應(yīng)用研究,2020,37(11):3220-3226,3240.(Feng Xia,Du Jiahao,Duan Yinong,et al.Research on person re-identification based on deep learning[J].Application Research of Compu-ters,2020,37(11):3220-3226,3240.)

[9]熊煒,楊荻椿,熊子婕,等.基于全局特征拼接的行人重識別算法研究[J].計算機應(yīng)用研究,2021,38(1):316-320.(Xiong Wei,Yang Dichun,Xiong Zijie,et al.Person re-identification algorithm based on global feature stitching[J].Application Research of Computers,2021,38(1):316-320.)

[10]Zhu Xiatian,Wu Botong,Huang Dongcheng,et al.Fast open-world person re-identification[J].IEEE Trans on Image Processing,2018,27(5):2286-2300.

[11]Wu Ancong,Zheng Weishi,Yu Hongxing,et al.RGB-infrared cross-modality person re-identification[C]//Proc of IEEE Conference International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5390-5399.

[12]Zhao Yunbo,Lin Jianwu,Xuan Qi,et al.HPILN:a feature learning framework for cross-modality person re-identification[J].IET Image Processing,2020,13(14):2897-2904.

[13]Ye Mang,Lan Xiangyuan,Leng Qingming,et al.Cross-modality person re-identification via modality-aware collaborative ensemble learning[J].IEEE Trans on Image Processing,2020,29:9387-9399.

[14]Cai X,Liu Li,Zhu Lei,et al.Dual-modality hard mining triplet-center loss for visible infrared person re-identification[J].Knowledge-Based Systems,2021,215(9):106772-106772.

[15]Ye Mang,Wang Zheng,Lan Xiangyuan,et al.Visible thermal person re-identification via dual-constrained top-ranking[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:1092-1099.

[16]Wu Ancong,Zheng Weishi,Gong Shaogang,et al.RGB-IR person re-identification by cross-modality similarity preservation[J].International Journal of Computer Vision,2020,128(8):1765-1785.

[17]Ye Mang,Shen Jianbing,Crandall D J,et al.Dynamic dual-attentive aggregation learning for visible-infrared person re-identification[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:229-247.

[18]Chen Yehansen,Wan Lin,Li Zhihang,et al.Neural feature search for RGB-infrared person re-identification[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:587-597.

[19]Dai Pingyang,Ji Rongrong,Wang Haibin,et al.Cross-modality person re-identification with generative adversarial training[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:677-683.

[20]Wang Guanan,Zhang Tianzhu,Cheng Jian,et al.RGB-infrared cross-modality person re-identification via joint pixel and feature alignment[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3622-3631.

[21]Wang Guanan,Yang Yang,Zhang Tianzhu,et al.Cross-modality paired-images generation and augmentation for RGB-infrared person re-identification[J].Neural Networks,2020,128:294-304.

[22]Wang Zhixiang,Wang Zheng,Zheng Yinqiang,et al.Learning to reduce dual-level discrepancy for infrared-visible person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:618-626.

[23]Choi S,Lee S,Kim Y,et al.Hi-CMD:hierarchical cross-modality di-sentanglement for visible-infrared person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10254-10263.

[24]Lu Yan,Wu Yue,Liu Bin,et al.Cross-modality person re-identification with shared-specific feature transfer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:13379-13389.

[25]Ye Mang,Lan Xiangyuan,Wang Zheng,et al.Bi-directional center-constrained top-ranking for visible thermal person re-identification[J].IEEE Trans on Information Forensics and Security,2019,15:407-419.

[26]羅琪,焦明海.雙端可共享網(wǎng)絡(luò)的多模態(tài)行人重識別方法[J].計算機工程與應(yīng)用,2022,58(13):235-240.(Luo Qi,Jiao Minghai.Multi-modal pedestrian recognition on double-terminal shared network[J].Computer Engineering and Applications,2022,58(13):235-240.)

[27]Fan Xing,Luo Hao,Zhang Xuan,et al.SCPNet:spatial-channel parallelism network for joint holistic and partial person re-identification[C]//Proc of Asian Conference on Computer Vision.Berlin:Springer,2018:19-34.

[28]Zhao Haiyu,Tian Maoqing,Sun Shuyang,et al.Spindle net:person re-identification with human body region guided feature decomposition and fusion[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:907-915.

[29]Lin Yutian,Zheng Liang,Zheng Zhedong,et al.Improving person re-identification by attribute and identity learning[J].Pattern Recognition,2019,95:151-161.

[30]宋麗麗,李彬,趙俊雅,等.正態(tài)重采樣的改進行人再識別度量學(xué)習(xí)算法[J].計算機工程與應(yīng)用,2020,56(8):158-165.(Song Lili,Li Bin,Zhao Junya,et al.Normality resampling of improved me-tric learning method for person re-identification[J].Computer Engineering and Applications,2020,56(8):158-165.)

[31]Zhu Yuanxin,Yang Zhao,Wang Li,et al.Hetero-center loss for cross-modality person re-identification[J].Neurocomputing,2020,386:97-109.

[32]Zheng Feng,Deng Cheng,Sun Xing,et al.Pyramidal person re-identification via multi-loss dynamic training[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8506-8514.

[33]Chen Binghui,Deng Weihong,Hu Jiani.Mixed high-order attention network for person re-identification[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:371-381.

[34]韓建棟,李曉宇.基于多尺度特征融合的行人重識別方法[J].計算機應(yīng)用,2021,41(10):2991-2996.(Han Jiandong,Li Xiaoyu.Pedestrian re-identification method based on multi-scale feature fusion[J].Journal of Computer Applications,2021,41(10):2991-2996.)

[35]Liu Haijun,Cheng Jian,Wang Wen,et al.Enhancing the discriminative feature learning for visible-thermal cross-modality person re-identification[J].Neurocomputing,2020,398(3):11-19.

[36]Ye Mang,Shen Jianbing,Lin Gaojie,et al.Deep learning for person re-identification:a survey and outlook[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(6):2872-2893.

[37]Ye Mang,Lan Xiangyuan,Li Jiawei,et al.Hierarchical discriminative learning for visible thermal person re-identification[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7501-7508.

[38]Hao Yi,Wang Nannan,Li Jie,et al.HSME:hypersphere manifold embedding for visible thermal person re-identification[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8385-8392.

主站蜘蛛池模板: 无码中文字幕乱码免费2| 中文字幕亚洲第一| 在线观看国产精品一区| 天堂在线www网亚洲| 亚洲人成网站在线观看播放不卡| 内射人妻无码色AV天堂| 成年女人a毛片免费视频| 国产亚洲精久久久久久无码AV | 亚欧成人无码AV在线播放| 日韩亚洲高清一区二区| 欧美日韩资源| 国产精品极品美女自在线看免费一区二区| 亚洲天堂日韩在线| 美女啪啪无遮挡| 亚洲色图欧美视频| 色综合成人| 精品国产成人av免费| 国产幂在线无码精品| 91精品综合| 亚洲最新地址| 日韩 欧美 国产 精品 综合| 国产美女91视频| 人妻精品久久无码区| 少妇人妻无码首页| 国产剧情一区二区| 不卡午夜视频| 99精品高清在线播放| 国产靠逼视频| 91久草视频| 亚洲精品男人天堂| 国产日韩丝袜一二三区| 一边摸一边做爽的视频17国产| 国产91透明丝袜美腿在线| 夜夜拍夜夜爽| 亚洲制服中文字幕一区二区| 国产精品无码作爱| 第一区免费在线观看| 色噜噜狠狠色综合网图区| 欧美成人综合视频| 亚洲丝袜中文字幕| 亚洲V日韩V无码一区二区| 国产乱子伦视频三区| 日韩在线永久免费播放| 免费看a级毛片| 自拍中文字幕| 国产尤物在线播放| 日本道综合一本久久久88| 日韩精品高清自在线| 国国产a国产片免费麻豆| 亚洲第一成网站| 永久成人无码激情视频免费| 亚洲欧美在线看片AI| 精品無碼一區在線觀看 | 亚洲日韩久久综合中文字幕| 久久一本日韩精品中文字幕屁孩| 92精品国产自产在线观看 | 欧美一区精品| 二级毛片免费观看全程| 夜夜爽免费视频| 国产免费福利网站| 91www在线观看| 一区二区日韩国产精久久| 蝌蚪国产精品视频第一页| 综合人妻久久一区二区精品| 成年午夜精品久久精品| 国产永久在线观看| 国产在线无码av完整版在线观看| 久久久久无码精品国产免费| 国产一区二区精品高清在线观看| 天天操天天噜| 国产成人亚洲无码淙合青草| 午夜国产在线观看| 免费欧美一级| 91精品国产一区自在线拍| 久久大香香蕉国产免费网站| 中文字幕在线视频免费| 国产精品视频观看裸模| 日韩美毛片| 伊人久久福利中文字幕| 亚洲天堂高清| 美女内射视频WWW网站午夜| 88国产经典欧美一区二区三区|