999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙端可共享網(wǎng)絡(luò)的多模態(tài)行人重識別方法

2022-07-13 01:57:10焦明海
計算機工程與應(yīng)用 2022年13期
關(guān)鍵詞:特征提取模態(tài)

羅 琪,焦明海

東北大學(xué) 計算機科學(xué)與工程學(xué)院,沈陽 110000

行人重識別的任務(wù)主要是給定一個目標人物的圖像,在已有的圖像集中選出與目標人物身份一致的圖像。行人重識別方法包括表征學(xué)習(xí)和度量學(xué)習(xí),表征學(xué)習(xí)沒有直接在訓(xùn)練網(wǎng)絡(luò)的時候考慮圖片間的相似度,而把行人重識別任務(wù)當作分類問題或者驗證問題來看待。而表征學(xué)習(xí)在訓(xùn)練時會考慮到同一行人的不同圖片間的相似度大于不同行人的不同圖片間的相似度,從而學(xué)習(xí)出兩張圖片的相似度[1-2]。近年來,隨著監(jiān)控系統(tǒng)的普及,行人重識別技術(shù)也取得了很大的進展。為了實現(xiàn)全天候監(jiān)控,使用可見光攝像頭和紅外攝像頭分別采集白天的可見光圖像和夜晚的紅外圖像。由于不同模態(tài)相機的波長范圍不同,造成了較大的模態(tài)差異以及類內(nèi)差異,導(dǎo)致兩種模態(tài)之間存在顯著的視覺差異,因此如何減小類內(nèi)差異與模態(tài)差異,成為多模態(tài)行人重識別領(lǐng)域的重點和難點。此外,人物圖像通常是在不同的環(huán)境下拍攝的,有距離和角度的不同,使得訓(xùn)練圖像和測試圖像的人物大小以及所占圖像比例不同,進而影響重識別的準確率,因此本文提出了一種新的數(shù)據(jù)處理的方法,訓(xùn)練數(shù)據(jù)集得以增強,使得模型更具有魯棒性[3-4]。

現(xiàn)有的多模態(tài)行人重識別研究中,提出了許多方法用于解決模態(tài)差異及類內(nèi)差異。Wu等[5]提出一種域選擇的子網(wǎng)絡(luò),可以自動選擇樣本所對應(yīng)的模態(tài),該方法將RGB圖像和紅外圖像作為兩個不同域的輸入,使用深度零填充后放入上述網(wǎng)絡(luò)中,使得所有輸入都可以用單流結(jié)構(gòu)來表示[5]。Dai 等[6]提出了一種新型的跨模態(tài)生成對抗網(wǎng)絡(luò)(cross-modality generative adversarial network,cmGAN),利用深度卷積神經(jīng)網(wǎng)絡(luò)作為生成器,生成公共子空間下RGB 和IR 圖像的表示,并利用模態(tài)分類器作為鑒別器,對不同的模態(tài)進行鑒別。此外,Wang等[7-8]通過模態(tài)之間互相轉(zhuǎn)換的方法,使用生成對抗網(wǎng)絡(luò)生成與輸入圖片相反的模態(tài),使得多模態(tài)問題轉(zhuǎn)換為單模態(tài)問題。Liu 等[9]提出的方法中將兩個模態(tài)的圖片分別輸入到兩個獨立的骨干網(wǎng)絡(luò)中,然后利用一些共享層將這些特定于模態(tài)的信息嵌入到一個公共空間中[10]。但上述方法對于網(wǎng)絡(luò)訓(xùn)練增加了額外的成本,相比之下,Ye等[11]提出一種模態(tài)感知協(xié)作的中層可共享的雙端網(wǎng)絡(luò),將Resnet50的第一層卷積層作為各自模態(tài)的淺層特征提取器,后四層卷積層作為共享網(wǎng)絡(luò),輸入融合兩個模態(tài)的淺層特征后繼續(xù)進行特征提取,并使用三元組損失訓(xùn)練網(wǎng)絡(luò),該方法大大降低了訓(xùn)練難度,但上述方法魯棒性不高,對于一些姿態(tài)不對齊的圖片無法較好的識別。

為了彌補目前網(wǎng)絡(luò)識別效率低的問題,本文在基于模態(tài)感知協(xié)作雙端共享網(wǎng)絡(luò)[11-13]的基礎(chǔ)上,將共享特征提取器上的卷積層嵌入非局部注意力塊(non-local attention blocks)[14],使得特征提取器可以提取到更多有效的特征,然后將兩個特定模態(tài)的特征拼接后輸入到共享網(wǎng)絡(luò)進行特征提取,在進行距離度量時采用聚類損失函數(shù)[15]來代替三元組損失函數(shù),使得網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集中的識別準確率更高。由于行人重識別的主要任務(wù)是識別行人的身份,并不需要關(guān)注圖像是何種模態(tài),故本文舍棄了模態(tài)識別器以及模態(tài)識別損失,使得訓(xùn)練復(fù)雜度降低,減少了額外的成本。同時為了增加模型的魯棒性,提出一種預(yù)處理方法,使訓(xùn)練數(shù)據(jù)更接近真實數(shù)據(jù)。

1 基于雙端可共享網(wǎng)絡(luò)的多模態(tài)行人重識別方法

1.1 數(shù)據(jù)預(yù)處理

在實際場景中,不同的攝像頭由于拍攝的角度和距離不同,導(dǎo)致得到的圖片與真實的行人大小比例不符,且圖片上半部分背景圖像占比較大,成為數(shù)據(jù)集中的難樣本,如圖1(a)所示,數(shù)據(jù)集中沒有足夠的該類圖片對網(wǎng)絡(luò)進行訓(xùn)練,會使網(wǎng)絡(luò)更多的專注于正常比例的數(shù)據(jù),進而降低了重識別的準確率。本文針對上述問題對數(shù)據(jù)進行處理,使得訓(xùn)練圖像更貼近實際情況,使樣本更具有差異性,增加網(wǎng)絡(luò)訓(xùn)練難度,使模型具有魯棒性。

圖1 圖像處理前后對比Fig.1 Comparison before and after image processing

本文選擇每個行人身份所對應(yīng)數(shù)據(jù)集的1/4作為預(yù)處理的數(shù)據(jù)集,首先將數(shù)據(jù)集中的圖像大小統(tǒng)一調(diào)整為144×288,然后將訓(xùn)練數(shù)據(jù)的大小調(diào)整為108×216,即長和寬縮小1/4,再將圖像左右兩側(cè)各填充18像素,下方填充72像素,使得圖像大小統(tǒng)一為144×288。最后將調(diào)整后的圖像與原數(shù)據(jù)一起作為訓(xùn)練數(shù)據(jù)。處理后的圖像如圖1(b)所示。

經(jīng)過該處理步驟后的圖像很好的模擬了真實監(jiān)控圖像中行人位置不對齊及大小比例不一致的問題,使用預(yù)處理后的數(shù)據(jù)集增加了網(wǎng)絡(luò)訓(xùn)練的難度,使網(wǎng)絡(luò)更能適應(yīng)真實場景。使用該方法對數(shù)據(jù)集SYSU-MM01 和RegDB進行重新構(gòu)建,使用文獻[11]提出的模態(tài)感知協(xié)作雙端共享網(wǎng)絡(luò)在構(gòu)建的新數(shù)據(jù)集上進行實驗,實驗表明,在SYSU-MM01的rank-1識別率下降了7.46個百分點(all serach 模式)和7.53 個百分點(indoor serach 模式),在RegDB 的rank-1 識別率下降了5.79 個百分點(visible to thermal 模式)和5.82 個百分點(thermal to visible模式)。

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

當前深度神經(jīng)網(wǎng)絡(luò)中的特征提取器都是基于卷積網(wǎng)絡(luò)來提取特征,普通的卷積操作屬于局部操作,無法捕獲長范圍的依賴,非局部注意力塊可以將更大范圍內(nèi)有關(guān)聯(lián)的樣本點進行融合,有效地捕獲長范圍的依賴,其結(jié)構(gòu)如圖2 所示。本文將Resnet50 網(wǎng)絡(luò)的后四層卷積層使用非局部注意力塊代替,同時去除了模態(tài)分類器,讓網(wǎng)絡(luò)更多的關(guān)注于圖像的內(nèi)容而非模態(tài),降低了訓(xùn)練復(fù)雜度。

圖2 非局部注意力塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of non-local attention blocks

如圖3所示,本文采用改進的Resnet50作為骨干網(wǎng)絡(luò),網(wǎng)絡(luò)的前半部分有兩個輸入,分別輸入可見光圖像和紅外圖像,經(jīng)過各自的卷積網(wǎng)絡(luò)提取淺層特征后,將得到的兩個特征進行拼接,輸入共享網(wǎng)絡(luò)進行深度特征提取,進行歸一化操作后,使用聚類損失對特征進行距離度量;使用兩個特定模態(tài)分類器輔助共享分類器的學(xué)習(xí),同時為了便于分類器之間的知識轉(zhuǎn)移,使用集成學(xué)習(xí)損失Le和一致性損失Lc來訓(xùn)練分類器。

圖3 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure

卷積操作在空間上只能處理一個局部區(qū)域,想要捕獲長范圍依賴關(guān)系只能依靠重復(fù)操作,逐步傳遞信號。非局部操作是以輸入特征圖中所有位置特征的加權(quán)和來計算某一位置的響應(yīng),以此來捕獲深度神經(jīng)網(wǎng)絡(luò)的長范圍依賴關(guān)系。在共享網(wǎng)絡(luò)中對多模態(tài)圖片進行特征提取,需要關(guān)注兩種模態(tài)的圖片中有關(guān)聯(lián)的部分,即多模態(tài)圖像的共有特征,使用非局部操作可以更高效地提取兩種圖像的共有特征。在訓(xùn)練過程中,每個模態(tài)輸入相同數(shù)量的圖片。首先選擇P個人物身份,每個身份分別選擇K個可見光圖像和K個紅外圖像,不同模態(tài)的圖像分別輸入到相對應(yīng)的網(wǎng)絡(luò)通道內(nèi)。整個訓(xùn)練過程的batch size大小為2P×K。

1.3 損失函數(shù)

1.3.1 聚類損失

目前的行人重識別任務(wù)中多使用三元組損失來進行度量學(xué)習(xí),然而三元組損失僅考慮三個樣本的距離和標簽,沒有充分利用更多的樣本,同時為了使訓(xùn)練更有效,必須進行難樣本挖掘,這個過程是耗時的,并且隨著數(shù)據(jù)集變得更大,選擇出的三元組數(shù)量會更多,使得訓(xùn)練復(fù)雜度提高。隨著訓(xùn)練的進行,網(wǎng)絡(luò)更多的關(guān)注那些難樣本,而忽略大部分的普通樣本。因此,本文使用聚類損失來替換三元組損失,該聚類損失基于均值來計算距離,使得損失函數(shù)不僅最小化難樣本之間的距離,還間接地最小化所有類內(nèi)圖像之間基于均值的距離,從而提高訓(xùn)練效率。其原理如圖4所示。

圖4 多模態(tài)聚類示意圖Fig.4 Schematic diagram of multimodal clustering

設(shè)f v(x) 、f t(x) 分別表示輸入x經(jīng)過網(wǎng)絡(luò)中L2 Norm 層后得到的可見光圖像特征和紅外光圖像特征,對于同一個批次中K個相同模態(tài)的樣本,某一身份i的平均特征可表示為:

其中ω(t)是一個逐步上升的S性函數(shù),隨著訓(xùn)練次數(shù)的增加而從0增加到1。

2 實驗結(jié)果及分析

2.1 數(shù)據(jù)集及評價標準

SYSU-MM01數(shù)據(jù)集[5]是一個大規(guī)模的跨模態(tài)Re-ID人物數(shù)據(jù)集,由中山大學(xué)校園內(nèi)的4個普通RGB攝像機和2個近紅外攝像機所采集。SYSU-MM01包含491個身份,每個身份出現(xiàn)在兩個以上不同的相機中。數(shù)據(jù)集共有287 628 張RGB 圖像和15 792 張紅外圖像。該數(shù)據(jù)集有固定的訓(xùn)練集和測試集,訓(xùn)練集共有32 451張圖像,其中RGB圖像19 659張,紅外圖像12 792張。SYSUMM01 數(shù)據(jù)集同時包含室內(nèi)和室外環(huán)境下拍攝的圖片,因此使用該數(shù)據(jù)集進行測試時可分為all serach和indoor search兩種模式。

RegDB[16]是由雙攝像機系統(tǒng)采集的小型數(shù)據(jù)集,包括1臺可見攝像機和1臺熱敏攝像機。這個數(shù)據(jù)集總共包含412個身份,其中每個身份有10個可見光圖像和10個紅外圖像。本文實驗中分別將可見光圖像和紅外圖像作為query,同時將另一模態(tài)的圖片作為gallary 進行實驗。

本文采用累計匹配特征(CMC)和平均精度(mAP)作為評價指標。CMC測量對應(yīng)標簽的人物圖像在top-k檢索結(jié)果中出現(xiàn)的匹配概率,mAP 用于度量給定查詢圖像在圖像集中出現(xiàn)多個匹配圖像時的檢索性能。

2.2 實驗內(nèi)容

2.2.1 參數(shù)設(shè)置

本文實驗的環(huán)境為:Intel Core i7-8700 CPU(3.2 GHz),顯卡NVIDIA RTX 2080Ti,顯存11 GB、內(nèi)存16 GB,64位Ubuntu 16.04系統(tǒng),Python 3.6、Pytorch 1.0.1。

本文將輸入圖片大小設(shè)置為288×144,進行數(shù)據(jù)增強時對原圖片進行零填充10 個像素,再隨機裁剪為288×144大小的圖片,最后隨機水平翻轉(zhuǎn)。增強后的數(shù)據(jù)集大小與2.1節(jié)中原數(shù)據(jù)集大小一致。在每次訓(xùn)練中隨機選取P=8 個身份標簽,然后在數(shù)據(jù)集中隨機選取對應(yīng)身份的K=4 個可見光圖像及K=4 個紅外圖像,即每個批次訓(xùn)練包含32 張可見光圖像和32 張紅外圖像,總的訓(xùn)練批次大小為64。訓(xùn)練迭代次數(shù)為60,學(xué)習(xí)率在前10次迭代中由0.01遞增到0.1,在第10到第30次迭代中保持為0.1,30 次以后為0.01。其余參數(shù)設(shè)置與文獻[11]保持一致。

2.2.2 實驗結(jié)果

本文的特征提取網(wǎng)絡(luò)以Resnet50 為Baseline,為驗證非局部注意力塊(non-local)對于特征提取的有效性,使用SYSU-MM01 數(shù)據(jù)集,在相同Baseline 下進行了有無非局部注意力塊的對比實驗。由表1可知,非局部注意力塊的加入使得網(wǎng)絡(luò)在兩種模式下的rank-1 準確率分別提升了0.17 個百分點和0.46 個百分點,mAP 分別提升了1.02個百分點和0.23個百分點,表明非局部注意力塊的加入使得網(wǎng)絡(luò)提取到更豐富的特征。

表1 非局部注意力塊驗證實驗(SYSU-MM01)Table 1 Non-local attention block verification experimen(tSYSU-MM01)%

上述實驗使用三元組損失函數(shù)訓(xùn)練網(wǎng)絡(luò),將三元組損失函數(shù)替換為聚類損失函數(shù)并分別在兩個數(shù)據(jù)集上進行實驗,實驗結(jié)果如表2及表3所示,rank-1和mAP均有所提升,從而證明了聚類損失函數(shù)對于特征度量具有更顯著的效果。

表2 聚類損失函數(shù)驗證實驗(SYSU-MM01)Table 2 Cluster loss functions verification experiment(SYSU-MM01) %

表3 聚類損失函數(shù)驗證實驗(RegDB)Table 3 Cluster loss functions verification experimen(tRegDB)%

2.2.3 算法比較

為驗證本算法對于多模態(tài)行人重識別的優(yōu)越性,本文將所提算法與近幾年該領(lǐng)域的主流算法在SYSUMM01 和RegDB 兩個數(shù)據(jù)集上進行了比較,其結(jié)果如表4 和表5 所示。本文算法的各項指標與對比模型(Zero-Padding[5]、cmGAN[6]、BDTR[17]、MSR[18]、DFE[19]、MACE[11])都有所提高。相比MACE 算法,在SYSUMM01數(shù)據(jù)集的all serach模式下,rank-1和mAP 分別提高了2.1 個百分點和3.26 個百分點,indoor search模式下兩者分別提高2.53 個百分點和1.68 個百分點;RegDB 數(shù) 據(jù) 集 的visible to thermal 模 式 下,rank-1 和mAP 分別提高了1.05 個百分點和2.28 個百分點,thermal to visible 模式下兩者分別提高1.15 個百分點和1.86個百分點。

表4 SYSU-MM01上與主流算法評價指標比較Table 4 Comparison with mainstream algorithm evaluation indicators on SYSU-MM01 %

表5 RegDB上與主流算法評價指標比較Table 4 Comparison with mainstream algorithm evaluation indicators on SYSU-MM01 %

通過以上實驗,證明了非局部注意力塊的加入對于特征提取有更好的效果,聚類損失函數(shù)相比于三元組損失函數(shù)更有利于行人重識別網(wǎng)絡(luò)的訓(xùn)練,從而驗證了本文所提算法的有效性。

3 結(jié)束語

本文提出一種改進的基于雙端可共享網(wǎng)絡(luò)的多模態(tài)行人重識別算法。該算法使用嵌入非局部注意力塊的Resnet50作為特征提取網(wǎng)絡(luò),有效提高了網(wǎng)絡(luò)的特征提取能力。同時該算法使用聚類損失函數(shù)代替三元組損失函數(shù)進行度量學(xué)習(xí),提高網(wǎng)絡(luò)的重識別能力。多模態(tài)的行人重識別相比于單模態(tài)的行人重識別,其準確率較低,未來應(yīng)在解決跨模態(tài)問題的同時尋求更高的準確率。

猜你喜歡
特征提取模態(tài)
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
車輛CAE分析中自由模態(tài)和約束模態(tài)的應(yīng)用與對比
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
高速顫振模型設(shè)計中顫振主要模態(tài)的判斷
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
基于MED和循環(huán)域解調(diào)的多故障特征提取
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 亚洲A∨无码精品午夜在线观看| 她的性爱视频| 久久免费精品琪琪| 999精品在线视频| 精品久久久久久成人AV| 视频二区国产精品职场同事| 重口调教一区二区视频| 国产精品无码翘臀在线看纯欲| 狠狠v日韩v欧美v| 成人字幕网视频在线观看| 国产黑丝一区| 国产性爱网站| 香蕉久久国产精品免| 欧美一级高清免费a| 精品免费在线视频| AV在线麻免费观看网站 | 亚洲欧美成人在线视频| 国产在线专区| 亚洲欧洲日本在线| 亚洲水蜜桃久久综合网站 | 色男人的天堂久久综合| 国产亚洲视频免费播放| 色噜噜狠狠色综合网图区| 99精品在线看| A级毛片无码久久精品免费| 黄色成年视频| av在线5g无码天天| 亚洲a免费| 欧美国产在线看| 免费一级大毛片a一观看不卡| 性欧美在线| 欧美中文字幕在线二区| 国产一级在线播放| 午夜无码一区二区三区| 国产视频一二三区| 国产人人乐人人爱| 色悠久久久| 99热免费在线| 福利在线免费视频| 18禁色诱爆乳网站| 亚洲欧美日韩另类在线一| 中文字幕波多野不卡一区| 精品国产女同疯狂摩擦2| 99视频有精品视频免费观看| 国产丝袜一区二区三区视频免下载| 免费观看国产小粉嫩喷水 | 午夜日本永久乱码免费播放片| 在线中文字幕网| AV片亚洲国产男人的天堂| 国产日韩欧美视频| 国产在线精品99一区不卡| 欧美三级自拍| 亚洲综合欧美在线一区在线播放| 一级爱做片免费观看久久| 色爽网免费视频| 91在线国内在线播放老师| 丝袜国产一区| 国产精品亚洲一区二区三区z| 欧美日韩在线第一页| 香蕉在线视频网站| 亚洲午夜久久久精品电影院| 亚洲伊人久久精品影院| 黄色免费在线网址| 性欧美久久| 日韩AV无码免费一二三区| 激情综合激情| 伊人久久大香线蕉成人综合网| 亚洲第一成网站| 国产簧片免费在线播放| 国产精品白浆无码流出在线看| 99久久精品免费看国产免费软件 | 国产特级毛片aaaaaaa高清| 黄色网址免费在线| 国产成a人片在线播放| 日本久久久久久免费网络| 亚洲av无码牛牛影视在线二区| 中文字幕啪啪| 午夜无码一区二区三区在线app| 亚洲国产欧美目韩成人综合| 日韩乱码免费一区二区三区| 国产中文一区二区苍井空| 国产欧美日韩专区发布|