999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交叉注意力機制的多特征行人重識別

2024-01-01 00:00:00鄔心怡鄧志良劉云平董娟李嘉琦

摘要 針對現(xiàn)有的行人重識別方法難以避免環(huán)境噪聲導(dǎo)致的特征提取不精確、易被誤認(rèn)為行人特征等問題,提出一種基于動態(tài)卷積與注意力機制的行人多特征融合分支網(wǎng)絡(luò).首先,由于拍攝時存在光照變化、人體姿勢調(diào)整以及物體遮擋等不確定因素,提出使用動態(tài)卷積替換ResNet50中的靜態(tài)卷積得到具有更強魯棒性的Dy-ResNet50模型;其次,考慮到拍攝行人圖片的視角有較大差異且存在行人被物體遮擋的情況,提出將自注意力機制與交叉注意力機制嵌入骨干網(wǎng)絡(luò);最后,將交叉熵損失函數(shù)和難樣本三元損失函數(shù)共同作為模型損失函數(shù),在DukeMTMC-ReID、Market-1501和MSMT17公開數(shù)據(jù)集上進行實驗,并與主流網(wǎng)絡(luò)模型進行比較.結(jié)果表明:在3個公開數(shù)據(jù)集上,本文所提模型的Rank-1(第一次命中)與mAP(平均精度均值)相比當(dāng)前主流模型均有所提升,具有較高的識別準(zhǔn)確率.關(guān)鍵詞行人重識別;動態(tài)卷積;自注意力機制;交叉注意力機制

中圖分類號TP391.4文獻標(biāo)志碼A

0引言

行人重識別(person Re-identification,Re-ID)[1]是計算機視覺領(lǐng)域的一項任務(wù),目的是在多個攝像頭之間識別并匹配出同一個行人,該技術(shù)的研究對于智能監(jiān)控、圖像檢索、刑事偵查等領(lǐng)域具有重要的現(xiàn)實意義.然而,由于光照條件、行人姿態(tài)、拍攝背景等不確定因素,同一行人在不同條件下表現(xiàn)出來的特征差別很大,且容易出現(xiàn)圖像模糊不清或被遮擋的情況,使得行人重識別任務(wù)面臨很大挑戰(zhàn).因此,如何有效地提取出具有較強可辨識性、強魯棒性的特征是當(dāng)前行人重識別領(lǐng)域的一個熱點問題.

行人重識別任務(wù)近年來得到了廣泛研究.隨著深度學(xué)習(xí)的發(fā)展,學(xué)者們通過對深度特征圖進行分塊,使網(wǎng)絡(luò)關(guān)注更小的區(qū)域,從而提取行人局部細節(jié)信息[2-3],但此類方法過度注重局部而忽略全局信息,模型識別準(zhǔn)確率不高;還有一些方法通過改進距離度量[4-5],比較行人圖片,縮短同一身份行人圖像的特征距離,并使無關(guān)特征遠離本身份簇,但在實際應(yīng)用中由于拍攝場景存在遮擋和背景冗余等問題,此類方法無法正確提取行人有效特征.

盡管現(xiàn)有大多數(shù)Re-ID模型已具備較好的識別能力,但是同一個行人在不同攝像機拍攝下,正面與側(cè)面存在較大的視角差異導(dǎo)致對于輸入圖片間的特征交互還不夠充分.為了彌補現(xiàn)有方法的缺陷,提高網(wǎng)絡(luò)模型的魯棒性,本文以ResNet50作為骨干網(wǎng)絡(luò),設(shè)計了一種基于動態(tài)卷積(Dynamic Convolution)[6]與注意力機制(Attention Mechanism)的多特征融合分支網(wǎng)絡(luò).首先,由于拍攝時的光照、人體姿勢以及拍攝視角等不確定因素,識別特征難度較大,本文提出使用動態(tài)卷積根據(jù)輸入的不同靈活調(diào)整卷積核權(quán)重,以便高效提取行人有效特征.其次,考慮到拍攝行人圖片的視角有較大差異且存在行人被物體遮擋的情況,為了充分獲取行人特征及輸入圖片間的特征交互信息,本文提出將自注意力機制[7]與交叉注意力機制[8]嵌入骨干網(wǎng)絡(luò),使計算機能更好地模擬人類視覺識別圖像特征.最后,在改進距離度量方面,本文采用交叉熵損失函數(shù)(Cross Entropy Loss)[9-10]和難樣本三元損失函數(shù)(TriHard Loss)[11-12]共同作用模型,將提取到的行人全局特征與局部特征融合后進行分類與匹配.與現(xiàn)有主流網(wǎng)絡(luò)模型的對比分析結(jié)果表明,本文模型具有較高的識別準(zhǔn)確率.

本文提出的研究思路和方法的創(chuàng)新之處有以下幾點:

1)將ResNet50網(wǎng)絡(luò)模型中的普通3×3卷積替換成動態(tài)卷積.針對不同身份行人圖片的輸入,使用不同的卷積核,并對這些不同的卷積核進行注意力加權(quán),從而提升模型準(zhǔn)確率.

2)對現(xiàn)有ResNet50網(wǎng)絡(luò)引入自注意力機制與交叉注意力機制,強調(diào)行人圖片自身特征,忽略一些不必要的錯誤特征從而提升模型準(zhǔn)確率.

3)在DukeMTMC-ReID、Market-1501和MSMT17數(shù)據(jù)集上分別進行實驗,同時與主流網(wǎng)絡(luò)模型進行比較.結(jié)果表明,本文所提網(wǎng)絡(luò)模型優(yōu)于現(xiàn)有模型,具有更卓越的識別性能.

1相關(guān)工作

傳統(tǒng)的行人重識別技術(shù)主要是對行人的行為進行建模,并在此基礎(chǔ)上對其行為進行仿真.段煉等[13]利用貝葉斯模型對時間和空間的位置進行預(yù)測,并將時間和空間上的語義信息融合在一起,建立了行人運動特性的數(shù)學(xué)模型.Helbing等[14]提出一種“社會力量”模型,即利用“吸引”與“排斥”兩種行為模式來描述行人行為.Trautman等[15]開發(fā)了一個互動的 Gauss進程,這是一個以Gauss進程為基礎(chǔ),用來估算群體互動的非參量統(tǒng)計模式.但是,該算法建立在人為設(shè)定的特性或一定的規(guī)則基礎(chǔ)上,在較復(fù)雜的情況下需人工調(diào)節(jié)才能得到較好的效果.同時,該算法的計算復(fù)雜性也使其很難應(yīng)用到大規(guī)模、高實時性的應(yīng)用中.近年來,數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)算法取得了較好的效果.ResNet作為殘差卷積網(wǎng)絡(luò)被廣泛用于目標(biāo)分類等領(lǐng)域,在此基礎(chǔ)上產(chǎn)生了基于ResNet的行人圖像檢測方法.在行人重識別任務(wù)中,由于傳統(tǒng)ResNet網(wǎng)絡(luò)只包含靜態(tài)卷積,卷積形態(tài)固定,針對每一個不同的輸入圖片都只經(jīng)過同一個卷積,因此特征提取能力較弱.針對這一缺陷,Yang等[16]提出一種動態(tài)濾波器,不同于標(biāo)準(zhǔn)卷積,動態(tài)濾波器利用額外的自網(wǎng)絡(luò)對每個像素生成濾波器,并且采用解耦動態(tài)濾波器(Decoupled Dynamic Filter,DDF),在解決自適應(yīng)的同時比傳統(tǒng)卷積更輕量.但是,該方法只有在背景噪聲較小的情況下才能識別行人特征信息.冉瑞生等[17]首次證明了當(dāng)數(shù)據(jù)足夠大時,TransFormer結(jié)構(gòu)模型可以達到最先進的圖片分類精度.但是,與ResNet模型相比,基于TransFormer的模型往往忽視了行人局部特征,并且缺乏尺度變化、位置編碼等信息.因此,本文提出使用動態(tài)卷積替換原始網(wǎng)絡(luò)中的靜態(tài)卷積,針對不同的輸入生成不同的動態(tài)卷積核,使網(wǎng)絡(luò)模型更加靈活高效.

在行人重識別任務(wù)中,許多基于注意力的方法被用來提取行人特征.Song等[18]采用視覺注意機制,將人從背景中分離出來,僅提取人的特征,消除了背景帶來的噪聲.Franco等[19]利用卷積注意模塊,借助人體姿態(tài)信息來定位行人關(guān)鍵部位,提取局部特征向量最終與全局特征向量融合用于分類.盡管此類算法能夠在某種程度上緩解由于人體姿勢改變而帶來的辨識問題,但是多數(shù)算法仍需借助人體姿勢與骨骼特征點模型,且對模型本身的性能有很大的影響.本文提出將自注意力機制、交叉注意力機制嵌入骨干網(wǎng)絡(luò)并且同時作用,使模型更聚焦于輸入圖片本身,減少背景噪聲影響,對不同的狀態(tài)特征給予不同程度的關(guān)注,在豐富行人特征的同時,使模型發(fā)揮其應(yīng)有的識別性能,提取行人之間的交互信息,最大可能滿足現(xiàn)實需求.

基于距離度量學(xué)習(xí)的行人重識別方法同樣也是目前較為流行的方法之一.其核心思想是,將行人重識別視為聚類問題,以應(yīng)對相同身份行人圖像的挑戰(zhàn).李明哲[20]采用孿生卷積神經(jīng)網(wǎng)絡(luò)(Siamese CNN),通過將兩個輸入圖像送入網(wǎng)絡(luò),比較它們的特征表示進而學(xué)習(xí)到兩者之間的相似性.在具體實現(xiàn)中,當(dāng)網(wǎng)絡(luò)輸入是一對身份相同的正樣本時,Siamese CNN的目標(biāo)是盡可能減小兩者特征向量之間的歐氏距離;當(dāng)輸入為一對身份不同的負樣本時,網(wǎng)絡(luò)的目標(biāo)是盡可能增大這兩者特征向量之間的歐氏距離.通過這樣的訓(xùn)練方式,網(wǎng)絡(luò)能夠有效地學(xué)習(xí)到行人圖像的特征表示,并在測試時通過比較特征向量來判斷圖像之間的相似性,從而實現(xiàn)行人重識別的任務(wù).宋婉茹等[21]引入的三重損失是度量學(xué)習(xí)中被廣泛采用的方法,與中心損失相結(jié)合使不同種類的數(shù)據(jù)能夠保持一定的距離,從而提高特征的分辨能力.本文采用交叉熵損失函數(shù)和難樣本三元損失函數(shù)共同作用,可以減少行人位移偏差,進而減少因識別而產(chǎn)生的行人特征信息誤差和丟失,提高模型識別準(zhǔn)確率.

綜上,本文提出一種結(jié)合動態(tài)卷積和注意力機制的行人多特征融合分支網(wǎng)絡(luò),并利用交叉熵損失函數(shù)和難樣本三元損失函數(shù)協(xié)同作用來降低誤差,用于識別行人特征,判斷行人身份.

2Dy-ResNet50與注意力機制算法

本節(jié)主要介紹本文所提出的網(wǎng)絡(luò)模型,包括網(wǎng)絡(luò)模塊以及訓(xùn)練模型時用到的損失函數(shù).

2.1算法概述

本文設(shè)計了一個由骨干網(wǎng)絡(luò)ResNet50與3個分支組成的行人重識別網(wǎng)絡(luò)模型,如圖1所示.本文將ResNet50作為原始網(wǎng)絡(luò),并將初始網(wǎng)絡(luò)中的平均池化層(GAP)和全連接層(FC)刪除,利用動態(tài)卷積替換網(wǎng)絡(luò)中的普通3×3卷積.需要指出的是,本文只將傳統(tǒng)ResNet50中Stage1、Stage2的Bottleneck普通卷積替換成動態(tài)卷積,并保持Stage3、Stage4中的卷積不變,組成具有更高魯棒性的Dy-ResNet50模型.在行為識別過程中,由于圖像整體特征和人體局部特征的關(guān)注點不同,前者注重整體信息,而后者聚焦于行人的局部關(guān)鍵點,這使得傳統(tǒng)的concatenate()、average()、max()等特征融合方法難以有效整合兩者.為了提升網(wǎng)絡(luò)整體性能,引入注意力機制成為一種合理選擇.因此,采用圖像全局和人體局部兩個自注意力機制,以提取圖像特征和人體局部特征的有效信息.通過引入交叉注意力機制,實現(xiàn)了對特征的有效融合,這被認(rèn)為是一種更切實可行的多特征融合策略.此外,為了避免不合適的池化方法在提取特征時可能導(dǎo)致特征信息丟失,本文在分支1中舍棄了傳統(tǒng)池化層,選擇了一種簡單有效的局部重要性池化層(LIP),通過學(xué)習(xí)一種適應(yīng)性的權(quán)重來增強下采樣過程中的判別性信息,從而高效提取行人特征.最后將不同分支得到的特征輸入全連接層(FC)進行學(xué)習(xí),作為最終的行人身份分類依據(jù).

將3×160×64大小的行人特征圖輸入網(wǎng)絡(luò).首先經(jīng)過骨干網(wǎng)絡(luò)的第1個卷積層(卷積核大小為7×7)和全局最大池化層(GMP),得到64×40×16維特征圖,之后經(jīng)過Stage1、Stage2兩層動態(tài)卷積層,得到512×20×8維特征圖.本文網(wǎng)絡(luò)模型中的分支1將Stage2的輸出(512×20×8維特征圖)作為輸入.由于低層卷積獲得的特征信息在抽取行人圖像中的局部特征時相關(guān)性不夠緊密,于是將人體局部自注意力機制加入骨干網(wǎng)絡(luò),利用注意力模塊中的鍵(Key)、查詢(Query)和值(Value)3個向量來計算輸入行人圖片之間的相關(guān)性,再通過局部重要性池化層(LIP)得到2 048×1×1維特征向量,由此,分支1提取了行人的局部特征.在Stage4后面設(shè)置獨立分支2.分支2將Stage4的輸出通過圖像全局自注意力機制與平均池化層(GAP)的共同作用,得到2 048×1×1維特征向量,由此提取行人圖片的全局特征.分支3是將分支1與分支2得到的2 048×1×1維特征向量作為輸入,經(jīng)過交叉注意力機制、全局最大池化層(GMP),得到結(jié)合了行人局部特征與圖像全局特征的2 048×1×1維特征向量.最后,將不同分支得到的特征向量輸入到全連接層(FC)進行融合,批量作用于交叉熵損失函數(shù)(Cross Entropy Loss)和難樣本三元損失函數(shù)(TriHard Loss)進行特征約束.在本文所提網(wǎng)絡(luò)模型中訓(xùn)練階段,3個分支相互監(jiān)督;測試階段,將3個分支獲得的特征向量進行拼接,作為輸入圖片的特征圖,以便后續(xù)檢驗.

2.2動態(tài)卷積

在行人重識別任務(wù)中,不同時刻光線強弱變化會導(dǎo)致拍攝照片的明暗不同,行人的肢體形態(tài)差異以及不同物體的遮擋都會導(dǎo)致圖片中目標(biāo)特征發(fā)生變化.對于傳統(tǒng)卷積,卷積核參數(shù)對所有輸入的行人特征圖一視同仁,限制了模型的卷積層數(shù)與通道數(shù),難以滿足模型訓(xùn)練所需性能.因此,本文提出使用動態(tài)卷積替換ResNet50網(wǎng)絡(luò)模型中的普通3×3卷積,以提升模型識別性能,提高模型識別準(zhǔn)確率.

2.3圖像全局自注意力機制

在實際場景中,同一行人在不同攝像頭下可能呈現(xiàn)顯著的差異,如圖3所示.在第一個攝像頭中行人背后攜帶書包,而在第二個攝像頭中則看不到.此外,行人的面部特征也可能發(fā)生變化,如果模型將該行人的臉部特征以及穿戴信息特征以相同比例跟其他部分特征一起加入身份識別過程,很大程度上會降低模型的識別準(zhǔn)確率.為了讓計算機也擁有同人眼一樣的特征提取能力,本文提出將自注意力機制嵌入原始ResNet50網(wǎng)絡(luò).

注意力機制的核心思想是對模型輸入的各個輸入分量賦予不同的權(quán)值,使其在特征提取中依據(jù)不同的權(quán)值給予不同程度的關(guān)注.通過對整個圖像進行全局自注意力機制的分析,可以確定各個部分對最終分析結(jié)果的權(quán)值影響.這種方法能夠有效消除冗余信息對分析結(jié)果的干擾.

在網(wǎng)絡(luò)模型的第二分支中引入圖像全局自注意力機制[24],其結(jié)構(gòu)如圖4所示.其中,K代表鍵(Key),Q代表查詢(Query),V代表值(Value),它們分別通過可學(xué)習(xí)的線性映射函數(shù)φ,η,θ進行特征處理,而MatMul則是指矩陣相乘的函數(shù).

將特征映射分別用于生成Query、Key、Value,這是自注意力機制的關(guān)鍵步驟.通過線性變換,每個位置的特征映射被映射成3種表示,用于計算注意力.對于每個位置的Query和Key,計算它們之間的相似度.通常使用點積等方法來計算,然后進行歸一化,得到注意力權(quán)重,這一步?jīng)Q定了一個位置對其他位置的關(guān)注程度:

2.4人體局部自注意力機制

通過卷積神經(jīng)網(wǎng)絡(luò)等方式對輸入的行人圖像進行特征提取,得到行人的全局特征表示.本文引入的圖注意力機制[25],類似于圖像整體自注意力機制,人體局部自注意力機制將行人圖像劃分為局部區(qū)域,例如頭部、胸部、下半身等,每個局部區(qū)域都被視為一個關(guān)鍵的部分.對每個局部區(qū)域的特征進行線性變換,生成關(guān)鍵點特征的鍵、查詢和值被記為Ks=Qs=Vs=DFs,其中,D是可學(xué)習(xí)的線性轉(zhuǎn)換矩陣,人體關(guān)鍵點特征的可學(xué)習(xí)注意力權(quán)值記為Ws.

2.5交叉注意力機制

為了更有效地整合圖像信息中的多尺度特征,本文使用交叉注意力機制來精煉和融合兩個獨立通道的特征,以使兩者的信息分布更加合理.為方便說明不同維度的照片信息,以下使用圖5進行說明.

對于同一張行人照片,將人體關(guān)鍵節(jié)點特征信息由綠色方框標(biāo)出,將全局特征信息由黃色方框標(biāo)出.由圖1模型結(jié)構(gòu)可知,分支2為圖像全局特征信息的集合,分支1為行人局部特征信息的集合.

使用交叉注意力機制可以使得網(wǎng)絡(luò)能夠更靈活地融合不同部分或通道的特征,動態(tài)地調(diào)整關(guān)注度,針對不同維度的行人特征信息進行交叉計算,更好地整合行人特征,從而提高模型對圖像或特征的表達能力,在保證較低計算復(fù)雜度的同時獲得更高的分類準(zhǔn)確度.

2.6損失函數(shù)

3實驗分析

3.1數(shù)據(jù)集與評價指標(biāo)

為了驗證本文所提網(wǎng)絡(luò)模型的有效性,本文在3個主流公開行人重識別數(shù)據(jù)集DukeMTMC-ReID[26]、Market-1501[27]和MSMT17[28]上進行實驗評估.

DukeMTMC-ReID數(shù)據(jù)集是一個用于行人重識別任務(wù)的公共數(shù)據(jù)集,主要用于評估在多攝像頭監(jiān)控場景下行人重識別算法的性能.該數(shù)據(jù)集包含來自8個不同攝像頭的行人圖像,涵蓋多種日常場景,包括校園、商業(yè)區(qū)域和戶外場景,總共有1 404個不同身份的行人,36 411張圖像.數(shù)據(jù)集被劃分為訓(xùn)練集和測試集,訓(xùn)練集包含702個不同身份的行人,16 522張圖像;測試集包含702個不同身份的行人,包括2 228張查詢圖像和17 661張圖庫圖像.

Market-1501數(shù)據(jù)集是一個廣泛用于行人重識別研究的公共數(shù)據(jù)集,旨在提供一個豐富而具有挑戰(zhàn)性的環(huán)境,以評估行人重識別算法在真實場景中的性能.該數(shù)據(jù)集包含來自6個不同攝像頭的行人圖像,涵蓋不同時間和季節(jié)的變化,總共有1 501個不同身份的行人.每個行人身份都有多張圖像,每張圖像都被標(biāo)注了較為詳細的信息,包括姿勢、視角和背景等.數(shù)據(jù)集被劃分為訓(xùn)練集和測試集,訓(xùn)練集包括751個身份,12 936張圖像;測試集包括750個身份,19 732張圖像.

MSMT17數(shù)據(jù)集是一個大規(guī)模、多攝像頭的行人重識別數(shù)據(jù)集,旨在提供更具挑戰(zhàn)性和實際場景的數(shù)據(jù)以促進行人重識別算法的研究.MSMT17數(shù)據(jù)集包含來自15個不同攝像頭的行人圖像,總計包含126 441張圖像.每個行人身份在數(shù)據(jù)集中都有多張圖像,這些圖像在姿勢、服裝和環(huán)境等方面都有較大的變化.數(shù)據(jù)集被劃分為訓(xùn)練集和測試集,訓(xùn)練集包括了32 621張圖像,而測試集包括了11 659張查詢圖像和82 161張圖庫圖像,測試集的劃分比例為1∶3.MSMT17數(shù)據(jù)集的挑戰(zhàn)主要來自于其真實多樣的監(jiān)控場景,包括多攝像頭的視角變化、不同天氣條件的變化以及行人外觀的多樣性.該數(shù)據(jù)集上進行的行人重識別更貼近實際應(yīng)用.

本文實驗將采用平均精度均值(mean Average Precision,mAP)和Rank-1(第1次命中)、Rank-5(第5次命中)、Rank-10(第10次命中)精度作為模型性能評價指標(biāo).

3.2實驗設(shè)置

本文實驗環(huán)境為64位Windows 10專業(yè)版操作系統(tǒng),算法程序利用pytorch 1.9.0深度學(xué)習(xí)框架,CUDA 11.7、64 "GB內(nèi)存、24 GB顯存的NVIDIA GeForce RTX 3090顯卡實現(xiàn).

在數(shù)據(jù)處理階段,對行人圖像尺寸統(tǒng)一調(diào)整為160×64.此外,采用圖片翻轉(zhuǎn)、對比度增強等操作,以進行數(shù)據(jù)增強.參數(shù)優(yōu)化選擇Adam優(yōu)化器,每個訓(xùn)練批次大小設(shè)置為32,每個測試批次大小設(shè)置為100.為防止數(shù)據(jù)過擬合,實驗共訓(xùn)練60個epoch,初始學(xué)習(xí)率設(shè)置為0.000 3以防止學(xué)習(xí)率過大導(dǎo)致模型難以收斂,每隔10個epoch計算一次mAP、Rank-1、Rank-5和Rank-10,在3個數(shù)據(jù)集上保持以上相同的實驗設(shè)置.

3.3實驗結(jié)果與分析

采用公開數(shù)據(jù)集DukeMTMC-ReID、Market-1501和MSMT17對本文模型以及主流深度學(xué)習(xí)模型DenseNet[29]、SE-ResNet[30]、NasNet[31]、ShuffleNet V2[32]、HACNN[33]、MLFN[34]、OSNet[35]進行對比實驗.表1為主流模型與本文模型在DukeMTMC-ReID數(shù)據(jù)集上的對比實驗結(jié)果.從表1中可以看出,本文模型在所有對比模型中取得了最優(yōu)的分類結(jié)果,原因是本文模型中加入的自注意力機制與交叉注意力機制減少了行人特征提取過程中的精度損失.與主流模型相比,在數(shù)據(jù)集DukeMTMC-ReID上本文模型的Rank-1與mAP較精度最高的OSNet算法分別提升0.9和1.6個百分點.

表2為主流模型與本文模型上在Market-1501數(shù)據(jù)集上的對比實驗結(jié)果,在數(shù)據(jù)集Market-1501上本文所提模型的Rank-1與mAP較精度最高的OSNet算法分別提升了0.4和0.5個百分點.

本文模型94.596.096.885.1表3為主流模型與本文模型在MSMT17數(shù)據(jù)集上的對比實驗結(jié)果,在數(shù)據(jù)集MSMT17上本文所提模型的Rank-1與mAP較精度最高的OSNet算法分別提升了0.5和0.9個百分點.

3.4消融實驗

本文模型采用的骨干網(wǎng)絡(luò)為傳統(tǒng)ResNet50,為驗證引入動態(tài)卷積的有效性,選取分支網(wǎng)絡(luò)的分支2參與消融實驗.實驗結(jié)果如表4所示,引入動態(tài)卷積的Dy-ResNet50在分支2上的Rank-1和mAP均優(yōu)于傳統(tǒng)ResNet50,且選擇分支2通過圖像全局特征進行消融實驗,結(jié)果更客觀,避免了實驗的偶然性.因此,選擇將動態(tài)卷積嵌入傳統(tǒng)ResNet50,組成性能更為優(yōu)越的Dy-ResNet50網(wǎng)絡(luò).

與傳統(tǒng)卷積不同,動態(tài)卷積在每一層都存在K個卷積核,模型會利用注意力機制去結(jié)合不同卷積核的信息,從而提取到更加豐富的行人特征.實驗采用Market-1501數(shù)據(jù)集,令K為2,4,6,8,結(jié)果如圖6所示.從圖6中可以看出:當(dāng)卷積核的個數(shù)太少時,會導(dǎo)致模型的特征抽取不夠充分,降低模型的識別精度;當(dāng)卷積核數(shù)目過多時,會導(dǎo)致網(wǎng)絡(luò)模型趨于復(fù)雜,識別精度得不到提升.在動態(tài)卷積核數(shù)K為4的情況下,所得到的網(wǎng)絡(luò)模型表現(xiàn)最佳.

為驗證動態(tài)卷積核在ResNet50不同層的效果,將動態(tài)卷積分別添加到Stage1、Stage2、Stage1+Stage2中,實驗采用Market-1501數(shù)據(jù)集,結(jié)果如表5所示.從表5可知,將動態(tài)卷積聯(lián)合作用于Stage1+Stage2的Rank-1、Rank-5、Rank-10和mAP都要優(yōu)于單獨作用于其中某一層,同時由于本文引入的動態(tài)卷積內(nèi)核較小,因此,作用于Stage1+Stage2模型訓(xùn)練時間無顯著增加,模型訓(xùn)練效率幾乎不受影響,所以,在該模型中使用動態(tài)卷積核是可行的.

本文通過對公共數(shù)據(jù)集DukeMTMC-ReID、Market-1501和MSMT17進行消融實驗,以驗證不同注意力模塊的有效性,實驗結(jié)果如表6、7、8所示.可見,對于圖像全局特征和人體局部特征,引入自注意力模塊都能提高模型的識別準(zhǔn)確率,證明了自注意力機制的有效性.鑒于圖像全局特性和人體局部特征之間存在顯著差異,直接拼接這兩類特征并嵌入單一自注意力機制并不具備明顯的優(yōu)勢.雖然引入自注意機制后可以有效減少冗余信息,提高識別精度,但與OSNet模型相比,識別精度仍有改進空間.通過引入交叉注意力機制,成功實現(xiàn)了更有效的圖像全局特征和人體局部特征融合,從而顯著提升了識別準(zhǔn)確率.

為了能更直觀地展現(xiàn)本文模型識別行人身份效果,圖7展示了Market-1501數(shù)據(jù)集對應(yīng)Rank-1到Rank-10的查詢結(jié)果,其中,黑色框?qū)?yīng)的是查詢圖像,綠色框?qū)?yīng)的是正確查詢結(jié)果,紅色框?qū)?yīng)的是錯誤查詢結(jié)果.由圖7所示,依托于自注意力機制與交叉注意力機制聯(lián)合作用的網(wǎng)絡(luò)模型在前5個查詢結(jié)果中大致可以正確地識別出4個行人身份,證明了本文模型具有較高的識別準(zhǔn)確率和身份識別能力.

4結(jié)束語

本文提出了一種基于動態(tài)卷積與注意力機制的多特征融合分支網(wǎng)絡(luò)模型.該模型主要由骨干網(wǎng)絡(luò)ResNet50與3個分支組成,將ResNet50中前兩個Bottleneck的3×3卷積替換成動態(tài)卷積,Stage2、Stage4的輸出分別作為分支1、分支2的輸入,同時在分支1與分支2中引入自注意力機制進行不同分支的行人圖片特征提取,并引入交叉注意力機制作為分支3,最終將各分支提取的行人有效特征進行融合.實驗結(jié)果表明,本網(wǎng)絡(luò)模型在公共數(shù)據(jù)集DukeMTMC-ReID、Market-1501和MSMT17上均取得了不錯的識別效果.未來將進一步擴展數(shù)據(jù)集,研究利用3D模型提取行人特征,更好地應(yīng)用到現(xiàn)實網(wǎng)絡(luò)中.

參考文獻References

[1]郭彤,趙倩,趙琰,等.多分支融合注意力機制的行人重識別方法[J].計算機工程與設(shè)計,2022,43(8):2260-2267GUO Tong,ZHAO Qian,ZHAO Yan,et al.Person re-identification method based on multi-branch fusion attention mechanism[J].Computer Engineering and Design,2022,43(8):2260-2267

[2]Sun Y F,Zheng L,Yang Y,et al.Beyond part models:person retrieval with refined part pooling (and a strong convolutional baseline)[M]//Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018:501-518

[3]Fu Y,Wei Y C,Zhou Y,et al.Horizontal pyramid matching for person re-identification[J].arXiv e-Print,2018,arXiv:1804.05275

[4]Wang F,Mao R S,Yan L F,et al.A deep learning-based approach for rectus abdominis segmentation and distance measurement in ultrasonography[J].Frontiers in Physiology,2023,14:1246994

[5]Sun M,Wang Y F,Zeng M Q,et al.Development and application of creepage distance measurement system for zinc oxide arrester[J].Journal of Physics:Conference Series,2023,2591(1):012046

[6]張聰聰,何寧.基于關(guān)鍵幀的雙流卷積網(wǎng)絡(luò)的人體動作識別方法[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2019,11(6):716-721ZHANG Congcong,HE Ning.Human motion recognition based on key frame two-stream convolutional network[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2019,11(6):716-721

[7]李金軒,杜軍平,周南.基于注意力特征提取網(wǎng)絡(luò)的圖像描述生成算法[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2019,11(3):295-301LI Jinxuan,DU Junping,ZHOU Nan.Image caption algorithm based on an attention image feature extraction network[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2019,11(3):295-301

[8]劉忠洋,周杰,陸加新,等.基于注意力機制的多尺度特征融合圖像去雨方法[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2023,15(5):505-513LIU Zhongyang,ZHOU Jie,LU Jiaxin,et al.Image rain removal via multi-scale feature fusion based on attention mechanism[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2023,15(5):505-513

[9]Wang J Y,Jang J S R.Training a singing transcription model using connectionist temporal classification loss and cross-entropy loss[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2022,31:383-396

[10]Yang Z,Yuan Y,Xu Y,et al.FACE:evaluating natural language generation with Fourier analysis of cross-entropy[J].arXiv e-Print,2023,arXiv:2305.10307

[11]Cheng D,Gong Y H,Zhou S P,et al.Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:1335-1344

[12]Bui T,Ribeiro L,Ponti M,et al.Compact descriptors for sketch-based image retrieval using a triplet loss convolutional neural network[J].Computer Vision and Image Understanding,2017,164:27-37

[13]段煉,胡濤,朱欣焰,等.顧及時空語義的疑犯位置時空預(yù)測[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2019,44(5):765-770DUAN Lian,HU Tao,ZHU Xinyan,et al.Spatio-temporal prediction of suspect location by spatio-temporal semantics[J].Geomatics and Information Science of Wuhan University,2019,44(5):765-770

[14]Helbing D,Molnár P.Social force model for pedestrian dynamics[J].Physical Review E,1995,51(5):4282-4286

[15]Trautman P,Krause A.Unfreezing the robot:navigation in dense,interacting crowds[C]//2010 IEEE/RSJ International Conference on Intelligent Robots and Systems.October 18-22,2010,Taipei,China.IEEE,2010:797-803

[16]Yang J R,Zheng W S,Yang Q Z,et al.Video-based temporary volume network re-certification[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 14-19,2020,Seattle,WA,USA.IEEE,2020:3286-3296

[17]冉瑞生,石凱,江小鵬,等.基于雙注意力CrossViT的微表情識別方法[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2023,15(5):541-550RAN Ruisheng,SHI Kai,JIANG Xiaopeng,et al.Micro-expression recognition based on dual attention CrossViT[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2023,15(5):541-550

[18]Song C F,Huang Y,Ouyang W L,et al.Mask-guided contrastive attention model for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:1179-1188

[19]Franco A,Oliveira L.A coarse-to-fine deep learning for person re-identification[C]//2016 IEEE Winter Conference on Applications of Computer Vision (WACV).March 7-10,2016,Lake Placid,NY,USA.IEEE,2016:1-7

[20]李明哲.基于時空注意力機制的視頻行人再識別方法研究[D].哈爾濱:哈爾濱工程大學(xué),2020LI Mingzhe.Research on video pedestrian recognition method based on spatio-temporal attention mechanism[D].Harbin:Harbin Engineering University,2020

[21]宋婉茹,趙晴晴,陳昌紅,等.行人重識別研究綜述[J].智能系統(tǒng)學(xué)報,2017,12(6):770-780SONG Wanru,ZHAO Qingqing,CHEN Changhong,et al.Survey on pedestrian re-identification research[J].CAAI Transactions on Intelligent Systems,2017,12(6):770-780

[22]耿韶松,李晉國.基于動態(tài)卷積與注意力的多特征融合行人重識別[J].計算機工程與設(shè)計,2023,44(4):1228-1234GENG Shaosong,LI Jinguo.Person re-identification based on multi-feature fusion of dynamic convolution and attention[J].Computer Engineering and Design,2023,44(4):1228-1234

[23]Cheng X,Zhou J M,Zhao X M,et al.A presentation attack detection network based on dynamic convolution and multi-level feature fusion with security and reliability[J].Future Generation Computer Systems,2023,146:114-121

[24]趙小虎,尹良飛,趙成龍.基于全局-局部特征和自適應(yīng)注意力機制的圖像語義描述算法[J].浙江大學(xué)學(xué)報(工學(xué)版),2020,54(1):126-134ZHAO Xiaohu,YIN Liangfei,ZHAO Chenglong.Image captioning based on global-local feature and adaptive-attention[J].Journal of Zhejiang University (Engineering Science),2020,54(1):126-134

[25]饒?zhí)鞓s,潘濤,徐會軍.基于交叉注意力機制的煤礦井下不安全行為識別[J].工礦自動化,2022,48(10):48-54RAO Tianrong,PAN Tao,XU Huijun.Unsafe action recognition in underground coal mine based on cross-attention mechanism[J].Journal of Mine Automation,2022,48(10):48-54

[26]Ristani E,Solera F,Zou R,et al.Performance measures and a data set for multi-target,multi-camera tracking[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2016:17-35

[27]Zheng L,Zhang H H,Sun S Y,et al.Person re-identification in the wild[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:3346-3355

[28]Wei L H,Zhang S L,Gao W,et al.Person transfer GAN to bridge domain gap for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:79-88

[29]Huang G,Liu Z,Van Der Maaten L,et al.Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:2261-2269

[30]Cai L Q,Li H,Dong W,et al.Micro-expression recognition using 3D DenseNet fused squeeze-and-excitation networks[J].Applied Soft Computing,2022,119:108594

[31]Zoph B,Vasudevan V,Shlens J,et al.Learning transferable architectures for scalable image recognition[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:8697-8710

[32]Ma N N,Zhang X Y,Zheng H T,et al.ShuffleNet v2:practical guidelines for efficient CNN architecture design[M]//Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018:122-138

[33]Li W,Zhu X T,Gong S G.Harmonious attention network for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:2285-2294

[34]Chang X B,Hospedales T M,Xiang T.Multi-level factorisation net for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:2109-2118

[35]Zhou K,Yang Y,Cavallaro A,et al.Learning generalisable omni-scale representations for person re-identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(9):5056-5069

Multi-feature person re-identification based on cross-attention mechanism

WU Xinyi DENG Zhiliang LIU Yunping DONG Juan LI Jiaqi1

1School of Automation,Nanjing University of Information Science amp; Technology,Nanjing 210044,China2School of Electronics amp; Information Engineering,Nanjing University of Information Science amp; Technology,Nanjing 210044,China

AbstractExisting person re-identification (Re-ID) methods often struggle with inaccurate feature extraction and misidentification of person features due to environmental noise.Here,we propose a multi-feature fusion branch network for person Re-ID based on dynamic convolution and attention mechanism.First,considering the uncertainties in illumination,human posture and occlusion,dynamic convolution is proposed to replace static convolution in ResNet50 to obtain a more robust Dy-ResNet50 model.Second,given the great difference in camera perspective and the likelihood of people being occluded by objects,self-attention and cross-attention mechanisms are embedded into the backbone network.Finally,the cross entropy loss function and the hard triplet loss function are used as the models loss functions,and experiments are carried out on public datasets of DukeMTMC-ReID,Market-1501 and MSMT17.The results show that the proposed model outperforms current mainstream models in Rank-1 (first hit) and mAP (mean Average Precision) on three public datasets,indicating its high identification accuracy.Key wordsperson re-identification; dynamic convolution; self-attention mechanism; cross-attention mechanism

主站蜘蛛池模板: 国产在线专区| 天天综合网在线| 国产偷国产偷在线高清| 久久国产成人精品国产成人亚洲 | 日韩国产黄色网站| 一区二区三区成人| 免费在线观看av| 尤物国产在线| 91在线播放国产| a级毛片网| 亚洲国产成人精品一二区 | 婷婷色狠狠干| 在线国产91| 国产九九精品视频| 国产91透明丝袜美腿在线| 久久青草视频| 国产精品女同一区三区五区| 国产精品无码一二三视频| 国产激情无码一区二区三区免费| 国产18在线| 婷婷99视频精品全部在线观看 | 国产高潮流白浆视频| 一本色道久久88| 狠狠干综合| 伊人大杳蕉中文无码| 午夜视频www| 国产一区在线视频观看| 国产主播喷水| 成人福利一区二区视频在线| 精品色综合| 国产精品视频a| 国产自无码视频在线观看| 日韩精品欧美国产在线| 超碰精品无码一区二区| 欧美色图久久| 91国内外精品自在线播放| 高潮爽到爆的喷水女主播视频| 亚洲不卡无码av中文字幕| 日韩一区二区在线电影| 麻豆精选在线| 亚洲无码视频喷水| 国产高清在线精品一区二区三区| 精品一区二区三区视频免费观看| 国产丝袜啪啪| 国内老司机精品视频在线播出| 久久亚洲国产视频| 国产综合欧美| 无码高潮喷水在线观看| 久久婷婷色综合老司机| 在线一级毛片| 久久亚洲国产一区二区| 亚洲色图综合在线| 免费国产高清精品一区在线| 国产靠逼视频| 五月婷婷精品| 2024av在线无码中文最新| 国产小视频a在线观看| 国产乱子精品一区二区在线观看| 免费A级毛片无码无遮挡| 精品无码人妻一区二区| 又大又硬又爽免费视频| 妇女自拍偷自拍亚洲精品| 国产欧美一区二区三区视频在线观看| 一本久道久久综合多人| 亚洲免费福利视频| 日韩精品免费一线在线观看| 波多野一区| 国产精品视频公开费视频| 亚洲精品爱草草视频在线| 最新国产精品第1页| 亚洲αv毛片| 亚洲黄色成人| 无码电影在线观看| 国产精品自在在线午夜区app| 色悠久久综合| 老司机午夜精品网站在线观看| 亚洲成AV人手机在线观看网站| 国产福利一区视频| 日本免费精品| 国模私拍一区二区| 国产精品成人AⅤ在线一二三四 | 伊伊人成亚洲综合人网7777 |