999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合注意力機(jī)制與權(quán)重聚類學(xué)習(xí)的行人再識別

2022-10-17 11:05:12楊有龍車金星
計算機(jī)工程與應(yīng)用 2022年20期
關(guān)鍵詞:特征方法

孫 姣,楊有龍,車金星

1.西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,西安 710126

2.南昌工程學(xué)院 理學(xué)院,南昌 330099

行人再識別指的是跨越多個非重疊的攝像頭檢索一個感興趣行人的任務(wù)。簡單的講,由多個指定的攝像頭捕捉到的行人圖像組成了一個大底庫,給定一張檢索圖像(感興趣的行人),找到與檢索圖像屬于同一身份的所有行人圖像,這就是行人再識別的目標(biāo)[1-2]。行人再識別在計算機(jī)視覺應(yīng)用領(lǐng)域得到了越來越多的關(guān)注,比如智能安防、智能交通和智慧城市等,同時也得到了飛速的發(fā)展并取得了巨大的進(jìn)步。

然而,指定攝像機(jī)的覆蓋范圍彼此沒有重疊,導(dǎo)致了連貫信息的缺失;行人的姿勢、行為甚至外觀在不同的圖像中會有很大的變化;在不同時間、不同場景中光線、背景和遮擋物不同;各個攝像機(jī)的分辨率不盡相同;經(jīng)常會有其他相同身材、相同顏色的行人作為干擾。以上這些原因都使得行人再識別仍然是一個有挑戰(zhàn)性的問題[3]。

為了解決以上挑戰(zhàn),研究者們提出了很多解決方法,可以分為基于手工設(shè)計的方法和基于深度學(xué)習(xí)的方法。根據(jù)定義,行人再識別可以用數(shù)學(xué)語言描述[2]:給定G是由N張圖像組成的一個底庫(gallery),記為G=它們屬于N個不同的身份1,2,…,N。給定一個檢測(query)圖像q,其身份定義為其中i*是q的身份,sim(·,·)是某種相似度函數(shù)。因此,圖像的特征表示學(xué)習(xí)和距離度量學(xué)習(xí)是行人再識別系統(tǒng)的兩個必要組件。傳統(tǒng)的基于手工設(shè)計方法中的特征表示學(xué)習(xí)主要是根據(jù)行人外觀設(shè)計出具有辨別力且魯棒性強(qiáng)的行人特征[4-6]。Gray和Tao[4]在亮度通道上使用8個顏色通道和21個紋理濾波器,并將行人分割成水平條紋設(shè)計了局部特征集合;Li等人[5]提取顏色描述符并使用分層高斯化進(jìn)行聚合;Liao等人[6]提出包含顏色和SILTP直方圖的局部最大出現(xiàn)率(local maximal occurrence,LOMO)描述符。手工設(shè)計方法中的距離度量學(xué)習(xí)的出發(fā)點(diǎn)是將屬于同一行人的特征拉近,屬于不同行人的特征推遠(yuǎn)[4,7-9]。Weinberger等人[8]提出了大范圍最近鄰學(xué)習(xí)(large margin nearest neighbor learning,LMNN)方法,該方法為目標(biāo)匹配對設(shè)置一個周長,并懲罰該周長的入侵者;K?stinger等人[7]改進(jìn)了常用的Mahalanobis(馬氏)距離,提出從等價約束中學(xué)習(xí)距離度量的KISSME方法。

隨著深度學(xué)習(xí)[10]在計算機(jī)視覺領(lǐng)域的興起,基于深度學(xué)習(xí)的行人再識別方法在這一領(lǐng)域逐漸占據(jù)主導(dǎo)地位。其中特征表示學(xué)習(xí)可以分為基于全局特征的方法[11-15]和基于局部特征的方法。全局特征表示學(xué)習(xí)是對每張行人圖像提取一個全局特征向量,Wu等人[11]使用小尺寸濾波器設(shè)計了一個“PersonNet”來捕捉行人圖像全局特征中的細(xì)粒度信息;Zheng等人[13]提出一個身份辨別嵌入(ID-discriminative embedding,IDE)模型,將訓(xùn)練過程看作多類分類,每個身份為不同的類,被廣泛應(yīng)用。局部特征表示學(xué)習(xí)通常是學(xué)習(xí)部分/區(qū)域的聚合特征,這些身體部件要么是由人體姿態(tài)估計器估計要么是水平條紋,Su等人[16]提出一種姿態(tài)引導(dǎo)的深度卷積(pose-driven deep convolutional,PDC)模型來利用人體部件線索進(jìn)行魯棒性表征學(xué)習(xí);Sun等人[17]設(shè)計了一個強(qiáng)大的基于部件卷積基線(part-based convolutional baseline,PCB)來使用多個分類器學(xué)習(xí)部件特征,將圖片分為局部區(qū)域,這對于嚴(yán)重的遮擋和背景雜亂是敏感的。

不管是手工設(shè)計系統(tǒng)還是深度學(xué)習(xí)系統(tǒng),魯棒性特征表示學(xué)習(xí)都是一個非常重要的組件。在實際應(yīng)用中,行人圖像總是由某種檢測器在復(fù)雜的環(huán)境(背景雜亂、遮擋、光線、視角變化等)下捕捉到。這些行人圖像在被提取特征之前是以矩形檢測框[18-19]的形式存在的,這些矩形框不僅包含了行人身體,還包含了一些不相關(guān)的信息。基于深度學(xué)習(xí)的方法通常的步驟是將這些行人圖像輸送到卷積神經(jīng)網(wǎng)絡(luò)中來自動提取深度特征表示,在此過程中,這些不相關(guān)信息不可避免地會對魯棒性特征的學(xué)習(xí)造成影響,從而降低行人再識別的性能。因此,減少干擾信息(背景、遮擋物)對模型的干擾是努力的方向。

研究者們?yōu)榱颂幚磉@些挑戰(zhàn)已經(jīng)做出了很多努力,注意力機(jī)制[20]作為一種有效的策略被引入到行人再識別領(lǐng)域來增強(qiáng)特征,主要來捕捉行人身體(或者某些身體部件)的辨別性外觀,將注意力模塊插入到卷積神經(jīng)網(wǎng)絡(luò)中已經(jīng)被證明可以有效地增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)豐富的表示能力[21]。多種注意力方法[21-28]已經(jīng)被提出來增強(qiáng)行人特征表示的辨別力,這些注意力方法根據(jù)作用的維度可以被分為通道注意力(channel-wise attention)和空間注意力(spatial-wise attention)。通道注意力[23,28]主要是探索不同通道之間的特征映射關(guān)系,每個通道的特征映射本身就是一個特征檢測器,通過這個通道注意力模塊來告訴模型應(yīng)該注意特征的哪一部分;空間注意力[21,24-25]是另一種形式的視覺注意力,給出模型應(yīng)該注意的區(qū)域。具體地,空間注意力指的是將空間中的每個位置看作特征節(jié)點(diǎn),將有限的資源引導(dǎo)到信息豐富的區(qū)域,使CNN能夠有選擇地處理視野中某個區(qū)域的視覺信息。

在深度學(xué)習(xí)中,注意力模塊[29]通常通過對特征映射重新賦權(quán)值來得到注意力特征(具有辨別力的特征被賦予較高的權(quán)重,無關(guān)/干擾特征被賦予較低的權(quán)重)。因此,一組可信的注意力權(quán)重有助于提高注意力機(jī)制的性能。眾所周知,經(jīng)過全局比較得到的權(quán)重分布將更可信,但很多注意力模塊都是通過只有有限感受野的局部卷積操作[23,28,30]實現(xiàn)的,這不利于得到更多的全局信息。許多注意力工作嘗試通過增加網(wǎng)絡(luò)的深度[31]或者使用更大尺寸的濾波器[21]來挖掘豐富的全局結(jié)構(gòu)信息。然而,Luo等人[32]已經(jīng)證明了卷積神經(jīng)網(wǎng)絡(luò)中的有效感受野只是理論感受野的一部分,這些方法仍然不能充分地捕獲豐富的全局結(jié)構(gòu)知識。聚類是一種典型的機(jī)器學(xué)習(xí)算法,用來探索和發(fā)現(xiàn)一定的結(jié)構(gòu)模式,注意到聚類算法中聚類中心的選擇過程與注意力模塊中信息最豐富特征的選擇過程具有相似之處,所以本文利用聚類算法優(yōu)秀的全局結(jié)構(gòu)挖掘能力來對全局注意力進(jìn)行捕捉。

本文提出一種新穎的基于聚類的全局注意力模塊來有效地學(xué)習(xí)辨別力特征進(jìn)行行人再識別。這種注意力設(shè)計顯式地從全局的角度捕捉了特征節(jié)點(diǎn)之間的成對相關(guān)性[29],從而推斷出類聚類的全局結(jié)構(gòu)信息。具體來說,對每個節(jié)點(diǎn)與其他所有節(jié)點(diǎn)的成對相關(guān)性進(jìn)行建模,進(jìn)而計算各節(jié)點(diǎn)的密度、重要分?jǐn)?shù),從而得到一組基于密度的有說服力的注意力權(quán)重,提高Re-ID任務(wù)的性能。本文的主要貢獻(xiàn)如下:

(1)對于注意力機(jī)制中學(xué)習(xí)到的注意力權(quán)重可信度低的問題,提出了一種基于聚類的全局注意力模塊CGAM來充分利用行人特征之間的相關(guān)性來挖掘信息豐富的全局結(jié)構(gòu),從而得到一組可信度高的注意力權(quán)重;(2)將CGAM嵌入到resnet-50基礎(chǔ)框架中,并結(jié)合預(yù)熱學(xué)習(xí)率、隨機(jī)擦除增強(qiáng)等數(shù)據(jù)增強(qiáng)策略構(gòu)建了一個注意力網(wǎng)絡(luò)CGAN,僅使用全局特征,取得了有競爭力的效果,網(wǎng)絡(luò)具有簡單高效的優(yōu)點(diǎn);(3)在Market-1501和DukeMTMC-reID兩個流行數(shù)據(jù)集上的實驗驗證了本文方法對于行人再識別任務(wù)的有效性。

1 相關(guān)工作

在本文中,設(shè)計了一個新穎的基于聚類的注意力模塊來得到高辨別力的行人描述符。換句話說,擁有杰出的挖掘結(jié)構(gòu)信息能力的聚類算法被用來探索中間特征映射的最值得注意的區(qū)域。據(jù)本文所知,這是第一次使用聚類算法來計算注意力權(quán)重。將簡短地回顧一些現(xiàn)有的注意力方法和聚類算法的應(yīng)用。

1.1 基于注意力的行人再識別方法

基于注意力的行人再識別方法在行人再識別領(lǐng)域一直非常具有吸引力,這是因為注意力機(jī)制可以增強(qiáng)有辨別力的部分并忽略造成干擾的部分從而使學(xué)習(xí)到的特征更具魯棒性,因此注意力機(jī)制被許多研究者用來克服行人圖像中背景雜亂和相互遮擋等問題。Li等人[33]提出了部分對齊卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)硬注意力(區(qū)域級注意力),并利用這些注意力建議輸出作為行人特征表示進(jìn)行行人再識別;為了緩解硬注意力可能忽略細(xì)粒度信息的問題,Xu等人[34]提出使用基本的反向傳播訓(xùn)練的軟注意力(像素級注意力)方法和使用強(qiáng)化學(xué)習(xí)訓(xùn)練的硬注意力方法來自動學(xué)習(xí)描述圖片內(nèi)容;Li等人[23]提出HA-CNN(harmonious attention CNN)模型聯(lián)合學(xué)習(xí)軟注意力和硬注意力,通過整個注意力機(jī)制定位出最具辨識性的像素和區(qū)域,本文的方法屬于軟注意力,這有助于關(guān)注到更詳細(xì)的信息;Wang等人[30]設(shè)計了FAB(fully attentional block)來調(diào)整通道級特征響應(yīng),該模塊可以無縫銜接到不同的CNN架構(gòu)中提高特征辨別力;Shen等人[35]利用一個KPM(Kronecker product matching)模塊以端到端可訓(xùn)練的方式將特征映射與軟變形框架對齊,采用多尺度特征學(xué)習(xí)和自殘差注意來提高性能;Song等人[36]提出了MGCAM(mask-guided contrastive attention model)來消除背景雜亂的影響。

一種卷積塊注意力模塊(convolutional block attention module,CBAM)[21]通過依次應(yīng)用通道注意力和空間注意力模塊來推導(dǎo)出注意力映射,然后將得到的注意力映射與輸入特征映射相乘,自適應(yīng)地對特征進(jìn)行細(xì)化,然而,該方法僅使用7×7的卷積核來選出值得注意的位置,缺乏對全局情況的把握。全局結(jié)構(gòu)信息的挖掘,是注意力機(jī)制表現(xiàn)良好的關(guān)鍵。特別地,對于特征映射的每個位置節(jié)點(diǎn),其與其他所有位置節(jié)點(diǎn)的成對相關(guān)性包含了豐富的、可挖掘的全局信息。Wang等人[29]提出非局部神經(jīng)網(wǎng)絡(luò)(non-local neural network)致力于學(xué)習(xí)全局結(jié)構(gòu)信息,通過學(xué)習(xí)特征節(jié)點(diǎn)之間的成對相關(guān)性作為注意力權(quán)重來增強(qiáng)信息豐富的特征,這種簡單的融合方法沒有充分利用這些相互關(guān)系,這對于全局結(jié)構(gòu)信息的挖掘是次優(yōu)的。因此,本文提出一種新穎的基于密度的全局注意力挖掘模塊來充分利用特征位置節(jié)點(diǎn)之間的成對關(guān)系,通過聚類過程很好地挖掘全局信息,使學(xué)習(xí)到的注意力權(quán)重更加可靠。

1.2 基于聚類的行人再識別方法

聚類分析,也稱為無監(jiān)督分類,是數(shù)據(jù)挖掘研究中的一個活躍領(lǐng)域,其主要思想是根據(jù)樣本之間的相似度將所有樣本劃分為不同的簇。換句話說,屬于同一個簇的樣本之間有較高的相似度,屬于不同簇的樣本之間相似度較低,被選為聚類中心的點(diǎn)具有較高的重要性[37]。經(jīng)典的聚類算法包括K-means[38]、K-medoids[39]、DBSCAN[40]等。Rodriguez等人[41]提出了一種新穎的基于密度和距離的密度峰值聚類算法(DPC),該算法的優(yōu)點(diǎn)是簡單、高效,并且它能夠快速找到高密度峰值點(diǎn)。由于這些優(yōu)點(diǎn),該算法被廣泛應(yīng)用于文本挖掘[42]、圖像識別[36]等領(lǐng)域,通過聚類過程,可以捕捉到圖像的內(nèi)部結(jié)構(gòu)。

此外,很多基于聚類的算法已經(jīng)成功地應(yīng)用到行人再識別任務(wù)中。Luo等人[32]考慮不同身份之間的差異性和相同身份之間的相似性,提出了一種自底向上的聚類方法來聯(lián)合優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)和身份樣本之間的關(guān)系;Fayyaz等人[43]首先提取出三個手工特征,并應(yīng)用特征融合和選擇機(jī)制得到優(yōu)化的特征,然后通過基于特征的聚類將整個底庫(gallery)劃分為k個一致的簇,從而優(yōu)化底庫搜索。發(fā)現(xiàn)大多數(shù)現(xiàn)有的基于聚類的行人再識別方法要么是對行人圖像進(jìn)行聚類,要么是對行人特征進(jìn)行聚類,很少有方法將聚類思想應(yīng)用到注意力模塊的設(shè)計中。思考以下兩個過程:(1)利用聚類算法在全部樣本中尋找聚類中心;(2)在卷積神經(jīng)網(wǎng)絡(luò)輸出的特征映射中找信息最豐富的特征節(jié)點(diǎn)。可以發(fā)現(xiàn)這兩個過程具有驚人的相似性。因此,本文采用聚類方法設(shè)計了一個新穎的注意力模塊,本文的工作首次應(yīng)用聚類算法來進(jìn)行注意力權(quán)重的計算。

2 注意力網(wǎng)絡(luò)介紹

2.1 網(wǎng)絡(luò)整體框架介紹

本文提出的注意力網(wǎng)絡(luò)(cluster-based global attention network,CGAN)是專門針對大多數(shù)現(xiàn)有深度行人再識別模型學(xué)習(xí)到的特征表示很少能捕捉全局結(jié)構(gòu)信息的缺點(diǎn)而設(shè)計的。包含三個主要組件:(1)骨干網(wǎng)絡(luò),用于學(xué)習(xí)初級特征映射;(2)注意力模塊,通過一個聚類的過程得到可信的注意力權(quán)重從而學(xué)習(xí)一個高辨別性的行人特征表示;(3)全局分支用來更多的關(guān)注全局信息。CGAN的整體框架如圖1所示。

圖1 CGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 CGAN network structure

首先,將行人圖像輸送到骨干網(wǎng)絡(luò)來得到初級特征映射,這里應(yīng)用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50[44]模型作為基礎(chǔ)框架,因為該框架在很多行人再識別方法中已經(jīng)取得了良好的效果。對該框架進(jìn)行輕微的改進(jìn),去掉最后的空間下采樣操作、平均池化層和全連接層,從而得到更大的特征圖。第二,將初級特征映射輸入到CGAM中來增強(qiáng)行人圖像最具辨別力的部分,從而得到注意力特征。另外,在CGAN中只應(yīng)用了全局分支,使得計算量和參數(shù)開銷更少。不失一般性,通過在注意力特征映射后嵌入一個全局平均池化層和全連接層來提取全局表示進(jìn)行行人身份標(biāo)簽的分類。

2.2 CGAM

為了得到辨別力更強(qiáng)的行人特征表示,本文提出了一種新穎的基于聚類的全局注意力模塊(CGAM),將密度聚類算法應(yīng)用于注意力模塊的設(shè)計有助于充分利用特征節(jié)點(diǎn)之間的成對相關(guān)性信息從而挖掘全局結(jié)構(gòu)信息。在這一部分,對本文注意力模塊的結(jié)構(gòu)進(jìn)行詳細(xì)介紹。

通常情況下,通過注意力機(jī)制對卷積神經(jīng)網(wǎng)絡(luò)某一層輸出的特征映射重新賦權(quán),以此來增強(qiáng)重要的部分、抑制不相關(guān)部分的信息。所以是否能夠得到一個好的注意力權(quán)重將直接影響注意力機(jī)制的性能。本文創(chuàng)新性地利用聚類算法的打分規(guī)則來得到注意力權(quán)重,這是因為聚類算法中分?jǐn)?shù)越高的數(shù)據(jù)點(diǎn)越重要,越有可能被選為聚類中心。CGAM的作用如圖2所示,具體地,將骨干網(wǎng)絡(luò)ResNet-50輸出的特征映射X∈RC×H×W作為注意力模塊的輸入,其中C、H、W分別是特征映射的通道數(shù)、高和寬,經(jīng)過CGAM得到一組可信的注意力權(quán)重,最后將得到的這組注意力權(quán)重乘以原始的特征映射X得到注意力特征Y。

圖2 CGAM結(jié)構(gòu)Fig.2 CGAM structure

首先,將每個空間位置看作一個特征節(jié)點(diǎn)xi∈RC(i=1,2,…,n)(n=H×W),在這里使用像素級注意力,因此一共有H×W個特征節(jié)點(diǎn),每個特征節(jié)點(diǎn)是一個維數(shù)為C的向量,特征節(jié)點(diǎn)xi和特征節(jié)點(diǎn)xj之間的成對相關(guān)性rij定義如下:

對于函數(shù)f,Wang等人[29]提出將其表示為嵌入空間中的點(diǎn)積相似度,本文也采用這一表示方法,其中θ和φ是兩個嵌入函數(shù),在實驗中通過空間中的1×1卷積層接著批次歸一化層(BN)和ReLU激活函數(shù)來實現(xiàn)。如上所述,根據(jù)聚類算法的打分規(guī)則得到注意力權(quán)重,本文應(yīng)用了DPC算法[41](基于快速搜索和密度峰值查找的聚類),選擇該算法的原因,相比于K-means等算法通過首先指定聚類中心并以迭代方式更新聚類中心的聚類方法,對于特征圖來說指定初始類中心是不容易的,DPC不需要初始的聚類中心,假設(shè)聚類中心的密度大于其周圍的點(diǎn),通過計算特征節(jié)點(diǎn)的密度來選擇對全局重要的點(diǎn),這與注意力機(jī)制的思想一致。該算法基于局部密度ρi和與最近的大密度點(diǎn)δi的距離來實現(xiàn),局部密度ρi定義如下:

其中,dij在DPC中是指數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j之間的歐氏距離,但是在本文中,使用點(diǎn)積相似度rij代替歐式距離dij,這是因為點(diǎn)積相似度在深度學(xué)習(xí)框架中更容易實現(xiàn)。另一個重要的項是截斷距離dc,在本文方法中被替換為截斷相似度rc,定義如下:

其中p屬于[0,1],決定截斷相似度在最大相似度中的占比,因此公式(2)可以重新定義為:

于是,特征節(jié)點(diǎn)xi的密度ρi與特征節(jié)點(diǎn)數(shù)量(特指與該節(jié)點(diǎn)的相似度至少為rc的節(jié)點(diǎn))是正相關(guān)的。根據(jù)聚類算法的思想,δi定義為特征節(jié)點(diǎn)xi與任何比其密度大的點(diǎn)的最小相似度:

很明顯,公式(5)并不適用于密度最大的點(diǎn)。因此,對于密度最大的特征節(jié)點(diǎn),其δi通常定義為:

然后,進(jìn)一步計算了每個特征節(jié)點(diǎn)的重要分?jǐn)?shù)ai(根據(jù)其ρi和δi),重要分?jǐn)?shù)ai定義如下:

至此,得到了重要分?jǐn)?shù)矩陣a(x)∈RH×W,其元素為ai(i=1,2,…,n),然后執(zhí)行sigmoid函數(shù)得到每一個空間位置的注意力權(quán)重:

由于A(x)是一個二維向量,進(jìn)一步將這個空間掩碼A沿通道維度重復(fù)C次,就可以得到定義在X∈RC×H×W上的注意力映射A(X),將其與初級特征X中的對應(yīng)元素相乘(element-wise),可以得到注意力模塊CGAM的輸出:

其中⊙是Hadamard乘積(對應(yīng)元素的乘積)。

和大多數(shù)行人再識別深度模型相似,本文通過在注意力特征Y之后插入一個全局平均池化層和一個全連接層來提取行人特征表示用于行人身份的分類,將全連接層的維數(shù)改為數(shù)據(jù)集的身份個數(shù)。確定注意力模塊后,為了確定CGAM在骨干網(wǎng)絡(luò)中的嵌入位置,在DukeMTMC-reID數(shù)據(jù)集上做了將CGAM嵌入在不同位置的對比實驗(如表1所示),分別將resnet-50的layer1、layer2、layer3、layer4(遵循pytorch中的定義)的輸出特征映射作為CGAM的輸入,另外為了驗證CGAM的有效性,也將所提出的CGAN與不包含注意力模塊的網(wǎng)絡(luò)(其他配置均與本文設(shè)置相同)進(jìn)行了對比。

表1 CGAM放置位置的選擇Table 1 Choice of placement of CGAM 單位:%

由表1可知,與基準(zhǔn)網(wǎng)絡(luò)相比,在骨干網(wǎng)絡(luò)的任意位置加入注意力模塊在mAP和Rank-1指標(biāo)上均有提高,可以看到將layer1輸出的特征映射作為注意力輸入效果不明顯,推測可能是該階段的特征映射學(xué)習(xí)到的是低級特征包含干擾信息過多所致,相比而言,將layer4的輸出作為注意力模塊的輸入效果更好。此外,由公式(3)知,截斷相似度rc是由參數(shù)p和最大相似度決定的,并且rc決定了每個特征節(jié)點(diǎn)的密度,因此,選擇一個合適的參數(shù)p對于提高性能是非常重要的。由于深度網(wǎng)絡(luò)模型訓(xùn)練時間過長,在[0,1]區(qū)間內(nèi)取多個值進(jìn)行實現(xiàn)耗時過大,為了說明p值對于模型的影響,選取不同p值在DukeMTMC-reID和Market-1501數(shù)據(jù)集上做了七組對比實驗,實驗結(jié)果如圖3~6所示。

圖3 不同p值下DukeMTMC-reID數(shù)據(jù)集rank-1變化情況Fig.3 Change of rank-1 of DukeMTMC-reID dataset under different p

圖4 不同p值下DukeMTMC-reID數(shù)據(jù)集mAP變化情況Fig.4 Change of mAP of DukeMTMC-reID dataset under different p

圖5 不同p值下Market-1501數(shù)據(jù)集rank-1變化情況Fig.5 Change of rank-1 of Market-1501 dataset under different p

圖6 不同p值下Market-1501數(shù)據(jù)集mAP變化情況Fig.6 Change of mAP of Market-1501 dataset under different p

總的來看,在這兩個數(shù)據(jù)集上,rank-1和mAP準(zhǔn)確率隨著p值變化的情況都沒有呈現(xiàn)出特別明顯的規(guī)律性,Rodriguez等人[41]提出在數(shù)據(jù)量特別大的情況下,使得大密度點(diǎn)的鄰居數(shù)是所有節(jié)點(diǎn)的1%或2%的p值效果最好,但在數(shù)據(jù)量不是很多的情況下,需要實驗來選取合適的p值。綜合rank-1和mAP的變化來看,對于DukeMTMC-reID數(shù)據(jù)集,當(dāng)p=0.4時效果最好;對于Market-1501數(shù)據(jù)集,當(dāng)p=0.8時效果最好。

2.3 損失函數(shù)

大多數(shù)現(xiàn)有的工作[2]將行人再識別看作是一個多類分類任務(wù),其中將每個身份視為一個單獨(dú)的類,這些深度模型通常使用一個softmax函數(shù)基于學(xué)習(xí)到的行人特征表示來預(yù)測每張圖像的身份。本文也使用了基于softmax的識別損失。

行人再識別的目標(biāo)是將檢測圖像與圖庫中的一張或多張圖片相匹配,相互匹配的一組圖像屬于同一個人,但是分類任務(wù)沒有顯式地學(xué)習(xí)一個相似性度量,而這在測試階段對底庫圖像進(jìn)行排序時是需要的。本文通過改進(jìn)的三元組損失[45]顯式地學(xué)習(xí)了相似性度量,定義如下:

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集和評價標(biāo)準(zhǔn)

為了評估本文提出的方法,選擇了兩個廣泛使用的大規(guī)模行人再識別基準(zhǔn)數(shù)據(jù)集Market-1501[18]和DukeMTMC-reID[19]。Market-1501數(shù)據(jù)集包含了由超市前的6個攝像頭拍攝的1 501個行人的32 668張照片,將所有照片分為訓(xùn)練集和測試集,其中751個人的12 936張圖像作為訓(xùn)練集,剩下的750個人的19 732張圖像作為測試集,待查詢圖像為測試集中的750個人在6個攝像頭下隨機(jī)挑選出的3 368張圖像;DukeMTMC-reID包含了由8個高分辨率攝像頭拍攝的1 812個行人的36 411張圖像,在1 812個身份中,有1 404個身份出現(xiàn)在兩個以上的攝像頭中,其他408個身份被視為干擾身份。該數(shù)據(jù)集中的1 404個身份分為702個身份的16 522張圖像作為訓(xùn)練集和其他702個行人的2 228張待查詢圖像和17 661張底庫圖像作為測試集。

為了評估CGAN模型的性能,遵循通用的評價標(biāo)準(zhǔn),利用rank-1和mAP(mean average precision)在Market-1501和DukeMTMC-reID數(shù)據(jù)集上進(jìn)行性能評價。所有實驗在單查詢設(shè)置下進(jìn)行。

3.2 實現(xiàn)細(xì)節(jié)

本文模型是基于PyTorch框架實現(xiàn)的,實驗硬件配置是NVIDIA TITAN RTX GPU(顯存24 GB)。

在訓(xùn)練階段,首先將所有訓(xùn)練圖像的尺寸調(diào)整為256×128,然后通過隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)和歸一化來進(jìn)行數(shù)據(jù)增強(qiáng),另外采用一種數(shù)據(jù)增強(qiáng)方法—隨機(jī)擦除增強(qiáng)(REA)[46]:給定一個小批次中的圖像I,其被隨機(jī)擦除的概率為Pe,保持不變的概率為1-Pe,若圖像I被選中隨機(jī)擦除,則在整張圖像中選擇一個大小為(We,He)的矩形區(qū)域Ie,用隨機(jī)值擦除其像素。具體地,REA在圖像I中隨機(jī)選擇一個點(diǎn)P=(xe,ye),如果xe+We≤W且ye+He≤H(W和H是圖像I的寬和高),則選擇Ie=(xe,ye,xe+We,ye+He)作為隨機(jī)擦除區(qū)域且Ie的縱橫比在r1和r2之間隨機(jī)初始化,對該區(qū)域的每個像素分別用圖像I的均值填充。在本文中,設(shè)置Pe=0.5,r1=0.3,r2=0.33,采用REA方法有利于解決行人圖像可能被其他物體遮擋的問題并提高模型的泛化能力。

在測試階段,簡單的將圖像的大小調(diào)整為256×128,公式(10)中的間隔m設(shè)置為0.5;公式(3)中的參數(shù)p設(shè)置為0.8;為了優(yōu)化模型,將小批次P×K設(shè)置為128;使用Adam[47]優(yōu)化器訓(xùn)練模型160個epoch;采用一種預(yù)熱策略[48-49]對學(xué)習(xí)率進(jìn)行設(shè)置,前10epoch學(xué)習(xí)率從3×10-5線性增加到3×10-4,然后在第40個epoch和第70個epoch處學(xué)習(xí)率分別衰減為3×10-5和3×10-6。

3.3 與相關(guān)方法比較

為了進(jìn)一步驗證CGAN在行人再識別任務(wù)中的有效性,在本節(jié),將本文方法與一些效果顯著的相關(guān)方法在Market-1501和DukeMTMC-reID數(shù)據(jù)集上進(jìn)行了比較。

如表2所示,在Market-1501數(shù)據(jù)集上,本文的CGAN模型實現(xiàn)了85.2%的mAP和94.1%的Rank-1精度,相比于使用部分對齊卷積神經(jīng)網(wǎng)絡(luò)和硬注意力并同時學(xué)習(xí)基于全身和基于部分的特征表示的MSCAN[33]方法,本文方法僅使用全局分支提高了27.7%(mAP)和13.8%(Rank-1),節(jié)省了大量的時間和空間成本。與AACN[25](姿態(tài)引導(dǎo)的部分注意力)和HA-CNN[23](同時使用軟注意力和硬注意力)等方法相比,也有顯著的提高,并且在使用重排名技巧的情況下,得到了95.2%的rank-1精度和94.1%的mAP精度。對于DukeMTMC-reID數(shù)據(jù)集,由于該數(shù)據(jù)集具有更廣泛的攝像機(jī)視角和更復(fù)雜的背景,因此對于行人重識別任務(wù)有更大的挑戰(zhàn)性,CGAN在只使用全局分支的情況下仍然實現(xiàn)了87.3%的rank-1精度和76.4%的mAP精度,加上重排名技巧,實現(xiàn)了90.4%的rank-1精度和88.9%的mAP精度。綜上,本文的注意力方法在行人再識別問題中效果顯著。

表2 實驗結(jié)果對比Table 2 Comparison of experimental results單位:%

4 總結(jié)

針對現(xiàn)有基于注意力機(jī)制的行人再識別方法中獲取注意力權(quán)重的方式簡單且確定、沒有充分利用行人特征映射各節(jié)點(diǎn)之間的相關(guān)性,從而缺乏對全局信息的把握的問題,本文提出了一種新穎的基于聚類的全局注意力挖掘模塊,通過聚類算法得到一組可信度更高的注意力權(quán)重,從而獲得更加魯棒的行人特征表示。另外,基于提出的注意力模塊CGAM、利用改進(jìn)的resnet-50作為骨干網(wǎng)絡(luò),結(jié)合預(yù)熱學(xué)習(xí)率、隨機(jī)擦除增強(qiáng)、組合損失函數(shù)等方法構(gòu)建了一個簡單高效的注意力網(wǎng)絡(luò)CGAN,通過在Market-1501和DukeMTMC-reID兩個流行數(shù)據(jù)集上的實驗結(jié)果,驗證了本文方法的有效性。本文注意力網(wǎng)絡(luò)僅僅使用全局分支取得了有競爭力的性能,作為展望,將進(jìn)一步應(yīng)用一些更細(xì)粒度的特征表示(例如,基于局部的特征)來進(jìn)一步提高行人再識別模型的性能。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個特征
學(xué)習(xí)方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 成人av专区精品无码国产| 亚洲欧洲AV一区二区三区| AV色爱天堂网| 国模粉嫩小泬视频在线观看| 日韩在线中文| 亚洲人成网站色7777| 久久久久88色偷偷| 免费国产高清精品一区在线| 99久久国产综合精品2023| 免费国产高清精品一区在线| 国产不卡在线看| 综合色婷婷| 免费观看亚洲人成网站| 国产在线麻豆波多野结衣| yjizz国产在线视频网| 色偷偷av男人的天堂不卡| 久久精品人人做人人爽97| 色男人的天堂久久综合| 婷婷亚洲视频| 色视频久久| 亚洲免费三区| 九九九久久国产精品| 沈阳少妇高潮在线| 国产精品欧美亚洲韩国日本不卡| 国产色婷婷视频在线观看| 黄片在线永久| a在线亚洲男人的天堂试看| 亚洲精品动漫| 国产成人综合久久精品尤物| 日韩美毛片| 精品久久777| 青青极品在线| 欧美性久久久久| 亚洲一级无毛片无码在线免费视频 | 九九热精品在线视频| 亚洲国产中文在线二区三区免| 国产99精品视频| 免费国产不卡午夜福在线观看| 午夜福利网址| 无码精品一区二区久久久| 日本免费精品| 四虎永久免费地址| 在线精品欧美日韩| 国产男女XX00免费观看| 亚洲国产天堂久久综合226114| 99在线免费播放| 亚洲无码高清一区二区| 欧美日韩一区二区在线播放| 久久无码免费束人妻| 99精品在线看| 国产成人免费高清AⅤ| 国禁国产you女视频网站| 中文国产成人久久精品小说| 日韩美女福利视频| 日韩午夜福利在线观看| 一级片免费网站| 欧美亚洲国产视频| 国产亚洲现在一区二区中文| 国产无码高清视频不卡| 久久夜色精品| 精品人妻一区二区三区蜜桃AⅤ| 粉嫩国产白浆在线观看| 成年网址网站在线观看| 欧美中文字幕在线二区| 免费中文字幕在在线不卡 | 国产精品免费电影| 一级做a爰片久久免费| 99久久这里只精品麻豆| 91免费国产高清观看| 不卡视频国产| 亚洲精品成人7777在线观看| 欧美黄色网站在线看| 亚洲综合18p| 久久国产精品夜色| 国产理论精品| 久久久久亚洲Av片无码观看| 国产青榴视频在线观看网站| 国产一区二区丝袜高跟鞋| 午夜三级在线| 谁有在线观看日韩亚洲最新视频 | 伊人激情久久综合中文字幕| 国产亚洲视频免费播放|