999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于任務(wù)感知機(jī)制的行人屬性識(shí)別

2022-01-01 00:00:00儲(chǔ)智強(qiáng)李旻先

摘 要:為了提高基于深度學(xué)習(xí)的行人屬性識(shí)別的能力,提出了一種基于任務(wù)感知機(jī)制的行人屬性識(shí)別網(wǎng)絡(luò)模型。考慮到不同行人屬性之間存在較強(qiáng)的語義相關(guān)性,提出了任務(wù)感知機(jī)制,充分挖掘不同任務(wù)中屬性和屬性之間的關(guān)聯(lián)性;針對(duì)行人屬性樣本的不平衡性,利用加權(quán)損失策略降低不平衡性帶來的影響;在現(xiàn)有的三個(gè)行人屬性數(shù)據(jù)集PETA、PA100k和RAP上的實(shí)驗(yàn)結(jié)果表明,提出的方法具有較強(qiáng)的競爭力。

關(guān)鍵詞:行人屬性識(shí)別;空間注意力;注意力機(jī)制;語義相關(guān)

中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2022)03-041-0879-05

doi:10.19734/j.issn.1001-3695.2021.07.0285

基金項(xiàng)目:國家自然科學(xué)基金面上項(xiàng)目(62076132);江蘇省自然科學(xué)基金資助項(xiàng)目(BK20211194)

作者簡介:儲(chǔ)智強(qiáng)(1996-),男,江蘇南通人,碩士研究生,主要研究方向?yàn)樾腥藢傩宰R(shí)別;李旻先(1983-),男(通信作者),江蘇南京人,副教授,博士,主要研究方向?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、目標(biāo)檢測、跟蹤和再識(shí)別(minxianli@njust.edu.cn).

Task-aware mechanism for pedestrian attribute recognition

Chu Zhiqiang,Li Minxian?

(College of Computer Science amp; Engineering,Nanjing University of Science amp; Technology,Nanjing 210014,China)

Abstract:In order to improve the recognition ability of pedestrian attribute recognition based on deep learning,this paper proposed a pedestrian attribute recognition network model based on task-aware mechanism.Considering the strong semantic correlation between different pedestrian attributes,it proposed a task-aware mechanism to fully mine the correlation between attri-butes in different tasks.Aiming at the imbalance of pedestrian attribute samples,it used the weighted loss strategy to reduce the impact of imbalance.The experimental results on three existing pedestrian attribute datasets PETA,PA100k and RAP show that the proposed method has strong competitiveness.

Key words:pedestrian attribute recognition;spatial self-attention;attention mechanism;semantic dependency

0 引言

行人屬性識(shí)別的目的是在給定目標(biāo)人物圖像的情況下挖掘目標(biāo)人物的屬性。其作為中層語義信息,對(duì)視點(diǎn)的變化和觀看條件的多樣性具有更強(qiáng)的魯棒性,在行人再識(shí)別、人臉識(shí)別和身份識(shí)別中發(fā)揮著重要作用。但是由于光照、分辨率等因素影響,行人屬性識(shí)別仍然是一個(gè)有待提升的問題。

早期的行人屬性識(shí)別方法通常采用基于手工設(shè)計(jì)特征的方法,如提取圖像中的方向梯度直方圖(histogram of oriented gradient,HOG)[1]或者統(tǒng)計(jì)顏色直方圖[2],然后根據(jù)不同的任務(wù)設(shè)計(jì)相對(duì)應(yīng)的濾波器。然而這些傳統(tǒng)方法的性能很難令人滿意。近些年來,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的方法在行人屬性識(shí)別方面取得了巨大的成功,文獻(xiàn)[3]對(duì)基于CNN的行人屬性識(shí)別方法進(jìn)行了綜合闡述;文獻(xiàn)[4]提出了一個(gè)聯(lián)合訓(xùn)練的CNN框架,共同學(xué)習(xí)不同的行人屬性;文獻(xiàn)[5]將行人屬性識(shí)別問題歸納為多標(biāo)簽分類問題,并且考慮屬性的不平衡性,提出了改進(jìn)的交叉熵?fù)p失函數(shù)。但是這些基于全局圖像的方法缺乏對(duì)屬性細(xì)粒度特征的考慮,使整體性能受到限制。最近的一些方法試圖利用屬性之間的空間關(guān)系和語義關(guān)系來進(jìn)一步提高屬性識(shí)別性能,這些方法可以分為以下三種基本類型:

a)基于局部的方法。這類方法通常從人體的局部部位來提取特征。文獻(xiàn)[6]將整張行人圖片分割為15個(gè)剛性區(qū)域,并對(duì)不同的區(qū)域進(jìn)行特征融合;文獻(xiàn)[7,8]利用外部姿態(tài)估計(jì)模塊來定位身體部位;文獻(xiàn)[9]利用EdgeBox[10]區(qū)域生成建議,以弱監(jiān)督的方式定位感興趣的區(qū)域,但是該方法不是完全自適應(yīng)的,而且也不支持端到端訓(xùn)練。雖然這些方法提高了識(shí)別性能,但是使用了額外的身體部件定位模塊增加了模型的復(fù)雜性,運(yùn)行時(shí)間也大大增強(qiáng)。

b)基于屬性關(guān)聯(lián)的方法。已有一些工作[11~13]利用屬性語義關(guān)系來輔助行人屬性識(shí)別。文獻(xiàn)[11]提出了一個(gè)基于CNN-RNN的框架,能夠聯(lián)合學(xué)習(xí)圖像級(jí)的上下文信息和屬性級(jí)的順序相關(guān)性;文獻(xiàn)[12]將屬性進(jìn)行了分組,嘗試探索屬性組組內(nèi)和組間的關(guān)系;文獻(xiàn)[13]嘗試使用兩層圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional networks,GCN)來發(fā)掘?qū)傩院蛥^(qū)域之間的關(guān)聯(lián)性。

c)基于注意力機(jī)制的方法。一些工作[14~17]利用視覺注意力機(jī)制來輔助行人屬性識(shí)別。文獻(xiàn)[14]提出了一種多方向的注意力機(jī)制,學(xué)習(xí)多尺度的注意力特征來進(jìn)行行人分析;文獻(xiàn)[15]通過擴(kuò)展空間正則化模塊[16]來學(xué)習(xí)多個(gè)尺度上的有效注意力映射。雖然最終的識(shí)別準(zhǔn)確率有所提高,但是這些方法都沒有考慮特定于屬性的信息。

行人屬性總是表現(xiàn)出語義性和視覺空間的相關(guān)性,可以根據(jù)這些相關(guān)性進(jìn)行分組。例如,屬性boldHair和blackHair不可能出現(xiàn)在同一個(gè)人身上,它們都與一個(gè)人的頭肩區(qū)域相關(guān),并且是互斥的,所以可以在一個(gè)組中一起被識(shí)別。現(xiàn)有的行人屬性識(shí)別方法試圖單獨(dú)挖掘?qū)傩蚤g的相關(guān)性,忽略了屬性組內(nèi)的語義互斥性和屬性組間的空間相關(guān)性,這實(shí)際上可以提高行人屬性識(shí)別性能。

本文在端到端的結(jié)構(gòu)中對(duì)屬性組內(nèi)和組間關(guān)聯(lián)性進(jìn)行建模,在傳統(tǒng)注意力機(jī)制的基礎(chǔ)上,提出了一種基于任務(wù)感知機(jī)制的框架,對(duì)行人屬性進(jìn)行逐組識(shí)別,兼顧組內(nèi)和組間的關(guān)系。

1 基于任務(wù)感知機(jī)制的行人屬性識(shí)別

本章主要介紹基于任務(wù)感知機(jī)制的行人屬性識(shí)別網(wǎng)絡(luò)架構(gòu),具體網(wǎng)絡(luò)架構(gòu)如圖1所示。首先對(duì)模型框架進(jìn)行整體介紹,接著對(duì)經(jīng)典的空間注意力機(jī)制進(jìn)行介紹,隨后比較任務(wù)感知機(jī)制和空間注意力機(jī)制的不同之處,最后介紹了本文使用的損失函數(shù)。

1.1 整體架構(gòu)

本文提出的總體網(wǎng)絡(luò)架構(gòu)如圖1所示,在ResNet50[17]的基礎(chǔ)上加入了任務(wù)感知模塊。

首先利用ResNet50的conv1~4模塊進(jìn)行特征提取,然后將提取到的特征分別輸入給整體特征提取和注意力特征提取兩個(gè)網(wǎng)絡(luò)。兩個(gè)網(wǎng)絡(luò)都使用ResNet50的conv5_x模塊作為高層語義特征提取模塊。整體特征提取網(wǎng)絡(luò)主要提取行人的整體特征。與ResNet50結(jié)構(gòu)類似,在conv5_x模塊提取得到2 048×14×14維的特征后,使用全局平均池化的方式連接一層全連接層,得到行人屬性的整體特征。注意力特征提取網(wǎng)絡(luò)主要偏向于提取行人的局部特征,該網(wǎng)絡(luò)主要由任務(wù)感知模塊構(gòu)成。任務(wù)感知模塊能夠捕捉屬性的空間關(guān)聯(lián)特征,并且挖掘不同屬性任務(wù)之間的相關(guān)性,對(duì)局部細(xì)粒度的行人屬性有更好的識(shí)別效果。最后,將注意力特征提取網(wǎng)絡(luò)的輸出進(jìn)行向量拼接,參考文獻(xiàn)[18],對(duì)兩個(gè)網(wǎng)絡(luò)的輸出采用逐元素取最大值方案,得到最后的屬性預(yù)測。

1.2 空間注意力機(jī)制

人類視覺感知的一個(gè)重要屬性就是選擇性地將注意力集中在視覺空間的部分區(qū)域上,并隨著時(shí)間的推移,將不同視角下的信息相結(jié)合,建立對(duì)整個(gè)場景的完整表示,這就是空間注意力機(jī)制(spatial attention mechanism,SpAM)的由來,其目的是衡量空間位置對(duì)于特定任務(wù)的重要性。

為了部署注意力模型,首先通過深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)從圖像中提取深度特征,如圖1所示。假定I是給定行人圖像,將I裁剪為W×H的正方形區(qū)域,其中W=H。在經(jīng)過DCNN的最后一層后得到特征表示圖,記為fI,fI∈C×W′×H′,其中:W′=W/s,H′=H/s,s是DCNN中池化層的步長,由池化層動(dòng)態(tài)決定。因此,fI中每一個(gè)特征向量對(duì)應(yīng)于輸入圖像I中大小為s×s的區(qū)域,然后在fI上應(yīng)用注意力機(jī)制。

首先針對(duì)得到的特征表示圖fI,空間注意力機(jī)制會(huì)生成多個(gè)注意力得分矩陣,一個(gè)得分矩陣對(duì)應(yīng)一個(gè)行人屬性預(yù)測任務(wù),記為gt,其中t對(duì)應(yīng)一個(gè)行人屬性預(yù)測任務(wù),t∈{1,2,…,T}。隨后利用逐元素相乘的方式將權(quán)重ω(SpAM)t與特征圖fI相結(jié)合,得到每個(gè)任務(wù)的特征圖F(SpAM)t,即

其中:c∈{1,2,…,C}表示fI和F(SpAM)t的通道;⊙表示逐元素相乘;fI和F(SpAM)t的維度相同。利用softmax激活函數(shù)對(duì)ω(SpAM)t的每一個(gè)元素進(jìn)行歸一化,即

其中:gti表示第t個(gè)行人屬性任務(wù)中第i個(gè)位置的得分,i∈[1,W′×H′]表示空間位置下標(biāo);gt可以通過簡單的卷積神經(jīng)網(wǎng)絡(luò)獲得。第一層網(wǎng)絡(luò)擁有K個(gè)核大小為1×1的卷積核,然后針對(duì)每一個(gè)行人屬性預(yù)測任務(wù)連接一個(gè)核大小為1×1的網(wǎng)絡(luò)層,最后連接兩個(gè)全連接層。空間注意力機(jī)制的目的是為了發(fā)掘不同圖像位置的重要性,這有利于下階段對(duì)更有利的空間位置進(jìn)行學(xué)習(xí)和特征表示。

1.3 任務(wù)感知機(jī)制

任務(wù)感知機(jī)制(task-aware mechanism, TAM)和空間注意力機(jī)制的最大區(qū)別在于空間注意力機(jī)制在學(xué)習(xí)某個(gè)任務(wù)的注意力權(quán)重時(shí)并不會(huì)考慮其他任務(wù),然而這在行人屬性識(shí)別中并不是完全適用的,因?yàn)樾腥藢傩圆皇仟?dú)立的個(gè)體,屬性和屬性之間存在著聯(lián)系,任務(wù)感知機(jī)制正是通過考慮其他屬性任務(wù)來權(quán)衡任務(wù)的重要性。

首先根據(jù)特征圖fI,任務(wù)感知機(jī)制會(huì)得到一個(gè)注意力得分矩陣。第t個(gè)任務(wù)第i個(gè)位置的注意力得分記為hti,t∈{1,2,…,T},i∈[1,W′×H′]。隨后對(duì)得分矩陣中不同任務(wù)的同一位置,即{h1i,h2i,…,hTi}進(jìn)行歸一化操作。歸一化操作的目的是將不同任務(wù)在同一位置上的注意力得分限制在可比較的尺度上,從而反映任務(wù)之間的關(guān)系,也有利于訓(xùn)練的穩(wěn)定性和收斂性。歸一化后會(huì)得到新的注意力得分矩陣ω(TAM)={ω(TAM)1,ω(TAM)2,…,ω(TAM)T}。最后將ω(TAM)和特征圖fI進(jìn)行線性融合,得到每個(gè)任務(wù)的特征表示F(TAM)t,即

其中:c∈{1,2,…,C}表示fI和F(TAM)t的通道;⊙表示逐元素相乘。

本文利用兩層卷積網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)注意力權(quán)重的學(xué)習(xí)。第一層卷積層使用K個(gè)核大小為1×1的卷積核,K根據(jù)不同的主干網(wǎng)絡(luò)設(shè)置。第二層卷積層使用T個(gè)核大小為1×1的卷積核,T表示行人屬性預(yù)測的任務(wù)數(shù)。將權(quán)重與卷積特征映射相結(jié)合,再利用全連接層對(duì)融合后的特征進(jìn)行分類,完成行人屬性識(shí)別。盡管屬性與特征圖中具體位置之間的關(guān)系尚不明確,但是引入的歸一化操作可以有效解決這一問題:a)歸一化操作可以讓不同任務(wù)相同位置的注意力權(quán)重保持在相同尺度上;b)通過歸一化操作得到的注意力權(quán)重可以反映出特征空間對(duì)于不同任務(wù)的相對(duì)重要性。如果一個(gè)位置對(duì)于某些任務(wù)是有用的,那么它就會(huì)給這些任務(wù)分配相似的注意力權(quán)重。如果一個(gè)位置對(duì)該任務(wù)的貢獻(xiàn)度低,那么注意力權(quán)重就會(huì)很小。反之,如果一個(gè)位置對(duì)于任務(wù)具有較高的貢獻(xiàn)度,那么注意力權(quán)重就會(huì)較高。

1.4 損失函數(shù)

現(xiàn)有的行人屬性數(shù)據(jù)集都存在比較嚴(yán)重的屬性樣本不平衡的情況,以PETA數(shù)據(jù)集為例,表1統(tǒng)計(jì)了數(shù)據(jù)集中部分屬性的數(shù)量占比。從表1可知,年齡小于30歲、下身穿褲子等屬性的樣本占比更大,而戴眼鏡、穿V領(lǐng)上衣等屬性樣本占比偏小,這使網(wǎng)絡(luò)模型在訓(xùn)練階段更加關(guān)注樣本比例大的屬性,從而導(dǎo)致樣本比例高的屬性識(shí)別準(zhǔn)確率高,樣本比例低的屬性識(shí)別準(zhǔn)確率低。

針對(duì)這種情況,本文采用加權(quán)損失函數(shù)策略,增大少樣本屬性在訓(xùn)練過程中的影響。loss函數(shù)計(jì)算公式如下:

其中:N表示行人圖像的數(shù)量;M表示行人屬性的總數(shù)量;yij表示第i張行人圖像第j個(gè)屬性的真實(shí)標(biāo)簽,若存在即為1,否則為0;ij表示分類層的輸出;σ(Z)的計(jì)算公式為

ωj表示第j個(gè)屬性的權(quán)重。采用文獻(xiàn)[8]的計(jì)算方式以緩解屬性間分布不平衡的情況,計(jì)算方式如下:

其中:rj表示訓(xùn)練集中第j個(gè)屬性的正樣本占比。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

本文方法在現(xiàn)有的三個(gè)行人屬性公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):

a)PETA數(shù)據(jù)集。PETA數(shù)據(jù)集共有19 000張行人圖片,每張圖片標(biāo)注了61個(gè)二值屬性和4個(gè)多類屬性。本文參考已有的工作,將整個(gè)數(shù)據(jù)集隨機(jī)分成3個(gè)不重疊的子部分,即9 500張的訓(xùn)練集、1 900張的驗(yàn)證集以及7 600張的測試集。由于屬性樣本的不平衡性,一般選擇屬性標(biāo)注中樣本比例大于5%的屬性用于評(píng)價(jià)測試,最終屬性數(shù)量確定為35個(gè)。

b)RAP數(shù)據(jù)集。RAP數(shù)據(jù)集包含從26個(gè)室內(nèi)監(jiān)控?cái)z像機(jī)收集的41 585張圖像,每張圖像標(biāo)注了72個(gè)細(xì)粒度屬性。按照官方說明,整個(gè)數(shù)據(jù)集被分成了33 268張的訓(xùn)練集和8 317張的測試集兩部分,并選擇了51個(gè)樣本比例大于1%的屬性用于評(píng)測。

c)PA100k數(shù)據(jù)集。PA100k數(shù)據(jù)集是迄今為止行人屬性識(shí)別的最大數(shù)據(jù)集,總共包含了從室外監(jiān)控?cái)z像機(jī)采集的100 000張行人圖像,每張圖像都用26個(gè)常用屬性進(jìn)行了標(biāo)注。按照官方說明,整個(gè)數(shù)據(jù)集被隨機(jī)分成80 000張訓(xùn)練圖像、10 000張驗(yàn)證圖像和10 000張測試圖像。

使用兩種類型的評(píng)價(jià)指標(biāo)進(jìn)行性能衡量:

a)基于標(biāo)簽的指標(biāo)。通過計(jì)算平均準(zhǔn)確率(mean accuracy, mA)作為每個(gè)屬性的正準(zhǔn)確率和負(fù)準(zhǔn)確率的平均值。mA的計(jì)算公式為

其中:N表示樣本數(shù)量;M表示屬性數(shù)量;Pi和TPi分別是第i個(gè)屬性的正例數(shù)和正確預(yù)測的正例數(shù);Ni和TNi的定義類似。

b)基于實(shí)例的指標(biāo)。包括準(zhǔn)確率(accuracy,Acc)指標(biāo)、精確率(precision,Prec)指標(biāo)、召回率(recall,Rec)指標(biāo)以及F1指標(biāo)。

2.2 實(shí)現(xiàn)細(xì)節(jié)

在本次實(shí)驗(yàn)中,輸送到網(wǎng)絡(luò)的行人圖像大小裁剪為224×224,在數(shù)據(jù)擴(kuò)增上,只在訓(xùn)練過程中采用了隨機(jī)翻轉(zhuǎn)和隨機(jī)旋轉(zhuǎn)的數(shù)據(jù)增強(qiáng)方法,測試時(shí)不進(jìn)行任何變換。使用ResNet50作為主干網(wǎng)絡(luò),使用在ImageNet上訓(xùn)練的權(quán)重作為初始權(quán)重,與文獻(xiàn)[19,20]類似,刪去了conv5_x的空間下采樣操作,即conv5_x輸出的特征維度為2 048×14×14。任務(wù)感知網(wǎng)絡(luò)一共包含兩層。為了與ResNet50匹配,第一層使用2 048個(gè)大小為1×1的卷積核,第二層使用T個(gè)大小為1×1的卷積核,T為屬性任務(wù)個(gè)數(shù)。根據(jù)屬性的語義和空間信息,將3個(gè)數(shù)據(jù)集進(jìn)行了不同屬性任務(wù)劃分,其中PETA和PA100k數(shù)據(jù)集劃分為6個(gè)屬性任務(wù),而RAP數(shù)據(jù)集劃分為7個(gè)屬性任務(wù)。具體屬性任務(wù)劃分如表2所示。網(wǎng)絡(luò)使用隨機(jī)梯度下降法(stochastic gradient descent, SGD)進(jìn)行參數(shù)更新,其中動(dòng)量(momentum)設(shè)為0.9,權(quán)值衰減參數(shù)(weight decay)設(shè)為0.000 5。初始學(xué)習(xí)率為0.01。

2.3 對(duì)比實(shí)驗(yàn)

2.3.1 與其他模型的對(duì)比

本文方法與其他12種行人屬性識(shí)別任務(wù)中最先進(jìn)的方法在三個(gè)行人屬性數(shù)據(jù)集上進(jìn)行了對(duì)比,如表3~5所示。

ACN(attributes convolutional network)[4]為所有屬性聯(lián)合訓(xùn)練CNN模型,并在不同屬性之間共享權(quán)重;DeepMAR(deep multi-attribute recognition model)[5]使用行人的全局特征進(jìn)行屬性識(shí)別,采用加權(quán)的交叉熵?fù)p失函數(shù)來考慮行人屬性的相關(guān)性;HP-Net(hydraPlus network)[14]是一種基于注意力機(jī)制的方法,它利用多方向注意力模塊訓(xùn)練多層次、多尺度的注意力強(qiáng)化特征;LGNet(locational guided network)[9]使用行人局部區(qū)域網(wǎng)絡(luò)提取行人不同部位的局部特征;PGDM(posed guided deep model)[8]利用額外的行人位姿估計(jì)模塊來輔助行人屬性識(shí)別;JRL(joint recurrent learning)[11]引入編解碼框架來處理圖像上下文信息和屬性相關(guān)性;GRL(grouping joint recurrent lear-ning)[12]在JRL基礎(chǔ)上引入人體位姿估計(jì)模塊,進(jìn)一步提高屬性識(shí)別效果;RA(recurrent attention model)[21]利用循環(huán)注意力機(jī)制來挖掘?qū)傩灾g的相關(guān)性;ALM(attribute localization mo-dule)[18]設(shè)計(jì)屬性定位模塊,并將不同層次下的特征進(jìn)行融合,增強(qiáng)上下文信息;DTM(deep template matching)[22]采用輔助監(jiān)督方式,利用行人姿態(tài)關(guān)鍵點(diǎn)來引導(dǎo)定位局部屬性;MLASC(multi-level attention skip connect)[23]采用多級(jí)注意力跳躍連接網(wǎng)絡(luò)來融合網(wǎng)絡(luò)提取的特征,提高識(shí)別性能;MRAN(multi-scale residual attention network)[24]使用特征金字塔策略融合多尺度特征進(jìn)行屬性識(shí)別。

2.3.2 SpAM和TAM效果對(duì)比

本節(jié)對(duì)SpAM和TAM兩種注意力機(jī)制進(jìn)行了探討。 SpAM和TAM是在不同維度上實(shí)現(xiàn)的。簡單來說,SpAM只關(guān)注從空間維度上探索每個(gè)任務(wù)的重要性,而TAM更關(guān)注不同任務(wù)之間的關(guān)系。本文在RAP數(shù)據(jù)集上對(duì)這兩種注意力機(jī)制進(jìn)行了對(duì)比。此外,由于這兩種注意力機(jī)制實(shí)現(xiàn)的維度不同,它們兩個(gè)是可以互補(bǔ)的。本文設(shè)計(jì)了SpAM+TAM+Max和SpAM+TAM+Sum兩個(gè)互補(bǔ)形式,所有實(shí)驗(yàn)使用ResNet50作為主干網(wǎng)絡(luò),歸一化操作使用softmax。實(shí)驗(yàn)結(jié)果如表6所示。

1)SpAM+TAM+Max 這種模式下,兩種注意力網(wǎng)絡(luò)在特征層面上進(jìn)行了融合。在第一個(gè)全連接層上對(duì)SpAM和TAM進(jìn)行融合。對(duì)于每一個(gè)行人屬性,通過在ResNet50最后一個(gè)卷積層后加上兩個(gè)注意力模塊,再接一個(gè)全連接層,即可分別獲得SpAM和TAM的特征向量,最后對(duì)兩個(gè)特征向量進(jìn)行逐元素取最大值的操作。訓(xùn)練過程與TAM一致。

2)SpAM+TAM+Sum 該方式與上一個(gè)方式類似,唯一的區(qū)別是將逐元素取最大值操作變成逐元素相加。

由表6可知,在使用TAM的情況下可以獲得最好的實(shí)驗(yàn)效果。其原因是在使用TAM時(shí),已經(jīng)隱性地對(duì)空間維度進(jìn)行了分析,再加上SpAM不僅會(huì)使神經(jīng)網(wǎng)絡(luò)復(fù)雜化,而且會(huì)降低神經(jīng)網(wǎng)絡(luò)對(duì)不同任務(wù)的感知能力,從而導(dǎo)致識(shí)別性能的下降。

2.3.3 歸一化操作

本節(jié)在RAP數(shù)據(jù)集上對(duì)兩種注意力矩陣歸一化方式進(jìn)行了對(duì)比。一種是利用softmax方式,另一種是向量歸一化(vector normalization,VN)方式。

1)softmax 利用softmax得到第t個(gè)任務(wù)中第i個(gè)位置的注意力權(quán)重ω(TAN)i,t,計(jì)算公式如下:

其中:hti是第t個(gè)屬性任務(wù)第i個(gè)空間位置處原始的注意力得分。

2)向量歸一化 向量歸一化的計(jì)算公式如下:

其中:hti是第t個(gè)屬性任務(wù)第i個(gè)空間位置處原始的注意力得分。

從表7可知,向量歸一化的效果在各項(xiàng)指標(biāo)上較softmax差。分析原因如下:對(duì)于softmax而言,給定一個(gè)向量,輸出的所有元素相加之和為1,且每個(gè)元素的值限制在(0,1);而對(duì)于向量歸一化操作,輸出元素的平方和為1,每個(gè)元素的值可能不是正值;與向量歸一化相比,利用softmax運(yùn)算得到的新的特征值更穩(wěn)定。因此,TAN中的softmax歸一化是一種較好的選擇。

2.3.4 可視化分析

為了研究任務(wù)感知機(jī)制在行人屬性識(shí)別任務(wù)中關(guān)注的特征,了解任務(wù)感知機(jī)制在屬性識(shí)別過程中發(fā)揮著什么樣的作用,利用GradCAM(gradient class activation map)[22]方法對(duì)任務(wù)感知機(jī)制的判別結(jié)果進(jìn)行可視化分析,分別使用模型識(shí)別行人是否有“HandBag”和“Female”屬性,可視化結(jié)果如圖2和3所示。

對(duì)于HandBag屬性,通常只需要關(guān)注行人手部區(qū)域的特征,也就是對(duì)局部區(qū)域進(jìn)行著重關(guān)注,與其他區(qū)域的關(guān)聯(lián)性不大。從圖2可以看出,TAM和SpAM都只關(guān)注了手部區(qū)域的特征,有利于HandBag屬性的識(shí)別。

與HandBag屬性不同,F(xiàn)emale屬性并不是局部區(qū)域特征,而是非局部特征的抽象屬性,需要對(duì)全局特征進(jìn)行綜合性考慮。在這種情況下,SpAM更偏向于大范圍的特征區(qū)域,通過關(guān)注行人穿著來判定Female屬性,而TAM更關(guān)注于局部區(qū)域,如長發(fā)、裙子以及靴子這些局部特征,進(jìn)而進(jìn)行綜合判斷,這相較于SpAM擁有更高的識(shí)別準(zhǔn)確率。

3 結(jié)束語

本文提出了一種基于任務(wù)感知機(jī)制的行人屬性識(shí)別算法。通過對(duì)行人不同屬性在空間上和語義上的關(guān)聯(lián)性分析,對(duì)行人屬性進(jìn)行劃分,并利用提出的任務(wù)感知機(jī)制進(jìn)一步識(shí)別行人不同的細(xì)粒度屬性。本文分析了任務(wù)感知機(jī)制和傳統(tǒng)空間注意力機(jī)制的異同,并通過實(shí)驗(yàn)驗(yàn)證了本文方法的合理性和有效性。在三個(gè)行人屬性數(shù)據(jù)集上,本文方法展現(xiàn)出了出色的性能,相比于其他優(yōu)秀算法,本文方法具有較強(qiáng)的競爭力。

參考文獻(xiàn):

[1]Cao Liangliang,Dikmen M,F(xiàn)u Yu,et al.Gender recognition from body[C]//Proc of the 16th ACM International Conference on Multimedia.New York :ACM Press,2008:725-728.

[2]Joo J,Wang Shuo,Zhu Songchun.Human attribute recognition by rich appearance dictionary[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2013:721-728.

[3]Wang Xiao,Zheng Shaofei,Yang Rui,et al.Pedestrian attribute recognition:a survey[J].Pattern Recognition,2021,121(1):108220.

[4]Sudowe P,Spitzer H,Leibe B.Person attribute recognition with a jointly-trained holistic CNN model[C]//Proc of IEEE International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2015:329-337.

[5]Li Dangwei,Chen Xiaotang,Huang Kaiqi.Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios[C]//Proc of the 3rd IAPR Asian Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2015:111-115.

[6]Zhu Jianqing,Liao Shengcai,Yi Dong,et al.Multi-label CNN based pedestrian attribute learning for soft biometrics[C]//Proc of International Conference on Biometrics.Piscataway,NJ:IEEE Press,2015:535-540.

[7]Yang Luwei,Zhu Ligen,Wei Yichen,et al.Attribute recognition from adaptive parts[EB/OL].(2016-07-05)[2021-08-16].https://arxiv.org/abs/1607.01437.

[8]Li Dangwei,Chen Xiaotang,Zhang Zhang,et al.Pose guided deep mo-del for pedestrian attribute recognition in surveillance scenarios[C]//Proc of IEEE International Conference on Multimedia and Expo.Pisca-taway,NJ:IEEE Press,2018:1-6.

[9]Liu Pengze,Liu Xihui,Yan Junjie,et al.Localization guided learning for pedestrian attribute recognition[EB/OL].(2018-08-28)[2021-08-16].https://arxiv/org/abs/1808.09102.

[10]Zitnick C L,Dollár P.Edge boxes:locating object proposals from edges[C]//Proc of European Conference on Computer Vision.Cham:Springer,2014:391-405.

[11]Wang Jingya,Zhu Xiatian,Gong Shaogang,et al.Attribute recognition by joint recurrent learning of context and correlation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:531-540.

[12]Zhao Xin,Sang Liufang,Ding Guiguang,et al.Grouping attribute re-cognition for pedestrian with joint recurrent learning[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.2018:3177-3183.

[13]Li Qiaozhe,Zhao Xin,He Ran,et al.Visual-semantic graph reasoning for pedestrian attribute recognition[C]//Proc of AAAI Conference on Artificial Intelligence.2019:8634-8641.

[14]Liu Xihui,Zhao Haiyu,Tian Maoqing,et al.HydraPlus-Net:attentive deep features for pedestrian analysis[C]//Proc of IEEE international Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2017:350-359.

[15]Sarafianos N,Xu Xiang,Kakadiaris I A.Deep imbalanced attribute classification using visual attention aggregation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:708-725.

[16]Zhu Feng,Li Hongsheng,Ouyang Wanli,et al.Learning spatial regularization with image-level supervisions for multi-label image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2017:2027-2036.

[17]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.2016:770-778.

[18]Tang Chunfeng,Sheng Lu,Zhang Zhaoxiang,et al.Improving pedestrian attribute recognition with weakly-supervised multi-scale attribute-specific localization[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:4996-5005.

[19]Sun Yifan,Zheng Liang,Yang Yi,et al.Beyond part models:person retrieval with refined part pooling(and a strong convolutional baseline)[C]//Proc of European Conference on Computer Vision.2018:480-496.

[20]Zhang Zhizheng,Lan Cuiling,Zeng Wenjun,et al.Densely semantically aligned person re-identification[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:667-676.

[21]Zhao Xin,Sang Liufang,Ding Guiguang,et al.Recurrent attention model for pedestrian attribute recognition[C]//Proc of AAAI Confe-rence on Artificial Intelligence.2019:9275-9282.

[22]Zhang Jiajun,Ren Pengyuan,Li Jianmin.Deep template matching for pedestrian attribute recognition with the auxiliary supervision of attribute-wise keypoints[EB/OL].(2020-11-13)[2021-08-16].https://arxiv/org/abs/2011.06798.

[23]王林,李聰會(huì).基于多級(jí)注意力跳躍連接網(wǎng)絡(luò)的行人屬性識(shí)別[J].計(jì)算機(jī)工程,2021,47(2):314-320.(Wang Lin,Li Conghui.Pedestrian attribute recognition based on multi-level attention skip connection network[J].Computer Engineering,2021,47(2):314-320.)

[24]張?jiān)衮v,張榮芬,劉宇紅.基于多尺度殘差注意網(wǎng)絡(luò)的輕量級(jí)行人屬性識(shí)別算法[J/OL].控制與決策.(2021-08-02)[2021-08-16].https://doi.org/10.13195/j.kzyjc.2021.0411.(Zhang Zai-teng,Zhang Rongfen,Liu Yuhong.Lightweight pedestrian attribute recognition algorithm based on multiscale residual attention network[J/OL].Control and Decision.(2021-08-02)[2021-08-16].https://doi.org/10.13195/j.kzyjc.2021.0411.)

[25]Sarfraz M S,Schumann A,Wang Yan,et al.Deep view-sensitive pedestrian attribute inference in an end-to-end model[EB/OL].(2017-07-19)[2021-08-16].https://arxiv/org/abs/1707.06089.

主站蜘蛛池模板: 九九热精品视频在线| 青青草原国产免费av观看| 国产99精品视频| 中文字幕波多野不卡一区| 亚洲欧美日韩中文字幕一区二区三区| 亚洲男女在线| 99久久精品免费看国产电影| 亚洲欧洲日产无码AV| 国产熟睡乱子伦视频网站| 国产精品午夜电影| 伊人久久婷婷| 久久成人免费| a级高清毛片| 国产日本欧美在线观看| 在线免费不卡视频| 妇女自拍偷自拍亚洲精品| 国产午夜小视频| 日韩天堂视频| 国产精品自在线拍国产电影| 国产丰满大乳无码免费播放 | 亚洲无码视频喷水| 一本色道久久88亚洲综合| 亚洲免费黄色网| 色综合中文| 亚洲熟妇AV日韩熟妇在线| 成人午夜免费观看| 免费看一级毛片波多结衣| 久久黄色一级视频| 亚洲日韩精品无码专区| 91精品国产自产在线观看| 国产主播一区二区三区| 亚洲大尺码专区影院| 在线免费看黄的网站| 欧美日本二区| 国产黑丝一区| 婷婷激情亚洲| 久久青草热| 国产99免费视频| 国产精品久久久免费视频| 91在线精品麻豆欧美在线| 麻豆精品在线播放| 中文无码毛片又爽又刺激| 国产手机在线ΑⅤ片无码观看| 国产一级二级三级毛片| 国产精品成人不卡在线观看| 国产精品99久久久| 国产一二三区视频| 夜夜操国产| 国产97视频在线观看| 欧美成人午夜影院| 日韩高清中文字幕| 欧美激情综合一区二区| 国产一区免费在线观看| 欧美在线视频不卡| 精品国产91爱| 国产00高中生在线播放| 国产91在线|日本| 最新国产高清在线| 91在线丝袜| 国产精品极品美女自在线看免费一区二区| 日本高清成本人视频一区| 午夜无码一区二区三区| 精品国产香蕉伊思人在线| 青青草原国产一区二区| 亚洲成人高清在线观看| 999精品色在线观看| 久久精品国产999大香线焦| 欧美精品色视频| 免费国产好深啊好涨好硬视频| 国内精品免费| 日韩经典精品无码一区二区| 久草视频中文| 国产69精品久久久久孕妇大杂乱| 中文字幕亚洲乱码熟女1区2区| 一边摸一边做爽的视频17国产| 国产色伊人| 99这里只有精品在线| 秋霞一区二区三区| 日韩激情成人| 欧美日韩综合网| 免费在线播放毛片| 国产91色|