基于雙域自注意力機制的行人屬性識別

2021-03-07 05:16:08凱1

計算機應用 2021年2期

吳銳，劉宇，馮凱1，

（1.武漢郵電科學研究院，武漢 430074；2.南京烽火星空通信發展有限公司，南京 210019）

（*通信作者電子郵箱WuRui_sh@163.com）

0 引言

行人屬性識別任務的目標是識別圖片中的行人所包含的屬性，便于以結構化信息數據描述目標行人。在絕大多數的應用場景下，該任務被看作是對行人的所有屬性標簽進行二分類的多標簽分類任務。該任務面臨的主要挑戰之一是屬性識別所需的特征通常是局部的細粒度特征和行人的整體特征的結合，因為在低分辨率圖像中一些需要識別的細粒度局部屬性（如眼鏡屬性等）在行人圖像中所占的面積往往非常小，需要通過細粒度特征才能識別出該屬性是否存在；而某些抽象屬性（如行人朝向屬性等）則需要通過行人的整體特征來判斷。因此為了能夠更準確地識別出是否存在某個屬性，顯著性的局部特征和良好的整體特征都至關重要。同時，行人的某些屬性的特征在空間上具有依賴性，在語義上通常是存在相互關聯關系（如性別屬性和短裙屬性），可以利用這種關系提高屬性間的識別效果。

本文利用深度神經網路，提出了一種基于由空間自注意力和通道自注意力機制組成的雙域自注意力機制的行人屬性識別模型，通過空間自注意力提取更可分辨屬性的局部特征和捕獲空間特征間的依賴性，這有利于屬性識別的非局部相關特征；然后，使用通道注意力提取通道間語義的相關性，從而提升一些具有關聯性的屬性的識別效果。而且，本文將注意力特征和整體特征進行融合，可以使本文模型更好地識別不同粒度的屬性。另外，本文采用加權損失函數和添加批歸一化（Batch Normalization，BN）層的雙重機制，緩解了數據樣本不平衡所導致的少樣本屬性識別準確率低的問題。實驗結果表明，本文所提出的模型可以有效地提升屬性識別準確率。

1 相關研究

1.1 行人屬性識別

傳統的特征提取通常是基于手工設計特征提取方法。手工設計特征的方法通常是通過提取圖像中的方向梯度直方圖（Histogram of Oriented Gradient，HOG）特征［1］或統計顏色直方圖［2］的形式作為圖像的表征，需要針對應用任務的不同設計不同的濾波器或提取策略。近年來，深度學習在利用多層非線性變換進行自動特征提取方面取得了成功，特別是在計算機視覺、語音識別和自然語言處理等領域，取得了令人矚目的成績。Sudowe 等［3］提出的ACN（Attributes Convolutional Net）模型使用AlexNet網絡對特征提取，對每個屬性設置一個分類器的方式實現屬性識別。Abdulnabi等［4］將行人屬性當作多任務識別工作，提出的多任務卷積神經網絡（Multi-Task Convolutional Neural Network，MTCNN）模型在共享特征池的基礎上設立了多個任務，每個任務對應一個屬性的識別工作。以上方法只提取了行人圖像的整體特征，而行人屬性識別可以看成一種細粒度的多標簽分類任務，屬性局部的特征顯著性與識別的效果正相關。增強局部特征顯著性可以通過分割行人圖片提取局部特征的方式，如：文獻［5-7］等先提取出行人各個軀干部位的局部特征，使用局部特征和局部特征間的依賴進行局部屬性識別；文獻［8］中將行人圖像水平切割成多個區域，對每個區域特征進行編碼-解碼，從而使局部的特征更顯著化，更有利于局部屬性的識別。另一種方式則是利用注意力機制，通過特征對識別屬性的重要性分配權重。典型方法有首次將注意力機制應用于屬性識別任務的空間正則化網絡（Spatial Regularization Network，SRN）［9］，提出多向注意力機制的Hydraplus-Net［10］，以及融合了局部特征方式和注意力機制方式的JVRKD（Join Visual-semantic Reasoning and Knowledge Distillation）［11］等。

1.2 注意力機制

在計算機視覺任務中，特征之間存在相互依賴關系，而卷積操作只是一種局部區域的操作，為了獲得局部區域之外的特征，需要通過卷積層的堆疊以增大深層神經元的感受野，這會導致卷積神經網絡設計的難度增加，從而導致基于該網絡進行特征提取的模型的復雜度增加。受圖片濾波領域的非局部均值去噪濾波算法［12］的思想的啟發，Wang等［13］提出了Non-Local 網絡用于對視頻分類。文獻［14］中則結合Transformer［15］和Non-Local 的思想，提出自注意力機制解決非局部特征依賴的問題。在圖像分類和行人重識別任務中，文獻［16］和文獻［17］中也分別使用了自注意力機制。但文獻［14-16］中的方法只針對特征的空間域提取依賴關系，沒有使用通道間的關聯性信息，而通道信息往往與語義的相關性較大，從文獻［17］的分類效果中也得到了證明。因此，融合空間域注意力和通道域注意力的混合域注意力方法［18-20］應運而生。

2 本文模型

2.1 總體架構

本文模型的整體架構如圖1 所示，在ResNet50［21］的基礎上加入了用于行人屬性識別任務的模塊。

圖1 本文模型的整體架構Fig.1 Overall architecture of the proposed method

首先，在基礎特征提取階段，使用ResNet50 的conv1、conv2_x、conv3_x、conv4_x（x 表示該層子序列的統稱）模塊作為特征提取網絡，所提到的特征隨后經過一個通道自注意力模塊（Channel Self-Attention Model，CSAM），該模塊的主要作用是整合提取到的中層特征，抑制非必要的特征，顯著化利于行人屬性識別的中層特征。

然后，網絡被拆分為整體特征提取和注意力特征提取的雙分支網絡。雙分支網絡都使用ResNet50 的conv5_x 模塊作為高層語義特征提取模塊，且提取到的特征都分別通過全連接（Full Connection，FC）層進行降維至1× 1024 維，減少模型參數量以降低過擬合的風險。主要區別在于：

1）注意力特征提取分支主要偏向于提取具有關聯性特征和更有利于屬性識別的局部性特征。該分支主要由降維模塊和注意力模塊組成：降維模塊包括2 個1× 1 卷積層（分別位于conv5_x 和注意力模塊之間和注意力模塊和全局池化模塊之間）和1 個全連接層（位于該分支的輸出端）；注意力模塊包括空間自注意力模塊（Spatial Self-Attention Model，SSAM）和CSAM（詳見2.2節）。SSAM 能夠捕捉和顯著化到空間中具有關聯性的特征，CSAM 則捕捉具有通道抽象語義的局部特征，將兩種注意力特征融合，優勢互補，更有利于對具有關聯性和局部細粒度性的行人屬性進行識別。

2）整體特征提取分支主要偏向于對行人整體的特征進行提取。與ResNet50 的結構相似，該分支由conv5_x 模塊提取得到14 × 14 × 2 048 維的特征直接使用全局平均池化（Global Average Pooling，GAP）的方式，從而使該分支提取到的特征包含行人的整體信息特征。

最后，將行人整體特征和注意力特征通過向量拼接（Concatenate，CAT）進行融合，經過BN 層對屬性樣本進行平衡化處理，再使用全連接層作為分類器，實現對行人屬性的多標簽分類。

2.2 自注意力模塊

2.2.1 空間自注意力模塊

空間自注意力模塊的結構如圖2 所示，首先將上一層得到的特征圖X∈RC×H×W分別送入3 個卷積模塊得到特征圖三元組(Q，K，V) ∈RC×H×W，將Q和K進行維度壓縮成RC×N的矩陣（N=H×W），經過轉置相乘即可求得特征圖間的相關矩陣特征S∈RN×N，經過Softmax權值對S的每個元素si，j歸一化后，得到注意力系數矩陣Z∈RN×N，Z中的每個元素zj，i（式（1））代表區域j受元素i的影響程度。將Z和V乘積后的特征與輸入特征X融合后得到空間注意力特征Y∈RC×H×W。

通過系數矩陣Z與維度壓縮后的特征圖V進行矩陣乘積得到注意力特征A∈RC×N，將A擴維重塑得到注意力特征圖B∈RC×H×W。接著，在空間自注意力模塊的最后階段，利用一個可學習的參數λ融合注意力特征B∈RC×H×W和輸入特征X∈RC×H×W，得到空間自注意力模塊的最終輸出Y∈RC×H×W，即

參照文獻［12］的設定，在模型的開始訓練階段，參數λ的初始值設置為0；隨著模型訓練過程的進行，參數λ逐漸學習合適的值以更好地融合B和X。

圖2 空間自注意力模塊結構Fig.2 Spatial self-attention module structure

2.2.2 通道自注意力模塊

通道自注意力模塊（如圖3）的建模方式與空間注意力思想相似，輸入特征X∈RC×H×W，將X進行維度壓縮得到E，F，G∈RC×N，E和F轉置相乘得到T∈RC×C，接著利用Softmax得到通道注意力系數矩陣U，但與空間注意力不同，得到的系數矩陣只關注通道間的影響程度，因此U∈RC×C。在通道自注意力模塊中，生成E、F、G的過程中并沒有經過卷積操作，從而能更好地保留通道圖間的關系。

由U和G得到注意力特征圖M∈RC×H×W。M再經過可學習的參數θ與原始輸入X加權求和，得到通道域最終的輸出O∈RC×H×W。

圖3 通道自注意力模塊結構Fig.3 Channel self-attention module structure

2.3 屬性樣本平衡

無論是PETA 還是RAP 數據集，都存在比較嚴重的屬性樣本不平衡的情況，這使模型在訓練階段的權重調整更偏向于包含多樣本的屬性，從而出現包含多樣本的屬性識別準確率高，而少樣本屬性識別準確率較低的現象。對多樣本進行前采樣和少樣本過采樣是圖像多分類任務中常用的手段，但這并不適用于行人屬性識別任務。因為在圖像多分類任務中，對圖像的標注通常是單標簽，可以通過控制單個標簽的數量平衡樣本；但行人屬性分類任務是一張圖片對應一個包含多個標簽值的長向量，不可以對標簽向量中的某個標簽單獨進行數量控制，因此無法使用過采樣或欠采樣的方法控制樣本平衡。

針對樣本不平衡的問題，如式（5）所示，本文采用對損失函數進行加權的策略，讓少樣本的屬性在訓練過程中施加更大的影響。

其中：N表示數據集的樣本數；wl表示根據設計的策略對第l個屬性的加權權重；yil表示行人xi的第l個屬性的真實標簽，存在為1，否則為0；σ為超參數，本文中設定為表示行人xi的第l個屬性的預測概率。計算式如下：

此外，本文還在模型的特征提取后添加了一個批歸一化（BN）層，通過BN 層參數的學習，進一步降低了樣本不平衡的影響。通過對比實驗證明（詳見3.2 節），加權損失策略的加入，可以使基準模型在PETA 和RAP 數據集上的平均準確率（mean Accuracy，mA）值分別提高2.02 個百分點和1.94 個百分點，這表明通過加權損失的方式平衡樣本可以使單個屬性的識別準確率有所提升。BN 層的加入也可以使模型識別效果有小幅度地提升，mA 值分別提升了0.42 個百分點和0.26個百分點。

3 數據和實驗設置

3.1 數據集和評價指標

為了測試本文模型的有效性，在兩大公開的數據集PETA和RAP上進行訓練和測試。

1）PETA 數據集［22］由從10 個小規模行人數據集收集的19 000張人圖像組成。整個數據集被隨機分為三個不重疊的部分：9 500個用于訓練，1 900個用于驗證，7 600個用于測試。由于屬性樣本不平衡現象的存在，一般選取35 個屬性標注中樣本比例大于5%的屬性用于評測，35個屬性如表1所示。

表1 PETA數據集的35個屬性Tab.1 Thirty-five attributes of PETA dataset

2）RAP數據集［23］包含來自26個室內監控攝像頭的41 585 張圖像，每個圖像都有69 個二進制屬性和3 個多類屬性。根據官方協議，整個數據集被分割成33 268 張訓練圖像和8 317 張測試圖像，對其中的51 個二值屬性進行了識別性能評價，51個屬性如表2所示。

量化對比的評價指標使用通用的基于標簽（Label-based）的平均準確率（mean Accuracy，mA）指標和基于實例（Example-based）的準確率（Accuracy，Acc）指標、精確率（Precision，Prec）指標、召回率（Recall，Rec）指標以及F1 值指標23］。

3.2 對比實驗

本文做了兩組實驗對比：實驗一對比了基準網絡ResNet50和本文所提出的各個模塊在兩個數據集測試集上的指標效果；實驗二則是將本文模型與當前的一些行人屬性識別模型的量化評價指標結果進行對比。

3.2.1 實驗相關設置

在本次實驗中，輸入到模型的圖像大小為224 × 224，在將圖像輸入到網絡之前，所有圖像都通過減去平均值和除以每個顏色通道的標準差進行標準化。數據擴增上，只在訓練過程中采用了隨機翻轉隨機旋轉的數據增強方法，測試時不使用任何的變換。為了獲得更多的特征信息，所有的實驗的基礎網絡ResNet50 均使用了ImageNet［24］訓練的權重作為初始權重，且均去除了ResNet conv5_x的下采樣操作，即conv5_x的輸出特征圖大小為14×14。優化網絡的優化器采用隨機梯度下降（Stochastic Gradient Descent，SGD），其中動量（Momentum）和權值衰減（Weight decay）參數分別設為0.9 和0.000 5。初始學習率為0.001，在Pytorch 框架下使用ReduceLROnPlateau 類以驗證集損失作為標準調整學習率衰減，衰減系數為0.1。

表2 RAP數據集的51個屬性Tab.2 Fifty-one attributes of RAP dataset

3.2.2 方法有效性實驗

在本組實驗中，本文通過在基準網絡ResNet50 上分別依次添加權損失策略（wl）、BN 層和雙域自注意力模塊（Twodomain Self-attention Module，TSM），對比驗證每個方法對屬性識別的增益程度。在PETA 和RAP 數據集上的實驗結果如表3 所示，表中加粗的內容表示該指標下的最好結果，下劃線表示排在第二的結果。

表3 PETA和RAP數據集上各模塊有效性對比單位：%Tab.3 Effectiveness comparison of different modules on PETA and RAP dataset unit：%

由表3 可以看出，對損失函數根據樣本數量的權重進行加權（+wl）后，在兩個數據集上，mA指標分別比基準模型提高了1.57 個百分點和1.94 個百分點；加入BN 層（+wl+BN）也可以使模型的識別效果有小幅度的增益（mA指標增益幅度分別為0.42個百分點和0.26個百分點）；在添加了BN層模型的基礎上加入本文所提出的空間自注意力模塊和通道自注意力模塊，在兩個數據集中可以使每個評價指標值都有所提升，mA指標分別提升了1.92 個百分點和1.85 個百分點，Acc 則有3.12個百分點和2.21個百分點的增幅。

總的來說，本文模型相較基準模型ResNet50，在PETA 和RAP 數據集上mA 指標分別提升了3.91 個百分點和4.05 個百分點，Acc 指標分別提升了3.92 個百分點和1.6 個百分點。在圖4中，通過對比基準模型ResNet50和本文模型在PETA數據集的35 個屬性和RAP 數據集的51 個屬性分別的識別準確率，可以看出本文模型對絕大部分屬性的識別效果都有所提升，特別是對基準模型識別準確率低的屬性提升比較明顯，而這部分屬性通常是數據集中的少樣本屬性。其中，圖4 的縱坐標表示識別的準確率，橫坐標表示屬性的編號，該編號與表1和表2的屬性編號分別對應。

圖4 基準模型和本文模型在PETA和RAP上各屬性的識別準確率Fig.4 Recognition accuracy for different attributes by baseline and proposed models on PETA and RAP

3.2.3 與其他模型的對比

該實驗對比了一些基于PETA 和RAP 數據集訓練和測試的模型方法，主要有PGDM（Posed Guided Deep Model）［5］，VSGR（Visual-Semantic Graph Reasoning net）［7］、HPNet（Hydra Plus Net）［10］、DeepMAR（Deep Multi-Attribute Recognization model）［25］、LGNet（Location Guided Network）［26］、MPAR（Multistage Pedestrian Attribute Recognition method）［27］、RCRA（Recurrent Convolutional and Recurrent Attention model）［28］和IA2Net（Image-Attribute reciprocally guided Attention Network）［29］。其中DeepMAR 只提取行人的全局特征，PGDM 和LGNet通過行人局部區域網絡提取行人不同部位的局部特征，RCRA 和IA2Net將注意力機制運用在網絡模型之中，MPAR 通過階段訓練和優化損失的方式對基準模型進行了更改。

通過與現有的行人屬性識別模型作對比得出，本文模型在幾項評價指標上的效果都非常具有競爭力，綜合性能優于其他行人屬性識別模型，具體如表4、5 所示，其中“—”表示該模型對應的文獻中沒有給出具體數據，粗體和下劃線的意義與實驗一設定相同。

3.3 注意力特征圖可視化分析

為了觀察空間自注意力模塊和通道自注意力模塊在識別行人屬性時所主要關注的特征，了解每個自注意力模塊對屬性識別過程中起到什么作用，利用Grad-CAM（Gradient Class Activation Map）［30］方法對兩個模塊的輸出的特征圖的類別激活圖進行可視化，如圖5 所示，分別是使用模型識別行人是否有“HandBag”屬性和“Female”屬性，圖中第一列Input 表示輸入到網絡中的圖片，第二列CSAM 表示通道自注意力模塊輸出特征的類別激活圖，第三列SSAM 表示空間自注意力模塊輸出特征的類別激活圖。

表4 PETA上不同模型效果對比單位：%Tab.4 Effect comparison of different models on PETA unit：%

表5 RAP上不同模型效果對比單位：%Tab.5 Effect comparison of different models on RAP unit：%

圖5 識別HandBag和Female屬性注意力模塊的類別激活圖Fig.5 Class activation maps of attention module to recognizing HandBag and Female attributes

對于HandBag 屬性，通常只需要關注行人手部區域的特征即可判定是否存在該屬性，與其他區域特征相關性不大。因此在圖5（a）中，空間注意力和通道注意力都只關注了局部的特征。將兩者特征融合可以使局部特征更顯著，更利于HandBag屬性的識別。

如圖5（b）所示，與只需要關注局部區域的HandBag 屬性不同，Female屬性是非局部性質的抽象屬性，往往需要結合多個語義特征來判定。在這種情況下，通道自注意力機制的關注區域處于行人頭發和裙擺的局部區域，即關注長發語義特征和裙子語義特征，其中行人頭發區域獲得的關注度比裙擺區域獲得的關注度更高；而空間自注意力機制所關注的區域更偏向于大范圍的特征區域，即更偏向于通過行人服飾等特征判定是否是“女性”屬性。通過將空間自注意力模塊和通道自注意力模塊提取到的特征進行融合，可以使兩者進行優勢互補，提高屬性的識別準確度。

通過觀察自注意力模塊的可視化結果可以得出：1）對于只需要局部特征且與其他區域語義關聯性弱的細粒度屬性，空間自注意力模塊和通道自注意力模塊關注的特征都集中在該屬性的局部區域，融合兩個模塊提取到的特征可以使局部特征更顯著化；2）對于需要借助其他語義特征信息才能識別出的屬性，空間自注意力模塊關注的特征是大范圍的、與屬性空間關聯性強的特征，通道自注意力模塊關注的特征是局部的、與屬性語義關聯性強的特征，融合兩個模塊提取到的特征可以優勢互補，獲得更好的識別效果。

4 結語

針對行人屬性識別任務中不同屬性對特征粒度和特征依賴性需求不同的問題，本文提出了使用空間自注意力機制提取空間的依賴性特征，使用通道自注意力機制提取通道間特征的語義相關性信息，并將融合后的自注意力特征與行人的整體特征進一步融合，以滿足不同粒度屬性的特征需求，從而得到更好的屬性識別效果。實驗結果顯示，本文模型在PETA和RAP 兩大行人屬性數據集中都可以提升屬性的識別效果。不過由于空間自注意力是對特征圖像素級的權重分配，需要計算每個像素間的相關性，導致該模塊計算量較大，本文模型也為此只將其用于特征圖尺寸較小的深層特征中；同樣地，通道自注意力也需要計算每個通道間特征的相關性，計算量也比較大。因此，未來的研究可以圍繞降低空間自注意力機制和通道自注意力機制的計算量上展開。