劉紫燕,萬培佩
(貴州大學 大數據與信息工程學院,貴陽550025)
(*通信作者電子郵箱Leizy@sina.com)
在計算機視覺領域,行人重識別通常被視為圖像檢索問題,即從不同的相機中匹配行人,從非重疊攝像機視角下的行人圖像庫中找到與該行人是同一個行人的圖像。由于不同攝像機場景、視角、光照等因素的影響,會導致行人姿態多樣,行人圖像分辨率不高以及行人遮擋等問題,給行人重識別研究帶來非常大挑戰。早期的行人重識別研究主要集中于如何手工設計更好的視覺特征和如何學習更好的相似度度量。近幾年隨著深度學習的發展,深度學習技術在行人重識別上得到了廣泛的應用。和傳統方法不同,深度學習方法可以自動提取行人圖像特征,因此如何提取行人的顯著性特征成為行人重識別精度提高的關鍵。
行人重識別方法主要分為:基于特征表示的方法和基于度量學習的方法[1-2]。基于特征表示方法主要是學習一個具有魯棒性的深度網絡提取特征[3];基于度量學習的方法主要通過將行人圖像映射到另一個空間,使同一個行人的距離小于不同行人距離[4],能夠達到重識別的效果。
近幾年,隨著深度學習的發展,基于深度學習的行人重識別提取的特征比手工提取的特征具有更高的辨識能力。文獻[5]中提出了一個新穎網絡模型,比較兩幅圖像經過卷積后提取到的特征區域的相似特征,并對圖像中的相似區域的差異進行特征學習和相似性度量,提升特征的鑒別能力。文獻[6]中提出用卷積神經網絡進行圖像空域重建,得到與輸入圖像尺寸一致的空域特征圖,不需要特征對齊過程,算法借鑒字典學習中重建誤差來計算不同的空域特征圖的相似度。文獻[7]中提出了一個PCB(Part-based Convolutional Baseline)分塊模型,使用RPP(Refined Part Pooling)網絡使每個相似的塊對齊。因為RPP網絡屬于后續處理操作,所以該網絡模型不能使用端到端的方式進行訓練。除此之外單一固定的局部尺寸劃分也并不能充分地提取出有效的局部信息。文獻[8]中用一種互補的注意力機制用于學習一組融合特征——全局和局部特征,用于最大化它們的互補優勢并且能夠兼具好的分辨性以及結構簡便的特點。以上這些方法僅利用行人的全局特征和部分局部特征,當檢測目標存在關鍵部分信息缺失的情況時,這些特征并不能提供良好的辨別能力。而本文所述的注意力機制網絡可以在行人某些關鍵信息缺失情況下,通過增強圖像空間像素特征的權重,提取行人顯著特征,提高行人重識別的精度。
本文提出一種基于注意力機制的行人重識別網絡,該網絡以ResNet50 網絡為基礎,融合注意力機制,構建行人重識別網絡模型。通過ResNet50 網絡提取行人特征,再結合注意力機制來增強圖像空間像素特征,然后融合這兩種特征從而得到行人的顯著屬性特征,進一步提升行人重識別的識別精度。此外本文還將隨機擦除應用到行人圖像預處理中,通過圖像隨機擦除方法來添加圖像噪聲,使網絡的魯棒性得到提高;在實際環境中,通過隨機擦除能夠生成不同樣式的圖片,可以彌補行人圖像數據欠缺,緩解網絡過擬合問題。
如圖1 所示,本文的網絡模型是由骨干網絡、注意力網絡和全連接層構建的整個行人重識別網絡架構。骨干網絡采用ResNet50 網絡作為基礎網絡,通過ResNet50 網絡前兩層layer1 層和layer2 層提取行人淺層特征;注意力機制網絡分為主干分支和旁干分支,將骨干網絡提取的行人淺層特征輸入到注意力網絡兩分支中,融合兩部分特征,得到行人特征,通過結合兩階段注意力機制網絡提取的特征,融合得到行人顯著特征,將提取的特征通過全連接層進行分類識別。

圖1 行人重識別網絡模型Fig. 1 Pedestrian re-identification network model
在深度學習中,為了避免網絡出現過擬合問題,提高網絡的泛化能力,需要充足的訓練樣本。而在現實環境中,由于各種原因導致數據量欠缺,因此需要進行數據增強操作,以增加數據集。傳統的數據增強方式有裁剪,翻轉以及添加噪聲等方式,這些方式能夠增加訓練集來提高網絡的泛化能力。隨著深度學習中網絡深度不斷加深,傳統的數據增強方式無法滿足各類場景需求,而在行人重識別的應用場景中,由于攝像機場景、角度以及光照等因素給行人重識別帶來影響,學習的深度網絡不能很好地識別行人圖像。本文采用隨機擦除法對數據進行預處理,增加數據集的數量來更好地訓練網絡,提高網絡泛化能力,有利于深度網絡提取更為顯著的特征。該算法過程如下:
1)設置隨機擦除概率。假設圖片隨機擦除的概率為P,則圖片不擦除概率1-P。隨機選擇圖像中的矩形區域Ie,并將矩形區域賦值隨機像素點。
圖像區域的面積:

其中:W為圖像的寬,H為圖像的高。
2)設置隨機擦除矩形區域的參數。擦除矩形的面積Se=rand(sl,sh)×S,其中sl、sh是人工設置的最小值和最大值,通過隨機擦除矩形的高和寬:

其中re為擦除矩形的高寬比,通過隨機產生。初始化得到Se。
3)在圖像中隨機產生一個點Q(xe,ye),滿足下列條件:

其 中:xe為Q的 橫 坐 標,ye為Q的 縱 坐 標,W為 圖 像 的 寬,(xe,ye,xe+We,ye+He)是選定的隨機擦除區域。
4)給擦除區域賦值隨機[0,255]像素,并輸出預處理圖像。
視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像,獲得需要重點關注的目標區域,也就是一般所說的注意力焦點,而后對這一區域投入更多注意力資源,以獲取更多所需要關注目標的細節信息,而抑制其他無用信息。當前一些研究也將注意力機制應用于行人重識別中,大多數方法結合局部特征信息和全局信息融合的注意力機制。文獻[8]提出了一種多任務學習模型共同學習硬區域級和空間特征級注意力產生更多有辨別力的特征表示來提高識別精度;文獻[9]提出使用行人姿勢信息來學習注意力掩模件作為行人局部特征信息,然后結合全局和局部特征融合得到最終行人特征。本文所述注意力機制方法與當前所作的注意力機制有所不同,當前更多的注意力機制提取某個局部特征并結合全局特征來提高行人重識別精度,而本文所述方法主要通過增強圖像全局空間像素特征信息,提高行人重識別精度,同時能夠抑制無用的特征信息,增強網絡魯棒性。圖2為注意力機制的網絡框架。該網絡由主干分支和旁干分支兩部分組成,用來提取深度特征。首先通過預訓練網絡ResNet50的前兩層網絡提取行人淺層屬性信息,對其進行最大池化操作,增強圖像的感受野,有助于為后面注意力網絡的特征提取。圖片的特征信息通過主干分支一系列的卷積操作,提取行人特征,而旁干分支通過一系列的下采樣操作,逐漸提取高層特征并增大模型的感受野,再通過相同數量的上采樣操作將特征的尺寸放大到原來輸入特征的尺寸,得到分支行人特征。最后將兩部分特征進行融合得到:

其中:M(x)是注意力機制網絡旁干分支特征,F(x)是主干分支特征,H(x)融合得到的行人顯著特征。M(x)的最后輸出激活函數是Sigmoid函數,輸出范圍為(0,1),使用該函數目的為了前后兩層的提取的特征帶來太大的差異和擾動,同時能夠進一步地抑制不重要的信息。當M(x)為零時,只有F(x)行人特征提取,這樣不會導致整個網絡的特征屬性提取造成較大損失,還能優化整個網絡,提取顯著特征,從而最后融合得到最終行人特征。
對兩部分特征融合的過程中,旁干分支特征相當于對主干分支特征中每個像素加權,能夠增強主干特征的顯著性,抑制無意義的特征從而得到行人顯著特征。
本次實驗使用損失函數是交叉熵損失函數[10],能夠學習到更具判別力的特征。
交叉熵損失通過行人重識別網絡最后分類softmax函數輸出預測行人類別概率與標簽目標概率進行損失評估,公式如下:

其中:k∈{1,2,…,K}表示行人重識別網絡輸出行人類別,K為訓練集行人類別數量,通過行人重識別網絡輸出p(k)代表輸入圖像屬于k類的預測概率,q(k)代表真實概率。
通過最小化總訓練目標L1來訓練整個基于注意力機制的行人重識別網絡,通過歐氏距離來計算查詢圖與圖片庫圖像的相似性,并以概率從大到小的方式進行排序,最后得到重識別的精度。
本文使用的實驗平臺在Ubuntu16.04 系統、Intel I5 處理器、16 GB 內存以及GeForce GTX 1070 顯卡的硬件環境下,使用微調的預訓練ResNet50 網絡分別在兩大行人重識別數據集Market1501[11]和DukeMTMC-reID[12]上進行實驗。
Market1501 數據集是大學校園內收集的大規模行人重識別數據集,它包括19 732 個行人圖像,3 368 個查詢圖像和12 936 個從6 個不同攝像機收集的訓練圖像。訓練集有751 個身份,測試集有750 個身份不重疊。本研究使用全部12 936個檢測到的圖像來訓練網絡。
DukeMTMC-reID 數據集包含由8 個高分辨率相機拍攝的1 812個身份共計36 411個圖像。該數據集由702個身份共有16 522 個圖像組成訓練集,其他702 個身份的2 228 個查詢圖像和17 661個行人圖像庫圖像組成測試集。
本文使用兩個評價標準來評價所有數據集上的行人重識別方法性能。
第一個評價標準是累積匹配特征(Cumulative Matching Characteristic,CMC)曲線[10],它表示了在前k個匹配結果中找到正確的匹配項的概率值。如果Rank-k的識別率為P,它表示正確的目標對象在排名結果的前k名的概率是P。通常,在評價算法的行人識別率時,考慮Rank1 到Rank20。假設給定一個含有M個行人樣本的查詢集Q和N個行人的圖像庫O,特征向量分別為Q=[X1,X2,…,XM]和O=[Y1,Y2,…,YN],將兩部分特征進行余弦相似性比較,得到前n個候選集余弦距離最小的排名列表,通過排名列表映射到圖像庫得到行人ID序號T=(t1,t2,…,tn),則CMC曲線可以根據下列公式得出:

第二個評價標準是平均精度均值(mean Average Precision,mAP),它是平均精度(Average Precision,AP)的均值,可以把行人重識別看作一個目標檢索問題,使用mAP 來度量。AP和mAP公式如下:

其中:r表示檢索圖像的序號;p(r)表示第r序號圖像的比例;a(r)當r與待識別圖像匹配時為1,否則為0;m表示與待識別圖像匹配圖像的個數。

其中Q表示待識別圖像的個數。
首先將數據集進行隨機擦除處理,實驗中將擦除的概率設置為不同值,同時將圖片的尺寸轉換為224 像素×224 像素大小,訓練時設置圖片的bachsize 是32,epoch 為60。實驗中通過設定不同的隨機擦除概率來檢驗行人重識別的精度。圖3(a)為在Market1501 和DukeMTMC-reID 數據集上不同隨機擦除的概率對Rank1的影響,可以看出當隨機擦除概率為0.5時,Rank1 達 到 最 優 值。 圖3(b)為 在Market1501 和DukeMTMC-reID 數據集上不同隨機擦除的概率對mAP 的影響,可以看出當隨機擦除概率為0.5時,mAP達到最優值。

圖3 隨機擦除概率對Rank1和mAP的影響Fig. 3 Effect of random erasure probability on Rank1 and mAP
本文將使用平均精度均值(mAP)和累積匹配特征兩個指標來衡量實驗得到模型的性能,Rank-k和mAP 值越大,說明重識別的準確度越高。
從表1 中看出將隨機擦出數據增強和注意力機制網絡應用到基礎的ResNet50 深度網絡中,精度提高較為明顯。其中L1 表示隨機擦除數據增強,L2 表示注意力機制。對于Market1501,通過基礎網絡ResNet50 添加隨機擦除數據增強的行人重識別方式精度有一定的提升,而基礎網絡ResNet50添加注意力機制網絡的實驗結果也有較大提升,其中Rank1提升4 個百分點,mAP 提升3 個百分點。通過對基礎網絡ResNet50網絡將隨機擦除和注意力機制網絡同時結合效果提升更為明顯,其中Rank1 相較基礎網絡提升6 個百分點,mAP提升5個百分點左右。
對于DuKeMTMC-reID,將基礎網絡ResNet50 網絡結合隨機擦除和注意力機制可以得出Rank1 提升了12 個百分點左右,mAP提升了11個百分點左右。
通過對比實驗可以得出隨機擦除和注意力機制網絡對行人重識別精度都有提升作用。

表1 Market1501和DukeMTMC-reID數據集下不同網絡分支的實驗結果 單位:%Tab. 1 Experimental results of different network branches on Market1501 and DukeMTMC-reID datasets unit:%
表2、3 顯示了本文的方法(Ours)與非深度學習行人重識別方法[11,13]和其他深度學習網絡方法[14-17]在兩個數據集上的結果進行比較,可得本研究采用的方法可以獲得較好的效果。
在Market1501 數據集上,比TriNet[16]網絡的深度學習方法Rank1高5個百分點左右;基于注意力機制的網絡中AACN網絡[9]比本研究的注意力機制網絡在Rank1 低3 個百分點左右,在mAP 精度比本研究低4 個百分點左右;而在HAC 注意力機制精度比本研究在Rank1和mAP 略高1個百分點左右。
在DukeMTMC-reID 數據集上,在Rank1 上比傳統的行人重識別方法LOMO+XQDA[13]和Bow+kissme[11]高40 個百分點左右,比生成對抗網絡(Generative Adversarial Network,GAN)[17]高10 個百分點左右,比SVDnet[15]網絡略 高 出1 個百分點 左右;而Rank1 和mAP 相對于基礎網絡ResNet50 有很大的提升,特別是mAP有11%左右的提升,通過重新排序Re-Rank[18]方法有更大程度提升。基于注意力機制的網絡中AACN 網絡[9]比本研究的注意力機制網絡在Rank1低1個百分點左右,在mAP 精度比本研究低1 個百分點左右;而在HAC 注意力機制精度比本研究在Rank1和mAP 略高1個百分點左右。
綜上所述,隨機擦除的方式進行數據增強和注意力機制網絡結合的深度學習網絡能夠提取行人的顯著特征,提高行人重識別的精度。
如圖4,第一列為待識別的行人,右側由左至右為相似度分數最高的10幅圖片,即Rank-10,該識別結果中只有第一行的圖像中排序第10位行人類別識別錯誤。

表2 Market1501數據集不同方法實驗結果比較 單位:%Tab. 2 Comparison of experimental results of different methods on dataset Market1501 unit:%

圖4 Market501和DukeMTMC-reID兩大數據集上重識別的Rank10結果示例Fig. 4 Rank10 re-identification result examples on datasets Market501 and DukeMTMC-reID

表3 DukeMTMC-reID數據集不同方法實驗結果比較單位:%Tab. 3 Comparison of experimental results of different methods on dataset DukeMTMC-reID unit:%
針對現實環境下行人重識別場景多變、光照、攝像機角度不同等問題,導致行人數據量不足,圖片像素模糊,使得行人重識別精度不高,本文采用一種數據增強的方法,將行人圖片以一定的概率進行擦除,從而生成同一個行人的不同圖片,提高網絡的魯棒性;然后設計了一種注意力機制網絡,將預訓練的深度網絡和注意力網絡結合,提取更加顯著的特征,因此能夠提高行人重識別的精度。在兩個大型的行人重識別數據集Market1501 和DukeMTMC-reID 上實驗結果表明,行人重識別性能都有明顯提升,超過很多方法。如何找到更好的方法提取更加顯著特征以及在更多的數據集上進一步提升行人重識別的精度將是下一步工作。