閆昊雷 李小春 秦先祥 付弋頡
(1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院 西安 710077)(2.燕山大學(xué) 秦皇島 066000)
行人重識別是在跨視頻傳感器的條件下,從圖像庫中檢索出特定的行人目標。隨著“智慧城市”的建設(shè)和發(fā)展,以視頻傳感器為前端信息獲取,基于人工智能技術(shù)的行人重識別方法可廣泛應(yīng)用于無人超市、兒童丟失和抓捕逃犯等現(xiàn)實領(lǐng)域中,對維護社會安全和提升人民生活幸福感具有重要應(yīng)用價值。由于傳統(tǒng)手工特征提取方法加入先驗知識,如HOG 算法[1]、Fish 算法[2]和LOMO 算法[3],雖然可從原始圖像的顏色、紋理和形狀等易于被人區(qū)別的特征進行判別,但是模型不能按照原始圖像自身特點自發(fā)尋找最具有代表性的特征。隨著深度學(xué)習(xí)的發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)為代表的特征提取方法使模型自動獲取圖像特征,在實際運用中效果較好,從而受到研究人員的廣泛關(guān)注和青睞。由于現(xiàn)實場景中,不同視頻傳感器因自身像素不同,獲取的行人圖像又受光照、遮擋等外部環(huán)境影響,行人重識別研究仍具有研究價值和應(yīng)用前景。行人圖像特征由全局特征和局部特征構(gòu)成,其分別從整體上和局部上描述圖像最具有價值信息。由于局部特征的匹配和使用對行人重識別算法準確性提升明顯,研究人員重點對局部特征的使用和獲取進行研究。如Sun 等[4]提出PCB 算法,其將行人特征圖分為6 個部分,分別進行計算損失。Luo 等[5]對特征圖分塊后,考慮行人圖像的局部特征對齊問題,引入距離度量使檢索對象和目標在局部上對齊,提升了檢測精度。涂等[6]對深層網(wǎng)絡(luò)得到的局部特征進行融合,但忽略了淺層網(wǎng)絡(luò)提取的圖像細粒度信息。Park 等[7]將單個局部特征和其他局部特征相連接,在多個環(huán)節(jié)計算損失。當前基于局部特征的研究方法局限于使用局部特征向量直接進行計算,未充分考慮使用注意力機制去引導(dǎo)各局部特征去尋找存在的上下文相互關(guān)系,無法進一步找出最能有效表示該局部特征的向量。
本文提出一種基于通道注意力機制引導(dǎo)的局部特征融合方法,該方法通過獲取局部特征各通道間關(guān)系,繼而尋找局部特征之間相互聯(lián)系,獲取一種更能有效表示該局部特征的特征向量。該算法采用難采樣三元組損失函數(shù)[8]和交叉熵損失函數(shù)共同對模型進行訓(xùn)練,使樣本在高維空間中聚類。將該算法在行人重識別公開數(shù)據(jù)集Market1501[9]上進行訓(xùn)練和驗證,并和其他基于局部特征的算法進行對比,實驗結(jié)果表明,該方法在該數(shù)據(jù)集上具有一定的優(yōu)越性。
卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層和全連接層組成。卷積層用于通過卷積核來獲取輸入圖像的特征表示。池化層用于對從卷積層提取出的特征進行壓縮,以獲取更大的感受野和更為全局性的信息。全連接層用于輸出類別。Li 等[10]首先提出基于卷積神經(jīng)網(wǎng)絡(luò)的FPNN 網(wǎng)絡(luò)模型,將其應(yīng)用于行人重識別任務(wù)中,在公開數(shù)據(jù)集上取得良好效果。
注意力模塊可以使網(wǎng)絡(luò)在處理信息中關(guān)注更為重要的關(guān)鍵特征,同時抑制冗余特征表達。主要有包含空間注意力、通道注意力和自注意力[11]。通道注意力模塊通過賦予不同的通道相應(yīng)的權(quán)重,以表示該通道對于模型的貢獻大小。Hu等[12]構(gòu)建了經(jīng)典的SE 通道注意力模塊,其將特征圖在空間維度進行壓縮,以表示通道的重要程度,該方法在目標檢測取得優(yōu)異的效果。
本文算法結(jié)構(gòu)如圖1 所示,首先將輸入圖像通過ResNet50[13]網(wǎng)絡(luò),提取全局特征,將所得特征沿水平方向等份分割為6 個部分,然后進行全局平均池化,獲取穩(wěn)定的空間信息,將所獲各局部特征依次通過注意力引導(dǎo)的局部特征融合模塊,最后使用交叉熵損失和難采樣三元組損失共同對模型進行訓(xùn)練。

圖1 主要網(wǎng)絡(luò)架構(gòu)
ResNet50因其特有的殘差結(jié)構(gòu),使得神經(jīng)網(wǎng)絡(luò)可以向更深處延展,能提取到豐富的深層語義信息,避免傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的梯度消失問題。本文與經(jīng)典ResNet50 網(wǎng)絡(luò)架構(gòu)上有所不同,主要是去除了最后一層的下采樣操作,使網(wǎng)絡(luò)在深層次提取特征時能獲取較大尺度的特征。同時在主干網(wǎng)絡(luò)后使用水平分塊和全局平均池化操作,將模型在空間維度壓縮至一維,在獲取有效的空間信息的同時,便于在通道維度進行變換。假設(shè)該模塊的輸入特征圖為D?RC′×H×W,其中C′、H、W 分別為特征圖D的通道數(shù)、高度和寬度。將其沿水平方向等份分割為6 份,則有,其中i=1…6。然后在空間維度作全局平均池化操作,得Pi?RC′×1×1,其中i=1…6。
為獲取局部特征間相互關(guān)系以便更好地表達局部特征,本文設(shè)計一種基于通道注意力引導(dǎo)的局部特征融合模塊,可實現(xiàn)即插即用的功能。該模塊具體結(jié)構(gòu)如圖2 所示,對局部特征P1?RC′×1×1來說,與剩余局部特征關(guān)系的計算步驟描述如下:首先對剩余局部特征向量求其平均值E?RC′×1×1,計算方法為

圖2 注意力引導(dǎo)的局部特征融合模塊
其中i=2…6,Pi?RC′×1×1。
然后將P1通過卷積層Wy得到特征圖Y?RC×1×1,具體操作為
為進一步壓縮維度,將Y經(jīng)過變換操作得F?RC×1。將E 經(jīng)過通過卷積層WG后,經(jīng)過變換和交換次序操作得到G?R1×C。具體操作為
為獲取局部特征和剩余特征通道間相互關(guān)系,將F和G相乘得到相互關(guān)系圖H?RC×C。具體操作為
為獲取局部特征和剩余特征的雙向表示關(guān)系,將H?RC×C交換次序得到I?RC×C,并將H和I拼接在一起得到J?R2C×C。后在通道維度進行降維,通過卷積層Wk得到K?RC?×C,具體操作為
借鑒殘差網(wǎng)絡(luò)的思想,在保證其進行卷積操作時仍有不低于原始特征的表達效果,將Y?RC×1×1交換次序并壓縮維度可得L?R1×C,將L和K在通道維度連接到一起得到M?R(C?+1)×C,然后通過卷積層WN和交換次序操作得到N?RC×1×1,具體操作為
將原始特征Y?RC×1×1與得到的關(guān)系向量N?RC×1×1相加得到O?RC×1×1,然后通過sigmoid函數(shù),得到P1經(jīng)通道注意力建模所獲取的最終注意力權(quán)重Q?RC×1×1。該注意力模塊主要在通道維度建模,尋找局部特征通道和剩余特征通道的相互關(guān)系,提升特征表達能力。將注意力權(quán)重Q與局部特征P1相乘,即為局部特征P1對應(yīng)的局部關(guān)系特征V1?RC×1×1。同理,其余局部特征P2至P5相互關(guān)系可按照該流程依次獲取。
選取交叉熵函數(shù)和三元組損失函數(shù)共同對模型進行訓(xùn)練。交叉熵函數(shù)用于度量概率分布間的差異性,公式為
式中N 為每個批次中的圖像數(shù)量,yn為其對應(yīng)的真實標簽,為通過輸入特征圖后模型的預(yù)測標簽,公式如下:
其中X 為識別標簽的數(shù)量,為特征qi和X 的全連接網(wǎng)絡(luò)分類器。
難采樣三元組損失函數(shù)公式為
其中NX是每個批次中的標簽數(shù),NM是批次中每個標識標簽的圖像數(shù)量。α是一個邊距參數(shù),用于控制特征空間中正負樣本對之間的距離。用qiA,j表示目標行人樣本,qiP,j表示正樣本,qiN,j表示負樣本,其中i、j對應(yīng)于標識和圖像索引。
多分支網(wǎng)絡(luò)在訓(xùn)練過程中存在干擾現(xiàn)象,本文在損失函數(shù)引入權(quán)重匹配。由于交叉熵損失函數(shù)使用率多于難采樣三元組損失函數(shù),故在調(diào)整權(quán)重時,為降低復(fù)雜度,將Ltri權(quán)重設(shè)置為1,將Lce設(shè)置為λ。
因此,本文算法中損失函數(shù)定義如下:
其中Ltri代表三元組損失函數(shù),Lce表示交叉熵損失函數(shù),λ為超參數(shù)。
本算法采用Pytorch 深度學(xué)習(xí)框架,以英偉達3090顯卡為實驗設(shè)備進行模型的訓(xùn)練和驗證。
在行人重識別公開數(shù)據(jù)集Market1501 上測試本文算法的有效性,并將其性能與其他經(jīng)典方法進行比較。Market1501 數(shù)據(jù)集包含由6 個攝像頭捕獲的1501 個身份的32668 個人物圖,其中包含751個用于訓(xùn)練的身份的12936張圖像和750個用于測試的身份的19732 張圖庫圖像。本次實驗采用mAP 和Rank-1 評價指標,mAP 為平均檢測精度,Rank-1 為返回的圖像集中首個圖像即為所查詢圖像的概率。
本文實驗將所有數(shù)據(jù)集圖像尺寸調(diào)整為384×128,并采用水平鏡像和隨機擦除操作,增強模型的泛化能力和魯棒性。采用動量為0.9,衰減為0.0005的SGD優(yōu)化器。批次大小設(shè)置為64,每次從16 個行人中各隨機挑選出4 張圖片,共訓(xùn)練100輪。初始步長設(shè)置為0.03,每40 輪步長衰減為原先的0.1。
為驗證局部特征分塊數(shù)量對網(wǎng)絡(luò)模型預(yù)測精準度的影響,在本文算法中依次將全局特征分為2、4、6、8、12 塊局部特征進行訓(xùn)練,對模型進行訓(xùn)練并計算所分塊數(shù)對應(yīng)的mAP 和Rank-1 值,以獲取模型對分塊數(shù)量的敏感情況,尋找一個最佳分塊數(shù)量。
根據(jù)實驗方案,將全局特征按照水平分塊分別分為2、4、6、8、12 塊進行分別提取特征,實驗結(jié)果如圖3,Rank-1 值分別為92.2%,93.7%,93.9%,94.7%,94.6%;mAP 值分別為82.4%,85.5%,86.1%,86.4%,85.5%。因此,全局特征在水平等份分割為8 塊局部特征進行融合時實驗效果最好,mAP值和Rank-1分別達到86.4%和94.7%。

圖3 不同分塊的實驗結(jié)果
為進一步檢驗?zāi)P托Ч瑢⑵渌褂镁植刻卣髯R別完成行人重識別的經(jīng)典算法與本文算法進行對比,結(jié)果如表1所示。從表1看出,與其他單純使用局部特征進行計算的方法相比,基于通道注意力引導(dǎo)的局部特征融合方法在Market1501 數(shù)據(jù)集上將mAP 值提升至86.4%,將Rank-1 值提升至94.7%,優(yōu)于其他算法,說明本文算法在行人重識別任務(wù)領(lǐng)域具有較強的適應(yīng)性。

表1 與其他算法結(jié)果對比
本文提出一種基于通道注意力引導(dǎo)的局部特征融合方法,并將其應(yīng)用于行人重識別任務(wù)中,在公開數(shù)據(jù)集Market1501 上取得較好效果。但由于行人圖像受光照、像素和姿態(tài)變換等影響,相關(guān)方法若要應(yīng)用于實際場景還應(yīng)作進一步研究。