任丹萍,董會升,何婷婷,張春華
(1.河北工程大學 信息與電氣工程學院,河北 邯鄲 056038;2.河北工程大學河北省安防信息感知與處理重點實驗室,河北 邯鄲 056038;3.河北工程大學 體育與健康學院,河北 邯鄲 056038)
行人重識別[1]是指從多個目標拍攝到的視頻中查找出特定的人。目前主要的方法是將特征提取與度量學習的方法結合起來對行人重識別模型進行訓練。利用神經網絡結構自動學習復雜的深層圖像特征[2-4]。Wang等[5]提出的DaRe-Net模型在不同層級的網絡中提取行人圖像的特征。Fu等[6]提出水平金字塔解決特征之間的匹配問題,對每個局部特征層面使用雙特征池化的方式得到行人的特征表示。Liao等[7]提出了在主干網絡融合注意力機制的基礎上,進一步提取不同分辨率的特征來獲得行人更有判別力的特征向量。
上述方法雖然在一定程度上提高了行人重識別模型的準確率,但提取的特征容易忽略圖像中不顯著的細節,因此,提出一種聯合歸一化模塊和多分支特征的行人重識別模型,主要工作如下:
(1)在主干網絡的歸一化模塊中融入一層通道注意力引導歸一化模塊對行人特征的提取,減輕行人圖像中的背景等雜波信息帶來的影響;
(2)雙級特征融合模塊包含了局部和全局特征,使用注意力機制對局部特征引導P個可學習的參數進行加權求和,之后再與全局特征共同形成對行人的全面特征表達;
(3)在網絡的優化過程中,使用平滑交叉熵損失、三元組損失以及跨分支特征蒸餾損失共同對網絡進行優化,強化網絡對行人更細節信息的提取;
(4)通過大量實驗分析驗證了模型的有效性,在Market-1501和DukeMTMC-ReID數據集上,驗證了模型具有較好的穩定性和準確率。
為了增加特征圖的分辨率,增強網絡模型提取更有效特征的能力,本文設計了一種基于Res-Net50殘差網絡的聯合歸一化模塊和多分支特征的行人重識別模型INMM(normalization module and multi branch feature),包含了實例歸一化模塊(instance normalization module,INM)和雙級特征融合模塊(two level feature fusion module,TLFFM)。
本文提出的網絡模型架構如圖1所示,為了增加特征圖的分辨率,去掉最后一層的下采樣操作,同時去除全局平均池化和全連接層。由于網絡的前兩層提取的特征信息語義可解釋性低,因此只在網絡的三四層后面嵌入INM模塊。雙級特征融合模塊包含了對行人局部和全局特征的提取,在得到網絡提取到的特征圖之后,將特征圖在水平方向分成P個水平的特征空間,對每一塊水平的特征空間都使用全局平局池化來生成P個局部特征向量,由于行人圖像不同的身體部位之間的重要性也不同,因此使用局部注意力機制引導P個可學習的特征參數對局部特征進行加權求和,加權后的局部特征向量和全局特征向量聯合形成對行人特征充分的信息表達。在網絡的優化過程中,聯合使用平滑交叉熵損失(cross entropy loss,CE Loss)、三元組損失(triplet loss)以及跨分支特征蒸餾損失(cross branch characteristic distillation loss,CBCD Loss)共同對網絡進行更新,3種損失函數優勢互補,使網絡朝著提取更有效圖像特征的方向優化。

圖1 網絡架構
為了緩解不同圖像的背景、光照等信息的差異,將INM模塊分別嵌入到主干網絡的第三層和第四層之后,INM模塊如圖2所示。將網絡提取的行人特征圖Z∈Rh×w×c作為INM模塊的輸入,其中h、w和c分別表示特征圖的高度、寬度和維數。同時為了防止直接使用IN層對行人信息的提取造成影響,提出使用通道注意力機制引導IN層對行人的特征信息進行提取。實例歸一化模塊如式(1)所示

圖2 INM實例歸一化
(1)

受到通道注意力機制[8]的啟發,使用通道注意力對不同通道的特征進行自適應的加權,讓網絡在訓練過程中自適應的去提取更具有判別力的特征,同時也避免了硬性的對特征使用IN層編碼帶來的影響。通道注意力機制如式(2)所示
mC=σ(W2δ(W1g(Z)))
(2)

特征圖的每一層通道的特征歸一化如式(3)所示
(3)
其中,Zk表示特征圖Z的通道維度中第k層的特征,參數ε是用來避免運算的過程中除數為0的情況,文中參數ε取值為0.0001,E[·]用來計算特征圖第k個維度的平均值,Var[·]用來計算特征圖第k個維度的標準差。
經過實例歸一化模塊后的特征,會更加關注圖像中行人的前景信息,有利于緩解圖像中雜波等信息帶來的特征誤差,使網絡提取圖像中更細節更有判別力的特征信息。
大多數行人重識別關注的信息側重于對圖像構造全局特征的約束,將全局特征作為行人最終信息的表示,然而由于行人姿態,光照和遮擋等信息的影響,僅使用全局特征并不能很好形成對圖像細節特征的完整表達,因此提出將全局特征和加權后的局部特征融入到雙級特征融合模塊中來形成對行人圖像更全面更細節的表達。雙級特征融合模型如圖3所示,由于行人不同部位的重要性也不同,因此在局部特征中提出局部注意力機制引導P個可變參數來細化局部的聚合特征,其中P表示局部特征的塊數,局部特征的計算流程如式(4)所示

圖3 雙級特征融合模型
(4)

為了得到更有判別力的局部聚合特征向量,提出局部注意力機制引導經過歸一化后的P個可學習的參數對不同的局部特征進行加權求和,加權參數使用w=(w1,…,wP)T來進行表示,聚合加權后的局部特征如式(5)和式(6)所示
(5)
(6)

然而僅結合權重的局部特征向量不能充分利用全局視角下的特征信息,不能形成對行人特征的全面表達,為了形成對行人特征的全面表達,增強圖像信息的可判別性,將加權后的局部聚合特征向量與經過全局平均池化后的全局特征向量結合起來,將行人圖像的特征映射到一個更有區分性的特征空間,行人的最終特征如式(7)所示
(7)
為了增強網絡提取行人圖像更細節特征的能力,提高模型的識別率,使用平滑交叉熵損失、三元組損失以及跨分支特征蒸餾損失策略進行訓練。

(8)
(9)
(10)
其中,N代表每批行人的圖像個數,C代表每個身份的行人個數,fi代表圖像的特征向量,其真實標簽為yi,W代表權重向量,b是偏置值,ε表示標簽平滑參數,參數大小取值為0.0001。


(11)
其中,P表示在同一批訓練數據中有P個不同身份的行人圖像,K表示在同一批訓練數據中每一個身份的行人有K個實例,α表示正樣本和負樣本的間隔距離,文中取α=0.3。

特征相似性損失如式(12)所示
(12)

特征差異性損失如式(13)所示
(13)

網絡的總損失函數為
LSUM=LCE+LTriplet+LS+LC
(14)
本文算法基于Pytorch框架進行開發,實驗使用的計算平臺是Ubuntu16.04操作系統,硬件配置如下:GPU為NVIDIA GeForce GTX 3090、內存大小為64 GB。訓練批次大小為32,每一批次中P設置為8,K設置為4總共迭代次數為150,使用Adam優化器優化模型參數。在訓練的過程中,引入了REA[10]的訓練技巧對行人圖像進行隨機遮擋,設置對圖像隨機擦除的概率為0.5,擦除部分的面積比為0.025

圖4 隨機遮擋
在目前比較常用的數據集Market-1501[11]和DukeMTMC-ReID[12]上對提出的行人重識別模型進行了相應的實驗,驗證了所提模型的有效性。詳細信息見表1。

表1 數據集屬性信息
在兩個數據集上采用目前行人重識別方法的兩種評價指標,首位準確率(Rank-1)和平均匹配度(mAP)。Rank-1和mAP的定義參見文獻[13]。
本節將提出的INMM模型在現有使用廣泛的數據集上與現在近些年來主流的Re-ID算法進行對比和分析。對比結果見表2。

表2 與其它方法對比
從表2中可以看出,本文提出INMM模型在Market-1501數據集上的首位準確率達到了95.7%,平均準確率達到了88.1%,在DukeMTMC-ReID數據集上的首位準確率達到了89.2%,平均準確率達到了79.5%。本文所提方法在兩個數據集上的mAP和Rank-1相比于其它方法均有明顯提升,其中IDE模型使用的網絡中沒有對圖像的特征進行歸一化同時也沒有結合圖像的全局和局部特征,因此準確率沒有文中提出的模型高。PCB+RPP模型僅僅使用了局部特征對行人進行特征的表示,并沒有結合全局特征,因此準確率也不如INMM模型。雖然ABD-Net模型在Market-1501數據集上mAP的指標比INMM高了0.1%,但是rank1指標以及DukeMTMC-ReID上的指標都不如INMM高,并且ABD-Net模型在求解SVDO梯度的時候使用了自動微分法,這個過程的計算量特別巨大。因此本文所提出的模型對行人重識別任務的性能提升是有效的。
為了更直觀展示出本文所提模型的先進性,隨機在查詢集中取了4類行人圖像,分別包含行人步行、行人騎車、行人遮擋以及圖像模糊。圖5所示為行人結果查詢示意圖,其中上一行是本文模型所對應的查詢結果,下一行為ResNet50網絡所對應的查詢結果,圖像上方無黑色三角表示查詢集中的正確結果,圖像上方有黑色三角表示查詢集中的錯誤結果。可以很直觀看出,本文模型相對于基線模型在4類行人圖像查詢結果中,均取得了更好的效果,提高了行人重識別模型的準確率。本文模型在INM模塊和TLFFM模塊的相互作用下可以提取更細節更全面的行人特征。

圖5 查詢結果
3.5.1 不同模塊的影響
為了驗證本模型不同模塊的有效性,在INM模塊和TLFFM模塊之間進行模型的消融實驗。消融實驗的對應熱力圖如圖6所示,其中圖像淺色區域越大說明該區域對特征的提取越重要。在查詢集中隨機挑選4張行人圖像,其中圖(a)對應的是行人原圖,圖(b)對應的是基線模型的熱力激活圖,圖(c)對應的是加入INM模塊中對應的熱力激活圖,圖(d)對應的是加入INM模塊和TLFFM模型后對應的熱力激活圖。在加入INM模塊后,激活的行人圖像區域更大,這是因為INM模塊歸一化之后在圖像的特征層面降低了背景等雜波因素的干擾,在這個基礎上再加入TLFFM模塊,行人激活區域進一步加深,這是因為TLFFM模塊根據注意力機制的參數讓模型自適應的關注了全局特征和局部特征,二者形成了對行人圖像特征的充分表達。

圖6 行人可視化熱力圖
模塊消融實驗對應的結果見表3,在依次加入INM模塊和TLFFM模塊后行人圖像部位激活區域更多,因此在實驗對應的結果中,Rank-1和mAP也是依次增加的,消融實驗結果表明的INM和TLFFM模塊的有效性,二者相互作用增強了行人重識別模型的識別率。

表3 模型消融實驗
3.5.2 損失函數的影響
文中的損失函數共包含了3種,分別是平滑交叉熵損失、三元組損失以及跨分支特征蒸餾損失。為了驗證損失函數的有效性,在3個損失函數上設計了消融實驗,交叉熵損失僅僅考慮了高維特征的分類面,并沒有考慮特征之間的絕對距離,因此效果不如加入三元組之后的效果好,跨分支特征蒸餾損失將全局特征的語義信息傳遞到了局部特征,因此3個損失函數相互作用,增強了模型對圖像特征信息的提取能力。損失函數實驗的結果見表4。

表4 損失函數實驗
為確定局部特征分支中的超參數P的取值,在Market-1501和DukeMTMC-ReID數據集上對一定范圍內P的取值進行相應的驗證與分析。不同超參數的準確率如圖7所示,在數據集Market-1501和DukeMTMC-ReID中,Rank-1和mAP都是在P取值為6的時候達到最高,這是因為當P取值太小時,局部特征的語義信息細節程度會降低,當P取值太大時,局部特征的語義可解釋性會大幅降低。當P取值為6的時候,模型的識別率最高,因此文中P取值為6。

圖7 P參數分析
如何提取出圖像細節特征一直是行人重識別研究中重要的問題,為此,提出一種聯合歸一化模塊和多分支特征的行人重識別模型,在網絡模型中,通過被注意力機制引導的歸一化模塊提取前景特征信息,并對局部特征使用可變參數進行加權求和,最后與全局特征共同提取圖像中的判別性特征。在兩個數據集上進行實驗驗證,開展可視化實驗、消融實驗以及與其它先進算法對比實驗,驗證了所提算法的有效性。在未來的工作中,將嘗試使用輕量化模型展開研究。