劉 潤(rùn),汪淑娟
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
近年來(lái),行人重識(shí)別(Person Re-identification,Re-ID)因在視頻監(jiān)控、身份驗(yàn)證、人機(jī)交互等計(jì)算機(jī)視覺(jué)應(yīng)用中的重要作用而受到研究者們的廣泛關(guān)注。行人重識(shí)別的主要目標(biāo)是確定一個(gè)給定的人是否出現(xiàn)在一個(gè)攝像機(jī)網(wǎng)絡(luò)上,從技術(shù)上講需要對(duì)目標(biāo)行人的全局外貌特征建立一個(gè)穩(wěn)健的模型。由于背景、照明條件、身體姿勢(shì)以及拍攝對(duì)象方向的變化都會(huì)導(dǎo)致照片中的行人外觀出現(xiàn)顯著變化,因此行人重識(shí)別任務(wù)具有一定的挑戰(zhàn)性。行人重識(shí)別模型構(gòu)建的主要目標(biāo)是生成任意輸入圖像的豐富特征表示,從而進(jìn)行行人的匹配。
深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)外觀變化和空間位置變化具有魯棒性,在提取行人圖片的全局特征時(shí)不會(huì)被這類(lèi)變化過(guò)多影響。由于全局特征提取容易忽略識(shí)別特定人物表示時(shí)的詳細(xì)和潛在相關(guān)信息,為了加強(qiáng)細(xì)節(jié)特征的學(xué)習(xí),引入注意力機(jī)制和平均分塊方法[1-3]。具體來(lái)說(shuō),注意力機(jī)制降低了網(wǎng)絡(luò)提取特征時(shí)背景噪聲的影響,并專(zhuān)注于行人的相關(guān)特征。而基于部分的模型將特征圖劃分為空間水平部分,從而允許網(wǎng)絡(luò)專(zhuān)注于細(xì)粒度和局部特征。盡管注意力機(jī)制和基于部分的網(wǎng)絡(luò)模型在重識(shí)別任務(wù)中均提升了性能,但這些方法并沒(méi)有挖掘更豐富和多樣化的行人特征。深度學(xué)習(xí)模型顯示出一種有偏倚的學(xué)習(xí)行為,檢索的是有助于減少所見(jiàn)類(lèi)的訓(xùn)練損失的部分屬性概念,而不是學(xué)習(xí)全面的細(xì)節(jié)和概念[4-6]。深層網(wǎng)絡(luò)傾向于關(guān)注表面的統(tǒng)計(jì)規(guī)律,而不是更一般的抽象概念,即網(wǎng)絡(luò)需要具有提取更豐富和多樣化特征表示的能力。
針對(duì)以上問(wèn)題,本文提出了基于多分支的魯棒性特征挖掘網(wǎng)絡(luò),包括全局分支、局部分支以及輸入擦除分支。輸入的圖片在擦除分支中會(huì)被刪除部分特征,然后將部分刪除的特征圖輸入到后續(xù)的網(wǎng)絡(luò)中,來(lái)讓網(wǎng)絡(luò)挖掘更多樣化的特征作為輸出。與此同時(shí),將注意力模塊加入到局部分支與全局分支中,以此讓網(wǎng)絡(luò)學(xué)習(xí)更魯棒的特征。
所提出的方法模型包括3 個(gè)分支,分別是全局分支、局部分支、輸入擦除分支。在各分支中加入注意力模塊,總體框架如圖1 所示。

圖1 整體框架
全局分支對(duì)應(yīng)于一個(gè)標(biāo)準(zhǔn)的CNN 骨干網(wǎng)絡(luò),如ResNet50。本文的主干網(wǎng)絡(luò)由B個(gè)卷積塊組成,當(dāng)圖片經(jīng)過(guò)第i個(gè)卷積塊Bi時(shí),輸出的特征表示為Yi。將一個(gè)全局最大池化(步長(zhǎng)設(shè)為1)加到最后一個(gè)卷積塊后獲得一個(gè)輸出向量fg,該向量為一個(gè)人的整體特征表示。
相關(guān)研究表明,CNN 傾向于關(guān)注圖像中最具鑒別性的部分。在行人再識(shí)別的背景下,網(wǎng)絡(luò)可能不會(huì)挖掘某些身體部位或衣服紋理等弱顯著性特征。針對(duì)此問(wèn)題,在骨干網(wǎng)絡(luò)中增加新的分支,從圖像中挖掘更多樣化的特征。具體來(lái)說(shuō),將擦除模塊添加到初始主干來(lái)獲得擦除分支。在任意一個(gè)卷積塊Bi之后都可以添加擦除操作來(lái)獲得新的特征圖并作為后面卷積塊的輸入,擦除操作如圖2 所示。

圖2 擦除操作



雖然擦除分支幫助網(wǎng)絡(luò)挖掘更多樣化的特征,但這些新的分支著重獲取行人的整體特征。為了幫助網(wǎng)絡(luò)挖掘更精細(xì)的特性,本文增加了一個(gè)局部分支。該分支位于卷積塊B3之后,由卷積塊B4l組成,與B4具有相同的層結(jié)構(gòu)。訓(xùn)練時(shí)不同分支之間不會(huì)共享權(quán)值,這樣可以讓網(wǎng)絡(luò)挖掘不同的具有鑒別性的魯棒特征。如圖3 所示,局部分支輸出特征映射時(shí),將特征映射按通道平均劃分為4 個(gè)水平特征,這4 個(gè)水平特征經(jīng)過(guò)全局平均池化層獲得4 個(gè)局部特征向量,最后通過(guò)將4 個(gè)局部向量拼接起來(lái)獲取行人的局部特征向量fl。

圖3 局部特征分支
注意力模塊通常用于各種深度學(xué)習(xí)應(yīng)用任務(wù),如語(yǔ)義分割、目標(biāo)檢測(cè)等,在行人重識(shí)別的模型中可以顯著提高模型檢索更多相關(guān)特征的能力。為了強(qiáng)調(diào)注意模塊在本方法中的有效性,設(shè)計(jì)了一個(gè)由空間注意模塊(Spartial Attention Module,SAM)和通道注意模塊(CAM,Channel Attention Moudle)組成的簡(jiǎn)單注意模塊。特征映射Yi先由SAM 處理,然后由CAM 處理,得到的特征記為Att(Yi)=CAM[SAM(Yi)]。SAM 在空間域內(nèi)捕獲和聚集行人最相關(guān)的鑒別性特征,其運(yùn)算流程如圖4 所示[11]。

圖4 SAM 運(yùn)算流程




圖5 CAM 運(yùn)算流程
對(duì)空間注意力模塊輸出的特征SAM(Yi)應(yīng)用卷積層獲得大小為的特征圖,然后通過(guò)第二個(gè)卷積層獲得H×W×C的特征圖,對(duì)此特征圖應(yīng)用Softmax 激活并逐元素乘以SAM(Yi)得到最終結(jié)果為CAM[SAM(Yi)]。
經(jīng)過(guò)上述操作,每一個(gè)分支最終獲得對(duì)應(yīng)輸出的特征向量fBr。對(duì)每個(gè)特征向量應(yīng)用相同的損失,包括帶有標(biāo)簽平滑的ID 損失LBrID和軟三元組損失總損失為:

定義ID 損失為:

式中:N表示樣本個(gè)數(shù),為身份i的預(yù)測(cè)概率,qi為身份i的平滑標(biāo)簽。qi的作用是防止模型過(guò)擬合,其定義為:

式中:y為行人的硬標(biāo)簽,ε為精度參數(shù)(本文設(shè)置為0.1)。在預(yù)測(cè)ID 概率的線性層之前,對(duì)特征向量fBr應(yīng)用BNNeck 策略,即將經(jīng)過(guò)網(wǎng)絡(luò)提取的特征向量fBr用來(lái)做三元組損失,然后該特征向量再經(jīng)過(guò)BN(Batch Normalization)層之后送入線性層做交叉熵?fù)p失[13-14]。

式中:P表示每批行人ID 的數(shù)量,K表示每個(gè)ID的樣本數(shù)量,表示樣本i的第k張圖片,表示對(duì)應(yīng)分支的行人預(yù)測(cè)特征表示對(duì)應(yīng)行人身份圖片的正樣本特征向量表示對(duì)應(yīng)行人圖片的負(fù)樣本特征向量。
使用深度學(xué)習(xí)框架Pytorch 和64 位的Ubuntu18.04 操作系統(tǒng)進(jìn)行算法訓(xùn)練,圖像尺度大小統(tǒng)一調(diào)整為256×128 像素,采用ADM 優(yōu)化器來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的更新。實(shí)驗(yàn)中batch size 設(shè)置為32,每個(gè)batch size 包含8 個(gè)行人,每個(gè)行人包含4 個(gè)樣本。在訓(xùn)練過(guò)程中,訓(xùn)練網(wǎng)絡(luò)需要120 個(gè)epochs。在0 ~10 epoch 中,使用預(yù)熱學(xué)習(xí)策略調(diào)整學(xué)習(xí)率;從第11 個(gè)epoch 開(kāi)始,學(xué)習(xí)率保持不變,持續(xù)到第40 個(gè)epoch;在第41 個(gè)epoch,學(xué)習(xí)率衰減10%,然后保持不變并持續(xù)到第70 個(gè)epoch;在第71 個(gè)epoch,學(xué)習(xí)率再次衰減10%,并保持不變直到第120 個(gè)epoch。
為驗(yàn)證本文算法的有效性,使用4 個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集對(duì)本文算法性能進(jìn)行測(cè)試,分別為兩個(gè)普通行人數(shù)據(jù)集Market-1501[7]和DukeMTMCreID[8]以及兩個(gè)遮擋數(shù)據(jù)集Occluded-DukeMTMC[9]和Occluded-ReID[10]。Market-1501 包含1 501 個(gè)行人的32 668 張圖像,這些圖像由6 個(gè)非重疊相機(jī)拍攝得到。在該數(shù)據(jù)集中,訓(xùn)練集包含751 個(gè)行人的12 936 張圖像,測(cè)試集包含750 個(gè)行人的19 732張圖像。DukeMTMC-reID 包含1 404 個(gè)行人的36 411張圖像,這些圖像由8個(gè)非重疊攝像頭拍攝得到。在該數(shù)據(jù)集中,訓(xùn)練集包含702 名行人的16 522 張圖像,測(cè)試集包含剩下702 名行人的19 889 張圖像。Occluded-dukemtmc 源自DukeMTMC-reID,專(zhuān)為遮擋行人重識(shí)別而構(gòu)建,每張圖像都包含遮擋物,由8 個(gè)非重疊相機(jī)拍攝得到。在該數(shù)據(jù)集中,訓(xùn)練集包含702 個(gè)行人的15 618 張圖像,測(cè)試集包含另外519 名行人的19 871 張圖像。Occluded-ReID 中包含200 位被遮擋行人的2 000 幅圖像,每個(gè)行人身份有5 張完整圖像和5 張嚴(yán)重被遮擋的圖像,這些圖像由移動(dòng)攝像機(jī)拍攝得到。
在實(shí)驗(yàn)中使用Market-1501 作為訓(xùn)練集,Occluded-ReID 作為測(cè)試集。采用累積匹配特征(Cumulative Matching Characteristic,CMC) 中 的Rank-1 和平均精度(mean Average Precision,mAP)作為評(píng)價(jià)識(shí)別性能的指標(biāo)。累積匹配特性曲線中的Rank-n是指在搜索結(jié)果中n張圖片的正確率,例如Rank-1 是第一位檢索正確的概率,Rank-5 則是前5 張圖像中檢索正確的概率。
將本文所提方法與只有全局分支的方法在兩個(gè)完整行人數(shù)據(jù)集和兩個(gè)遮擋行人數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如表1 所示。

表1 不同方法在不同數(shù)據(jù)集上的性能
從表1 中可以看出,本文所提方法在4 個(gè)數(shù)據(jù)集上的Rank-1 和mAP 與只有全局分支的方法相比均有明顯的提升。通過(guò)設(shè)計(jì)擦除模塊使得網(wǎng)絡(luò)可以提取更魯棒的特征,并且利用多分支彌補(bǔ)了信息的缺失。
使用Baseline,P,OS,ATT 定義全局分支、局部分支、擦除分支以及注意力模塊,“Baseline+P”表示加入局部分支的雙分支網(wǎng)絡(luò),“Baseline+P+OS”表示在“Baseline+P”的基礎(chǔ)上加入擦除分支,“Baseline+P+OS+ATT”表示在“Baseline+P+OS”的基礎(chǔ)上加入注意力模塊。為了驗(yàn)證所提方法的有效性,在遮擋數(shù)據(jù)集Occluded-dukemtmc 上對(duì)其進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2 所示。
由表2 可知,骨干網(wǎng)絡(luò)加入局部分支后的性能要優(yōu)于只有全局分支的性能。全局分支可以學(xué)習(xí)到顯著特征,而局部分支可以學(xué)習(xí)到細(xì)粒度特征,在此基礎(chǔ)上加入擦除模塊后獲得擦除分支來(lái)進(jìn)一步約束網(wǎng)絡(luò)挖掘魯棒性的弱顯著性特征,實(shí)現(xiàn)更好的特征映射。加入注意力模塊后,網(wǎng)絡(luò)學(xué)習(xí)到的特征更加魯棒,對(duì)全局分支、局部分支以及擦除分支起到了加強(qiáng)的作用,進(jìn)一步提升了識(shí)別性能。

表2 消融實(shí)驗(yàn)結(jié)果
基于多分支的魯棒性特征挖掘網(wǎng)絡(luò)由相互補(bǔ)充的分支組成,分別是提取行人一般特征的全局分支、對(duì)細(xì)粒度特征進(jìn)行挖掘的局部分支以及進(jìn)一步挖掘更豐富與多樣化的鑒別性特征的擦除分支。具體來(lái)說(shuō),在主干分支中加入擦除操作獲得擦除分支,這些分支將部分擦除的特征映射作為輸入來(lái)挖掘被主干分支忽略的鑒別性特征。通過(guò)在4 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn),證明了所提方法在行人重識(shí)別任務(wù)上的有效性,值得借鑒。