任雪娜,張冬明,包秀國,李冰
(1.中國科學院信息工程研究所,北京 100093;2.中國科學院大學網(wǎng)絡空間安全學院,北京 100093;3.國家計算機網(wǎng)絡應急技術處理協(xié)調(diào)中心,北京 100029;4.北京航空航天大學自動化學院,北京 100191)
行人再識別(Re-ID,re-identification)也稱行人重識別,是指利用計算機視覺技術在不同監(jiān)控設備采集的大規(guī)模圖像或者視頻中搜索目標行人的技術。隨著深度學習神經(jīng)網(wǎng)絡在圖像識別和計算機視覺領域的廣泛成功應用,行人再識別取得了快速的發(fā)展,作為視頻監(jiān)控研究領域的關鍵組成部分,近幾年逐漸成為研究熱點,受到廣泛的關注[1-2]。它可以彌補固定攝像頭的視覺局限,并可與行人檢測[3]、行人跟蹤技術[4]相結合,應用于視頻監(jiān)控、智能安防、智慧城市等領域。研究基于深度學習的行人重識別的相關技術具有非常重要的理論意義和應用前景。
當前,Re-ID 方法在公開的基準數(shù)據(jù)集上的準確率基本達到了90%以上,但是在面對復雜多變的實際場景時,模型性能會急劇下降。這是由于實際的應用場景中,行人可能受到不同程度的遮擋,遮擋物可能是物體,例如汽車、樹木等,也可能是其他行人。這些遮擋導致Re-ID 性能降低。當然,還有影響Re-ID 的其他因素,包括拍攝姿態(tài)和視角、光照,以及采集視頻的清晰度、分辨率等。當采集數(shù)據(jù)時間跨度較長時,Re-ID 還可能面臨服裝變化的巨大挑戰(zhàn)。因此,研究能適應復雜場景的行人識別方法是當前的主要趨勢,也是行人再識別面臨的主要挑戰(zhàn)[5-7]。本文重點研究行人識別中的遮擋問題,即遮擋行人再識別。
遮擋行人再識別用遮擋的圖像作為查詢對象,在不同攝像頭下采集的數(shù)據(jù)中查找相同身份的行人。待查找數(shù)據(jù)中既有全身圖像又有遮擋圖像。如前所述,由于遮擋的隨機性,全身行人再識別的有效算法在遮擋數(shù)據(jù)集上性能會嚴重下降,有必要研究可統(tǒng)一處理全身和遮擋的行人再識別框架及算法。
本文針對遮擋行人再識別中特征不對齊問題,提出了一種利用注意力對齊語義特征的算法。該算法利用注意力機制學習行人的全局特征和帶有語義信息的局部特征,并根據(jù)局部特征的可見性約束特征的訓練和匹配,抑制遮擋區(qū)域影響,進而實現(xiàn)圖像對之間的共有特征的語義對齊匹配,可統(tǒng)一實現(xiàn)全身和遮擋的行人再識別。
本文主要的研究工作如下。
1) 語義引導網(wǎng)絡。利用行人掩膜作為監(jiān)督信息,以注意力的形式增加對非遮擋區(qū)域的關注,設計全局語義引導和局部語義引導結構,抑制遮擋和背景因素的影響。網(wǎng)絡訓練中,利用頭部、上半身、下半身以及腳部的監(jiān)督信息得到對應部分的可見性,根據(jù)可見性動態(tài)地訓練模型。相比已有語義引導工作,本文將對人體語義模型嵌入網(wǎng)絡中,構成端到端網(wǎng)絡,僅在訓練階段使用外部語義模型結果作為監(jiān)督信息,在推理階段則不再依賴外部模型。
2) 局部特征對齊。局部語義特征分為頭部、上半身、下半身和腳部,分別設計對應的注意力結構,并用對應的頭部、上半身、下半身、腳部的掩膜作監(jiān)督。通過局部注意力得到帶有語義信息的局部特征,實現(xiàn)特征的語義對齊。在損失函數(shù)設計中,利用人體結構中頭部、上半身、下半身以及腳部在全身中的占比分配不同的權重損失約束。
3) 基于可見性的相似度計算。利用局部語義引導學到的掩膜計算局部特征的可見性,選擇待檢索圖像和底庫圖像中同時出現(xiàn)的特征,采用局部到局部的匹配策略得到圖像間的匹配度。
實驗結果表明,本文提出的方法不僅在全身數(shù)據(jù)集Market1501[8]和DukeMTMC-reID[4,9]上保持了較高的識別準確率,更重要的是能夠有效應對遮擋問題,在復雜的遮擋數(shù)據(jù)集Occluded-DukeMTMC[10]和P-DukeMTMC-reID[11]上的性能優(yōu)于其他先進算法。實驗結果驗證了本文算法可統(tǒng)一實現(xiàn)全身和遮擋的行人再識別。
基于深度學習的行人再識別方法近年取得了較大的進展。行人再識別方法大致可分為特征提取方法和基于距離度量學習的方法兩類。特征提取方法核心是找到能夠很好表現(xiàn)行人的表觀特征的模型,而基于距離度量學習的方法關注的是找到有效度量行人特征相似度的準則。以下主要針對特征提取方法進行闡述。
特征提取方法的重點在于設計穩(wěn)健可靠的行人圖像特征表示模型,提高模型的泛化能力和穩(wěn)健性,降低模型對各種影響因素的敏感度。特征提取方法又分為全局特征提取和局部特征提取。
全局特征提取利用卷積網(wǎng)絡對整幅圖像提取特征圖,對特征圖通過一個全局池化得到一個特征向量。利用全局特征進行行人識別通常會建模為分類和驗證 2 種模型。PersonNet(person re-identification with deep convolutional neural network)[12]構建驗證模型學習輸入圖像對的融合特征,并判斷是否為同一個行人。MuDeep(multi-scale deep learning model)[13]利用分類子網(wǎng)絡和驗證子網(wǎng)絡分別學習單幅圖像的全局特征和2 幅圖像的一個融合特征來進行類別的預測。全局特征因進行全局池化會丟失空間信息,此外,由于全局特征提取主要關注某一個身體區(qū)域,因此在著裝相似場景下學習不到判別性的特征。針對全身數(shù)據(jù)的學習方式會因數(shù)據(jù)上的遮擋部分使學到的特征帶有噪聲,從而導致匹配錯誤。而實際行人數(shù)據(jù)非常復雜,單獨使用全局特征不能滿足性能要求,因此,局部特征提取逐漸成為當前主流的研究方法。
局部特征提取方法通過人工或者自動方法讓網(wǎng)絡關注顯著的局部區(qū)域,然后提取這些區(qū)域的局部特征。常用的提取局部特征的方式主要有圖像切塊[14-16]、先驗知識(如姿態(tài))估計關鍵點定位、人體語義分割、行人前景分割等[17-18]。局部特征提取方式能從一定程度上減輕遮擋部分的影響,但簡單的均勻分塊的方法仍需要預先人工剪切人體區(qū)域,而姿態(tài)估計等又嚴重依賴外部模型的性能。
針對遮擋行人識別問題,當前研究工作主要集中于表征學習能力提升和不同特征匹配兩方面。這些研究方法大致可以分為三類。
1) 遮擋預處理方法。這類方法首先對遮擋圖像進行人工裁剪或者網(wǎng)絡分割,去掉遮擋區(qū)域,只留下可見的部分行人區(qū)域;然后用部分行人圖像進行檢索。例如,DSR(deep spatial feature reconstruction)[19]和SFR(spatial feature reconstruction)[20]處理的圖像先進入全卷積網(wǎng)絡(FCN,fully convolution network)進行分割,再利用整個庫中的圖像對查詢圖像的像素特征進行稀疏重建,在DSR 的基礎上進行提升,通過FCN 生成多尺度特征以處理特征圖的尺度問題。STNRe-ID(spatial transformer networks Re-ID)利用孿生網(wǎng)絡輸入一對圖像對,圖像對由同一身份的全身圖像和部分圖像組成,利用STN(spatial transformer network)學習仿射變換得到仿射圖像,使仿射圖像逼近部分可見的圖像。這類方法并不是真正的遮擋行人識別方法,對遮擋部分的處理會消耗較多的時間與人力成本。
2) 局部-全身特征匹配方法。AFPB(attention framework of person body)[11]和 T-S(teacherstudent)[21]通過顯著性掩膜學習遮擋圖像中的顯著特征與全身圖像特征匹配,該方法不需要裁剪及分割的操作,比直接利用被遮擋的圖像特征更容易找到相似圖像。然而,局部-全局的匹配策略很明顯會引起特征的不對齊問題。
3) 局部-局部特征匹配方法。Zheng 等[22]提出了一種基于字典學習的AMC(ambiguity-sensitive matching classifier),并引入滑動窗口匹配(SWM,sliding window matching)解決全局局部匹配的問題。VPM(visibility-aware part model)[23]通過自我監(jiān)督學習感知可見區(qū)域,從而避免遮擋區(qū)域的噪聲影響。在測試過程中,給定待比較的2 幅圖像,VPM 首先計算它們共享區(qū)域之間的局部距離,然后得出總體距離。PVPM(pose-guided visible part matching)[24]、PGFA(pose-guided feature alignment)[10]和高階信息[25]利用人體姿態(tài)估計得到人體的關鍵點信息,從而利用語義信息塊進行局部特征塊之間的對齊。
DSR、SFR、VPM 以及AMC 都需要預先人工裁剪遮擋部分區(qū)域,只保留可見區(qū)域。姿態(tài)估計[10]、人體語義解析模型[26]以及顯著性檢測[21]方法能夠直接處理遮擋圖像,不需要耗時的人工裁剪,并且能夠準確地定位行人關鍵點以及行人身體區(qū)域,實現(xiàn)特征對齊,但該類方法的性能對外部模型有較強的依賴性,且在測試階段會因輔助模型引入額外的計算消耗。因此,本文提出語義引導的注意力網(wǎng)絡(SGAN,semantic-guided attention network)來對齊不同人體部分,利用注意力學習帶有語義信息的局部特征,根據(jù)局部特征塊的語義信息進行對齊,并利用掩膜信息判斷各個局部特征的可見性,訓練過程中根據(jù)監(jiān)督信息的可見程度對訓練損失進行動態(tài)約束,并在測試階段根據(jù)局部語義注意力的掩膜信息選擇是否參與相似性度量。
SGAN 的網(wǎng)絡結構如圖1 所示。采用殘差卷積神經(jīng)網(wǎng)絡結構ResNet-50[27]作為主干網(wǎng)絡,在第一個殘差層Res-Stage1 和第四個殘差層Res-Stage4 中分別增加全局語義引導和局部語義引導,并專門設計了相應的網(wǎng)絡損失函數(shù)約束。
圖1 SGAN 的網(wǎng)絡結構
全局語義引導和局部語義引導網(wǎng)絡結構分別如圖2 和圖3 所示,全局語義引導包括空間注意力和通道注意力。其中,F(xiàn)C 代表全連接層;Conv 代表卷積操作;ReLu 和Sigmoid 均是激活函數(shù),實現(xiàn)非線性變換。
圖2 全局語義引導網(wǎng)絡結構
圖3 局部語義引導網(wǎng)絡結構
從ResNet-50 的Res-Stage1 得到特征圖A后,特征圖進入空間注意力層,在空間注意力層經(jīng)過一個3×3 的卷積操作、ReLu 激活函數(shù)、1×1 的降維卷積操作得到單通道的概率圖,最后經(jīng)過Sigmoid函數(shù)獲得空間注意特征圖。從 ResNet-50 的Res-Stage1 得到特征圖,并與空間注意特征圖做乘法得到圖像中行人的前景特征圖,前景特征圖進一步通過通道注意力層,經(jīng)過全局平均池化操作和2 個升維降維的全連接層以及Sigmoid 函數(shù),最終得到過濾背景和遮擋的全局特征fglobal。
在ResNet-50 的Res-Stage4 后增加局部語義引導,在局部語義引導中有4 個分支,分別對應頭部、上半身、下半身和腳部部分。4 個局部的注意力結構相同,4 個分支的語義引導結構相同,且只有空間注意力。如圖3 所示,先對Res-Stage4 的輸出特征V進行降維操作,從通道2048 變?yōu)?12,再經(jīng)過ReLu 激活函數(shù)的非線性變換,之后將512 通道經(jīng)過1×1 的卷積得到單張通道的空間注意力特征圖,得到頭部、上半身、下半身和腳部的注意力特征圖后,與V相乘分別得到局部語義特征fhead、fupper、flower、ffeet。
三元損失[28]是SGAN 模型訓練的基本損失,SGAN 計算三元損失Ltri,在此基礎上,SGAN 將同時考慮全局、局部語義損失和注意力損失。下面介紹這些損失的影響因子計算方法。
3.3.1動態(tài)因子
由于人體的頭部、上身以及下身的比例不同,根據(jù)人體的頭身比例特點這個先驗知識來為4 個局部特征分配不同的權重系數(shù)。
因男性與女性的身體比例差異及采集圖像中行人姿態(tài)和年齡等因素的影響,本文對頭部、上半身、下半身和腳部的比例分割采用不同的比例,根據(jù)人體的頭身比以及人體的黃金分割比得到一個比例范圍,頭身比約為1/6 到1/8,再根據(jù)黃金比例分割參數(shù)0.618 得到上下身比例。最終在16×8 的監(jiān)督掩膜中得到4 個局部-全身的比例,分別為3/16(頭部/全身)、5/16(上身/全身)、1/2(下身/全身)及3/16(腳部/全身),比例參數(shù)用r表示。據(jù)此得到4 個比例參數(shù)為
根據(jù)比例參數(shù)計算得到各個局部權重參數(shù),通過人體語義解析模型預先得到行人數(shù)據(jù)集的語義掩膜M,用該掩膜作為監(jiān)督信息,同時用它來判斷每個身體部位特征的可見性。通過計算掩膜的均值來得到4 個局部身體特征的可見標簽。每一部分的掩膜計算都會從上一特征區(qū)域的最后一行開始計算,局部特征圖的大小為16×8,行數(shù)以0~15 為索引,則頭部的掩膜均值計算對應0~2 行,上身的掩膜均值計算對應2~6 行,下身的掩膜均值計算對應6~13 行,腳部的掩膜計算對應13~15 行。先計算監(jiān)督掩膜的概率均值,再與各比例參數(shù)操作得到各個局部語義部分的權重參數(shù),按式(2)計算。
其中,16 和8 分別為局部監(jiān)督掩膜圖像的高度和寬度,ms(w,h)為監(jiān)督掩膜中(w,h)處的像素值。
在訓練階段,從ResNet-50 的第四個殘差層得到特征V,特征V進入局部語義引導部分,局部語義引導中包含4 個分支,分別用來得到圖形中行人的頭部、上身、下身及腳部的概率圖,用得到的4 個身體部位的概率圖分別與特征圖V相乘,再經(jīng)過平均池化層得到4 個局部語義特征fhead、fupper、flower、ffeet,考慮遮擋因素的影響,某個局部特征可能只有極少的幾個像素可見,在可見像素很少時,設定此局部特征不可見,不參加模型的訓練。局部特征的可見性按式(3)計算。經(jīng)實驗對比,δ設置為0.1。
3.3.2分類損失
根據(jù)式(4)與式(5)計算局部和全局損失。
其中,C是身份類別總數(shù),ξ是平滑參數(shù),分別是C維的局部向量和全局向量中的第i維度的預測值,ID 是行人圖像的真實分類,Lcls_l和Lcls_g分別對應的全局特征分類和局部特征分類。
3.3.3注意力損失
注意力損失用來引導全局和局部語義網(wǎng)絡的學習,用于監(jiān)督的掩膜是二值掩膜,為了能夠使各個語義引導部分學習到更加逼近真實掩膜的注意力概率圖,采用二分類的交叉熵損失計算。局部注意力損失用Ls_l表示,同局部分類損失一樣,也根據(jù)wfl的值動態(tài)地約束掩膜的學習。全局注意損失用Ls_g表示。全局、局部注意力損失分別為
其中,Mg和Ml分別是全局掩膜和局部掩膜,本文實驗設置Mg的大小為64×32,Ml的大小為16×8;分別是全局掩膜和局部掩膜在i位置的掩膜標簽;分別是全局引導和局部引導在i位置的預測值。
這樣,SGAN 的總體損失函數(shù)為
在測試階段,根據(jù)局部語義引導部分學到的概率圖來判斷當前區(qū)域屬于遮擋部分還是行人區(qū)域。vl是對應局部特征的可見性標簽,如前所述,vl=0表示遮擋,vl=1 表示特征可見。simg表示全局特征的相似度,siml表示局部特征的相似度值。sim 值越大,表明相似度越高。
本節(jié)選取Occluded-DukeMTMC 數(shù)據(jù)集中的圖像進行實驗。對上述相似度計算方式進行可視化,如圖4 所示,不可見部分對最終的相似度沒有影響,可見部分對相似度的貢獻取決于對應部分相似度,其權重受可見塊數(shù)調(diào)節(jié)。查詢目標圖像與檢索圖像示例如圖5所示,q和g分別表示查詢的目標圖像和Gallery中的某一幅圖像,其具體的匹配計算如表1 所示。
圖5 查詢目標圖像與檢索圖像示例
表1 q 與g 的相似度匹配計算
為了驗證所提方法的有效性,分別在主流公開的全身數(shù)據(jù)集和遮擋數(shù)據(jù)集上進行實驗驗證。采用的全身數(shù)據(jù)集為Market1501 和DukeMTMC-reID,采用的遮擋數(shù)據(jù)集為 Occluded-DukeMTMC 和P-DukeMTMC-reID。
Market-1501[8]包含來自1 501 個行人的共32 668 幅圖像。這些圖像來自6 個采集設備,其中包括5 個高分辨率攝像頭和一個低分辨率攝像頭。751 個行人的12 936 幅圖像被分為訓練集,其余750 個行人的19 732 幅圖像被劃分為測試集。測試集中又分為待查找對象(query)和底庫(gallery)。query 有3 368 幅圖像,gallery 有19 734 幅圖像。每個行人最多具有6 幅查詢圖像。
DukeMTMC-reID[9]是跟蹤數(shù)據(jù)集DukeMTMC的一個子集,舍棄了只出現(xiàn)在一個攝像頭中的408 個行人(即干擾項ID),只選取出現(xiàn)在2 個攝像頭以上的1 404 個行人。因此它包含來自8 個不同攝像機的1 404 個行人的36 411 幅圖像。702 個行人的16 522 幅圖像被分為訓練集。剩余的702 個行人的19 889 幅圖像被分為測試集,其中,query 為2 228 幅,gallery 為17 661幅。
Occluded-DukeMTMC[10]包含15 618 幅訓練圖像、17 661 幅gallery 圖像和2210 幅被遮擋的query圖像。在訓練集、query、gallery 中遮擋圖像所占的比例分別是9%、100%和10%。所有的query 是遮擋的圖像,在gallery 中既有全身圖像又有遮擋圖像。
P-DukeMTMC-reID[11]訓練集12 927 幅圖像、665 個行人,query 中有634 個行人的2 163 幅圖像,gallery 中有9 053 幅圖像。
本節(jié)采用行人識別中常用的累積匹配特征(CMC,cumulative match characteristic)曲線和平均平均精度(mAP,mean average precision)來評估所提方法。CMC 曲線中的Rank-n 指匹配結果的前n幅圖像的正確率。本節(jié)實驗中,Rank-1、Rank-5、Rank-10 和mAP用來衡量算法的性能并與其他方法進行比較。所有實驗結果均是在單個q設置下。指標及具體方法如下。
其中,k是一個從1 開始增加的變量,最常用的為1、5、10。用Q中所有圖像的Rank-k值相加,再除以Q的總數(shù)即可得到CMC 的值。
mAP。mAP 是Q中每個q的AP(average precision)的平均值。AP 計算的是和q同一ID 的圖像在查詢結果中的占比,計算式為
實驗平臺的操作系統(tǒng)為Ubuntu16.04,一塊NVIDIA 1080TI GPU,顯存為11 GB;使用深度學習框架Pytorch1.0.1,基于Python3.5.2 完成程序編程;使用在 ImageNet[29]數(shù)據(jù)集上預訓練的ResNet-50 參數(shù)初始化主干網(wǎng)絡,并去掉了全局平均池化層和全連接層。輸入圖像的尺寸是256 像素×128 像素,在實驗中用到了行人再識別中常用的數(shù)據(jù)增強策略,包括圖像的隨機水平翻轉、標準化和隨機擦除策略。三元損失函數(shù)中的邊界超參為0.3,訓練過程中使用Adam 優(yōu)化器進行優(yōu)化,訓練批次是64,每一訓練批次中包括16 個行人,每個行人4 幅圖像。初始的學習率為3×10-4,分別在50、100 epoch 時按照10%速度衰減,迭代次數(shù)為200。
為了驗證模型的有效性,本節(jié)在Market-1501、DukeMTMC-reID 和遮擋數(shù)據(jù)集 Occluded-DukeMTMC、P-DukeMTMC-reID 數(shù)據(jù)集上進行實驗,表2 和表3 分別展示了所提SGAN 與當前的主流方法的對比結果。
從表2 和表3 中可以看出,SGAN 獲得了最好的表現(xiàn)。提取全局特征的方法會引入遮擋噪聲,從而影響特征的表達;均勻分塊方法沒有考慮局部特征的語義性,圖像中的遮擋特征會引起特征塊的不對齊;SGAN 在Occluded-DukeMTMC 數(shù)據(jù)集上的性能比HONet[25]在mAP 和Rank-1 上分別提高了2.9%和1.6%,在P-DukeMTMC-reID 數(shù)據(jù)集上的mAP 比最新方法PVPM 的結果提高了2.2%。
表2 Occluded-DukeMTMC 數(shù)據(jù)集上的對比結果
表3 P-DukeMTMC-reID 數(shù)據(jù)集上的對比結果
表4 展示了 SGAN 在 Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上與不同方法的性能對比結果。從表4 可以看出,SGAN 在全身數(shù)據(jù)集上也有較好的表現(xiàn),通過在行人再識別網(wǎng)絡中引入注意力網(wǎng)絡學習全局和局部特征,并根據(jù)注意力網(wǎng)絡的概率圖得到的語義信息進行局部特征的對齊策略有效提高了網(wǎng)絡的精度,且明顯優(yōu)于其他現(xiàn)有方法。
表4 Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上的對比結果
4.4.1語義引導的有效性
為了驗證SGAN 中語義引導的有效性,以及動態(tài)訓練的有效性,本節(jié)在遮擋數(shù)據(jù)集上進行了對比實驗。對比實驗包括4組,分別是行人識別基準(B)、使用全局注意力引導(G)、使用局部注意力引導(L)、同時使用全局和局部注意力引導(G+L)。實驗基準使用Resnet-50 提取圖像全局特征,用身份約束和三元損失訓練網(wǎng)絡,測試時用全局特征進行度量。其余3 組(G、L、G+L)實驗在訓練時各個損失帶有權重約束,測試時將特征聚合。
Occluded-DukeMTMC 數(shù)據(jù)集上語義引導的對比結果如表5 所示。從表5 可以看出,基準實驗和只有全局注意力的Rank-1 差1.8%,局部注意力比基準實驗高2.5%,說明利用語義引導部分能夠關注圖像中的可見區(qū)域,從一定程度上緩解遮擋的影響。G 和L 的對比說明對齊的局部語義特征能夠減小匹配的誤差,在只有全局特征時,會存在半身-全身的特征度量,這導致G 比L 的首位命中率低。G+L 中Rank-1 達到了58.0%,對齊的局部特征和全局特征相結合提高了模型的準確率。
表5 Occluded-DukeMTMC 數(shù)據(jù)集上語義引導的對比結果
4.4.2權重損失約束的有效性
表6 顯示了不同權重損失約束下模型在Occluded-DukeMTMC 數(shù)據(jù)集上的性能對比結果。3 組對比實驗分別是不帶權重的身份損失和不帶權重的注意力損失C+A、帶權重的身份損失和不帶權重的注意力損失w×C+A、帶權重的身份損失和帶權重的注意力損失w×(C+A)。從表6 可以看到,隨著對分類損失和注意力損失增加約束,模型的首位命中率逐漸提高,尤其在給注意力損失增加權重約束之后,Rank-1 和mAP 的值比不帶損失約束提高了1.4%和0.8%。由此可以得出增加權重損失約束能夠使模型更關注占比較大的可見區(qū)域,使模型以較大概率地從這些區(qū)域學習判別性的特征。
表6 Occluded-DukeMTMC 數(shù)據(jù)集上權重損失約束的對比結果
4.4.3可視化結果
為了驗證模型的全局和局部特征的學習性能,對模型學習到的全局概率圖和局部語義概率圖進行了可視化,實驗中圖像來自Occluded-DukeMTMC 數(shù)據(jù)集。局部注意力結果和語義注意力圖可視化結果分別如圖6 和圖7 所示,圖6 中數(shù)據(jù)保留2 位小數(shù)顯示。從圖6 和圖7 中可以看出,利用語義注意損失,不僅能夠準確地定位到各個局部特征,還能夠利用得到語義掩膜判斷各個局部特征的可見性。圖8 為利用GradCAM[45]方法在特征圖上的可視化結果,可以看出模型突出了各個身體的局部區(qū)域。圖像檢索結果如圖9 所示,其中顯示了排序中的前5 個圖像,圖像上方的CORRECT表示匹配正確,圖9 也說明SGAN 在圖像存在遮擋時,能夠在一定程度上找到相匹配的目標圖像。
圖6 局部注意力結果
圖7 語義注意力圖可視化結果
圖8 GradCAM 在特征圖上的可視化結果
圖9 圖像的檢索結果
本文對行人再識別中的遮擋導致的特征不對齊問題進行研究。考慮遮擋的隨機性以及人體結構的一般比例,提出基于語義引導進行特征對齊的遮擋行人再識別網(wǎng)絡模型。SGAN 能夠根據(jù)局部特征的可見性對模型訓練和特征匹配進行約束,根據(jù)特征的可見性實現(xiàn)動態(tài)訓練,并借助語義信息實現(xiàn)同語義特征塊對齊及共有的可見特征的匹配計算。實現(xiàn)結果表明,算法獲得了優(yōu)異的檢索性能,在復雜遮擋數(shù)據(jù)集Occluded-DukeMTMC 和P-DukeMTMCreID 上算法的Rank-1/mAP 分別達到58.0%/45.4%和84.0%/71.2,優(yōu)于當前的最新方法。本文研究表明,利用語義特征可有效引導模型降低遮擋區(qū)域對行人再識別的負面影響。端到端的行人再識別網(wǎng)絡不僅能夠減少對其他語義模型的依賴,還能避免因使用語義模型帶來的計算消耗。
在未來的研究工作中,考慮改變網(wǎng)絡內(nèi)部結構,對遮擋進行感知,研究遮擋圖像特征與全身圖像特征的關聯(lián)度,期望不利用附加的人體語義分割結果作為監(jiān)督信息即可以實現(xiàn)準確遮擋行人再識別,從而提高模型的泛化能力。