郭玉彬,文 向,劉 攀,李西明*
(1.華南農(nóng)業(yè)大學 數(shù)學與信息學院,廣州 510642;2.廣州市智慧農(nóng)業(yè)重點實驗室(華南農(nóng)業(yè)大學),廣州 510642)
在行人重識別領(lǐng)域,Zajdel 等[1]首先在多攝像頭跟蹤的工作中提出了行人重識別的概念,即從圖像和視頻序列中識別檢索特定行人。Gheissari 等[2]將行人重識別從多攝像頭跟蹤任務中分離出來,將它作為計算機視覺領(lǐng)域一個獨立的任務來研究。Wu 等[3]明確了可見光-紅外跨模態(tài)行人重識別的概念,即根據(jù)給定行人的可見光(紅外)圖像,在紅外(可見光)攝像頭采集的行人圖像庫中檢索同一個行人身份的所有圖像。目前在可見光范圍內(nèi)行人重識別問題的研究成果較多,可見光-紅外范圍的成果則較少,原因在于跨模態(tài)行人重識別任務不僅要面對單模態(tài)行人重識別任務中的所有挑戰(zhàn),還要面對不同模態(tài)圖像特征差異大和高層語義特征相關(guān)的挑戰(zhàn)。
Wu 等[3]對單流、雙流、非對稱全連接層網(wǎng)絡(luò)結(jié)構(gòu)在跨模態(tài)行人重識別問題研究中的表現(xiàn)進行了評價。Ye 等[4]使用雙流網(wǎng)絡(luò)結(jié)構(gòu)提取可見光與紅外行人圖像之間的公共特征,網(wǎng)絡(luò)結(jié)構(gòu)主要由特征提取和特征嵌入兩個模塊組成。特征提取模塊從兩個不同模態(tài)(紅外模態(tài)和可見光)學習對應模態(tài)的特定信息;特征嵌入模塊學習不同模態(tài)的共同特征,再將兩個模態(tài)的特定特征映射到共同特征空間中,然后進行可見光與紅外模態(tài)間的行人圖像識別,識別效果較好。在損失函數(shù)的設(shè)計方面,三元組損失(Triplet loss)函數(shù)[5]最初在解決人臉識別問題時被提出,之后成為一種廣泛應用的度量學習類損失函數(shù)??缒B(tài)圖像推理網(wǎng)絡(luò)(Cross-modality Graph Reasoning Network,CGRNet)[6]、集合與實例結(jié)合的對齊重識別網(wǎng)絡(luò)(Joint Set-level and Instance-level Alignment re-identification network,JSIA)[7]中都使用了以縮小不同模態(tài)圖像間差異為目標的損失函數(shù)。另外,在可見光圖像的特征提取方面,增強判別性特征學習方法(Enhancing the Discriminative Feature Learning method,EDFL)[8]、帶加權(quán)三元組的注意力廣義平均池化模型(Attention Generalized mean pooling with Weighted triplet loss,AGW)[9]都使用圖像局部特征之間的關(guān)系強化圖像高層語義特征。
受以上研究啟發(fā),本文提出了一種基于雙流結(jié)構(gòu)的跨模態(tài)行人重識別關(guān)系網(wǎng)絡(luò)(Infrared and Visible Relation Network Based on Dual-stream Structure,IVRNBDS)。該網(wǎng)絡(luò)綜合利用可見光和紅外模態(tài)行人圖像的不同特征、兩種特征的共享特征和行人身體不同部分的關(guān)系信息進行行人重識別,并使用異質(zhì)中心三元組損失(Hetero-Center Triplet Loss,HC_Tri Loss)函數(shù)[10]將不同模態(tài)的圖像特征映射到同一特征空間中。為驗證模型的有效性,在SYSU-MM01(SunYat-Sen University MultiModal re-identification)數(shù)據(jù)集[3]和RegDB(Dongguk Body-based person Recognition)數(shù)據(jù)集[11]兩個公開的跨模態(tài)行人重識別數(shù)據(jù)集上進行實驗,實驗結(jié)果表明IVRNBDS 具有較好的識別效果。
目前已有的基于深度學習的跨模態(tài)行人重識別方法主要分為以下三類。
1)行人統(tǒng)一特征提取方式。該類方法是常用的減弱模態(tài)之間的差異的方法,主要思路是提取與模態(tài)差異無關(guān)的特征,比如:Ye 等[4]提出的雙流卷積神經(jīng)網(wǎng)絡(luò)特征學習網(wǎng)絡(luò)(TwO-stream convolutional Neural network fEature learning network,TONE),利用雙流網(wǎng)絡(luò)結(jié)構(gòu)提取可見光與紅外行人圖像之間的公共特征;Liu 等[8]利用提出增強判別性特征學習的網(wǎng)絡(luò),具體地,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的不同層含有不同語義信息的特點,以跳步連接的方式融合中間層的特征;Xiang 等[12]將MGN(Multiple Granularity Network)結(jié)構(gòu)[13]引入特征提取模塊,結(jié)合圖像的局部和全局信息提高特征嵌入的表達能力;Lu 等[14]提出了跨模態(tài)共享及特異特征轉(zhuǎn)移算法,該算法采用了雙流特征提取器提取特征,通過圖卷積融合特異特征與共享特征;Zhao等[15]則是將不同模態(tài)的行人圖像輸入同一個網(wǎng)絡(luò)中,結(jié)合行人ID(IDentification)損失提取特征;Zhang 等[16]提出了一個基于雙流網(wǎng)絡(luò)的跨模態(tài)行人重識別算法,將兩種模態(tài)特定特征嵌入三維張量空間中,生成兩種模態(tài)下的特定內(nèi)核,然后通過對比計算兩個內(nèi)核的差異性提取對比特征。
2)基于度量學習的跨模態(tài)行人重識別方式。該類方法注重損失函數(shù)的設(shè)計。損失函數(shù)設(shè)計的目標是使同一行人的所有模態(tài)的圖像之間的距離盡可能小,使不同行人的所有模態(tài)的圖像之間的距離盡可能大,如:Ye 等[17]提出了雙向雙約束高 階(Bi-directional Dual-constrained Top-Ranking,BDTR)損失,Zhu 等[18]提出了異質(zhì)中心損失,Liu 等[10]提出了HC_Tri Loss 等;另外,Hao 等[19]提出了Sphere Softmax 并對模態(tài)內(nèi)差異和模態(tài)間差異進行約束,Liu 等[8]利用雙模態(tài)三元組損失減小模態(tài)間和模態(tài)內(nèi)差異。
3)基于模態(tài)轉(zhuǎn)換的方式。該類方法利用生成對抗網(wǎng)絡(luò)將一種模態(tài)的行人圖像轉(zhuǎn)換成另一模態(tài)的行人圖像,以便更好地提取共享特征。Wang 等[20]設(shè)計了雙層差異縮減網(wǎng)絡(luò),利用兩組生成對抗網(wǎng)絡(luò)對可見光與紅外行人圖像進行圖像的雙向轉(zhuǎn)換,通過特征嵌入減小無法充分轉(zhuǎn)換的外觀差異,以縮小特征提取結(jié)果的模態(tài)差異。Wang 等[21]提出了對齊的生成對抗網(wǎng)絡(luò),也使用了兩組生成對抗網(wǎng)絡(luò)進行可見光與紅外模態(tài)行人圖像的雙向轉(zhuǎn)換。此研究與文獻[20]中的不同在于此研究將紅外圖像轉(zhuǎn)換成可見光圖像的生成對抗網(wǎng)絡(luò)用于輔助跨模態(tài)行人重識別模型訓練,然后和可見光的RGB三維度圖像拼接,生成四維度圖像,再進行總體訓練提取網(wǎng)絡(luò)特征。Zhang 等[22]提出了基于不同模態(tài)的師生模型,包含可見光圖像生成紅外圖像的生成對抗網(wǎng)絡(luò)、主干網(wǎng)絡(luò)和預訓練師生模型這3 個模塊,提升了生成圖像的質(zhì)量。Fan 等[23]提出了跨模態(tài)雙子空間配對方法實現(xiàn)模態(tài)互轉(zhuǎn)。Choi 等[24]為解決同一模態(tài)內(nèi)和不同模態(tài)間圖像特征差異的問題,提出了一種分層跨模態(tài)解糾纏方法。此方法可以從兩種模態(tài)圖像中分離模態(tài)內(nèi)特征和跨模態(tài)特征,提高了生成圖像的質(zhì)量。
這些方法都在一定程度上提升了可見光與紅外跨模態(tài)行人重識別模型在公開數(shù)據(jù)集上的識別精度,但目前的識別效果與單模態(tài)下的識別效果還有較大的差距;同時大多數(shù)方法都側(cè)重全局特征的提取和使用,沒有考慮更具有辨識度的局部特征、圖像的每個局部特征與整體特征的關(guān)系等細節(jié)。
IVRNBDS 的結(jié)構(gòu)如圖1 所示,由雙流模塊、關(guān)系模塊和損失函數(shù)模塊這部分組成。雙流模塊以殘差網(wǎng)絡(luò)(Residual Network,ResNet)50為骨干網(wǎng)絡(luò),首先將輸入的可見光圖像和紅外圖像在Stage1 中的卷積塊分別進行模態(tài)特征提取,然后在Stage2 合并提取特征,并與Stage3、Stage4、Stage5 網(wǎng)絡(luò)層一起作為特征嵌入器進行參數(shù)共享得到共享特征。后續(xù)的關(guān)系模塊先將經(jīng)過雙流網(wǎng)絡(luò)提取的共享特征水平切分為6 個片段以進行局部特征的學習。接著,將局部特征分別輸入局部關(guān)系模塊(One-vs-Rest Relational Module,ORRM)和全局關(guān)系模塊(Global Contrastive Relation Module,GCRM)。ORRM 提取行人圖像每個單一片段與其他片段之間的關(guān)系特征,GCRM提取行人全局關(guān)系特征。為了使整個網(wǎng)絡(luò)模型提取到更多有效的行人特征,IVRNBDS 采用ID 分類損失和HC_Tri Loss 組合監(jiān)督訓練,以便更好地優(yōu)化可見光和紅外兩個模態(tài)中不同行人圖像之間的三元組關(guān)系。

圖1 IVRNBDS的結(jié)構(gòu)Fig.1 Structure of IVRNBDS
ORRM 的輸入是共享特征水平切分所得到的6 個片段,v1~v6。圖2 給出片段v1與其他片段之間關(guān)系的計算過程。首先,對片段v1進行GeM(Generalized Mean)池化操作之后得到f(v1),將剩余片段v2~v6求平均(圖2 中的A 操作),結(jié)果記作vr,再進行GeM 池化操作得到f(vr)。接著,將特征f(v1)和f(vr)分別進行卷積操作(圖2 中的Conv 操作,具體包括一個1×1 卷 積、一 個Batch Normalization 和一個ReLU(Rectified Linear Unit)操作),得到特征fˉ(v1)和fˉ(vr)。然后,對fˉ(v1)和fˉ(vr)進行連接(圖2 中的C 操作)、卷積操作(圖2 中的Conv操作,具體包括一個1×1 卷積、一個Batch Normalization 和一個ReLU 操作)。最后,將所得結(jié)果與fˉ(v1)相加(圖2 中的+操作)得到含有所有局部特征的局部關(guān)系特征f^(v1)。

圖2 片段v1與其他片段之間關(guān)系的計算過程Fig.2 Relation computing process of segment v1 and others
ORRM 對輸入v1~v6分別進行上述操作,得到6 個關(guān)系特征,分別記作f^(vi)(i=1,2,…,6)。ORRM 的結(jié)構(gòu)即包括圖2結(jié)構(gòu)的6個復本,每個復本對應求解一個片段vi(i=1,2,…,6)和其他片段vj(j=1,2,…,6 ∧j≠i) 之間的 關(guān)系特 征。ORRM 的設(shè)計思路很好地表達了行人的一個片段和其他片段之間的關(guān)系,有利于提取更具辨識度的行人特征信息。
為了更好地表示整個行人圖像信息,可見光單模態(tài)行人重識別方法通常采用全局平均池化(Global Average Pooling,GAP)方法[25]或全局最大池化(Global Max Pooling,GMP)方法[26],或者是這兩種方法的結(jié)合。GAP 方法的特點主要是進行整個行人圖像的平均全局信息表示,但是很容易摻雜圖像的背景信息使得提取的行人特征不干凈;GMP 方法的作用是過濾背景信息,而將局部有用的行人信息聚合到一起,但這樣缺少整個行人圖像的全局信息。Fu 等[27]將兩種方法結(jié)合,彌補了兩種方法單獨使用的缺陷,實驗結(jié)果表明兩種方法結(jié)合的效果優(yōu)于單獨使用GMP 或GAP。受此啟發(fā),本文設(shè)計了GCRM,用于從行人身體片段信息中提取代表行人圖像的全局信息特征,GCRM的結(jié)構(gòu)如圖3所示。

圖3 GCRM的結(jié)構(gòu)Fig.3 Structure of GCRM
本節(jié)損失函數(shù)用ID 身份損失(Lid)對提取的行人圖像局部特征進行計算,引進HC_Tri Loss 函數(shù)[10]計算全局特征,保留ID 身份損失對局部特征計算。HC_Tri Loss 函數(shù)與普通的三元組損失函數(shù)相比,更適用于跨模態(tài)行人重識別,因為它是將錨點中心與其他樣本中心比較,而普通的三元組損失是將錨點與其他樣本比較,這樣可以降低普通的三元組損失函數(shù)原有的強約束能力,讓不同模態(tài)的圖像更好地映射到同一特征空間中。
HC_Tri Loss 的示意圖見圖4。圖4 中的圓代表行人圖像樣本中心,不同的顏色代表不同標識的行人。異質(zhì)中心三元組損失的目標是從不同的模態(tài)拉近那些具有相同身份標簽的中心,推遠那些具有不同身份標簽的中心。無論哪個模態(tài)的樣本,都是比較中心到中心的相似性,而不是樣本到樣本的相似性或樣本到中心的相似性。

圖4 HC_Tri Loss的示意圖Fig.4 Schematic diagram of HC_Tri Loss
具體地,首先異質(zhì)中心三元組采取了在線隨機采樣策略,通過在網(wǎng)絡(luò)訓練的一次迭代過程中隨機選擇P位行人,接著在選中的P位行人中隨機選擇K張可見光圖像和K張紅外圖像組合成一個mini-batch,即一個mini-batch 共包含2 ×P×K張圖像。這種采樣策略充分發(fā)揮了小樣本采樣的優(yōu)勢,可以保證每一個行人的樣本數(shù)相同,巧妙地避免了樣本中行人圖像數(shù)不一致所帶來的干擾,并且隨機采樣使得在mini-batch 這種小范圍里的局部約束能夠和在整個數(shù)據(jù)集中的全局約束取得同等的效果。如上所示,在mini-batch 中獲取來自每個模態(tài)的每個行人標識的特征中心。如異質(zhì)中心三元組表達式如下:表最難區(qū)分的負樣本??偠灾愘|(zhì)中心三元組損失函數(shù)的目標就是專注于一個跨模態(tài)的正樣本對和在模態(tài)內(nèi)與模態(tài)間最難區(qū)分的負樣本對。
本文將異質(zhì)中心三元組損失函數(shù)用于可見光-紅外跨模態(tài)行人重識別模型中,綜合優(yōu)勢主要有以下3 點.
1)減弱了傳統(tǒng)三元組損失函數(shù)的強約束力,降低了模型計算成本;
2)通過縮小不同模態(tài)圖像正樣本(中心)對之間的距離能夠有效地保證類內(nèi)的緊湊性;
3)最難負樣本(中心)的設(shè)計能夠有效地保證在可見光模態(tài)和紅外模態(tài)下不同行人特征的可區(qū)分性。
ORRM 模塊整體損失函數(shù)為:
GCRM 整體損失函數(shù)為:
最終總體損失表示為:
本文實驗使用64 位Ubuntu20.04 操作系統(tǒng),采用深度學習框架PyTorch 1.10.0 實現(xiàn),訓練服務器采用顯卡內(nèi)存為32 GB 的NVIDIA 3090,CUDA 版本為11.3。與先前存在的跨模態(tài)行人重識別模型相同,采用在ImageNet 上進行預訓練后的權(quán)重參數(shù)進行初始化。在訓練階段,將輸入圖像的尺寸調(diào)整為高288,寬144,Batch Size 大小設(shè)為64,每次隨機選取4個不同的行人圖像作為模型輸入,每個行人包含有8 張可見光圖像和8 張紅外圖像。優(yōu)化器算法選取隨機梯度下降(Stochastic Gradient Descent,SGD)作為網(wǎng)絡(luò)模型的優(yōu)化器,總共訓練60 個epochs,學習率初始化值為0.1,第20 個epochs到第30個epochs之間學習率衰減為0.01,第50個epochs后學習率衰減為0.001,用于實驗的兩個跨模態(tài)數(shù)據(jù)集共享相同的實驗設(shè)置。
本文的實驗數(shù)據(jù)集是SYSU-MM01 數(shù)據(jù)集[3]和RegDB 數(shù)據(jù)集[11],這是目前較常用的兩個公開的跨模態(tài)行人重識別數(shù)據(jù)集。SYSU-MM01 數(shù)據(jù)集由6 個攝像頭采集的圖像組成,包含4 個可見光攝像頭和2 個紅外攝像頭。總共包含491 個行人ID,其中296 個行人ID 用于訓練集,99 個行人ID 用于驗證集,96 個行人ID 用于測試集。在這些行人圖像中,可見光行人圖像數(shù)有15 792,RGB 圖像數(shù)有287 628,用作訓練集的可見光行人圖像數(shù)為19 659,紅外行人圖像數(shù)為12 792。RegDB數(shù)據(jù)集是同時使用可見光攝像頭和紅外攝像頭拍攝。共包含行人圖像數(shù)412(男人158,女人254),每人包含可見光圖像數(shù)10,紅外圖像數(shù)10,其中拍攝到行人正面的有156,背面的有256。全部圖像含有可見光行人圖像數(shù)4 120,紅外行人圖像數(shù)4 120。該數(shù)據(jù)行人圖像的特點是圖像比較小,清晰度較差,每個行人身份的可見光圖像和紅外圖像的姿態(tài)一一對應,在姿態(tài)上的變化很小,這些數(shù)據(jù)集本身的特點降低了跨模態(tài)行人重識別任務的難度。
本文與近兩年表現(xiàn)較好的可見光-紅外跨模態(tài)行人重識別方法進行比較,對比方法主要有:基于度量學習的行人重識別方法TONE[4]、BDTR[17];基于生成對抗網(wǎng)絡(luò)的方法XIV(X-Infrared-Visible)[28]、JSIA[7]、對齊的生成對抗網(wǎng)絡(luò)(Alignment Generative Adversarial Network,AlignGAN)[21];基于局部特征學習的方法AGW[9]、動態(tài)雙注意聚集網(wǎng)絡(luò)(Dynamic Dual-attentive AGgregation network,DDAG)[29]、局部全局多通道學習方法(Global-Local MultiChannel learning method,GLMC)[30]以及基于共享參數(shù)學習的方法跨模態(tài)共享-特殊特征轉(zhuǎn)換(cross-modality Shared-Specific Feature Transfer,cm-SSFT)方 法[13]、基于跨模態(tài)相似性保持(Cross-Modality Similarity Preservation,CMSP)的行人重識別算法[31]、顏色無關(guān)的特征一致性學習(Color-Irrelevant Consistency Learning,CICL)方法[32]、神經(jīng)特征查詢(Neural Feature Search,NFS)方法[33]。
本文實驗評價指標使用相似度排名第1(similarity Rank 1,Rank-1)和平均精度均值(mean Average precision,mAP)。Rank-1 指標指先求解每張查詢圖像與測試集(Gallery set)中每張圖像的相似度(similarity),對每張查詢圖像,依據(jù)相似度排序?qū)λ袦y試集圖像進行排序,再計算相似度最高的圖像與查詢圖像屬同一ID 的概率平均值。Rank-1 指標越高,實驗效果越好。對查詢集中每張查詢圖像、測試集中所有與之匹配的行人圖像先計算平均精度(Average Precision,AP),再求所有匹配的行人圖像的mAP。mAP 越高,實驗效果越好。
表1 列出了本文網(wǎng)絡(luò)與上述方法在SYSU-MM01 數(shù)據(jù)集上的對比結(jié)果。在全局搜索模式下,IVRNBDS 比上述方法效果更好。IVRNBDS 在性能評價指標Rank-1 和mAP 上對應的取值分別為70.13%和65.33%,比GLMC 方法在Rank-1 指標上提升了5.76 個百分點,在mAP 指標上提升了1.90 個百分點。在室內(nèi)搜索模式下,IVRNBDS 也表現(xiàn)出了較大的優(yōu)勢。比NFS、CICL、GLMC 方法在Rank-1 指標上分別提升了7.57、3.76、3.01 個百分點,比NFS、cm-SSFT 方法在mAP 指標上分別提升了3.36 和0.55 個百分點。

表1 IVRNBDS與其他方法在SYSU-MM01數(shù)據(jù)集上的性能對比 單位:%Tab.1 Performance comparison of IVRNBDS and other methods on SYSU-MM01 dataset unit:%
表2 為IVRNBDS 和其他對比方法在RegDB 數(shù)據(jù)集上的實驗結(jié)果對比。在可見光-紅外模式(Visible-Infrared)下,IVRNBDS 分別取得了92.34%的Rank-1 和92.58%的mAP,與GLMC 相比,在Rank-1 上提升了0.5 個百分點,在mAP 上提升了11.16 個百分點。同樣有效的是在紅外-可見光模式(Infrared-Visible)下,IVRNBDS 分別取得了91.35%的Rank-1和91.78%的mAP。相較于GLMC,在Rank-1 上提升了0.23個百分點,在mAP 上提升了10.72 個百分點。

表2 IVRNBDS與其他方法在RegDB數(shù)據(jù)集上的性能對比 單位:%Tab.2 Performance comparison of IVRNBDS and other methods on RegDB dataset unit:%
為了進一步分析IVRNBDS 框架中ORRM、GCRM 和異質(zhì)中心三元組損失函數(shù)設(shè)計的有效性及貢獻,本文設(shè)計了一系列消融實驗。使用AGW 網(wǎng)絡(luò),應用標準的交叉熵分類損失與帶權(quán)重的正則三元組損失函數(shù)進行優(yōu)化,在表3 中用“B”來表示。采取分別添加ORRM、GCRM、異質(zhì)中心三元組損失函數(shù)的方式,對比它們對紅外-可見光跨模態(tài)行人重識別任務的影響。整個實驗在SYSU-MM01 數(shù)據(jù)集上進行。

表3 SYSU-MM01數(shù)據(jù)集上的消融實驗結(jié)果 單位:%Tab.3 Results of ablation experiments on SYSU-MM01 dataset unit:%
ORRM的影響 如表3所示,和Baseline網(wǎng)絡(luò)(表3中表示為B)相比,包含了ORRM 得到的模型取得了更好的效果。在全局搜索模式下性能評價指標Rank-1 由47.50%提升至62.68%,mAP 則從47.65%提升至57.51%;在室內(nèi)搜索模式下模型性能也得到了相應的提升,Rank-1提升了8.24個百分點,mAP則提升了4.20個百分點。在RegDB 數(shù)據(jù)集上的實驗結(jié)果見表4,在可見光-紅外模式下,與Baseline 相比,在Rank-1 和mAP 指標上分別提升了18.88 和23.57 個百分點;在紅外-可見光模式下,因為在原論文中沒有結(jié)果,所以在此不再討論。實驗結(jié)果驗證了ORRM關(guān)系模塊的有效性。

表4 RegDB數(shù)據(jù)集上的消融實驗結(jié)果 單位:%Tab.4 Results of ablation experiments on RegDB dataset unit:%
GCRM 的影響 如表3 所示,與Baseline 網(wǎng)絡(luò)相比,當使用了GCRM 后,模型性能得到了顯著的提高,在全局搜索模式下,加入GCRM 之后,Rank-1提升了14.5個百分點,mAP 提升了11.79 個百分點,在室內(nèi)搜索模式也取得了極大的性能提升,Rank-1 提升了13.2 個百分點,mAP 提升了7.17 個百分點。性能評價指標Rank-1 精確率由47.50% 提升到了62.00%,而mAP 則從47.65%提升到了59.44%。在RegDB數(shù)據(jù)集上的實驗結(jié)果見表4,在可見光-紅外模式下,與Baseline 相比,在Rank-1 和mAP 指標上分別提升了16.89 和21.79個百分點,驗證了GCRM的有效性。
異質(zhì)中心三元組損失函數(shù)的影響 同樣地,與Baseline網(wǎng)絡(luò)相比,用異質(zhì)中心三元組損失函數(shù)替換Baseline中的批次難樣本挖掘損失后得到的模型性能也得到了提升,取得了更好的效果,性能評價指標Rank-1 在全局搜索和室內(nèi)搜索兩種模式下分別提升了14.02 和11.24 個百分點,而mAP 分別提升了10.87 和6.33 個百分點。在RegDB 數(shù)據(jù)集上的實驗結(jié)果見表4,在可見光-紅外模式下,與Baseline 相比,在Rank-1 和mAP指標上分別提升了9.17和1.98個百分點,驗證了異質(zhì)中心三元組損失函數(shù)對跨模態(tài)行人重識別任務的有效性。
選擇三元組損失函數(shù)和批量難樣本三元組損失函數(shù)[34]與本文使用的異質(zhì)中心三元組損失函數(shù)進行對比。表5 中“A”表示除去損失函數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)。表5 給出在SYSU-MM01 數(shù)據(jù)集上、在實驗設(shè)備和實驗環(huán)境都相同情況下,60 個epochs 的訓練時間??梢姰愘|(zhì)中心三元組損失的訓練時間要少于其他的三元組損失函數(shù)。

表5 不同損失函數(shù)在SYSU-MM01數(shù)據(jù)集上的訓練時間 單位:minTab.5 Training time of different loss functions on SYSU-MM01 dataset unit:min
此外,還比較了IVRNBDS 與同樣使用雙流網(wǎng)絡(luò)結(jié)構(gòu)的AGW 和DDAG 的計算量和推理時間,如表6 所示。相較于AWG,IVRNBDS 和DDAG 的計算量,即每秒浮點運算次數(shù)(FLoating-point Operations Per second,F(xiàn)LOPs)會稍微更大一些,原因是網(wǎng)絡(luò)關(guān)注局部特征與整體特征的關(guān)系,所以包含了耗時較多的分塊操作。而IVRNBDS 和DDAG 模型,都包含分塊操作,計算量相差不大。但IVRNBDS 在單幅圖像進行推理時所消耗的時間會比DDAG 更多,這是因為IVRNBDS需要作大量分塊后的局部特征-全局特征關(guān)系的計算,這一操作比較復雜,需要等到所有分塊的關(guān)系特征計算完畢才能進行下一步的計算,網(wǎng)絡(luò)在等待同步的時候需要花費時間。但是IVRNBDS 的實驗結(jié)果均優(yōu)于其他對比模型的評價指標,這是值得的。

表6 不同方法在SYSU-MM01數(shù)據(jù)集上的計算開銷Tab.6 Computational cost of different methods on SYSU-MM01 dataset
最后,實驗表明使用了本文中的所有模塊的IVRNBDS取得了最佳的性能。在SYSU-MM01 和RegDB 數(shù)據(jù)集上得出的實驗結(jié)果說明了IVRNBDS 的有效性。從以上實驗結(jié)果可以看到,IVRNBDS 在RegDB 數(shù)據(jù)集上的提升幅度比在SYSU-MM01 數(shù)據(jù)集上更大,這是因為RegDB 數(shù)據(jù)集的圖像小、清晰度較低,并且每個身份的可見光圖像和紅外圖像的姿態(tài)變化幅度很小,基本上一一對應。得益于ORRM 挖掘了單個模態(tài)圖像的局部特征與其他部分特征之間的關(guān)系,以及GCRM 挖掘的行人圖像核心特征和平均特征之間的對比關(guān)系,異質(zhì)中心三元組損失函數(shù)的使用,也讓不同模態(tài)圖像之間的全局特征更具表達力并且減弱了背景噪聲信息的干擾,使得IVRNBDS 在SYSU-MM01 和RegDB 數(shù)據(jù)集都取得了效果的提升,并且在RegDB 數(shù)據(jù)集上的提升效果尤為明顯。
圖5 展示了IVRNBDS 在跨模態(tài)數(shù)據(jù)集SYSU-MM01 上進行實驗的3 組可視化結(jié)果。每一行代表一組,每組包括9 列。其中的Query 列代表待檢索行人圖像,接著的8 列圖像表示IVRNBDS 從行人圖像庫gallery 中檢索出來的與待檢索行人Query 相似度最高的行人圖像,排序越靠近Query 列的圖像,相似度越高。
另外,在對IVRNBDS 進行測試時,對行人重識別的檢索結(jié)果進行了可視化檢驗,檢索結(jié)果正確用方框展示,檢索結(jié)果錯誤用虛線框展示。圖5 中虛線框和方框的情況大體上反映了IVRNBDS 在SYSU-MM01 公開數(shù)據(jù)集上全局搜索模式下的結(jié)果,可以看出與待查詢圖像具有相同尺度大小的圖像匹配更準確;與待查詢圖像角度不同的圖像匹配效果基本準確;對有多個人物重疊圖像匹配效果不是很理想??傮w來說,通過可視化的方式展示了IVRNBDS 的有效性。
本文針對可見光-紅外跨模態(tài)行人重識別精度低的問題提出了IVRNBDS,IVRNBDS 主要包含雙流模塊、關(guān)系模塊和損失函數(shù)模塊。關(guān)系模塊中,ORRM 進行行人圖像局部關(guān)系特征的挖掘,GCRM 進行行人圖像的核心特征與平均特征之間的對比關(guān)系特征的提取;異質(zhì)中心三元組損失函數(shù)將錨點中心與其他樣本中心作比較,更適用于跨模態(tài)行人重識別。實驗結(jié)果表明,IVRNBDS 在可見光-紅外跨模態(tài)行人重識別公開數(shù)據(jù)集SYSU-MM01 和RegDB 上都取得了不錯的識別效果,在識別精度上取得了有效的提升。
比較不同模態(tài)圖像特征,進而提取共同特征,使用同一網(wǎng)絡(luò)框架或算法同時處理單模態(tài)和跨模態(tài)行人重識別任務、并提高識別精確率是下一步要研究的問題。