基于雙流結(jié)構(gòu)的跨模態(tài)行人重識別關(guān)系網(wǎng)絡(luò)

2023-07-03 14:12:00郭玉彬李西明

計算機應用 2023年6期

郭玉彬，文向，劉攀，李西明*

（1.華南農(nóng)業(yè)大學數(shù)學與信息學院，廣州 510642；2.廣州市智慧農(nóng)業(yè)重點實驗室（華南農(nóng)業(yè)大學），廣州 510642）

0 引言

在行人重識別領(lǐng)域，Zajdel 等［1］首先在多攝像頭跟蹤的工作中提出了行人重識別的概念，即從圖像和視頻序列中識別檢索特定行人。Gheissari 等［2］將行人重識別從多攝像頭跟蹤任務中分離出來，將它作為計算機視覺領(lǐng)域一個獨立的任務來研究。Wu 等［3］明確了可見光-紅外跨模態(tài)行人重識別的概念，即根據(jù)給定行人的可見光（紅外）圖像，在紅外（可見光）攝像頭采集的行人圖像庫中檢索同一個行人身份的所有圖像。目前在可見光范圍內(nèi)行人重識別問題的研究成果較多，可見光-紅外范圍的成果則較少，原因在于跨模態(tài)行人重識別任務不僅要面對單模態(tài)行人重識別任務中的所有挑戰(zhàn)，還要面對不同模態(tài)圖像特征差異大和高層語義特征相關(guān)的挑戰(zhàn)。

Wu 等［3］對單流、雙流、非對稱全連接層網(wǎng)絡(luò)結(jié)構(gòu)在跨模態(tài)行人重識別問題研究中的表現(xiàn)進行了評價。Ye 等［4］使用雙流網(wǎng)絡(luò)結(jié)構(gòu)提取可見光與紅外行人圖像之間的公共特征，網(wǎng)絡(luò)結(jié)構(gòu)主要由特征提取和特征嵌入兩個模塊組成。特征提取模塊從兩個不同模態(tài)（紅外模態(tài)和可見光）學習對應模態(tài)的特定信息；特征嵌入模塊學習不同模態(tài)的共同特征，再將兩個模態(tài)的特定特征映射到共同特征空間中，然后進行可見光與紅外模態(tài)間的行人圖像識別，識別效果較好。在損失函數(shù)的設(shè)計方面，三元組損失（Triplet loss）函數(shù)［5］最初在解決人臉識別問題時被提出，之后成為一種廣泛應用的度量學習類損失函數(shù)?？缒B(tài)圖像推理網(wǎng)絡(luò)（Cross-modality Graph Reasoning Network，CGRNet）［6］、集合與實例結(jié)合的對齊重識別網(wǎng)絡(luò)（Joint Set-level and Instance-level Alignment re-identification network，JSIA）［7］中都使用了以縮小不同模態(tài)圖像間差異為目標的損失函數(shù)。另外，在可見光圖像的特征提取方面，增強判別性特征學習方法（Enhancing the Discriminative Feature Learning method，EDFL）［8］、帶加權(quán)三元組的注意力廣義平均池化模型（Attention Generalized mean pooling with Weighted triplet loss，AGW）［9］都使用圖像局部特征之間的關(guān)系強化圖像高層語義特征。

受以上研究啟發(fā)，本文提出了一種基于雙流結(jié)構(gòu)的跨模態(tài)行人重識別關(guān)系網(wǎng)絡(luò)（Infrared and Visible Relation Network Based on Dual-stream Structure，IVRNBDS）。該網(wǎng)絡(luò)綜合利用可見光和紅外模態(tài)行人圖像的不同特征、兩種特征的共享特征和行人身體不同部分的關(guān)系信息進行行人重識別，并使用異質(zhì)中心三元組損失（Hetero-Center Triplet Loss，HC_Tri Loss）函數(shù)［10］將不同模態(tài)的圖像特征映射到同一特征空間中。為驗證模型的有效性，在SYSU-MM01（SunYat-Sen University MultiModal re-identification）數(shù)據(jù)集［3］和RegDB（Dongguk Body-based person Recognition）數(shù)據(jù)集［11］兩個公開的跨模態(tài)行人重識別數(shù)據(jù)集上進行實驗，實驗結(jié)果表明IVRNBDS 具有較好的識別效果。

1 相關(guān)工作

目前已有的基于深度學習的跨模態(tài)行人重識別方法主要分為以下三類。

1）行人統(tǒng)一特征提取方式。該類方法是常用的減弱模態(tài)之間的差異的方法，主要思路是提取與模態(tài)差異無關(guān)的特征，比如：Ye 等［4］提出的雙流卷積神經(jīng)網(wǎng)絡(luò)特征學習網(wǎng)絡(luò)（TwO-stream convolutional Neural network fEature learning network，TONE），利用雙流網(wǎng)絡(luò)結(jié)構(gòu)提取可見光與紅外行人圖像之間的公共特征；Liu 等［8］利用提出增強判別性特征學習的網(wǎng)絡(luò)，具體地，利用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的不同層含有不同語義信息的特點，以跳步連接的方式融合中間層的特征；Xiang 等［12］將MGN（Multiple Granularity Network）結(jié)構(gòu)［13］引入特征提取模塊，結(jié)合圖像的局部和全局信息提高特征嵌入的表達能力；Lu 等［14］提出了跨模態(tài)共享及特異特征轉(zhuǎn)移算法，該算法采用了雙流特征提取器提取特征，通過圖卷積融合特異特征與共享特征；Zhao等［15］則是將不同模態(tài)的行人圖像輸入同一個網(wǎng)絡(luò)中，結(jié)合行人ID（IDentification）損失提取特征；Zhang 等［16］提出了一個基于雙流網(wǎng)絡(luò)的跨模態(tài)行人重識別算法，將兩種模態(tài)特定特征嵌入三維張量空間中，生成兩種模態(tài)下的特定內(nèi)核，然后通過對比計算兩個內(nèi)核的差異性提取對比特征。

2）基于度量學習的跨模態(tài)行人重識別方式。該類方法注重損失函數(shù)的設(shè)計。損失函數(shù)設(shè)計的目標是使同一行人的所有模態(tài)的圖像之間的距離盡可能小，使不同行人的所有模態(tài)的圖像之間的距離盡可能大，如：Ye 等［17］提出了雙向雙約束高階（Bi-directional Dual-constrained Top-Ranking，BDTR）損失，Zhu 等［18］提出了異質(zhì)中心損失，Liu 等［10］提出了HC_Tri Loss 等；另外，Hao 等［19］提出了Sphere Softmax 并對模態(tài)內(nèi)差異和模態(tài)間差異進行約束，Liu 等［8］利用雙模態(tài)三元組損失減小模態(tài)間和模態(tài)內(nèi)差異。

3）基于模態(tài)轉(zhuǎn)換的方式。該類方法利用生成對抗網(wǎng)絡(luò)將一種模態(tài)的行人圖像轉(zhuǎn)換成另一模態(tài)的行人圖像，以便更好地提取共享特征。Wang 等［20］設(shè)計了雙層差異縮減網(wǎng)絡(luò)，利用兩組生成對抗網(wǎng)絡(luò)對可見光與紅外行人圖像進行圖像的雙向轉(zhuǎn)換，通過特征嵌入減小無法充分轉(zhuǎn)換的外觀差異，以縮小特征提取結(jié)果的模態(tài)差異。Wang 等［21］提出了對齊的生成對抗網(wǎng)絡(luò)，也使用了兩組生成對抗網(wǎng)絡(luò)進行可見光與紅外模態(tài)行人圖像的雙向轉(zhuǎn)換。此研究與文獻［20］中的不同在于此研究將紅外圖像轉(zhuǎn)換成可見光圖像的生成對抗網(wǎng)絡(luò)用于輔助跨模態(tài)行人重識別模型訓練，然后和可見光的RGB三維度圖像拼接，生成四維度圖像，再進行總體訓練提取網(wǎng)絡(luò)特征。Zhang 等［22］提出了基于不同模態(tài)的師生模型，包含可見光圖像生成紅外圖像的生成對抗網(wǎng)絡(luò)、主干網(wǎng)絡(luò)和預訓練師生模型這3 個模塊，提升了生成圖像的質(zhì)量。Fan 等［23］提出了跨模態(tài)雙子空間配對方法實現(xiàn)模態(tài)互轉(zhuǎn)。Choi 等［24］為解決同一模態(tài)內(nèi)和不同模態(tài)間圖像特征差異的問題，提出了一種分層跨模態(tài)解糾纏方法。此方法可以從兩種模態(tài)圖像中分離模態(tài)內(nèi)特征和跨模態(tài)特征，提高了生成圖像的質(zhì)量。

這些方法都在一定程度上提升了可見光與紅外跨模態(tài)行人重識別模型在公開數(shù)據(jù)集上的識別精度，但目前的識別效果與單模態(tài)下的識別效果還有較大的差距；同時大多數(shù)方法都側(cè)重全局特征的提取和使用，沒有考慮更具有辨識度的局部特征、圖像的每個局部特征與整體特征的關(guān)系等細節(jié)。

2 IVRNBDS

IVRNBDS 的結(jié)構(gòu)如圖1 所示，由雙流模塊、關(guān)系模塊和損失函數(shù)模塊這部分組成。雙流模塊以殘差網(wǎng)絡(luò)（Residual Network，ResNet）50為骨干網(wǎng)絡(luò)，首先將輸入的可見光圖像和紅外圖像在Stage1 中的卷積塊分別進行模態(tài)特征提取，然后在Stage2 合并提取特征，并與Stage3、Stage4、Stage5 網(wǎng)絡(luò)層一起作為特征嵌入器進行參數(shù)共享得到共享特征。后續(xù)的關(guān)系模塊先將經(jīng)過雙流網(wǎng)絡(luò)提取的共享特征水平切分為6 個片段以進行局部特征的學習。接著，將局部特征分別輸入局部關(guān)系模塊（One-vs-Rest Relational Module，ORRM）和全局關(guān)系模塊（Global Contrastive Relation Module，GCRM）。ORRM 提取行人圖像每個單一片段與其他片段之間的關(guān)系特征，GCRM提取行人全局關(guān)系特征。為了使整個網(wǎng)絡(luò)模型提取到更多有效的行人特征，IVRNBDS 采用ID 分類損失和HC_Tri Loss 組合監(jiān)督訓練，以便更好地優(yōu)化可見光和紅外兩個模態(tài)中不同行人圖像之間的三元組關(guān)系。

圖1 IVRNBDS的結(jié)構(gòu)Fig.1 Structure of IVRNBDS

2.1 ORRM

ORRM 的輸入是共享特征水平切分所得到的6 個片段，v1～v6。圖2 給出片段v1與其他片段之間關(guān)系的計算過程。首先，對片段v1進行GeM（Generalized Mean）池化操作之后得到f(v1)，將剩余片段v2～v6求平均（圖2 中的A 操作），結(jié)果記作vr，再進行GeM 池化操作得到f(vr)。接著，將特征f(v1)和f(vr)分別進行卷積操作（圖2 中的Conv 操作，具體包括一個1×1 卷積、一個Batch Normalization 和一個ReLU（Rectified Linear Unit）操作），得到特征fˉ(v1)和fˉ(vr)。然后，對fˉ(v1)和fˉ(vr)進行連接（圖2 中的C 操作）、卷積操作（圖2 中的Conv操作，具體包括一個1×1 卷積、一個Batch Normalization 和一個ReLU 操作）。最后，將所得結(jié)果與fˉ(v1)相加（圖2 中的+操作）得到含有所有局部特征的局部關(guān)系特征f^(v1)。

圖2 片段v1與其他片段之間關(guān)系的計算過程Fig.2 Relation computing process of segment v1 and others

ORRM 對輸入v1～v6分別進行上述操作，得到6 個關(guān)系特征，分別記作f^(vi)（i=1，2，…，6）。ORRM 的結(jié)構(gòu)即包括圖2結(jié)構(gòu)的6個復本，每個復本對應求解一個片段vi（i=1，2，…，6）和其他片段vj(j=1，2，…，6 ∧j≠i) 之間的關(guān)系特征。ORRM 的設(shè)計思路很好地表達了行人的一個片段和其他片段之間的關(guān)系，有利于提取更具辨識度的行人特征信息。

2.2 GCRM

為了更好地表示整個行人圖像信息，可見光單模態(tài)行人重識別方法通常采用全局平均池化（Global Average Pooling，GAP）方法［25］或全局最大池化（Global Max Pooling，GMP）方法［26］，或者是這兩種方法的結(jié)合。GAP 方法的特點主要是進行整個行人圖像的平均全局信息表示，但是很容易摻雜圖像的背景信息使得提取的行人特征不干凈；GMP 方法的作用是過濾背景信息，而將局部有用的行人信息聚合到一起，但這樣缺少整個行人圖像的全局信息。Fu 等［27］將兩種方法結(jié)合，彌補了兩種方法單獨使用的缺陷，實驗結(jié)果表明兩種方法結(jié)合的效果優(yōu)于單獨使用GMP 或GAP。受此啟發(fā)，本文設(shè)計了GCRM，用于從行人身體片段信息中提取代表行人圖像的全局信息特征，GCRM的結(jié)構(gòu)如圖3所示。

圖3 GCRM的結(jié)構(gòu)Fig.3 Structure of GCRM

2.3 損失函數(shù)

本節(jié)損失函數(shù)用ID 身份損失（Lid）對提取的行人圖像局部特征進行計算，引進HC_Tri Loss 函數(shù)［10］計算全局特征，保留ID 身份損失對局部特征計算。HC_Tri Loss 函數(shù)與普通的三元組損失函數(shù)相比，更適用于跨模態(tài)行人重識別，因為它是將錨點中心與其他樣本中心比較，而普通的三元組損失是將錨點與其他樣本比較，這樣可以降低普通的三元組損失函數(shù)原有的強約束能力，讓不同模態(tài)的圖像更好地映射到同一特征空間中。

HC_Tri Loss 的示意圖見圖4。圖4 中的圓代表行人圖像樣本中心，不同的顏色代表不同標識的行人。異質(zhì)中心三元組損失的目標是從不同的模態(tài)拉近那些具有相同身份標簽的中心，推遠那些具有不同身份標簽的中心。無論哪個模態(tài)的樣本，都是比較中心到中心的相似性，而不是樣本到樣本的相似性或樣本到中心的相似性。

圖4 HC_Tri Loss的示意圖Fig.4 Schematic diagram of HC_Tri Loss

具體地，首先異質(zhì)中心三元組采取了在線隨機采樣策略，通過在網(wǎng)絡(luò)訓練的一次迭代過程中隨機選擇P位行人，接著在選中的P位行人中隨機選擇K張可見光圖像和K張紅外圖像組合成一個mini-batch，即一個mini-batch 共包含2 ×P×K張圖像。這種采樣策略充分發(fā)揮了小樣本采樣的優(yōu)勢，可以保證每一個行人的樣本數(shù)相同，巧妙地避免了樣本中行人圖像數(shù)不一致所帶來的干擾，并且隨機采樣使得在mini-batch 這種小范圍里的局部約束能夠和在整個數(shù)據(jù)集中的全局約束取得同等的效果。如上所示，在mini-batch 中獲取來自每個模態(tài)的每個行人標識的特征中心。如異質(zhì)中心三元組表達式如下：表最難區(qū)分的負樣本?？偠灾愘|(zhì)中心三元組損失函數(shù)的目標就是專注于一個跨模態(tài)的正樣本對和在模態(tài)內(nèi)與模態(tài)間最難區(qū)分的負樣本對。

本文將異質(zhì)中心三元組損失函數(shù)用于可見光-紅外跨模態(tài)行人重識別模型中，綜合優(yōu)勢主要有以下3 點.

1）減弱了傳統(tǒng)三元組損失函數(shù)的強約束力，降低了模型計算成本；

2）通過縮小不同模態(tài)圖像正樣本（中心）對之間的距離能夠有效地保證類內(nèi)的緊湊性；

3）最難負樣本（中心）的設(shè)計能夠有效地保證在可見光模態(tài)和紅外模態(tài)下不同行人特征的可區(qū)分性。

ORRM 模塊整體損失函數(shù)為：

GCRM 整體損失函數(shù)為：

最終總體損失表示為：

3 實驗與結(jié)果分析

3.1 實驗設(shè)置

本文實驗使用64 位Ubuntu20.04 操作系統(tǒng)，采用深度學習框架PyTorch 1.10.0 實現(xiàn)，訓練服務器采用顯卡內(nèi)存為32 GB 的NVIDIA 3090，CUDA 版本為11.3。與先前存在的跨模態(tài)行人重識別模型相同，采用在ImageNet 上進行預訓練后的權(quán)重參數(shù)進行初始化。在訓練階段，將輸入圖像的尺寸調(diào)整為高288，寬144，Batch Size 大小設(shè)為64，每次隨機選取4個不同的行人圖像作為模型輸入，每個行人包含有8 張可見光圖像和8 張紅外圖像。優(yōu)化器算法選取隨機梯度下降（Stochastic Gradient Descent，SGD）作為網(wǎng)絡(luò)模型的優(yōu)化器，總共訓練60 個epochs，學習率初始化值為0.1，第20 個epochs到第30個epochs之間學習率衰減為0.01，第50個epochs后學習率衰減為0.001，用于實驗的兩個跨模態(tài)數(shù)據(jù)集共享相同的實驗設(shè)置。

本文的實驗數(shù)據(jù)集是SYSU-MM01 數(shù)據(jù)集［3］和RegDB 數(shù)據(jù)集［11］，這是目前較常用的兩個公開的跨模態(tài)行人重識別數(shù)據(jù)集。SYSU-MM01 數(shù)據(jù)集由6 個攝像頭采集的圖像組成，包含4 個可見光攝像頭和2 個紅外攝像頭。總共包含491 個行人ID，其中296 個行人ID 用于訓練集，99 個行人ID 用于驗證集，96 個行人ID 用于測試集。在這些行人圖像中，可見光行人圖像數(shù)有15 792，RGB 圖像數(shù)有287 628，用作訓練集的可見光行人圖像數(shù)為19 659，紅外行人圖像數(shù)為12 792。RegDB數(shù)據(jù)集是同時使用可見光攝像頭和紅外攝像頭拍攝。共包含行人圖像數(shù)412（男人158，女人254），每人包含可見光圖像數(shù)10，紅外圖像數(shù)10，其中拍攝到行人正面的有156，背面的有256。全部圖像含有可見光行人圖像數(shù)4 120，紅外行人圖像數(shù)4 120。該數(shù)據(jù)行人圖像的特點是圖像比較小，清晰度較差，每個行人身份的可見光圖像和紅外圖像的姿態(tài)一一對應，在姿態(tài)上的變化很小，這些數(shù)據(jù)集本身的特點降低了跨模態(tài)行人重識別任務的難度。

3.2 相關(guān)方法對比

本文與近兩年表現(xiàn)較好的可見光-紅外跨模態(tài)行人重識別方法進行比較，對比方法主要有：基于度量學習的行人重識別方法TONE［4］、BDTR［17］；基于生成對抗網(wǎng)絡(luò)的方法XIV（X-Infrared-Visible）［28］、JSIA［7］、對齊的生成對抗網(wǎng)絡(luò)（Alignment Generative Adversarial Network，AlignGAN）［21］；基于局部特征學習的方法AGW［9］、動態(tài)雙注意聚集網(wǎng)絡(luò)（Dynamic Dual-attentive AGgregation network，DDAG）［29］、局部全局多通道學習方法（Global-Local MultiChannel learning method，GLMC）［30］以及基于共享參數(shù)學習的方法跨模態(tài)共享-特殊特征轉(zhuǎn)換（cross-modality Shared-Specific Feature Transfer，cm-SSFT）方法［13］、基于跨模態(tài)相似性保持（Cross-Modality Similarity Preservation，CMSP）的行人重識別算法［31］、顏色無關(guān)的特征一致性學習（Color-Irrelevant Consistency Learning，CICL）方法［32］、神經(jīng)特征查詢（Neural Feature Search，NFS）方法［33］。

本文實驗評價指標使用相似度排名第1（similarity Rank 1，Rank-1）和平均精度均值（mean Average precision，mAP）。Rank-1 指標指先求解每張查詢圖像與測試集（Gallery set）中每張圖像的相似度（similarity），對每張查詢圖像，依據(jù)相似度排序?qū)λ袦y試集圖像進行排序，再計算相似度最高的圖像與查詢圖像屬同一ID 的概率平均值。Rank-1 指標越高，實驗效果越好。對查詢集中每張查詢圖像、測試集中所有與之匹配的行人圖像先計算平均精度（Average Precision，AP），再求所有匹配的行人圖像的mAP。mAP 越高，實驗效果越好。

表1 列出了本文網(wǎng)絡(luò)與上述方法在SYSU-MM01 數(shù)據(jù)集上的對比結(jié)果。在全局搜索模式下，IVRNBDS 比上述方法效果更好。IVRNBDS 在性能評價指標Rank-1 和mAP 上對應的取值分別為70.13%和65.33%，比GLMC 方法在Rank-1 指標上提升了5.76 個百分點，在mAP 指標上提升了1.90 個百分點。在室內(nèi)搜索模式下，IVRNBDS 也表現(xiàn)出了較大的優(yōu)勢。比NFS、CICL、GLMC 方法在Rank-1 指標上分別提升了7.57、3.76、3.01 個百分點，比NFS、cm-SSFT 方法在mAP 指標上分別提升了3.36 和0.55 個百分點。

表1 IVRNBDS與其他方法在SYSU-MM01數(shù)據(jù)集上的性能對比單位：%Tab.1 Performance comparison of IVRNBDS and other methods on SYSU-MM01 dataset unit：%

表2 為IVRNBDS 和其他對比方法在RegDB 數(shù)據(jù)集上的實驗結(jié)果對比。在可見光-紅外模式（Visible-Infrared）下，IVRNBDS 分別取得了92.34%的Rank-1 和92.58%的mAP，與GLMC 相比，在Rank-1 上提升了0.5 個百分點，在mAP 上提升了11.16 個百分點。同樣有效的是在紅外-可見光模式（Infrared-Visible）下，IVRNBDS 分別取得了91.35%的Rank-1和91.78%的mAP。相較于GLMC，在Rank-1 上提升了0.23個百分點，在mAP 上提升了10.72 個百分點。

表2 IVRNBDS與其他方法在RegDB數(shù)據(jù)集上的性能對比單位：%Tab.2 Performance comparison of IVRNBDS and other methods on RegDB dataset unit：%

3.3 消融實驗

為了進一步分析IVRNBDS 框架中ORRM、GCRM 和異質(zhì)中心三元組損失函數(shù)設(shè)計的有效性及貢獻，本文設(shè)計了一系列消融實驗。使用AGW 網(wǎng)絡(luò)，應用標準的交叉熵分類損失與帶權(quán)重的正則三元組損失函數(shù)進行優(yōu)化，在表3 中用“B”來表示。采取分別添加ORRM、GCRM、異質(zhì)中心三元組損失函數(shù)的方式，對比它們對紅外-可見光跨模態(tài)行人重識別任務的影響。整個實驗在SYSU-MM01 數(shù)據(jù)集上進行。

表3 SYSU-MM01數(shù)據(jù)集上的消融實驗結(jié)果單位：%Tab.3 Results of ablation experiments on SYSU-MM01 dataset unit：%

ORRM的影響如表3所示，和Baseline網(wǎng)絡(luò)（表3中表示為B）相比，包含了ORRM 得到的模型取得了更好的效果。在全局搜索模式下性能評價指標Rank-1 由47.50%提升至62.68%，mAP 則從47.65%提升至57.51%；在室內(nèi)搜索模式下模型性能也得到了相應的提升，Rank-1提升了8.24個百分點，mAP則提升了4.20個百分點。在RegDB 數(shù)據(jù)集上的實驗結(jié)果見表4，在可見光-紅外模式下，與Baseline 相比，在Rank-1 和mAP 指標上分別提升了18.88 和23.57 個百分點；在紅外-可見光模式下，因為在原論文中沒有結(jié)果，所以在此不再討論。實驗結(jié)果驗證了ORRM關(guān)系模塊的有效性。

表4 RegDB數(shù)據(jù)集上的消融實驗結(jié)果單位：%Tab.4 Results of ablation experiments on RegDB dataset unit：%

GCRM 的影響如表3 所示，與Baseline 網(wǎng)絡(luò)相比，當使用了GCRM 后，模型性能得到了顯著的提高，在全局搜索模式下，加入GCRM 之后，Rank-1提升了14.5個百分點，mAP 提升了11.79 個百分點，在室內(nèi)搜索模式也取得了極大的性能提升，Rank-1 提升了13.2 個百分點，mAP 提升了7.17 個百分點。性能評價指標Rank-1 精確率由47.50% 提升到了62.00%，而mAP 則從47.65%提升到了59.44%。在RegDB數(shù)據(jù)集上的實驗結(jié)果見表4，在可見光-紅外模式下，與Baseline 相比，在Rank-1 和mAP 指標上分別提升了16.89 和21.79個百分點，驗證了GCRM的有效性。

異質(zhì)中心三元組損失函數(shù)的影響同樣地，與Baseline網(wǎng)絡(luò)相比，用異質(zhì)中心三元組損失函數(shù)替換Baseline中的批次難樣本挖掘損失后得到的模型性能也得到了提升，取得了更好的效果，性能評價指標Rank-1 在全局搜索和室內(nèi)搜索兩種模式下分別提升了14.02 和11.24 個百分點，而mAP 分別提升了10.87 和6.33 個百分點。在RegDB 數(shù)據(jù)集上的實驗結(jié)果見表4，在可見光-紅外模式下，與Baseline 相比，在Rank-1 和mAP指標上分別提升了9.17和1.98個百分點，驗證了異質(zhì)中心三元組損失函數(shù)對跨模態(tài)行人重識別任務的有效性。

選擇三元組損失函數(shù)和批量難樣本三元組損失函數(shù)［34］與本文使用的異質(zhì)中心三元組損失函數(shù)進行對比。表5 中“A”表示除去損失函數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)。表5 給出在SYSU-MM01 數(shù)據(jù)集上、在實驗設(shè)備和實驗環(huán)境都相同情況下，60 個epochs 的訓練時間?？梢姰愘|(zhì)中心三元組損失的訓練時間要少于其他的三元組損失函數(shù)。

表5 不同損失函數(shù)在SYSU-MM01數(shù)據(jù)集上的訓練時間單位：minTab.5 Training time of different loss functions on SYSU-MM01 dataset unit：min

此外，還比較了IVRNBDS 與同樣使用雙流網(wǎng)絡(luò)結(jié)構(gòu)的AGW 和DDAG 的計算量和推理時間，如表6 所示。相較于AWG，IVRNBDS 和DDAG 的計算量，即每秒浮點運算次數(shù)（FLoating-point Operations Per second，F(xiàn)LOPs）會稍微更大一些，原因是網(wǎng)絡(luò)關(guān)注局部特征與整體特征的關(guān)系，所以包含了耗時較多的分塊操作。而IVRNBDS 和DDAG 模型，都包含分塊操作，計算量相差不大。但IVRNBDS 在單幅圖像進行推理時所消耗的時間會比DDAG 更多，這是因為IVRNBDS需要作大量分塊后的局部特征-全局特征關(guān)系的計算，這一操作比較復雜，需要等到所有分塊的關(guān)系特征計算完畢才能進行下一步的計算，網(wǎng)絡(luò)在等待同步的時候需要花費時間。但是IVRNBDS 的實驗結(jié)果均優(yōu)于其他對比模型的評價指標，這是值得的。

表6 不同方法在SYSU-MM01數(shù)據(jù)集上的計算開銷Tab.6 Computational cost of different methods on SYSU-MM01 dataset

最后，實驗表明使用了本文中的所有模塊的IVRNBDS取得了最佳的性能。在SYSU-MM01 和RegDB 數(shù)據(jù)集上得出的實驗結(jié)果說明了IVRNBDS 的有效性。從以上實驗結(jié)果可以看到，IVRNBDS 在RegDB 數(shù)據(jù)集上的提升幅度比在SYSU-MM01 數(shù)據(jù)集上更大，這是因為RegDB 數(shù)據(jù)集的圖像小、清晰度較低，并且每個身份的可見光圖像和紅外圖像的姿態(tài)變化幅度很小，基本上一一對應。得益于ORRM 挖掘了單個模態(tài)圖像的局部特征與其他部分特征之間的關(guān)系，以及GCRM 挖掘的行人圖像核心特征和平均特征之間的對比關(guān)系，異質(zhì)中心三元組損失函數(shù)的使用，也讓不同模態(tài)圖像之間的全局特征更具表達力并且減弱了背景噪聲信息的干擾，使得IVRNBDS 在SYSU-MM01 和RegDB 數(shù)據(jù)集都取得了效果的提升，并且在RegDB 數(shù)據(jù)集上的提升效果尤為明顯。

3.4 可視化分析

圖5 展示了IVRNBDS 在跨模態(tài)數(shù)據(jù)集SYSU-MM01 上進行實驗的3 組可視化結(jié)果。每一行代表一組，每組包括9 列。其中的Query 列代表待檢索行人圖像，接著的8 列圖像表示IVRNBDS 從行人圖像庫gallery 中檢索出來的與待檢索行人Query 相似度最高的行人圖像，排序越靠近Query 列的圖像，相似度越高。

另外，在對IVRNBDS 進行測試時，對行人重識別的檢索結(jié)果進行了可視化檢驗，檢索結(jié)果正確用方框展示，檢索結(jié)果錯誤用虛線框展示。圖5 中虛線框和方框的情況大體上反映了IVRNBDS 在SYSU-MM01 公開數(shù)據(jù)集上全局搜索模式下的結(jié)果，可以看出與待查詢圖像具有相同尺度大小的圖像匹配更準確；與待查詢圖像角度不同的圖像匹配效果基本準確；對有多個人物重疊圖像匹配效果不是很理想?？傮w來說，通過可視化的方式展示了IVRNBDS 的有效性。

4 結(jié)語

本文針對可見光-紅外跨模態(tài)行人重識別精度低的問題提出了IVRNBDS，IVRNBDS 主要包含雙流模塊、關(guān)系模塊和損失函數(shù)模塊。關(guān)系模塊中，ORRM 進行行人圖像局部關(guān)系特征的挖掘，GCRM 進行行人圖像的核心特征與平均特征之間的對比關(guān)系特征的提取；異質(zhì)中心三元組損失函數(shù)將錨點中心與其他樣本中心作比較，更適用于跨模態(tài)行人重識別。實驗結(jié)果表明，IVRNBDS 在可見光-紅外跨模態(tài)行人重識別公開數(shù)據(jù)集SYSU-MM01 和RegDB 上都取得了不錯的識別效果，在識別精度上取得了有效的提升。

比較不同模態(tài)圖像特征，進而提取共同特征，使用同一網(wǎng)絡(luò)框架或算法同時處理單模態(tài)和跨模態(tài)行人重識別任務、并提高識別精確率是下一步要研究的問題。