程 德,郝 毅,周靖宇,王楠楠,高新波
(1.西安電子科技大學(xué) 通信工程學(xué)院,陜西 西安 710071;2.重慶郵電大學(xué),重慶 400065)
行人重識別是指給定某監(jiān)控場景下的特定行人圖像,運用計算機視覺和機器學(xué)習(xí)等方法來檢索跨攝像頭或跨時間域下的具有相同身份的行人圖像,被廣泛應(yīng)用于智能視頻監(jiān)控領(lǐng)域,解決了復(fù)雜監(jiān)控場景中感興趣目標(biāo)識別、長時跟蹤等問題,回答了智能視頻監(jiān)控領(lǐng)域“感興趣目標(biāo)是誰?”這一關(guān)鍵問題[1]。行人重識別技術(shù)近年來引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,迫切的工業(yè)應(yīng)用需求催生了學(xué)術(shù)界極大的研究熱情,在該領(lǐng)域涌現(xiàn)出了眾多研究成果,很多方法在現(xiàn)有公開標(biāo)準(zhǔn)數(shù)據(jù)集上甚至超越了人類的識別精度。但是,目前該技術(shù)依舊遠(yuǎn)遠(yuǎn)沒有達到落地應(yīng)用的技術(shù)要求。其中一項最主要的原因是:真實監(jiān)控場景中的數(shù)據(jù)類型和質(zhì)量極其復(fù)雜多樣,僅僅研究理想光照條件下的單一可見光模態(tài)行人重識別技術(shù),已經(jīng)遠(yuǎn)遠(yuǎn)不能支撐實際監(jiān)控場景的應(yīng)用需求。針對多模態(tài)數(shù)據(jù)的行人重識別亟待深入研究。
當(dāng)前行人重識別方面的研究主要是針對可見光數(shù)據(jù),并且這些數(shù)據(jù)均是在理想光照條件下收集到的高分辨率圖像。然而,實際監(jiān)控場景面臨室內(nèi)/室外、白天/黑夜、陰雨等變化多端的自然光照條件,而可見光成像固有原理導(dǎo)致可見光傳感器對光照條件非常敏感,微弱的光照變化往往會引起極大的視覺差異,導(dǎo)致弱光照條件下模型識別性能嚴(yán)重降低。圖1給出了部分可見光—紅外圖像行人重識別數(shù)據(jù)示例。為了彌補可見光數(shù)據(jù)在弱光照條件下的不足,構(gòu)建了一個支撐全天候、全場景智能視頻監(jiān)控需求的行人重識別系統(tǒng),筆者將研究可見光—紅外圖像行人重識別技術(shù)。紅外攝像機的優(yōu)勢是其成像原理不依賴于人體對可見光的反射,因此在低照度條件下紅外圖像行人重識別可以作為可見光行人重識別技術(shù)的有力補充。

圖1 可見光—紅外圖像示例
可見光—紅外圖像行人重識別,是指利用可見光/紅外圖像行人數(shù)據(jù)匹配紅外/可見光圖像行人數(shù)據(jù)。這是一種異質(zhì)行人圖像數(shù)據(jù)之間的檢索問題,其核心問題是構(gòu)建跨模態(tài)數(shù)據(jù)間的統(tǒng)一共享特征表達,主要技術(shù)難點在于如何有效區(qū)分跨模態(tài)數(shù)據(jù)中的模態(tài)共享和模態(tài)特有特征信息。在跨模態(tài)圖像識別任務(wù)中,期望跨模態(tài)共享特征信息學(xué)習(xí)到更多與身份判別相關(guān)聯(lián)的信息。因此,如果所學(xué)共享特征信息混有比較多的與模態(tài)特有特征相關(guān)的信息,則會降低統(tǒng)一特征表達下的身份判別能力。同時,跨模態(tài)數(shù)據(jù)之間的非線性映射比單一類型數(shù)據(jù)在低維空間上的非線性映射更加復(fù)雜,這將會對模型結(jié)構(gòu)設(shè)計提出更高的要求,模型架構(gòu)也會更加復(fù)雜。在現(xiàn)有跨模態(tài)行人重識別研究中,最主要的研究方法是基于雙通路神經(jīng)網(wǎng)絡(luò)的特征提取模型。其中一類方法稱為雙通路共享神經(jīng)網(wǎng)絡(luò)架構(gòu),該結(jié)構(gòu)直接采用骨干網(wǎng)絡(luò)整體參數(shù)共享的方式獲得跨模態(tài)數(shù)據(jù)間的共享特征表示;另一類方法稱為雙通路混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)首先采用非共享參數(shù)的雙通路神經(jīng)網(wǎng)絡(luò)分別捕獲不同模態(tài)圖像的特有信息,然后在此基礎(chǔ)上采用共享參數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)將不同模態(tài)特征信息嵌入到統(tǒng)一的共享特征空間中。在上述神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計的基礎(chǔ)上,相對于單一可見光模態(tài)行人重識別任務(wù),大量方法研究了跨模態(tài)數(shù)據(jù)特征之間的約束關(guān)系,設(shè)計了不同模態(tài)數(shù)據(jù)之間的信息傳遞機制和樣本特征間近鄰關(guān)系的一致性約束準(zhǔn)則,挖掘不同模態(tài)數(shù)據(jù)間的特征互補學(xué)習(xí)策略,最終結(jié)合上述兩種方法建立跨模態(tài)數(shù)據(jù)之間的共享特征表達。眾所周知,神經(jīng)網(wǎng)絡(luò)架構(gòu)往往對模型的特征表達能力起到?jīng)Q定性的作用,因此將重點針對雙通路混合神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進行分析,尋找更優(yōu)的雙通路混合神經(jīng)網(wǎng)絡(luò)架構(gòu),平衡模型針對不同模態(tài)數(shù)據(jù)特有特征和共享特征的表達學(xué)習(xí)能力,有效地提升多模態(tài)數(shù)據(jù)之間的匹配能力。同時,針對整個神經(jīng)網(wǎng)絡(luò)架構(gòu)的特性,采用學(xué)習(xí)率分級自適應(yīng)調(diào)整策略,有效地提升了模型的特征學(xué)習(xí)能力。
筆者的創(chuàng)新點和貢獻包括:(1)提出了一種基于混合雙通路神經(jīng)網(wǎng)絡(luò)的跨模態(tài)行人重識別方法,利用該方法深入分析了混合雙通路神經(jīng)網(wǎng)絡(luò)中模態(tài)共享參數(shù)層和模態(tài)獨有參數(shù)層的設(shè)計對跨模態(tài)行人重識別模型的影響,同時針對模型嵌入層,在設(shè)計損失函數(shù)的時候充分考慮了不同模態(tài)數(shù)據(jù)類內(nèi)特征分布的一致性約束和類間相關(guān)性約束準(zhǔn)則;(2)針對整個神經(jīng)網(wǎng)絡(luò)架構(gòu)的優(yōu)化,采用了學(xué)習(xí)率自適應(yīng)分級調(diào)整策略來提升模型的特征學(xué)習(xí)能力;(3)通過大量實驗,驗證了所提出方法在當(dāng)前紅外—可見光行人重識別標(biāo)準(zhǔn)數(shù)據(jù)集(SYSU-MM01和RegDB)上獲得了非常高的識別精度。
行人重識別研究是面向監(jiān)控視頻的行人圖像檢索。由于真實監(jiān)控場景中的視頻數(shù)據(jù)類型和質(zhì)量極其復(fù)雜多樣,導(dǎo)致行人重識別面臨如下技術(shù)挑戰(zhàn)[2]:(1)大規(guī)模復(fù)雜監(jiān)控場景中攝像頭安裝角度的多樣性導(dǎo)致行人圖像在二維圖像空間中的視角變化巨大;(2)由于不同監(jiān)控場景中攝像頭與行人距離的差異,導(dǎo)致行人圖像的分辨率變化多樣;(3)受監(jiān)控場景(如室內(nèi)/室外)、天氣變化等因素影響,導(dǎo)致同一行人在不同攝像頭或不同時段的圖像視覺特征差異非常大;(4)復(fù)雜監(jiān)控場景中遮擋問題導(dǎo)致難以獲得完整的行人圖像;(5)受行人姿態(tài)和監(jiān)控視角的影響,導(dǎo)致不同監(jiān)控場景中同一行人圖像之間的類內(nèi)差異往往大于不同行人圖像之間的差異。現(xiàn)有大量可見光行人重識別研究工作主要解決以上技術(shù)挑戰(zhàn),而跨模態(tài)“可見光—紅外”行人重識別主要解決的是不同模態(tài)數(shù)據(jù)之間的特征對齊和數(shù)據(jù)映射等問題。因此,將分別從單一模態(tài)下的可見光行人重識別和跨模態(tài)行人重識別這兩方面探討相關(guān)研究工作。
單一模態(tài)下的可見光行人重識別算法可以分為3類:第1類是基于手工設(shè)計行人圖像描述子的方法。這類方法主要結(jié)合了圖像特征描述子和行人圖像本身所特有的形狀和屬性信息,設(shè)計了專門針對行人圖像的特征描述子[3]。第2類方法是基于距離度量損失函數(shù)的方法[4]。此類方法的核心思想是最小化相同類別樣本之間的距離,同時最大化不同類樣本之間的距離。這種距離度量的方法都是與基于特征的表示方法相結(jié)合使用的。第3類方法是基于深度學(xué)習(xí)的端到端模型,也是近年來在行人重識別領(lǐng)域取得突破性進展的一類方法。此類基于深度學(xué)習(xí)的行人重識別方法按照研究側(cè)重點不同,筆者將主要從神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計和距離度量損失函數(shù)的設(shè)計兩個層面進行探討。其中在神經(jīng)網(wǎng)絡(luò)設(shè)計方面,除了使用基準(zhǔn)的圖像分類模型外,很多代表性的方法設(shè)計了基于部件結(jié)構(gòu)的行人重識別網(wǎng)絡(luò)模型[5],或者基于姿態(tài)估計方法的網(wǎng)絡(luò)結(jié)構(gòu)[6]。還有其他一些基于注意力機制的網(wǎng)絡(luò)模型,如基于圖神經(jīng)網(wǎng)絡(luò)[7]和對抗神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)模型等[8]。筆者所設(shè)計的“紅外—可見光”行人重識別方法,采用基礎(chǔ)網(wǎng)絡(luò)架構(gòu),利用部件分割的策略來提升行人圖像間的空間匹配度和模型判別力。在距離度量損失函數(shù)的設(shè)計方面,近年來被廣泛使用的損失函數(shù)包括Triplet Loss[5]、Contrastive Loss[9]、Quadruplet Loss[10]、Large Margin Cosine Loss[11]以及這些距離度量損失函數(shù)的多個變種等。近年來所提出來的眾多行人重識別方法在多個標(biāo)準(zhǔn)數(shù)據(jù)集,如Market 1501[12]、MARS[13]等數(shù)據(jù)集上甚至獲得了超越人眼的識別精度,并且在相關(guān)理論和方法上也取得了比較多的技術(shù)突破。但是,受限于監(jiān)控場景中存在大量弱光照的情景,導(dǎo)致僅僅使用可見光數(shù)據(jù)難以完成全天候智能視頻監(jiān)控的要求。
“可見光—紅外”行人重識別彌補了單一可見光數(shù)據(jù)在弱光照條件下的不足,但是該類跨模態(tài)行人重識別問題不僅要面臨單一模態(tài)下的圖像間的對齊匹配問題,同時也將面臨不同模態(tài)數(shù)據(jù)之間的模態(tài)漂移問題。目前跨模態(tài)行人重識別方面的研究工作相對可見光行人重識別還比較少,并未形成統(tǒng)一的研究體系。當(dāng)前代表性的研究工作有:WU等[14]首先提出用于“可見光—紅外”跨模態(tài)行人重識別的數(shù)據(jù)集SYSU-MM01,利用“零填充”的網(wǎng)絡(luò)輸入形式彌補跨模態(tài)數(shù)據(jù)之間的對齊問題,以此取得了比較好的識別精度,并被后續(xù)工作廣泛引用;YE等[15]先通過雙通路神經(jīng)網(wǎng)絡(luò)分別提取可見光和紅外圖像特征,然后將兩個不同模態(tài)之間的特征映射到同一特征空間中,整個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用對比損失函數(shù)來約束不同模態(tài)數(shù)據(jù)分布之間的一致性;HAO等[16]提出使用生成對抗網(wǎng)絡(luò)來學(xué)習(xí)紅外和可見光圖像下的共享特征表示,其中生成網(wǎng)絡(luò)用來學(xué)習(xí)圖像的特征表示,判別網(wǎng)絡(luò)用來區(qū)分所生成的特征屬于哪種模態(tài);CHOI等[17]提出了一種針對多模態(tài)數(shù)據(jù)進行特征解離的方法,將跨模態(tài)數(shù)據(jù)特征解離為與身份信息識別相關(guān)和無關(guān)的數(shù)據(jù)特征表達,并通過身份信息約束網(wǎng)絡(luò)來強化特征解離模型的正確性;LI等[18]提出利用一種交叉輔助模態(tài)來降低跨模態(tài)數(shù)據(jù)間直接映射所面臨的模型非線性程度過高和模型收斂困難的問題;FU等[19]提出了基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的方法,該研究為跨模態(tài)多源數(shù)據(jù)共享特征學(xué)習(xí)搜索到了更優(yōu)的網(wǎng)絡(luò)基礎(chǔ)架構(gòu);HAO等[20]重點分析了跨模態(tài)數(shù)據(jù)的類內(nèi)一致性分布和類間相關(guān)性約束準(zhǔn)則來進一步提升跨模態(tài)行人重識別的性能。筆者所提出的方法也是在文獻[20]中算法的基礎(chǔ)上,進一步將其拓展到混合雙通路神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并深入分析該結(jié)構(gòu)中模態(tài)共享參數(shù)層和模態(tài)獨有參數(shù)層對跨模態(tài)行人重識別模型的影響,針對該網(wǎng)絡(luò)結(jié)構(gòu)采用了混合自適應(yīng)學(xué)習(xí)率調(diào)整策略來提升模型的特征學(xué)習(xí)能力,最終在標(biāo)準(zhǔn)數(shù)據(jù)集SYSU-MM01和RegDB上分別在基線模型[20]Top-1評價指標(biāo)上識別精度提升5.5%和12.4%,在mAP評價指標(biāo)上平均精度分別超出基線模型[20]2.0%、8.8%。
“可見光—紅外”行人重識別數(shù)據(jù)集可以表示為D={V,I},其中V表示可見光(RGB)數(shù)據(jù),I表示紅外圖像數(shù)據(jù)。圖2為筆者所提出的混合雙通路神經(jīng)網(wǎng)絡(luò)架構(gòu),包含了骨干神經(jīng)網(wǎng)絡(luò)和特征嵌入網(wǎng)絡(luò)。

圖2 筆者所提算法框圖
采用ResNet50[21]作為骨干網(wǎng)絡(luò)層,其最后一個池化層之前的輸出作為輸入圖像的特征表示。由于跨模態(tài)數(shù)據(jù)間包含模態(tài)共享和模態(tài)特有特征信息,跨模態(tài)識別任務(wù)期望模態(tài)共享特征信息學(xué)習(xí)到更多與身份判別相關(guān)聯(lián)的特征。如果共享特征信息中混有比較多的與模態(tài)特有特征相關(guān)的信息,則會降低統(tǒng)一特征表達下的身份識別能力。眾所周知,神經(jīng)網(wǎng)絡(luò)的高層特征輸出更能表達高層語義,其特征的身份判別能力更強。因此,筆者所設(shè)計的神經(jīng)網(wǎng)絡(luò)架構(gòu)在高層網(wǎng)絡(luò)空間中采用參數(shù)共享的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提取與身份判別相關(guān)的模態(tài)共享特征信息,這也是跨模態(tài)行人重識別特征學(xué)習(xí)的最終目的。鑒于不同模態(tài)的數(shù)據(jù)具有其特異性,針對“可見光—紅外”行人重識別任務(wù),文中方法在骨干網(wǎng)絡(luò)的低層采用參數(shù)非共享的網(wǎng)絡(luò)結(jié)構(gòu),提取模態(tài)特有和共享的底層圖像特征表達。
如何設(shè)定骨干網(wǎng)絡(luò)中的參數(shù)共享/非共享狀態(tài)信息,將作為實驗部分重點討論的問題之一。在表1中給出了ResNet50網(wǎng)絡(luò)結(jié)構(gòu)的命名及對應(yīng)層參數(shù)說明。該表中的具體參數(shù)解釋可以參考文獻[21]。該主干網(wǎng)絡(luò)在最后一個Softmax層之前的設(shè)置與原始ResNet50[21]完全一樣,表1中的名稱也與其一致,只是為了簡化表格,合并了第一個卷積層和池化層,將其稱為Conv0。針對主干網(wǎng)絡(luò)各層Conv0、Conv1_x、Conv2_x、Conv3_x、Conv4_x逐步設(shè)置雙路網(wǎng)絡(luò)參數(shù)共享/非共享來進行實驗驗證,最終為混合雙通路神經(jīng)網(wǎng)絡(luò)搜索到更優(yōu)的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)。通過實驗,最終確認(rèn)Conv0、Conv1_x和Conv2_x作為參數(shù)不共享層,而Conv3_x和Conv4_x作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu)中的參數(shù)共享層,具體如圖2所示。

表1 ResNet50神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)命名及參數(shù)說明

(1)
其中,yi表示第i個輸入圖像Vi或Ii的真實標(biāo)簽,即每張輸入圖像的K個部件特征共用該圖像的標(biāo)簽信息。
在目標(biāo)函數(shù)構(gòu)建方面,采用多目標(biāo)聯(lián)合優(yōu)化的方式進行[9],包括用于樣本身份鑒別的交叉熵?fù)p失ce、跨模態(tài)樣本類內(nèi)特征分布的一致性約束損失d,以及類間相關(guān)性約束損失co。
total=ce+αd+βco,
(2)

學(xué)習(xí)率對訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)往往也起到非常重要的作用。針對圖2所示混合雙通路神經(jīng)網(wǎng)絡(luò)架構(gòu),其包含由ResNet50構(gòu)成的骨干神經(jīng)網(wǎng)絡(luò)和特征嵌入神經(jīng)網(wǎng)絡(luò)層。采用混合自適應(yīng)學(xué)習(xí)率調(diào)整的策略對該雙通路神經(jīng)網(wǎng)絡(luò)進行優(yōu)化。首先,在模型初始訓(xùn)練階段(10 epoch以內(nèi)),采用逐步線性增長的學(xué)習(xí)率,這樣相比于使用一個比較小的固定學(xué)習(xí)率可以有更大的動態(tài)范圍讓參數(shù)自適應(yīng)地進行調(diào)整。在最后階段(20 表2 模型優(yōu)化策略 表2中的lr為初始學(xué)習(xí)率,以上策略在實驗討論部分均有詳細(xì)的實驗驗證比較。這種學(xué)習(xí)率預(yù)熱策略使得模型在訓(xùn)練初期使用比較小的學(xué)習(xí)率,隨著迭代次數(shù)增加,學(xué)習(xí)率也逐步提高,直到預(yù)熱截斷結(jié)束后達到設(shè)定的學(xué)習(xí)率。這樣能夠避免學(xué)習(xí)率突然增大而導(dǎo)致的模型震蕩、誤差激增的情況。最后模型在收斂階段使用更小的學(xué)習(xí)率,微調(diào)模型,進一步提升訓(xùn)練效果。 實驗在中山大學(xué)(Sun Yat-Sen University,SYSU)的SYSU-MM01可見光—紅外行人數(shù)據(jù)庫[14]以及韓國東國大學(xué)的RegDB可見光—熱紅外行人數(shù)據(jù)庫[14]上進行。SYSU-MM01數(shù)據(jù)庫包含由4個不同場景下的可見光攝像頭捕捉的287 628幅可見光行人圖像以及由兩個不同場景下的紅外攝像頭捕捉的15 792張紅外行人圖像。SYSU-MM01數(shù)據(jù)庫包含491個行人身份,其中395個行人身份的所有圖像用于訓(xùn)練模型,96個行人身份的所有圖像用于測試。選用SYSU-MM01數(shù)據(jù)庫上的單幀全場景評價模式進行實驗,該模式是SYSU-MM01數(shù)據(jù)庫上難度最大、最具有挑戰(zhàn)性的評價模式。RegDB數(shù)據(jù)庫包含了412個行人身份,針對每個行人身份采集了10張可見光圖像以及10張熱紅外圖像。與之前的行人重識別方法保持一致[15],采取了交叉驗證的方式在該數(shù)據(jù)庫上進行實驗驗證,即按1∶1的比例將行人身份的一半用于訓(xùn)練,一半用于測試,并重復(fù)這種隨機劃分10次,取平均值作為最終結(jié)果。對于RegDB數(shù)據(jù)庫,在進行測試時,常規(guī)的測試方法是使用可見光進行檢索,將紅外圖像作為待檢索圖像。除此之外,還有一種測試方法是使用紅外圖像進行檢索,使用可見光圖像作為待檢索圖像。 實驗使用了累積匹配(Cumulative Match Characteristic,CMC)曲線中的 Top-1 識別率、Top-10 識別率和 Top-20 識別率作為評價指標(biāo)。這3個值越高,表示在不同設(shè)置下識別得越準(zhǔn)確。此外,還使用了平均均值精度(mean Average Precision,mAP)這一信息檢索領(lǐng)域常用的評價準(zhǔn)則作為跨模態(tài)行人重識別任務(wù)的評價方式。mAP的值越高,表示模型的檢索能力越好。 文中所述方法均由PyTorch[22]實現(xiàn),所有實驗均在搭載 Intel Xeon 6230(2.10 GHz)中央處理器與32 GB顯存的英偉達 Tesla V100顯卡的計算機上運行。為了與之前的工作[9]進行公平比較,特征提取器同樣使用 ResNet50 網(wǎng)絡(luò)作為其骨干網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入圖像大小為384×128;實驗中同樣將跨模態(tài)行人圖像的特征圖分為6塊,即K=6。模型使用Adam優(yōu)化器進行,具體優(yōu)化策略在第2部分已經(jīng)介紹。對于RegDB 數(shù)據(jù)庫和 SYSU-MM01數(shù)據(jù)庫,均訓(xùn)練60個epoch,訓(xùn)練時每個批次對8個不同身份的數(shù)據(jù)行采樣,對每個身份采樣4張可見光圖像和4張紅外圖像,因此訓(xùn)練時的批大小為64。 3.3.1 模態(tài)共享層數(shù)量分析 通過實驗分析在骨干網(wǎng)絡(luò)中模態(tài)獨有參數(shù)層的數(shù)量對跨模態(tài)行人重識別性能的影響。表3中給出了實驗結(jié)果。 表3 不同網(wǎng)絡(luò)結(jié)構(gòu)下的SYSU-MM01數(shù)據(jù)集上的實驗結(jié)果 % 為了驗證模態(tài)獨有參數(shù)層對跨模態(tài)行人重識別性能的影響,報告了5種不同的雙通路網(wǎng)絡(luò)結(jié)構(gòu)在跨模態(tài)行人重識別任務(wù)上的實驗結(jié)果。其中“雙通路-0”表示共享參數(shù)層為骨干網(wǎng)絡(luò)的“Conv1_x”及之后的部分,“雙通路-1”表示共享參數(shù)層為骨干網(wǎng)絡(luò)的“Conv2_x”及之后的部分,“雙通路-2”表示共享參數(shù)層為骨干網(wǎng)絡(luò)的“Conv3_x”及之后的部分,“雙通路-3”表示共享參數(shù)層為骨干網(wǎng)絡(luò)的“Conv4_x”及之后的部分,“雙通路-4”表示參數(shù)完全獨立的兩路神經(jīng)網(wǎng)絡(luò)。在上述5種結(jié)構(gòu)中,非共享參數(shù)層的網(wǎng)絡(luò)層均使用模態(tài)獨有參數(shù)。 從表3中數(shù)據(jù)可以看出,使用雙通路網(wǎng)絡(luò)結(jié)構(gòu)可以有效地提升基線模型的識別與檢索性能。具體來說,在實驗中使用相同訓(xùn)練技巧的情況下,使用的“雙通路-2”結(jié)構(gòu)相比于全共享單通路網(wǎng)絡(luò),在Top-1識別率上提升了2.09%,達到49.79%,在Top-5、Top-10以及Top-20這3個指標(biāo)上效果均取得一致性提升。在mAP指標(biāo)上,“雙通路-2”網(wǎng)絡(luò)結(jié)構(gòu)相比于全共享單通路網(wǎng)絡(luò)結(jié)構(gòu)提升了1.73%,但是參數(shù)量僅僅比全共享網(wǎng)絡(luò)多了13×1 000個參數(shù)。通過對不同結(jié)構(gòu)雙通路模型的分析和對比可以看出,模態(tài)獨有參數(shù)層的數(shù)量并不是越多越好。對于ResNet50模型,當(dāng)使用殘差模塊之前的卷積層Conv0、第1個殘差模塊Conv1_x和第2個殘差模塊Conv2_x的參數(shù)均為模態(tài)非共享時,該基線模型的效果可以達到最優(yōu)。這說明網(wǎng)絡(luò)中非共享層的數(shù)量并不是越多越好,適當(dāng)增加骨干網(wǎng)絡(luò)中非共享層數(shù)量可以有效地提升網(wǎng)絡(luò)對跨模態(tài)數(shù)據(jù)特征的表達能力,從而利用跨模態(tài)數(shù)據(jù)之間的信息互補性獲得更好的識別效果。因此,如無特殊說明,后續(xù)實驗均使用“雙通路-2”結(jié)構(gòu)作為混合雙通路神經(jīng)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)結(jié)構(gòu)。 3.3.2 超參數(shù)分析 決定筆者所提方法實驗效果的關(guān)鍵部分除了雙通路網(wǎng)絡(luò)中非共享參數(shù)層的個數(shù)外,多任務(wù)損失函數(shù)中的每個函數(shù)項的超參數(shù)也是一個重要部分,因此這里對3個超參數(shù)進行分析。注意各個子約束損失函數(shù)的性能分析可以參考文獻[20]。在模型剛開始訓(xùn)練的階段,特征由于沒有被身份信息約束,所以得到的特征是不具備身份判別信息的,如果讓兩個模態(tài)一致性約束損失的權(quán)重太大,則會引起模型訓(xùn)練不穩(wěn)定,直接陷入局部極小點,最終模型學(xué)到的是模態(tài)一致的特征,但是這個特征是沒有判別性的。因此,筆者認(rèn)為身份損失應(yīng)當(dāng)是對提取跨模態(tài)行人圖像判別性特征最重要的函數(shù),先將其置為1;然后調(diào)整其他兩個損失函數(shù)的權(quán)重,探索最優(yōu)組合。圖3中給出了Top-1識別率和mAP與兩個權(quán)衡因子的關(guān)系。 (a)模型性能與α的關(guān)系 圖3(a)為Top-1識別率和mAP與α的關(guān)系。在該組實驗中,經(jīng)驗性地將β先設(shè)置為0.1。當(dāng)α的取值為0.3或0.5時,模型受ld的影響較大,ce難以收斂。在模型開始訓(xùn)練時,特征的判別性較弱,ld增大會導(dǎo)致模型陷入局部最小值,即最終提取出的特征僅具有模態(tài)一致性而損失判別性。從圖3(a)中可以看出,α取0.01時可以取得更好的結(jié)果。因此,接下來的實驗將α均設(shè)置為 0.01。圖3(b)為α取0.01時,調(diào)整β的值對模型性能產(chǎn)生的影響。可以看出,在β值為0.1時,模型可以達到更好的性能。因此,對于筆者提出的完整方法,后續(xù)實驗均使用α=0.01,β=0.1作為默認(rèn)超參數(shù)。 此外,為了說明筆者所提出模型優(yōu)化策略的有效性,表4提供了不同優(yōu)化策略下使用“雙通路-2”結(jié)構(gòu)的基線模型的實驗結(jié)果,其中約束函數(shù)僅使用交叉熵?fù)p失ce。通過實驗結(jié)果可以說明筆者所提模型優(yōu)化策略的有效性。 表4 不同優(yōu)化策略下SYSU-MM01數(shù)據(jù)庫上基線模型的實驗結(jié)果 % 3.3.3 與其他方法的比較 筆者所提方法的完整模型由雙通路骨干網(wǎng)絡(luò)與節(jié)2.2提出的約束準(zhǔn)則構(gòu)成,同時采用節(jié)2.3所提出的混合自適應(yīng)學(xué)習(xí)率調(diào)整策略。 表5中展示了在SYSU-MM01數(shù)據(jù)集上筆者所提方法與當(dāng)前先進方法的比較,表中使用“雙通路-2*”表示骨干網(wǎng)絡(luò)使用“雙通路-2”結(jié)構(gòu)時的完整模型。用于比較的方法有Zero-Pad[14]、TONE[15]、BDTR[23]、HSME[16]、AlignGAN[24]、MSR[25]、MACE[26]、JSIA[27]以及文中最主要的參考方法DFE[20]。可以看出,筆者所提出的使用“雙通路-2”結(jié)構(gòu)的模型在Top-1和mAP上都超越了目前的先進方法。例如,與2020年發(fā)表于IEEE TIP 的方法MACE[26]相比,“雙通路-2*”方法在Top-1指標(biāo)上提升了近3%,在 mAP指標(biāo)上提升了0.47%。此外,與DFE方法相比,筆者所提方法在Top-1上提升了近6%,在mAP指標(biāo)上提升了約2%。這些數(shù)據(jù)說明了雙通路網(wǎng)絡(luò)除了能夠使模型學(xué)習(xí)到更好的行人判別性特征外,還可以增強模型對于不同模態(tài)圖像特異性表達的挖掘能力,從而更好地通過基于分布的度量學(xué)習(xí)函數(shù)學(xué)習(xí)跨模態(tài)圖像的模態(tài)不變性特征,以實現(xiàn)更好的識別和檢索效果。 表5 在SYSU-MM01數(shù)據(jù)集上與其他方法的對比 % 此外,通過表3可以看出,相比于單通路網(wǎng)絡(luò),“雙通路-0”結(jié)構(gòu)同樣也可以在識別性能上得到提升。因此,同樣使用“雙通路-0”作為骨干網(wǎng)絡(luò)構(gòu)成完整模型時的識別性能測試,即表5中“雙通路-0*”。可以看出,在使用“雙通路-0*”時,模型的識別和檢索性能相對于DFE*[20]均有所提升,但是與“雙通路-2*”相比較,仍然具有一定的差距。這與表3中的實驗結(jié)果呈現(xiàn)了一定的相似性,說明不同的骨干網(wǎng)絡(luò)結(jié)構(gòu)也會對完整的模型產(chǎn)生不同的影響。 將節(jié)3.3.3所對比的先進方法在 RegDB數(shù)據(jù)集上與筆者所提方法進行了比較,具體如表6所示。可以看出,在RegDB數(shù)據(jù)集上,筆者所提方法在Top-1、Top-10、Top-20以及mAP指標(biāo)上均超越了之前的方法,取得了目前領(lǐng)先的效果。其中,在可見光—紅外行人重識別任務(wù)上,筆者所提出的“雙通路-2*” 方法在Top-1指標(biāo)上領(lǐng)先了目前最好方法MACE[26]10.17%,在mAP指標(biāo)上領(lǐng)先目前最好方法DFE[20]9.66%。此外,表格中還報告了在熱紅外—可見光任務(wù)上每種方法的對比結(jié)果,可以看出筆者所提出的“雙通路-2*”方法在該任務(wù)上也取得了目前領(lǐng)先的水平。在Top-1、Top-10、Top-20和mAP上,精度分別達到了78.51%、90.75%,94.51%和75.51%,這說明筆者所提出的方法可以有效提取跨模態(tài)行人圖像的模態(tài)不變性特征,同時保證特征的高判別性,以實現(xiàn)更好的檢索和匹配。 表6 在RegDB數(shù)據(jù)集上與其他方法的對比 % 針對跨模態(tài)紅外—可見光行人重識別問題,筆者提出了基于混合雙通路神經(jīng)網(wǎng)絡(luò)的跨模態(tài)行人重識別算法。通過實驗深入分析混合雙通路神經(jīng)網(wǎng)絡(luò)架構(gòu)中模態(tài)共享參數(shù)層和模態(tài)特有非共享參數(shù)層對跨模態(tài)行人重識別模型的影響;這些實驗發(fā)現(xiàn)充分說明了基于雙通路神經(jīng)網(wǎng)絡(luò)架構(gòu)中參數(shù)結(jié)構(gòu)設(shè)計對跨模態(tài)數(shù)據(jù)特征提取的重要性,將為后續(xù)采用神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法提供一定的先驗指導(dǎo)。該方法在模型約束準(zhǔn)則的構(gòu)建方面也充分考慮了數(shù)據(jù)特征類內(nèi)分布和樣本間相關(guān)系數(shù)在不同模態(tài)之間的一致性約束關(guān)系。與此同時,該方法在針對神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練上采用了混合自適應(yīng)學(xué)習(xí)率調(diào)整的模型訓(xùn)練策略,實驗證實該訓(xùn)練策略在該雙通路神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù)上的有效性,這將為后續(xù)其他工作在訓(xùn)練神經(jīng)網(wǎng)絡(luò)方面提供借鑒意義。綜上,筆者為可見光—紅外圖像行人重識別任務(wù)提供了一種非常有效的方法,該方法在當(dāng)前兩個最常用的標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了領(lǐng)先當(dāng)前主流方法的精度。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)庫及評價標(biāo)準(zhǔn)
3.2 實驗環(huán)境與參數(shù)配置
3.3 實驗結(jié)果與對比分析





4 結(jié)束語