陳坤峰,潘志松,王家寶,施 蕾,張 錦,焦珊珊
陸軍工程大學 指揮控制工程學院,南京210007
行人再識別是計算機視覺中的一項熱門技術,其目的是實現多個不重疊攝像頭場景下的行人搜索[1-2]。得益于模式識別和深度學習技術的蓬勃發展,近年來研究者們提出一系列優秀的行人再識別方法,并且在理想仿真條件下達到了較高的性能[3-5]。但是,目前大部分方法關注的是可見光攝像頭產生的圖像,而在實際應用中可見光攝像頭只能滿足部分場景的需求。在夜間條件下,可見光攝像頭就無法完成對行人外貌的精準描述。因此,為了更好地滿足夜間監控的條件,可根據溫度成像的紅外攝像頭成為夜間監控的首選,與日間監控的可見光攝像頭一起形成全天候的監控閉環。若要實現這樣一個全天候智能視頻監控系統,其中存在的主要問題就是如何將可見光模態下的行人圖像與紅外模態下的行人圖像進行同身份匹配,即跨模態行人再識別。
跨模態行人再識別是一個多源細粒度圖像檢索任務,兩種模態的行人圖像如圖1所示。該任務所要匹配的是日夜長時間跨度下紅外與可見光兩種不同模態的圖像,所以要比傳統單模態行人再識別的實現更加困難。這些困難主要體現在兩個方面:(1)類內變化:首先,跨模態行人再識別任務也面臨單模態情況下光照、遮擋、姿態、視角等因素造成的同身份行人圖像類內變化較大的現象;其次,紅外圖像和可見光圖像體現的信息量不對等,很可能出現類內變化大于類間變化的情況。(2)模態差異:跨模態行人再識別要解決的是兩種異質圖像的相互檢索,特征對齊是圖像正確匹配的基礎。然而,兩種圖像由于成像原理不同,二者在特征空間的分布有較大不同。所以,跨模態行人再識別需克服一項額外挑戰就是模態間存在差異的問題。

圖1 跨模態行人再識別所要處理的圖像示例
對于類內變化問題,大部分工作常常使用圖像的整體特征作為最終的行人表示,也有文獻提到用水平方向平均分塊的策略。然而僅考慮整體特征或者某一特定尺度的局部特征,都是片面的。此外,現有工作只考慮了從特征提取器的網絡最深層提取出的高級特征,沒有考慮淺層網絡得到的低級特征。低級特征可以體現圖像的細節信息,對行人身份判別同樣有著重要意義。所以,若要得到更有判別能力的跨模態行人再識別模型,可考慮多尺度多層次的精細化特征提取策略。
對于模態差異問題,目前多數研究常采用共享網絡參數的方式將兩種圖像的特征映射到同一特征空間,以模態共有特征作為最終行人表示。但是,兩模態圖像的特征可以分為模態共有和特有特征,如果僅考慮共有特征,直接丟棄了特有特征,就沒有充分利用圖像中蘊含的的所有信息。一些研究發現采用模態轉換的思路,識別率明顯優于傳統的方法。其中GAN方法可以有效地利用風格遷移等手段實現兩個模態之間的轉換,有效緩解模態間的差異。然而,GAN網絡對任務性能雖有一定提升,但這些方法在重建圖像或生成特征的過程中破壞了原始的空間結構信息,引入了額外的噪聲。同時GAN帶來的較大計算量和難以收斂的訓練難度也不容忽視。所以,在處理模態間差異的問題上,需要充分考慮同一人兩種模態來源圖像間的特征互補性,提高異質信息利用率。盡量做到在縮小模態差異的過程中既不損失信息又不增加噪聲。
在跨模態行人再識別中,從同一行人的圖像中提取而來的各種特征盡管分布不同,但是共同體現了該行人的身份信息。這樣則可以借助協同學習方法把各特征間的互補性利用起來,通過信息融合來提高網絡的學習能力。因此,本文首次綜合考慮增強特征判別能力和提高多源異質信息利用率兩個方面,使用了協同學習方法提出一個精細化多源特征協同網絡。
本文的主要貢獻如下:
(1)為了增強特征的判別能力,本文提出了針對精細化特征的協同學習方法,即在設計用于提取特征的卷積神經網絡時,綜合考慮多尺度和多層次的行人特征。實驗表明,精細化特征協同學習是一個簡單而有效增強特征判別能力的方法。
(2)為了提高多源異質信息的利用率,本文提出針對多源特征的協同學習方法。首先,鑒于可見光圖像和紅外圖像的異質信息互補性,利用雙流網絡提取跨模態圖像共有特征和特有特征進行協同學習;其次,本文首次考慮將人體各部位相對位置關系的先驗判別作為輔助任務,提出一個人體語義自監督方法;最后,在多個有針對性的損失函數聯合監督下達到多源特征協同學習的目的。
(3)在跨模態行人再識別相關數據集上進行了充分實驗。驗證了本文提出的精細化多源特征協同網絡的性能優于當前最好的相關工作,具備較高的可靠性和先進性。
一般來說單模態行人再識別是指僅考慮可見光模態的行人再識別,意即解決在不重疊的可見光攝像頭之間匹配行人圖像的問題[6-7]。該技術的關鍵挑戰主要在于攝像頭視角不同,行人姿態變化、光照強弱以及遮擋與否等因素引起的同身份行人圖像的類內變化[8-13]。現有的單模態行人再識別方法大致可分為表征學習方法和度量學習方法。表征學習方法主要是利用行人身份標簽進行判別性特征表示學習[14]。度量學習方法的目的通常是學習不同樣本特征間距離,進而達到增大類間差異和減小類內差異的效果[15]。早期的研究中常常利用人體測量學數據、空間時間數據、運動學數據、動力學數據和視頻流數據等,采取特定方法描述行人特征[16]。最近,在深度卷積神經網絡的幫助下,單模態行人再識別的工作取得了優秀的成果[9],在一些廣泛應用的公開數據集上甚至超過了人類的識別水平[3,17]。但是,現有的單模態行人再識別方法所處理的僅是白天光照良好條件下可見光攝像頭采集的行人圖像,在夜間跨模態行人再識別任務[18]中往往不能很好地應用,限制了該技術面向實際全天候監控場景的適用性。
跨模態行人再識別需解決的是不同成像源的行人圖像之間的匹配問題,本文研究的跨模態行人再識別即為可見光圖像和紅外圖像間的行人再識別[19-21]。Wu等[18]首次發布了一個大規模跨模態行人再識別數據集SYSU-MM01,分析了三種不同的網絡結構并提出一個Deep Zero-padding方法。Nguyen等[22]發布了另外一個相關數據集RegDB。Ye等[23]設計了一種雙流網絡來學習多模態共享特征,同時利用雙約束Top-Ranking損失來處理模態間和模態內的變化。此外,cmGAN[24]首次使用生成對抗網絡(GAN)來實現跨模態行人再識別,取得了比之前更好的性能,也為后面的研究工作提供了新的思路[25-26]。后來,Zhu等[27]首次在跨模態行人再識別中考慮了人體局部特征,并且引入了異質中心損失,大幅提升了識別精度。本文充分考慮了同身份行人圖像間的類內變化和模態差異,提出了一個精細化多源特征協同網絡。利用精細化特征協同學習方法增強特征判別能力,以應對類內變化。利用多源特征協同學習方法提高異質信息利用率,以解決模態差異。而且,在SYSU-MM01和RegDB數據集上驗證了該方法的有效性。
文獻[28]為解決分類問題引入了協同學習(Collaborative Learning)的方法理論。協同學習是指在同一批訓練數據上訓練出同一網絡的多個特征學習器。利用多種特征間的信息互補性進行協同融合,在不增加推理成本的情況下提高模型的泛化能力和對標簽噪聲的魯棒性,使網絡達到更優的學習效果。協同學習具備輔助訓練[29]、多任務學習[30-31]和知識蒸餾[32]等方法的優點,但不需增加過多的額外訓練網絡且可以實現端到端訓練,是一個值得探索的方法思路。本文針對跨模態行人再識別這一任務,考慮深度卷積神經網絡多尺度多層次特征的判別能力,以及多源異質圖像數據的信息互補性,提出了針對精細化特征的協同學習方法和針對多源特征的協同學習方法。

圖2 本文方法的整體網絡架構
設計了精細化多源特征協同網絡,其整體網絡架構如圖2所示。對于可見光和紅外這兩種模態的圖像,如何增強特征判別能力以及提高異質信息利用率,進而有效克服類內變化和模態差異這兩大問題,是本文所提方法的研究目的。骨干網絡中兩個并聯的ResNet50[33]組成雙分支網絡,分別作為可見光和紅外圖像的特征提取器。網絡的前面若干階段(Stage1至Stage4)用來提取各模態特有特征,后面若干階段采用共享網絡參數的方式提取跨模態共有特征。特別的是,本文設計的網絡中包含了精細化特征協同學習模塊(多尺度特征協同和多層次特征協同),以及多源特征協同學習模塊(模態共有與特有特征協同和人體語義自監督)。以下各節對網絡的各個關鍵模塊展開詳細介紹。
2.1.1 多尺度特征協同
目前大部分跨模態行人再識別工作都是提取圖像的整體特征作為最終的行人表示[18,34-35]。然而,由于有些不同身份的行人之間外觀差異較小,或者受到遮擋以及跨模態圖像間其他噪聲影響,僅使用整體特征往往不能對行人身份進行有效判別。最近,研究者們在單模態和跨模態行人再識別任務都證明了采用圖像水平分塊獲取局部特征的有效性[27]。不同位置的局部特征會關注不同的人體細節,細節更具有區分性,使得模型能夠辨別不同的行人身份。然而,由于多樣化的行人姿態變化,攝像頭的距離和角度等因素,用水平均分方法有時候很難學習到對齊和魯棒的局部特征。所以,單獨使用整體特征或者特定尺度下的局部特征都是不周到的。
考慮到整體特征和局部特征各自的優缺點,本文提出了一個多尺度特征協同學習的策略,利用水平多尺度切分的做法來處理跨模態行人特征。如圖3所示,對ResNet50的第四階段得到的特征圖,采用多尺度分塊池化的方式獲得行人圖像的多尺度特征向量。為了在不增加較多計算量的前提下獲取合適尺度行人局部信息,則需要確定合理的分塊尺度。根據對人體關節構造和穿衣習慣的認知,以及實驗的驗證,本文選擇了整體、一分為二、一分為三這三種分塊方式,由此就可用多尺度特征協同學習的方式獲得更有判別力的行人信息。本文的工作是首次綜合考慮多個尺度下的整體和局部特征來解決跨模態行人再識別問題。

圖3 多尺度特征劃分方式
2.1.2 多層次特征協同
行人圖像輸入進特征提取器后,在卷積神經網絡由淺到深各個階段都可以學習到對應級別的特征。為了直觀地反映卷積神經網絡中各層特征的差異,以ResNet50作為特征提取器,可得網絡各階段特征分布熱力圖如圖4所示。在熱力圖中,不同顏色的分布代表特征顯著性的分布,紅色表示特征最顯著的區域,藍色表示特征最分散的區域。從圖4中可以發現,隨著網絡不斷加深,不同階段的卷積層在學習過程中所關注的區域發生了明顯的變化。如圖Stage1中,第一階段卷積層的所關注最分散,主要從整個行人圖片中提取細節的特征;而在圖Stage4中,第四層卷積層的注意力則集中于具有區分性的區域,主要提取關鍵的語義信息。因此,從卷積神經網絡的底層到高層,注意力越來越集中,且提取的信息從分散的空間結構信息轉向集中的語義信息。

圖4 行人圖像在ResNet50中各層次特征分布熱力圖
目前流行的行人再識別模型通常使用卷積神經網絡的深層特征來識別行人。但是,在學習深層特征時,由于在訓練階段進行了大量的填充和合并等操作,會丟失一些原本存在于淺層特征中的重要空間信息,如形狀、紋理等。此外,紅外圖像包含信息量較少,這就造成了同身份的兩個模態的圖像的語義表達能力的巨大差異。因此,僅使用深層特征實現跨模態行人再識別是不妥的,很有必要使用淺層網絡提取到的特征補充判別。所以,本文提出了多層次特征協同學習方法。為了避免增加較大的計算量和特征維度,對于淺層信息僅考慮了Stage3階段獲取的特征圖,使用1×1卷積將此特征圖的通道數從1 024提升至2 048,然后將此淺層特征與Stage4階段的深層特征級聯一起送入后面的網絡。利用這樣一個多層次特征協同的策略,可以有效使用到不同粒度的圖像特征,從而獲取更有判別力的行人表示。
2.2.1 模態共有與特有特征協同
跨模態行人再識別的目的是實現兩種模態圖像的相互檢索。由于不同模態存在差異,所以在跨模態圖像的特征學習過程中,行人表示的描述和使用是一項很具挑戰性的工作。為了解決這個問題,研究者們通常會利用共享網絡參數的方式得到兩種圖像共同體現的特征作為最終的行人表示。然而,一個人的兩種不同模態的圖像中包含有模態共有特征,也有模態特有特征。如圖5所示,模態共有特征可以用兩集合的交集表示。如果只考慮共有特征而忽略特有特征的話,就意味著圖像信息的不充分利用。文獻[36]提出了一個共享和特有特征遷移網絡(cross modality Shared-Specific Transfer Network,cm-SSTN),充分考慮了模態間共享特征和模態內特有特征。他們的工作取得了當前最好的識別效果,也以此驗證了共享特征和特有特征的互補作用。但是cm-SSTN也有模型復雜和計算量較大等不足之處。

圖5 跨模態行人圖像特征關系圖
考慮跨模態圖像特征的異質信息互補性,提出了一個簡單有效的模態共有與特有特征協同學習方法。在跨模態雙分支網絡的基礎上,利用參數共享的全連接層提取模態共有特征,同時通過參數不共享的全連接層提取模態特有特征。然后,在監督學習中分別訓練模態共享特征和模態特有特征,進而達到異質互補的效果,提高圖像信息的利用率。
2.2.2 人體語義自監督
模態間的信息交互是減小模態差異的一個有效手段。現有工作的做法通常是利用GAN網絡實現圖像的風格遷移或特征遷移來實現模態間的信息交互。但是,GAN網絡基于生成的思路會有引入新的噪聲的可能,且會面臨訓練時的收斂困難等局面。所以,如何在不引入噪聲且容易訓練的情況下,學習到不受模態特點約束的知識,進而實現模態間信息交互,是一個值得探索的思路。
本文提出了一個人體語義自監督模塊,旨在采用人體結構的語義信息作為先驗知識,將兩個模態圖像在不利用身份標簽的情況下一起送入共享參數的自監督學習網絡,學習到一些不受模態和身份限制的人體基礎特征。也就是說,客觀視角下,無論行人圖像屬于哪個身份,來自哪種模態,一張行人圖像中人體各個身體部位的相對位置都是確定的。換言之,每個人的圖像從上到下都是頭部、肩部、胸部、腹部、腿部和腳部等這樣的語義結構。這些語義信息是行人圖像和其他自然圖像的一個明顯區別,也是重要的先驗知識。恰好可以利用這個先驗知識,設計了一個跨模態參數共享的人體語義自監督模塊,具體做法如圖6所示。把不同模態的每張圖像中人體各部位分成小塊并打亂順序,然后在各個分塊位置標簽的監督下對分塊重新排序得到原始順序。這樣,可以利用人體各個部位的相對位置關系學習到與圖像的模態來源無關的人體基礎信息,達到縮小模態差異的效果。實驗證實這個簡單的操作可以得到較好的效果提升。而且該自監督模塊使用的是上文多尺度協同學習方法中提及的單張行人圖像的多尺度特征分塊,因此并沒有引入很多計算量。
以往的跨模態行人再識別網絡[34-35]常采用交叉熵損失(Cross Entropy Loss,CE Loss)和三元組損失(Triplet Loss)來監督學習特征。交叉熵損失用于行人身份的分類,三元組損失是為了縮小類內距離并且增大類間距離。后來,Zhu等[27]提出一個異質中心損失(Hetero Center Loss,HC Loss),設計該損失函數的目的是縮小不同模態同類樣本之間的差異,該工作同時使用了異質中心損失和交叉熵損失,實現了較好的效果。

圖6 人體語義自監督模塊示意圖
本文方法中引入了一個混合模態三元組損失(mix-Modality Triplet Loss)[37],并將其結合交叉熵損失和異質中心損失一起使用。文獻[38]證明了交叉熵損失和三元組損失作用在同一特征空間的情況下會出現收斂困難的狀況。同樣的道理,交叉熵損失和異質中心損失之間也存在這樣的問題。因此,利用一個批標準化層(Batch Normalization Layer,BN Layer)層和一個全連接層(Fully Connected Layer,FC Layer)將特征向量映射到兩個特征空間上來解決沖突。
把輸入圖像的每個批次大小記為N,則N=2×P×K,意即每個批次的N張圖片里有P個行人身份,其中每個身份有K張可見光圖像和K張紅外圖像。對于模態共有特征,類似于文獻[27],以每張圖片的行人身份信息作為監督標簽,使用交叉熵損失和異質中心損失的組合作用來學習每個特征分塊。每個特征分塊上的交叉熵損失計算方法為:

其中,x i指第i張圖像的某一特征分塊,p(x i)指的是期望輸出,即真實標簽。q(x i)是網絡中每張特征分塊的提取到的特征向量經Softmax層之后得到的預測標簽。對每個特征分塊計算異質中心損失如下:

所以,在共有特征上的損失函數計算方法如公式(3)所示:

其中,λ是平衡交叉熵損失和異質中心損失的權重參數。f從1到7指的是計算7個特征分塊損失的總和,7個特征分塊即為淺層的一個特征分塊和深層的6個多尺度特征分塊。
對于模態特有特征,首先用交叉熵損失對每一個樣本做身份判別,如下:

這里用g i表示從單模態分支中取得的整體特征向量。此外,用三元組損失實現類內差異縮小,類間差異增大。三元組損失在進行計算時需要三張輸入圖像,分別為固定圖像(Anchor)a、正樣本圖像(Positive)p和負樣本圖像(Negative)n。圖像a和p是正樣本對,圖像a和n是負樣本對。考慮到網絡其他部分已經起到了縮小模態差異的作用,在此使用的是一個混合模態三元組損失函數,也就是將兩個模態樣本特征放在同一集合中進行三元組采樣。那么一個批次里的圖片數量則為2PK張,記一個批次里所有圖片的集合為batch,固定圖像a的正樣本集為A,負樣本集為B。那么混合模態三元組損失的計算方法如公式(5)所示:

公式中的α指三元組損失的邊界值參數,[]+的意思是方括號里的計算結果若小于0,就記為0。其中,A和B皆為batch的子集。
那么,應用于模態特有特征的損失函數即為:

對于人體語義自監督模塊,目的是在自監督訓練的過程中對打亂的分塊特征向量重建排序,具體做法是:對6個多尺度特征分塊打上位置標簽,然后在訓練的過程中預測標簽,進而學習到6個分塊特征向量的原始空間相對位置。所以,可用預測特征分塊標簽的交叉熵損失函數作為自監督學習的損失函數,記S i,s為第i個樣本的第s個分塊,可得此自監督學習模塊的損失函數計算如下:

公式中p(Si,s)為每個特征分塊的真實位置標簽,q(S i,s)為每個特征分塊的預測標簽。
綜上,此精細化多源特征協同網絡在端到端訓練過程中總的損失函數為:

3.1.1 數據集
目前有兩個公開的數據集(SYSU-MM01[18]和RegDB[22])可以用于測評跨模態行人再識別方法的實驗結果,數據集中的圖像采集自可見光攝像頭和紅外(近紅外和遠紅外)攝像頭。
SYSU-MM01數據集是由室外和室內環境下6個不同攝像頭采集而來的大規模數據集,包含4個可見光攝像頭和2個近紅外攝像頭。該數據集包含395個行人身份的訓練數據,包括22 258張可見光圖像和11 909張近紅外圖像。測試集包含另外的95個行人身份的圖像,以及兩種測評模式和兩種測試集構建方式。在兩種測評模式中,查詢集(Qurey set)是相同的,包含3 803張從兩個紅外攝像頭捕獲的圖像。在All-search模式下,圖庫集(Gallery set)包含了從所有4個可見光攝像頭捕獲的所有可見光圖像。在Indoor-search模式下,圖庫集只包含兩個室內可見光攝像頭捕捉到的可見光圖像。一般來說,All-search比Indoor-search模式更具挑戰性。兩種測試集構建方式分別為Single-shot和Multi-shot,二者的做法也就是在構建圖庫集時隨機選取同一行人身份的1張或10張圖片。評估方案的詳細描述可以在文獻[17]中找到。使用最困難的實驗設置,也就是All-search的測評模式和Single-shot的測試集構建方式,進行了10次測試并記錄了平均檢索性能。
RegDB數據集是一個由雙模攝像頭系統(一個可見光攝像頭和一個遠紅外攝像頭)采集的小規模數據集。在RegDB數據集中可見圖像與紅外圖像輪廓非常相似,跨模態行人再識別難度較小。這個數據集總共包含412個行人身份,每個行人身份有10張可視圖像和10張紅外圖像。按照文獻[22]的評價協議,隨機選取206個身份(2 060張圖像)用于訓練,其余206個身份(2 060張圖像)用于測試。評估了可見光圖像檢索紅外圖像(Visible to Thermal)、紅外圖像檢索可見光圖像(Thermal to Visible)這兩種不同檢索設置的性能,采用10次隨機分割訓練集和測試集的方式記錄平均準確度。
3.1.2 評價指標
為公平起見,參照現有工作的做法,本文實驗同樣以累積匹配特性(Cumulative Matching Characteristics,CMC)和平均精度均值(mean Average Precision,mAP)作為評價指標。CMC中的Rank準確率測量的是在前k個檢索結果中出現正確跨模態行人圖像的概率。mAP指標可以體現方法的平均檢索性能。
3.1.3 實驗設計細節
實驗采用Pytorch框架實現工程代碼,在1塊NVIDIA GeForce 1080Ti GPU上進行訓練和測試。數據集中的行人圖像的大小被調整為384×128。在訓練階段,隨機選擇4個行人身份,然后再每個行人身份隨機選擇8張可見光圖像和8張紅外圖像。因此在每一輪的訓練中,batchsize為64。為了均衡交叉熵損失函數和異質中心損失函數的作用,參照文獻[27]的公式(1)中異質中心損失的權重被設置為0.5。三元組損失的邊界值被設置為0.3。訓練過程采用動量為0.9的隨機梯度下降(SGD)優化器。包括前10輪采用的熱身學習率(Warm Up Learning Rate)策略的訓練過程,該精細化多源特征協同網絡被訓練了80輪。學習率lr(t)隨訓練輪次t的變化如公式(9)所示:

此外,在訓練過程中,利用模態共有和模態特有特征來優化網絡。在測試推理時,僅使用模態共有特征來評價查詢圖像與圖庫圖像之間的相似性。原因首先是在模態特有特征的影響下,最終通過端到端協同學習完成訓練后提取的模態共有特征能夠有效地描述圖像,這在本文的實驗中得到了證明。另一個原因是,單獨使用共享特征可以加快測試過程特征推理速度。
3.2.1 與其他方法的對比分析
在SYSU-MM01和RegDB數據集上,將本文方法與當前跨模態行人再識別任務的一些流行方法在同樣的實驗設置方式下進行了對比,這些方法包括Zero-Padding[18]、HCML[39]、cmGAN[24]、HSME[40]、D2RL[25]、AlignGAN[26]、HPILN[41]、eBDTR[23]、Hi-CMD[35]、JSIA[26]、MSR[42]、AGW[43]、XIV[44]、HAT[45]、SIM[46]、EDFL[47]、TSLFN+HC[27]和cm-SSFT[36]。實驗結果如表1和表2所示。

表1 在SYSU-MM01數據集上本文方法與其他方法的對比%
在表1中,精細化多源特征協同網絡與TSLFN+HC相似,但本文方法在Rank1指標上領先了9.28個百分點,在mAP上領先了10.45個百分點。此外,注意到cm-SSFT是所有對比方法中最好的一種。雖然cm-SSFT在Rank1和mAP中分別達到了61.60%和63.20%,但本文方法實驗結果的Rank1和mAP比cm-SSFT分別高了4.64和2.20個百分點。而且,cm-SSFT具有更復雜的網絡結構,帶來了更多的參數和計算量。

表2 在RegDB數據集上本文方法與其他方法的對比
從表2中可見,本文所提方法在RegDB數據集上同樣具有競爭力,而且識別精度要比在SYSU-MM01數據集上的高。這很大程度上是因為RegDB數據集的圖像采集自雙模攝像頭,得到的可見光圖像和紅外圖像中的行人的姿態輪廓類似,因此跨模態類內差異較小。此外,表2中實驗數據顯示可見光圖像檢索紅外圖像模式下的識別效果要比紅外圖像檢索可見光圖像模式的識別效果要高。這是由于紅外模態的行人圖像的信息量較小,對行人身份的判別能力不強,該特點與前文所述的觀點也是一致的。
3.2.2 檢索結果可視化分析
為了直觀分析本文所提方法的再識別效果,選取了SYSU-MM01數據集中的若干樣本進行了檢索結果可視化分析,如圖7所示。圖中的前三行是使用紅外圖像檢索可見光圖像的結果,后三行是使用可見光圖像檢索紅外圖像的結果。圖中的第1列為檢索目標行人圖像。其余列為檢索結果中排名前10的行人圖像,圖片從左到右是根據模型計算所得的相似度從大到小的排序。圖中綠框為檢索正確的樣本,紅框為檢索錯誤的樣本。
如圖7所示,可見光行人圖像的上下身衣服顏色雖差異較大,在紅外模態中卻無明顯區別,如需正確配對這樣的樣本,則需要模型更加關注行人的動作,體型和一些細節紋理特征。從檢索結果可見,本文方法可有效提取精細化的行人特征。

圖7 本文方法在SYSU-MM01數據集上的再識別效果
從圖7中可見,模態間的共有特征,如包、衣服標志依然會成為識別過程中信息匹配的關鍵,而這些模態共有特征可能對正確結果的判別有所幫助。所以,采取多源特征協同學習的方式,促進模態間的信息交互,提取更有辨別力的特征十分重要。
此外,當顏色無法為作為身份判別信息時,深度網絡便會學習到行人的體型,姿態等特征作為區別行人的重要依據。如圖7的第6行,盡管第1列和第2列、第4列是不同身份的行人,但由于他們都有交叉雙腿的體態動作,因而被誤判為同一人。可見,提取可靠的辨別性特征,依然是一個重要挑戰。
為了驗證本文所提的精細化多源特征協同網絡各個模塊的有效性,對網絡進行了消融實驗。在SYSUMM01數據集上,以TSLFN+HC[27]方法作為基線模型,依次向網絡中加入本文提出的幾個模塊,由此則可以清晰地量化體現各個模塊對任務的提升效果。
可見,本文方法提出的各個模塊對于跨模態行人再識別任務都有一定的幫助。對于表3中的每一個實驗,在以下章節進行了模塊設計分析。
3.3.1 多尺度特征協同
如表3中的實驗2,通過幾種水平劃分策略得到不同尺度的局部特征,并將其與整體特征級聯在一起,即得到了本文所提的多尺度特征模塊。為了確定多尺度特征協同模塊的最佳尺度,比較了幾種不同級別的水平分塊組合策略。使用TSLFN+HC作為基線方法(Baseline)來分析模塊設計效果。也就是說,在此實驗中只是更改了TSLFN+HC方法的特征水平六等分方式,其余網絡結構和實驗設置均不變。采用的組合如下:Scale1(全局特征+2個水平等分塊),Scale2(全局特征+2個水平等分塊特征+3個水平等分塊特征),Scale3(全局特征+2個水平等分塊特征+3個水平等分塊特征+4個水平等分塊特征)。如圖8所示,最佳的特性是Scale2。而且根據客觀認知,人體結構水平均分為兩部分或者三部分,都可以理解為獨立的語義單元,所以Scale2適合于人稱表征。

表3 加入不同模塊后的性能對比

圖8 跨模態行人再識別所要處理的圖像示例
3.3.2 多層次特征協同
如表3中的實驗3,在已經選擇了最佳多尺度特征后,還進行了實驗,以尋找最佳的多層次特征。提取不同層次的特征,分析不同的組合:Level2、Level3和Level2+Level3。Level2和Level3代表了基于Resnet50骨干網的Stage1和Stage2提取的不同特征圖。結果如表4所示,最好淺層特征的是Level3。注意,從Level2中提取的特征在任何組合中都會降低性能,例如Multi-Scale+
Level2的性能低于Multi-Scale,Multi-Scale+Level2+Level3的性能也低于Multi-Scale+Level3。可見Level2提取的特征信息層次過低,對語義分類沒有明顯貢獻。

表4 各種層次組合方法的性能分析%
3.3.3 模態共有與特有特征協同
如表3中的實驗4,利用多尺度和多層次方法實現了精細化特征協同學習后,設計了模態共有與特有特征協同學習模塊。混合模態三元組損失函數是所提的模態共有與特有特征協同學習模塊的重要組成部分。之所以使用這樣一個損失函數,是因為要通過將一個訓練批次中兩個模態圖像混合在一起進行三元組采樣,這樣可以在進行度量學習的過程中,更好地實現模態間信息交互。為了驗證混合模態三元組損失函數的功能,以及相對于單模態三元組損失的優勢,在網絡其他設計部分不變的情況下,對二者進行了對比實驗,其結果如圖9所示。

圖9 不同條件下的三元組損失函數性能對比
3.3.4 人體語義自監督
如表3中的實驗5所設計的人體語義自監督學習模塊對跨模態行人再識別任務性能有所提升。從邏輯上分析,該模塊的輸入數據為兩個模態的特征,可以實現克服模態差異的效果。但是,該模塊同樣可以起到局部特征學習的作用。所以,該模塊帶來的性能提升的原因是實現了克服模態差異還是實現了局部特征學習,是下面要討論的問題。
首先進行了相關對比實驗。在網絡其他設計不變的前提下,用無自監督、單模態自監督、跨模態自監督三種設置做了對比,如表5所示。可見,跨模態的人體語義自監督不僅具有局部特征學習的作用,也可以很好地實現克服模態差異的效果。

表5 人體語義自監督模塊性能分析%
本文綜合考慮了增強特征的判別能力和提高多源異質信息的利用率,在協同學習方法的指導下,提出了精細化多源特征協同網絡。利用多尺度和多層次特征實現精細化特征協同學習,并通過模態共有與特有特征協同和人體語義自監督達到多源特征協同學習的目的。本文所提方法在兩個相關數據集上明顯優于其他方法,并為本領域的進一步研究提供了一個簡單而有效的思路。