摘 要: 步態(tài)識(shí)別系統(tǒng)在生物識(shí)別領(lǐng)域顯示出巨大的潛力,然而步態(tài)識(shí)別的準(zhǔn)確性很容易受到視角的影響。為解決這一問(wèn)題,提出的方法基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)(cycle generative adversarial network,Cycle-GAN)的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合新的特征提取模塊以及多重?fù)p失函數(shù),提出了一種用于跨視角步態(tài)識(shí)別的網(wǎng)絡(luò)模型雙通道循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(two-channel cycle consistency generative adversarial network,TCC-GAN)。該網(wǎng)絡(luò)首先將步態(tài)能量圖像從任意視角轉(zhuǎn)換為目標(biāo)視角圖像,然后進(jìn)行比對(duì)從而實(shí)現(xiàn)身份識(shí)別。TCC-GAN分別引入了重建損失、視角分類(lèi)和身份保持損失來(lái)指導(dǎo)生成器生成具有目標(biāo)視角的步態(tài)圖像并同時(shí)保留身份信息。為了避免可能存在的模式崩塌問(wèn)題,并保證各個(gè)輸入和輸出以有意義的方式進(jìn)行映射,模型中還利用了循環(huán)一致性損失。數(shù)據(jù)集CASIA-B和OU-MVLP上的實(shí)驗(yàn)結(jié)果表明:所提TCC-GAN模型的跨視角識(shí)別率高于目前大多數(shù)其他基于GAN的跨視角步態(tài)識(shí)別模型。
關(guān)鍵詞: 生成對(duì)抗網(wǎng)絡(luò); 跨視角步態(tài)識(shí)別; 跨視角圖像轉(zhuǎn)換; 步態(tài)能量圖
中圖分類(lèi)號(hào): TP391.4"" 文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1001-3695(2022)01-046-0259-06
doi:10.19734/j.issn.1001-3695.2021.05.0202
Cross-view gait recognition based on two-channel cycle consistency GAN
Wang Yu, Xia Yi
(School of Electrical Engineering amp; Automation, Anhui University, Hefei 230601, China)
Abstract: Gait recognition systems have shown great potentials in the field of biometric recognition.However,the accuracy of gait recognition is easily affected by a large view angle.In order to solve this problem,this paper proposed an improved model two-channel cycle consistency generative adversarial network(TCC-GAN).The network could transform the gait energy image from arbitrary views to the target view and then performed identity recognition.Besides reconstruction loss,it introduced view classification and identity preserving loss to guide the generator to produce gait images of the target view and keep identity information simultaneously.In order to avoid the model collapse problem that might exist and ensure that each input and output were mapped in a meaningful way,this paper also utilized the recently proposed cycle consistency loss,which could facilitate that the target image and the source image under the target view had the same feature distribution as possible.The experimental results on the datasets CASIA-B and OU-MVLP indicate that the proposed TCC-GAN model can obtain higher accuracy than other state-of-the-art GAN-based cross-view gait recognition models.
Key words: generative adversarial networks; cross-view gait recognition; cross-view image converting; gait energy image
0 引言
步態(tài)是指人們行走的姿勢(shì)。早期醫(yī)學(xué)研究證明,人體步態(tài)由24個(gè)穩(wěn)定且不同的部分(如骨骼長(zhǎng)度、肌肉強(qiáng)度、重心強(qiáng)度以及運(yùn)動(dòng)神經(jīng)靈敏度等)組成[1,2],因此步態(tài)具有復(fù)雜性高、穩(wěn)定性強(qiáng)、不易偽裝、難以隱藏等特點(diǎn)。并且不同于人臉、指紋、虹膜等生物特征,人體步態(tài)的提取具有非侵犯性、無(wú)須檢測(cè)者的刻意配合且能在遠(yuǎn)距離實(shí)施的特點(diǎn)。現(xiàn)如今,步態(tài)識(shí)別憑借其獨(dú)特的優(yōu)勢(shì)已在智能監(jiān)控、門(mén)禁、醫(yī)療診斷、人機(jī)交互等領(lǐng)域有著廣泛的應(yīng)用。步態(tài)識(shí)別作為一種遠(yuǎn)距離生物識(shí)別方式,不同于其他生物特征的提取,遠(yuǎn)距離步態(tài)特征的提取尤為困難,因?yàn)樗艿蕉嘀匾蛩赜绊懀缫轮y帶物、視角變化、行走速度都在不同程度上影響步態(tài)特征的提取。步態(tài)特征能否有效提取直接影響步態(tài)識(shí)別的精度, 因此步態(tài)特征的提取一直是該領(lǐng)域的一個(gè)研究重點(diǎn)。
步態(tài)識(shí)別的發(fā)展經(jīng)歷了多個(gè)階段。在方法上,基于模型匹配的方法早期較為流行,其主要思路是對(duì)人體骨骼結(jié)構(gòu)建模,以提取步行過(guò)程中的運(yùn)動(dòng)軌跡[3,4],但這類(lèi)方法成本過(guò)大,不易實(shí)現(xiàn)。相比之下,基于外觀匹配的方法[5~10]則更加經(jīng)濟(jì),這包括步態(tài)圖像的靜態(tài)或動(dòng)態(tài)特征提取與匹配的方法[5,6]、視角轉(zhuǎn)換模型(view transform model,VTM)[7,8]、典型相關(guān)分析(canonical correlation analysis,CCA)[9]以及改進(jìn)的完全典型相關(guān)分析(complete canonical correlation analysis,C3A)[10]等方法。然而基于外觀匹配的方法在提取步態(tài)特征時(shí)受視角變化影響很大,因?yàn)椴煌暯菚?huì)直接導(dǎo)致外觀的巨大差異,進(jìn)而阻礙步態(tài)特征的提取。
近年來(lái)深度學(xué)習(xí)技術(shù)飛速發(fā)展,使得步態(tài)識(shí)別的性能在整體上得到了巨大的提升,許多經(jīng)典的模型,如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[11]、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[12]與長(zhǎng)短期記憶(long short-term memory,LSTM)[13]網(wǎng)絡(luò)等均被應(yīng)用到步態(tài)識(shí)別的模型構(gòu)建中。基于深度學(xué)習(xí)的步態(tài)識(shí)別方法主要可分為判別式與生成式兩類(lèi)。以CNN為主的判別式方法主要學(xué)習(xí)特征表示或樣本間的相似度。Chao等人[14]提出了一種非常靈活的模型GaitSet,該模型的輸入可以包含任意數(shù)量在不同視角和不同行走條件下拍攝的非連續(xù)輪廓圖,并從中直接學(xué)習(xí)步態(tài)表示,這種靈活的結(jié)構(gòu)使得GaitSet具有一定的魯棒性并能提供較高的識(shí)別精度。相比之下,生成式方法旨在將某種狀態(tài)下輸入的步態(tài)特征或圖像轉(zhuǎn)換到另一種狀態(tài)下再進(jìn)行匹配。Feng等人[15]提出基于姿態(tài)的長(zhǎng)短時(shí)記憶模塊(pose-based LSTM,PLSTM)對(duì)人體關(guān)節(jié)熱圖序列進(jìn)行端到端的重構(gòu),其優(yōu)勢(shì)在于受衣著和攜帶物等遮擋因素的影響較小,但是單個(gè)模型只能得到兩種視角下的視角不變特征,且LSTM本身就存在網(wǎng)絡(luò)太深、計(jì)算量過(guò)大等缺點(diǎn)[13]。GAN作為一種目前常見(jiàn)的生成模型,其思想源于博弈論中的二人零和博弈思想,GAN中包含至少一個(gè)生成器和判別器,生成器的目的是產(chǎn)生具有特定意義的圖像并企圖“騙過(guò)”判別器,而判別器的目的是區(qū)分出輸入的圖像是生成的還是真實(shí)的[12]。Yu等人[16]首次將GAN用于跨視角步態(tài)識(shí)別,提出了一種名為GaitGAN的模型,用于將步態(tài)圖像從任意視角轉(zhuǎn)換為同一視角再匹配。之后提出的VT-GAN[17]、TS-GAN[18]等都在不同程度上改進(jìn)了基于GAN的步態(tài)識(shí)別模型。雖然GAN在識(shí)別精度上難以與CNN媲美,但是它解決了CNN存在的視覺(jué)解釋問(wèn)題[19],同時(shí)GAN還具有擴(kuò)充和增強(qiáng)數(shù)據(jù)的能力,因此基于GAN的步態(tài)識(shí)別具有不可估量的發(fā)展?jié)摿Α?/p>
大多數(shù)基于GAN的跨視角步態(tài)識(shí)別方法的主要思想是:先將步態(tài)圖像從其原始視角轉(zhuǎn)換到特定目標(biāo)視角,之后再進(jìn)行相似性匹配,進(jìn)而計(jì)算出識(shí)別率。然而,要將某個(gè)視角下的完整步態(tài)序列全部進(jìn)行轉(zhuǎn)換太過(guò)繁瑣,費(fèi)時(shí)費(fèi)力。因此,現(xiàn)階段大多數(shù)模型的輸入均采用步態(tài)能量圖(gait energy image,GEI)[20]。步態(tài)能量圖是一種混合步態(tài)輪廓圖,通過(guò)計(jì)算一個(gè)步態(tài)周期中輪廓圖像素的平均強(qiáng)度得到模板中每個(gè)像素的能量[21]。相比于步態(tài)輪廓圖,以步態(tài)能量圖作為模型的輸入可以大幅減少訓(xùn)練量。
利用GAN進(jìn)行步態(tài)圖像視角轉(zhuǎn)換的核心任務(wù)是:在有效轉(zhuǎn)換圖像視角的同時(shí),保留住身份信息等重要特征。為實(shí)現(xiàn)這一目標(biāo),本文提出了一種基于GAN的深度網(wǎng)絡(luò)的雙通道循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(two-channel cycle consistency generative adversarial network,TCC-GAN),該網(wǎng)絡(luò)使用單個(gè)模型來(lái)實(shí)現(xiàn)跨任意視角的步態(tài)圖像轉(zhuǎn)換。在所提模型中,與視角相關(guān)的信息被視為可以在不同步態(tài)圖像之間傳遞的屬性,是模型回歸逼近的主要目標(biāo)對(duì)象。同時(shí)為了保證步態(tài)圖像在視角轉(zhuǎn)換過(guò)程中的身份信息保存,設(shè)計(jì)了一個(gè)受三重?fù)p失約束的身份保持模塊[22]。此外,基于GAN的非線性映射并不能確保輸入和輸出之間的正確匹配[23],并且GAN訓(xùn)練過(guò)程的模式崩塌問(wèn)題也不容忽視[12]。為緩解上述問(wèn)題并使得輸出圖像與目標(biāo)視角下的源圖像具有盡可能相同的特征分布,本文在步態(tài)轉(zhuǎn)換模型中首次引入循環(huán)一致性損失[23]。
3 實(shí)驗(yàn)結(jié)果
3.1 數(shù)據(jù)集
現(xiàn)階段用于步態(tài)識(shí)別的公共數(shù)據(jù)集有很多,但涉及視角變換的公共步態(tài)數(shù)據(jù)集主要有CASIA-B[29]、OU-LP[30]和OU-MVLP[31]。其中OU-LP與OU-MVLP數(shù)據(jù)集由同一機(jī)構(gòu)創(chuàng)建。值得注意的是OU-LP數(shù)據(jù)集雖然涉及視角變換,但由于觀測(cè)視角的數(shù)量較少、相互之間的跨度及各個(gè)視角的間隔都較小,不足以模擬真實(shí)環(huán)境下的多視角步態(tài)識(shí)別。以往的研究工作也表明該數(shù)據(jù)集易于識(shí)別,從而缺乏挑戰(zhàn)性[18]。因此本文僅在CASIA-B與OU-MVLP數(shù)據(jù)集上評(píng)估所提模型的性能。
3.1.1 CASIA-B數(shù)據(jù)集
CASIA-B[29]步態(tài)數(shù)據(jù)集由中國(guó)科學(xué)院自動(dòng)化研究所專(zhuān)為跨視角步態(tài)識(shí)別而設(shè)計(jì)構(gòu)建。該步態(tài)數(shù)據(jù)集包括124個(gè)行人對(duì)象,針對(duì)每個(gè)對(duì)象,采集了11個(gè)視角(從0°~180°,間隔為18°)下的步態(tài)序列,每個(gè)視角采集了10個(gè)步態(tài)序列。其中,正常行走條件下,采集了6個(gè)序列(NM01-NM06);攜帶包行走條件下,采集了2個(gè)序列(BG01-BG02);穿著大衣行走條件下,采集了2個(gè)序列(CL01-CL02)。數(shù)據(jù)集提供了步態(tài)視頻、步態(tài)輪廓圖像和步態(tài)能量圖像,本文采用步態(tài)能量圖像,即GEI作為模型的輸入。圖3列出了11個(gè)視角下GEI的示例,其中圖(a)顯示了來(lái)自處于NM狀態(tài)下不同行人的GEI,同一行圖像來(lái)自同一行人,圖(b)顯示了來(lái)自同一觀測(cè)對(duì)象處于不同行走狀況的GEI。
實(shí)驗(yàn)中,數(shù)據(jù)集的劃分遵循了大多數(shù)研究所采用的設(shè)置:前62個(gè)行人的數(shù)據(jù)構(gòu)成訓(xùn)練集,其余62個(gè)行人的數(shù)據(jù)則構(gòu)成測(cè)試集[16]。測(cè)試數(shù)據(jù)集進(jìn)一步劃分為畫(huà)廊集和探針集。畫(huà)廊集包含每個(gè)行人的前四個(gè)正常行走序列,即NM01-NM04,而其他序列,即NM05-NM06、BG01-BG02、CL01-CL02,則構(gòu)成了探針集。
3.1.2 OU-MVLP數(shù)據(jù)集
OU-MVLP[31]步態(tài)數(shù)據(jù)集由日本大阪大學(xué)的科學(xué)與工業(yè)研究所創(chuàng)建。數(shù)據(jù)集包括5 114名男性和5 193名女性共計(jì)10 307名測(cè)試者。每個(gè)測(cè)試者具有向前行走與向后行走兩個(gè)行走方向,其中向前行走具有七個(gè)觀測(cè)視角(0°,15°,30°,45°,60°,75°,90°),向后行走也具有七個(gè)觀察視角(180°,195°,210°,225°,240°,255°,270°),且每個(gè)視角都包含兩個(gè)序列(00-01)。OU-MVLP數(shù)據(jù)集同時(shí)提供步態(tài)輪廓圖及步態(tài)能量圖,圖4列出了同一對(duì)象在不同視角下的GEI。
OU-MVLP步態(tài)數(shù)據(jù)集提供了統(tǒng)一的數(shù)據(jù)集劃分,即5 153個(gè)測(cè)試者的數(shù)據(jù)用于訓(xùn)練,5 154個(gè)測(cè)試者的數(shù)據(jù)用于測(cè)試。而在測(cè)試集中,01序列用做畫(huà)廊集,00序列用做探針集。
3.2 評(píng)估方法
生成式步態(tài)識(shí)別方法一般采用最近鄰分類(lèi)器(nearest neighbor classifier,NNC)來(lái)評(píng)估其性能。具體步驟為:首先使用本文模型將測(cè)試集中的步態(tài)圖像轉(zhuǎn)換到目標(biāo)視角;然后采用線性判別分析[32]來(lái)減小步態(tài)圖像的尺寸;最后利用NNC根據(jù)探針集中每個(gè)步態(tài)圖像與畫(huà)廊集中每個(gè)步態(tài)圖像之間的最小歐氏距離來(lái)確定其身份信息,并得出rank-1識(shí)別率。
3.3 定量分析
基于CASIA-B數(shù)據(jù)集上的研究表明,54°視角下的步態(tài)圖像所提供的識(shí)別性能最具有代表性。因此,這里選擇54°作為目標(biāo)視角,并將來(lái)自同一被觀測(cè)對(duì)象的其他視角的所有測(cè)試集中的步態(tài)圖像轉(zhuǎn)換為該視角下的步態(tài)圖像,結(jié)果如圖5所示。圖5中所有步態(tài)圖像均來(lái)自同一被觀測(cè)對(duì)象,方框上方的角度代表步態(tài)圖像的原始視角。方框中的三行分別對(duì)應(yīng)三個(gè)不同的行走條件,即NM、BG和CL。54°的目標(biāo)步態(tài)圖像顯示在圖(b)最左側(cè)的小框中。框上方的角度代表步態(tài)圖像的原始視角。從圖(b)可以發(fā)現(xiàn),紅色框內(nèi)生成的步態(tài)圖像與藍(lán)色框內(nèi)的目標(biāo)步態(tài)圖像難以區(qū)分(見(jiàn)電子版)。
利用訓(xùn)練好的TCC-GAN模型來(lái)進(jìn)行在三種步行條件下的步態(tài)識(shí)別,其性能如圖6所示。為了強(qiáng)調(diào)模型的圖像轉(zhuǎn)換效果,不統(tǒng)計(jì)畫(huà)廊集和探針集在同一視角下的步態(tài)識(shí)別率。從圖6可以發(fā)現(xiàn),在不同的步行條件下,識(shí)別率存在明顯差異。其中正常行走狀態(tài)下識(shí)別率最高,而其他兩種行走狀態(tài)下的識(shí)別率則明顯有所降低。這些結(jié)果表明,穿著外套和攜帶包的情況均在一定程度上影響了步態(tài)特征的表達(dá)。同時(shí)可以看出,如果探針集與畫(huà)廊集的視角差異越大,所獲得的識(shí)別性能越差,這可能是因?yàn)橐暯遣町悤?huì)導(dǎo)致數(shù)據(jù)分布不能對(duì)齊。
3.4 與其他方法的比較
為了證明本文方法的優(yōu)越性,實(shí)驗(yàn)中將TCC-GAN模型與其他一些基于GAN的步態(tài)識(shí)別方法進(jìn)行了比較。這些方法包括GaitGAN[16]、VT-GAN[17]、MGAN[33]、FE-GAN[34]、VN-GAN[19]、 TS-GAN[18]、DV-GAN[35]和CA-GAN[36]。
3.4.1 CASIA-B
CASIA-B步態(tài)數(shù)據(jù)集用于跨視角步態(tài)識(shí)別性能評(píng)估,普遍選取的評(píng)測(cè)角度為54°、90°和126°[17,18,33],本文同樣選擇這三個(gè)視角來(lái)進(jìn)行模型的性能評(píng)估。本文比較了不同模型針對(duì)ProbeNM序列的平均識(shí)別準(zhǔn)確度,其結(jié)果顯示在表1中(當(dāng)畫(huà)廊集與探針集在同一視角下時(shí),其結(jié)果被排除)。圖7則以柱狀圖的形式顯示了各種模型在不同畫(huà)廊集視角下的識(shí)別精度。其中,GaitGAN 是第一個(gè)利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行步態(tài)識(shí)別的模型,其采用的基本GAN結(jié)構(gòu)很難獲得令人滿意的性能。FE-GAN在基本的GAN結(jié)構(gòu)上加入了重構(gòu)損失,模型性能得到了提升。TS-GAN與CA-GAN試圖從全局和局部?jī)煞矫鎸W(xué)習(xí)步態(tài)的視角不變特征,然而,復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)并沒(méi)有使跨視角步態(tài)識(shí)別的準(zhǔn)確性顯著提高。其原因可能歸咎于輸入步態(tài)圖像的低分辨率限制了局部特征的有效提取。MGAN利用線性變換來(lái)實(shí)現(xiàn)隱空間步態(tài)特征在不同視角之間的轉(zhuǎn)換,其成功的關(guān)鍵在于不同視角的步態(tài)圖像在隱空間的準(zhǔn)確表達(dá),而這一點(diǎn)往往難以實(shí)現(xiàn),因此也就限制了MGAN的性能。DV-GAN旨在合成具有極小視角間隔的步態(tài)集,從而促進(jìn)視角不變特征的學(xué)習(xí)。DV-GAN通過(guò)在特征隱空間中的線性插值實(shí)現(xiàn)圖像合成,因此與MGAN類(lèi)似,其性能的瓶頸也在于難以獲得生成特征隱空間所需的最優(yōu)特征編碼器。VN-GAN則將步態(tài)圖像的生成分為粗生成階段和細(xì)化階段兩個(gè)階段,在這兩個(gè)階段中分別實(shí)現(xiàn)視角轉(zhuǎn)換和身份信息注入。這種分階段逐步優(yōu)化的方案雖然提高了生成圖像的質(zhì)量,但是模型也存在難以訓(xùn)練的問(wèn)題。VT-GAN則利用統(tǒng)一框架來(lái)實(shí)現(xiàn)步態(tài)圖像從源視角到任意視角的轉(zhuǎn)換。視角信息經(jīng)過(guò)編碼被直接輸入到生成器中,并利用不同損失來(lái)約束模型的學(xué)習(xí)過(guò)程。相較于其他方法,這種將視角信息直接注入到模型輸入的方法,可以更好地指導(dǎo)生成器生成目標(biāo)圖像,因此取得了不錯(cuò)的跨視角步態(tài)識(shí)別性能。受此啟發(fā),本文TCC-GAN設(shè)計(jì)了一種雙通道循環(huán)一致性損失來(lái)引導(dǎo)生成器生成特定視角下的步態(tài)圖像,使得其特征分布與該視角下真實(shí)步態(tài)圖像的特征分布能夠更好地對(duì)齊。從表1中可以看出,與其他方法相比,本文TCC-GAN的性能表現(xiàn)最佳。相比于基準(zhǔn)模型GaitGAN,TCC-GAN模型在54°、90°和126°這三個(gè)視角下的識(shí)別率分別提高了16%、12%和13%。
3.4.2 OU-MVLP
為了與其他方法進(jìn)行對(duì)比,針對(duì)OU-MVLP步態(tài)數(shù)據(jù)集,遵循其他研究工作中典型探針集視角的選取策略[37],本文實(shí)驗(yàn)主要評(píng)估了模型在0°、30°、60°和90°這四個(gè)探針集視角下的識(shí)別精度。表2列出了所提模型與其他對(duì)比模型在四個(gè)探針視角上的平均識(shí)別率(當(dāng)畫(huà)廊集與探針集在同一視角下時(shí),其結(jié)果被排除)。從結(jié)果上看,所有模型的識(shí)別率均明顯低于模型在數(shù)據(jù)集CASIA-B上的識(shí)別率。這是因?yàn)樵贑ASIA-B步態(tài)數(shù)據(jù)集上評(píng)估的是正常行走條件下的模型識(shí)別率,相比之下,OU-MVLP數(shù)據(jù)集中的步態(tài)是在更復(fù)雜的條件下采集的。例如,OU-MVLP數(shù)據(jù)集中的受試者穿著不同種類(lèi)的衣服,并且年齡跨度很大(從5~69歲不等[31])。正如3.3節(jié)中所分析,不同的穿著與攜帶物會(huì)在很大程度上遮擋步態(tài)信息。盡管整體識(shí)別率較低,但本文TCC-GAN仍然在所有比較的模型中表現(xiàn)最好。
3.5 循環(huán)一致性損失的作用
為了說(shuō)明循環(huán)一致性損失的重要性,實(shí)驗(yàn)中將TCC-GAN與沒(méi)有循環(huán)一致性損失的TCC-GAN,也即TCC-GAN(no cyc),以及基線模型GaitGAN進(jìn)行了對(duì)比。對(duì)比結(jié)果如表3所示。可以發(fā)現(xiàn),與TCC-GAN模型相比,TCC-GAN(no cyc)的性能下降了約2%。因此,循環(huán)一致性損失有助于TCC-GAN模型在跨視角步態(tài)識(shí)別上的性能提高。
3.6 FID分?jǐn)?shù)
為了說(shuō)明所提TCC-GAN模型可以有助于合成步態(tài)圖像的特征分布與目標(biāo)分布更好地對(duì)齊,實(shí)驗(yàn)中計(jì)算了不同模型的Fréchet inception distance(FID)[38]。FID廣泛用于評(píng)估生成對(duì)抗網(wǎng)絡(luò)所合成的圖像質(zhì)量。FID的計(jì)算利用Inception v3網(wǎng)絡(luò)[39]的最后一層所計(jì)算的二階統(tǒng)計(jì)量。FID分?jǐn)?shù)越小,說(shuō)明合成圖像與真實(shí)圖像越接近,合成圖像的多樣性和質(zhì)量也越好。同時(shí)FID對(duì)模式崩塌很敏感,且對(duì)噪聲具有很好的魯棒性,如果發(fā)生模式崩塌,那么FID分?jǐn)?shù)會(huì)很高。針對(duì)CASIA-B數(shù)據(jù)集,幾個(gè)對(duì)比模型的FID計(jì)算結(jié)果列于表4,可以看出,TCC-GAN和TCC-GAN(no cyc)的FID得分均低于基線模型GaitGAN,而TCC-GAN的FID得分最低。
4 結(jié)束語(yǔ)
本文提出了一個(gè)新型的生成對(duì)抗網(wǎng)絡(luò)TCC-GAN,將源步態(tài)圖像旋轉(zhuǎn)到任意視角,以實(shí)現(xiàn)跨視角步態(tài)識(shí)別。為了訓(xùn)練TCC-GAN,對(duì)模型施加了不同的約束:為了在圖像轉(zhuǎn)換期間保留身份信息,利用了三重?fù)p失;為了引導(dǎo)圖像生成正確的與視角相關(guān)的內(nèi)容,設(shè)計(jì)了視角判別器;同時(shí)還在TCC-GAN中添加了重構(gòu)損失,以重建像素級(jí)的步態(tài)圖像細(xì)節(jié)。模型首次引入循環(huán)一致性損失力圖對(duì)齊所生成圖像的特征分布與目標(biāo)圖像的特征分布。CASIA-B上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提模型的有效性,同時(shí)本文模型的識(shí)別精度要優(yōu)于其他基于GAN的跨視角步態(tài)識(shí)別方法。
然而,本文方法也有一些局限性,首先,所提模型在如OU-MVLP這樣的大數(shù)據(jù)量數(shù)據(jù)集上表現(xiàn)較差;其次,對(duì)于在遮擋條件下的步態(tài)圖像的識(shí)別精度仍不盡如人意。未來(lái)將嘗試?yán)靡恍?shù)據(jù)預(yù)處理方法,例如基于視角插值的數(shù)據(jù)擴(kuò)展來(lái)增強(qiáng)模型的魯棒性和特征學(xué)習(xí)的有效性,以此來(lái)提高模型對(duì)大規(guī)模數(shù)據(jù)集的泛化能力。
參考文獻(xiàn):
[1]Murray M,Drought A,Kory R.Walking patterns of normal men[J].Bone amp; Joint Surgery,1964,46(2):335-360.
[2]Murray M.Gait as a total pattern of movement[J].American Journal of Physical Medicine,1967,46(1):290-333.
[3]Lee L,Grimson W E L.Gait analysis for recognition and classification[C]//Proc of IEEE International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,2002:148-155.
[4]Han J,Bhanu B.Performance prediction for individual recognition by gait[J].Pattern Recognition Letters,2005,26(5):615-624.
[5]Nixon M,Carter J,Nash J,et al.Automatic gait recognition[J].Motion Analysis and Tracking,1999,7(2):3-6.
[6]Wang Liang,Tan Tieniu,Hu Weiming,et al.Automatic gait recognition based on statistical shape analysis[J].IEEE Trans on Image Processing,2003,12(9):1120-1131.
[7]Makihara Y,Sagawa R,Mukaigawa Y,et al.Gait recognition using a view transformation model in the frequency domain[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2006:151-163.
[8]Kusakunniran W,Wu Qiang,Zhang Jian,et al.Recognizing gaits across views through correlated motion co-clustering[J].IEEE Trans on Image Processing,2014,23(2):696-709.
[9]Bashir K,Xiang Tao,Gong Shaogang.Cross-view gait recognition using correlation strength[C]//Proc of British Machine Vision Confe-rence.[S.l.]:BMVA Press,2010:109.1-109.11.
[10]Xing Xianglei,Wang Kejun,Yan Tao,et al.Complete canonical correlation analysis with application to multi-view gait recognition[J].Pattern Recognition,2016,50:107-117.
[11]LeCun Y,Kavukcuoglu K,F(xiàn)arabet C.Convolutional networks and applications in vision[C]//Proc of IEEE Conference on Circuits and Systems.Piscataway,NJ:IEEE Press,2010:253-256.
[12]Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative adversarial networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems.2014:2672-2680.
[13]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[14]Chao Hanqing,He Yiwei,Zhang Junping,et al.GaitSet:regarding gait as a set for cross-view gait recognition[EB/OL]. (2018-12-12).https://arxiv.org/abs/1811.06186.
[15]Feng Yang,Li Yuncheng,Luo Jiebo.Learning effective gait features using LSTM[C]//Proc of the 23rd International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2016:325-330.
[16]Yu Shiqi,Chen Haifeng,Reyes E B G,et al.GaitGAN:invariant gait feature extraction using generative adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2017:532-539.
[17]Zhang Peng,Wu Qiang,Xu Jingsong.VT-GAN:view transformation GAN for gait recognition across views[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2019:1-8.
[18]Wang Yanyun,Song Chunfeng,Huang Yan,et al.Learning view inva-riant gait features with two-stream GAN[J].Neurocomputing,2019,339(4):245-254.
[19]Zhang Peng,Wu Qiang,Xu Jingsong.VN-GAN:identity-preserved variation normalizing GAN for gait recognition[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2019:1-8.
[20]Han J,Bhanu B.Individual recognition using gait energy image[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(2):316-322.
[21]何逸煒,張軍平.步態(tài)識(shí)別的深度學(xué)習(xí):綜述[J].模式識(shí)別與人工智能,2018,31(5):442-452. (Hei Yiwei,Zhang Junping.Deep learning for gait recognition:a review[J].Pattern Recognition and Artificial Intelligence,2018,31(5):442-452.)
[22]Schroff F,Kalenichenko D,Philbin J.FaceNet:a unified embedding for face recognition and clustering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:815-823.
[23]Zhu Junyan,Park T,Isola P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2242-2251.
[24]Zhang Yuqi,Huang Yongzhen,Yu Shiqi,et al.Cross-view gait recognition by discriminative feature learning[J].IEEE Trans on Image Processing,2020,29:1001-1015.
[25]Burhan I M,Nordin M J.Multi-view gait recognition using enhanced gait energy image and radon transform techniques[J].Asian Journal of Applied Sciences,2015,8:138-148.
[26]Wang Jiang,Song Yang,Leung T,et al.Learning fine-grained image similarity with deep ranking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:1386-1393.
[27]Deng Weijian,Zheng Liang,Ye Qixiang,et al.Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:994-1003.
[28]Isola P,Zhu Junyang,Zhou Tinghui,et al.Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1125-1134.
[29]Yu Shiqi,Tan Daoliang,Tan Tieniu.A framework for evaluating the effect of view angle,clothing and carrying condition on gait recognition[C]//Proc of the 18th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2006:441-444.
[30]Iwama H,Okumura M,Makihara Y,et al.The OU-ISIR gait database comprising the large population dataset and performance evaluation of gait recognition[J].IEEE Trans on Information Forensics and Security,2012,7(5):1511-1521.
[31]Noriko T,Yasushi M,Daigo M,et al.Multi-view large population gait dataset and its performance evaluation for cross-view gait recognition[J].IPSJ Trans on Computer Vision and Applications,2018,10(1):1-14.
[32]Mika S,Ratsch G,Weston J,et al.Fisher discriminant analysis with kernels[C]//Proc of IEEE Conference on Neural Networks for Signal Processing.Piscataway,NJ:IEEE Press,1999:41-48.
[33]He Yiwei,Zhang Junping,Shan Hongming,et al.Multi-task GANs for view-specific feature learning in gait recognition[J].IEEE Trans on Information Forensics and Security,2019,14(1):102-113.
[34]秦紅月,王敏.基于生成對(duì)抗網(wǎng)絡(luò)的跨視角步態(tài)特征提取[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(1):164-170. (Qin Hongyue,Wang Min.Cross-view gait feature extraction using generative adversarial networks[J].Computer System Application,2020,29(1):164-170.)
[35]Liao Rijun,An Weizhi,Yu Shiqi,et al.Dense-view GEIs set:view space covering for gait recognition based on dense-view GAN[C]//Proc of IEEE International Joint Conference on Biometrics.Piscataway,NJ:IEEE Press,2020:1-9.
[36]Li Shuangqun,Liu Wu,Ma Huadong,et al.Beyond view transformation:cycle-consistent global and partial perception GAN for view-inva-riant gait recognition[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2018:1-6.
[37]Hu Bingzhang,Guan Yu,Gao Yan,et al.Robust cross-view gait identification with evidence:a discriminant gait GAN(DiGGAN) approach on 10000 people[EB/OL].(2018-11-26).https://arxiv.org/abs/ 1811.10493.
[38]Heusel M,Ramsauer H,Unterthiner T,et al.GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]//Proc of the 31st International Conference on Neural Information Processing Systems.2017:6629-6640.
[39]Szegedy C,Liu Wei,Jia Yangqing,et al.Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1-9.