王鋮東
(四川大學計算機學院,成都610065)
人臉識別是一項匹配同一個人面部圖像的任務,隨著深度學習的出現,該問題發展迅速。通過深度卷積神經網絡的多個隱藏層提取的特征包含有代表性的信息,可以有效地區分不同個體[1]。隨著人臉識別問題的發展,研究者們開始關注于其中更富有挑戰性的問題:如姿態、光照、表情、年齡等的人臉識別問題[2-3]。與上述問題不一樣的是,跨模態人臉識別用于比對識別的人臉圖像差異更大,且目前的跨模態人臉識別相關的數據集規模小,為識別帶來了巨大的困難。
跨模態人臉識別的目的是識別數據分布或外觀差異較大的不同模態人臉圖像[4]。常見的如:近紅外光與可見光、遠紅外光與可見光、素描與照片、正面與側面,低分辨率與高分辨率的人臉識別等問題都是跨模態人臉識別問題。跨模態人臉識別問題主要應用于安防、刑偵等場所。最為典型的應用場景是:安防部門系統庫里的人臉圖像是質量良好的可見光圖像,而監控所拍攝得到的圖像相對而言質量差,且有很多夜間拍攝的近紅外圖像。受制于數據模態間的巨大差異,已有的人臉識別模型準確率下降顯著。
跨模態人臉識別問題的主要難點在于兩點。一是不同模態下的數據差異大,也可以說是數據分布的差異大,而這種差異很可能會導致類內距離超過類間距離。因此,如何有效減少這種數據分布上的差異是跨模態人臉識別問題面臨的主要難點之一。另一個難點是,相對于一般的人臉識別任務來說,跨模態人臉識別任務目前所擁有的數據集規模小,因此直接使用一般的人臉識別方法很容易過擬合。
在跨模態人臉識別問題中,目前研究者們主要針對單個的跨模態因素的研究,對于實際的場景仍有一定的差距。如監控拍攝的人臉圖像通常不僅是近紅外的圖像,而且其分辨率低,姿態差異明顯。針對該問題,本文進一步引入了低精跨模態人臉識別問題。該問題面臨的困難與挑戰同跨模態人臉識別問題類似,但更為巨大,而其更為接近于實際的應用場景,是具有研究意義的研究問題。
本文依據目前主流的跨模態人臉識別方法,針對低精跨模態人臉問題,提出了一種基于圖像合成與模態不變特征表示相結合的方法。該方法先利用基于圖像合成的方法,將低精數據(信息量匱乏)轉換為高精數據(信息量充足),再通過模態不變特征表示的方法減小近紅外與可見光之間的模態差異,完成最終的低精跨模態人臉識別任務。使用這種方法,主要是考慮到不同信息量差異下,不同方法的適用性與表現會有所不同。相比較而言,基于合成的方法有助于跨越信息量差異大的模態差異,而基于模態不變特征表示的方法更適宜于信息量差異不大,但數據的分布不一致的情形。
低精度的圖像信息量相對于高精度的圖像信息量差異巨大,相關的跨模態人臉識別算法在面對現實場景下大量的低精數據,難以達到預期的效果。本文基于循環生成對抗網絡的基礎結構[17],將低精數據轉換為對應的高精數據,并且在轉換過程中保持其身份信息。實驗證明,通過該轉換過程后的數據在跨模態人臉識別方法上能夠達到更好的效果。


圖1 身份保持循環生成對抗網絡低分辨率轉高分辨率網絡結構圖
為了在進行圖像生成的過程中保持身份信息的不變性,本文在循環生成對抗網絡的基礎上引入了生成圖像與其對應的高分辨率圖像的L1損失,以及它們在特征層上的L2損失。同時,在整個過程中,特征提取器的參數是固定的,網絡只訓練生成器G和F的參數。且特征提取器的參數已在原始的近紅外與可見光數據集上進行了微調,以保證圖像合成的過程中,L2損失函數所依據的身份信息更加真實、準確。
在該網絡的所有損失函數上,除了原始的循環生成對抗的網絡的判別器損失、生成器損失,循環一致損失,本文進一步引入了像素級L1損失和特征級L2損失,用于進行身份保持的任務。這兩個損失函數的具體表示分別為:像素級L1損失L_pixel:

(1)
以及特征級L2損失Lfea:

(2)
最終的損失函數為:
(3)
據此,我們可以得到最終的優化問題為:
(4)
通過對上述優化問題進行訓練,網絡中的生成器不斷優化自身以用于“欺騙”判別器,而判別器則不斷提高自身的判別能力,通過兩者這樣的不斷對抗優化,生成器能夠生成與真實高分辨率數據類似的數據分布,以使得判別器難以分辨。另外需要注意的是,由于在生成的過程中我們引入了身份保持的兩個損失函數,這會使得生成器在整個過程中都會約束自身生成的數據與真實的數據身份信息相一致。通過這種方式,最終生成器能夠將低分辨率圖像在身份保持的情況下,轉換為信息量更為豐富的高分辨率圖像,為后面進行模態不變特征提取提供更為良好的條件。
在經過本文提出的身份保持循環生成對抗網絡的圖像合成后,信息量匱乏的低分辨率數據已轉換為了信息量更為充分的高分辨率數據。然而,通過網絡合成的方式并不能得到與真實數據完全一致的數據分布。這種偏差本質上也是模態差異,但可以發現,盡管數據分布仍存在差異,但數據間的信息量的差異已經通過圖像合成的方式大大減小。本文針對這種情形,在使用文獻[9]作為特征提取網絡的基礎上,使用三元組損失函數,用于減小生成數據與可見光圖像的模態差異。

(5)
同時:

(6)
因此,對于每個小批量而言,最終的三元組樣本對可以記為:
在上述情況下的樣本對下,得到最終三元組損失函數為(本文取margin=0.3):
Ltriplet(Xa,Xp*,Xn*)=max(‖Xa-Xp*‖2-‖Xa-Xn*‖2+margin,0)
(7)
在生成數據與真實數據間的模態差異下,可能導致不同模態下的類內距離大于相同模態下的類間距離。通過對公式(7)的損失函數進行優化,可以有效地減小模態間的差異,從而使得特征提取網絡能夠提取到與模態無關的身份信息,進而能夠有效提升生成數據與可見光數據上的跨模態人臉識別準確率。至此,通過上述兩種方法的結合,我們能夠有效地實現低精跨模態人臉識別任務。
本部分介紹使用的數據集,數據集的處理,以及對實驗的結果的細致分析。最后,將會對比本文提出的方法在近紅外與可見光跨模態人臉識別問題,以及本文提出的低精跨模態人臉識別問題上與近期的其他方法的一些對比結果,以證明方法的有效性。
CASIA NIR-VIS 2.0數據集[6]是目前最大的跨模態人臉識別數據集之一,該數據集包括近紅外人臉圖像數據與可見光人臉圖像數據。總共包含有725個個體,由4次采集得到。每個個體有1-22張可見光圖像與5-50張近紅外圖像。這些圖像包含不同的分辨率、光照條件、姿態、年齡、表情和是否帶眼鏡等變化因素,這些因素使得識別任務具有了更大的挑戰性。在實驗中,本文遵循文獻[6]中的測試協議。在該協議中,實驗的測試部分包含圖庫集和探測集,其中圖庫集中每個個體一張可見光圖像,而探測集中的每個個體有多張近紅外圖像。本文通過對整個圖庫集計算相似度矩陣,計算并記錄了識別準確率與驗證準確率。
在該本部分的工作中,為了規范化輸入數據,本文首先對數據集進行了剪裁工作。通過使用MTCNN[7]對數據進行人臉檢測,并設置剪裁大小為128×128,得到剪裁后的數據集。為了進行低分辨率近紅外圖像和高分辨率可見光圖像的識別工作,本文進一步使用雙線性插值的方法對數據進行下采樣,下采樣的數據大小為22×22。
2.3.1 身份保持跨模態生成消融實驗
為了分析身份保持模態生成方法的有效性,本文對比了基準、只使用L1損失函數、只使用L2損失函數,以及同時使用L1和L2損失函數的性能情況。在性能評估過程中,通過對低分辨率近紅外數據進行身份保持的跨模態生成得到對應的高分辨率近紅外圖像,再計算生成圖像與高分辨率可見光圖像的相似度矩陣。在嚴格遵循文獻[6]中的視圖1測試協議的情況下,得到的實驗結果如表1所示。

表1 在CASIA NIR-VIS 2.0數據上的身份保持跨模態生成消融研究實驗結果
通過表1,可以發現,原始的循環對抗生成網絡本身是不具有良好的身份保持性能的,它的主要工作是進行模態的轉換與圖像生成。由于在實驗的數據構成中,我們具有良好的一一對應的低分辨率與高分辨率數據,而像素級別上的L1約束與特征級別上的L2約束本身的目標上一致的,因此它們均能夠對身份保持起到較為接近的有效結果。但從我們的身份識別的最終目標上來說,L2約束從身份特征上的約束更接近我們的目標,可以看到它也的確起到了更好的效果。另外,在同時使用兩者的情況下,相對于單個約束,仍有小幅度的提升。
2.3.2基于三元組損失的模態不變特征表示方法
在這一部分,本文主要通過從兩個不同的模態差異去進行評估。首先是在近紅外到可見光的跨模態人臉識別問題上,通過計算CASIA NIR-VIS 2.0數據集中的近紅外與可見光人臉圖像的相似度矩陣,并在嚴格遵循文獻[6]中的視圖1協議的情況下,得到的實驗結果如表2所示。

表2 在CASIA NIR-VIS 2.0數據集上的三元組損失函數實驗結果
通過表2可以看出,通過三元組損失函數,確實能夠有效的減小近紅外與可見光之間的模態差異,提升跨模態人臉識別的性能。除此之外,為了驗證該方法能否在本文中的生成數據上生效,同樣對生成數據進行了實驗驗證,其結果如表3。

表3 在CASIA NIR-VIS 2.0生成數據集上的三元組損失函數實驗結果
通過表3可以看出,該方法的確能夠有效提升生成數據的識別性能。至此,通過本文提出的方法,在低分辨率的CASIA NIR-VIS 2.0數據集上,成功將Rank-1識別準確率提升到了91.64%。實現了一個完整的低精跨模態人臉識別問題的解決方案。
2.3.3 三元組損失函數正樣本數s評估實驗
在三元組損失函數的設計中,本文引入了正樣本數s,為了找出合適的正樣本數s,本文在生成數據上對參數s進行了評估實驗,得到的實驗結果如表4所示。

表4 在CASIA NIR-VIS 2.0數據集上的生成數據的三元組損失函數正樣本數s評估實驗結果
通過表4可以看出,隨著正樣本數s的增大,可以找到更為困難的三元組樣本對,但受限于數據規模,以及過于困難的樣本對會引入額外的噪聲,因此隨著s的大小超出一定范圍,性能反而會出現衰減,在本文的實驗場景下,當s=8時,能夠達到最好的識別性能,為Rank-1準確率91.64%。
2.4.1 基于三元組損失函數模態不變特征表示的方法與其他現有方法對比實驗
在表5中,本文在嚴格遵循文獻[6]中的視圖2協議的情況下,與其他的基于深度學習的跨模態人臉識別算法進行了對比,其中包括HFR-CNN[10]、TRIVLET[11]、ADFL[12]、CDL[13]、WCNN[8]、DSU[14]、RM[15]、RDFL[5]。其中RDFL通過圖像內的相關關系來優化學習模態不變特征,可以看到,本文提出的方法相對于RDFL在Rank-1的準確率上提高0.33%,進一步逼近100%的準確率,在表中的方法中,識別性能與驗證性能均達到了最高。

表5 使用三元組損失函數在CASIA NIR-VIS 2.0數據集上的十折交叉驗證與其他方法對比
2.4.2 多重跨模態人臉識別問題與其他方法對比實驗:
在表6中,本文在嚴格遵循文獻[6]中的視圖1協議的情況下,對比了低分辨率圖像、通過插值的超分圖像,通過SICNN[16]進行超分的圖像的性能情況。可以看出,在低分辨率與近紅外光的兩種因素的影響下,識別任務已經變得十分困難。本文提出的方法能夠有效地減少這一巨大的模態差異,得到的Rank-1準確率91.64%相對于CycleGAN[17]提升了超過20個百分點,為低精跨模態人臉識別問題打開了一個良好的開端。

表6 在CASIA NIR-VIS 2.0數據集上的多重跨模態人臉識別問題性能對比
本文提出的方法的貢獻點主要如下:
(1)提出一個新的具有研究價值與意義的問題:低精跨模態人臉識別問題,并得到了一個完整的解決方案與網絡模型。
(2)提出基于圖像合成與模態不變特征表示相結合的方法,能夠有效地進行模態轉變與模態不變特征提取。
(3)本文在CASIA NIR-VIS 2.0數據集上進行了實驗,在近紅外與可見光跨模態人臉識別問題上達到了Rank-1準確率99.63±0.11%的結果,且在低精跨模態人臉識別問題上得到了目前最好的識別性能。
但可以看到,該方法限制了低精度與近紅外兩種跨模態問題的解決順序,同時,在最終的性能表現上仍然有一定的提升空間。在未來的工作中,我們將針對這些問題,改進相關的網絡結構,得到更為簡潔與高性能的解決方案。