湯 旭
(1.中國科學院上海微系統與信息技術研究所上海200050;2.上海科技大學上海201210;3.中國科學院大學北京100049)
人臉老化,又稱為人臉的年齡生成,該課題正在吸引越來越多研究者的注意。如何在審美角度將自然而然的老化渲染到人臉圖像上,并且保留它關于身份的信息是我們需要關注的。人臉老化過程的建模對于人臉識別和驗證都是至關重要的。人臉識別在計算機視覺領域是最活躍的領域之一。許多論文[1-6]專注于通用人臉識別。然而,據我們了解,很少有工作專注于研究人臉的老化生成和跨年齡人臉識別。人臉老化可以有廣闊的應用,比如,一旦有了某人幼年時候的照片,它可以用來幫助尋找迷失兒童。同時,做一個手機應用程式來預測某人若干年后的長相也是一件很有趣的事情。除此之外,跨年齡人臉識別可以為多年前發生的犯罪提供關鍵線索。目前人臉老化的論文較少的可能的原因是因為,缺乏合適的人臉老齡化數據庫,尤其是當我們需要訓練一個深度卷積神經網絡的時候。大部分已有的數據庫[7-9]里面,相同的人擁有大量的圖片,但是這些人的年齡跨度往往很小。對于同一個人的人臉圖片來說,往往僅僅覆蓋很窄的年齡范圍(通常是0~10歲)。因此,我們需要提出一個引入目標領域里面的其他人臉圖片來幫助源領域指定人老化生成的模型。
大量的人臉老化的模型[10-11]對動態老化模板進行建模,模型大體可以分為兩種類型:原型方法[12]和物理建模方法[13-14]。原型方法用源領域(更年輕的年紀)的重構的平均臉作為原型,然后移動原型之間的差異性到測試圖片上。物理建模方法以參數化模型的方式模擬人臉老化的過程,在參數化模型中皮膚、肌肉、或者頭顱的老化過程可以被建模。
我們的方法與生成模型息息相關,比如變分自動編碼器[15]和對抗生成網絡(Generative Adversarial Networks,GAN)[16-17]都在生成模型領域占據主要地位。像素點重建的目標函數往往用來訓練變分自動編碼器,但是其生成的圖像看上去很模糊。基于對抗生成網絡生成的圖像往往看上去很自然。深度卷積對抗生成網絡(Deep Convolutional Generative Adversarial Networks,DCGAN)的思想[18]可以幫助引入更深的網絡生成圖像。
我們的工作屬于一種條件對抗生成網絡(conditional Generative Adversarial Networks, cGAN)[19]。cGAN通過引入先驗信息來生成需要的結果,是GAN的延伸。諸如圖像年齡標簽等的條件通過全連接層的形式引入到對抗生成網絡中。文獻[20]證明了可以通過文本描述的形式生成對應的真實的圖片。
目前最好的老化建模方法IcGAN目前是達到藝術水準的。首先,它將先驗條件轉換為獨熱的(onehot)年齡標簽來訓練年齡有關的cGAN。為了生成沒有丟失身份信息的人臉,他提出使用L-BFGS-B進行優化的隱變量優化方法。
給定輸入-目標對(xi,m,xj,n),其中xi,m是第i個人的第m個年齡組的人臉照片,xj,n表示第j個人的第n個年齡組的人臉照片。在本論文中,人臉的年齡被劃分成5個年齡段區間:0-20,21-30,31-40,41-50,51+,并且m,n∈ [0,1,2,3,4],且m≤n。因此,年齡有關的條件以5維熱編碼向量(one-hot vector)的形式結合到特征空間。本文中,輸入-目標對(xi,m,xj,n)給定后,我們的目標是生成第i個人的第n個年齡段的老化人臉xi,n′。同時,我們的模型可以保持住原始圖片的身份相關的信息。
我們提出IPGAN的方法,如圖1所示。我們的IPGAN的方法提出多個損失函數結合的目標項:對抗損失函數LGAN,特征空間損失函數Lfeat以及圖像空間損失函數Limage。具體公式如下:

此多任務學習過程有諸多優點。聯合優化對于身份保持的年齡生成有益。聯合的目標函數由以下部分組成:最小化源圖片xi,m和重構圖片xi,m′之間像素級別的歐氏距離(給定年齡編碼y0),最小化真實隱向量z和估計隱向量z′之間的歐式距離(給定年齡編碼y1),實現對抗生成網絡雙玩家的最小化最大化目標[16]。
特征空間的損失函數旨在重構出輸入圖片,同時,在生成的圖像中可以保持住原始人臉圖像跟身份有關的信息。編碼器E不僅可以將源領域的人臉圖片映射到身份保持的特征空間,同時,E能夠把生成的老化圖像映射到相同的特征空間。我們定義:

其中G表示生成器,y1是和老化有關的年齡先驗,xi,n′是生成的位于第n個年齡段的人臉圖像。通過實現這部分,隨著年齡的變化,身份有關的信息將保持完整。我們使用文獻[21]的AlexNet模型作為我們的編碼器,其他卷積神經網絡的模型亦可[22-24]。
對抗生成網絡用于生成最可信,并且最真實的圖片。條件對抗生成網絡用于根據特定的條件先驗有關的屬性來生成圖片。我們需要將源圖片以及其錯誤的年齡條件的類型作為cGAN的第3種輸入。因此,差分器可以學會對假造圖片進行排名。損失函數如下:


其中,θG和θD分別是生成器G和差分器D的參數。其中生成的標簽y′對應生成的圖像xi,n′。
IPGAN模型引入圖像空間的損失函數,具體的定義如下:

其中y0是和重建有關的年齡先驗,引入圖像空間的損失函數可以幫助重建源圖片。值得注意的是,Limage的引入可以幫助解決GAN訓練過程中不穩定以及對超參數敏感的問題。

圖1 生成器G的輸入端改變年齡條件來展示年齡老化的生成
編碼器部分使用經過預訓練的AlexNet[21],它由5個卷積層和兩個全連接層組成。激活函數使用ReLU。生成器和差分器的具體結構參考圖2。

圖2 生成器和差分器的具體結構
所提出的IPGAN的模型基于tensorflow的深度學習框架。模型優化使用的是帶沖量的ADAM算法,其中沖量項設置為0.5,網絡的初始學習率為0.000 2,批處理的大小為64,權重衰減設置為0.000 01。為了防止差分器在訓練的過程中出現過擬合的情況,當生成器的損失是差分器的損失的10倍的時候,我們停止更新差分器D的部分。
跨年齡名人數據集(CACD)[9]包括了2 000個名人的超過160,000張照片,數據庫的整體年齡跨度為16~62歲。所有的人臉圖片數據都有年齡相關的標簽。在實驗設置中,我們將CACD數據集劃分為兩部分:訓練集和測試集。我們隨機選取每個人的80%的照片劃分到訓練集部分,剩下的作為測試集。
實驗優先考慮將生成樣本的視覺質量作為評價標準。實驗結果如表3所示,展示了我們的IPGAN模型在不同年齡的老化生成圖片。第一列對應的是五個不同的人的原始圖片,每一行表示的是同一個人的不同年齡。第二列到第五列分別表示21-30歲,31-40歲,41-50歲,51歲以上的老化生成效果展示圖。通過圖示,我們可以分析得到,隨著年齡先驗信息的增大,生成圖像的發際線往后移動、臉部皺紋增多、臉部輪廓出現些許變化。但是,在生成老化圖片的過程中,局部的信息會保持不變,比如鼻子形狀,眼睛的大小等等。顯然,身份保持的隱變量z編碼人的身份信息,年齡條件y編碼特定的年齡信息。

圖3 生成老化圖片效果展示
實際上,使用IPGAN模型,我們的生成器可以根據未知樣本生成老化的圖片。如圖4是IPGAN模型生成的圖片,可以看出它具有很強的泛化能力,并且沒有受到過擬合的影響。
IPGAN模型的實驗結果可以保持住源圖片和生成圖片的身份有關的信息。所以,我們用人臉識別的方法來驗證身份保持性。在表格1中,我們比較了兩種訓練集的結果,訓練集1是生成老化樣本和原始訓練數據的混合,訓練集2僅僅含有原始的訓練數據集。分別用訓練集1和訓練集2訓練我們的人臉分類模型,然后比較模型在測試集上的分類效果(識別率)。實驗結果表明,對于跨年齡人臉識別,我們的模型可以在該測試集上獲得識別率2.64%的增益。

表1 實驗結果
僅僅是保持身份有關的信息是不夠的,年齡相關的老化過程也應該被渲染到源圖片上。為了定量描述生成圖片的老化程度,我們訓練了一個在訓練集2上面年齡分類準確率到達94%的年齡分類器(年齡分類為五組)。如預期,生成圖片的平均年齡估計僅僅比原始自然圖片的年齡估計準確率低11.8%。這有效的證明了我們的老化生成圖像有很強的年齡相關性。
文中提出了基于對抗生成網絡的身份保持的人臉老化(IPGAN),模型利用了加權重的3個損失函數:對抗損失函數LGAN,特征空間損失函數Lfeat以及圖像空間損失函數Limage。它解決了生成圖像中缺乏保持原始圖像身份信息的能力的問題。對抗生成網絡能夠充分利用特征的統計信息,使得生成圖片更顯真實。同時,我們的IPGAN允許通過簡單的改變輸入到生成器G中的年齡條件,來控制生成人臉圖像的年齡老化屬性。通過引入特征空間損失函數Lfeat以及圖像空間損失函數Limage,模型可以解決訓練過程收斂不穩定和對超參數敏感的問題。大量的實驗證明,我們的結果對于跨年齡人臉識別有很好的幫助,并且能夠在識別率上面獲得2.64%的增益,同時生成圖片的平均年齡估計與原始圖片的平均年齡估計僅僅相差11.8%。

圖4 IPGAN的泛化能力展示
參考文獻:
[1]Sandford A,Burton A M.Tolerance for distorted faces:Challenges to a configural processing account of familiar face recognition[J].Cognition,2014,132(3):262-268.
[2]Yang M,Zhang L,Shiu S C K,et al.Gabor feature based robust representation and classification for face recognition with Gabor occlusion dictionary[J].Pattern Recognition,2013,46(7):1865-1878.
[3]Han H,Shan S,Chen X,et al.A comparative study on illumination preprocessing in face recognition[J].Pattern Recognition,2013,46(6):1691-1699.
[4]Mike Burton A.Why has research in face recognition progressed so slowly?The importance of variability[J].The Quarterly Journal of Experimental Psychology,2013,66(8):1467-1485.
[5]Xu Y,Zhu Q,Fan Z,et al.Using the idea of the sparse representation to perform coarse-to-fine face recognition[J].Information Sciences,2013(238):138-148.
[6]Yang M,Feng Z,Shiu S C K,et al.Fast and robust face recognition via coding residual map learning based adaptive masking[J].Pattern Recognition,2014,47(2):535-543.
[7]Panis G,Lanitis A.An overview of research activities in facial age estimation using the FG-NET aging database[C]//European Conference on Computer Vision.Springer International Publishing,2014:737-750.
[8]Ricanek K,Tesafaye T.Morph:A longitudinal image database of normal adult age-progression[C]//Automatic Face and Gesture Recognition,2006.FGR 2006.7th International Conference on.IEEE,2006:341-345.
[9]Chen B C,Chen C S,Hsu W H.Cross-age reference coding for age-invariant face recognition and retrieval[C]//European Conference on Computer Vision.Springer International Publishing,2014:768-783.
[10]Wang W,Cui Z,Yan Y,et al.Recurrent face aging[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2378-2386.
[11]Fu Y,Guo G,Huang T S.Age synthesis and estimation via faces:A survey[J].IEEE transactions on pattern analysis and machine intelligence,2010,32(11):1955-1976.
[12]Kemelmacher-Shlizerman I, Suwajanakorn S,Seitz S M.Illumination-aware age progression[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:3334-3341.
[13]Suo J,Zhu S C,Shan S,et al.A compositional and dynamic model for face aging[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(3):385-401.
[14]Tazoe Y,Gohara H,Maejima A,et al.Facial aging simulator considering geometry and patch-tiled texture[C]//ACM SIGGRAPH 2012 Posters.ACM,2012:90.
[15]Angelino E,Johnson M J,Adams R P.Patterns of scalable Bayesian inference[J].Foundations and Trends? in Machine Learning,2016,9(2-3):119-247.
[16]Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Advances in neural information processing systems.2014:2672-2680.
[17]Chen J L,Summers J E.Deep neural networks for learning classification featuresand generative models from synthetic aperture sonar big data[J].The Journal of the Acoustical Society of America,2016,140(4):3423-3423.
[18]Kataoka Y,Matsubara T,Uehara K.Image generation using generative adversarial networks and attention mechanism[C]//Computer and Information Science(ICIS),2016 IEEE/ACIS 15th International Conference on.IEEE,2016:1-6.
[19]Denton E L,Chintala S,Fergus R.Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[C]//Advances in neural information processing systems.2015:1486-1494.
[20]Reed S,Akata Z,Yan X,et al.Generative adver-sarial text to image synthesis[C]//Proceedings of The 33rd International Conference on Machine Learning.2016:1-3.
[21]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[22]Zbontar J,LeCun Y.Stereo matching by training a convolutional neural network to compare image patches[J].Journal of Machine Learning Research,2016,17(1-32):2.
[23]Wang H,Cruz-Roa A,Basavanhally A,et al.Mitosis detection in breast cancer pathology images by combining handcrafted and convolutional neural network features[J].Journal of Medical Imaging,2014,1(3):34003.
[24]Silver D,Huang A,Maddison C J,et al.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.