999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對抗網絡的人臉屬性合成技術綜述

2025-04-10 00:00:00王健強張珂李培杰
計算機應用研究 2025年3期
關鍵詞:深度學習

摘 要:人臉屬性合成技術旨在保留人臉面部圖像身份信息的情況下,根據(jù)指定目標重建人臉屬性,從而在源圖像上合成具有全新屬性的人臉。計算機視覺技術的發(fā)展為人臉屬性合成技術提供了全新的解決方案,為此,從人臉屬性合成數(shù)據(jù)集、傳統(tǒng)和生成對抗網絡(generative adversarial network,GAN)的合成網絡以及人臉語義方面綜述了人臉屬性合成技術的發(fā)展。首先分析了人臉屬性合成領域中傳統(tǒng)方法和主流的深度學習方法,探討基于GAN方法的發(fā)展現(xiàn)狀,將基于GAN的人臉屬性合成模型劃分為有監(jiān)督,無監(jiān)督以及半監(jiān)督三種,將人臉屬性劃分年齡、表情、妝容三大類語義并對多種合成模型進行深入研究。其次,對典型的損失函數(shù)進行分析和總結,同時介紹了常用人臉屬性數(shù)據(jù)集以及評價指標。最后介紹現(xiàn)有人臉屬性合成方法面臨的問題,并對該領域未來的發(fā)展提出展望。

關鍵詞:深度學習; 生成對抗網絡; 人臉屬性生成; 人臉圖像數(shù)據(jù)集; 年齡; 表情; 妝容

中圖分類號:TP183"" 文獻標志碼:A

文章編號:1001-3695(2025)03-002-0650-13

doi:10.19734/j.issn.1001-3695.2024.05.0240

Review of face attribute synthesis techniques based ongenerative adversarial network

Wang Jianqianga, Zhang Kea,b, Li Peijiea

(a.Dept.of Electronic amp; Communication Engineering, b.Hebei Key Laboratory of Power Internet of Things Technology, North China Electric Power University, Baoding Hebei 071003, China)

Abstract:Face attribute synthesis technology aims to reconstruct face attributes according to the specified target while retaining the identity information of face images. The development of computer vision technology has provided a new solution for face attribute synthesis technology. To this end, this paper focused on the face attribute synthesis dataset, traditional and generative adversarial network(GAN) synthesis networks, and face semantics. It reviewed the development of facial attribute synthesis technology. First, this paper analyzed the traditional methods and mainstream deep learning methods in the field of facial attribute synthesis, explored the development status of GAN-based methods, divided GAN-based facial attribute synthesis models into supervised, unsupervised and semi-supervised, and divided facial attributes into three semantic categories of age, expression, and makeup, and conducted in-depth research on multiple synthesis models. Secondly, this paper analyzed and summarized typical loss functions. At the same time, this paper introduced the commonly used facial attribute datasets and evaluation indicators. Finally, this paper introduced the problems with existing face attribute synthesis methods and proposed prospects for the future development of this field.

Key words:deep learning; generative adversarial networks; face attribute synthesis; face image dataset; age; expression; makeup

0 引言

人臉屬性合成是對原始人臉上的某些屬性進行編輯,進而合成目標屬性的人臉圖像,其本質上是將一類圖像域轉移到另一類圖像域上的任務。隨著計算機視覺的飛速發(fā)展,人臉屬性合成(face attributes systhesis,F(xiàn)AS)任務成為了深度學習領域最熱門的研究之一,其主要被應用在身份識別、娛樂應用和公安領域等。眾多人臉屬性相關的工作定義人臉屬性的概念,其中應用較多的是年齡、表情與妝容[1]。人臉屬性即人臉面部特定特征,其包括可編輯屬性與身份信息屬性,可編輯屬性包含年齡、表情、妝容等,身份信息屬性包括膚色、五官、瞳孔顏色、嘴部形狀等,合成屬性的過程要求人臉屬性合成任務具有極高的準確性。人臉屬性合成技術具有如下特點:a)合成指定目標屬性,即僅改變源圖像的面部屬性完成轉換任務;b)保留原始圖像人臉身份信息,即不改變源圖像的身份特征;c)經過屬性合成后的人臉圖像保留面部細節(jié)信息、合成圖像背景不存在偽影或背景模糊。

目前國內外研究顯示,人臉屬性合成研究處于發(fā)展階段,傳統(tǒng)方法基于計算機圖形學已經逐漸被基于深度學習的方法替代。近年來深度學習的方法在眾多領域取得了突破性的進展,同時為人臉屬性合成研究拓寬了思路。目前人臉屬性合成模型主要是基于生成對抗網絡(generative adversarial network,GAN)[2]對特定屬性進行修改,GAN的出現(xiàn)大幅度地提升了合成圖像的質量。考慮到人臉屬性合成大多聚焦于人臉可編輯屬性,本文按照年齡、表情、妝容三類可編輯屬性為主體對人臉屬性合成任務進行論述,對人臉屬性合成任務相關數(shù)據(jù)集、傳統(tǒng)與深度學習合成方法進行簡要概述,對基于GAN的合成模型研究進展進行綜述,對比和總結相關方法的性能,指出該領域目前存在的挑戰(zhàn),并對未來可能的研究方向進行展望。

1 合成模型的方法

隨著研究進展,人臉屬性合成可分為基于傳統(tǒng)方法和基于深度學習的方法。基于傳統(tǒng)方法的人臉屬性合成分為原型人臉演化的方法和基于物理建模的方法。基于深度學習的方法包括基于變分自編碼器和基于生成對抗網絡的方法。本章將對這兩類方法進行總結分析。

1.1 基于傳統(tǒng)方法的人臉屬性合成研究

傳統(tǒng)的人臉屬性合成方法主要分為基于原型人臉演化的方法和基于物理建模的方法。基于原型人臉演化的方法首先對數(shù)據(jù)集的分布進行評估,建立作為基準的平均人臉,再將平均人臉的屬性合成規(guī)律遷移到目標圖像上。這種方法存在一些問題,經過平均化處理后的人臉圖像過于平滑,丟棄了專屬于原型人臉的特征,導致生成的人臉圖像身份信息模糊。Shu等人[3]針對身份模糊問題提出基于耦合字典學習的方法,將人臉圖像根據(jù)年齡組進行劃分,通過編碼不同年齡組并設置年齡組字典,對年齡信息進行通用表達。

基于物理建模的方法是指,通過建模人臉圖像的解剖學結構與面部肌肉或紋理的運動機制模擬人臉屬性的改變。在人臉年齡合成任務中,Ramanathan等人[4]通過對大規(guī)模數(shù)據(jù)集的分析,建模了人臉面部變化機制的生長模型實現(xiàn)人臉年齡合成。Suo等人[5]通過使用圖結構劃分人臉關鍵屬性編輯區(qū)域與無關區(qū)域,構建了一個人臉屬性合成的層級復合模型,模型使用圖結構動態(tài)推理屬性合成的進程。但是基于物理模型的方法需要同一個體長時間變化的人臉圖像,這樣的數(shù)據(jù)集收集難度較大,且成本過高。

1.2 基于深度學習的人臉屬性合成研究

在深度學習模型興起后,越來越多基于深度學習的人臉合成網絡成為主流模型。其中有兩種著名的模型[6,7],基于GAN和基于變分自編碼器(variational auto-encoder,VAE)[8]。VAE作為一種生成模型,它將潛在的屬性存儲為概率分布,以此來觀察結果的概率描述。但這種方式造成了VAE模型產生樣本不現(xiàn)實、人臉圖像模糊等問題。而GAN旨在通過生成器和鑒別器之間的博弈實現(xiàn)兩者的動態(tài)平衡。受益于對抗學習的博弈策略,GAN可以獨立生成質量更優(yōu)的多樣性圖像,同時保留更多圖像真實度,能夠有效避免圖像模糊的現(xiàn)象,因此被廣大研究人員所青睞。目前,基于GAN的人臉屬性合成方法也取得了十分出色的成果,目前主流的人臉屬性合成工作[9,10]也多基于生成對抗網絡的結構來實現(xiàn)。

早期人臉屬性合成模型可以對一種屬性進行修改。Li等人[11]設計了一種能夠保留身份信息的面部屬性合成GAN模型,論文將人臉圖像中具有相同屬性但數(shù)值不同的圖像劃分為兩個不同的類。其中,生成器網絡實現(xiàn)兩種功能:預測待合成區(qū)域的掩膜和圖像轉換的合成網絡。另外為了進一步精準合成人臉的身份,模型引入了一個人臉識別網絡對訓練過程進行約束。Shen等人[12]設計的生成器只修改部分人臉面部區(qū)域,生成器輸出特定屬性區(qū)域的殘差圖像,與源圖像疊加后合成最終的目標圖像。鑒別器要實現(xiàn)兩類任務:即判斷圖像是否為合成圖像和劃分輸入圖像的屬性類別。

隨著人臉屬性數(shù)據(jù)集規(guī)模和種類的增加,僅能合成單一屬性的模型效率較低,不能滿足應用場景需求。Larsen等人[13]將生成對抗網絡和變分自動編碼器融合。在GAN中引入VAE的編解碼器,以GAN的對抗學習策略來訓練模型。引入特征潛空間和編解碼結構的概念實現(xiàn)人臉圖像多種屬性合成。然而VAE/GAN模型合成人臉圖像仍存在圖像細節(jié)模糊、合成圖像質量低的問題。

近年來,基于GAN的人臉屬性生成已不再局限于生成不可控制的人臉,而是通過對各種有限數(shù)據(jù)的學習,生成各種高質量的人臉來進行各種應用。在表1中列舉了近幾年來國際頂級會議上人臉合成的相關工作,并簡單描述了其模型特點以及數(shù)據(jù)集設置情況。

1.3 小結

綜上所述,基于傳統(tǒng)方法的人臉屬性合成通常會忽略人臉身份信息,導致生成的人臉圖像特征并不明顯。雖然基于物理建模的方式能夠生成較為逼真的人臉,但其數(shù)據(jù)采集困難,成本過高。而基于深度學習的方法能夠在數(shù)據(jù)數(shù)量一定的情況下,生成真實可靠的人臉圖像,其中基于生成對抗網絡的人臉屬性合成算法以其高質量人臉圖像生成能力成為人臉屬性合成領域的主流算法。在之后的研究中,基于GAN的人臉屬性合成模型有著更多的變種來適應不同的生成場景。

2 基于GAN的人臉合成模型

在人臉合成領域,GAN能夠精確生成高質量的人臉,GAN的人臉合成模型大概可以分為三種,分別是有監(jiān)督、半監(jiān)督以及無監(jiān)督的方式。有監(jiān)督GAN能夠通過標記完成的數(shù)據(jù)進行訓練,半監(jiān)督GAN通過有限的標記數(shù)據(jù)集進行訓練,而無監(jiān)督GAN則直接從數(shù)據(jù)集中提取人臉圖像的通用特征。

人臉圖像由于其包括的語義信息豐富,通常通用的人臉合成模型存在著語義丟失、圖像失真等問題。為了進一步細化人臉屬性,人臉GAN模型通過對特定領域的生成將人臉語義分為三個種類,分別是年齡、表情和妝容。本章將從人臉GAN模型以及三種人臉語義進行分析,闡述典型的模型方法并進行對比分析。

2.1 人臉GAN模型

2.1.1 基于有監(jiān)督GAN的人臉屬性合成

基于有監(jiān)督的GAN是利用已標記的數(shù)據(jù)或者已經配對的數(shù)據(jù)進行指定類別的人臉圖像合成,典型的有監(jiān)督GAN為條件GAN與圖像轉譯中的配對圖像GAN,圖1表示了典型的有監(jiān)督GAN的結構,其中z表示輸入噪聲向量,x表示帶標簽的圖像數(shù)據(jù),y表示指定類別假圖像,整個網絡架構是在x的監(jiān)督下對生成器和鑒別器進行訓練,生成器負責生成指定類別的假圖像,鑒別器負責判斷生成圖像是真是假以及其所屬的類別。

a)條件GAN。

條件GAN(conditional generative adversarial network,CGAN)是一種特殊的GAN,它在原有GAN的基礎上增加了額外的條件約束,以指導生成具有給定屬性的特定圖像,不僅能夠實現(xiàn)指定域圖像的生成,還能夠實現(xiàn)圖像的風格遷移。Luo等人[32]提出利用眼部信息生成臉部屬性的生成對抗網絡模型EA2F-GAN,將眼部信息作為條件,能夠動態(tài)修改屬性詞匯進行屬性的修改并創(chuàng)新性地在臉部合成中增加屬性信息,使得生成的圖像更加真實。陳莉明等人[33]利用VGG-Face對人臉圖像進行驗證,再利用GAN生成人臉年齡圖像以保持身份信息。

b)配對圖像的轉譯GAN。

圖像轉譯GAN目的是將圖像從一個域轉譯到另一個域。訓練數(shù)據(jù)一般是成對的輸入輸出面部圖像,即源樣式的輸入圖像和目標樣式的輸出圖像。模型能夠學習圖像到圖像的轉換,使得人臉面部圖像從輸入風格轉譯到輸出風格。

Pix2Pix[34]模型是首個基于條件GAN的圖像到圖像翻譯模型。該模型使用源數(shù)據(jù)與目標數(shù)據(jù)的配對圖像,將圖像作為標簽信息輸入到生成器當中。Pix2PixHD[35]在Pix2Puix的基礎上,提出了新的目標函數(shù)、一種新的多尺度生成器以及鑒別器來穩(wěn)定高分辨率圖像上的訓練。但是Chen等人[36]表示,基于監(jiān)督的生成模型在訓練方面仍然存在著訓練不穩(wěn)定的問題,無法生成逼真的圖像。Wang等人[37]拋棄了傳統(tǒng)的圖像配對的方式,利用音頻信號與圖像進行配對,提出CP-EB(controllable pose and rye nlinking)模型,該模型分別從音頻以及參考圖像中獲取特征進行訓練,生成能夠說話的人臉。考慮到配對數(shù)據(jù)較難獲取的問題,Xie等人[38]提出了一個瑕疵感知和漸進的面部修飾模型(blemish-aware and progressive face retouching,BPFRe)。BPFRe通過兩階段的框架,在第一階段粗略的去除面部瑕疵并將產生的中間特征輸入到第二階段中,該方法有效地提升了在有限配對數(shù)據(jù)下的訓練效果。

2.1.2 基于半監(jiān)督GAN的人臉屬性合成

對于人臉屬性合成,生成某個高質量的特定屬性,需要大量特定屬性標記數(shù)據(jù)集。在有限的標記數(shù)據(jù)集下對人臉進行生成,可能會導致人臉的輸出不現(xiàn)實。基于半監(jiān)督的GAN通過從大量未標記的數(shù)據(jù)中學習與面部結構相關的特征來解決這個問題,利用有限的標記數(shù)據(jù)對細節(jié)進行微調,獲得等同于有監(jiān)督GAN效果的指定類別面部生成,其網絡架構如圖2所示。

基于半監(jiān)督GAN的框架,Bodla等人[39]通過融合兩個生成器,提出對多種圖像進行可控的融合條件GAN圖像合成,其中一個生成器對無條件圖像進行生成,另一個生成器對條件圖像進行生成,兩個生成器通過共享同一個潛在空間進行融合,消除了生成過程中的糾纏。雙生成器允許對面部生成的風格和結構進行解糾纏表示,具有高保真度、多樣性和更大的采樣可控性。Liang等人[40]提出了一種多模態(tài)網絡結構CT-GAN(consistency term GAN),是擁有更好聽覺以及視覺模態(tài)的半監(jiān)督GAN。Match-GAN[41]應用自監(jiān)督學習在半監(jiān)督設置下訓練條件GAN。SS-GAN(semi-supervised GAN)[42]表明,在半監(jiān)督設置下學習條件生成模型顯著提高了性能,并且?guī)缀跖c有監(jiān)督的條件GAN性能一樣好。但是在訓練樣本有限時,GAN對標記數(shù)據(jù)過于依賴等問題仍然存在,半監(jiān)督GAN無法徹底解決GAN對數(shù)據(jù)標簽依賴的問題。考慮到這一問題,Chen等人[43]提出了一種半監(jiān)督的超球面生成框架SphericGAN,該框架能夠建模更加復雜的分布,進而獲得空間組織的潛在空間,使其克服了對有限樣本的依賴,同時生成了高保真的人臉圖像。

2.1.3 基于無監(jiān)督GAN的人臉屬性合成

大部分情況下,特定的人臉屬性標記數(shù)據(jù)集的數(shù)量是有限的。在這種條件下,往往有監(jiān)督以及半監(jiān)督的方式訓練的模型效果及質量就會顯著下降。與特定屬性標簽訓練生成期待的人臉圖像不同,無監(jiān)督GAN通常是從數(shù)據(jù)集中學習人臉的共同內容以及個人臉之間的差異。無監(jiān)督GAN分為控制潛在空間GAN以及非配對數(shù)據(jù)集的圖像轉譯GAN,與有監(jiān)督和半監(jiān)督GAN不同的是,鑒別器僅對圖像的真假進行判斷,不參與類別的預測。無監(jiān)督GAN結構如圖3所示。

a)控制潛在空間GAN。

潛在空間一般稱之為latent space,是一個低維的空間,在這個空間進行屬性編輯,會更加簡單地實現(xiàn)。比如線性地更改某一個向量的值,來對對應的屬性進行編輯與生成。潛在空間的特點就是其不僅是低維的特征空間,更是便于屬性解耦的空間。

Liu等人[44]提出了一種潛在空間約束的STGAN(selective transfer GAN),模型將差值屬性向量作為輸入,對圖像應用屬性進行分類,有效地增強屬性的靈活轉換。并設計選擇性傳輸單元(selective transmission unit,STU)提高屬性的合成能力和圖像質量。Noynov等人[45]提出GAN的無監(jiān)督方法,該方法在GAN的潛在空間中發(fā)現(xiàn)語義上有意義的方向,用模型不可知的方法定義了不同語義的方向。Info-GAN(information GAN)[46]能夠通過最大化條件變量以及生成數(shù)據(jù)之間的信息學習可解釋的表示,同時從無監(jiān)督的人臉圖像中分離出可解釋的表示并從無監(jiān)督的面部中分離出情感等視覺信息。SD-GAN(semantically decomposing GAN)[47]將潛在空間進行分解并且與鑒別器一同區(qū)分變異因素和同一性。

GAN模型的潛在空間并沒有被很好地理解,即沒有解耦開。考慮到這一問題,StyleGAN[48,49]通過無監(jiān)督的方式將人臉屬性進行解耦,其在訓練中引入了PPL(perceptual path length)作為度量,但其PPL值較高。在StyleGAN2[50]中對其進行了優(yōu)化,其修改了網絡中的風格偏移系數(shù),利用PPL作為評價指標改進了無條件建模。Patashnik等人[51]提出了一種利用文本的方式來進行圖像的屬性合成StyleCLIP(style contrastive language-image pretraining),該方法基于現(xiàn)成的StyleGAN模型以及CLIP(contrastive language-image pretraining)[52]模型進行訓練,讓模型能夠從原始的文本中進行學習,并基于文本的方式進行人臉屬性的合成。Xu等人[53]利用CLIP豐富的語義信息提出了一種擴展模型TGDM(texture-geometry-aware diffusion model),該模型克服了GAN的不穩(wěn)定訓練,并能夠產生簡單、穩(wěn)定以及有效的訓練方案。為了解決CLIP等大模型在人臉屬性生成之間的遷移,Yang等人[54]提出基于CLIP的自適應對比度損失,將其嵌入到GAN的訓練當中,能夠將CLIP中包含的語義知識轉移到GAN的生成器中,同時保留其生成圖像的優(yōu)勢能力。盡管StyleGAN擁有強大的生成能力,但其對潛在空間的控制是全局的,考慮到這一問題,Shi等人[55]提出SemanticStyleGAN,通過訓練生成器單獨對局部語義進行生成,并通過組合的方式進行圖像生成,通過不同的潛在編碼控制不同的語義信息,實現(xiàn)了編輯合成指定屬性的人臉圖像。

以StyleGAN為主的潛在空間控制GAN能夠有效地利用潛在空間直接對屬性進行控制,但由于潛在空間中屬性復雜多樣,無法避免地存在屬性糾纏的問題。考慮到這一點,Xu等人[56]提出了一種高分辨人臉屬性遷移方法FSLSD_HiRes,從較淺的層中解開語義糾纏,同時對潛在空間與圖像空間分別進行約束進一步分離不同屬性之間的糾纏問題。Huang等人[57]利用類似的思路將解除屬性糾纏和人臉屬性編輯分為更為細致的步驟,每一步都取決于當前的面部屬性以及潛在編碼。該方法能夠有效地改善屬性變換所帶來的糾纏問題。Ozkan等人[58]將Transformer架構加入生成器當中,提出基于Transformer的潛在空間分解模塊,將潛在空間分解為概念與層次,分層次的潛在空間能夠有效地優(yōu)化GAN的性能,緩解了屬性糾纏問題。

b)非配對的圖像到圖像的轉譯。

人臉數(shù)據(jù)集中,并不是所有的人臉圖像都有不同的風格(表情,年齡等),這時使用配對的方式進行訓練較為困難。非配對圖像的轉譯使用兩種風格的圖像,每組圖像由不同的人臉圖像組成。非配對的圖像通過將兩種不同風格圖像的共同部分保留在兩種風格中,對其中的不同部分進行轉換來學習兩種風格之間的映射。

Nimisha等人[59]將生成器與兩個關鍵模塊結合到無監(jiān)督GAN中:一個是自監(jiān)督去模糊模塊,負責生成與輸入圖像對應的清晰圖像;另一個是約束生成圖像解空間梯度的模塊。通過這一創(chuàng)新,他們成功構建了一種無監(jiān)督GAN架構,能夠用于去除特定類別數(shù)據(jù)中的模糊。

Recycle-GAN[60]將時間與空間信息相結合,構建了內容轉譯與風格保存的對抗性損失。通過面向式的轉譯來學習無監(jiān)督的視頻重定向,通過保留一張臉的內容去捕捉另一張臉的風格表達。CycleGAN[61]將圖像從一種風格轉換成另一種風格,通過循環(huán)一致性損失,將生成的圖像變換會原始的樣式,來保圖像不丟失其原有內容。循環(huán)一致性損失作為兩個域之間重建圖像的差異,即從原風格到目標風格,再從目標風格到原風格的映射循環(huán),以從原始域的圖像風格到目標域的圖像風格的差異中學習。

2.2 人臉GAN的語義分析

近年來,特定的面部生成GAN的研究已經成為人臉屬性合成的熱點圖4展示了與不同的人臉語義類型相結合的GAN模型,即年齡、表情和妝容,以及其對應的各類方法,其中不同的形狀代表不同的模型類型,三角形代表有監(jiān)督模型,圓形代表半監(jiān)督模型,正方形代表無監(jiān)督模型。

2.2.1 年齡屬性合成方法

人臉年齡屬性合成是在不改變源圖像身份信息的同時合成目標年齡人臉圖像[62]。人臉年齡屬性合成任務利用計算機視覺技術建模不同年齡之間的年齡轉換模式,使模型能夠精準合成目標年齡的高質量人臉圖像。

a)基于經典GAN的人臉年齡合成。

基于經典GAN的人臉年齡合成是利用GAN的整體架構直接進行合成。由于GAN訓練的不穩(wěn)定性,通常會在經典的GAN模型中增加不同的方法來進行合成。

Liu等人[63]將小波包變換(wavelet packet transform,WPT)模塊引入鑒別器中,構建基于小波生成對抗網絡(attribute enhanced wavelet-based GAN,AEWGAN)實現(xiàn)人臉年齡屬性合成,AEWGAN的原理圖如圖5所示。模型將人臉屬性向量p插入到生成器以及鑒別器模型中,并通過WPT在頻域對人臉圖像年齡相關紋理特征進行提取,有效保留了更多細節(jié)信息,提升年齡合成準確率。基于AEWGAN,Chandaliya等人[64]引入了改進的卷積注意力模塊,提出了改進后的AW-GAN(attention with wavelet GAN),該模塊同時捕捉了兒童和成人的年齡信息,擴充了年齡屬性合成的跨度,保留了生成圖像的細節(jié)。

Alaluf等人[65]在PSP(Pixel2Style2Pixel)模型的基礎上進行改進,提出SAM(style-based age manipulation)模型。SAM引入年齡編碼,將源圖像與目標年齡作為輸入送入生成器中,訓練模型學習年齡與其他面部屬性解耦的非線性路徑。鑒于人臉從幼年到老年的變化也包含頭部變換,Or-El等人[66]設計了一種多域圖之間的生成對抗網絡架構Lifespan。Lifespan在潛空間學習頭部形狀改變和外觀,實現(xiàn)0~70歲的連續(xù)年齡變換過程。

b)基于漸進GAN的人臉年齡合成。

漸進GAN是一種訓練GAN的新策略,其關鍵思想就是逐步地訓練生成器以及鑒別器,讓生成的圖像從低分辨率開始慢慢增加,最終達到很好的圖像質量,其漸進式的架構如圖6所示[67]。

為了增加年齡細節(jié)信息,Yang等人[68]基于漸進GAN設計引入金字塔結構鑒別器的人臉年齡合成方法,采用預訓練神經網絡獲取人臉多維度特征,模型實現(xiàn)了細致真實的人臉年齡圖像合成。漸進式學習以更精細的方式模擬老化效應,同時保持個性化屬性的穩(wěn)定。為了解決生成面部年齡屬性時背景細節(jié)恢復方面的有限性,Yoon等人[69]基于StyleGAN對年齡進行操作和微調,利用迭代技術發(fā)現(xiàn)生成圖像與輸入圖像最相似的潛在向量并通過動態(tài)微調過程保留生成圖像中丟失的背景細節(jié)。

c)基于年齡估計的人臉年齡合成。

SR-GAN[70]引入了一種半監(jiān)督的方式來進行年齡估計,提高了年齡估計等回歸問題的預測精度。受啟發(fā)于年齡估計任務,Huang等人[71]提出的多任務框架(multi-task learning framework,MTLFace),在人臉年齡合成(face age synthesis,F(xiàn)AS)部分引入身份條件模塊(identity conditional module,ICM)可實現(xiàn)身份級人臉合成。

d)引用注意力機制的人臉年齡合成。

He等人[72]提出了基于潛在表示分解的人臉年齡合成模型來增強非線性的形狀和紋理變換(lifespan face synthesis,LFS)。該網絡設計了兩種變換模塊:條件卷積和通道注意模塊,訓練模型提升年齡敏感性并保留身份信息。為了生成高質量的人臉老化圖像,Maeng等人[73]基于掩碼注意力模塊(guidance via masking-based attention,GMBA)設計了一種年齡感知指引模塊,通過該模塊能夠調整圖像中與年齡相關的信息以及身份信息,使得模型能夠在生成逼真的年齡信息同時保留身份信息。

e)基于條件GAN的人臉年齡合成。

Wang等人[74]提出了IPCGAN(identity-preserved conditional GAN),該方法首次在人臉年齡合成任務中構建身份保留模塊來提取人臉面部特征,其身份保留模塊架構如圖7所示,通過預訓練的特征提取網絡對圖像進行預處理并將其作為條件信息進行訓練,保證合成的人臉與輸入的人臉有著共同的身份特征,同時,該方法是一個通用的框架,也可以用來解決其他的多屬性合成問題。

Age-CGAN(Age-CGAN)[75]在保留人臉身份的情況下合成衰老的人臉。首先,輸入重構人臉通過尋找最優(yōu)的潛在逼近來保持身份,然后通過在生成器輸入處改變條件來進行人臉老化。為了進一步提高生成人臉的真實性、年齡特異性以及身份保留度,Li等人[76]提出了一種引導式條件GAN,即FG-CGAN(feature-guide CGAN),通過特征引導模塊與年齡分類模塊有效地保留了人臉的身份信息并生成了目標年齡的人臉圖像。

2.2.2 表情屬性合成方法

人臉表情是一種微妙的形體語言,通過表情可以傳遞情感。傳統(tǒng)GAN合成具有不同強度的面部表情時,會存在細節(jié)丟失、圖像分辨率不佳、表情單一化等問題。基于GAN變體進行的人臉表情合成通過添加各種模塊來實現(xiàn)高保真的屬性合成。

a)單個域的表情合成。

Pumarola等人[77]提出一種基于人臉肌群活動單元(action unit,AU)的條件生成網絡,通過控制面部AU的激活程度,以連續(xù)流形的形式呈現(xiàn)了人臉表情的變化。Yang等人[78]提出一種端到端的人臉表情編輯網絡L2M-GAN(learning to manipulate GAN)。通過施加潛在空間特征正交性約束,利用特征轉換器將GAN潛在空間表情屬性顯式地分為表情相關/無關的編碼。轉換可以用于局部也可以用于全局,可以有效地對具體的表情區(qū)域進行編輯,并且對不同的數(shù)據(jù)集具有較強的泛化能力。

b)引入多模塊的表情合成。

區(qū)別于原生的GAN,Shen等人[79]提出了一種三元網絡的GAN結構,即FaceID-GAN。FaceID-GAN引入了一個獨立的人臉身份信息判別網絡C,并將其作為第三個參與者,人臉身份信息判別網絡C與真?zhèn)舞b別器D協(xié)作,與人臉圖像生成器G構成博弈。C網絡的引入,能夠讓G在生成高質量人臉表情圖像的同時,保留原圖像的身份信息。FaceID-GAN的結構如圖8所示,該方法首次在GAN的訓練中加入第三模塊,為之后的多模塊訓練起到了很大的參考價值。Ding等人[80]提出了一種連續(xù)的人臉表情生成器,能夠同時編輯表情的強度和種類。其生成器G部分,除常規(guī)的encoder-decoder外,還設有一個表情控制器模塊,用于學習表情強度的編碼,并將表情的種類和強度作為編碼輸入,用于控制生成圖像。為了克服GAN在訓練中易受到域外區(qū)域(背景或遮擋)的干擾,Yang等人[81]設計了一種能夠檢測域外區(qū)域的框架,引入空間對齊模塊與GAN進行同時學習,將生成的特征與輸入圖像的幾何特征進行對齊,提高生成圖像的真實性。Olson等人[31]提出了一種正則化模塊,能夠將潛在空間的信息對應到生成圖像的一組像素中,能夠對GAN生成的人臉圖像局部屬性進行控制,而不需要對圖像全局進行更改。

c)表情去除。

面部表情通常被分為表達式表情和中性化表情。表達式表情一般是人臉作出的可以理解的具有意義的表情,中性表情則是一種面無表情的狀態(tài)。表情去除旨在將表達式表情中和,保留中性的部分,從而生成具有中性表情的人臉。Hu等人[82]提出了一種去除面部表情以及表情識別的模型De-expression,該模型以表情為域,將不同的表情作為不同的圖像域。利用域到域的轉移來生成中性表情的人臉。這種方法不僅可以處理配對的數(shù)據(jù)集,還可以處理無配對的數(shù)據(jù)集。Yang等人[83]通過條件GAN訓練生成模型,提出了一種DeRL(de-expression residue learning procedure)框架,提取表達成分的信息來對面部表情進行識別,過濾出表情信息,生成相應的中性表情人臉,同時在內層執(zhí)行學習過程并捕捉已經記錄在生成模型中的表達式面部表情成分。

d)多域的表情合成。

混合屬性合成即不拘泥于一種類型的屬性合成,而是學習兩個或多個類型共同生成人臉,即使用GAN生成混合風格的人臉。為解決GAN無法同時編輯多個表情屬性的問題,Choi等人[84]提出了星型架構的生成對抗網絡StarGAN。該模型在訓練中引入了向量掩碼,用于控制多個表情域之間的轉換,并采用CycleGAN的循環(huán)訓練思想,讓域之間能夠進行雙向轉換。在此之前,若欲實現(xiàn)在x個域上的圖像遷移,則需要訓練x×(x+1)個生成對抗網絡。而在StarGAN中,多個域之間的轉換經由一個共享參數(shù)的生成網絡來實現(xiàn),大大降低了訓練所需的模型個數(shù),StarGAN的結構如圖9所示,該方法的出現(xiàn)使得人臉屬性合成從單屬性合成過渡到了多屬性合成。

為了在同一張人臉中修改兩個或多個面部屬性,Shen等人[85]通過對GAN潛在空間學習進行解釋,提出Interface-GAN框架,作用于人臉屬性的編輯。He等人[86]考慮到了屬性與潛在空間的關系,提出了一種融合屬性的編輯方法AttGAN(attribute GAN),該方法引入了面部屬性編輯的分類約束以及運用到了雙重學習的思想。同樣是針對人臉屬性與潛在空間的關系,Hou等人[87]將合成的圖像反向輸入到GAN的訓練中來對模型進行預訓練,該方法能夠對不同人臉屬性進行更準確的合成。

e)加入注意力機制的表情合成。

加入注意力機制的GAN能夠通過對某些特定特征的優(yōu)先學習來優(yōu)化訓練過程,Zhang等人[88]提出了一種基于U-Net編解碼結構的生成器,并在encoder-decoder之間橋接了注意力支路,有助于人臉特征在編解碼器兩端的選擇性傳遞,避免了因圖像壓縮-復原所產生的信息丟失。混合attention機制,增強了原圖像細節(jié),且強化了人臉表情屬性的特征,使圖像表情表現(xiàn)更精準、圖像真實度更高。考慮到自注意力機制對圖像全局信息特征提取的有效性,Yadav等人[89]將初始GAN與自注意力機制相結合,提出ISA-GAN(inception-based self-attentive GAN),將自注意力機制進行并行嵌入,生成了高質量的人臉圖像,同時加快了收斂速度。

2.2.3 妝容屬性合成方法

人臉妝容屬性合成是一項具有挑戰(zhàn)的任務。它從參考圖像中提取妝容信息特征并對人臉面部結構進行分析,再將提取的妝容遷移到素顏圖像上。是一種保持面部特征不變的同時盡可能生成參考妝容風格的任務[90]。隨著GAN的出現(xiàn),基于GAN變體的模型在人臉妝容屬性合成任務中取得了顯著的成果。

a)基于上妝和卸妝功能的妝容合成。

Li等人[91]提出一種雙輸入雙輸出的BeautyGAN,這是最早使用GAN進行人臉妝容合成的模型。為了精準提取局部妝容特征,BeautyGAN采用基于不同面部區(qū)域計算的像素級直方圖損失訓練網絡,并在網絡加入全局和局部損失,制約模型進行更精準的人臉妝容合成任務,BeautyGAN合成的人臉妝容如圖10所示。但BeautyGAN合成圖像效果不佳,導致模型泛化性不足。

Chang等人[92]提出了既能上妝又能卸妝的PairedCycleGAN。PairedCycleGAN采用無監(jiān)督學習方法訓練網絡學習人臉妝容合成過程。為了在合成妝容的過程中保留源圖像身份信息,PairedCycleGAN引入身份損失和風格損失限制模型的合成過程。PairedCycleGAN合成圖像身份特征信息能夠更符合源圖像,但合成圖像不可編輯制約了模型的魯棒性。Horita等人[93]設計了風格編碼(style code)和潛在編碼(latent code)聯(lián)合引導SLGAN(style-and latent-guided GAN),模型可應用于上妝和卸妝任務中。SLGAN通過計算風格不變的解碼器輸出和風格引導編碼器之間的歐式距離來保留源圖像身份信息,并引入感知化妝損失用于合成妝容風格。但SLGAN具有一定局限性,如不適用于極端妝容風格合成。

b)基于高質量圖像的妝容合成。

受到解糾纏表示的啟發(fā),Zhang等人[94]提出不同場景下的妝容遷移模型GANDMT(GAN disentangled makeup transfer)。該模型包括身份編碼器和妝容編碼器,解碼器根據(jù)兩個編碼器的輸出重建人臉,同時還添加了區(qū)分器對人臉進行識別,來獲得高質量的人臉輸出。Chen等人[95]將Swin Transformer架構作為GAN的主要模塊,提高了模型的全局特征感知,同時結合通道注意機制,提出了非配對妝容遷移模塊PSC-GAN(progressive semantic perception and channel attention GAN),改進了模型對數(shù)據(jù)集質量的高度依賴。為了進一步提升妝容生成的細節(jié),Yan等人[96]提出了一種妝容對齊模塊,通過Transformer將面部特征進行劃分并引入了圖像分割的方法,該方式能夠準確地進行妝容合成,但是對數(shù)據(jù)集的標記質量要求較高。Yuan等人[97]提出一種基于GAN的無監(jiān)督方法RAMT-GAN,該方法在實現(xiàn)妝容合成的同時保留了人臉的背景信息和身份,實驗表明,該方法在圖像質量方面優(yōu)于現(xiàn)有的幾種方法。考慮到現(xiàn)有的高質量妝容合成極易產生過度美化的問題,Chen等人[98]提出增強審美感知的AEP-GAN(aesthetic enhanced perception GAN),該框架由審美感知模塊(aesthetic deformation perception,ADP)、上妝與卸妝模塊(aesthetic synthesis and removal,ASR)以及主體審美識別模塊(dual-agent aesthetic identification,DAI)組成,成功地防止了在合成高質量妝容屬性時造成的過度美化問題。

高質量的妝容合成可以輸出高質量的圖像,然而,這些方法的魯棒性較差,當面部姿態(tài)的變化較大時,妝容合成的效果較差。

c)基于魯棒性的妝容合成。

針對在源圖像和參考圖像存在表情和姿態(tài)差異的情況下,遷移效果較差和不能實現(xiàn)可控的妝容色彩遷移以及特定部位遷移的問題,Jiang等人[99]提出了姿態(tài)和表情魯棒的空間感知生成對抗網絡(pose and expression robust spatial-aware GAN,PSGAN)。該網絡由三部分組成,分別是:妝容蒸餾網絡(makeup distill network,MDNet)、妝容應用網絡(makeup apply network,MANet)和注意力妝容形變模塊(attentive Makeup Morphing, AMM)。PSGAN引入注意力妝容形變模塊,限制模型改變面部妝容特征信息以實現(xiàn)魯棒性的妝容合成,然而該模型的局限性在于無法實現(xiàn)卸妝,PSGAN的框架組成如圖11所示。為了解決PSGAN無法同時上妝卸妝的問題,Liu等人[100]提出了多功能的PSGAN++。PSGAN++增加了風格遷移網絡(style transfer network,STNet)和身份蒸餾網絡(identity distill network,IDNet),對妝容細節(jié)和妝容程度等進行控制。Gu等人[101]提出了一種用于上妝和卸妝的對抗解糾纏網絡LADN(local adversarial disentangling network),LADN引入了不對稱損失,該損失可以對質量差的妝容風格進行轉移和刪除,通過增加局部鑒別器的數(shù)量和重疊,在保留原始面部和身份信息的同時獲得具有高細節(jié)的復雜妝容。

d)基于有監(jiān)督的妝容合成。

妝容合成應該包括色彩轉移以及圖案添加,基于該觀點,Nguyen等人[102]提出一種將參考圖像的顏色以及圖案轉換為原圖像的方法。該方法由一個改進的顏色轉移分支組成,用于學習妝容屬性,包括顏色、圖案、紋理和位置。為了實現(xiàn)顏色控制,Kips[103]等人提出了一種可控的GAN模型CA-GAN(color aware GAN)。該模型基于顏色回歸損失和背景一致性損失保留了非目標物體屬性的顏色。CA-GAN通過弱監(jiān)督的形式進行訓練,不需要帶色彩標簽的圖像進行訓練。

2.3 小結

根據(jù)本章的分析,人臉GAN在總體上可以分為有監(jiān)督、半監(jiān)督以及無監(jiān)督三類。有監(jiān)督的人臉合成方法體現(xiàn)在人臉年齡屬性合成方面,其對數(shù)據(jù)集的標注質量有著很高的要求,常常需要年齡文本與圖像進行配對,大多年齡合成方法聚焦在減輕GAN對人臉年齡配對數(shù)據(jù)集的強依賴上。同時,人臉年齡屬性相比人臉通用屬性需要表達更多的特征細節(jié)。通過對年齡屬性合成GAN的方法分析,如何減輕年齡屬性合成GAN對數(shù)據(jù)集的依賴,同時能夠生成高質量年齡屬性細節(jié)是現(xiàn)階段主要的研究內容。相比較于有監(jiān)督的方法,半監(jiān)督的方法大多體現(xiàn)在妝容合成和年齡合成當中,在半監(jiān)督的條件下,模型對有標記數(shù)據(jù)的依賴性有所降低,但是其仍然需要大量的未標記數(shù)據(jù)進行輔助學習,在小樣本數(shù)據(jù)當中,半監(jiān)督方法的生成效果有限,其本質上學習到的特征是從大量未標記數(shù)據(jù)中得到的。無監(jiān)督的人臉屬性合成方法更加聚焦于合成人臉圖像的質量中,這在對數(shù)據(jù)標簽依賴不高的妝容以及表情合成中得到了廣泛的應用。對于表情合成方面,無監(jiān)督的表情合成方法大多聚焦于對潛在空間進行控制,并進一步解決潛在空間中的屬性糾纏問題,同時也更加看重身份保持問題。在妝容合成方面,主要關注的是人臉的外部特征,而較少涉及人臉身份的還原問題。大多數(shù)方法旨在提高妝容的魯棒性,目的是提升妝容合成的質量,確保其在不同條件下都能保持較好的效果。

總的來說,人臉屬性合成技術在保證屬性合成真實性的同時,對生成細節(jié)、身份保留度以及圖像質量方面均有要求,而不同的人臉屬性適用于不同的監(jiān)督訓練方式,如何在有監(jiān)督、半監(jiān)督以及無監(jiān)督中尋找合適的方式去進行人臉屬性高質量合成是當下研究的重點。

3 人臉屬性合成常用損失函數(shù)

在人臉屬性合成領域,合適損失函數(shù)的構建對生成模型有著關鍵的作用。本章將對前文分析方法中通用的損失函數(shù)進行總結,并按照年齡、表情、妝容對常用的損失函數(shù)進行分析。

3.1 通用損失

通用損失是生成對抗網絡訓練時需要的基本損失函數(shù),其目的是在于穩(wěn)定GAN的訓練。通用損失大致包含:

a)對抗損失。

基于GAN的人臉屬性合成技術最基本的損失就是對抗損失,其公式如下:

minG maxDV(D,G)=Ex~Pdata(x)[log D(x)]+Ex~pz(z)[log(1-D(G(z)))]

(1)

其中:D(x)表示x是來自數(shù)據(jù)而不是pg(生成器生成的圖像數(shù)據(jù))的概率。GAN的目標就是訓練D以最大化將正確標簽分配給訓練示例和來自G樣本的概率。同時也將訓練G以最小化log(1-D(G(z)))。

b)L1損失。

一般通用的損失函數(shù)為L1損失,在GAN的生成器訓練中加入通用的損失有助于減少生成圖像的模糊。L1損失函數(shù)公式如下:

LL1(G)=Ex,t,z[‖t-G(x,z)‖1]

(2)

其中:t表示配對的真實圖像數(shù)據(jù);z為輸入的隨機噪聲向量;x為輸入生成器中的圖像。

3.2 年齡合成常用損失

人臉年齡合成常用損失函數(shù)更加關注身份信息的保留,目的是在合成對應年齡的同時保留人臉身份信息。其常見損失包括:

a)像素損失。

像素損失目的是圖像在像素級別的層面上保證人臉身份信息的一致性,其公式如下:

Lpix=E(xi,αi)~pdata(x)‖G(xi,αi)-xi‖2F

(3)

其中:α表示屬性向量;(xi,αi)~pdata(x)表示人臉圖像與其對應屬性向量的配對。

b)身份損失。

身份損失的目的與像素損失類似,均是采用損失約束的形式保證人臉身份信息的一致性,但其更著重于人臉的相關特征信息,其公式如下:

3.3 表情合成常用損失

人臉表情合成利用損失函數(shù)對多種表情屬性進行約束,旨在生成不同種類的表情屬性,常見的損失包括:

a)域分類損失。

域分類損失的目標就是將輸入的真實圖像x和目標域標簽c成功地轉換為輸出圖像y,并確保該圖像被正確分類到目標域c,即一項用來優(yōu)化D的真實圖像域分類損失,一項用來優(yōu)化G的偽圖像域分類損失,前一項如下:

Lrcls=Ex,c′[-logDcls(c′|x)]

(5)

其中:Dcls(c′|x)表示真實圖像x與原始域標簽c′的概率分布。通過最小化此目標,使D學習將真實圖像分類到對應的原始域c′。同理,對于生成器生成的假圖像的區(qū)域分類損失函數(shù)定義如下所示。

Lfcls=Ex,c[-logDcls(c|G(x,c))]

(6)

其中:Dcls(c|G(x,c))表示生成器生成圖像y與目標域標簽c的概率分布,G(x,c)為生成圖像y。

b)雙重學習損失。

雙重學習[86]的策略旨在通過讓生成器執(zhí)行相反的操作,即屬性的合成和去除的行為,來進行一個雙重任務,雙重學習損失的公式如下:

ldual(xi)=-log(1-D(G(G1-i(xi)))) i=0-log(D(G1-i(xi)))i=1

(7)

其中:當i=0時,對于給定的圖像x0,其給定屬性值為負值,接著通過G0得到圖像y0。然后將y0送往G1,其中y0通過G1產生了y′0=G(y0)=G1(G0(x0)),而G0和G1兩個生成器對應的任務分別為雙重學習策略中的原始任務以及雙重任務,原始任務即直接生成目標圖像,雙重任務即將生成的圖像轉換為原始圖像,以增強最終生成圖像的質量或多樣性。y′0通過該策略期望跟x0能擁有相同的屬性。同理,當i=1時,也用相同的方法期望y′1具有跟x1相同的屬性。

3.4 妝容合成常用損失

人臉妝容合成常見損失主要約束生成圖像和參考圖像在相同的妝容域中有相似的風格,其常見的損失包括:

a)妝容損失。

妝容損失的作用是將人臉妝容屬性分為眼睛、嘴唇和面部三個部分進行約束,每一部分負責約束生成圖像y和參考圖像t的化妝風格分布并使之趨于相同。每一個部分利用直方圖匹配得到映射圖像HM(yMitem,xMitem)。其直方圖損失計算公式如下:

Litem=‖HM(yMitem,xMitem)-yMitem‖2

(8)

其中:Mitem是利用人臉解析模型得到的眼睛、嘴唇和面部區(qū)域,item∈{eye,lips,face}。

總的妝容損失計算公式如下:

Lmakeup=λ1Leye+λ2Llips+λ3Lface

(9)

其中:λ為權重參數(shù),一般設置為1。

b)循環(huán)一致性損失。

循環(huán)一致性損失是一種重構損失,目的是使生成的人臉圖像能夠在更改屬性的同時保證不更改其他無關的屬性,循環(huán)一致性損失公式如下:

Lcyc(G,F(xiàn))=Ex~pdata(x)[‖F(xiàn)(G(x))-x‖1]+Ey~pdata(y)[‖G(F(y))-y‖1]

(10)

其中:G和F分別代表不同域的兩個生成器;x表示真實圖像輸入;y表示G生成的假圖像,y作為F的輸入,即使用生成器兩次。G注重將原域中的圖像轉換成目標域中的圖像,而F更加注重將目標域中的圖像轉換成原域中的圖像,整個循環(huán)一致性損失的計算方式類似L1損失,目的在于使得兩個生成器互相學習,使得生成的圖像更具真實性。

3.5 小結

在人臉屬性合成GAN中,損失函數(shù)的選擇漸漸成為了最具挑戰(zhàn)性的問題。綜上所述,GAN的損失函數(shù)已不單單拘泥于通用損失,其常會引入不同的損失函數(shù)對GAN的訓練進行輔助。實際上,基于GAN的人臉屬性合成尋找的是如何在生成器以及鑒別器中找到平衡。無論是通用損失還是基于年齡、表情、妝容的特定損失,其目的都在于穩(wěn)定GAN的訓練并生成真實可靠的人臉屬性。同時,在近些年的研究中,GAN已從單人臉屬性合成逐漸變?yōu)榭煽囟嘤虻娜四槍傩院铣桑铣扇蝿盏膹碗s性對損失函數(shù)的要求進一步提高,選擇合適的損失函數(shù)以及設計特定任務下的損失函數(shù)能夠對網絡性能帶來極大的提升。因此,對損失函數(shù)的研究以及設計在人臉屬性合成領域仍有很大的發(fā)展前景。

4 常見人臉屬性合成數(shù)據(jù)集與評價指標

4.1 常見人臉屬性合成數(shù)據(jù)集

4.1.1 年齡屬性數(shù)據(jù)集

在研究人臉年齡合成任務時,使用高質量人臉數(shù)據(jù)集可以大幅提升訓練模型的泛化性及穩(wěn)定性。人臉年齡數(shù)據(jù)集標簽可劃分為年齡組和年齡值兩類。本節(jié)列舉常見的人臉年齡數(shù)據(jù)集。

a)MORP[104]數(shù)據(jù)集是于2006年公開的真實年齡數(shù)據(jù)集,包含Album1和Album2兩部分,且年齡標簽均為年齡值。

b)FG-NET(face and gesture recognition NETwork)[105]數(shù)據(jù)集于2002年公開,收錄了82人不同年齡跨度下1 002幅彩色或黑白的人臉圖像。每張圖像的年齡標簽為年齡組。

c)CACD(cross-age celebrity dataset)[106]數(shù)據(jù)集于2013年發(fā)布,圖像收集自網站上2 000位名人的163 446張圖像,年齡跨度為0~100歲,圖像的年齡標簽為年齡值。

d)Adience[107]數(shù)據(jù)集于2014年收集自Flickr網站,其中包含2 284個人共26 580張人臉圖像,每張圖像的年齡標簽為年齡組。

4.1.2 妝容屬性數(shù)據(jù)集

鑒于人臉妝容合成算法的飛速發(fā)展,人臉妝容相關數(shù)據(jù)集越來越豐富,無論妝容風格種類還是人臉圖像的質量和數(shù)量均有一定的提升。下面列舉了人臉圖像妝容合成任務中具有與代表性的數(shù)據(jù)集。

a)YMU(YouTube makeup)[108]數(shù)據(jù)集發(fā)布于2012年,圖像均取自YouTube化妝教程。這些面部圖像中的妝容風格包含淡妝和濃妝等。

b)MT(makeup transfer)[91]數(shù)據(jù)集發(fā)布于2018年,收錄了3 834張女性圖像,其中素顏人臉圖像1 115張,妝后人臉圖像2 719張。

c)FCC(facial cosmetic content)數(shù)據(jù)集[109]發(fā)布于2019年,拍攝不同對象化妝前后的人臉圖像,共有18 425張人臉圖像。

d)CPM(color-amp;-pattern makeup)[102]發(fā)布于2021年,數(shù)據(jù)集分為四部分:CPM-Synt-1、CPM-Synt-2、CPM-Real和Stickers。

4.1.3 表情屬性數(shù)據(jù)集

深度合成模型的訓練十分依賴圖像數(shù)據(jù)和標簽,人臉表情數(shù)據(jù)集提供了表情標簽作為表情特征信息,如微笑、中立、生氣等,這些標簽有效輔助人臉表情的精確合成。本節(jié)總結了常用人臉表情合成數(shù)據(jù)集及其特征:

a)PIE(pose illumination expression)數(shù)據(jù)集[110]發(fā)布于2002年,是最早發(fā)布的大規(guī)模人臉表情數(shù)據(jù)集之一。共有來自68位志愿者的41 368張人臉圖像,每個個體采集13種身體姿態(tài),43種不同的照度和4種常見表情。

b)Multi PIE數(shù)據(jù)集:為了解決PIE存在的問題,Gross等人[111]在2010年提出的數(shù)據(jù)集。此數(shù)據(jù)集采集自337位志愿者,提取了15個視角、19個光照角度下的表情信息,數(shù)據(jù)集總共包含約75萬張人臉圖像。

c)RaFD(radboud faces)數(shù)據(jù)集[112]發(fā)表于2010年,數(shù)據(jù)集從不同角度收集了67個志愿者的8 040張表情圖像,RaFD數(shù)據(jù)集共包含8種表情,即驚訝、憤怒、快樂、悲傷、中立、蔑視、厭惡和恐懼。

d)CK(CohnKanade)數(shù)據(jù)集包含了97個人的486個表情視頻序列,每名模特從中立表情開始,作出連貫的面部表情變化,視頻中平均每人展示23個表情。CK+[113]在CK數(shù)據(jù)集基礎上進行擴展,CK+數(shù)據(jù)集包含了123位模特的表情視頻序列593個。

4.1.4 人臉屬性通用數(shù)據(jù)集

隨著深度模型的發(fā)展,合成任務不僅僅局限于單一的屬性轉換,人臉屬性變換往往是多種屬性同時呈現(xiàn)。因此衍生出多種人臉屬性、高質量人臉面部屬性數(shù)據(jù)集。本節(jié)總結目前在人臉屬性合成任務中應用最廣泛的數(shù)據(jù)集。并將所有數(shù)據(jù)集整理對比如表2所示。

a)CelebA(celebfaces attributes)[114]數(shù)據(jù)集發(fā)表于2015年,是一個大規(guī)模人臉屬性通用數(shù)據(jù)集。CelebA收錄了10 177位名人的202 599幅人臉圖像,每幅圖像帶有40個人臉屬性的標簽信息。

b)FFHQ(flickr faces high quality)[48]數(shù)據(jù)集取自Flickr并公布于2019年,是英偉達公司創(chuàng)建的高清人臉數(shù)據(jù)集。FFHQ數(shù)據(jù)集包含70 000張1 024×1 024像素的高分辨率人臉圖像。

4.2 人臉屬性合成常用評價指標

對基于GAN的人臉屬性生成來說,常常需要使用評價指標來評估GAN的生成效果。對于人臉屬性合成領域,根本問題在于是否和人的感知一致。評價指標的要求一般有如下幾點:

a)可以做到對生成質量的評價,也就是對生成樣本多、多樣性復雜的人臉屬性合成模型具有較好的分數(shù)。

b)對于基于條件的人臉屬性合成來說,可控制的人臉屬性合成算法應該具有更好的評價。

c)一些圖像的位置變換等操作并不會改變生成的質量,這樣的算法評價較高。

d)定量評價不應該有較大的計算量。

4.2.1 定性評價

定性評價通常是根據(jù)人眼來對人臉屬性合成的效果進行評價,其主觀性比較多,同時根據(jù)參與者的不同,每個人的評價標準也有所不同。如圖12所示是IcGAN[115]、FaderNet[116]、AttGAN[86]、StarGAN[84]以及STGAN[44]五種具有代表性的主流生成對抗網絡在人臉屬性合成方面的定性評價示例。

定性評價由于其主觀性較大,和定量評價相比,其評價的結果只能作為一個參考,而定量評價能夠根據(jù)潛在空間的信息進行對比,以統(tǒng)一的標準評估模型的性能。

4.2.2 定量評價

定量評價一般是一個可以通過計算得到的量化指標,通過量化指標對人臉屬性的生成質量進行評價,清晰度不夠以及足夠清晰但是不符合真實人臉的圖像算作低質量圖像。

a)IS(inception score)。

Inception Score[117]將輸入的圖像x輸出一個1 000維的標簽向量y,向量的每一維表示輸入的樣本屬于某一類別的概率。其計算公式如下:

IS=exp(ExDKL(p(y|x)‖p(y)))

(11)

其中:DKL表示KL(Kullback-Leibler)散度,用來衡量兩個分布的差異大小,IS值越大代表模型的質量越好。

b)FID(Fréchet inception distance)。

FID[118]分別把生成器以及鑒別器生成的圖像輸入到分類模型當中,圖像的抽象特征從分類模型中抽取。同時,在假設抽象特征符合多元高斯分布的前提下估計生成圖像高斯分布均值矩陣μg和協(xié)方差矩陣a。g,以及訓練圖像的均值矩陣μdata和協(xié)方差矩陣a。data,最后計算兩個高斯分布的弗雷歇距離,該值的大小即為FID,其計算公式如下:

FID=‖μdata-μg‖+

tr(a。data+a。g-2(a。dataa。g)12)

(12)

FID的數(shù)值越小,代表訓練圖像和生成圖像兩個分布越接近,代表模型的算法越好。

c)Wasserstein distance。

Wasserstein距離作為評價指標首次由Arjovsky等人[119]在WGAN(Wasserstein GAN)中被提出。Wasserstein距離越小,代表真實圖像與生成圖像的樣本分布越接近,即模型的性能越好。以Wasserstein距離作為評價指標時,需要一個預訓練的鑒別器D(x),Wasserstein距離的估算值如下:

WD≈1N∑Ni=1D(xi)-1N∑Nj=1D(yj)

(13)

其中:xi為訓練樣本集的樣本;yi為生成器生成的樣本。分別將其輸入到鑒別器中進行判斷,輸出的值進行WD(Wasserstein distance)計算,得出真實圖像與生成圖像的分布差異。

d)SSIM(structural similarity)。

SSIM[120]通過三個方面對模型的生成質量進行評價,分別是兩張圖像x、y之間的亮度l(x,y)、對比度c(x,y)、結構s(x,y)。三個方面的公式如下:

l(x,y)=2μxμy+C1μ2x+μ2y+C1

(14)

c(x,y)=2σxσy+C2σ2x+σ2y+C2

(15)

s(x,y)=σxy+C3σxσy+C3

(16)

其中:μx、μy、σx、σy、σxy分別為x,y的局部均值、方差以及協(xié)方差;C為常數(shù)。通常SSIM評價指標通過計算三方面的標準來取值如下:

SSIM(x,y)=l(x,y)c(x,y)s(x,y)

(17)

作為評價兩幅圖像相似性的指標,SSIM值越大越好。

e)PPL(perceptual path length)。

PPL[48]評價的是生成器能否很好地把不同圖像的特征進行分離。公式如下:

PPL=E[1∈2d(G(slerp(x,y;t)),G(slerp(x,y;t+∈)))]

(18)

其中:∈為插值路徑中細分的小段,通常由1E-4代替;d(…,…)為perceptual distance,一般使用VGG[98]進行衡量;G為生成器;slerp為球面線性插值;t~U(0,1)為服從均勻分布的插值參數(shù)。PPL評價指標越小越好。

f)PSNR(peak signal to noise ratio)。

PSNR[121]即峰值信噪比,這個比值衡量的是原始圖像與重構圖像之間的質量,PSNR值越大,則重構圖像的質量越高,其公式如下:

PSNR=10×log10((2n-1)2MSE)

(19)

其中:(2n-1)2為圖像可能的最大像素值;MSE是原圖像與重構圖像之間的均方誤差。

4.2.3 小結

綜上所述,無論是定性評價還是定量評價,其最終目的是能夠生成逼真且高質量的人臉。從這一點來看,定性評價高是評估高質量算法的重要因素,但利用人眼直接觀察的方法成本過高,定量評價采用直接計算的方式避免了這一成本消耗,但定量評價沒有一個統(tǒng)一的評價標準。因此,在GAN的人臉屬性合成算法的評估中,采用定性評價與多種定量評價相結合的方式是當前主流的評估標準。

5 結束語

人臉屬性合成領域具有重大的理論研究價值和廣闊的市場應用前景,因此該領域有著許多研究者參與其中進行研究和探索,也催生出一些杰出的理論和模型,并能擴展到人臉之外的領域中,對計算機視覺和深度學習的發(fā)展有一定推動作用。

本文回顧了人臉屬性合成領域的前世今生,簡要介紹了傳統(tǒng)方法和目前主流的深度學習方法,并著重介紹了GAN網絡及其變體在人臉表情、年齡、妝容合成方面的應用和最新發(fā)展;此外還介紹了人臉屬性方面的數(shù)據(jù)集,并梳理其特征。

目前,人臉屬性合成已經取得了一定的進展,能夠初步滿足實際應用的需求。但仍存在幾個問題需要考慮:

a)數(shù)據(jù)集對人臉屬性合成的制約。數(shù)據(jù)是推動深度學習發(fā)展的原料,數(shù)據(jù)集的規(guī)模和質量制約了模型在人臉合成任務上的表現(xiàn)。目前的數(shù)據(jù)集存在采集質量不一致,標注規(guī)則有較大差異,各種屬性之間樣本數(shù)量存在不均衡的現(xiàn)象。期待未來能夠有標準化組織,對數(shù)據(jù)集提供一個基本的統(tǒng)一框架,便于后續(xù)的數(shù)據(jù)更新和整合。

b)目標屬性合成能力與身份特征保留能力的矛盾。人臉屬性合成任務的核心是在合成目標屬性的同時保留個人身份信息。GAN能輕易地合成逼真的人臉屬性,但是不加限制時難以合成具有個性化身份信息的圖像。如何恰如其分地增加限制條件,讓其自適應地達到一個完美的平衡是亟需解決的問題。

c)人臉屬性合成缺少統(tǒng)一的評價指標。現(xiàn)有的開源深度學習API(application programming interface),如Face++通過分類、識別、檢測、分割等成熟的深度學習任務來輔助評價生成任務,然而各家的訓練條件和模型偏好的不同也讓模型的評價難以達成統(tǒng)一。傳統(tǒng)的光學和物理模型的評價標準也難以用簡潔的公式描述合成圖像的質量。如何將“像”這個抽象的概念轉換為科學語言,落實到客觀、可量化的指標一直是個亟待解決的難題。

d)圖像的細節(jié)真實度容易被忽視。放眼目前的屬性合成模型,人臉屬性合成圖像的真實度還有提升的空間。人臉細節(jié)對于合成圖像真實性的表達有重要的關系。人臉五官的比例,左右的鏡像性和細節(jié)的非對稱等構成了真實度,不應伴隨不符合解剖學結構的面部肌群、牙齒數(shù)量、瞳孔顏色等。引導模型學習人臉中蘊涵的細節(jié)信息,提升人臉合成圖像真實度將是未來的研究方向。

總之,人臉屬性合成是一項意義深遠具有挑戰(zhàn)性的課題,既是機遇也有挑戰(zhàn),具有巨大的研究價值。此綜述的目的也是為人臉屬性合成研究的進一步發(fā)展提供參考。

參考文獻:

[1]Kammoun A, Slama R, Tabia H, et al. Generative adversarial networks for face generation: a survey[J]. ACM Computing Surveys, 2022, 55(5): 1-37.

[2]Goodfellow I J, Pouget-abadie J, Mirza M, et al. Generative adversarial nets[C]//Proc of the 27th International Conference on Neural Information Processing System. New York: ACM Press, 2014: 2672-2680.

[3]Shu Xiangbo, Tang Jinhui, Lai Hangjiang, et al. Personalized age progression with aging dictionary[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 3970-3978.

[4]Ramanathan N, Chellappa R. Modeling age progression in young faces[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2006, 1: 387-394.

[5]Suo Jinli, Zhu Songchun, Shan Shiguang, et al. A compositional and dynamic model for face aging[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2009, 32(3): 385-401.

[6]王體, 趙夢媛, 黃艷燕. 基于生成對抗網絡的人臉年齡合成研究概述[J]. 軟件, 2020, 41(10): 171-174. (Wang Ti, Zhao Mengyuan, Huang Yanyan. Overview of research on face age synthesis bassed on generative adversarial networks[J]. Conputer engineering amp; Software, 2020, 41(10): 171-174.)

[7]曹玉紅, 尚志華, 胡梓珩等. 智能人臉偽造與檢測綜述[J]. 工程研究-跨學科視野中的工程, 2020, 12(6): 538-555. (Cao Yuhong, Shang Zhihua, Hu Ziheng, Zhu Jiaqi, et al. Survey of intelligent face forgery and detection[J]. Journal of Engineering Studies, 2020, 12(6): 538-555.)

[8]Kingma D P, Welling M. Auto-encoding variational Bayes[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1312. 6114.pdf.

[9]謝志峰, 閆淑萁, 張文領. 基于視覺注意力機制的人臉屬性遷移[J]. 計算機應用與軟件, 2021, 38(4): 209-214. (Xie Zhifeng, Yan Shuqi, Zhang Wenling. Facial attributes transfer based on visual attention[J]. Computer Applications and Software, 2021, 38(4): 209-214.)

[10]馬志萍. 基于GANs和遷移學習的人臉表情生成方法研究[J]. 儀器儀表用戶, 2021,28(2): 15-18. (Ma Zhiping. Facial expression generation based on GANs and transfer learning[J]. Instrumentation, 2021, 28(2): 15-18.)

[11]Li Mu, Zuo Wangmeng, Zhang D. Deep identity-aware transfer of facial attributes[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1610.05586.pdf.

[12]Shen Wei, Liu Rujie. Learning residual images for face attribute manipulation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, NJ: IEEE Press, 2017: 4030-4038.

[13]Larsen A B L, S?nderby S K, Larochelle H, et al. Autoencoding beyond pixels using a learned similarity metric[C]//Proc of International conference on machine learning. NewYork: PMLR, 2016: 1558-1566.

[14]Yao Xu, Puy G, Newson A, et al. High resolution face age editing[C]//Proc of the 25th International conference on pattern recognition. Piscataway, NJ: IEEE Press, 2021: 8624-8631.

[15]Choi Y, Uh Y, Yoo J, et al. StarGAN v2: Diverse image synthesis for multiple domains[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 8188-8197.

[16]Wu Rongliang, Zhang Gongjie, Lu Shijian, et al. Cascade EF-GAN: progressive facial expression editing with local focuses[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 5021-5030.

[17]Yao Xu, Newson A, Gousseau Y, et al. A latent transformer for disentangled face editing in images and videos[C]//Proc of IEEE/CVF international conference on computer vision. Piscataway, NJ: IEEE Press, 2021: 13789-13798.

[18]Jeon S, Lee P, Hong K, et al. Continuous face aging generative adversarial networks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2021: 1995-1999.

[19]Li Zeqi, Jiang R, Aarabi P. Continuous face aging via self-estimated residual age embedding[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 15008-15017.

[20]Deng Han, Han Chu, Cai Hongmin, et al. Spatially-invariant style-codes controlled makeup transfer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 6549-6557.

[21]Wang Huipo, Yu Ning, Fritz M. Hijack-GAN: unintended-use of pretrained, black-box GANs[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7872-7881.

[22]Xiang Jianfeng, Chen Junliang, Liu Wenshuang, et al. RamGAN: region attentive morphing GAN for region-level makeup transfer[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 719-735.

[23]Xu Yanbo, Yin Yueqin, Jiang Liming, et al. Transeditor: transformer-based dual-space GAN for highly controllable facial editing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2022: 7683-7692.

[24]Wang Tengfei, Zhang Yong, Fan Yanbo, et al. High-fidelity GAN inversion for image attribute editing[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11379-11388.

[25]He Jingwen, Shi Wu, Chen Kai, et al. Gcfsr: a generative and controllable face super resolution method without facial and GAN priors[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 1889-1898.

[26]Xu Yangyang, He Shengfeng, Wong K Y K, et al. RIGID: recurrent GAN inversion and editing of real face videos[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 13691-13701.

[27]Jin Shiwei, Wang Zhen, Wang Lei, et al. ReDirTrans: latent-to-latent translation for gaze and head redirection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 5547-5556.

[28]Plesh R, Peer P, Struc V. GlassesGAN: eyewear personalization using synthetic appearance discovery and targeted subspace modeling[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 16847-16857.

[29]Zhao Yunqing, Du Chao, Abdollahzadeh M, et al. Exploring incompatible knowledge transfer in few-shot image generation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 7380-7391.

[30]Liu Haozhe, Zhang Wwentian, Li Bing, et al. Adaptivemix: improving GAN training via feature space shrinkage[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2023: 16219-16229.

[31]Olson M L, Liu Shusen, Anirudh R, et al. Cross-GAN auditing: unsupervised identification of attribute level similarities and differences between pretrained generative models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 7981-7990.

[32]Luo Xiaodong, He Xiaohai, Chen Xiang, et al. Dynamically optimized human eyes-to-face generation via attribute vocabulary[J]. IEEE Signal Processing Letters, 2023, 30: 453-457.

[33]陳莉明, 田茂, 顏佳. 解糾纏表示學習在跨年齡人臉識別中的應用[J]. 計算機應用研究, 2021, 38(11): 3500-3505. (Chen Liming, Tian Mao, Yan Jia. Application of disentangled representation learning in cross-age face recognition[J]. Application Research of Computers, 2021, 38(11): 3500-3505.)

[34]Isola P, Zhu Junyan, Zhou Tinghui, et al. Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1125-1134.

[35]Wang Tingchun, Liu Mingyu, Zhu Junyan, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//Proc of IEEE conference on computer vision and pattern recognition. Piscataway, NJ: IEEE Press, 2018: 8798-8807.

[36]Chen Qifeng, Koltun V. Photographic image synthesis with cascaded refinement networks[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 1511-1520.

[37]Wang Jiangzong, Deng Yimin, Liang Ziqi, et al. CP-EB: Talking face generation with controllable pose and eye blinking embedding[EB/OL].[2024-05-09]. https://arxiv.org/pdf/2311.08673.pdf.

[38]Xie Lianxin, Xue Wen, Xu Zhen, et al. Blemish-aware and progressive face retouching with limited paired data[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 5599-5608.

[39]Bodla N, Hua Gang, Chellappa R. Semi-supervised FusedGAN for conditional image generation[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1801.05551.pdf.

[40]Liang Jingjun, Chen Shizhe, Jin Qin. Semi-supervised multimodal emotion recognition with improved wasserstein GANs[C]//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway, NJ: IEEE Press, 2019: 695-703.

[41]Sun Jiaze, Bhattarai B, Kim T K. MatchGAN: a self-supervised semi-supervised conditional generative adversarial network[EB/OL].[2024-05-09]. https://arxiv.org/abs/2006.06614.pdf.

[42]Sricharan K, Bala R, Shreve M, et al. Semi-supervised conditional GANs[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1708.05789.pdf.

[43]Chen Tianyi, Zhang Yunfei, Huo Xiaoyang, et al. SphericGAN: semi-supervised hyper-spherical generative adversarial networks for fine-grained image synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10001-10010.

[44]Liu Ming, Ding Yukang, Xia Min, et al. STGAN: a unified selective transfer network for arbitrary image attribute editing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 3673-3682.

[45]Voynov A, Babenko A. Unsupervised discovery of interpretable directions in the GAN latent space[C]//Proc of International Conference on Machine Learning. NewYork: PMLR, 2020: 9786-9796.

[46]Chen Xi, Duan Yan, Houthooft R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversa-rial nets[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1606.03657.pdf.

[47]Donahue C, Lipton Z C, Balsubramani A, et al. Semantically decomposing the latent spaces of generative adversarial networks[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1705.07904v3.pdf.

[48]Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 4401-4410.

[49]Jadhav R, Gokhale V, Deshpande M, et al. High fidelity face generation with style generative adversarial networks[C]//Proc of the 2nd International Conference on Smart Technologies and Systems for Next Generation Computing. Piscataway, NJ: IEEE Press, 2023: 1-6.

[50]Karras T, Laine S, Aittala M, et al. Analyzing and improving the image quality of styleGAN[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 8110-8119.

[51]Patashnik O, Wu Zongze, Shechtman E, et al. StyleCLIP: text-driven manipulation of StyleGAN imagery[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 2085-2094.

[52]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of International Conference on Machine Learning. NewYork: PMLR, 2021: 8748-8763.

[53]Xu Chao, Zhu Shaoting, Zhu Junwei, et al. Multimodal-driven tal-king face generation via a unified diffusion-based generator[EB/OL].[2024-05-09]. https://arxiv.org/pdf/2305.02594.pdf.

[54]Yang Guo, Fu Feifei, Fei Nanyi, et al. DiST-GAN: distillation-based semantic transfer for text-guided face generation[C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2023: 840-845.

[55]Shi Yichun, Yang Xiao, Wan Yang, et al. SemanticstyleGAN: learning compositional generative priors for controllable image synthesis and editing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11254-11264.

[56]Xu Yangyang, Deng Bailin, Wang Junle, et al. High-resolution face swapping via latent semantics disentanglement[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2022: 7642-7651.

[57]Huang Zhizhong, Ma Siteng, Zhang Junping, et al. Adaptive nonli-near latent transformation for conditional face editing[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2023: 21022-21031.

[58]Ozkan S, Ozay M, Robinson T. Conceptual and hierarchical latent space decomposition for face editing[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 7248-7257.

[59]Nimisha T M, Sunil K, Rajagopalan A N. Unsupervised class-specific deblurring[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 353-369.

[60]Bansal A, Ma S, Ramanan D, et al. Recycle-GAN: unsupervised video retargeting[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 119-135.

[61]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 2223-2232.

[62]張珂, 王新勝, 郭玉榮, 等. 2019. 人臉年齡估計的深度學習方法綜述[J]. 中國圖象圖形學報, 24(8): 1215-1230. (Zhang Ke, Wang Xinsheng, Guo Yurong, et al. 2019. Survey of deep learning methods for face age estimation[J]. Journal of Image and Grap-hics, 24(8): 1215-1230.)

[63]Liu Yunfan, Li Qi, Sun Zhenan. Attribute-aware face aging with wavelet-based generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 11877-11886.

[64]Chandaliya P K, Nain N. AW-GAN: face aging and rejuvenation using attention with wavelet GAN[J]. Neural Computing and Applications, 2023, 35(3): 2811-2825.

[65]Alaluf Y, Patashnik O, Cohen-or D. Only a matter of style: age transformation using a style-based regression model[J]. ACM Trans on Graphics, 2021, 40(4): 1-12.

[66]Or-El R, Sengupta S, Fried O, et al. Lifespan age transformation synthesis[C]//Proc of the 16th European Conference on Computer Vision, Cham: Springer, 2020: 739-755.

[67]Karras T, Aila T, Laine S, et al. Progressive growing of GANs for improved quality, stability, and variation[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1710.10196.pdf.

[68]Yang Hongyu, Huang Di, Wang Yunhong, et al. Learning face age progression: a pyramid architecture of GANs[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 31-39.

[69]Yoon D, Kim J, Lorant V, et al. Manipulation of age variation using StyleGAN inversion and fine-Tuning[J]. IEEE Access, 2023, 11: 131475-131486.

[70]Olmschenk G, Zhu Zhigang, Tang Hao. Generalizing semi-supervised generative adversarial networks to regression using feature contrasting[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1811.11269.pdf.

[71]Huang Zhizhong, Zhang Junping, Shan Hongming. When age-invariant face recognition meets face age synthesis: a multi-task learning framework[C]//Proc of IEEE/CVF conference on computer vision and pattern recognition. Piscataway, NJ: IEEE Press, 2021: 7282-7291.

[72]He Sen, Liao Wentong, Yang M Y, et al. Disentangled lifespan face synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 3877-3886.

[73]Maeng J, Oh K, Suk H I. Age-aware guidance via masking-based attention in face aging[C]//Proc of the 32nd ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2023: 4165-4169.

[74]Wang Zongwei, Tang Xu, Luo Weixin, et al. Face aging with identity-preserved conditional generative adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 7939-7947.

[75]Antipov G, Baccouche M, Dugelay J L. Face aging with conditional generative adversarial networks[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2017: 2089-2093.

[76]Li Chen, Li Yuanbo, Weng Zhiqiang, et al. Face aging with feature-guide conditional generative adversarial network[J]. Electronics, 2023, 12(9): 2095.

[77]Pumarola A, Agudo A, Martinez A M, et al. Ganimation: anatomically-aware facial animation from a single image[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 818-833.

[78]Yang Guoxing, Fei Nanyi, Ding Mingyu, et al. L2m-GAN: learning to manipulate latent space semantics for facial attribute editing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 2951-2960.

[79]Shen Yujun, Luo Ping, Yan Junjie, et al. FaceID-GAN: learning a symmetry three-player GAN for identity-preserving face synthesis[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2018: 821-830.

[80]Ding Hui, Sricharan K, Chellappa R. ExprGAN: facial expression editing with controllable expression intensity[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1709.03842.pdf.

[81]Yang Xin, Xu Xiaogang, Chen Yingcong. Out-of-domain GAN inversion via invertibility decomposition for photo-realistic human face manipulation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 7492-7501.

[82]Hu Jiahui, Yu Bing, Yang Yun, et al. Towards facial de-expression and expression recognition in the wild[C]//Proc of International Conference on Affective Computing and Intelligent Interaction. Pisca-taway, NJ: IEEE Press, 2019: 157-163.

[83]Yang Huiyuan, Ciftci U, Yin Lijun. Facial expression recognition by de-expression residue learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2168-2177.

[84]Choi Y, Choi M, Kim M, et al. StarGAN: unified generative adversarial networks for multi-domain image-to-image translation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8789-8797.

[85]Shen Yujun, Yang Ceyuan, Tang Xiaoou, et al. InterfaceGAN: Interpreting the disentangled face representation learned by GANs[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 44(4): 2004-2018.

[86]He Zhenliang, Zuo Wangmeng, Kan Meina, et al. Arbitrary facial attribute editing: only change what you want[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1711.10678.pdf.

[87]Hou Xianxu, Shen Linlin, Ming Zhong, et al. Deep generative image priors for semantic face manipulation[J]. Pattern Recognition, 2023, 139(C): 109477.

[88]Zhang Ke, Su Yunkun, Guo Xiwang, et al. MU-GAN: facial attri-bute editing based on multi-attention mechanism[J]. IEEE/CAA Journal of Automatica Sinica, 2020, 8(9): 1614-1626.

[89]Yadav N K, Singh S K, Dubey S R. ISA-GAN: inception-based self-attentive encoder-decoder network for face synthesis using delineated facial images[J]. The Visual Computer, 2024, 40(1): 1-21.

[90]王偉光, 錢祥利. 基于深度學習的人臉妝容遷移算法[J]. 計算機應用研究, 2021, 38(5): 1559-1562. (Wang Weiguang, Qian Xiangli. Face makeup transfer algorithm based on deep learning[J]. Application Research of Computers, 2021, 38(5): 1559-1562.)

[91]Li Tingting, Qian Ruihe, Dong Chao, et al. BeautyGAN: instance-level facial makeup transfer with deep generative adversarial network[C]//Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 645-653.

[92]Chang Huiwen, Lu Jingwan, Yu F, et al. PairedcycleGAN: asymmetric style transfer for applying and removing makeup[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 40-48.

[93]Horita D, Aizawa K. SLGAN: style-and latent-guided generative adversarial network for desirable makeup transfer and removal[C]//Proc of the 4th ACM International Conference on Multimedia in Asia. New York: ACM Press. 2022: 1-5.

[94]Zhang Honglun, Chen Wenqing, He Hao, et al. Disentangled makeup transfer with generative adversarial network[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1907.01144.pdf.

[95]Chen Yan, Xie Jiajian, Xue Jiajun, et al. A robust transformer GAN for unpaired data makeup transfer[J]. Concurrency and Computation: Practice and Experience, 2024, 36(9): e7994.

[96]Yan Li, Shibin Wang. EmAGAN: embedded blocks search and mask attention GAN for makeup transfer[C]//Proc of the 5th ACM International Conference on Multimedia in Asia. New York: ACM Press, 2023: 1-5.

[97]Yuan Qianglin, Zhang Hanliang. RAMT-GAN: realistic and accurate makeup transfer with generative adversarial network[J]. Image and Vision Computing, 2022, 120: 104400.

[98]Chen Huanyu, Li Weisheng, Gao Xinbo, et al. AEP-GAN: aesthetic enhanced perception generative adversarial network for Asian facial beauty synthesis[J]. Applied Intelligence, 2023, 53(17): 20441-20468.

[99]Jiang Wentao, Liu Si, Gao Chen, et al. PsGAN: pose and expression robust spatial-aware GAN for customizable makeup transfer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 5194-5202.

[100]Liu Si, Jiang Wentao, Gao Chen, et al. PsGAN+: robust detail-preserving makeup transfer and removal[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2021, 44(11): 8538-8551.

[101]Gu Qiao, Wang Guanzhi, Chiu M T, et al. Ladn: local adversarial disentangling network for facial makeup and de-makeup[C]//Proc of IEEE/CVF International conference on computer vision. Piscataway, NJ: IEEE Press, 2019: 10481-10490.

[102]Nguyen T, Tran A T, Hoai M. Lipstick ain′t enough: beyond color matching for in-the-wild makeup transfer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 13305-13314.

[103]Kips R, Gori P, Perrot M, et al. Ca-GAN: weakly supervised color aware GAN for controllable makeup transfer[C]//Proc of European conference on computer vision. Cham: Springer, 2020: 280-296.

[104]Ricanek K, Tesafaye T. Morph: a longitudinal image database of normal adult age-progression[C]//Proc of the 7th International Conference on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE Press, 2006: 341-345.

[105]Panis G, Lanitis A, Tsapatsoulis N, et al. Overview of research on facial ageing using the FG-NET ageing database[J]. IET Biometrics, 2016, 5(2): 37-46.

[106]Chen B C, Chen C S, Hsu W H. Face recognition and retrieval using cross-age reference coding with cross-age celebrity dataset[J]. IEEE Trans on Multimedia, 2015, 17(6): 804-815.

[107]Eidinger E, Enbar R, Hassner T. Age and gender estimation of unfiltered faces[J]. IEEE Trans on Information Forensics and Security, 2014, 9(12): 2170-2179.

[108]Dantcheva A, Chen Cunjian, Ross A. Can facial cosmetics affect the matching accuracy of face recognition systems?[C]//Proc of the 5th IEEE International Conference on Biometrics: Theory, Applications and Systems. Piscataway, NJ: IEEE Press, 2012: 391-398.

[109]Sarfraz M S, Seibold C, Khalid H, et al. Content and colour distillation for learning image translations with the spatial profile loss[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1908.00274.pdf.

[110]Sim T, BakeR S, Bsat M. The CMU pose, illumination, and expression(PIE) database[C]//Proc ofIEEE International Conference on Automatic Face Gesture Recognition. Piscataway, NJ: IEEE Press, 2002: 53-58.

[111]Gross R, Matthews I, Cohn J, et al. Multi-pie[J]. Image and vision computing, 2010, 28(5): 807-813.

[112]Langner O, Dotsch R, Bijlstra G, et al. Presentation and validation of the radboud faces database[J]. Cognition and Emotion, 2010, 24(8): 1377-1388.

[113]Lucey P, Cohn J F, Kanade T, et al. The extended Cohn-Kanade dataset(CK+): a complete dataset for action unit and emotion-specified expression[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. Piscataway, NJ: IEEE Press, 2010: 94-101.

[114]Liu Ziwei, Luo Ping, Wang Xiaogang, et al. Deep learning face attributes in the wild[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 3730-3738.

[115]Perarnau G, Van De Weijer J, Raducanu B, et al. Invertible conditional GANs for image editing[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1611.06355.pdf.

[116]Lample G, Zeghidour N, Usunier N, et al. Fader networks: manipulating images by sliding attributes[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1706.00409.pdf.

[117]Barratt S, Sharma R. A note on the inception score[EB/OL].[2024-05-09]. https://arxiv.org/pdf/1801.01973.pdf.

[118]Heusel M, Ramsauer H, Unterthiner T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[C]//Proc of the 31st International Conference on Neural Information Processing Systems. , New York: ACM Press, 2017: . 6629–6640.

[119]Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks[C]//Proc of International Conference on Machine Lear-ning. NewYork: PMLR, 2017: 214-223.

[120]Wang Zhou, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Trans on Image Processing, 2004, 13(4): 600-612.

[121]Guan Shanyan, Tai Ying, Ni Bingbing, et al. Collaborative learning for faster styleGAN embedding[EB/OL].[2024-05-09]. https://arxiv.org/pdf/2007.01758.pdf.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數(shù)據(jù)遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數(shù)據(jù)技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 99精品视频在线观看免费播放| 亚洲国产精品日韩av专区| 国产激情无码一区二区APP| 人人爽人人爽人人片| 波多野结衣中文字幕一区二区| 亚洲天堂区| 亚洲中文字幕在线精品一区| 免费aa毛片| 日韩欧美中文| 欧美在线网| 久久天天躁狠狠躁夜夜躁| 无码AV动漫| 国产va视频| 香蕉综合在线视频91| 国产一级妓女av网站| 野花国产精品入口| 久操中文在线| 无遮挡国产高潮视频免费观看| 亚洲国产精品日韩欧美一区| 亚洲欧美自拍一区| 真人免费一级毛片一区二区| 99无码中文字幕视频| www.亚洲色图.com| 91热爆在线| 高清免费毛片| 在线观看国产小视频| 9久久伊人精品综合| 亚洲婷婷在线视频| 欧美一级夜夜爽| 精品国产成人a在线观看| 色综合手机在线| 亚洲最大情网站在线观看| 91人妻日韩人妻无码专区精品| 欧美国产日韩在线观看| 99久久精品免费看国产免费软件| 99精品国产高清一区二区| 亚洲,国产,日韩,综合一区| 久久黄色小视频| 日本黄网在线观看| 国产精品爽爽va在线无码观看| 亚洲色图综合在线| 国产青青操| 欧洲亚洲欧美国产日本高清| 91色爱欧美精品www| 亚洲欧美在线综合图区| 国产原创演绎剧情有字幕的| 国产一级精品毛片基地| AV天堂资源福利在线观看| 国产精品免费久久久久影院无码| 国产一在线| 日本手机在线视频| 国产69精品久久久久孕妇大杂乱 | 午夜国产理论| 精品亚洲麻豆1区2区3区| 澳门av无码| 91网在线| 国产伦片中文免费观看| 国产18在线| 色丁丁毛片在线观看| 香蕉网久久| 色网站在线视频| 亚洲AV无码乱码在线观看代蜜桃 | 久久这里只有精品66| 国产精品人成在线播放| 国产99欧美精品久久精品久久| 综1合AV在线播放| 国产第一页屁屁影院| 国产日韩精品一区在线不卡| 国产男女XX00免费观看| 2024av在线无码中文最新| 亚洲中文无码av永久伊人| 99中文字幕亚洲一区二区| 国产成人凹凸视频在线| 国产精品yjizz视频网一二区| 久久综合色天堂av| 亚洲国产欧美中日韩成人综合视频| 久久婷婷五月综合97色| 国产欧美日韩综合一区在线播放| 蝴蝶伊人久久中文娱乐网| 国产精品冒白浆免费视频| AV老司机AV天堂| 亚洲国产精品不卡在线|