999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人臉合成技術綜述

2021-11-17 08:25:00費建偉夏志華余佩鵬戴昀書
計算機與生活 2021年11期
關鍵詞:方法模型

費建偉,夏志華,余佩鵬,戴昀書

1.南京信息工程大學 計算機與軟件學院,南京210044

2.暨南大學 網絡空間安全學院,廣州510632

人臉作為身份認證信息的特殊屬性,是眾多計算機領域的研究對象。除人臉檢測、識別以及活性檢測等方向外,人臉合成領域同樣具有很高的活躍度,且伴隨著近年來深度學習技術的突破性進展,這一類技術也經歷著飛速的發展,在隱私保護、影視動畫、娛樂商用等各個領域得到了廣泛的應用。相較于人臉檢測與識別,人臉合成是一個更加開放的領域。這一領域不僅涉及到如建模、形變與渲染等諸多圖形學技術,還涉及到深度學習中關于圖像生成的革新技術。不同的人臉合成方法雖然可能具有類似的框架與技術路線,但在具體細節以及實現方法上可能千差萬別。因此,人臉合成領域的研究與探索也在為技術本身的發展開拓空間。另外,利用人臉合成技術制作的圖像或視頻是多媒體篡改取證領域的重點關注對象。推動人臉合成技術發展,對數字取證領域的進步也將產生積極的推動作用[1]。

在推動技術進步的同時,人臉合成領域的研究也帶來了許多實際應用。例如,谷歌全景地圖在拍攝到未經授權的人臉時,可以借助人臉合成技術自動地將其替換為授權人臉。這不僅避免了對個人隱私的侵犯,而且相比于人臉馬賽克,具有更好的視覺效果[2]。在一些特殊的紀錄片中,利用換臉技術也能夠保護主人公的隱私[3]。如今,公共場合遍布著各類公共攝像頭與監控設備,人們通過簡單的授權就可以直接獲取其捕獲內容[4],由此帶來的隱私侵犯問題也越來越值得關注。通過替換這些公開內容中的人臉,不僅能保留視頻中人物的行為數據,還起到了保護個人隱私的作用。

在影視行業,逼真的人臉合成技術可以以較低的成本實現翻拍或補拍影視片段,或者配音等工作。例如電影《黑客帝國》中利用人臉面部動作合成技術創造了同一個演員不同表情的多個副本[5]。還有一些作品借助這類技術合成老年或年輕版本的演員,節省了化妝與道具成本。當影視作品中需要呈現高危險性的特技鏡頭時,通過這類技術合成高質量的面部圖像,不僅能夠保證演員的人身安全,還避免了使用昂貴的特效帶來的額外成本。很多影視作品在全世界范圍內流通,雖然可以利用不同語言對作品進行重新配音,但嘴型與聲音的不統一仍然會降低作品的觀賞質量,因此借助面部操作技術,依照本土配音的嘴型對影片中人物嘴型進行操控,也是一項非常有潛力的應用。

在商用領域,通過合成不存在的具有吸引力的人臉作為代言人或廣告角色,也是當前人臉合成技術比較有潛力的應用方向,既可以避免高昂的代言與廣告成本,也降低了侵犯肖像權的風險。人臉屬性合成以及美化任務也是近年來比較火熱的研究方法[6-7],因此一些基于人臉合成技術的換妝換臉手機應用同樣存在巨大的潛在市場。一些娛樂軟件提供了零門檻換臉或實時操控動畫角色面部的功能,然而這類軟件一旦被惡意使用,同樣會帶來嚴重的負面影響,包括隱私以及版權問題。

現有技術制作的細節豐富的高分辨率人臉圖像已經具有比較理想的視覺效果[8-9]。各類新穎的應用逐漸開始走進人們的日常生活,但有些應用不僅對合成人臉的真實度與分辨率有要求,還要求合成人臉視頻中的動作連貫平滑,或者對角度、動作以及環境光照變化具有高魯棒性。雖然研究人員已經探索了各類方法來合成人臉視頻,但這些方法大多基于圖形學技術,需要大量的人工干預以及計算資源,而且過度依賴專業特效人員的預處理與后處理,導致人力成本巨大,價格高昂。與此同時,深度學習技術的飛速發展則為人臉合成領域帶來了新的思路與解決方案。

本文對人臉圖像與視頻的合成技術進行了總結,討論了該技術發展過程中各類方法間的聯系與差異,為合成更加逼真的人臉指明了方向。人臉合成具有非常廣泛的含義,本文將其歸為圖1 所示的四類,并在表1 中列舉了近幾年來國際頂級會議上人臉合成的相關工作。

(1)人臉身份合成(face identity synthesis)。人臉身份合成試圖通過換臉的方式在保持背景不變的情況下更改圖像或視頻中人物的身份。早期技術雖然實現了身份修改,但也更改了原有面部動作。而近年來,一些技術不僅實現了身份的編輯,還保留了原有面部動作。

Fig.1 Four types of face synthesis圖1 人臉合成的四種類型

(2)人臉動作合成(face movements synthesis)。人臉動作合成旨在改變人物原有的面部動作。目前,一些技術已經可以實現平滑地改變面部動作,而其中一類稱為人臉重演(face reenactment)的技術,能夠利用目標人臉的動作來操縱源人臉,使其做出相應的面部動作,一些工作甚至能夠實現實時操縱,或者驅動動畫角色的面部表情[10]。

(3)人臉屬性合成(face attributes synthesis)。人臉屬性合成是指對原始人臉的某些屬性進行編輯,這里的人臉屬性指具有明確語義的人臉面部特征,主要分為局部與全局特征,前者包含是否佩戴眼鏡,是否留有胡須等,后者包含人的年齡、性別等。

(4)人臉生成(face generation)。人臉合成與人臉生成的不同處在于,前者試圖對已有人臉進行修改,而后者生成現實中不存在的人臉,或者嘗試根據素描、文本描述等給定條件生成對應的逼真人臉圖像。對于人臉超分辨率以及人臉的藝術風格化等工作,本文同樣將其列為人臉生成的范疇。

雖然技術本身是中立的,但人臉合成在近年來帶來了相當多的爭議,因此為了防止人臉合成技術帶來的不良影響,美國參議院與眾議院于2019 年提出了《2019 年深度偽造報告法案》[11],要求有關部門對這類技術可能帶來的風險進行評估,并提前做出防御。類似的,中國網絡空間管理局在2020 年也發布了相關法規,來遏制偽造人臉視頻傳播帶來的負面影響[12]。這些法律以及規范的約束降低了人臉合成相關技術的負面影響,使其更多在生產生活中發揮積極作用。

Table 1 Studies on face synthesis at top conferences in recent years表1 近年來頂級會議上人臉合成相關工作

1 預備知識

人臉合成領域雖然方法眾多,但總體而言,基于三維人臉以及生成對抗網絡技術的方法占據著重要地位,前者在人臉動作合成方面具有很大的技術優勢,而后者在生成特定屬性方面能夠產生逼真的視覺效果。因此本章將對這兩種技術進行簡單闡述。

1.1 三維人臉技術

三維人臉技術屬于圖形學的范疇,在人臉合成領域中,尤其是人臉動作或身份的合成,主要借助三維人臉重建與三維人臉形變技術,通過建立人臉的三維模型并對其形變或改變身份參數,渲染出合成的人臉圖像。三維人臉技術是人臉合成領域不可或缺的基石之一,因此本節將對其進行簡要介紹,包括三維人臉重建與形變的技術原理。

1.1.1 三維人臉重建

三維人臉重建旨在建立人面部或頭部的三維模型,是圖形學領域的基本問題。在以往研究中,借助高分辨率掃描設備實現三維重建的方法雖然能夠獲取精細的三維人臉模型[13],但其代價昂貴,過程復雜。而基于多張圖像的重建方法雖然不依賴額外設備,但需要多張不同視角的照片[14],且精度欠缺。因此人臉合成任務往往借助基于單張圖像的三維人臉重建方法,這類方法依賴預先收集好的三維人臉數據集來建立人臉的參數化模型,因此不僅受到參數化模型的影響,還受到三維數據采集設備的影響。

Blanz 等人[15]在1999 年所提出的三維人臉形變模型(3D morphable model,3DMM)是最早用于解決根據二維人臉圖像估計三維人臉問題的參數化模型。該算法對預先收集的三維人臉數據進行主成分分析,以獲得表示人臉形狀和紋理的主成分,并用形狀和紋理主成分的線性組合來表示新人臉的模型。通過調整該線性組合的系數以及渲染參數,來優化渲染得到的人臉圖像與原人臉圖像的差異,即可從單張人臉圖像重建其三維模型。為了增強三維模型的面部動作表現力,Cao 等人[16]構建了表情更加豐富的三維人臉數據集,并在3DMM 的基礎上加入了表情分量。Paysan 等人[17]則借助更先進的設備,捕獲更加細致的三維人臉數據集。數據集規模與多樣性是影響三維人臉重建效果的重要因素,因此Booth 等人[18]構建了包含9 663 名不同角色的大規模人臉模型數據集,極大地提升了三維人臉模型的多樣性與精度。重建三維人臉模型的一大難點在于求解模型參數,以及渲染模型過程中涉及的包括相機位置、角度、距離、環境光照以及反照率等參數,因此后續工作提出了各種參數計算方法[19-20]。

深度學習興起后,許多工作轉向利用深度神經網絡從二維人臉圖像中推斷三維人臉模型[21]。Tran等人[22]利用卷積神經網絡直接從人臉圖像中推斷3DMM 的形狀和紋理系數。Chen 等人[23]提出了一種基于條件生成對抗網絡的深度面部細節網絡,成功從二維圖像中直接合成細節更加豐富的三維人臉。Gecer 等人[24]將生成對抗網絡與可微渲染器相結合,實現了高保真的人臉紋理重建。訓練基于神經網絡的三維人臉重建模型需要大量的數據,而帶三維標注的人臉數據較為缺乏,因此許多工作期望以無監督或半監督的訓練方式,例如Deng 等人[25]就僅借助面部關鍵點與面部皮膚掩膜實現了半監督的三維人臉重建。

1.1.2 三維人臉形變

對于人臉合成而言,三維人臉形變主要研究的是兩個具有相同拓撲結構的人臉模型間的形狀變化,這一技術不僅能夠實現人臉表情間的遷移,甚至可以通過調整人臉形狀來實現身份變換。為了達到這一目標,需要解決兩個主要的技術挑戰:(1)精確地跟蹤源人臉面部的剛性和非剛性運動;(2)將提取的參數映射到目標人臉以實現表情遷移。以參數化三維人臉模型為例,通過追蹤源人臉的面部動作變化并調節目標人臉的形狀參數,即可實現目標人臉的表情控制[26]。早期三維形變算法要求兩個模型間的稠密對齊,為了規避這一難題,大多數工作將面部表情變化嵌入到低維空間中,如Vlasic 等人[27]設計了基于三維人臉的多線性模型,將人臉的身份、表情與口型特征分別參數化與解耦,進而實現了人臉表情的定向形變。Thies 等人[28]則采用了Cao 等人的三維人臉參數模型,并計算源人臉的表情和目標人臉的表情參數的差值,進而通過修改目標人臉模型的參數實現表情遷移。

1.2 生成對抗網絡技術

生成對抗網絡(generative adversarial network,GAN)[29]自提出以來,就憑借能夠生成多樣的、逼真的圖像的能力成為近年來的研究熱點[30],被廣泛應用于人臉圖像處理的各類任務,是人臉合成技術至關重要的組成部分。人臉合成領域一直以輸出可控制的、高分辨率的逼真人臉圖像為目標,因此本節圍繞這兩方面介紹GAN 的相關技術。

1.2.1 生成圖像內容控制

原始GAN 將噪聲作為生成器的輸入,無法控制生成圖像的內容,因此Mirza 等人[31]提出了條件化生成對抗網絡(conditional GAN,CGAN)。與原始GAN不同的是,CGAN 在對生成器輸入噪聲的同時輸入一個標簽作為輔助信息來約束生成圖像的內容。Odena等人[32]在CGAN 的基礎上提出了ACGAN(auxiliary classifier GAN),使判別器不僅可以判斷圖像的真實性,還能夠對圖像進行分類。Perarnau 等人[33]所提出的ICGAN(invertible conditional GAN)利用額外的編碼網絡提取圖像的屬性標簽,并對其修改后再輸入生成網絡,實現了更加明確的語義修改。

雖然CGAN 能夠生成特定類別的圖像,但輸入的噪聲仍然不具語義上的可解釋性。因此Chen等人[34]提出的InfoGAN(information maximizing GAN)將輸入噪聲分解為隱變量和輸入噪聲,通過最大化隱變量與生成器的輸出的互信息,使輸入噪聲具有特定且連續的語義特征,如人臉的不同姿態以及手寫字符的粗細等。

1.2.2 高分辨率圖像生成

原始的DCGAN 只能生成64×64 分辨率的圖像,一直以來,研究者試圖設計能夠生成更高分辨率圖像的GAN 模型。Denton 等人[35]結合圖像金字塔與CGAN,逐步提高生成圖像的分辨率,將最終生成圖像的分辨率提高至96×96。Karras 等人[36]提出了PGGAN(progressive growing GAN),使用步進訓練方式,從低分辨率開始逐漸添加新的層來提升生成圖像的分辨率,并最終生成分辨率高達1 024×1 024的逼真圖像。在此基礎上,Style GAN[37]將輸入噪聲利用多層全連接映射到潛空間,并利用自適應實例標準化控制生成器中每一層的激活值,實現了更加逼真且可控的高分辨率圖像生成。值得注意的是,一些風格遷移任務中的GAN 雖然也能夠生成高分辨圖像[38-39],但其生成器的輸入是已有圖像,而以上幾種GAN 則將隨機噪聲作為輸入。

2 人臉身份合成

人臉身份合成,亦稱人臉交換,旨在將目標圖像中的人臉無縫逼真地替換源圖像中的人臉,部分工作甚至可以在替換后保留源人臉的表情與動作,在這種情況下,人臉交換就不僅涉及身份信息,還需要算法同時處理面部屬性。近幾年來,由于DeepFakes的出現,該領域的研究得到了廣泛的關注,成為了熱點話題,帶來了關于個人隱私與倫理問題的熱烈爭議。根據所使用的算法基礎,人臉身份合成的研究主要可以分為三類:(1)基于三維人臉模型的方法;(2)基于圖像編輯的方法;(3)基于深度學習的方法。而基于深度學習的方法又可分為基于自動編碼器與基于生成對抗網絡的方法。

2.1 基于三維人臉模型的方法

基于三維人臉模型的方法本質上是利用圖形學技術,對圖像或者視頻中源人臉的形狀進行形變,以在外觀上能夠模擬目標人臉的身份,同時將源人臉貼圖進行替換以保證肌膚的一致性。另外,圖像中的全局光照特征也是影響人臉合成效果的重要因素,因此有必要估計源與目標圖像的光照特征,并將源光照特征應用于生成人臉圖像的渲染。三維人臉模型的優點在于,不同人臉具有相同的拓撲結構,簡化了源人臉與目標人臉間的轉化。而參數化三維人臉模型還能夠嚴格明確地分離面部幾何形狀、皮膚紋理和場景參數。

利用三維人臉模型實現人臉身份修改的方法主要遵循以下幾個步驟:(1)同時對源和目標視頻中的人臉進行跟蹤和對齊,得到包括眼睛、鼻子以及嘴巴等關鍵位置的人臉特征點;(2)從圖像中估計人臉的三維形狀與紋理,某些情況下還需估計人臉的姿態參數;(3)利用特征點,將源人臉模型形變匹配目標人臉模型;(4)估計源視頻的環境光照參數;(5)利用估計的照明參數對換臉圖像進行重新照明并渲染,某些情況還會使用圖像融合方法來降低源人臉與目標人臉肌膚上的顏色差異。

目前可追溯的最早嘗試人臉身份交換的工作來自于2003年一篇未發表的文章[40]。在該工作中,Malik利用三維模型手動地提取面部紋理,在進行光照調整后與原始圖像粘合并對混合邊界進行調整。雖然該方法無需大規模數據集,但需要手動進行三維模型的面部對齊,且最終的換臉圖像逼真度較低。

Blanz 等人[41]同樣借助了三維人臉模型,他們利用源人臉估計得到的渲染參數對目標人臉進行渲染,得到了與源人臉姿態表情相同的目標人臉。然后將目標人臉與源人臉的背景、頭發以及面部區域進行融合得到最終的換臉圖像。雖然該工作的視覺效果要遠高于Malik 的方法,但仍然需要手動的面部對齊以及頭發區域的標記。類似的,為了防止源圖像與目標圖像的光照差異帶來的換臉圖像真實感損失,Cheng 等人[42]不僅提出了一種三維人臉模型表情參數估計算法來對源人臉進行擬合,還額外對換臉渲染后的人臉進行重光照以保證目標人臉與源圖像背景的光照一致性。為了防止過大的源人臉與目標人臉姿態差異導致的換臉失真,Lin 等人[43-44]則從正面照片建立完整的三維頭部模型并結合姿態估計,成功實現了在任意姿態下將目標頭部模型渲染到源圖像中的目的。

上述方法僅僅考慮了圖像層面的人臉交換,對于視頻中的人臉交換缺乏額外的時域約束。為了解決該問題,Dale 等人[45]不僅考慮了源視頻與目標視頻的人臉身份與外觀差異,還考慮了說話人的動作連貫性問題。該方法使用三維多線性模型追蹤并將源面部動作形變到目標面部動作,隨后對兩者進行空間對齊。為了保持人臉動作的動態一致性,作者額外施加了重定時步驟,利用動態時間規整將源與目標序列相匹配,消除了幀間不連續性的同時,還保持了足夠的同步率。并最終提出了一種最優拼接區域估計算法,來防止拼接造成的偽影。

人臉身份合成任務要求盡可能逼真的視覺效果,而基于三維模型的方法在這一目標上具有多重局限。首先,基于三維模型的方法在預處理階段要求精確地追蹤頭部姿態,以在換臉后匹配圖像中的人臉背景,防止人臉中心區域與周圍區域不一致而導致的瑕疵。這就使得這類方法在處理不同頭部姿態的源與目標人臉時存在天然劣勢,尤其是涉及包含面部遮罩的情況。因此近幾年的工作傾向借助深度學習生成模型對視角差異帶來的遮擋進行補全,這一點將在2.3 節中詳細介紹。其次,光照是影響生成圖像真實度的主要因素。然而在基于三維模型的人臉身份合成方法中,根據二維圖像估計三維人臉模型以及光照條件都是一個病態問題,因此該類方法常常會由于估計誤差導致最終的換臉圖像中存在明顯的偽影瑕疵。而過于簡單的光照模型,以及對鏡面反射、陰影以及表面光散射等細節的處理不當,也會嚴重限制合成的效果。因此,此類方法最大的困境在于源與目標人臉具有不同光照條件以及不同環境背景時,如何精確估計光照以及人臉反照率的同時,對目標人臉圖像進行重光照。與照明魯棒性和單幅人臉圖像的可靠三維重建相比,降低換臉過程中的手工干預,構建自動化的管線也同樣是一個需要解決的問題。

2.2 基于圖像編輯的方法

相比于復雜的基于三維人臉模型的身份合成方法,一些傳統的圖像編輯技術也可以用來實現人臉交換。這些基于圖像編輯的方法主要依賴圖像融合技術,如泊松融合[46-47]將兩幅不同的圖像進行融合以實現面部交換。這類方法首先將相應的面部區域分割出來[48],再利用圖像融合技術對源圖像與目標人臉進行拼接。一般而言,絕大部分基于圖像編輯技術的人臉身份修改算法的一般流程包含以下三個主要步驟:

(1)分別對源圖像與目標圖像進行人臉與關鍵點檢測,利用面部關鍵點對兩幅人臉進行對齊并剪裁出適當的面部區域。

(2)將從目標圖像剪裁得到的人臉區域粘貼到源圖像上,根據對應的關鍵點進行對齊。

(3)調整人臉交換后的源圖像的色彩,使人臉膚色光照與源圖像相匹配,調整圖像混合邊界,使其更加平滑自然。

早在2008 年,Bitouk 等人[49]就提出了一種完全基于圖像編輯的人臉交換方法。作者預先準備了大規模的目標人臉數據集,對于一張源人臉,首先從數據集中選擇外貌與姿態最相似的人臉,然后進行姿態、光照以及膚色的調整,來進一步將兩者差異降低,最終將處理后的人臉融合到源圖像中。Mosaddegh等人[50]也從預先建立的數據集中選擇換臉目標,他們將人臉分為不同區域,并從數據集中選擇各個區域最相似的進行融合來進行人臉交換。雖然以上兩者不能夠控制換臉目標的身份,但在無此需求的隱私保護領域中,具有真實高效的優勢。類似的,Kemelmacher-Shlizerman[51]對于用戶給定的關鍵字,從互聯網中搜集大量的相關人臉圖像并利用其中最相似的進行人臉交換。

雖然以上方法能夠產生非常逼真的換臉效果,但十分依賴預先準備的數據集,在數據集規模有限或者無法檢索到與源人臉相似的人臉時,換臉效果會產生嚴重下跌。同時這類方法也無法控制換臉目標的身份以及表情,但由于其較高的效率以及無需人工手動干預的特性,在一些特殊場景中具有較高的實用價值。

為了提高換臉算法對于源與目標人臉形狀與姿態差異的容忍度,可以在檢測到人臉以及關鍵點后,利用關鍵點的形變與對齊來彌補二者之間的差異。如Min 等人[2]就借助主動形狀模型(active shape models,ASM)[52]進行人臉對齊,并通過匹配源人臉與目標人臉的二維模型來減少面部形狀的失真,最終進行膚色調整與泊松融合[46]來進一步提升真實度。他們的方法完全無需人工干預,且由于匹配了源人臉的面部動作,達到了更加可接受的視覺效果。但源人臉與目標人臉差異過大時仍然缺乏足夠的真實感。Wang 等人[53]提出了一種基于主動外觀模型(active appearance mode,AAM)[54]的人臉交換框架。該方法首先利用AAM 對人臉圖像進行形狀和紋理解析得到面部區域特征,然后將源人臉與目標人臉對齊并利用泊松方程生成最終的換臉圖像。Garrido 等人[55]利用非剛性人臉跟蹤算法跟蹤源視頻與目標視頻中的人臉并標記關鍵點,然后將關鍵區域編碼為局部二值模式直方圖,通過最近鄰搜索對源幀和目標幀進行匹配。最后,根據源人臉關鍵點將目標人臉進行形變以匹配源頭部姿態,并利用泊松融合消除換臉邊界。

人臉交換的一個難題是當源人臉與目標人臉的膚色或光照存在較大差異時,會導致換臉后的圖像具有明顯的融合邊界[56]。因此為了產生逼真的人臉合成效果,確保源圖像與目標人臉區域之間邊界的無縫和自然就十分重要。平滑的邊界可以通過Alpha Matting 或像素梯度域合成技術來實現,但不同的人臉圖像通常來自不同的環境,由不同的相機在不同的條件下拍攝得到,這就使得人臉在多種視覺外觀上具有差異,包括對比度、紋理、噪聲和模糊等,而單純的圖像融合已不足以應對該需求。為了解決這一問題,Sunkavalli 等人[57]提出了圖像協調融合算法。該方法同時將源、目標與一張均勻隨機噪聲圖像分解為圖像金字塔,并迭代地使用平滑直方圖來匹配三張圖像的圖像金字塔,來對源圖像與目標圖像的紋理、噪音、對比度與模糊度進行建模。最終從金字塔系數中合成最終圖像,極大地提升了換臉邊界的真實度。Zhang 等人[58]提出了一種自適應邊界融合算法。首先通過在Lab 顏色空間中將源圖像的方差與均值調整為目標圖像的方差與均值。對于每個像素,根據其與人臉核心區域(眼、鼻、口)的距離自適應地調整兩圖像的像素融合權重,也實現了更加平滑的邊界效果。

由于基于圖像編輯的方法沒有涉及到三維人臉模型的建立,在姿態以及視角問題的處理上顯得較為薄弱。對于兩幅拍攝于不同視角或姿態的人臉圖像,進行身份交換的難度則會大大增加。同時,該類方法換臉過程是完全基于RGB 空間的操作,缺乏渲染步驟使其在光照的處理上無法比擬三維人臉模型的方法,最明顯的后果就是立體感的缺失。但基于圖像編輯的方法步驟簡單,不僅效率更高,在制定算法流程后可以不依賴過多的人工干預,而且由于人臉關鍵點檢測與圖像融合技術均較為成熟,產生極端失敗例子的可能性也更低。

2.3 基于深度學習的方法

隨著深度學習在計算機領域中的興起,大量人臉合成相關工作嘗試用深度卷積網絡,尤其是生成對抗網絡來實現人臉交換的目的。與基于三維人臉與圖像編輯技術的方法類似,基于深度學習的人臉交換同樣有較為統一的流程。但不同的是,這類方法在檢測并分割源人臉與目標人臉的待交換區域后,利用模型將源人臉的身份轉換為目標人臉(部分方法甚至可以保持源表情)。最終將轉換后的人臉粘合至源圖像上,并進行與圖像編輯方法中相同的包括邊緣融合以及光照調整等后處理,進一步增加真實性。

近幾年,以一種名為DeepFakes 為代表的基于深度學習的換臉算法大大降低了生成人臉視頻的門檻。只要有足夠的數據,任何沒有專業知識的業余人員都可以創造出人眼難辨的生成人臉圖像或視頻。這種零門檻的服務導致換臉視頻在社交媒體上廣泛傳播,不僅會嚴重破壞公眾對大眾傳媒的信任,也威脅到社會公信力、司法公正,甚至國家安全。由于DeepFakes 的出現以及其帶來的危害,基于深度學習的換臉技術引發了廣泛的熱議。文獻中習慣將DeepFakes(圖2 所示)代指基于深度學習的換臉技術,但值得注意的是,許多方法采用的是與原始DeepFakes 不同的架構。根據依賴的模型,基于深度學習的人臉交換方法主要可以分為基于自動編碼器以及基于生成對抗網絡的兩類方法。

Fig.2 Single encoder-multi decoder architecture圖2 單編碼器-多解碼器架構

2.3.1 基于自動編碼器的方法

圖2 中展示的是最早期的DeepFakes 的架構,主體是基于Y 形的單編碼器-雙解碼器架構,即一對權值共享的編碼器以及權值不共享的解碼器。在訓練過程中,首先將預先收集好的源與目標人臉進行剪裁得到不包含背景的人臉圖像塊,然后利用仿射變換將源與目標人臉圖像扭曲變形,并試圖讓兩個獨立的自動編碼器分別重建未變形的源與目標圖像。在測試階段,將源圖像輸入編碼器得到潛變量,并用目標圖像對應的解碼器進行解碼,即可得到換臉圖像[59]。然而單純的Y 型結構存在兩個問題:(1)生成的換臉圖像的分辨率有限,受到自動編碼器結構的限制,一般不超過96×96。在此架構下,過高的分辨率會導致無法實現身份的完全交換。(2)生成的換臉圖像相比于真實圖像較為模糊,由于自動編碼器以重建圖像與輸入圖像的均方誤差為優化目標,天然具有模糊性,在細節方面比較欠缺。

針對分辨率有限的問題,Naruniec 等人[8]提出了一種與原始DeepFakes 相似的共享編碼器-獨立解碼器架構,并采用步進訓練的方式逐步提高分辨率,直到將圖像的分辨率提高至1 024×1 024,這也是換臉領域首個超過百萬像素的結果。

針對圖像模糊的問題,Korshunova 等人[60]受到紋理合成與風格遷移技術[61-62]的啟發,將人臉的身份視作風格特征,將表情視作內容特征。利用多尺度紋理網絡,以一張源人臉圖像以及一組目標人臉圖像作為輸入,作者希望生成的人臉與源人臉的風格特征要盡可能相同,同時與目標人臉的內容特征也要盡可能相同。為了保證生成的人臉與源人臉具有相似的光照環境,作者在優化目標中施加了額外的光照感知損失。但該方法不涉及任何三維人臉技術,導致生成的人臉缺乏一定立體感,并且對眼鏡與頭發等遮罩十分敏感。該方法的另一個缺點在于,對新的目標人臉,同樣需要重新訓練模型。

人臉交換任務的一個難題是由于頭發或眼鏡等遮擋帶來的換臉失真。為了提升對于遮擋的魯棒性,Li等人[63]采用了額外的生成網絡去推斷被遮住的部分。該方法使用一種多級屬性編碼器,提取了更加全面的身份無關信息,并利用自適應注意力去正則化生成器將這些信息與身份特征融合,生成了更加精細的結果。類似的,Nirkin 等人[64]利用預訓練的全卷積圖像分割網絡分割出目標圖像未被遮擋的面部區域,防止換臉融合時因遮擋帶來的錯誤結果。該方法同時表明,一個逼真的人臉交換方法,并不一定要求估計人臉的三維形狀。

基于深度學習的方法借助深度生成模型的優勢,為人臉合成任務提供了新的范式。深度模型帶來了前所未有的完全自動化的換臉流程,大大降低了對于人工干預以及專業技能的需求。然而,與基于圖像編輯的方法相同,這類方法同樣具有換臉圖像融合的邊界失真問題,同時也導致了分辨率以及真實度方面的不足。針對前者,一般通過引入更加高級的模型結構,如1.2.2 小節中所介紹的相關技術能夠有效地提升生成圖像分辨率。而針對細節以及真實度的提升,則需要通過施加額外的真實性判別器或者損失函數如感知損失來實現。

2.3.2 基于生成對抗網絡的方法

生成對抗網絡在近幾年逐漸取代了自動編碼器在圖像生成領域的重要地位,在人臉交換任務中也展示出獨一無二的優勢。相比于基于自動編碼器的方法,這類方法最大進步在于借助CGAN 的形式,可以無須對每一對源與目標人臉重新訓練模型[65]。例如,Dong 等人[66]提出了一種基于CGAN 的無監督轉換模型來實現人臉交換,實現了多個人臉身份的交換。模型的訓練分為兩個步驟:(1)利用ACGAN 學習多個域之間的共享特征z,得到訓練完成的生成器。作者認為對于不同域,其中類別無關的信息應該是相似的。(2)對于固定的z以及生成器,通過改變標簽信息c來生成圖像,并作為編碼器的輸入圖像,利用均方誤差優化編碼器的輸出與z。在換臉階段,通過給定目標身份標簽,模型即能夠生成對應身份的人臉圖像,并保持源人臉的面部動作。

一些工作不僅期望提高生成圖像的質量,還希望降低對數據的依賴,如實現訓練數據外的不同身份不同角度的人臉交換。為了達到這一目的,Olszewski等人[67]首先提取源人臉與目標人臉的UV 貼圖,并將兩者進行通道疊加作為生成網絡的輸入。訓練前,他們首先構建了多人的相同面部動作數據庫,對于a、b表情下的源人臉和目標人臉分別用Sa與Tb表示。值得注意的是訓練數據中存在Sb圖像,因此優化目標除了對抗損失,還包含生成圖像與Sb的重構誤差。該方法僅需要一張目標圖像,就能夠實現對源視頻的換臉,并且能生成源視頻中不存在的口腔區域。雖然該方法面向的是視頻換臉,但缺乏時間上的約束,因此會產生閃爍等現象,且對頭部姿態的要求較高。Nirkin 等人[65]則通過用單個模型統一換臉和表情操控兩種任務,解決了側臉帶來的問題并提高了對于未知人臉的魯棒性,但該方法對于光照的處理仍然會導致一定程度的失真。

與2.3.1 小節中基于Y 形自動編碼器架構相比,基于GAN 的換臉方法也存在缺陷,即在潛空間中人臉身份信息和表情等信息是相互糾纏、并未解耦的,這就導致在改變身份的同時會干擾到其他面部特征。因此,一些基于GAN 的換臉方法嘗試將身份信息與其他信息分離[60,68]。Natsume 等人提出的FSNet(face swapping net)[69]中將身份和面部幾何信息分離,在不同的人臉方向和光照條件下達到了更好的換臉效果。Bao 等人[70]提出的IPGAN(identity and pose disentangled GAN),通過引入兩個并行的編碼網絡,也實現了將人臉和屬性分離,再利用生成器將人臉和屬性信息作為輸入合成圖像。作者使用了一個額外的判別器來衡量生成圖像身份的后驗概率來約束人臉身份。該方法對于訓練集中未出現的人臉,也能夠達到很好的效果。

3 人臉動作合成

人臉動作合成主要可以分為表情修改以及面部重演,前者通過給定的標簽對人臉表情動作進行合成,后者則利用驅動圖像/視頻中的人臉動作對源視頻中的人臉動作進行對應的修改。相比于圖像中的人臉動作合成,視頻中的人臉動作合成面臨更多難題:(1)復雜的人臉幾何形狀以及精確的形變匹配;(2)動態皮膚紋理產生的細微失真。因此像DeepFakes這樣的技術雖然能夠用來制作視頻,但由于沒有幀間一致性的約束,人臉存在著明顯的動作僵硬以及閃爍等問題。人臉重演根據驅動視頻來進行表情合成,一定程度上減緩了幀間不連續的問題,但人臉重演所依賴的三維重建以及匹配問題仍然難以優化。因此,最近的一些方法將傳統圖形學管線與深度學習相結合,借助各自的優勢一定程度上彌補了各自的瓶頸。

3.1 表情編輯

3.1.1 基于深度生成模型的方法

人臉表情編輯旨在不影響身份屬性的情況下,將給定源人臉圖像的表情轉換為目標表情。由于微妙的皮膚運動難以用圖像編輯方法來實現,傳統方法很難生成自然的面部表情。而深度生成模型在這一方面則具有明顯優勢,但深度生成模型的訓練十分依賴數據以及對應的標簽,因此在表情編輯任務中,就需要提供表征表情特征的輔助信息。這類輔助信息可以是人臉表情分類標簽的形式,如微笑、平靜、生氣或者難過等離散的標簽[71],或者連續的人臉表情特征如面部動作單元(action units,AU)來對人臉動作進行連貫描述。

Pumarola 等人[72-73]提出了一種將面部動作信息作為輔助標簽的對偶WGAN(Wasserstein GAN),將AU作為條件化標簽,來控制生成人臉的表情。并通過額外的表情分類器保證合成人臉的表情與輸入標簽的相關性。該方法利用循環一致性損失構建對偶網絡,將生成人臉復原為原始人臉圖像,保證身份不變性與生成質量。雖然循環一致性損失可以帶來逼真的結果,但由該損失訓練的網絡的目標域與輸入域存在一定偏差,無法實現漸進式的生成過程。因此Sanchez 等人[74]提出了三重一致性損失來彌補輸入域和目標域的分布之間的差異,并借助面部關鍵點實現了大幅度面部動作的合成。Pham 等人[75]也借助AU 系數,利用預訓練的AU 估計器保證生成指定的表情。Zhou 等人[76]提出了一種用于面部表情合成的條件差分對抗自編碼器(cross domain adversarial auto encoder,CDAAE),同樣結合了AU 標注。該模型通過在編碼器輸出的潛空間中加入目標表情的標簽來生成目標人臉,并通過在編解碼器中引入跳躍鏈接將表征人臉身份的低層特征與表征表情的高層特征解耦,進一步約束模型在合成表情時保證相同的人臉身份。

雖然基于AU 的方法實現了連續的表情動作操控,但依賴臉部動作編碼系統(facial action coding system,FACS),而該系統中的AU 標注仍然比較有限,難以滿足精細且全局的逼真面部表情變化。為了擺脫如AU 這種預先定義的表情監督信息,Bozorgtabar 等人[77]將面部關鍵點與源圖像作為編碼器的輸入,來提取不同圖像的共同潛在表征,然后利用解碼器實現源域到目標域上的轉換。其中,表情用獨熱碼形式的向量進行表示,在測試階段只需要更改表情表征并結合人臉的共同潛在表征即能夠合成目標人臉表情。然而該方法只能實現特定表情間的轉換,無法控制不同表情的強度。為了能夠同時擺脫對于人臉動作標注的依賴,并將表情變換推廣到訓練集外,Ding 等人[78]提出的ExprGAN(expression GAN)中除了常規的編解碼與判別器外,額外引入了表情控制器網絡來將輸入標簽轉化為描述表情強度的變量,并通過最大化生成圖像與強度變量間的互信息來保證兩者的對應關系。

基于深度生成模型的方法在缺乏足夠輔助信息的情況下,很容易陷入合成圖像分辨率低、缺乏精細細節以及模糊的窘境。雖然表情標簽可以一定程度地充當輔助信息,但大多數工作只能把表情轉換到不同的類別,而現實中的面部表情強度往往在一個較大的范圍內。如何能夠生成絲滑連續的表情變化,是人臉表情編輯需要解決的重要問題。

3.1.2 基于人臉統計模型的方法

除了基于生成對抗網絡的方法外,三維人臉模型技術由于能夠操縱模型的形變,在表情編輯中也具有一定潛力。但這類方法在編輯源人臉表情時需要一個參考目標人臉,同時如前文所述,這類方法面臨的任意多邊形模型之間的形變也是十分困難的問題之一。Pighin 等人[79]提出了一種創建三維面部紋理模型與不同模型間平滑形變過渡的技術,并使用離散插值法將通用人臉網格模型形變以匹配目標人臉模型的形狀。人臉網格模型具有相同的拓撲結構,作者對不同的面部表情標記了統一的面部特征點,使這些特征點在不同表情中均對應相同的頂點,使得僅借助線性插值法就可以得到希望的源到目標的形變。

人臉動作合成中有許多方法不借助生成對抗網絡或人臉三維模型,而是通過利用基于人臉統計模型的方法如AAM 模型(不借助其他中間模型)來對源圖像的表情進行任意動作控制[80-81]。由于表情變化不僅表現在面部運動,還表現在光照和皺紋的細微變化,但這些細節難以被三維或外觀模型所精確地捕獲。因此Liu 等人[82]提出了一種面部表情映射技術來捕捉不同人臉表情的光照變化,并與面部形狀形變同時映射到源人臉上。與基于三維模型方法中的重光照不同,作者解決了恒定光照下的幾何變形問題,合成了更有表現力的面部表情。

在實際應用中,許多人臉動作合成技術主要針對嘴型與特定語音的匹配,Bregler等人[83]通過跟蹤目標視頻中的嘴部關鍵點,并利用變形技術將嘴部動作合成到源視頻中。為了達到類似的目的,Suwajanakorn等人[84]成功利用網絡學習前總統奧巴馬的聲音特征到嘴型的映射,并實現了根據給定的音頻生成相應的奧巴馬說話片段,甚至生成了不存在的口腔區域。然而,表情是面部五官動作的全局結果,通過單一地修改局部動作往往導致該區域與其他面部區域的不兼容。為了解決這一問題,Yang 等人[85]提出了一種類光流的表情流,將目標人臉自然地進行全局扭曲,使其與修改后的局部動作兼容。該方法首先計算源圖像與目標圖像的關鍵點,根據關鍵點與三維面部表情數據集進行三維人臉重構。通過將兩個三維模型相減后投影到二維來創建期望的表情流來對源圖像進行形變。但該方法只能夠實現同一個人不同表情間的轉換。Blanz 等人[86]計算了人臉在不同表情時的三維形狀和紋理差異,并將該差異遷移到中性表情的源人臉中以實現面部動作的合成。該方法利用人臉模型的向量空間差異的可加性進行表情合成,因此需要提前計算得到各類表情與中性表情的差異值。

與基于深度模型的表情編輯方法在低維嵌入空間對人臉表情特征進行操縱不同,人臉統計模型的方法一般在RGB 像素空間對人臉圖像進行操縱。雖然這類方法不要求大規模訓練數據以及輔助信息,但往往需要目標人臉圖像作為參照,對源人臉進行轉換,無法實現完全自由的表情變化控制。

3.2 人臉重演

人臉重演與表情編輯的核心區別在于,表情編輯通過明確有限的標簽來改變目標人臉的面部動作,而人臉重演給定的是一段源人臉視頻,要求目標角色做出源人臉的面部甚至頭部動作,同時保持人臉身份不變。

3.2.1 基于圖形學的方法

如3.1.2 小節中所述,三維人臉模型技術可以通過源到目標模型的形變來實現表情編輯,因此自然地具有人臉重演的功能?;趫D形學的面部重演技術有著久遠的歷史。早在1990 年,Williams[87]就通過追蹤驅動視頻中的人臉運動與表情變化,并映射到生成的動畫角色中來實現表情操控。Vlasic 等人[27]結合多線性人臉模型,將掃描得到的人臉三維模型數據重構成數據張量,并使用N-模式奇異值分解計算面部幾何形狀及其身份和表情變化模型,從視頻中提取人臉姿態、表情和嘴型等參數,來實現人臉操控。Garrido 等人[88]設計了一種結合了單目跟蹤、逆向繪制、光照與細節估計的目標和配音演員動作映射,旨在使視頻中的人物嘴部運動與音軌相匹配。該方法利用混合變形模型將兩者的面部動作捕獲,并將驅動人臉的模型的嘴部運動遷移到源人臉模型上。Suwajanakorn 等人[89]分別從預先收集的源人臉與驅動人臉圖像中擬合出各自的平均三維模型與紋理模型。對驅動視頻中的每一幀,將其三維模型疊加到源人臉模型中并減去驅動人臉的平均模型,得到形變后的源人臉模型。與單純使用參數化模型的方法不同的是,閆衍芙等人[90]在其方法中借助了面部動作單元,利用調整后的VGG-Face 獲取24 個AU 參數,并利用該參數驅動形變模型,進而生成人臉動畫。

為了實現實時的人臉重演,Thies 等人[28]使用3DMM 從RGB-D 圖像中捕捉頭部動作,將靜態的臉變成可控制的視頻。對每一幀,該方法聯合對輸入的圖像和深度數據進行身份、表情和皮膚反射率的參數擬合并進行場景光照重建。隨后計算源表情和目標表情在參數空間中的差值,并修改源人臉相應的參數以匹配目標表情。然而該方法需要RGB-D 攝像頭來提供額外的深度信息。因此該工作在文獻[91]中被進一步擴展,作者提出了Face2Face,實現了基于單目攝像頭的實時的人臉重演。該工作解決了單目視頻中人臉三維重建身份約束不足問題,并利用魯棒變分優化聯合重建三維人臉模型參數以及渲染參數,同時使用密集光度一致性度量追蹤源視頻和目標視頻的面部表情。最終,提出了一種子空間形變遷移技術來實現對源人臉模型的扭曲。為了達到對眼球運動更加精細的控制,Thies 等人進一步提出了FaceVR[92],使用虛擬現實設備進行實時的視線提取,來輔助合成更加逼真的面部重演。作者后續又提出了HeadOn[93],與Face2Face 相比,該方法不僅實時地遷移了面部運動,還將完整的頭部姿態以及上半身的動作進行了遷移,達到了完整的人體軀干、頭部運動、表情與眼神的重演。

基于圖形學的方法在人臉重演任務中具有顯著優勢,然而當目標視頻出現張嘴或扭頭等動作時,很可能導致源視頻中不存在對應的區域,使源人臉模型形變后缺乏對應的貼圖,在渲染后出現明顯瑕疵,而常見的長發和胡子遮住臉的場景也同樣會帶來類似的挑戰[94]。人臉重演是人臉合成領域中非常具有前景的方向之一,實際應用中對實時性有很高的要求,但從二維圖像中估計三維模型再進行形變的過程非常耗時,因此往往需要借助額外的設備,如能夠獲取深度信息的特殊攝像頭。雖然降低三維人臉模型的維度能夠有效提升效率,但對人臉面部細節的表達上會產生致命影響。

3.2.2 基于深度學習的方法

基于圖形學的方法十分依賴高質量的三維人臉模型,但單目重建得到的模型通常并不完美。因此Theis 等人[95]提出了延遲神經渲染技術將圖形學與深度學習相結合。該技術對傳統UV 貼圖進行改進,對其維度進行增廣,通過訓練,使其包含更多有效信息并可以被作者所提出的一種基于U-Net 的神經渲染器渲染得到目標圖像。在Face2Face 的基礎上,該方法在人臉重演任務中可以更好地解決人臉幾何重建問題。類似的,Kim 等人[96]同樣借助深度學習模型對傳統渲染管線進行優化。對驅動視頻與源視頻進行三維人臉重建后,通過結合驅動視頻的光照身份參數與原視頻的頭部姿態、表情以及眼神參數,進行初步渲染得到神經網絡渲染器的輸入,最終利用神經網絡渲染器合成得到逼真的人臉圖像。Koujan 等人[97]提出的Head2Head 具有類似的流程。該方法首先對源視頻與驅動視頻進行人臉重建,提取歸一化的平均面部坐標與獨立的視線特征,與前一幀生成的人臉同時輸入到生成器中,保證了幀間連續性。Doukas等人[98]在Head2Head++中提出了一種新的網絡來解決三維人臉模型的歸一化平均坐標估計問題,并達到了幾乎實時的速度。

雖然引入三維模型能夠很好地解決姿態問題,但這些方法繼承了源圖像的紋理,因此無法合成驅動圖像中不存在的特征如張開的嘴。因此,Nagano等人[99]提出了PaGAN(photoreal avatar GAN),對給定的人臉圖像,該方法首先擬合對應的3DMM 模型,并將法線貼圖、中性表情與目標表情的人臉貼圖作為GAN 的輸入,合成出原本不存在的區域。該模型可以僅根據單張圖像,合成具有任意面部表情和視角的逼真視頻。

最近的一些工作嘗試使用驅動視頻對有限數量的源人臉圖像進行訓練并實現面部重演。Zakharov等人[100]提出了一種元學習GAN 架構,額外引入一個嵌入器來提取人臉姿態五官的內容向量,生成器接收目標表情的面部姿態標記作為輸入,并在生成過程中借助內容向量進行自適應實例正則化。為了達到類似的目的,Geng 等人[101]提出了一種基于面部形變的人臉重演框架。該方法首先依據驅動圖像的面部特征點對源圖像進行全局形變,并將形變的人臉圖像以及關鍵點位移圖進一步優化,補充出逼真的面部細節。隨后將優化過后的人臉推斷遮罩區域(例如閉嘴→張嘴時的牙齒部分)。最后將生成的人臉融合到變形后的圖像中。該方法僅需要一張源人臉圖像,就可以利用驅動視頻對其進行面部重演。

一些面部重演工作遵循了人臉身份合成中的思想,將人臉身份與姿態表情信息進行分離。如Whiles等人[102]提出了一種輕量級人臉重演模型Xface,實現了完全自監督的訓練方式。該模型包含一個嵌入網絡學習將源圖像映射到中立人臉的像素流,以及一個驅動網絡將驅動圖像作為輸入并編碼姿態與表情信息,以實現中立表情人臉到目標表情的轉換。Siarohin 等人[103]提出了MonkeyNet 將形態與動態信息解耦。該方法首先提取驅動圖像關鍵點,并生成運動熱圖,最終使用運動熱圖將源圖像進行形變。作者后續提出了一階運動模型[104],借助關鍵點局部仿射變換的一階近似來輔助生成密集運動場,解決了MonkeyNet 無法對關鍵點鄰域的變換進行建模的難題。

4 人臉屬性合成

人臉屬性合成技術主要對膚色、年齡、眼鏡、胡須、發色、發型等面部特定特征進行修改。人臉屬性合成方面的工作同樣具有非常悠久的歷史,在深度學習興起前,人臉屬性修改工作注重于年齡合成,尤其是面部老化[105]。隨著GAN 的出現,許多基于GAN的工作實現了對于特定屬性的修改。

2016 年,Li 等人[106]將具有相同屬性不同值的人臉圖像作為兩個不同的類,設計了一種基于GAN 的能夠保留身份信息的面部屬性轉換模型。他們的生成器包括預測待合成區域的掩模網絡以及負責圖像生成的轉換網絡,還額外增加了去噪網絡保證生成圖像的平滑性以及一個人臉識別網絡約束生成圖像中人臉的身份。同樣的,Shen 等人[107]也約束生成器只修改部分面部區域。他們的方法中,生成器負責輸出特定屬性區域的殘差圖像,與原圖相加后得到最終的生成圖像。而判別器不僅判斷圖像是否為生成,還需要判斷輸入圖像的屬性值。Kapania 等人[108]則采用了支持向量機進行屬性分類。Shen 等人[109]的方法中存在兩個相同的生成器用來執行正向修改以及反向任務,該思想在后來被形式化為循環一致性損失[110]。

以上兩種方法都只能夠修改單一的屬性,必須重新訓練模型才能修改新的屬性,因此效率較低,且只能夠合成128×128 的低分辨率圖像。He 等人[111]提出了一種AttGAN(attribute GAN),與以往工作不同的是,該方法將人臉屬性分類約束應用于生成圖像,而不是對潛在特征表示施加約束,同樣保證了源圖像到目標屬性的轉換。然而當人臉屬性復雜程度較高時,AttGAN 在屬性描述精度方面體現出明顯的劣勢,因此Liu 等人[112]提出了STGAN(selective transfer GAN),該網絡在生成器的跳接中引入了一種基于門控循環單元的遷移模塊,選擇性地將編碼器中的不同層級特征與解碼器特征互補,在提高生成質量的同時還保證了無關屬性的完整保留。為了實現更加精確的屬性轉換,Zhu 等人[113]提出了UGAN(untraceable GAN),借助額外的源分類器來區分生成圖像的源域,并決定生成器是否保留源域的特征。通過這種方式,UGAN 實現了生成圖像的不可溯源,對于目標屬性的轉換更加徹底。

為了達到多個屬性的同時轉換,Choi 等人[114]提出一種多域轉換的條件GAN,實現了同時修改多種屬性。該模型將域標簽作為輔助信息指導生成圖像,并利用額外的掩模向量來控制具有不同標簽的多個數據集。Liu 等人[115]提出的ClsGAN(classification GAN)同樣達到多屬性轉換的目的,通過引入上卷積殘差網絡來有選擇地從源圖像和目標標簽中提取信息。該方法解決了編解碼器間跳躍連接干擾屬性轉換效果的問題。Huang 等人[116]提出的IPM-Net(identity preservation makeup net)不僅實現了人臉全局上妝,同時能夠合理地保留源人臉身份,該方法將人臉身份與妝容特征解耦,并利用背景殘差限制了不必要的變化。類似的,Jin 等人[117]在妝容合成的流程中通過分層的方法將人臉結構、色彩與細節進行分離,達到了更加精細的合成效果。

雖然現有許多基于條件GAN 的人臉合成工作通過將潛在特征表達映射到對應屬性,并且實現了平滑的轉換控制,但仍然缺乏足夠的可解釋性工作。因此Shen 等人[109]提出了InterFaceGAN,作者發現GAN 學習的潛在表示實際上是線性變換后的解耦表示。根據這一發現,作者利用子空間投影來對已經耦合的一些語義進行解耦,實現了對面部屬性更加精準的操控。Qian 等人[118]提出了加性焦變分自動編碼器AF-VAE(additive focal variational auto encoder),通過幾何引導將人臉的外觀結構在潛空間中解耦,分離得到了外觀表征和結構表征,給潛變量賦予了具體的語義含義。Karras 等人[37]受到風格遷移的啟發,提出了一種基于風格特征的生成器架構,實現了高級屬性(如人臉的姿勢和身份)和隨機變化(如雀斑、頭發)的無監督分離與學習,成功生成出細節豐富的高清人臉圖形。Liu 等人[119]通過共享編碼器和解碼器卷積層中的部分權重來實現對隱空間的共享,同時利用變分自編碼器將不同域的輸入圖像和轉換圖像聯系起來,實現了多種人臉屬性的修改。Lample 等人[120]利用編碼-解碼器,通過將圖像的顯著信息與隱藏空間中的屬性值分離來進行圖像重構,并通過改變屬性值來生成不同圖像。Shu 等人[121]將人臉生成視作渲染問題,并使用GAN 從輸入圖像中創建表面法線、反照率、光照和等信息,實現了更加逼真的屬性修改。

人臉屬性合成主要依賴基于GAN 以及其他深度生成模型[122-123]的方法,然而這類模型有一個重要缺陷,即人臉的屬性特征在其潛空間是相互糾纏的,這就導致改變某些局部特征,會或多或少地影響其他面部特征。雖然通過解糾纏可以一定程度地緩解不同屬性的混疊,以實現明確的定向修改,但仍然無法緩解由于數據集引入的偏差。由于人臉屬性合成更加傾向于色彩或紋理風格的修改,對人臉形狀的影響比較微弱,這就不僅要求模型能夠實現屬性間的解糾纏,還要能夠將形狀與紋理相分離。

5 人臉生成

除以上三種人臉合成技術外,本文還總結了第四種工作,即人臉生成。與人臉合成不同的是,人臉生成不從任何已有人臉上修改而來,而是根據有限的信息或者噪聲生成真實人臉。這類工作涵蓋了更加廣泛、復雜的子類別,包括但不限于整張人臉生成、人臉超分辨率、人臉修復、文字人臉轉換以及條件化人臉生成等。

5.1 整張人臉生成

在生成現實中不存在的人臉方面,絕大多數生成對抗網絡都能夠在利用人臉數據訓練后,從噪聲生成人臉圖像。早期,生成的人臉不僅分辨率較低,大多停留在128×128 級別,且缺乏足夠的細節。隨著GAN 在架構上的創新性變革,這方面工作經歷了爆發式的進步。更高的分辨率意味著生成圖像在細節上存在不可避免的丟失,使判別器更加容易將其與真實圖像區分,導致模型難以訓練。Brock 等人[124]通過增大GAN 的規模,同時對輸入噪聲進行適當的截斷處理,將生成圖像的分辨率提高到了512。得益于PGGAN 所提出的步進訓練技術,生成的人臉圖像直接提高到了1 024 分辨率。英偉達提出的Style GAN以及其改進版[125]達到了同樣的分辨率,并解決了圖像中明顯的偽影瑕疵問題。Karnewar等人[126]借助多尺度梯度方法,也將生成人臉的分辨率提高到了1 024。

5.2 人臉超分辨率

人臉超分辨率,旨在從低分辨率輸入中生成高分辨率人臉圖像。通過提升人臉分辨率,可以促進與人臉相關的多種任務的性能,包括人臉識別、人臉解析與人臉重建等。人臉具有特殊的固定結構以及紋理特征,借助這兩種重要信息,結合深度生成模型,可以有效地針對人臉超分問題進行特殊的設計。例如,考慮到不同人臉具有相似局部結構的特點,呼延康等人[127]創造性地將圖神經網絡引入人臉超分任務,將圖結構中的結點表示為局部特征描述子,在保留空間信息的同時,更好地捕捉了局部紋理特性。許若波等人[128]認為不同人臉區域在超分重建時具有不同的重要性,因此利用獨立的GAN 對不同面部區域進行超分,并對背景進行額外的處理,最終使用融合網絡將各個GAN 的輸出組裝成高分辨率人臉圖像。Chen 等人[129]則將人臉解析圖與關鍵點作為輔助信息,讓模型在盡心超分訓練的同時保持人臉的先驗結構。

5.3 人臉修復

對人臉缺失區域的修復工作同樣可以被認為是人臉生成,這一任務旨在目標人臉圖像的缺失區域中插入符合上下文的內容。與低級圖像處理任務不同,人臉修復需要對圖像的高層次理解,不僅需要對紋理進行修復,還需要保證幾何結構的合理性。Iizuka 等人[130]利用全卷積神經網絡填充任何形狀的缺失區域的人臉圖像。Chen 等人[131]利用步進訓練方式對高分辨率人臉圖像進行修復。而Zhang 等人[132]提出了一種僅從少許區域就可以推斷出完整人臉的圖像合成方法。周華強等人[133]提出了一種多判別器循環生成對抗網絡,通過引入額外的判別器對多個尺度進行監督,產生了更精細的局部細節。蔣斌等人[134]將包含缺失的人臉圖像作為輸入,完整人臉圖像作為ground-truth,利用U-Net學習人臉的整體一致性,來修復局部的缺失區域,并引入了額外的判別器來提升修復圖像的視覺真實度。

5.4 文字人臉轉換

圖像理解或圖像標注,即通俗意義上的看圖說話,可以生成給定圖像的文本描述。與此相反的是根據給定文本描述生成相應的圖像,這類任務也是圖像生成領域的熱點之一,是多模態領域的一個分支,與人臉屬性合成類似,同樣涉及到屬性控制。Zhang 等人[135-136]提出的StackGAN 與StackGAN++通過兩個生成階段,首先根據給定的文本描述繪制出基本形狀和顏色,生成低分辨率圖像,再將其結合本文描述生成逼真的高分辨率圖像。Nasir等人[137]提出的Text2FaceGAN,將文本到人臉生成的多模態問題視作在相同的潛空間中學習人臉的文本條件分布。Chen等人[138]對文本編碼器和圖像解碼器進行同時訓練,實現了更細粒度的文本人臉圖像生成,分辨率達到了256 像素。Di等人[139]根據給定的多個屬性標簽,通過多階段生成器利用噪聲生成符合條件的人臉圖像。Bao 等人[140]提出的CVAE-GAN(conditional variational auto encoder GAN)可以根據給定身份標簽生成對應的多樣人臉圖像。Wang等人[141]提出了TTF-HD(textto-face-HD),該方法首先從噪聲中生成隨機人臉并利用解碼器提取屬性信息,然后通過優化人臉圖像屬性與目標文本所描述屬性的差異,逐步地修改人臉圖像,以生成期望的人臉。

5.5 條件化人臉生成

一些工作將人臉素描肖像或者語義分割圖作為條件信息,從中生成逼真的人臉圖像。Isola 等人[38]提出了pix2pix 模型,允許以肖像作為輸入,輸出逼真的人臉圖像。Wang 等人[39]進一步提出了pix2pixHD,以人臉語義圖作為輸入,生成最高2 048×1 024 像素的圖像。根據給定的人臉素描視頻,Lu 等人[142]通過利用GAN 學習素描人臉與真實人臉的聯合分布,將不完美的素描轉換為真實人臉,并在保證兩者相關性的同時允許外觀上的一定自由度。Sangkloy 等人[143]同樣利用GAN 實現了以稀疏的彩色素描為輸入來生成真實人臉。Kazemi 等人[144]實現了同樣的功能,并借助CycleGAN[119]擺脫了成對數據依賴問題。Chen等人[145]利用嵌入模塊從人臉草圖的不同面部區域學習獨立的特征,并使用特征映射和合成模塊對其進行融合,推斷出真實人臉。為了保證從素描視頻中生成連貫的人臉視頻,Wang 等人[146]借助輔助的幀序列生成器以及時空判別器,同時引入了光流約束來生成逼真流暢的人臉視頻。為了對人臉缺失部分進行補全,Jo 等人[147]提出了SC-FEGAN(sketch and colorface editing GAN),根據素描圖像提供的邊緣與形狀信息對真實圖像進行修復。劉昌通等人[148]將RGB 人臉圖像映射到Lab 色彩空間中,并將循環一致損失推廣為聯合一致循環損失,使不同通道單獨處理、聯合優化,保證了不同區域色彩的連續性。

6 總結與展望

深度學習技術在方法以及模型結構上的可塑性極大地推廣了人臉合成方法的可能性,將其從數字圖像處理以及三維人臉的局限中解放出來,同時也給這些傳統方法帶來了新的思路。尤其在近幾年計算機視覺技術的積累下,合成的人臉圖像或視頻在視覺效果上有了顯著的提升。在各類技術中,根據不同的人臉合成任務,所依賴的方法也顯示出不同的偏好,并且具有各自的優缺點。

人臉身份合成可以直接借助數字圖像處理技術中的圖像拼接與融合實現,因此早期的工作比較依賴這類樸素方法,并且探索了一些解決拼接失真問題的方法。然而這類方法并不能夠實現對換臉后圖像的表情控制,且在源圖像與目標圖像的膚色與姿態差異過大時會產生明顯異常的結果。借助預先收集好的數據集,通過檢索相似度最高的人臉進行交換,可以在不要求指定身份的條件下實現比較好的視覺效果,且時間消耗很低。因此可以用于一些要求保護人物隱私,且對于真實度要求不高但要求高效性的應用。為了保證源人臉與目標人臉五官形狀與肌膚在具有顯著差異的條件下換臉結果的真實度,可以引入主動形狀以及紋理模型等二維面部結構建模方法來迭代地對目標人臉進行調整,匹配源圖像中的人臉形狀,使其與頭部輪廓相符合。而基于三維人臉的方法由于引入了渲染與重光照步驟,故表現出了對光照更強的魯棒性,且具有更強的立體感。但從二維圖像中估計三維人臉是一個病態的問題,過大的偏差同樣會造成換臉后的失真。深度學習中生成模型的介入則帶來了更多思路,并借助逼真的生成能力對以往難以解決的遮擋問題提出了可靠的方案。這類方法通常遵循著編碼器-解碼器網絡的架構,將身份特征與其他特征解耦,因此在換臉的同時能夠保持目標人臉的原有表情。越來越多的工作在此架構的基礎上進行了大量的改進,由于早期工作對于任何一對源-目標人臉的交換都需要重新訓練得到特有模型,多人臉交換以及更高分辨率的圖像生成是目前該領域中的一個熱點問題。

在人臉動作合成方面,由于涉及到面部形狀與結構變化,與身份合成相比,基于圖形學的方法占據了更多的比重。其中大多數方法通過目標至源人臉模型的形變來對源人臉進行驅動,利用已有人臉作為驅動的優勢在于能夠保證幀間的連貫性,且無需手動控制不同幀之間的表情變化幅度。研究者不斷對人臉模型擬合以及形變匹配方法進行優化改良,在精度和時間消耗方面都取得了顯著的進步,目前已經達到了實時的人臉重演。而深度學習在這一領域能夠借助面部動作的抽象表征來實現表情的平滑控制,在一定程度上緩解了模型對數據集的過度依賴,不僅能利用驅動視頻實現人臉重演,甚至對單張圖像也能夠合成出平滑連貫的動作視頻。深度學習模型還實現了對傳統圖形學方法管線的優化,例如對不完美的人臉貼圖進行修補,一定程度緩解了三維人臉重建中的固有缺陷。

人臉屬性合成方面的研究非常依賴生成模型的發展,并且大多數方法通過將身份與面部屬性特征解耦,在合成新屬性的同時最大化保留了原始特征。然而,依賴生成模型的方法在編輯人臉屬性的過程中實質是在給定人臉的基礎上進行重新生成,當身份特征與屬性特征解耦程度有所欠缺時,所生成人臉的身份特征極易被擾動,從而產生與原始人臉無法控制的偏差。類似的,當期望編輯單個人臉屬性時,許多方法往往會對其他屬性產生擾動。例如對人臉進行性別編輯時,對膚色或年齡等特征產生顯著的影響。這類問題一般是由于訓練數據的特性所引起,當數據集中的各個人臉屬性間存在普遍的聯系,如男性人臉常常包含胡須,而女性人臉一般不包含胡須,就會導致性別編輯過程中對胡須這一屬性的影響。為了解決該問題,一個行之有效的方案是引入注意力機制,利用與目標屬性相關區域的掩膜來約束人臉生成過程。當期望同時編輯多個屬性時,則不僅要解決這種干擾問題,還需要實現對于屬性的標簽化以及控制。雖然條件化GAN 已經可以實現定向的屬性修改,但同樣十分依賴數據集中的給定的有限的標簽,且對于某種屬性難以實現進一步的細化控制,例如顏色深淺與形狀的控制。

人臉生成包含多種多樣的任務形式,但在如今深度學習的浪潮下,總體而言比較依賴深度生成模型。對于整張人臉生成,生成圖像的效果幾乎完全依賴于現有的生成模型的技術水平,但對于人臉超分辨率這樣的任務而言,由于人臉具有固定的拓撲結構且主要以細微紋理為主,因此和一般自然圖像的超分辨率顯著不同。直觀而言,通過引入人臉特有的先驗如面部結構作為輔助信息能大大縮減模型的搜索空間,提升生成圖像的視覺效果。與人臉超分類似,人臉修復具有重要實際價值的應用,雖然不要求輔助信息,但期望模型能夠學習上下文信息,同時捕捉高層的幾何結構以及低層的紋理模式。對于藝術化、條件化等生成任務而言,關鍵問題是如何徹底擺脫大規模的成對數據依賴,為此,半監督或無監督學習是有望給這一問題帶來解決方案的新思路。

7 結束語

人臉合成由于其較高的應用價值,一直以來吸引著眾多研究者的開發與探索,加之近年來深度學習在計算機視覺方面的飛速增長,各類新框架與技術層出不窮,持續推動著該領域的發展。本文系統地回顧了人臉合成領域的工作,對各類方法及其優缺點進行了總結,梳理了多個子領域中的最新進展。現如今,人臉合成技術已經初步達到了實際應用的水準,自動化的逼真人臉合成效果能夠顯著節約人力成本以及為用戶提供個性化的服務。然而,這一領域仍然存在諸多問題,如深度學習所帶來的過度數據依賴問題始終沒有被完全解決。本文在歸納領域內普遍難題的同時,展示了一些現有的解決方案,并且總結了人臉合成在未來發展過程中具有潛力的研究方向。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 本亚洲精品网站| 欧美不卡在线视频| 精品久久久久久成人AV| 免费观看无遮挡www的小视频| 色九九视频| 欧美日韩午夜| 日本道中文字幕久久一区| 中文字幕永久视频| 日本在线欧美在线| 九九九精品视频| 亚洲欧美日韩中文字幕在线一区| 婷婷色狠狠干| 中文成人在线| 无码专区在线观看| 久久青草视频| 欧美第二区| 午夜一级做a爰片久久毛片| 亚洲欧美另类日本| 99久久精彩视频| 99久久国产自偷自偷免费一区| 热久久综合这里只有精品电影| 一区二区三区四区精品视频| 国产69精品久久久久妇女| 国产v欧美v日韩v综合精品| 色婷婷国产精品视频| 永久成人无码激情视频免费| 99精品视频九九精品| 欧洲日本亚洲中文字幕| 精品在线免费播放| 日韩欧美国产中文| 久久人人爽人人爽人人片aV东京热 | 国产福利一区二区在线观看| 国产门事件在线| 国产在线无码av完整版在线观看| 51国产偷自视频区视频手机观看| 九九久久精品免费观看| 国产精品久久久久久久久| 午夜激情婷婷| 色综合久久无码网| 热久久这里是精品6免费观看| 热久久综合这里只有精品电影| 免费av一区二区三区在线| 91精品国产无线乱码在线| 九九热免费在线视频| 日韩欧美中文字幕在线精品| 一级毛片在线播放免费| 亚洲成人福利网站| 久久精品国产999大香线焦| 91精品久久久无码中文字幕vr| www.精品国产| 九色视频在线免费观看| 国产无码网站在线观看| 久99久热只有精品国产15| 尤物国产在线| yy6080理论大片一级久久| 亚洲天堂日韩av电影| 免费看黄片一区二区三区| 免费看美女毛片| 91青草视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 天天综合网在线| 99re66精品视频在线观看| 国产91色| 91综合色区亚洲熟妇p| 成人精品视频一区二区在线| 亚洲天堂网视频| 亚洲人成影视在线观看| 国产噜噜在线视频观看| 国产激情无码一区二区三区免费| 久久黄色一级片| 亚洲男人在线天堂| 午夜视频在线观看免费网站 | 999国产精品永久免费视频精品久久| 中文字幕资源站| 大学生久久香蕉国产线观看| 亚洲制服丝袜第一页| 欧美一区二区三区香蕉视| 欧美日韩中文国产| 亚洲无码不卡网| 免费毛片在线| 99国产精品一区二区| h视频在线观看网站|