郭迎春 閆帥帥 劉依



摘要 針對目前表情生成網絡中存在的人臉表情失真、不同幀間圖像明暗差異明顯的問題,提出一種基于遞歸雙對抗網絡模型的人臉表情生成框架。首先通過提取深度人臉特征并生成表情特征圖,將其作為監督信號,生成人臉表情種子圖像;然后使用生成的種子圖像和原始目標人臉一起作為輸入,生成特征保持圖像,作為當前幀的輸出,同時該特征保持圖像也作為下一幀種子圖像生成的輸入;最后,將種子圖像生成網絡和特征保持圖像生成網絡遞歸進行下一幀圖像的生成,多次遞歸得到與原始輸入表情一致的特征保持人臉表情視頻序列。在CK+和MMI數據庫上的實驗結果表明,提出的方法能夠生成清晰自然的人臉表情視頻幀,且在目標人臉形狀和驅動的表情特征圖像有較大形狀差異時具有魯棒性。
關 鍵 詞 生成對抗;深度學習;表情動畫;表情生成;雙模型
中圖分類號 TP391? ? ?文獻標志碼 A
Abstract Aiming at the problem of facial distortion of animated video generated in current facial expression generation network and large differences of light between different frames, a recursive facial expression synthesis framework based on dual network model is proposed. Firstly, deep facial features are extracted to construct facial feature maps, which are used as supervisory signals to generate seed images of facial expressions. Then, the generated seed images together with the original target faces are used as the input information to generate feature-preserving images as the output of the current frame, and also the output feature-preserving image is used as the input of the next seed image generation. Finally the next frame image is generated recursively to synthesize the facial expression sequence which features consistent with the original input expression. Experimental results on CK+ and MMI database show that the proposed method can generate clear and naturai seed image and feature-preserving image, and it is robust when there is a large difference between the shape of the target face and the shape of the driven facial expression image.
Key words GAN; deep neural network; facial animation; expression generation; dual model
0 引言
人臉表情生成是指將人臉表情從源對象遷移到目標對象,新合成的目標對象人臉圖像保持不變,但是其表情與源對象一致,這種技術在影視動畫、視頻游戲、社交娛樂等領域的應用非常廣泛[1-2]。隨著面部表情遷移技術的發展,虛擬現實、情感互動、人工智能等領域的應用日益廣泛,人臉表情生成引起了大量計算機圖形學和計算機視覺領域的相關人員的研究興趣。
過去幾十年來研究人員提出了大量的人臉表情生成的方法,現有的方法可以根據像素的操作分為兩大類,分別是基于圖形學的方法和基于圖像的方法[3]?;趫D形學的方法通常使用一個參數模型,將源對象圖像參數化到模型參數中,使用模型進行表情圖像的生成。如:使用RGB-D深度攝像機進行人臉捕捉和追蹤及人臉特征點定位、3D重建[4-5]來進行人臉表情的生成。人臉表情的獲取和自動化建模在人臉表情生成中占有重要地位。Ekman等[6]將人臉分為不同的表情動作單元(Action Unit, AU),將不同的AU進行組合形成固定的表情合成模版,這就是經典的面部編解碼系統(Facial Action Coding System, FACS)。其后Eisert[7]提出通過建立參數模型編碼,使用68個表情動作參數(Facial Action Parameters, FAPs)定義人臉不同的參數,改變這些參數的大小可以產生不同的表情。 Bickel等[8]使用不同顏色的標記點對表演者面部進行標記,使用相機陣列分別采集不同尺度的表情數據。Cao等[9]通過定義一個三維參數可變形模型(3D morphable models,3DMM) [10] ,對普通攝像頭捕捉到的人臉進行表情參數回歸,再對三維模型進行變形和渲染,從而得到人臉表情圖像。由于這些方法大多使用參數模型進行擬合,需要復雜的模型和參數設計,通常不具備泛化性,而且極少開源。通過基于二維圖像擬合三維模型的相關技術[9]的出現在一定程度上解決了傳統方法需要過于笨重設備的問題[11-12],但同樣存在模型復雜、實現困難的問題。
[ψ1]網絡結構如圖3所示,對于人臉表情特征圖像[B],使用多個卷積和池化層提取深度特征,表情特征圖像提取器用于提取輸入人臉的表情信息,在圖像重建中作為監督信息,相對來說其所包含信息量較少,為了降低網絡的參數量,提高系統運行速度,應適當縮減其特征提取器的深度。
對于目標人臉圖像[S]的特征提取器,由于人臉目標圖像在生成人臉表情動畫中提供了紋理和個體特征,因此人臉目標圖像特征提取和特征解碼需要對人臉的細節進行更多保留,增加人臉圖像[S]的編碼器網絡深度,提取圖像中更高層級的特征;使用跳躍連接,將低級圖像紋理特征進行保留,人臉特征圖像和目標人臉分別同時進行特征跨層連接,最終在解碼器階段融合更多信息,提高圖像精細度。
如圖4所示,在[ψ2]中使用了對等的兩個輸入,其一為[ψ1]輸出的種子圖像[O1],另一輸入為原始的目標人臉圖像[S],因此在[ψ2]中使用了兩個相同結構的特征提取器,但不共享參數。在解碼階段,添加更多地跳躍連接。另外,[ψ2]判別器中使用分類能力更強的VGG網絡,增強型的判別器使得[ψ2]能夠分辨生成圖像和真實圖像間更加微小的區別。由于更強的判別器導致生成網絡更加難以訓練,因此訓練[ψ2]時,將部分[ψ1]網絡參數在[ψ2]中共享。
1.3.2 遞歸生成視頻幀
在基于深度學習的人臉表情相關文獻中沒有考慮生成視頻中不同幀之間的一致性[3,15,17-18,23],大多數僅僅針對單張圖形進行生成,雖然靜態的圖像生成已經達到了十分精細逼真的效果,但是一旦進行視頻的相關生成,就會暴露出生成不同圖像幀的明暗差異大的問題,即有些幀比較亮,有些幀比較暗,存在分布不均勻的問題,導致在視頻播放的時候會出現閃爍、視頻真實性下降。本文提出的遞歸生成方法,利用種子圖像生成網絡獲得表情種子圖像,再使用特征保持網絡進行特征保持圖像的生成,然后,使用生成的特征保持圖像作為新一幀的輸入進行遞歸生成。最終使所有的視頻幀顏色、亮度和紋理更加統一,生成的視頻更加真實自然。
使用兩個網絡對人臉進行分別生成,首先由[ψ1]進行人臉的種子圖像生成,然后使用[ψ2]對生成的圖像進一步優化遞歸生成,獲得人臉特征保持的輸出圖像。在遞歸生成時,設輸入的驅動圖像幀序列為[B],其對應的第[i]幀驅動圖像為[bi],目標人臉圖像為[S],如圖5所示,為遞歸生成的流程。由[ψ1]進行人臉表情的種子[O11]圖像生成。[O11]將作為[ψ2]的輸入,同時,目標人臉[S]也將作為[ψ2]的輸入,獲得第一幀人臉的特征保持圖像[O12]并進行輸出;接著進行第二幀人臉邊界序列[B2]的輸入,將第一幀最終輸出的特征保持圖像[O12]和第二幀對應的人臉特征圖像[B2]作為[ψ1]輸入,進行第二幀種子圖像[O21]的生成,然后由[O21]和目標圖像[S]的進行第二幀特征保持圖像[O22]生成,作為第二幀的輸出。以此循環,遞歸生成所有表情幀的輸出如式(1)和式(2)所示:
2 實驗結果與分析
2.1 數據集和模型訓練
網絡的訓練和測試均使用CK+和MMI數據集,二者均提供人物表情的視頻數據。本文選取圖像數據集分別來自CK+和MMI數據集視頻中獲取的圖像幀。其中CK+數據集包括123個人,593個圖像序列,每個圖像序列的最后一幀都有動作單元的標簽,而在這593個圖像序列中,有327個序列有表情的表情標簽;MMI數據集包含超過2 900個視頻和75個人的高分辨率靜止圖像。其完全注釋了視頻中的所有人物的表情動作單元(AU),并且在視頻幀級別上進行部分編碼。
2.1.1 預處理
本文使用的數據集包括了豐富的場景,數據集為視頻的形式。因此截取視頻幀并生成對應數量不定的視頻幀圖像。使用Dlib機器學習庫對每一張圖像中的人臉進行檢測和裁切,并提取每張人臉中68個特征點,將其轉化為人臉特征圖像。如圖6所示,對于數據庫中的一個表情視頻片段,將其截取為僅含人臉部位的圖像,然后獲取特征點,并構造表情特征圖像。
2.1.2 訓練細節
在CK+數據集中,隨機選取80個人的全部視頻數據進行訓練,組成超過200 000對訓練數據。對[ψ1]和ψ2分別進行了訓練,在對[ψ1]的訓練中,選取大小為64的batch size,迭代訓練200 000次。訓練[ψ2]使用了同樣的數據,batch size大小設定為64,迭代訓練100 000次。在使用MMI數據集時,使用在CK+數據集上訓練得到的模型參數進行微調,使用隨機的50個人的全部視頻數據進行訓練。測試集中使用CK+數據集剩余的43個人的全部視頻數據和MMI數據集剩余的25個人的全部視頻數據。
由于傳統生成對抗損失函數中使用對數函數和JS距離,容易導致訓練過程中的梯度消失的問題,文獻[24]中通過使用不帶動量的優化器訓練,并對更新后的權重強制截斷到一定范圍內,以滿足其中提到的lipschitz連續性條件,并且使用不帶動量的優化如RMSprop,并將權重截斷到[-0.01,0.01]之間,避免梯度消失問題,本文使用相同的策略。
2.2 圖像生成效果
為了驗證本文方法的人臉表情生成效果,這里與目前主流的基于生成對抗的人臉表情生成方法進行了比較,主要的對比方法有CycleGAN、GeneGAN和GeometryGAN。對于CycleGAN,本文依據作者的文獻實現其代碼進行實驗。如圖7所示,最上面一行為輸入的原始人臉表情圖像,對其進行表情圖像的生成。本文使用了4種方法進行驗證,分別為CycleGAN、GeneGAN、GeometryGAN及本文提出的對抗方法。從圖中可以看到,CycleGAN和GeneGAN生成的圖像模糊不清,并且出現人物失真和變形的問題,這是由于沒有使用特征歸一化或者特征轉換器進行特征的重組。相比GeometryGAN,本文方法生成的人臉表情圖像更加清晰,達到最好的效果。
2.3 人臉特征圖比較
如圖8所示,圖8a)~d)分別為兩個不同臉型的人臉使用對方的人臉特征圖像生成的人臉表情幀。圖8a)和圖8b)為使用帶有下巴包圍框的特征圖像作為監督信息生成的人臉表情圖,圖8c)和8d)為不帶有下巴邊界框的特征圖像作為監督信息生成的人臉表情圖像,從圖中可以出,本文提出的方法能夠達到在人臉圖像生成時保持原始輸入人臉特征的效果,且本文方法構造簡單,易于理解。在網絡訓練過程中也發現,由于減少了冗余信息,不使用帶有下巴包圍線的特征圖能夠使模型更快地收斂。
2.4 表情圖像幀生成效果
本文提出的方法能夠生成真實性高的人臉表情視頻幀,在使用英偉達GTX1080Ti顯卡的主機上能夠實時生成人臉表情圖像。本文對生成的視頻幀進行了充分的驗證,首先是表情的遷移。使用了未包含在視頻訓練數據集中的數據,提取表情特征圖,然后使用表情特征圖驅動目標人臉生成人臉表情圖像幀。如圖9所示,對生成的視頻幀的連續性進行了實驗,測試輸出完整流暢的視頻幀。對不同的人臉,包括彩色和黑白的人臉進行生成,對不同臉型的人使用同一個人臉表情特征圖進行生成,生成了的圖像具有較高的真實性。
3 結論
本文提出基于深度學習的遞歸生成人臉表情動畫方法,使用兩個生成網絡遞歸生成人臉表情圖像幀。首先通過對抗網絡生成含有驅動人臉表情信息的種子圖像,將其用于生成輸入人臉的特征保持幀。在表情動畫中,通過將前序幀的輸出作為下一幀的輸入進行遞歸生成,能夠生成平滑過渡的圖像幀。在每個網絡中,特征提取層和重建層使用跳躍連接。實驗證明本文提出的方法能夠生成精確的、平滑的人臉表情動畫,解決了傳統方法模型復雜、操作困難等問題,同時使用簡單的表情特征優化方法,提高了系統運行效率。未來,在對應的圖像上使用聲音作為一個附加,使用生成網絡完成對圖像幀和語音的同時生成,使用聲音和圖像進行相互促進,提升生成圖像的精度。
參考文獻:
[1]? ? 蒲倩. 人臉表情遷移與分析方法研究[D]. 西安:西安電子科技大學,2014.
[2]? ? 萬賢美,金小剛. 真實感3D人臉表情合成技術研究進展[J]. 計算機輔助設計與圖形學學報,2014,26(2):167-178.
[3]? ? SONG L X,LU Z H,HE R,et al. Geometry guided adversarial facial expression synthesis[C]//2018 ACM Multimedia Conference on Multimedia Conference - MM '18. New York:ACM Press,2018:627-635.
[4]? ? BEELER T,BRADLEY D,ZIMMER H,et al. Improved reconstruction of deforming surfaces by cancelling ambient occlusion[J]. European Conference on Computer Vision,2012,2012:30-43. .
[5]? ? BRADLEY D,HEIDRICH W,POPA T,et al. High resolution passive facial performance capture[J]. ACM Transactions on Graphics,2010,29(4):1-10.
[6]? ? EKMAN P,FRIESEN W V,O'SULLIVAN M,et al. Universals and cultural differences in the judgments of facial expressions of emotion[J]. Journal of Personality and Social Psychology,1987,53(4):712-717.
[7]? ? EISERT P. MPEG-4 facial animation in video analysis and synthesis[J]. International Journal of Imaging Systems and Technology,2003,13(5):245-256.
[8]? ? BICKEL B,BOTSCH M,ANGST R,et al. Multi-scale capture of facial geometry and motion[J]. ACM Transactions on Graphics,2007,26(3):33.
[9]? ? CAO C,WENG Y L,LIN S,et al. 3D shape regression for real-time facial animation[J]. ACM Transactions on Graphics,2013,32(4):1.
[10]? BLANZ V,VETTER T. A morphable model for the synthesis of 3D faces[C]//Proceedings of the 26th Annual Conference on Computer Graphics and Interactive Techniques-SIGGRAPH '99. New York:ACM Press,1999:187-194.
[11]? CAO C,WU H Z,WENG Y L,et al. Real-time facial animation with image-based dynamic avatars[J]. ACM Transactions on Graphics,2016,35(4):1-12.
[12]? WENG Y L,CAO C,HOU Q M,et al. Real-time facial animation on mobile devices[J]. Graphical Models,2014,76(3):172-179.
[13]? GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems,2014:2672-2680.
[14]? LU Y,TAI Y W,TANG C K. Conditional cyclegan for attribute guided face image generation[EB/OL]. 2017:arXiv preprint arXiv:1705. 09966 [cs. CV]. https://arxiv. org/abs/1705. 09966.
[15]? DING H,SRICHARAN K,CHELLAPPA R. ExprGAN:facial expression editing with controllable expression intensity[EB/OL]. 2017:arXiv:1709. 03842[cs. CV]. https://arxiv. org/abs/1709. 03842.
[16]? LIU Z L,SONG G X,CAI J F,et al. Conditional adversarial synthesis of 3D facial action units[J]. Neurocomputing,2019,355:200-208.
[17]? WU W,ZHANG Y X,LI C,et al. ReenactGAN:learning to reenact faces via boundary transfer[J]. Computer Vision-ECCV 2018,2018:622-638.
[18]? QIAO F C,YAO N M,JIAO Z R,et al. Geometry-contrastive GAN for facial expression transfer[EB/OL]. 2018:arXiv:1802. 01822[cs. CV]. https://arxiv. org/abs/1802. 01822.
[19]? PANDZIC I S,FORCHHEIMER R. MPEG-4 facial animation:the standard,implementation and applications[M].? John Wiley & Sons,2003.
[20]? KING D E. Dlib-ml:A Machine Learning Toolkit[J]. Journal of Machine Learning Research,2009,10:1755-1758.
[21]? RONNEBERGER O,FISCHER P,BROX T. U-net:convolutional networks for biomedical image segmentation[J]. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015,2015:234-241.
[22]? MA L,JIA X,SUN Q,et al. Pose guided person image generation[C]//Advances in Neural Information Processing Systems,2017:406-416.
[23]? ZHOU S C,XIAO T H,YANG Y,et al. Genegan:learning object transfiguration and object subspace from unpaired data[C]// Procedings of the British Machine Vision Conference 2017. London,UK:British Machine Vision Association,2017.
[24]? ARJOVSKY M,CHINTALA S,BOTTOU L. Wasserstein gan[J/OL]. 2017:arXiv preprint arXiv:. 07875[cs. CV]. https://arxiv. org/pdf/1701. 07875. pdf.