999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合音頻內容、風格和情感特征的人臉動畫生成方法

2025-02-28 00:00:00張欣茹朱欣娟高全力
計算機應用研究 2025年2期

摘 要:現(xiàn)有的音頻驅動人臉動畫技術主要注重唇部運動與音頻的同步性,忽略了對人物面部表情或頭部運動的再現(xiàn)能力。為此,提出了一種融合音頻內容、風格和情感特征的高質量人臉動畫生成方法(ACSEF)。首先,設計了情感動畫模塊(EAM),從音頻中提取隱含的情感輔助特征來估計更加準確的面部情感標志位移,然后與語音內容和說話者風格動畫的面部地標位移進行融合,提高landmarks(面部地標)預測的準確性和生動性。其次,設計了一個基于U-Net模型的注意力增強解碼器(AADU),使得估計的地標與圖像最終解碼為逼真的包含唇音同步、頭部運動和面部表情的理想視頻幀。實驗表明,該方法既能增強面部情感表達,又可使圖像更加清晰,效果優(yōu)于對比基線模型。

關鍵詞:音頻驅動;人臉動畫;情感動畫模塊;注意力增強解碼器

中圖分類號:TP391.41 文獻標志碼:A 文章編號:1001-3695(2025)02-044-0636-05

doi:10.19734/j.issn.1001-3695.2024.04.0168

Facial animation generation method integrating audio content,

style,and emotional features

Zhang Xinrua,b,c,Zhu Xinjuana,b,c,Gao Quanlia,b,c

(a.School of Computer Science,b.Shaanxi Key Laboratory of Clothing Intelligence,c.State-Province Joint Engineering amp; Research Center of Advanced Networking amp; Intelligent Information Services,Xi’an Polytechnic University,Xi’an 710048,China)

Abstract:Existing audio-driven facial animation techniques primarily focus on synchronizing lip movements with audio,while neglecting the capability to reproduce facial expressions or head movements of the characters.Therefore,this paper proposed a high-quality facial animation generation method that integrated audio content,style,and emotional features (ACSEF).Firstly,this method designed an emotional animation module (EAM) to extract implicit emotional features from the audio to estimate more accurate facial emotional landmark displacements.And this module fused these with the facial landmark displacements of speech content and speaker style animation to improve the accuracy and vividness of predicting landmarks.Secondly,this method designed an attention-augmented decoder based on U-Net (AADU) to decode the estimated landmarks and images into realistic ideal video frames containing lip sync,head movements,and facial expressions.Experiments show that this method can both enhance facial emotional expression and make the image clearer,and the effect is better than the baseline model.

Key words:audio driver;facial animation;emotional animation module;attention-augmented decoder

0 引言

音頻驅動的人臉動畫技術在電影制作[1、視頻帶寬縮減2、虛擬化身動畫3、視頻會議4,5等多種應用場景中發(fā)揮著非常重要的作用。根據(jù)之前的研究工作[6,7,理想逼真的談話頭部視頻應滿足以下要求,即:a)視頻身份需要與目標人物一致;b)嘴唇動作需要與音頻內容同步;c)視頻應該具有自然的面部表情和頭部動作。

目前,已經(jīng)有很多音頻驅動的人臉動畫生成方法可以滿足前兩點要求,例如經(jīng)典方法Wav2Lip[8。音頻是一種豐富的生物特征信號,其中包含有關說話者的風格、性別和情緒狀態(tài)的信息。然而,Wav2Lip沒有考慮頭部運動和面部表情與音頻信息之間的協(xié)調性和一致性的問題。為此,有研究者提出了可以生成帶有表情或頭部控制的談話視頻方法。例如:在表情控制方面,文獻[9,10]中添加了眨眼動作,通過合成方法來提高頭部視頻逼真度,但結果仍存在面部肌肉僵硬的問題。Wang等人[112023年提出了一種基于記憶共享和注意力增強網(wǎng)絡的情感談話頭部模型(memory-sharing and attention-augmented network,MSAAN),該模型主要針對不同情感下的唇音同步,最終可以生成具有多種情感的談話頭部視頻,但該模型不適用于任意目標人物,且輸入圖片的情感要與音頻情感一致。在頭部控制方面,MakeItTalk[12提出了唇部和頭部運動融合的最經(jīng)典方法,該方法可以生成任意目標人物擁有輕微頭部運動的視頻,但是頭部運動存在視頻模糊的問題。生成視頻能夠同時滿足三個要求的理想逼真談話頭部視頻方法鮮有報道。

音頻驅動的人臉動畫生成技術是多模態(tài)生成任務,要實現(xiàn)音頻聽覺信息與視覺信息之間的映射,其主要分為從音頻到人臉特征的映射和臉部圖像生成兩個階段。從音頻中提取人臉的特征信息主要分為以下兩種方式:一種是直接采用卷積神經(jīng)網(wǎng)絡生成相應特征信息的談話頭部視頻,即端到端映射[8,13~16;另一種是通過音頻預測出面部地標,再對面部地標進行解碼生成談話頭部視頻,即基于面部地標解碼11,12,17,18。人臉動畫生成相關方法如表1所示。

通過表1可以觀察出,在端到端的人臉動畫生成方法中,如果想生成理想的談話頭部視頻幀,大部分模型[8,14~16的輸入都是多個視頻幀,這樣的驅動方式會受到帶寬和成本的限制,不適用于諸如帶寬受限的視頻會議和成本高昂的視頻制作等特定應用領域。基于面部地標的人臉動畫生成方法已經(jīng)可以精準地實現(xiàn)唇音同步17,且在此基礎上生成面部表情11,18或頭部運動的方法12都取得了一些顯著的成果,但是生成既有面部表情又有頭部運動的方法較少。同時,為了更好地體現(xiàn)目標人物的面部表情,本文需要通過高保真地渲染目標人物的皮膚紋理來提高視頻質量,文獻[11,12,18]的方法雖然在一定程度上提高了視頻的質量,但是在人物情感的渲染方面仍有待增強。

基于上述問題,本文提出了一種融合音頻內容、風格和情感特征的高質量人臉動畫生成方法(integrate audio content,style,and emotional features,ACSEF),該方法在保證唇部運動、頭部運動和面部表情與音頻一致的同時,更好地渲染出目標人物的詳細皮膚紋理,解決了視頻質量和情緒表現(xiàn)力不佳的問題。ACSEF的具體實現(xiàn)可分為兩個階段,第一階段,構建情感動畫模塊(emotion animation module,EAM)獲得預測的面部地標,進一步提高預測地標的準確性和生動性。由于音頻中的情緒信息與面部表情密切相關,所以需要準確地提取隱藏在音頻中的情感特征作為輔助信息。本文通過采用交叉重構情感解糾纏技術[18來訓練提取情感輔助特征的情感編碼器,使用遞歸網(wǎng)絡構建情感動畫網(wǎng)絡來實現(xiàn)情感特征和面部地標之間的映射關系,采用最小化損失函數(shù)來不斷優(yōu)化模型。第二階段,構建基于U-Net的注意力增強解碼器(attention-augmented decoder based on U-Net,AADU)對預測的面部地標進行解碼,用來生成逼真的談話頭部視頻。該解碼器旨在通過關注解碼中的重要信息以及抑制來自編碼特征的不必要信息來增強特征的表示能力,減少有用信息的損失,提高視頻圖像質量,以保持更多細節(jié),如目標人物復雜的皮膚紋理和面部陰影。

綜上所述,本文的主要貢獻如下:

a)提出了情感動畫模塊(EAM),該模塊提高預測地標的準確性,以及頭部運動和面部表情與音頻之間的協(xié)調性。

b)提出了一種基于U-Net的注意力增強解碼器(AADU),用于生成逼真、高質量的理想視頻幀。

c)本文借鑒MakeItTalk中的部分模塊,并合理地與EAM和AADU模塊進行整合,構成一種融合音頻內容、風格和情感特征的高質量人臉動畫生成方法(ACSEF)。在MEAD數(shù)據(jù)集上進行的多組對比實驗結果表明,ACSEF可以生成高質量的理想逼真的談話頭部視頻,效果顯著優(yōu)于以往的工作。

1 本文方法

1.1 方法概覽

ACSEF方法的主要目標是給定一段說話音頻和一張面部圖像,最終生成高質量談話頭部視頻,該視頻保證唇部運動、頭部運動和面部表情與音頻一致。圖1為ACSEF結構,包含語音內容動畫、說話者風格動畫、EAM和AADU四個主要模塊。首先,對給定的說話音頻進行預處理。其次,將處理后的數(shù)個音頻片段輸入內容、說話者風格和情感編碼器,分別得到內容、說話者風格和情感嵌入特征,該特征的大小分別為80、256和128。然后通過語音內容、說話者風格和情感動畫網(wǎng)絡分別得到面部相應位置的3D靜態(tài)地標的相對位移。接著,將得到的3D靜態(tài)地標相對位移與標準的人臉地標進行相加融合,獲得預測的landmarks視頻幀。最后,將預測的landmarks視頻幀和目標人物的面部圖像作為AADU模塊的輸入,最終輸出該目標人物高保真的談話頭部視頻。

MakeItTalk是融合說話者內容和風格的經(jīng)典方法,但是生成的談話頭部視頻缺乏面部表情,而在觀眾觀看視頻時,人物面部表情和面部紋理的變化對情感表達有著十分重要的影響。因此ACSEF借鑒MakeItTalk中的語音內容動畫和說話者風格動畫這兩個模塊(圖1中藍色虛框)(參見電子版),且在此基礎上添加了EAM和AADU(圖1中紅色虛框)來提高觀眾的體驗感,加強情感表達。語音內容動畫模塊的主要作用是從音頻中提取內容特征,接著通過語音內容動畫網(wǎng)絡獲得3D靜態(tài)地標的相對位移;說話者風格動畫模塊的主要作用是從音頻中提取內容和風格特征,接著通過說話者風格動畫網(wǎng)絡獲得3D靜態(tài)地標的相對位移。EAM的主要目的是從音頻中提取情感特征,接著通過情感動畫網(wǎng)絡獲得3D靜態(tài)地標的相對位移,最終得到預測的landmarks視頻幀。該模塊提高了預測地標的準確性,以及頭部運動和面部表情與音頻之間的協(xié)調性。AADU的主要目的是將預測的landmarks視頻幀和目標人臉圖像作為輸入,生成該目標人物既有頭部運動又有情感的談話頭部視頻幀。該模塊提高了生成視頻的質量,使得輸出的圖像能保持更多的細節(jié),如目標人物復雜的皮膚紋理和面部陰影。

1.2 情感動畫模塊(EAM)

為了提取音頻中與內容無關的情感輔助特征,實現(xiàn)情感的自由控制,本文使用交叉重構情感解糾纏技術[18來訓練情感編碼器,最終獲得輸入音頻樣本的一對去糾纏的內容和情感嵌入特征。例如:通過情感編碼器提取了情感輔助特征E∈?T×D,其中:T是輸入音頻的總幀數(shù),D是情感特征的維度,大小是128維。情感動畫網(wǎng)絡的目標是以中性風格地標為基礎,將情感嵌入特征E映射到相應的面部地標位置。在實驗中發(fā)現(xiàn)遞歸網(wǎng)絡比前饋網(wǎng)絡更適合這項任務,因為遞歸網(wǎng)絡可以更好地捕捉音頻情感特征和面部地標之間的這種依賴關系。具體來說,在每t幀中,LSTM模塊將[t→t+T]窗口內的音頻情感嵌入特征E作為輸入,其中T=18幀。為了動畫化,對任意輸入圖像使用地標檢測器提取3D靜態(tài)地標q,LSTM層的輸出被饋送到多層感知器(multi-layer perceptron,MLP)中獲得情感動畫的預測地標位移Δqt,接著與語音內容和說話者風格動畫模塊獲得的預測位移結果Δqct、Δqht進行相加融合,最終得到輸入地標在相應音頻下每幀處的運動變化yt。情感動畫網(wǎng)絡模塊基于以下轉換對輸出地標的順序依賴性進行建模:mt=LSTMe(Et→t+T;wLSTM,c)(1)

Δqt=MLPe(mt,q;wMLP,c)(2)

pt=q+Δqt(3)

yt=pt+Δqct+Δqht(4)

其中:{wLSTM,c,wMLP,c}分別是LSTM和MLP網(wǎng)絡的可學習參數(shù)。LSTM網(wǎng)絡有三層單元,每層單元都有一個256大小的內部隱藏狀態(tài)向量。MLP網(wǎng)絡有三層,內部隱藏狀態(tài)向量大小分別為512、256和204(68×3)。情感動畫網(wǎng)絡的損失函數(shù),本文使用最小化損失函數(shù)來學習LSTM和MLP網(wǎng)絡的參數(shù){wLSTM,c,wMLP,c},該損失函數(shù)評估注冊的參考地標位置pt和預測地標位置p^t之間的距離,以及它們各自圖拉普拉斯坐標之間的距離,該損失函數(shù)有助于正確放置地標相對于彼此的位置,并保留面部形狀的細節(jié)[19。具體而言,EAM的損失函數(shù)是:

Le=∑Tt=1 ∑Ni=1‖pi,t-i,t22e∑Tt=1 ∑Ni=1‖Y(pi,t)-Y(i,t)‖22(5)

其中:i是每個單獨地標的索引;λe是對第二項的加權系數(shù)。本文使用以下的圖拉普拉斯算式Y(pt):

Y(pi,t)=pi,t-1|N(pi)|∑pj∈N(pi)pj,t(6)

其中:N(pi)表示可以連接到面部pi點的鄰居地標。

1.3 基于U-Net的注意力增強解碼器模塊(AADU)

將預測的面部地標解碼為目標人物的高保真和情緒化的談話頭部視頻幀,主要面臨兩個挑戰(zhàn):首先,照片逼真的談話頭部視頻幀需要關注皮膚紋理等細節(jié),才能更好地表達情感。其次,從面部標志轉換為談話頭部視頻幀的過程中,需要確保與目標人物的身份高度一致,并與預測的標志面部輪廓和嘴唇形狀相匹配。

為了應對這些挑戰(zhàn),本文在MakeItTalk提出的圖像到圖像翻譯網(wǎng)絡基礎上,提出了一種基于U-Net的注意力增強解碼器(AADU),進一步提高生成視頻幀的質量。圖2為AADU的結構,將預測的面部地標與目標人臉圖像按通道連接輸入AADU模塊,最終輸出逼真的談話頭部視頻幀。

圖2中residual block表示跳躍連接,將輸入信號經(jīng)過兩層卷積網(wǎng)絡處理后的結果直接加到輸出上,down和up分別表示圖像降維時每層結構和復原時每層結構,且每一個down和up中都有兩次residual block,能夠幫助網(wǎng)絡更好地捕獲輸入信號的細節(jié)和全局信息,提高了網(wǎng)絡的表征能力和泛化能力。每層圖片維度和通道數(shù)變化如圖中標注所示,例如(256×256 6)中256×256表示圖片維度,6表示圖片通道數(shù)。本文提出的AADU模型旨在原U-Net模型解碼器每層上采樣之前添加CBAM[20模塊,該模塊由空間注意力和通道注意力兩個子模塊組成,空間注意力使神經(jīng)網(wǎng)絡能夠更多地關注圖像中對面部表情和嘴唇形狀等起決定作用的像素區(qū)域,而忽略不重要的區(qū)域。通道注意力用于處理特征圖通道的分布關系。因此AADU通過關注解碼中的重要信息以及抑制來自編碼特征的不必要信息來增強特征的表示能力,避免有用信息的丟失,使網(wǎng)絡能夠關注皮膚紋理等細節(jié)。

AADU的損失函數(shù),隨機采樣一對幀:源訓練幀Qs和目標幀Qt,提取目標幀的面部地標并將其光柵化為RGB圖像Yt,將Qs與Yt輸入AADU中獲得重構的面部Q^t。損失函數(shù)旨在最小化重建人臉Q^t和訓練目標人臉Qt之間每個像素距離和感知特征距離21,具體公式如下:

La=∑{s,t}‖Qt-Q^t1a∑{s,t}‖?(Qt)-?(Q^t)‖1(7)

其中:λa=1,?將來自預訓練的VGG19網(wǎng)絡[22的特征圖激活并進行連接。

2 實驗與分析

2.1 實驗設置

2.1.1 數(shù)據(jù)集和參數(shù)

評估模型的數(shù)據(jù)集與EVP[18相同,即MEAD數(shù)據(jù)集[23。MEAD是一個大規(guī)模、高質量的情感音視頻數(shù)據(jù)集,包括60位演員,涵蓋了8種基本情感(中性、開心、生氣、抱怨、傷心、害怕、驚喜和失望)的說話頭部視頻。本文將所有說話頭部視頻轉換為25 frames/s和62.5 frames/s,并將音頻采樣率設置為16 kHz。其中62.5 frames/s的視頻幀用來訓練情感動畫網(wǎng)絡,25 frames/s的視頻幀用來訓練AADU。本文網(wǎng)絡使用PyTorch中的Adam優(yōu)化器來訓練,學習率設置為10-4,權重衰減設置為10-6

2.1.2 評估指標

為了定量評估不同的方法,本文選擇了談話頭部生成方法中的常用指標來體現(xiàn)情感表達,即M-LMD和F-LMD,其中M-LMD測量不同情感下嘴唇運動的準確性,F(xiàn)-LMD測量不同情感下面部輪廓的準確性。M-LMD和F-LMD的數(shù)值越小越體現(xiàn)較高的唇部運動或面部輪廓的準確性,最小值為0。此外,本文使用結構相似性指數(shù)測量(structural similarity index mea-sure,SSIM)[24和峰值信噪比(peak signal to noise ratio,PSNR)[25來測量生成的談話頭部視頻幀的質量。SSIM是衡量兩幅圖像在結構和內容上的相似性,數(shù)值越大越體現(xiàn)較高的相似性,最大可為1。PSNR是比較原始信號與經(jīng)過處理后的信號之間的差異,數(shù)值越大表示重構信號與原始信號之間的相似度越高,質量越好。

2.1.3 比較方法

將ACSEF與MSAAN[11和基線方法MakeItTalk[12進行比較,其中MSAAN是2023年提出的方法,提高了不同情緒下的唇部運動與音頻的同步性和視頻質量。此外,本文方法還與Audio2Head[26進行了比較,后者基于運動場生成的談話頭部視頻,并從生成頭部運動的角度提高了視頻的真實感。

2.2 客觀評測結果與分析

“ACSEF w/o EAM”表示僅添加AADU模塊,“ACSEF w/o AADU”表示僅添加EAM模塊。從表2中可以看出,當僅添加AADU模塊時,ACSEF在圖像質量方面有明顯改善,即SSIM增加0.02,PSNR增加0.04,但是在情感表達方面弱于MSAAN,即F-LMD增加了0.02,M-LMD增加了0.08。當僅添加EAM模塊時,ACSEF在情感表達方面有明顯改善,即F-LMD減少了0.03,雖然M-LMD的結果高于MSAAN,但是相比于MakeItTalk和不添加EAM模塊的ACSEF都有明顯下降。同時,在圖像質量方面弱于MSAAN,即SSIM減少0.02,PSNR減少0.02。以上兩組消融實驗結果表明,EAM可以增強情感表達,AADU可以提高圖像質量。當同時添加EAM和AADU模塊時,ACSEF在情感表達和圖像質量方面都有所改善。與MSAAN相比,ACSEF的F-LMD減少了0.03,SSIM增加了0.02,PSNR增加了0.05。因為MSAAN提出的模塊有助于提高不同情緒下的唇部運動與音頻的同步性,所以M-LMD的結果相比其他方法最低,然而,該模塊依賴于目標人物圖像中的情緒,導致F-LMD的結果稍差。

因為Audio2Head主要針對目標人物的頭部運動,在情感表達方面沒有涉及,為此,本文只將后兩個指標與之進行了比較,即SSIM和PSNR。從表2中可以看出,ACSEF在所有指標上都優(yōu)于MakeItTalk、MSAAN和Audio2Head。其中MakeItTalk缺乏對音頻中情感輔助特征的提取,所以在情感面部擬合方面效果稍差;MSAAN方法提出的模塊會受編碼器不必要信息的影響,導致生成的視頻過度關注唇部,在面部其他部位存在模糊現(xiàn)象;Audio2Head是基于運動場生成像素級的談話頭部視頻幀,所以會丟失有關說話者的一些重要信息,導致其方法生成的圖像質量有限。

2.3 用戶主觀評測結果與分析

本文還設計了一項詳細的用戶研究,以評估談話頭部視頻的整體質量。本文使用了三個指標來測量視頻質量,即嘴唇同步(lip synchronization,LS)、生動性表達(vivid expression,VE)和視頻感知質量(video perceptual quality,VPQ)。共有30名志愿者完成了實驗問卷,對每個視頻進行了評分,從1(最差)到5(最好)。如表3所示,因為MSAAN提出的模塊有助于提高不同情感下的唇緣精度,所以ACSEF的唇音同步結果弱于MSAAN,即LS下降了0.17,但它在生動性的表達和視頻感知質量方面是優(yōu)越的,即VE上升了0.68,VPQ上升了0.21。此外,ACSEF在所有指標上都優(yōu)于MakeItTalk和Audio2Head。

2.4 可視化結果與分析

為了使對比結果可視化,本文還選擇了一些由不同方法生成的談話頭部視頻幀,如圖3所示。

通過圖3可以觀察出,ACSEF可以生成具有強烈情感的高逼真的談話頭部視頻幀,且最接近地面真實數(shù)據(jù)(ground truth,GT)。與GT結果進行對比分析發(fā)現(xiàn),MakeItTalk的結果存在唇音同步性差和視頻模糊的問題,且整體圖片顏色與GT的結果相差較大;MSAAN提出的方法存在視頻模糊的問題,主要體現(xiàn)在眼睛部位;Audio2Head方法存在情感表現(xiàn)力、身份一致性、嘴唇同步性較差和視頻模糊的問題。

為了進一步了解EAM模塊對landmarks準確性的貢獻,圖4可視化了不同方法生成的landmarks結果。“ACSEF w/o EAM”表示不添加EAM模塊。

通過對圖4觀察看出,MakeItTalk和不添加EAM模塊生成的landmarks結果都存在唇部、眼睛、眉毛和面部輪廓不準確的問題。具體如下,圖中①標出的眉毛不能體現(xiàn)出生氣的情感,與中性結果眉毛一致;圖中②和④標出的唇部和③標出的眼睛不能體現(xiàn)出開心的情感,唇部兩邊沒有上翹,眼睛對比GT結果稍大,不符合開心情感的表達;圖中⑤和⑦標出的眉毛、⑥標出的面部輪廓和⑧標出的唇部不能體現(xiàn)出傷心的情感,眉毛和面部輪廓與中性結果一致,嘴唇兩側無下垂,未呈現(xiàn)悲傷情緒;圖中⑨和⑩標出的眼睛對比GT結果稍小,不符合驚喜情感的表達,與開心的效果相似。綜合以上分析發(fā)現(xiàn),本文添加EAM模塊后生成的landmarks最接近GT結果,情感表達更加強烈,即EAM模塊可以加強情感表達。

3 結束語

本文提出了一種融合音頻內容、風格和情感特征的高質量人臉動畫生成方法(ACSEF),通過EAM獲得不同情感特征與面部地標之間的映射關系,并與內容和風格網(wǎng)絡結果進行融合,提高預測地標的準確性和生動性;通過AADU提高生成視頻的質量,使得輸出的圖像能保持更多的細節(jié),如目標人物復雜的皮膚紋理和面部陰影。由于本文采用地標檢測器僅適用于真實人臉,所以ACSEF在動漫人物形象的應用上存在局限性。在未來將選擇更合適的地標檢測器,基于動漫數(shù)據(jù)集進行訓練,提高模型的泛化能力,避免涉及真實人臉的版權問題,減少法律風險。

參考文獻:

[1]Kim H,Elgharib M,Zollh?fer M,et al.Neural style-preserving visual dubbing[J].ACM Trans on Graphics,2019,38(6):1-13.

[2]Wang Tingchun,Mallya A,Liu Mingyu.One-shot free-view neural talking-head synthesis for video conferencing [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2021:10039-10049.

[3]Lu Yuanxun,Chai Jinxiang,Cao Xun.Live speech portraits:real-time photorealistic talking-head animation [J].ACM Trans on Gra-phics,2021,40(6):1-17.

[4]Wang Jianrong,Tang Ziyue,Li Xuewei,et al.Cross-modal knowledge distillation method for automatic cued speech recognition[EB/OL].(2021-06-25).https://arxiv.org/abs/2106.13686.

[5]Guo Yudong,Chen Keyu,Liang Sen,et al.AD-NERF:audio driven neural radiance fields for talking head synthesis [C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:5784-5794.

[6]Ji Xinya,Zhou Hang,Wang Kaisiyuan,et al.EAMM:one-shot emotional talking face via audio-based emotion-aware motion model[C]//Proc of ACM SIGGRAPH Conference.New York:ACM Press,2022:1-10.

[7]Zhou Hang,Sun Yasheng,Wu Wayne,et al.Pose-controllable talking face generation by implicitly modularized audio-visual representation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:4176-4186.

[8]Prajwal K R,Mukhopadhyay R,Namboodiri V P,et al.A lip sync expert is all you need for speech to lip generation in the wild [C]// Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:484-492.

[9]Vougioukas K,Petridis S,Pantic M.Realistic speech-driven facial animation with GANs[J].International Journal of Computer Vision,2020,128(5):1398-1413.

[10]Sinha S,Biswas S,Bhowmick B.Identity-preserving realistic talking face generation[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2020:1-10.

[11]Wang Jianrong,Zhao Yaxin,Liu Li,et al.Emotional talking head gene-ration based on memory-sharing and attention-augmented networks[EB/OL].(2023-06-06).https://arxiv.org/abs/2306.03594.

[12]Zhou Yang,Han Xintong,Shechtman E,et al.MakeItTalk:speaker-aware talking-head animation[J].ACM Trans on Graphics,2020,39(6):1-15.

[13]Chung J S,Jamaludin A,Zisserman A.You said that?[EB/OL].(2017-05-08).https://arxiv.org/abs/1705.02966.

[14]Wiles O,Koepke A,Zisserman A.X2Face:a network for controlling face generation using images,audio,and pose codes[C]//Proc of European Conference on Computer Vision.Berlin:Springer International Publishing,2018:670-686.

[15]Liang Borong,Pan Yan,Guo Zhizhi,et al.Expressive talking head generation with granular audio-visual control[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:3387-3396.

[16]Goyal S,Bhagat S,Uppal S,et al.Emotionally enhanced talking face generation[C]//Proc of the 1st International Workshop on Multimedia Content Generation and Evaluation:New Methods and Practice.New York:ACM Press,2023:81-90.

[17]Suwajanakorn S,Seitz S M,Kemelmacher-Shlizerman I.Synthesizing Obama:learning lip sync from audio [J].ACM Trans on Graphics,2017,36(4):1-13.

[18]Ji Xinya,Zhou Hang,Wang Kaisiyuan,et al.Audio-driven emotional video portraits[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:14080-14089.

[19]Sorkine O.Differential representations for mesh processing [J].Computer Graphics Forum,2006,25(4):789-807.

[20]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module [C]//Proc of European Conference on Computer Vision.Berlin:Springer International Publishing,2018:3-19.

[21]Johnson J,Alahi A,F(xiàn)ei-Fei L.Perceptual losses for real-time style transfer and super-resolution[C]//Proc of the 14th European Confe-rence on Computer Vision.Berlin:Springer International Publishing,2016:694-711.

[22]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2014-09-04).https://arxiv.org/abs/1409.1556.

[23]Wang Kaisiyuan,Wu Qianyi,Song Linsen, et al.Mead:a large-scale audio-visual dataset for emotional talking-face generation [C]//Proc of European Conference on Computer Vision.Cham:Springer International Publishing,2020:700-717.

[24]Wang Zhou,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans on Image Processing,2004,13(4):600-612.

[25]Huynh-Thu Q,Ghanbari M.Scope of validity of PSNR in image/video quality assessment [J].Electronics Letters,2008,44(13):800-801.

[26]Wang Suzhen,Li Lincheng,Ding Yun,et al.Audio2Head:audio-driven one-shot talking-head generation with natural head motion[EB/OL].(2021-01-20).https://arxiv.org/abs/2107.09293.

主站蜘蛛池模板: 国产成人无码综合亚洲日韩不卡| 欧美激情福利| 国产亚洲精品91| 浮力影院国产第一页| 日韩在线播放欧美字幕| 国产午夜福利亚洲第一| 亚洲男人天堂网址| 日韩二区三区无| 亚洲妓女综合网995久久| 国产精品精品视频| 超清无码熟妇人妻AV在线绿巨人| 成人免费一区二区三区| 亚洲国产精品日韩av专区| 自慰网址在线观看| 欧美日韩一区二区三区四区在线观看| 亚洲国产一成久久精品国产成人综合| 精品自窥自偷在线看| 亚洲日韩精品无码专区97| 老司机午夜精品视频你懂的| 日本人真淫视频一区二区三区| aaa国产一级毛片| 18禁黄无遮挡免费动漫网站| 亚洲va欧美ⅴa国产va影院| 久草性视频| 免费激情网址| 色婷婷狠狠干| 中文字幕在线看视频一区二区三区| 亚洲精品第五页| 鲁鲁鲁爽爽爽在线视频观看| 99精品国产自在现线观看| 色天天综合| 国产AV无码专区亚洲A∨毛片| 欧美在线视频不卡第一页| 五月婷婷伊人网| 国产成人精品在线1区| 在线精品亚洲国产| 久久永久精品免费视频| 国产哺乳奶水91在线播放| 成人福利视频网| 中国精品久久| 老熟妇喷水一区二区三区| 国产特一级毛片| 亚洲天堂色色人体| 久久人体视频| 亚洲日韩AV无码一区二区三区人 | 青青青国产精品国产精品美女| 亚洲无码视频喷水| 日本人妻一区二区三区不卡影院| 国产成年无码AⅤ片在线| 一本色道久久88综合日韩精品| 伊人久久久久久久| 玖玖精品视频在线观看| 71pao成人国产永久免费视频| 国产亚洲美日韩AV中文字幕无码成人| 97免费在线观看视频| 午夜日b视频| 久草性视频| 国产91视频免费| 97精品国产高清久久久久蜜芽| 色婷婷综合在线| 欧美日韩另类国产| 国产福利小视频在线播放观看| 亚洲成a人在线观看| 欧美啪啪视频免码| 国产主播喷水| 久久性视频| 麻豆国产精品| 老司机久久99久久精品播放| 欧美天天干| 欧美在线观看不卡| 国产成人久视频免费| 欧美黄色网站在线看| 亚洲午夜天堂| 亚洲精品无码抽插日韩| 999福利激情视频| 国产精品丝袜在线| 亚洲热线99精品视频| 操操操综合网| 波多野结衣视频网站| 欧美一级在线看| 午夜一级做a爰片久久毛片| 亚洲第一精品福利|