王慧慧,趙 暉(1.新疆大學信息科學與工程學院,烏魯木齊830046;2.新疆多語種信息技術實驗室,烏魯木齊830046)
語音驅動人臉動畫研究綜述
王慧慧1,2,趙暉1,2
(1.新疆大學信息科學與工程學院,烏魯木齊830046;2.新疆多語種信息技術實驗室,烏魯木齊830046)
對語音信息的理解除了聽覺信息,視覺信息也非常重要。在給出語音的同時,如果能給出相應的人臉動畫,會提高人們對語音信息的正確理解,這正是語音驅動的人臉動畫要達到的效果。語音驅動的人臉動畫系統使計算機模擬人類語音的雙模態,為人機交互提供可能性。簡述語音驅動人臉動畫的發展和語音驅動的人臉動畫核心技術。
語音驅動的人臉動畫;音視頻映射;人臉模型
國家自然科學基金(No.61261037)
語音驅動的人臉動畫合成就是當給出語音信息時,如果能相應地給出視頻信息,可以大大提高對信息的理解。這里所說的語音信息是指說話所產生的聲波,而視覺信息就是說話者的可視發音器官,如嘴唇、下巴、舌頭、面部肌肉等。語音信息和視覺信息都是由發音器官的作用產生的,發音器官包括聲帶、舌頭、嘴唇、下腭、鼻腔等。由于某些發音器官是外部可以看得見的,所以語音信息和視覺信息之間有著必然的內在聯系。由于并不是所有的發音器官是可見的,所以語音信息和視覺信息之間不是存在簡單的一對一的關系。
近年來,語音驅動人臉動畫成為研究熱點,研究者在語音驅動的人臉動畫方面取得了一定的成果,主要集中在語音驅動人臉動畫中,對音視頻映射模型的探索和人臉模型的探索中。隨著計算機科學技術的發展,對準確性的要求越來越高,音視頻映射模型和人臉模型繼續成為研究的熱點。
目前,音視頻模型主要集中在矢量量化的方法(VQ)、神經網絡(Neural Network,NN)、高斯混合模型(Gaussian Mixture Model,GMM)、隱馬爾可夫模型(Hidden Markov Model,HMM)和動態貝葉斯模型(Dynamic Bayesian Network,DBN)的探索,而人臉模型主要集中在基于圖像的模型、基于2D模型和基于3D模型的探索。本文將對現流行的音視頻映射模型和人臉模型的優缺點進行分析概括總結。
語音驅動的人臉動畫是根據語音信息得到相應的人臉動畫通,能幫助用戶理解語音內容,提高人機交互的便捷性和友好程度。語音驅動的人臉動畫技術的核心技術包括:音視頻映射、人臉動畫合成,人臉動畫合成的關鍵是人臉模型的建立。語音驅動的人臉動畫的基本框架圖如圖1所示。音視頻映射就是找到音頻和視頻之間的關系,音視頻轉換就是根據語音信息得到相應的視頻信息,人臉動畫合成就是根據音頻信息得到的相應的視頻信息合成會說話的人臉。
1.1音視頻映射
獲得音視頻映射的前提是先對音頻特征和視頻特征進行提取,然后通過模型訓練學習,找到音視頻之間的關系。由于語音信息和視覺信息不是存在簡單的一對一的關系[1],所以有許多不同的方法用來研究語音信息和視覺信息的映射。

圖1 語音驅動人臉動畫合成的基本框架
傳統的矢量量化的方法、神經網絡的方法很直接并且很容易實現的方法,但是結果往往不準確或者不連續,這是由于語音序列存在復雜的協同發音現象。另外,由于人們的發音習慣不同,相同的音節在不同的語音樣本中可能具有不同的長度和頻譜特征,即使同一個人對同一句話所錄制的多個語音樣本,其特征也會有較大差異。這導致了矢量量化的方法和神經網絡的方法難以合成出令人滿意的視頻序列。但是加以改進,也能達到我們所需的效果,如賈熹濱[2]以矢量量化的思想為基礎,建立語音特征空間到視覺語音特征空間的粗耦合映射關系。為加強語音和視覺語音的關聯性,系統分別根據語音特征與視覺語音特征的相似性兩次對樣本數據進行自動聚類,構造同時反映語音之間與視覺語音之間相似性的雙層映射碼本,取得了較滿意的效果。
高斯混合模型是模擬音視頻向量的連接概率分布向量作為混合高斯模型的值。給出語音特征,每個高斯混合組件對視覺特征產生線性評估,評估的混合組件通過增加權重來產生最終的視覺特征的評估。這種方法能產生比VQ平滑性更好的動畫,但是這種方法很容易陷入過度平滑。由于高斯混合模型能更好地模擬協同發音,所以很多研究者還是在高斯混合模型的基礎上做一些改進來實現主要達到的目的。Deena[3~4]采用高斯混合模型實現可視化語音轉換,通過對面部動作和語音建模并使用共享的高斯混合模型之間的映射關系來合成臉部表情動畫。高斯混合模型被Chang Wei Luo[5~6]使用于音頻到視覺的轉換,為了克服沒有考慮以前視覺特征對目前視覺特征的影響和GMM的訓練和轉換不一致的問題。我們提出了整合以前視覺特征入轉換,并提出了一個最小的轉換誤差為基礎的方法來改進GMM參數。改進后的方法可以準確地轉換音頻功能融入視覺特征。蔡蓮紅[7~8]等人使用高斯混合模型進行情感語音到視頻的轉換,開發了一種會說話的虛擬人系統,該虛擬說話人能很好地理解情感。
隱馬爾可夫模型模型在解決動態時序問題上具有獨特優勢,表現為狀態轉移靈活、上下文信息表述清晰,因而HMM模型近年來被廣泛應用于高精度的實時語音動畫、音視頻映射中并成為研究的熱點。Tao[9]使用由音頻構成的HMM模型和視頻構成的HMM模型通過EM算法訓練,音頻最好的隱含狀態通過Viterbi得到,耦合參數就能確定,也就實現了音頻到視頻的映射。從Lucas Terissi[10]使用A-V HMM模型訓練音視頻數據達到音視頻流的映射。馬娥娥[11]使用IOHMM預測視頻序列,不再是音素到視位的映射。Xie lei[12]提出來雙層的HMM(CHMM)通過條件概率有兩條與HMM鏈相連,這允許鏈的異步任務。進一步訓練多流HMM模型(MSHMMs)使用音頻和視頻功能,其中建立聲視聽語言清晰度之間的對應關系[13]。趙暉[14]提出了基于HMM模型語音狀態、基于HMM模型音頻和視頻混合參數、基于雙層HMM模型的方法。HMM模型是一個雙重的隨機過程,描述了時間軸上語音和視頻的狀態變化情況,利用HMM得到的合成結果連續,跳變的情況少。但是它需要大量的原始數據實現訓練,并且計算量大。雖然隱馬爾可夫模型(HMM)在音視頻進行映射中已經相當成熟,但是在這個模型中,音頻信息只是語音信息,沒有考慮發音的異步特征、發音器官對發音的影響、錄入數據庫個體的差異。
電力企業安全風險管控體系的構筑…………………………………………………………………………高 萍,于克棟(1.86)
動態貝葉斯模型(DBN)是一個處理時序數據的隨機概率模型,并且在國外的研究也處于剛剛起步,國內的研究也比較少,但是語音驅動人臉動畫領域也有一定的研究。突出者是清蔣冬梅教授的實驗室,吳鵬[15]構建一種基于發音特征的音視頻雙流動態貝葉斯網絡(DBN)語音識別模型(AF_AV_DBN),定義節點的條件概率關系,使發音特征狀態的變化可以異步。張賀[16]提出了一種基于主動外觀模型(AAM)特征和異步發音特征DBN模型(AF_AVDBN)的逼真可視語音合成方法。在AF_AVDBN模型訓練中,以42維感知線性預測(PLP)特征為音頻特征,視頻特征為嘴部圖像的80維AAM特征。實驗結果表明,考慮音視頻的異步性,會增加合成嘴部動畫與語音之間的一致性。蔣冬梅[17]將此方法擴展到語音驅動的人臉動畫中來,合成清晰逼真的人臉動畫。與HMM相比,動態貝葉斯模型(DBN)具有更強的計算能力,并且考慮到發音特征的影響,能更準確地找到音頻和視頻的映射關系。然而對動態貝葉斯模型(DBN)的研究還處于一個探索階段,需要更進一步的研究。
1.2人臉動畫的合成
基于語音驅動的人臉動畫系統中人臉模型的建立是關鍵,在現在的研究中人臉模型可以分為以圖像為基礎的人臉模型、2D人臉模型和3D人臉模型。基于3D模型的方法無論是從在光照條件下,還是在不同的角度觀察,都比基于圖像模型的方法更靈活,但是實時性較差,然而基于圖像模型的方法卻彌補了這個不足。
(1)圖像為基礎的人臉模型
基于圖像的人臉動畫方法生成的動畫紋理直接來源于采集的人臉圖像,具有很高的紋理真實感,也不像基于3D模型的人臉那樣要進行人臉的重構。1988年,Pighin[18]第一次使用一些圖片適合給定面部三維模板網結構,然后通過混合不同的姿勢得到人臉動畫,并且在第二年他使用這項技術解決從圖像中得到真實的人臉模型和動畫問題,從此,以圖像為基礎的人臉動畫成為研究的熱點。這種方法在語音驅動人臉動畫中主要使用單元選擇技術[19]進行人臉動畫的合成。雖然基于圖像的人臉動畫方法能夠獲得高逼真度的人臉動畫,但是需要很大的數據庫,采集大量的圖像信息,這給工作造成一定的難度。并且在合成時很難實現個性化的人臉圖像。
(2)2D人臉模型
2D人臉模型可以從錄取的數據庫創建,這樣就可以大大減少對數據庫量的要求,所使用的最常見的二維模型是主動外觀模型(AAM)。這種模型是線性的形狀和外觀,AAM表示使用網格頂點的位置代表形狀,使用RGB代表紋理。主動外觀模型(AAM)是一種統計模型,廣泛應用于人臉圖像的分析、特征點跟蹤和合成等領域。AAM通過對樣本集進行主成分量分析得到樣本的均值與變化模式;然后再用這些提取出來的變化模式線性組合出新樣本。這種做法消除了訓練樣本間的冗余,生成的模型更加緊湊,表示人臉時也更加有效。Mattheyses[20~21]解釋了主動外觀模型(AAM)以形狀和紋理表示圖像信息,并把主動外觀模型(AAM)應用到視覺語音合成系統中,實現了流暢自然的視覺輸出語音。Benjamin Havell[22]使用主動外觀模型(AAM)代表圖像信息,結合HMM合成語音驅動的人臉動畫。研究者蔣冬梅,謝磊,Salil Deena從音視頻數據庫訓練AAM模型,代表圖像信息。但是訓練AAM往往需要大量的訓練數據,要針對所有的表情動作采集相關訓練數據,因此它們多用于合成單幅人臉圖像。
基于三維模型的人臉動畫方法,以三維人臉模型作為動畫基礎來實現人臉動畫。通過三維人臉模型對臉部的外觀和動作模式進行建模,利用不同的函數或者參數的變化控制合成不同的人臉動作和表情。三維人臉模型的設計選取決定了人臉動畫的效果、實現的難易程度以及動畫效率。基于三維模型的人臉動畫一般分為建模和合成兩個階段。
在建模階段,根據已知的人臉結構、形狀等先驗知識建立三維模型所需要的各種條件、參數、數據等要求,對輸入的圖像或是圖像序列進行圖像分析和處理,以獲得相應的模型參數。合成階段是在一定的動畫規則的基礎上,根據所需要的動畫要求給出控制三維模型動畫所需要的函數表達或形狀紋理參數,以驅動模型獲得動畫圖像。因此基于三維模型的人臉動畫方法要解決兩個方面的問題:三維人臉建模和動畫驅動。
(1)三維人臉建模方法建立
建立人臉的三維模型需要獲取稠密的人臉三維信息,包括人臉的幾何信息和紋理信息。Parke提出了最早的3D人臉幾何模型[23],這些三維信息可以利用復雜精細的設備,只經過一般的配準和立體視覺求解獲取,也可以通過普通的圖像獲取設備采集圖像或圖像序列。有些研究者[22]借助于高精度的3D掃描儀來構造精確的3D人臉模型。將這一技術與3D紋理映射技術配合,就可得到一個真實感很強的3D人臉模型。但3D掃描儀很昂貴,并在有些場合難以應用。因此,人們仍然致力于尋找其他更為方便的構造3D人臉模型的方法。有些研究[24]者依據商業用途的運動捕捉系統使用8臺數碼相機追蹤人臉特征點,Shunya Osawa[25]使用兩臺計算機,建立人臉模型。李冰鋒[26]使用FaceGen工具生成原始3D頭的模型。
(2)三維人臉模型驅動方法
三維人臉模型驅動方法包括基于插值的、基于變形的以及基于參數的人臉動畫方法。
基于插值的人臉動畫方法是一個直觀常用的人臉動畫方法,通常情況下,插值函數在歸一化時間區內在指定極端位置的兩個關鍵幀之間平滑地運動。Lucas Terissi[10]使用插值的方法合成語音驅動的人臉動畫。雖然插值的方法的動畫生成的速度快,容易生成原始臉部動畫,但是生成的表情受到了關鍵幀的限制,不可能生成關鍵幀插值范圍之外的人臉動作。因此,這種方法適用于根據關鍵幀產生表情很少的人臉動畫。Ning Liu[27]使用變形的方法合成語音驅動的人臉動畫,雖然變形方法能夠很好地模擬人臉形狀的變化。但是忽略了紋理,這樣就不能合成逼真的人臉動畫。
基于參數的人臉動畫,能很好地描述人臉的幾何形狀和紋理構成,通過不同的參數的變化和組合可以產生不同的人臉表情動作,最常用的就是MPEG-4標準的FAP參數。一些研究者[28]使用這些參數合成語音驅動的人臉動畫系統。這種標準規定了兩個高級參數:視位和表情,及66個低級參數,這樣就大大減少了研究者的工作量,提高了工作效率。
在人與計算機的交流過程中,不再是以文本與計算機交流,而是以語音與計算機交流,將大大提高計算機工作的效率。本文就語音驅動人臉動畫合成的兩大技術給予了概括和總結。
近年來關于語音驅動的人臉動畫的研究雖然已經取得了一些成就,但是這并沒有實現研究者的愿望,如:只能在安靜的環境中與計算機交流,并且現在的研究還只是單一對一種語言的研究,一旦系統做好,不能識別第二種語言。在可見的未來,語音驅動的人臉動畫這一技術將改變人們與計算機的交流方式,多種語言,并且能在吵雜的環境中很好地與計算機交流這將成為語音驅動人臉動畫的一個趨勢。
[1]Wesley Mattheyses,Lukas Latacz,Werner Verhelst.Comprehensive Many-to-Many Phoneme-to-Viseme Mapping and Its Application for Concatenative Visual Speech Synthesis[J].Speech Communication,2013,55(7-8):857~876
[2]賈熹濱,尹寶才,孫艷豐.基于雙層碼本的語音驅動視覺語音合成系統[J].計算機科學,2014,41(1):100~104
[3]Salil Deena,Shaobo Hou,Aphrodite Galata.Visual Speech Synthesis Using a Variable-Order Switching Shared Gaussian Process Dynamical Model[J].Multimedia,IEEE Transactions on,2013,15(8),1755~1768
[4]Salil Deena,Shaobo Hou,Aphrodite Galata.Visual Speech Synthesis by Modelling Coarticulation Dynamics Using a Non-Parametric Switching State-Space Model[C].ICMI-MLMI'10:International Conference on Multimodal Interfaces and the Workshop on Machine Learning for Multimodal Interaction,2010
[5]Changwei Luo,Jun Yu,Xian Li,ZengfuWang.Real Time Speech-Driven Facial Animation Using Gaussian Mixture Models[C].2014 IEEE International Conference on Multimedia and Expo Workshops(ICMEW)2014:1~6
[6]Changwei Luo,Jun Yu,Zengfu Wang.Synthesizing Real-Time Speech-Driven Facial Animation[C].2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2014:4568~4572
[7]Jia Jia,Shen Zhang,Fanbo Meng,Yongxin Wang,Lianhong Cai.Emotional Audio-Visual Speech Synthesis Based on PAD,IEEE Transactions on AUDIO,Speech,and Language Processing,VOL.19,No.3,MARCH 2011
[8]Shen Zhang,Jia Jia,Yingjin Xu,Lianhong Cai.Emotional Talking Agent:System and Evaluation.2010 Sixth International Conference on Natural Computation(ICNC 2010)
[9]Jianhua Tao,Member,IEEE,Li Xin,Panrong Yin.Realistic Visual Speech Synthesis Based on Hybrid Concatenation Method.IEEE Transactions on AUDIO,Speech,and Language Processing,VOL.17,No.3,MARCH 2009
[10]Lucas Terissi;Mauricio Cerda;Juan C.Gomez.Animation of Generic 3D Head Model Driven by Speech[C].2011 IEEE International Conference on Multimedia and Expo(ICME),2011:1~6
[11]馬娥娥,劉穎,王成儒.基于IOHMM的語音驅動的唇動合成系統[J].計算機工程,2009,35(18):283~285
[12]Lei Xie,Zhi-Qiang Liu.Speech Animation Using Coupled Hidden Markov Models[C].Pattern Recognition,2006.ICPR 2006.18th International Conference on,2006:1128~1131
[13]Lei xie,Naicai Sun,Bo Fan.A Statistical Parametric Approach to Video-Realistic Text-Driven Talking Avatar[J].Multimedia Tools and Applications,2014,73(1):377~396
[14]趙暉.真實感漢語可視語音合成關鍵技術研究.國防科學技術大學,2009
[15]吳鵬,蔣冬梅,王風娜,Hichem SAHLI,Werner VERHELST.基于發音特征的音視頻融合識別模型[J].計算機工程,2011,37(22): 268~272
[16]張賀,蔣冬梅,吳鵬,謝磊,付中華,Hichem Sahli.基于AAM和異步發音特征DBN模型的逼真可視語音合成[C].第十一屆全國人機語音通訊學術會議,西安:2011
[17]Dongmei Jiang,Yong Zhao,Hichem Sahli.Speech Driven Photo Realistic Facial Animation Based on an Articulatory DBN and AAM Features[J].Multimedia Tools and Applications,2014,73(1):397~415
[18]F.Pighin,J.Hecker,D.Lischinski,R.Szeliski,D.Salesin.Synthesizing Realistic Facial Expressions from Photographs[C].SIGGRAPH !98 Conference Proceedings,1998:75~84
[19]Ying He,Yong Zhao,Dongmei Jiang.Speech Driven Photo-Realistic Face Animation with Mouth and Jaw Dynamics[C].2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA),2013:1~4
[20]Mattheyses W,Latacz L,Verhelst.Active Appearance Models for Photorealistic Visual Speech Synthesis[C].Proc.Interspeech 2010,2010:1113~1116
[21]Mattheyses W,Latacz L,Verhelst V.Optimized Photorealistic Audiovisual Speech Synthesis Using Active Appearance Modeling[C]. In:Proc.Internet.Conf.on Auditory-Visual Speech Processing,2010:148~153
[22]Benjamin Havell.A Hybrid Phoneme Based Clustering Approach for Audio Driven Facial Animation[C].2012 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012:2261~2264
[23]F.I.Parke,Computer Generated Animation of Faces[C].Proc.of ACM National Conference,1972:451~457
[24]Kaihui Mu,Jianhua Tao,Jianfeng Che,Mianghao Yang.Real-Time Speech-Driven Lip Synchronization[C](IUCS),4th International Universal Communication Symposium,2010:378~382
[25]Shunya Osawa,Guifang Duan,Masataka Seo,Takanori Igarashi,and Yen-Wei Chen.3D Facial Images Reconstruction from Single Facial Image[C].Information Science and Service Science and Data Mining(ISSDM),2012 6th International Conference on New Trends in,2012:487~490
[26]李冰鋒,謝磊.實時語音驅動的虛擬說話人[C].第十一屆全國人機語音通訊學術會議,西安:2011
[27]Ning Liu,Ning Fang,Seiichiro Kamata.3D Reconstruction from a Single Image for a Chinese Talking Face[C].TENCON 2010,2010: 1613~1616
[28]尹寶才,王愷,王立春.基于MPEG-4的融合多元素的三維人臉動畫合成方法[J].北京工業大學學報,2011,37(2):266~271
Speech-Driven Facial Animation;Audio and Video Mapping;Face Model
Survey of Speech-Driven Facial Animation
WANG Hui-hui1,2,ZHAO Hui1,2
(1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046;2.Xinjiang Laboratory of Multi-Language Information Technology,Urumqi 830046)
In addition to voice information for the understanding of auditory information,visual information is also very important.In the speech given at the same time,if given the appropriate facial animation,will raise awareness of the correct understanding of the voice message, which is a speech-driven facial animation to achieve the effect.Speech-driven facial animation system allows a computer simulation of human speech bimodal,offers the possibility for human-computer interaction.Summarizes the development of speech-driven facial animation and speech-driven facial animation core technologies.
王慧慧(1988-),女,河南沈丘人,碩士研究生,研究方向為人工智能、模式識別
趙暉(1972-),女,云南昆明人,博士,教授,研究方向為人工智能、圖像處理
2015-04-07
2015-05-10