真實感人臉語音同步動畫系統

2009-01-01 00:00:00羅琰欽陳雷霆何明耘李曉瑜

計算機應用研究 2009年4期

(電子科技大學 a.示范性軟件學院；b.計算機科學與工程學院，成都 610054)

摘要：提出了一個人臉動畫與語音同步的系統，重點解決協同發音、表現人臉細微表情特征的問題。輸入帶有情緒標志的文本，就能夠產生對應表情的、與語音同步的人臉動畫；本系統能夠生成各種不同性別、年齡、表情特征的高度真實感3D人臉模型，人臉細微表情特征(如額頭皺紋)可以隨人臉表情的變化而動態改變。基于語言學理論，本系統提出了解決協同發音問題的一套規則。

關鍵詞：人臉動畫；協同發音；細微特征紋理；語音合成

中圖分類號：TP391文獻標志碼：A

文章編號：1001-3695(2009)04-1563-03

Expressive lip-synchronization facial animation system

LUO Yan-qina，CHEN Lei-tingb，HE Ming-yunb，LI Xiao-yub

(a.School of Software， b.School of Computer Science Engineering， University of Electronic Science Technology of China， Chengdu 610054， China)

Abstract:This paper proposed a system carring out synchronization of facial animation and speech.Solved these problems about coarticulation and modelling facial subtle expression characters.Gave an input string of text annotated with emotion-tags， the proposed system could produce the corresponding lip-synchronized motion of a 3D face model with appropriate expression. This system was able to produce highly real 3D facial models which vary from gender， age， expression and so on. Also facial subtle expression characters， such as forehead furrow，could make dynamically corresponding change with the variety of facial expressions. Based on linguistic theory，proposed a set of rules to solve the problem of coarticulation effect.

Key words:facial animation; coarticulation; subtle character texture; text-to-speech（TTS） synthesis

0 引言

人臉動畫是真實感模擬領域的重要研究之一，臉部表情豐富而復雜，一直是研究的難點之一。人臉動畫的研究已經廣泛涉及到其他研究領域，如計算機圖形學、語言學、心理學等。本文提出了一個人臉語音動畫系統，它是基于健壯的、開放性的開發工具，其模塊結構使它具有易操作性、易擴展性。本系統主要提供以下功能：a)可視化語音同步合成。輸入帶有情緒標志的文本字符串，本系統不僅可以產生高度真實感的3D人臉模型，并在此基礎上可產生對應表情的、同步于語音的唇動動畫。可視化語音動畫的合成工作非常具有挑戰性，這主要是因為協同發音現象，即在語音序列中，一個音素(最小語音結構單位)所對應的嘴形不僅依賴于當前發音的音素，同時也受到之前發生的或之后將要發音的音素的影響。b)表現人臉細微表情特征，并可隨人臉表情的變化而動態改變。本文提出的人臉語音動畫系統總體框架如圖1所示。

系統執行流程如下：a)輸入包含情緒特征的文本信息，經text-to-speech(speech API)模塊分析產生相應的語音信號及音素序列；b)通過融合變形映射模塊對該音素序列進行處理，結合人臉細微特征處理機制，產生與輸入文本內容及情緒特征相吻合的人臉動畫；c)前面產生的人臉動畫和相應的音素序列再經過協同發音規則處理，產生改進的人臉動畫及音素序列；d)合成音頻及人臉動畫并加以顯示。

與眾多的人臉動畫方法相比，本文提出的系統優點主要表現在以下幾個方面：

a)容易執行，因為通過整合容易獲得并具有開放性的APIs和軟件；

b)協同發音模塊基于一套規則，容易操作并可做直觀調整；

c)融合變形模型由FaceGen[1]系統提供，該系統可對人臉模型進行縮放，設定不同的年齡、膚色、種族等操作；

d)引入人臉細節特征處理機制，并可隨人臉表情的變化而動態改變，使人臉動畫更加真實。

1 融合變形模型

1.1 人臉建模

模擬人臉動畫的研究已經有幾十年的時間，一般可以大致歸結為手動設置參數化方法、基于物理學的方法、基于統計學的方法和數據驅動方法。第一類方法以Park最早提出的人臉動畫研究方法[2]和臉部運動代碼系統（FACS）為代表。為了提高人臉動畫的真實感，研究者們采用了模擬人臉肌肉運動的方法，包括基于物理學的皮膚—肌肉組織形變方法。

本文使用了融合變形方法，給定n個人臉表情并對應于n個多邊形，稱之為混合模型的網格模型集B={B0，B1，…，Bn}。本系統可以通過對不同數量的原始網格集進行混合來創建新的人臉表情：

Bnew=B0+ni=1wi(Bi-B0)(1)

其中：wi是任意權值；B0與中性表情相對應。為了避免夸大表情，權值被嚴格限制在wi∈[0，1]。隨著時間變化，通過改變權值wi就可以產生連續的動畫。混合模型主要的挑戰在于創建恰當的混合模型集。一般來講，有兩種方式來構建混合模型：a)對人臉的不同表情進行數字掃描，這種方法需要昂貴的掃描儀，并且生成的網格模型的頂點數不相同。b）為了能簡單地使用式(1)，就必須使各種混合模型具有相同的頂點，但這種方法并不實際，因為不得不手動地調整3D人臉模型的頂點位置來創建混合模型集，這個工作非常費時也很乏味，而且只有專業人士才能產生高質量的混合模型。

本文所用到的模型是從人臉建模工具FaceGen[1]產生的。用戶使用FaceGen可以通過直觀的操作方法創建并導出不同種族、不同表情的人臉模型，其主要優點在于通過它所導出的模型具有相同的頂點數及頂點索引方式。換句話說，由FaceGen所導出的模型具有一致的頂點組合并可以簡單地使用式(1)。FaceGen混合模型集包括17種語音相關的模型，將其標做B1，B2，…，B16。混合模型B0與沉默相對應并表現為嘴巴閉合。

1.2 細微表情特征

相對目前的研究情況，FaceGen在人臉建模方面功能比較成熟。在原始人臉模型基礎上，它可以生成不同性別、不同種族、不同年齡的模型，可生成生氣、沮喪、害怕、悲傷、微笑(不露出牙齒)、張嘴笑( 露出牙齒)六種表情；也可以添加細節紋理層(如在人臉上添加痣、癍等)。但是人臉是一個非常復雜的幾何體，人臉的表情還包括很多細微形變，如皮膚的皺褶。FaceGen可以一定程度地改變人臉的靜態紋理，但是缺乏對動態細微形變的處理，本系統所提出的人臉語音動畫能夠表示細微表情特征。

近年來已有越來越多的研究人員研究人臉動畫中細微特征的表現方法。Guenter等人[3]所用的紋理都用真實的表情照片來生成，可以得到生動的動畫效果，但是過程復雜、實時性很低。Liu等人[4]提出了一種新的面向紋理圖像變化的方法，通過對表情圖像亮度操作來實現，他們的實驗效果很好，但僅限于二維人臉圖像完整表情的復制。

本論文實現細微紋理特征的思路是：并不真正在模型上產生微小的形變，而只是修改紋理，用在紋理圖像上進行的亮度或顏色變化來表現這種微小形變，從而在視覺上達到皮膚產生皺褶的效果。具體步驟如下：采集人臉表情在細微特征區域的亮度變化，在此基礎上給出亮度變化的參數化方法，實現人臉動畫中細微表情特征的參數化表示。具體做法是將高亮度變化與MPEG-4中的人臉動畫參數(facial animation parameter，FAP)相結合，用FAP 計算亮度變化的系數，從而控制細微表情特征的可見度，實現三維人臉動畫中細微表情特征表示的參數化。

1）邊緣處理

首先獲得細微表情特征的亮度變化比率圖，以額頭皺紋為例，如圖2所示。如果將細微表情特征亮度變化圖直接應用到人臉模型上，邊緣就會很明顯，像貼了補丁一樣。本文采用的方法是，在獲取局部亮度變化比率圖時，使其稍大于細微特征的范圍。這樣將其應用到相應人臉模型上時，就能保證在邊緣的亮度相同。

2）參數化亮度變化比率圖

表情細微特征在動畫過程中是不斷變化的。變化的主要參數有形狀與可見度兩個：形狀的變化可以隨網格變形參數的變化而自動拉伸；可見度的變化與表情的運動程度有一定的相關性，以額頭皺紋為例(圖2)，額頭皺紋的可見度與眉毛向上運動的幅度相關。本文提出采用人臉動畫參數來控制紋理特征可見度的變化。MPEG-4中，有一套全面完整的人臉動畫參數，本文直接利用它們作為亮度變化比率圖可見度的參數，從而實現人臉動畫中細微表情特征的參數化表示。

MPEG-4中對三維人臉動畫格式定義了一個國際標準，提供了一套以FDP 和FAP 為參數的人臉動畫方法。這種方法通用性強、數據量小、運算復雜度低。由于篇幅限制，對于MPEG-4的內容就不再贅述。

2 可視化語音合成

模擬與語音相匹配的人臉運動，本文使用了視頻圖元(viseme)的方法。視頻圖元是一個音素所對應的嘴形，一個視頻圖元可以對應于多個音素。本文使用了從音素到視頻圖元的動態映射。視頻圖元通過混合一個或多個融合變形模型而得到，使其更具真實性。

2.1 協同發音

在可視化語音合成過程中，關鍵性在于對協同發音進行建模。本文并不對語音動畫中的協同發音建模下定論，但是提出的一系列規則是很好的研究起點并能取得令人滿意的結果。

說話時，當前音素所對應的唇形與其相鄰的前后音素密切相關，這就是前面所提到的協同發音現象。一個簡單的解決方法就是把單詞分解成音素序列。為了正確地發音，嘴巴只有在有必要變形時才會運動。通常情況下，協同發音要求嘴形一部分依賴于當前發聲的音素，而另一部分則依賴于之前發聲或之后要發聲的音素。以單詞“strength”和“store”為例，對后者而言，發“s”音時，嘴形應當是偏圓的，而前者則不是。

目前，研究者們已經采用了各種方法來模擬協同發音現象[5~7]。本文解決協同發音問題的方法受Kent[8]的啟發，表1列出了本系統中處理協同發音的部分規則。每個規則定義了一個源音素集、一個目標音素集和一個方向(向前或向后)。源音素將以特定的方向對每一個目標音素產生影響。仍以“strength”和“store”為例，可以使用向后規則，源集由“e”“o”組成，目標集由“s”“t”和“r”組成。若使這個規則適用于每個單詞，在“strength” 中，“str”的唇形將保持發“e”時的唇形，而在“store” 中，“o”音的唇形將出現在“str”的發音期間。按Kent等人的觀點，要能準確地模擬發音情況，協同發音規則集必須考慮當前音素前后的六個音素。盡管本文所使用的規則基于當前的語言學理論，但關于協同發音的語言學理論本身還不夠完善，有待改進。

表1 協同發音部分規則

ruledirectionsourcestargets

overwrite-Hbackwardvowels{H}

OO-Lbackward{OO}{L}

round-vowels-bwbackward{AO，OW，OY，UW}{S，Z，T，K，D，G}

round-vowels-fwforward{AO，OW，OY，UW}{S，Z，T，K，D，G}

Wbackward{W}{AI，AA，AE，K，G，T，D}

2.2 情緒控制

本文提出的系統包括高興、悲傷、生氣、吃驚、沮喪和害怕六種情緒。在此系統中，用戶能以多個單詞為粒度來標志輸入文本。認為標志符之間的單詞與最先被標志的單詞有相同的情緒，若一開始文本就沒有被標志，則默認為是中性情感單詞。目前此系統在不同的情緒之間或不同權值下的相同情緒之間使用線性轉換方法。

標志符可以包含0~1的權重因子，并定義了標志所帶的情緒比重。例如文本〈happy*0.6〉Hi welcome〈neutral〉，說明開始于60%的高興表情并結束于中性表情。當沒有特別化權重時，默認權值為1。

2.3 基于語音的表情混合

由FaceGen產生的原始表情模型被用做默認模型。然而當混合兩個表情模型時，將會與真實情況不相符，這是由于不同的模型將改變相同的人臉部位。以FaceGen產生的生氣的融合變形模型為例，它是張開嘴并暴露出牙齒，這個模型將會與所有需要嘴巴閉合的發音相沖突，如音素“b”“m”“p”。本文使用被稱為表情約束的規則集來解決這個沖突。若不使用表情約束規則，將使用默認的模型和權值，當應用與語音相關的不同表情模型時，這種方法在顯示相同表情時給了用戶很大的靈活性。

3 音/視頻合成

本文的TTS模塊是基于Microsoft Speech SDK version 5(MS SDK)[9]，它是一個開放性的工具包，可免費使用。輸入一個字符串，MS SDK產生相應的音頻流和音素序列。MS SDK使用簡單并且開發靈活，人臉動畫過程中，說話的聲音可以使用MS SDK進行改變。

一旦輸入的字符串經MS SDK分析后，就產生一個適當的視頻圖元序列（一系列加權的融合變形模型），再由協同發音規則進行過濾處理。MS SDK提供了重要的定時信息，指定每一個音素的時間期限。本系統產生的視頻圖元序列遵循音頻序列定時機制的約束，一旦計算出視頻圖元序列的最終定時情況，本系統提供了重放音頻序列的能力并使視頻圖元序列同步。

4 實驗結果

本系統基于健壯的、開放性的開發工具，提出了一個人臉動畫系統。根據文本輸入，本系統就可以產生相應的與語音同步的人臉動畫，并帶著文本中所標志的表情。下面以實驗結果來說明此系統的兩個主要功能：a）可視化語音同步合成，實現人臉動畫與文本中短語所對應語音的同步；b）實現人臉動畫表情與文本表情信息相一致。

圖3展示了協同處理前后的對比效果。以“soon”為例，“oo”的發音對“s”音有一個向后的影響。本系統的協同規則讓“s”音素所對應的視頻圖元與“oo”所對應的視頻圖元相混合。在圖3中，注意協同處理前后兩組動畫的不同之處，（b）中，當發“s”音時，嘴巴做出了適當的嘴形準備發其后“oo”的音。

輸入文本中包含了表情特征，圖4展現了人臉模型帶著表情說出短語“Hi Suise”的運動過程。輸入的帶有表情特征的文本信息如下：“〈surprised〉Hi〈happy〉Suise”，說“Hi”時帶有驚訝的表情，緊接著是高興的表情。注意圖4中高興的表情與語音適當混合后的效果。

5 結束語

本文提出了一個3D人臉語音動畫系統，該系統基于開放性的開發工具(MS SDK，FaceGen modeller及OGRE)。根據用戶輸入，該系統就可以產生與之對應語音及表情的音/視頻人臉動畫，其3D人臉模型由FaceGen工具產生。其特點是功能成熟、操作簡單，適用于對任意人物對象的3D人臉建模，它可以生成不同表情、不同性別、不同種族、不同年齡的模型，也可以添加細節紋理層(如在人臉上添加痣、癍等)。其關鍵性優點在于生成的3D人臉模型具有相同的頂點數及頂點索引方式。本系統基于語言學理論，提出了解決協同發音問題的一套規則；此外，本文能夠表示人臉細微表情特征，

并能使這些細微特征隨人臉表情的變化而動態改變。該系統以OGRE為載體。OGRE是正被廣泛使用的開源三維圖形渲染庫，被成功地應用于諸多三維仿真領域，其中包括網絡游戲和一些商業的三維仿真項目，因此該系統有廣泛的應用領域。將來工作可致力于實現漢語的人臉語音動畫系統。

參考文獻：

［1］

Singular Inversion Inc.FaceGen modeller[EB/OL].http://www.face-gen.com.

[2]PARKE F I.Parameterized models for facial animation[J].IEEE Computer Graphics and Application，1982，2(9):61-68.

[3]GUENTER B，GRIMM C，WOOD D，et al.Making faces[C]//Proc of International Conference on Computer Graphics and Interactive Techniques.New York:ACM Press，1998:55-66.

[4]LIU Zhi-cheng，SHAN Ying，ZHANG Zheng-you.Expressive expression mapping with ratio images[C]//Proc of International Conference on Computer Graphics and Interactive Techniques.New York:ACM Press，2001:271-276.

［5］BROOK N M，SCOTT S D.Computer graphics animations of talking faces based on stochastic models[C]//Proc of International Symposium on Speech， Image Processing，and Neural Networks.[S.l.]:IEEE Press，1994:73-76.

[6]KIM T Y，BULUT M.Expressive facial animation synthesis by learning speech coarticulation and expression spaces[J].IEEE Trans on Visualization and Computer Graphics，2006，12（6）:1523-1534.

[7]BREGLER C，COVELL M，SLANEY M.Video rewrite:driving visual speech with audio[C]//Proc of the 24th Annual Conference on Computer Graphics and Interactive Techniques.New York:ACM Press，1997:353-360.

[8]KENT R D.Coarticulation in recent speech production models[J].Journal of Phonetics，1977，34(5):115-133.

[9]MUELLER P，KALBERER G A，PROESMANS M，et al.Realistic speech animation based on observed 3D face dynamics[J].IEEE Vision， Image and Signal Processing，2005，152(4):491-500.

計算機應用研究2009年4期

計算機應用研究的其它文章: 基于色彩分量相關性的彩色圖像可擦除水印算法; 基于灰色關聯分析的圖像置亂程度評價方法; 基于形態學開閉運算和梯度優化的分水嶺算法的目標檢測方法; 基于分枝類型和空間點的三維樹木建模方法; 一種新的基于ＲＳ理論的壓縮域鏡頭分割算法; 基于改進正則算子的氣動模糊圖像復原研究