基于語音信號的發音器官運動估計方法綜述

2018-05-07 08:34:39汪洋李紹彬邊潔蕊

中國傳媒大學學報(自然科學版) 2018年1期

汪洋，李紹彬，邊潔蕊

(中國傳媒大學信息工程學院，北京100024)

1 引言

基于語音信號的發音器官運動估計，又稱語音反轉(Speech Inversion)，是根據說話人語音推斷嘴唇、下頜、面部肌肉、舌頭等發音器官運動過程的技術，綜合了語音信號處理、生理語音學、計算機視覺、圖形學等多學科前沿知識，在語言教學、發音矯正、醫學、影視動畫制作等方面有著廣闊的應用前景。

語音信號的發音器官運動估計技術，近年來受到了各領域研究者的廣泛關注，近期的研究趨向于綜合考慮語音現象、聲學現象等多維度特征對估計結果的影響，將語音規則和信號處理的前沿技術結合起來解決發音器官運動估計問題，取到了較多研究成果。

本文主要對基于單元選擇模型和回歸模型的方法進行介紹。

2 單元選擇模型法

單元選擇模型(Unit Selection Model)又稱碼本模型(Codebook Model)，該模型先將用于估計的目標語音切分為若干語音單元，再從預先建立的碼本庫中選擇出與各語音單元相匹配的運動數據，將選擇的運動數據按照目標語音順序排列成序列，最后應用重采樣、內插平滑等拼接合成算法生成運動軌跡。

碼本庫建設是單元選擇模型的關鍵。碼本庫建設首先進行參測實驗，參測實驗同步記錄了說話人的發音器官運動數據和語音信號。運動捕捉、醫學成像、電磁發音記錄(Electromagnetic Articulometer，EMA)等技術被廣泛應用于發音器官的運動觀測。語音規律復雜，同一個音素在不同的語音環境中會有不同的發音表現，碼本庫豐富程度將直接影響最終運動呈現逼真程度。

圖1 單元選擇模型

Yu等人[8]為了解決語音反轉過程中估算聲道長度問題，利用聚類方法設計了一個“聲學參數-運動數據”碼本庫。還有許多研究者做了碼本庫的建設與研究[3-7]。

運動數據序列生成是單元選擇模型的核心，主要包括語音單元切分和選擇算法設計兩項技術。

Minnis等人[6]設計了一種基于3D運動數據捕捉的單元選擇方法。與傳統的根據語言先驗知識將語音劃分為音素或音節的做法不同，這種方法是根據碼本庫中音素上下文環境和目標音素上下文環境的一致性來確定語音單元的。研究者將語音單元定義為“可變長語音段”，在選擇算法實現過程中確定語音單元的劃分。Cao等人[7]也提出了類似方法，所設計的系統會在所有可能的候選語音段中選擇最長的語音段，這樣做的目的是最小化目標語音所分割的段數。

Suzuki等人[4]建立的碼本庫中記錄了語音信號的譜段(Spectrum Segments)信息，提出了一種發音參數路徑平滑程度的計算方法，利用譜段距離和路徑平滑程度兩個約束條件來完成輸入語音和碼本庫中的參數匹配。在之后的研究[9]中利用隱馬爾可夫模型(Hidden Markov Model，HMM)統計聲學特征與發音器官運動參數關系。Wei等人[10]采用深度自編碼算法建立了一種深度神經網絡框架來研究元音的聲學特征和舌頭的超聲波圖像間的一一映射。Edge等人[5]根據音素在不同上下文環境中發音表現不同，提出動態音素(Dynamic Phonemes)的概念，并基于此改進了單元選擇算法。研究者計算碼本庫中每個音素單元之間的轉移概率；再將給定的目標語音切分成音素單元，利用維特比算法(Viterbi Algorithm)從碼本庫中找出最有可能的音素序列。

運動軌跡合成是單元選擇模型的難點。為了實現運動數據單元間自然逼真的平滑過渡，許多研究者做了大量工作。

Edge等人[5]將序列重新采樣和回放產生動畫，整個過程中沒有內插或對幀進行處理，最終的動畫僅是來自各碼本中動畫幀的重新排序。江辰等人[11]采用Sigmoid函數算法完成了序列間的內插和平滑。Cohen和Massaro提出的Cohen-Massaro協同發音模型[13]在此類問題中有優異表現，被廣泛引用。Klir等人[15]提出了模糊邏輯(Fuzzy Logic)算法，利用數學工具優化了合成過程。

單元選擇模型中建立碼本庫是非常繁瑣復雜的工作，需要有經驗的語言工作者進行大量的參測實驗，遴選樣本，并人工切分和標記單元。近年來，自動標記工具的出現大大減輕了研究者的工作量，但還需要人工核對勘誤。單元選擇模型只適用于單一語種，更換語種時需要重新建立碼本庫。另外單元選擇模型在不同受測者中的泛化能力較差，因為每個說話人有不同的發音習慣和方言口音，碼本庫很難涵蓋所有語音現象。

3 回歸模型法

回歸模型(Regression Model)應用合適的回歸算法建立模型，使用大規模數據集訓練模型，使得模型可以較好地“理解”語音聲學特征與運動數據間的擬合關系。

圖2 回歸模型

大多數回歸模型忽略語音的語法規律，僅僅尋找聲學特征與運動信息之間的映射關系。

Zelezny等人[16]為了擬合聲音和模型動畫關鍵幀上唇部、下頜標定點位置關系，建立了一個4狀態、由左向右的HMM，再利用Cohen-Massaro協同發音模型[13]在關鍵幀間進行插值，完成標記點的平滑運動。HMM常被用于處理該類問題[17-19]。

Naraghi等人[20]建立了雙鏈隱馬爾可夫模型(Parallel Hidden Markov Model)實現了基于語音信號的唇部動畫合成，還提出了一種形變算法用于動畫的平滑處理。

Wielgat等人[21]利用動態時間規整(Dynamic Time Warping，DWT)算法實現語音信號和EMA數據的擬合，并且證明了在小數據集條件下，該方法比HMM表現更佳。

Malcangi等人[22]建立人工神經網絡(Artificial Neural Network，ANN)來擬合關鍵幀上運動值，并利用模糊邏輯算法[13]做內插，平滑運動軌跡。Luo等人[14]利用深度信念網絡(Deep Belief Network，DBN)實現語音反轉，提取語音的梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients，MFCC)及其衍生參數與EMA數據匹配。

Li[23]等人提出了一種方向相對位移(Directional Relative Displacement，DRD)特征提取方法來處理唇部、下頜和舌頭的EMA運動數據。研究者在空間建立坐標系，提出了一組由嘴唇寬度、上下唇距離和各個EMA傳感器方向相對位移等11個標準化參數構成的特征集合，再利用HMM尋找聲音特征和特征集合的回歸關系。

Tobing等人[29]提出了一種潛在軌跡高斯混合模型(Latent Trajectory Gaussian Mixture Model，LT-GMM)來處運動數據估計問題。傳統的基于GMM的最大釋然法，在訓練階段最優化GMM時會利用“語音信號-運動數據”數據集中的靜態和動態特征，但在估計運動軌跡時只會利用靜態特征，因為訓練時和數據估計時所利用的特征空間不一致，GMM在這類問題中表現不佳，許多研究者在GMM的基礎上再利用動態特征和靜態特征的約束關系來優化幀間關聯[24-28]，但這種方法繁瑣麻煩。Patrick設計的模型利用最大期望算法優化參數，解決了特征空間不一致問題，并利用實驗證明了LT-GMM在處理運動軌跡估計時優于傳統方法。

近年來，一些研究者受選擇模型的啟發，將音素標定等方法應用于回歸模型，目的是增加模型的先驗知識，提高準確率。

Tamura等人[30]將語音劃分到音節層級，利用一個4狀態、由左向右的HMM研究各個音節和簡單幾何特征之間的關系。Taylor等人[31]利用帶有音素標簽的語音作為輸入，采用一種改進的動態外觀模型(Active Appearance Models，AAM)[32]跟蹤唇部運動，并確定視頻上的單元長度，訓練HMM生成與音素對應的可變長動態唇部運動數據單元。Kuhnke等人[33]提出了一種基于音素標簽和聲學特征的新方法來構建語音特征集，并利用一種通用的隨機森林方法[34]測試了語音特征集和3D網格序列間的回歸關系。

回歸模型是一個計算機自己從大量語料中學習規律的過程，盡管有改進算法也應用了語音規則，但往往研究者也很難說清楚計算機在做擬合過程中應用了哪些語音規律。近年來深度學習算法被廣泛應用，在此類問題中也有較好表現，但是深度學習算法需要的數據量異常巨大。回歸模型對語種的依賴程度較低。

4 總結

本文介紹了基于語音信號的發音器官運動估計技術的研究現狀，重點闡述了基于單元選擇模型和回歸模型的方法。

單元選擇模型對特定語種的語音規律和特定人的發音習慣依賴性高，在不同語種和不同發音口音人群中的泛化能力較差。模型中，碼本庫豐富程度將直接影響最終運動呈現逼真程度，但是大型碼本庫建設是極其繁重的工作。

回歸模型主要尋找聲學特征和運動軌跡之間的擬合關系，對語種和說話人口音依賴性較低，回歸模型通常需要大量的訓練數據。近年來，研究者利用將語音規律和回歸算法結合的方法設計模型，取得了較好效果。

基于語音信號的發音器官運動估計技術近年來雖然取得了較大進展，但是仍然有許多問題需要解決，如：如何將語音規則和回歸算法更好結合？如何設計出利用較小數據集訓練的精巧模型?如何提高運動軌跡合成的精度和真實程度?這些問題將是今后的研究重點。

[1]M Schroeder.A brief history of synthetic speech[C].Speech Communication，1993，13(1)：231-237.

[2]T Dutoit.An introduction to text-to-speech synthesis[M].Netherlands：Kluwer Academic，1997.

[3]P Meyer，J Schroeter，M M Sondhi.Design and evaluation of optimal cepstral lifters for accessing articulatory codebooks[C].IEEE Trans ASSP，1991，39(7)：1493-1502.

[4]S Suzuki，T Okadome，M Honda.Determination of articulatory positions from speech acoustics by applying dynamic articulatory constraints[C].Proceedings of Int Conf Spoken Language Processing，1998.

[5]J D Edge，A Hilton.Visual speech synthesis from 3d video[C].European Conference Visual Media Production，2006，174-179.

[6]S Minnis，A P Breen.Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis[C].International Conference on Spoken Language Processing，2000，759-762.

[7]Y Cao，P Faloutsos，E Kohler，F Pighin.Real-time speech motion synthesis from recorded motions[C].ACM SIGGRAPH/Eurographics symposium on Computer animation，2004，345-353.

[8]Z L Yu，S C Zeng.Acoustic-to-articulatory mapping codebook constraint for determining vocal-tract length for inverse speech problem and articulatory synthesis[C].5th international conference on signal processing proceedings，2000，827-830.

[9]S Hiroya，M Honda.Estimation of articulatory movements from speech acoustics using an HMM-based speech production model[J].IEEE Trans Speech Audio Process，2004，12(2)：175-185.

[10]J Wei，Q Fang，X Zheng，W Lu，Y He，J Dang.Mapping ultrasound-based articulatory images and vowel sounds with deep neural network framework[J].Multimed Tools Appl，2016，(75)：5223-5245.

[11]江辰，於俊，羅常偉，李睿，汪增福.基于生理舌頭模型的語音可視化系統[J].中國圖象圖形學報，2015，20(9)：1237-1246.

[12]W Mattheyses，W Verhelst.Audiovisual speech synthesis：an overview of the state-of-the-art[C].Speech Communication，2014，(66)：182-217.

[13]M M Cohen，D W Massaro.Models and Techniques in Computer Animation[M].Springer-Verlag，1993，139-156.

[14]R Luo，Q Fang，J Wei.Acoustic VR in the mouth：A real-time speech-driven visual tongue system[J].Virtual Reality，IEEE，2017，112-121.

[15]G Klir，B Yuan.Fuzzy sets and fuzzy logic[M].Prentice Hall，1995.

[16]M Zelezny，Z Krnoul，P Cisar，J Matousek.Design，implementation and evaluation of the czech realistic audio-visual speech synthesis[J].Signal Processing，2006，86(12)：3657-3673.

[17]S Hiroya，M Honda.Estimation of articulatory movements from speech acoustics using an HMM based speech production model[J].IEEE Trans SAP，2004，12(2)：175-185.

[18]K Richmond.Advances in Nonlinear Speech Processing Lecture Notes in Computer Science[J].Trajectory Mixture Density Networks，2007，4885：263-272.

[19]T Hueber，A Ben，G Bailly，P Badin，F Eliséi.Cross-speaker Acoustic-to-Articulatory Inversion using Phone-based Trajectory HMM for Pronunciation Training[C].Proceedings of Interspeech，2012.

[20]Z Naraghi，M Jamzad.Speech driven lips animation for the Farsi language[C].International Symposium on Artificial Intelligence and Signal Processing，2015，201-205.

[21]R Wielgat，A Lorenc.Speech inversion by dynamic time warping method[C].International Conference on Signals and Electronic Systems，2016，81-84.

[22]M Malcangi.Text-driven avatars based on artificial neural networks and fuzzy logic[J].International journal of computers，2010，4(2)：61-69.

[23]H Li，M H Yang，J H Tao.Speaker-independent lips and tongue visualization of vowels[C].Proceedings of ICASSP，2013，8106-8110.

[24]H Zen，K Tokuda，T Kitamura.Reformulating the HMM as a trajectory model by imposing explicit relationship between static and dynamic feature vector sequences[J].Computer Speech and Language，2007，21(1)：760-764.

[25]T Toda，S Young.Trajectory training considering global variance for HMM-based speech synthesis[C].Proc ICCASP，2009，4025-4028.

[26]S Takamichi，T Toda，A W Black，S Nakamura.Modulation spectrum-constrained rajectory training algorithm for GMMbased voice conversion[C].Proc ICCASP，2015，4859-4863.

[27]C W Luo，J Yu，X Li，Z F Wang.Real Time Speech-Driven Facial Animation Using Gaussian Mixture Models[C].International Conference on Multimedia and Expo Workshops，2014，1-6.

[28]C W Luo，J Yu，Z F Wang.Synthesizing Real-Time Speech-Driven Facial Animation[C].International Conference on Acoustics，Speech and Signal Processing，2014，4568-4572.

[29]P L Tobing，H K Toda，H Kameoka，S Nakamur.Acoustic-to-Articulatory Inversion Mapping based on Latent Trajectory Gaussian Mixture Model[C].Inter Speech，2016，8(12)：953-957.

[30]M Tamura，T Masuko，T Kobayashi，K Tokuda.Visual speech synthesis based on parameter generation from hmm：Speech-driven and text-and-speech-driven approaches[C].International Conference on Auditory-Visual Speech Processing，1998，221-226.

[31]S Taylor，M Mahler，B Theobald，I Matthews.Dynamic units of visual speech[C].ACM/ Eurographics Symposium on Computer Animation，2012，275-284.

[32]I Matthews，S Baker.Active appearance models revisited[J].International Journal of Computer Vision，2004，60(2)：135-164.

[33]F Kuhnke，J Ostermann.Visual speech synthesis form 3D mesh sequences driven by combined speech features[C].Proceeding of the IEEE International Conference on Multimedia and Expo，2017，1075-1080.

[34]T Kim，Y S Yue，S Taylor，I Matthews.A Decision Tree Framework for Spatiotemporal Sequence Prediction[C].Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，2015，577-586.