郭威彤,楊鴻武,宋繼華,顧 香,甘振業
(1.西北師范大學物理與電子工程學院,蘭州730070;2.北京師范大學信息科學與技術學院,北京100875)
·人工智能及識別技術·
面向方言語音合成的文本分析研究
郭威彤1,楊鴻武1,宋繼華2,顧 香1,甘振業1
(1.西北師范大學物理與電子工程學院,蘭州730070;2.北京師范大學信息科學與技術學院,北京100875)
為實現方言的統計參數語音合成,提出一種從文字到方言讀音的文本分析方法。通過對比普通話和方言在聲韻母方面的發音異同,設計方言的語音評估方法音標字母(SAMPA),用來標注方言聲韻母的讀音,得到從普通話讀音到方言讀音的轉換規則。對輸入的漢語文本進行分析,獲得語法詞、聲母、韻母信息,使用基于轉換的錯誤驅動學習算法獲得語句的韻律詞和韻律短語邊界,利用普通話讀音到方言讀音的轉換規則,獲得方言發音的SAMPA音標,從而將輸入的文本轉換為統計參數語音合成所需的上下文相關標注。測試結果表明,該方法能較為準確地生成上下文相關標注。
文本分析;字音轉換;語音評估方法音標字母;語音合成;語法分析
語音合成[1]作為一種新的信息傳遞技術,已被應用在人機交互中。然而,不同民族、不同國家有自己不同的語言,因此,多語種的語音合成成為了人機語音交互領域的研究熱點[2-3]。
目前,漢語普通話的語音合成系統已經比較成熟,可以合成出自然度、可懂度較高的語音,這很大程度上是因為有比較完善的漢語文本分析系統,可以正確地將輸入的漢語文本轉換為拼音。文本分析首先將輸入的文本進行規范化處理,獲得特殊符號的讀音。進而對文本進行分詞,獲得文本的詞邊界和詞性。在此基礎上,通過韻律預測,獲得文本的韻律邊界信息。最后,利用字音轉換獲得文本的正確讀音。文獻[4]利用數據驅動的方法,采用二元文法對文本進行分詞,并訓練韻律結構預測模型。文獻[5]對輸入文本進行分詞及詞性標注,利用句法分析樹進行實體識別及搭配詞識別。文獻[6]通過在文本分析結果的基礎上,引入韻律節奏的預測機制,實現了文本處理和韻律預測的融合。文獻[7]提出一種基于支持向量機(Support Vector Machine,SVM)的多音字規則自動調整體系,有效地處理了漢語多音字的問題。以上的研究工作提高了漢語普通話文本分析的準確性。
中國是一個地域遼闊,方言和民族語言豐富的國家,大多數人說的都是方言或者是帶方言口音的普通話。因此,研究普通話到方言的跨語言語音合成,實現同一個說話人的普通話、方言和帶方言口音的普通話語音的語音合成對于自然友好的人機交互有重要的意義。近年來,對于面向語音合成的民族語言的文本分析,已經展開了研究。如文獻[8]實現了正向和逆向的最大匹配藏文分詞算法,文獻[9]采用最大匹配法和分詞詞庫相結合的方法實現藏語文本的自動分詞,文獻[10]總結了維吾爾語的音節劃分規則、詞根詞綴的劃分規則以及韻律變化規則。但是現有研究缺少對方言的標準字音轉換的分析,缺乏對方言特殊發音的考慮,無法獲得方言準確的韻律上下文的信息,從而不能合成出自然的方言語音。目前已實現了中英文混合語音合成[11]以及普通話到閩方言中臺灣話的語音轉換[12],在方言的語音合成中,雖然實現了華北方言中聊城話[13]、沈陽話[14]、天津話[15]、蘭州話[16]的語音合成,但只是利用語音修改技術,將普通話的韻律修改為方言的韻律,不能合成出方言特有的讀音。
普通話和蘭銀官話是甘肅地區的主要語言,而蘭州方言又是蘭銀官話的一個重要代表。本文在漢語文本分析的基礎上,進行普通話和蘭州方言混合語言的文本分析,為面向基于隱馬爾可夫模型(Hidden Markov Model,HMM)[17]的語音合成系統提供上下文相關的標注,從而實現方言/普通話的混合語言語音合成。
語音評估方法音標字母(Speech Assessment Methods Phonetic Alphabet,SAMPA),即機讀音標,是歐洲的ESPRIT開發的一種計算機可讀的音標系統,用ASCII字符表示國際音標的所有符號,表示世界上各種語言。本文利用張家騄修訂完善的漢語拼音的機讀音標(SAMPA-SC)[18]的設計思想,設計蘭州方言的機讀音標(SAMPA-LZ)。通過對照普通話和蘭州方言的聲韻母的國際音標,發現兩者大部分的國際音標是相同的。因此,本文以國際音標為參考,將兩者國際音標一致的部分,直接利用漢語拼音標記蘭州方言的讀音。對于兩者國際音標不一致的部分,則采用簡單化原則,利用定義的簡單符號進行標記。設計流程如圖1所示。

圖1 蘭州方言的機讀音標設計流程
2.1 聲母
普通話共有22個輔音,其中,21個都可作聲母,另一個輔音/ng/只作韻尾。而蘭州方言共有26個聲母,其中,21個聲母的國際音標和普通話的國際音標一致。對這21個蘭州方言的聲母,直接用對應的漢語拼音來標音。如漢語拼音聲母/p/和蘭州方言聲母/p/的國際音標都是/P′/,則將蘭州方言聲母/p/的讀音標記為漢語拼音聲母/p/。
蘭州方言剩余的5個聲母是蘭州方言特有的聲母,無法用漢語拼音表示出來,但是都有相應的國際音標,用國際音標表示這5個聲母,分別是pf,pf′,v,z,no。對這5個聲母,以國際音標為基礎,根據簡單化原則,按如下方法設計SAMPA-LZ:
(1)如果國際音標(International Phonetic Alphabet,IPA)可以直接用ASCII字符表示,并且從未使用過該國際音標,則直接采用國際音標來定義蘭州方言的SAMPA-LZ。
(2)對于難以用鍵盤輸入的國際音標,使用和國際音標相近的未使用過的鍵盤符號來定義。例如蘭州方言中的聲母/no/,無法直接從鍵盤鍵入,為了和已經使用過的/n/區別,就用符號n′來表示聲母/no/。表1給出蘭州方言中特有的5個聲母的國際音標和定義的機讀音標SAMPA-LZ。

表1 蘭州方言獨有聲母的機讀音標
表1列舉漢字的蘭州方言讀音和普通話完全不同。對于這樣一些漢字,需要根據聲韻母轉換規則進行轉換。
2.2 韻母
普通話共有38個韻母,除了3個特殊的單元音韻母外,常用的韻母有35個。蘭州方言共有32個韻母,其中,有一部分韻母的發音和普通話的韻母一致,還有一些韻母是普通話沒有的。針對這些韻母,采用和聲母相似的簡單化原則,利用易于從鍵盤輸入的符號進行標音。表2列出了蘭州方言特有韻母的國際音標、對應的漢語拼音、漢語拼音的機讀音標以及定義的蘭州方言的機讀音標。

表2 蘭州方言特有韻母的機讀音標
在表2中,漢語拼音中的韻母/an/,在蘭州方言里變為韻母/,而這個韻母的國際音標與普通話的不同,因此,定義了與漢語拼音/an/的機讀音標/an/不一致的標音符號/An/來代表蘭州方言韻母其他韻母都采用同樣的方法處理。
2.3 聲調
聲調是語音必不可少的特征,具有區別意義的作用。普通話孤立音節有陰、陽、上、去和輕聲5種不同的聲調,而蘭州方言只有陰、陽、上、去4種聲調,但是兩者的調值完全不同。因此,本文利用聲調的調值作為蘭州方言聲調的機讀音標蘭州方言的機讀音標,如表3所示。

表3 蘭州方言聲調的機讀音標
2.4 基于SAM PA-LZ的拼音轉寫
在跨語言的語音合成中,需要利用文本分析將輸入的文本轉換為普通話或者方言的讀音。在本文中,首先利用普通話的文本分析,將漢字轉換成漢語拼音。然后通過對比普通話讀音和蘭州方言讀音,一致的用漢語拼音表示,對于不一致的,在基于普通話和蘭州方言聲韻母轉換規則的基礎上,利用本文定義的SAMPA-LZ標音規則,最終將漢語拼音轉換為蘭州方言的讀音。
2.4.1 普通話和蘭州方言聲韻母的轉換規則
普通話和蘭州方言在聲、韻、調上有一致的地方,但存在許多不同的發音。本文通過分析普通話和蘭州方言在聲、韻、調上的異同,總結出了41條普通話的聲韻母轉為為蘭州方言的聲韻母的轉換規則。轉換規則用統一的格式表示:“→”左邊是普通話的聲母+韻母;“→”右邊是對應的蘭州方言的聲母+韻母。普通話的聲韻母用漢語拼音表示,蘭州方言的聲韻母如果和普通話的一致,就用漢語拼音表示,不一樣的用定義的機讀音標SAMPA-LZ表示。例如,規則b,p,m,s+o,ao,ai,ei→b,p,m,s+e的意思是,如果普通話的聲母/b/,/p/,/m/,/s/和韻母/o/,/ao/,/ai/,/ei/組合,則在蘭州方言中,聲母不變,但韻母都發/e/的音。如“白”在普通話中讀/bai/,在蘭州方言中讀/be/。
2.4.2 普通話和蘭州方言聲調的轉換規則
雖然普通話和蘭州方言都有陰、陽、上、去4種聲調,但是由于兩者在每一種聲調上的調值完全不同,使得這2種語言在聽感上大相徑庭,這就是所謂的變調。普通話和蘭州方言變調規律如表4所示。

表4 普通話和蘭州方言調值變化規律
同時,本文還考慮了蘭州方言在連續語流中的變調規律:
(1)2個上聲相連時,前上變陽平51。
(2)去聲在陰平、陽平、上聲、及去聲前一律變成中平33。
(3)2個陽平字相連,前字變成中平33。
語音合成系統分為前端的自然語言處理和后端的語音信號生成2個部分。自然語言處理主要包括文本分析模塊和韻律生成模塊。在整個語音合成系統中,文本分析起著關鍵性的作用。文本分析的結果直接影響韻律預測的準確性和合成語音的自然度。本文以聲韻母作為合成基元,利用普通話的文本分析,在語法規則知識庫和語法詞典的指導下,通過文本規范化、語法分析和韻律邊界預測,獲得輸入文本的普通話拼音、詞邊界信息、韻律邊界信息和語句信息。然后利用蘭州方言的標音系統,修改與普通話發音不一致的拼音。進而根據蘭州方言聲韻母組合的變音規律,實現蘭州方言的變音處理,得到輸入文本的蘭州方言讀音。在此基礎上,利用文本分析獲得的上下文信息,生成語音合成后端所需要的上下文相關標注。圖2給出了普通話和蘭州方言的文本分析流程。

圖2 普通話和蘭州方言文本分析流程
語音合成后端利用上下文相關的標注生成聲韻母的語音信號,而上下文相關的標注中最關鍵的信息是聲韻母的讀音,以及聲韻母的上下文相關信息。普通話和蘭州方言有相同的上下文信息,因此,利用普通話的文本分析,經過文本規范化、語法分析和韻律邊界預測,即可獲得蘭州方言的上下文相關信息。但是,因為蘭州方言有部分發音與普通話不同,無法用漢語拼音來表示這些特殊發音。對于這樣一些特殊發音的蘭州方言的聲韻母,利用蘭州方言的機讀音標進行標音。對于輸入的漢語文本,通過遍歷語法詞典將文字序列轉換成普通話的拼音序列,從而獲得普通話的聲韻母讀音,然后查找機讀音標SAMPA-LZ修改特殊的蘭州方言讀音,結合文本分析得到的詞信息、韻律邊界信息和聲調信息,最終得到蘭州方言的上下文相關標注。
3.1 文本規范
文本規范就是將非漢字字符串轉換成漢字串以確定讀音的過程[19]。對輸入文本進行分析,將文本中除中文字符以外的非標準詞,如英文字符、數字字符以及符號字符轉換成對應的漢字。
文本規范的處理效果直接影響著文本拼音信息的正確性。一個非標準詞在不同的上下文可能對應不同的標準發音,所以,必須從特殊符號出發,提取有用的上下文信息,歸納出在特定環境下的不同處理策略。如“985高校”需要按照字符串規范記為“九八五”,而“985名教師”則需按照數字規范為“九百八十五”。本文利用有限狀態自動機方法,采用最長匹配策略,利用詞典從真實文本中將最長串識別為非標準詞。然后,采用最大熵算法的統計模型,選取適當的特征模板訓練建模,同時,設定一定規則,對部分非標準詞消岐,最后,再次通過遍歷詞典,產生非標準詞的標準拼音。
有時文本規范對符號的理解不能簡單通過上下文確定。可將不同文本規范化的結果全部保存,在后續的處理過程中獲得了足夠的信息后,根據一定的準則再做判斷。
3.2 語法分析
目前語法分析多以句子為劃分對象而不是以整篇文本作為劃分對象,所以,首先要對文本進行句子劃分。本文確定句子邊界的基本思路是利用標點符號。對于純漢語文本來說,能確定句子邊界的符號有“,”“。”“、”“?”“:”“;”“!”等。在句子邊界確定以后,利用N元文法模型,結合動態規劃(dynamic Programming,DP)算法來完成分詞。假定一個單詞出現的概率分布只與這個詞前面的n-1個單詞有關,與更早出現的無關,即:

其中,w1,w2,…,wn表示詞串;Wopt表示最優詞語序列。然后根據每個詞與相鄰詞的結合概率,從各種可能的組合中找出概率最大的詞串作為劃分結果。本文使用來自人民日報語料庫的56 382個詞條的詞典和一個多音字字典,將劃分出的詞查詞典來確定拼音。
3.3 韻律邊界預測
準確的韻律特征是合成高質量語音的保證,獲取準確的韻律結構是獲得準確韻律特征的保證。漢語的韻律層級分別是韻律詞、韻律短語和語調短語。一般來說,語調短語的邊界容易判斷,基本上可以認為標點符號(逗號、句號、問號、感嘆號等斷句標點符號)就是語調短語的邊界。對于韻律詞邊界和韻律短語邊界,本文基于鄰接度(Adjacent Degree,AD)特征描述語法結構和韻律結構的關系,利用基于轉換的錯誤驅動學習算法(Transformation-based Error D riven Learning Algorithm,TBL)實現韻律詞和韻律短語的預測[20]。
本文選取前一個語法詞、當前語法詞和后一個語法詞的詞長、詞性,以及均勻分布模型產生的韻律詞預分類信息作為韻律邊界預測的輸入特征。定義300多條韻律規則模板,利用貪婪搜索算法對樣本的輸入特征及樣本上下文的輸入特征進行搜索,將搜索到的實例特征填入相應的模板規則中。在遍歷完模板中的所有模版規則后,就得到了該樣本的實例化規則。針對文本中的每一個樣本重復以上的搜索過程后,就得到所有樣本的完整實例化規則集,利用TBL算法實現對未標注文本韻律邊界的預測。
為了驗證本文提出的文本分析方法能夠正確產生方言語音合成所需的上下文相關的信息,選取普通話和蘭州方言的所有聲韻母以及靜音和停頓作為上下文相關的語音合成基元,設計了一套上下文標注格式,用來標注每個合成基元的聲韻母層、音節層、詞層、韻律詞層、韻律短語層和語句層的上下文相關特征,如表5所示。

表5 上下文相關的標注格式
表中小寫字母是變量(指代包括音段信息、聲調信息、位置信息、詞性信息、句型信息等);大寫的字母是不同標注層的標示符號;“+”,“-”等符號用于區分不同模式串。
普通話和蘭州方言采用相同的上下文相關的標注格式。P1~P7表示在基元層每一個聲韻母的相關信息;P3表示當前的聲韻母;P2是P3的前一個聲韻母;P4是P3的后一個聲韻母;P1表示P2的前一個聲韻母;P5表示P4的后一個聲韻母;P6,P7表示P3所處的音節中的前后位置;在音節層到詞語層分別用大寫字母A~M表示。在音節層,A表示前一個音節;B表示當前音節;C表示后一個音節,在所表示的音節內不同符號分別表示音節的聲韻母信息和聲調信息。在詞層,D表示前一個詞;E表示當前詞;F表示后一個詞,分別給出了詞的位置信息和所包含的音節數信息。同樣,G,H,I表示韻律詞層,包含韻律詞的位置信息與韻律詞中包含的字信息。用J,K,L表示韻律短語層,包韻律短語的位置信息,以及韻律短語中包含的詞和韻律詞的信息。M表示語句層,包含語句中所含的音節、詞、韻律詞、韻律短語的數量信息以及語句的句型信息。陳述句用d表示,疑問句用q表示,祈使句用i表示,感嘆句用e表示。
在上下文相關的標注格式里,不僅考慮合成基元各個層級的上下文相關特征,還涉及靜音和停頓部分。靜音段和停頓段的表示如表6所示。

表6 靜音與停頓的符號
對于輸入的漢語語句,首先利用文本分析獲得每個音節的蘭州方言聲韻母信息,組成訓練聲學模型所需的單音素標注文件。同時,利用TBL算法獲得語句的韻律詞和韻律邊界信息。在此基礎上,利用單音素標注、韻律邊界信息和文本分析獲得的詞信息,生成上下文相關的標注文件,用于聲學模型的訓練和語音合成。圖3給出了漢語語句“春天像個小姑娘花枝招展的笑著”的部分上下文相關標注,包括單音素標注中的所有聲、韻母和音節層的上下文相關信息,省略了其他各層信息。如圖3的第3行中的“sil^ch-un+t=iaN”表示當前韻母/un/的前一個音素為/ch/;前前音素為sil;后一個音素為/t/;后后音素為/iaN/。可以看出,文本分析程序正確地獲得了漢語語句的方言發音信息。根據表5可知,“/A”,“/B”,“/C”分別表示當前韻母/un/的前一個音節、當前音節和后一個音節的上下文信息,這也與“春”字韻母的上下文相關信息是一致的,表明文本分析正確地獲得了方言的聲韻母信息以及每個聲韻母所在的上下文相關信息。

圖3 部分上下文相關標注的測試結果
本文對輸入的漢語語句,先后經過文本規范、語法分析、韻律邊界預測3個過程的處理,實現了普通話的字音轉換,并得到普通話合成基元的聲韻母層、音節層、詞層、韻律詞層、韻律短語層以及語句層的上下文相關信息。通過對比普通話和蘭州方言的聲韻母,定義一套標記蘭州方言特有發音的標音符號SAM PA-LZ,總結了普通話到蘭州方言的聲韻母轉換規則,并利用轉換規則將普通話的聲韻母轉換成蘭州方言的聲韻母,從而實現了方言的字音轉換。在此基礎上,利用蘭州方言的聲韻母和文本分析、韻律預測獲得的上下文信息,產生了用于語音合成的上下文相關標注。同時,利用上下文相關的信息設計一套用于聲學模型聚類的決策樹問題集。
[1] Chu M in,Lu Shinan.A Text-to-Speech System with High Intelligibility and High Naturalness for Chinese[J]. Chinese Journal of Acoustics,1996,15(1):81-90.
[2] Bourlard H,Dines J,Majim ai-Doss M,et al.Current Trends in Multilingual Speech Processing[J].Sadhana,2011,36(5):885-915.
[3] Yang Hongwu,Keiichiro O,Gan Zhenye,et al.Realizing Tibetan Speech Synthesis by Speaker Adaptive Training[C]// Proceedings of Signal and Information Pro-cessing Association Annual Summ it and Conference.Washington D.C.,USA:IEEE Press,2013:1-4.
[4] 李曉紅.面向語音合成的文本處理技術的改進[D].北京:北京交通大學,2010.
[5] 姚金國,代志龍.基于文本分析的知識獲取系統設計與實現[J].計算機工程,2011,37(2):157-159.
[6] 陶建華,蔡蓮紅,趙 晟.漢語語音合成中的文本分析和韻律處理[C]//中國中文信息學會20周年學術會議論文集.北京:清華大學出版社,2001:272-279.
[7] 陳志剛.中文語音合成系統中文本分析的若干關鍵技術[D].合肥:中國科學技術大學,2003.
[8] 索南扎西.藏語語音合成關鍵技術研究[D].拉薩:西藏大學,2011.
[9] 高 璐,陳 琪,李永宏,等.藏語語音合成中文本分析的若干問題的研究[J].西北民族大學學報:自然科學版,2010,31(2):27-33.
[10] 馬 歡,吾守爾·斯拉木.維吾爾語文語轉換系統文本分析模塊初探[J].計算機工程,2006,32(16):267-268.
[11] 姚金國,代志龍.基于HCSIPA的中英文混合語音合成[J].計算機工程,2013,39(4):14-17.
[12] Pan Nenghuang,Yu Mingshi,Tsai Z.A Chinese to Taiwanese Text-to-Speech System[J].Communications of Institute of Information and Computing Machinery,2008,11(4):27-38.
[13] 李 明,蔡蓮紅,李 勇,等.普通話與聊城話的聲學特征對比及轉換[C]//第7屆中國語音學學術會議暨語音學前沿問題國際論壇論文集.北京:北京大學出版社,2006:1-4.
[14] 賈 珈,蔡蓮紅,李 明,等.漢語普通話與沈陽方言轉換的研究[J].清華大學學報:自然科學版,2009,49(S1):1309-1315.
[15] 王 兵,蘇恩澤.天津話語音合成系統[J].計算技術與自動化,1995,14(4):37-39.
[16] Guo Weitong,Yang Hongwu,Pei Dong,et al.Prosody Conversion of Chinese Northw est Mandarin Dialect Based on Five Degree Tone Model[J].JDCTA:International Journal of Digital Content Technology and Its Applications,2012,6(17):323-332.
[17] Zen Hega,Tokuda K,Black A.Statistical Parametric Speech Synthesis[J].Speech Communication,2009,51(11):1039-1064.
[18] 張家騄.漢語普通話機讀音標SAMPA-SC[J].聲學學報,2009,34(1):81-86.
[19] 賈玉祥,黃德智,劉 武.中文語音合成中的文本正則化研究[J].中文信息學報,2008,22(5):45-51.
[20] 楊鴻武,朱 玲.基于句法特征的漢語韻律邊界預測[J].西北師范大學學報:自然科學版,2013,49(1):41-45.
編輯 劉 冰
Research on Text Analysis for Dialect SPeech Synthesis
GUO Weitong1,YANG Hongwu1,SONG Jihua2,GU Xiang1,GAN Zhenye1
(1.College of Physics and Electronic Engineering,Northwest Norm al University,Lanzhou 730070,China;2.College of Information Science and Technology,Beijing Norm al University,Beijing 100875,China)
A text analysis method for converting grapheme to dialect phoneme is proposed for statistical parametric dialect speech synthesis.A set of Speech Assessment Methods Phonetic Alphabet(SAMPA)-based symbols are designed for labeling pronunciation of dialect by com paring the differences between Mandarin and dialect.A set of conversion rules is also designed that can transform Mandarin pronunciation to dialect pronunciation.The text analysis is conducted for Chinese sentences to obtain lexicon words and their initials and finals.A transformation-based error driven learning algorithm is used to obtain the prosodic words and prosodic phrases boundaries.The conversion rules are employed to obtain the SAMPA of dialect initials and dialect finals.The input sentences are converted into context-dependent labels. Test result show s that the proposed method can generate correct context-dependent labels.
text analysis;grapheme-to-phoneme conversion;Speech Assessment Methods Phonetic Alphabet(SAMPA);speech synthesis;syntactic analysis
郭威彤,楊鴻武,宋繼華,等.面向方言語音合成的文本分析研究[J].計算機工程,2015,41(9):184-189.
英文引用格式:Guo Weitong,Yang Hongwu,Song Jihua,et al.Research on Text Analysis for Dialect Speech Synthesis[J].Computer Engineering,2015,41(9):184-189.
1000-3428(2015)09-0184-06
A
TP391
10.3969/j.issn.1000-3428.2015.09.034
國家自然科學基金資助項目(61263036,61262055);甘肅省杰出青年基金資助項目(1210RJDA 007);甘肅省青年科技研究計劃基金資助項目(1208RJYA078);西北師范大學青年教師科研能力提升計劃基金資助項目(NWNU-LKQN-12-27)。
郭威彤(1982-),女,碩士研究生,主研方向:自然語言處理,模式識別;楊鴻武(通訊作者)、宋繼華,教授、博士;顧 香,碩士研究生;甘振業,副教授、博士。
2014-09-11
2014-10-21 E-m ail:guow t@nw nu.edu.cn