鄭紅娜
摘要: 本文通過電磁發音儀(Electro Magnetic Articulography,EMA)AG500,以200幀/秒的采樣率采集了英語和漢語的標準發音動作數據,然而,交叉語言比較的首要任務就是要消除特定說話人聲道特性及其它個人生理特性等音素而引起的固有差別,本文采用了基于說話人歸一化的普氏算法來進行說話人歸一化處理,獲得了英漢相似音素發音的元音對比最小對,最后成功揭示了2種語言易混淆元音發音文本對在口腔內外發音動作上的區別。
關鍵詞:發音動作; 電磁發音儀(EMA)AG500; 中英文交叉語言; 普氏變換; 對比最小對
中圖分類號: TP393
文獻標志碼: A
文章編號: 2095-2163(2016)06-0081-03
0引言
語音是一種多模式的通信形態,包括視覺、聽覺、觸覺等自然模式,以及大腦電極活動、電磁活動等非自然模式[1]。除了整體表現出物理屬性和社會屬性外,語音還具有相應的生理屬性[2]。近年來,隨著發音動作觀測技術的快速發展,越來越多的研究開始關注語音的生理屬性,語音可視化就是在上述背景下得以創立并已進入深度探索的一門重要的基礎功能技術。
在眾多發音動作觀測的新技術中,電磁發音儀(Electro Magnetic Articulography,EMA)是研究微小復雜動作的專用設備。該儀器可逼真模擬多數情況下不易察覺的舌頭、軟腭等發音器官運動的發音動作[3]。
為了糾正英語和普通話發音中的常見錯誤,需要生成英漢雙語的發音文本,從而有效地幫助母語為漢語的學習者學習英語發音,反之也可同樣幫助母語為英語的學習者學習漢語普通話。另外,根據第二語言學習的有關研究可知,母語對第二語言的學習有一定的副作用[4],例如,當以漢語為母語的主體在學習英語時,那些英語音素常會被一個母語中的類似音素替代。
綜合以上分析論述可知,有必要通過交叉語言對比的方法探尋得到英語和漢語中易被第二語言學習者錯發或漏發的發音文本對,并有針對性地展開交叉對比研究。本文即針對這一研究內容給出如下闡釋分析。
[BT4]1經驗法獲得中英文三維發音動作文本
為了獲得一個雙語的EMA發音動作數據庫,提取中英文發音動作的特征,分別采集了普通話和英語的三維多通道EMA發音動作數據,數據采集者分別是2名本土的女性說話人。
首先,研究以《英語發音字典》[5]、《語音學》[6]、《標準漢語》[7]和《標準漢語語音學》[8]為準則選出2種語言中特有的音素(漢語中不存在的英語音素以及英語中不存在的漢語音素,及其相近音素)。表1中列出了這些音素,表中的所有音素都用國際音標(International Phonetic Alphabet,IPA)的符號規范書寫。
由表1中的音素對可知,經驗的易混淆元音音素包括5個中文元音、7個英文元音,共計12個易混淆的元音音素。這些音素對在聽覺上將難于辨識,然而,其舌頭和唇部的發音動作卻存在著明顯差異。各音素對的圖形對比如圖1所示。
圖1描繪了中英文的元音的相似音素的靜態幀和關鍵幀,圖中所有音素的靜態幀都選為同一幀,用虛線標示;英語音素的關鍵幀用實線標示;而普通話的關鍵幀用點劃線標示。圖中用T1、T2、T3分別標示了舌尖、舌體和舌后3個數據采集點,而用L1、L2和L4分別標示了左嘴角、上唇和下唇3個離散數據采集點。
分析圖1可知:這些易混淆的音素具有相同的發音部位,但是其發音方法和發音動作(包括唇形、舌位舌頭與牙齒或上顎的接觸程度等)卻截然不同。這與已有的經驗分析結果也是一致的,例如:在元音的學習中,很多中國學生不能正確區分松元音(lax vowels)和緊元音(tense vowels),認為二者的區別僅僅是發音時長的不同,卻忽略了英語中的元音具有更加復雜的舌位。
因此,有必要進一步在發音動作的層面上區分這些易混淆的因素對,揭示這些易混淆音素對的內在聯系和區別,幫助第二語言學習者訓練并歸結到準確發音。
[BT4]2基于說話人歸一化的普氏變換
為了證實由經驗得到的中英文易混淆發音文本對,并精確衡定這些易混淆發音文本對,從而揭示這2種語言相似發音文本在發音動作上的根本區別,則需要進行量化的交叉語言比較。然而,量化的交叉語言比較的一個主要的問題是如何克服、且消除由說話人本身的特性(包括由特定說話人聲道特性及其它個人生理特性等因素)所帶來的固有差別。
基于這一研究需求,本文采用了基于說話人歸一化的普氏變換(Procrustes transformation)算法。該算法是由原多點物向目標多點物的線性幾何變換,普氏變換由旋轉變換、尺度變換和平移變換組成,其誤差度量是最小均方根誤差[9]。
假設研究時需將原說話人的發音動作數據D1變換到目的說話人的發音動作數據D2,而D1的歸一化數據為D3;由旋轉變換、尺度變換和平移變換組成的混合變換則如公式(1)所示:
[HT5SS]D3=[WT5HX]H[WT5BX]D1a+b[HT5”SS][JY](1)
其中,歸一化參數([WT5”HX]H[WT5”BX],a,b)由目標數據D2和原數據的歸一化數據D3之間的最小均方根誤差進行優化。
具體地,旋轉矩陣[WT5”HX]H[WT5”BX]可通過奇異值分解得到:
[HT5SS](D1′)TD2′=[WT5HX]U[WT5BX][WT5HX]V[WT5BX]T[HT5”SS][JY](2)
[HT5SS][WT5HX]H[WT5BX]=[WT5HX]V[WT5BX]Λ[WT5HX]U[WT5BX]T[HT5”SS][JY](3)
式中,是對角矩陣,[WT5”HX]U[WT5”BX]和[WT5”HX]V[WT5”BX]是正交矩陣,Λ是對角線元素絕對值為1的對角矩陣,對角線元素的符號取決于矩陣相應位置處的元素符號。
對數據定制設計了歸一化處理后,就消除了不同說話人的固有差別,接著需要形成一個說話人無關的發音空間(speaker independent articulatory space),從而在這個統一的說話人無關的發音空間上進行易混淆的中英文發音文本對的分析比較。
分層聚類分析算法(Hierarchical Clustering Analysis, HCA)和多維標度定位算法(Multi-Dimension Scaling, MDS)是將交叉語言音素之間的差異實現可視化的有效方式。
本文采用多維標度定位算法進行了量化比較,將英語和漢語中的音素之間的差距在一個跨語言的語音空間上給出了可視化展示;同時采用分層聚類分析算法對2種語言的相似音素提出了聚類分析的描述結果。經由上述處理,歸一化的數據就形成了一個說話人無關的發音空間。
3結束語
由于英語和漢語這2種語言中有些發音是極為相似的,這些相似的發音會經常將外語初學者帶入漏讀或者錯讀,為了更加有效地幫助以漢語為母語的學習者練習英語發音以及幫助以英語為母語的學習者練習普通話發音,本文針對2種語言的特點,進行了基于最小音素對的交叉語言對比。利用說話人無關的普氏算法消除了說話人聲道特性本身的固有差別,產生了英語和漢語中易被第二語言學習者錯發或漏發的元音發音文本對。
參考文獻:
HERACLEOUS P, BADIN P, BAILLY G, et al. Exploiting multimodal[JP] data fusion in robust speech recognition[C]//Multimedia and Expo (ICME),2010 IEEE International Conference on. Suntec City,Singapore: IEEE, 2010: 568-572.
[2] 黃伯榮, 廖序東. 現代漢語[M]. 北京:高等教育出版社, 2002: 1-138.
[3] [JP3]SUMBY W H, POLLACK I. Visual contribution to speech[JP] intelligibility in noise[J]. Acoustical Society of America, 1954, 26: 212.
[4] [JP3]蘇留華. 母語遷移對第二語言學習的影響[J]. 北京第二外國語學院學報, 2000(4): 44-52.[JP]
[5] JONES D, ROACH P, HARTMAN J. English pronouncing dictionary[M]. Cambridge, UK:Cambridge University Press, 2006.
[6] BALL M J. PHONETICS—The science of speech[J]. Acoustical Society of America Journal, 1999, 108(6): 2695.
[7] LEE W S, ZEE E. Standard Chinese(Beijing)[J]. Journal of the International Phonetic Association, 2003, 33(1): 109-112.
[8] DUANMU S. The phonology of standard Chinese[M]. USA:Oxford University Press, 2003.
[9] GOWER J C. Generalized procrustes analysis[J]. Psychometrika, 1975, 40(1): 33-51.