孫銳欣
(華東師范大學 中文系,上海 200241)
?
基于聲學特征的陽聲韻元音鼻化程度的計算研究
孫銳欣
(華東師范大學 中文系,上海 200241)
在以鼻音為韻尾的音節中,元音可能會受韻尾的鼻音影響而帶上鼻化音色,該文在對陽聲韻韻母聲學特征物理分析的基礎上提出了陽聲韻元音鼻化程度的計算方法。利用元音鼻化段時長和鼻化元音共振峰帶寬構建的一個三維向量作為描述鼻化元音的依據,把這個向量的模作為元音鼻化程度的標度。經過實驗和計算,我們發現前鼻音韻母中的元音的鼻化程度比較低,標度均值0.410,而后鼻音韻母中的元音的鼻化程度比較高,標度均值0.718,在所有陽聲韻中,韻腹是高元音的陽聲韻元音鼻化程度最高的。
陽聲韻結構;鼻化元音;共振峰帶寬
語音,從說話人口中傳出之后是以物理形式存在的,通常的形式是空氣的振動,這種振動又可以被拾音設備轉換為電信號,實現遠距離傳播或者長時間存儲。物理形式的語音最終會被人耳接收,經過一系列生理和心理過程后被聽話人感知和理解。從說話人一方來看,語音音響(speech sound)的產生是發音器官的組織構造和運動的結果,語音音響的聲學特征都可以找到相應的發音原理,很多問題通過研究者的自我體驗即可解決,因此語音生理研究引人矚目,也取得了豐碩的成果。但是不可否認的是,兒童在獲得母語的過程中,既不需要研究成人的發音過程,也不需要成人的發音指導,他們僅僅憑借語音音響就能獲得母語的發音技能。另一方面,成年人之間的言語交際無須面對面地觀察對方的發音動作就能聽清對方發出的語音。這說明語音音響中包含了豐富的語音屬性信息,值得深入研究,而語音學研究的一個重要方向就是通過對語音音響的量化研究揭示語音生理動作或者語音感知結果跟語音音響的聲學特征的關系。本文預期解決的問題就是探索漢語音節語音聲學特征中跟韻母鼻化程度有關聯的因素。
本文欲研究的“鼻化”(nasalization)是指元音的鼻化,即在鄰接鼻輔音的發音影響下,音節中的元音發音時軟腭可能下降打開鼻腔通路,引入鼻腔共鳴,帶上鼻音音色[1]。而“鼻化程度”是指元音音素鼻化之后攜帶鼻音音色的程度。漢語音節中,韻母以鼻音作為韻尾的是陽聲韻,無韻尾或者以元音作為韻尾的是陰聲韻,以塞音作為韻尾的是入聲韻,漢語普通話中已經沒有入聲韻了。在無鼻音聲母的音節中,元音是否鼻化直接跟韻尾相關,陽聲韻跟陰聲韻相比,應該有較為顯著的鼻化音色。然而這個說起來簡單的特征,從鼻化音色的載體來說,主要問題是陽聲韻中位于鼻輔音之前的元音音素*本文的“元音音素”秉持這樣的觀點: 認為單元音和復合元音都是一個元音音素,即[a]、[i]、[u]之類是在音段持續的時間內音質保持穩定的一個元音音素,而[ia]、[ua]、[iau]之類的是在音段持續的時間內音質持續變化的一個元音音素。是否攜帶鼻化音色;從陽聲韻韻母的鼻化音色的持續時間來說,主要問題是在聲母是非鼻輔音的情況下,韻母的鼻化音色是否貫通整個韻母;從鼻化音色的物理標志來說,主要問題是鼻化音色的關聯因素有哪些,以及這些因素如何量化。
對“元音+鼻輔音”結構中元音音質的物理研究大體有兩種思路: 一種以語音聲學特征為基礎,觀察語圖中鼻音音質的特異性;另一種是在語音音響之外引入氣流檢測環節,用鼻腔通路的氣流作為鼻化音色的參照條件。在以語音聲學特征為基礎的研究方面,P Delattre[2]指出元音鼻化的主要表現是第一共振峰能量降低;G Fant[3]則根據物理原理指出鼻化會在聲腔的共振系統中引入零點;P Ladefoged[4]有個總結性言論,他指出鼻化元音最顯著的特征是第一共振峰有消失跡象,同時伴隨的特征是在第一共振峰和第二共振峰之間出現一個“鼻音共振峰”。國內學者方強和李愛軍[5]發現元音鼻化后在250Hz附近出現弱的鼻音共振峰,在1 000~2 000Hz頻段內出現幾個弱能峰;孫銳欣[6]則研究了鼻化元音頻譜高頻段的表現。在利用氣流研究鼻化元音方面,冉啟斌[7]使用氣流計研究鼻音,取得了一些實驗數據。另外,艾斯卡爾·艾木都拉[8]從實驗語音學角度探析了維吾爾語鼻音的聲學特征。
在鼻化元音聲學特征的分析方面,前人的研究有篳路藍縷之功,尤其是鼻音傳遞函數的零點理論很有創見,鼻化元音的聲學特性,如共振峰能量降低之類的表現,都跟零點有關。所謂的零點和極點,都是聲道傳遞函數經拉普拉斯變換后在s域中的特性,如果對s域中的傳遞函數進行部分分式展開,可得H(s)=A(s)/B(s),則極點就是分母B(s)取零值的點,零點就是分子A(s)取零值的點。一般來說,語音信號分析常用虛軸上的拉普拉斯變換,即傅里葉變換,變換之后的結果是頻率的函數,極點給出了系統的固有頻率,是元音信號共振峰的來源。聲道一端的輸入信號是聲門波,近似于三角波,其頻域波形近似于一個隨頻率升高而單邊下降的直線;聲道另一端輸出的是經聲道調制后的語音信號,在聲道頻域傳遞函數的極點fpolar處的輸出函數Y(fpolar)=X(fpolar)H(fpolar)的包絡線會出現極值,據此可以測量共振峰。但是零點的情況就復雜了,一方面頻域輸出函數Y(f)在傳遞函數的零點fzero處會有取值為0的輸出;另一方面輸入函數X(f)取0值的時候也有取值為0的輸出,事實上,X(f)會出現周期性的取0值的情況,這樣一來檢測極點的算法對于零點來說不再有效。另外,從更一般的情況來說,回到拉普拉斯變換的s域中去,系統的零點不一定在虛軸上,這樣的話在頻域中檢測零點會枉然無獲。P Ladefoged[9]也指出常用于計算共振峰的LPC算法不適用于鼻化元音。遺憾的是,目前未見有效的能自動檢測語音信號的零點的算法。
前人研究的另一個說法是鼻化元音存在“鼻音共振峰”,在已知元音鼻化的情況下搜尋第一共振峰和第二共振峰之間的額外的共振峰,似乎能夠解決鼻化元音的聲學特征問題,但是人的聽覺系統為什么沒有把“鼻音共振峰”感知為決定常規元音(D元音)的共振峰呢?也就是說,在不知道是否是鼻化元音的時候,為什么不把頻率比F1高的最近的共振峰認定為F2呢?顯然,這里存在循環論證。B S Rosner 和J B Pickering[10]指出感知系統在做出識別之前不會主動把緊鄰的兩個共振峰認定為一個元音共振峰和一個鼻音共振峰,更可能的情況是認定為常規元音的兩個不同的共振峰,因此鼻化的前元音更可能被識別為一個非鼻化的后元音。從語圖的實際情況來看,在F1之上存在似有似無的深色區域,但是LPC的計算結果卻否定了“鼻音共振峰”的存在。實際上,鼻化元音的語圖上顯示的很多“峰”,可能只是能量分布改變后的視覺影像,并非有語音感知價值的線索(cue)。
關于鼻化元音,還有一種“反共振峰”說法,認為鼻腔通路是反共振峰的來源,實際上反共振有偶發性,并且,典型的反共振作用發生時,質點處于相對靜止的狀態,難于檢測。綜合以上分析,基于語音音響的鼻化元音聲學特征分析需要轉換思路,尋找有效的分析依據。
為了挖掘有效的鼻化元音聲學特征分析依據,不妨做幾個實驗,首先是觀察一下北京話韻母a、an、ang的時域波形*實驗材料為一中年男性的北京話語料,后面的實驗同此。所有作為實驗材料的音節的聲母均為非鼻音聲母,同時,在實驗時切除聲母,保留韻母。,見圖1。從時長來說,a的時長最短,為0.189s;ang的時長次之,為0.224s;an的時長最長,為0.247s。還可以發現,跟ang相比,an的特別之處在于韻母最后的2/5部分是常規的鼻輔音,而ang的鼻輔音音段則只占據韻母最后的1/4部分。同時,鼻音韻尾的時域波形有比較明顯的特異性特征,其正弦波復合度[11]明顯降低,波形比常規元音的波形簡單。從聽感方面來說,an的元音部分的鼻化音色不明顯,而ang的元音部分帶有明顯的鼻化音色,但是鼻化音段在時域波形中看不出特異性特征,因此有必要到頻域內觀察。

圖1 北京話a、an、ang的時域波形圖
圖2是北京話韻母a、an、ang的語圖。語圖的本質是短時傅里葉變換。由于傅里葉變換是對時間的積分,因此變換之后的結果中失去了時間信息,這樣一來我們就無法知曉某個頻率成分出現的時刻了,而短時傅里葉變換則可以保留時間信息。以語音實驗軟件Praat所呈現的語圖為例,其計算語圖的默認窗口長度是5ms,對每個5ms的音段做一次傅里葉變換,其結果作為這5ms內任意時間點的頻域分析結果,把多個5ms的窗口串起來,就能達到保留時間信息的目的*在Praat中語圖圖像和共振峰圖像的默認參數設置是不同的,語圖的窗口長度默認是5ms,共振峰圖的窗口長度默認是25ms。兩個圖像同時顯示在一張圖上,容易讓人忽視二者參數設置的差異。。需要指出的是,在語圖顯示的時候,如果進行傅立葉運算的時間間隔小于5ms,重疊部分的時域數值將被重復使用。
從圖2可以看出,陽聲韻在韻尾處的“鼻音音段”*圖2中的“鼻音音段”和“共振峰弱化段”都是示意性的,非精確的標注,定量數值在后文中給出。已經看不出明顯的元音共振峰了,在Praat中檢測共振峰的算法對鼻音段的計算結果也明顯不同于有元音共振峰存在的音段,主要表現是鄰近時刻的元音音段的共振峰頻率相差無幾,而鼻音音段經共振峰檢測算法提供的疑似共振峰頻率差異較大,且算法提供的疑似共振峰數量也減少了。另一方面,在“鼻音音段”之前的一段元音音段是較為明顯的“共振峰弱化段”,這一段的特點是共振峰能量降低,同時,an和ang中的“共振峰弱化段”的時長也不相同,an的“共振峰弱化段”的時長比ang的短。這個“共振峰弱化段”有可能作為鼻化元音聲學特征的參照物。

圖2 北京話韻母a、an、ang的語圖
為了明確“共振峰弱化段”跟鼻化元音聲學特征之間的關系,可以利用兩個簡單的實驗來確認這種關系。第一個實驗是在共振峰的非弱化段聽不到明顯的鼻化音色,而在共振峰弱化段則可以聽到明顯的鼻化音色。第二個實驗是對共振峰弱化段的聲音,分別利用帶通濾波器截取保留第一或第二共振峰信息的信號,這樣的信號依然可以聽出鼻化元音的音色。這兩個實驗說明共振峰弱化是鼻化元音的一種聲學特征。也正因如此,我們可以用一種全新的方法,即通過分析共振峰的弱化程度來研究陽聲韻韻母中元音的鼻化程度。
如前所述,在非鼻音聲母的陽聲韻音節中,韻尾輔音之前會出現共振峰弱化段。一般來說,在頻域中一個頻率成分越明顯,其帶寬就越窄,而一個頻率成分越模糊,其帶寬就越寬。用單一正弦函數sin(ω·t)*ω是角頻率,它跟頻率的關系是ω=2πf。跟沖擊函數δ(t)的時域和頻域性質的對比研究可以發現帶寬的意義。圖3是簡單的正弦波和沖擊波的時域和頻域波形,對于只有單一頻率f1的正弦波sin(2πf1·t)來說,其頻域波形在頻率f1處出現峰值,而且帶寬十分狹窄;對于有豐富頻率的沖擊波δ(t)來說,其頻域波形在所有頻率上都有相等的模值,因此就某一具體的頻率來說,其帶寬近乎于無限寬廣。總之,對于信號中的某一頻率的波來說,其帶寬說明了該頻率分量在信號中的顯著程度,帶寬越窄,則該頻率越顯著,信號的能量也越集中于該頻率,帶寬越寬, 則該頻率越不明顯, 承載的能量也越少。特別地,如果在頻域中某些頻率的模值為0,則信號中沒有這些頻率的分量,不必探究其帶寬。

圖3 正弦波和沖擊波的時域和頻域波形
既然帶寬跟特定頻率信號的能量承載能力有關,那么鼻化元音中存在的“共振峰弱化段”就可以使用共振峰帶寬來表征其共振特性。共振峰帶寬越窄,說明共振峰越明顯,共振峰附近的頻率分量被分配的能量越多;共振峰帶寬越寬,說明共振峰越不明顯,共振峰附近的頻率分量被分配的能量越少。經過進一步的實驗,可以研究共振峰帶寬的一些性質。圖4是北京話a和an的共振峰帶寬圖示(實線是第一共振峰帶寬,虛線是第二共振峰帶寬),可以發現常規元音a的共振峰帶寬均不超過200Hz,而an的共振峰帶寬則有大幅度的起伏,尤其是在鼻音音段,出現較大的檢測值。如果將an的帶寬檢測值跟聽感結合,會發現共振峰的帶寬檢測值在鼻化元音音段有大幅偏離非鼻化元音音段的共振峰帶寬均值的情形,可以據此把共振峰帶寬測量值以及鼻化時段的長度作為厘定元音鼻化程度的依據。由于音節本身的時長較短,因此相對于音節時長來說鼻化過程不是瞬間完成的,而是存在過度性,因此第一和第二共振峰的帶寬的大幅變化不是同時發生的,所以很難說清鼻化開始的確切時刻,因此在第一和第二共振峰中,只要其中有一個帶寬有大幅度變化便可以此作為鼻化元音開始的時刻。而鼻化元音的結束時刻以語圖上共振峰消失時刻為準。

圖4 北京話a和an的共振峰帶寬圖示
北京話中共有陽聲韻韻母16個(an、ian、uan、üan、en、in、uen、ün、ang、iang、uang、eng、ing、ueng、ong、iong),分別對它們做實驗,通過共振峰帶寬測定它們的元音的鼻化程度。
5.1 實驗設計
實驗的工具使用通用的語音實驗軟件Praat,實驗參數(指Praat中的“settings”里面的各項參數)采用Praat的默認設置。由于陽聲韻中元音的鼻化不一定貫穿整個韻母元音,因此根據Praat提供的共振峰的數量、頻率以及帶寬的情況決定常規元音音段、鼻化元音音段和鼻音音段,記錄相關的時間段數據、頻率和帶寬數據。
5.2 實驗數據
由于實驗數據較多,使用三個表格呈現數據。表1是陽聲韻各部分的時間關系數據,表2是陽聲韻中鼻化元音音段的共振峰和帶寬數據。

表1 北京話陽聲韻各部分的時間關系數據

表2 北京話陽聲韻中鼻化元音音段的共振峰和帶寬數據

續表
5.3 鼻化元音音段鼻化程度的表征
根據實驗結果,可以用三個參數來表征鼻化元音音段的鼻化程度,即TNV/TF(設為PNV)、B1/F1(設為PB1)和B2/F2(設為PB2)。圖5是利用這3個參數呈現的16個陽聲韻鼻化元音模式圖。對于圖5有如下說明: (1)為了便于給圖中的點標注韻母所以把16個陽聲韻分成兩組,第一組的韻腹是a,其余歸入第二組;(2)為了便于呈現圖中的點,所以兩組三維視圖的視角不同,但是坐標軸的設置是相同的;(3)為了比較陽聲韻跟陰聲韻的區別,圖中同時呈現了a、i、u、ü作為參照。

圖5 基于3個參數的鼻化元音模式圖
用來表征陽聲韻中鼻化元音的3個參數可以用一個向量v來表示,v=[PNVPB1PB2]。我們不妨用向量v的模*本文中向量v的模的計算公式為SQRT(PNV2+PB12+PB22),此處SQRT為求平方根。作為度量陽聲韻中鼻化元音鼻化程度的標度,根據向量v的設定,理論上v的模的取值在區間[0, 1.732]上。表3是依據向量v的模的大小排序的陽聲韻,可以看出雖然eng的鼻化程度最低,且ong的鼻化程度最高,但是總體來說,前鼻音韻母中的元音的鼻化程度比較低,標度均值0.410,而后鼻音韻母中的元音的鼻化程度比較高,標度均值0.718。

表3 依據向量v的模的大小排序的陽聲韻
根據表1、表2和表3中的數據,并參照圖5,可以發現北京話陽聲韻聲學特征的一些特點:
第一,從結構方面來看,北京話的陽聲韻中鼻音韻尾占有較高的比重,鼻音音段時長占韻母時長的比例均值是0.377,超過了音節時長的1/3,而鼻化元音音段時長占占韻母時長的比例均值是0.138,說明北京話陽聲韻的鼻音韻尾是真實存在的,而陽聲韻的音響特質的重要來源是鼻音韻尾而不是韻母中的元音鼻化的音色。相比而言,前鼻音韻母中的鼻音音段時長更長,比例均值達0.403。以“三”為例,其發音十分接近于“[san]”,而不是“[s?n]”。正是由于鼻音韻尾對陽聲韻的鼻音音質貢獻比較大,所以在帶有韻頭的陽聲韻中由鼻音韻尾引起的元音鼻化作用只影響到韻腹部分的元音音段。根據這些特點,在漢語母語和二語教學過程中,對于鼻音韻母的教學放在發好韻尾輔音上,會有較好的教學效果。
第二,從功能方面來看,根據陽聲韻中鼻化元音音段跟鼻音音段的配比關系,兩種類型的音段呈現出互補性。即元音鼻化程度低的陽聲韻中鼻音音段的時長相對較長,前鼻音韻母即如此(鼻化標度均值0.410,鼻音韻尾占韻母時長比0.403);而元音鼻化程度高的陽聲韻中鼻音音段的時長相對較短,后鼻音韻母即如此(鼻化標度均值0.718,鼻音韻尾占韻母時長比0.138)。這一特點提示我們思考北部吳方言咸山攝韻尾消失的歷程,不會是鼻音韻尾突然消失,而是大致經歷了這樣的歷程:
第三,從鼻化程度方面來看,前鼻音韻母中的元音的鼻化程度比較低,后鼻音韻母中的元音的鼻化程度比較高。進一步,韻腹是高元音的陽聲韻元音鼻化程度最高: ong[u]的鼻化度1.150、ing[i]的鼻化度1.056、iong[y]的鼻化度0.943。另一方面,這一結果可以印證這一事實,即普通話的前鼻音韻母中元音的鼻化程度低說明了其發音過程中元音音素跟后續的鼻音音素是較為明顯的兩個發音動作,而后鼻音的鼻化程度高,說明了其發音過程中有用鼻化元音代替元音+后鼻音的趨勢。這一結論的意義表現在三個方面: (1) 為有效地指導不區分前后鼻音的方言區人民學習普通話提供教學依據;(2) 為歷史語言學的語音演變研究提供演變動因的參考依據;(3) 從聽覺角度來說,為探索陽聲韻感知的線索提供參考指標。
除了上述整體性特點,韻母ing的音質構成也值得討論。雖然漢語拼音方案把“兵青明星英”之類音節的韻母記為ing,并注明其發音為[i],然而在語言實踐中,我們能明顯感覺到北京話中的“英”不是單純的“[i]+[]”結構。有一種說法認為ing的實際發音是[i],如果這種說法成立,那么由于韻頭不受韻尾的鼻化作用影響,因此ing中元音的鼻化情形應該接近于eng[],但是本文的實驗發現ing跟eng中元音的鼻化情形存在較大差異。從圖5可以看出,韻母eng中的鼻化元音持續時間很短暫,鼻化效果也很弱,該韻母實際上已經接近于成音節的而韻母ing中鼻化元音持續時間較長,鼻化效果也較強,韻腹部分不是后元音,實際結構接近于]或者]。

[1] Crystal D. 現代語言學詞典[M]. 北京: 商務印書館, 2004:235.
[2] Delattre P. Les Attributes Acoustiques de la Nasalite Vocalique et Consonantique [J]. Studia Linguist. 1954,8,103-109.
[3] Fant G. The Acoustic Theory of Speech Production [M]. Paris: Mouton, 1960.
[4] Ladefoged P. Phonetic Data Analysis [M]. MA: Blackwell Publishing, 2005:135-137.
[5] 方強, 李愛軍. 普通話鼻化元音的研究[C]//第六屆全國現代語音學學術會議論文集, 2003.
[6] 孫銳欣. 普通話鼻音韻尾的實驗分析與矯正訓練[C]//第三屆全國語言文字應用學術研討會論文集, 2004.
[7] 冉啟斌. 漢語鼻音韻尾的實驗研究[J]. 南開語言學刊, 2005,2:37-44.
[8] 艾斯卡爾·艾木都拉. 從實驗語音學角度探析維吾爾語鼻音的聲學特征[J]. 中文信息學報, 2012,26(1)110-118.
[9] Ladefoged P. Phonetic Data Analysis [M]. MA: Blackwell Publishing, 2005:137.
[10] Rosner B S, Pickering J B. Vowel Perception and Production [M]. Oxford:Oxford University Press, 1994:165.
[11] Clark J, Yallop C. 語音學與音系學入門[M]. 北京: 外語教學與研究出版社, 2000:215-219.
An Acoustic Study of Nasalized Vowel in Nasal Coda Syllables
SUN Ruixin
(Department of Chinese Language and Literature, East China Normal University, Shanghai 200241, China)
The vowel in a nasal coda syllable will become a nasalized one. The issue is how to measure the degree of being nasalized. This paper puts forward a method based on the bandwidth of formants and the duration of nasalized part of the vowel after a deep acoustic analysis of the speech sound. We find that the nasalized degrees of vowels in alveolar nasal syllables are less than that of vowels in velar nasal syllables. The degree of the former is 0.410 and the latter is 0.718. The top degree lies in the high vowels, which are easy to be nasalized.
the structure of nasal coda finals, nasalized vowels, the bandwidth of formants

孫銳欣(1972—),博士,講師,主要研究領域為語音現象的實驗和計算研究、吳方言區的社會語音學研究。E?mail:soonrx@sina.com
1003-0077(2015)01-0049-08
2012-04-26 定稿日期: 2012-10-10
教育部人文社會科學研究項目(12YJC740089)
TP391
A