金蒙,于勇,孫洋,李美瑩,冉啟斌
漢語青年發音人的嗓音聲學分析
金蒙1,于勇1,孫洋1,李美瑩1,冉啟斌2
(1. 天津中德應用技術大學 應用外國語與國際教育學院,天津 300000; 2. 南開大學 文學院,天津 300071)
以沖浪科技開源的258名中國青年發音人的234 617個漢語語句語音文件為語料,使用Praat軟件,以整個句子為范圍提取基頻微擾(jitter)和振幅微擾(shimmer)數據進行嗓音聲學分析,可以看到,男性基頻微擾均值2.367%,振幅微擾均值11.905%;女性基頻微擾均值1.968%,振幅微擾均值9.394%,男性的基頻微擾和振幅微擾均高于女性。單因素方差分析顯示,基頻微擾和振幅微擾在性別上存在顯著差異。
基頻;微擾;振幅微擾;嗓音聲學分析;性別差異
對嗓音的聲學參數分析主要用于輔助判斷發音人聲帶及其附屬器官的生物學病理特征,為醫學診斷和治療提供依據。嗓音聲學分析也可以對發音人的音質進行評估,為發聲訓練等提升音質的活動提供參考標準。目前已有不少研究對嗓音的聲學參數進行分析研究。黃昭鳴和萬萍使用自行研發的嗓音病理合成器運用基頻(0)、基頻微擾(jitter)、振幅微擾(shimmer)、聲門噪聲能量、聲門譜斜率、共振峰頻率微擾6個參數對嗓音進行評估[1]。于萍、Giovanni Antoine則通過檢測基頻、音強(intensity)、基頻微擾、信噪比(signal-to-noise ratio,SNR)、Lyapunov系數、口腔氣流量(OAF)、音域(Range)、最大發聲時間(MPT)、發/pa/音時的聲門下壓(estimated subglottic pressure,ESGP)等參數,建立嗓音的有效參數評估模式[2]。在國外的研究中,測量的參數包括基頻、基頻微擾、振幅微擾、諧噪比(HNR)等以及聲門下壓力(Glottic downforce)、口腔氣流量、音域和最大發聲時間等。Eixeira分別對jitter和shimmer的參數值進行了測量,并將不同測量方式對jitter和shimmer參數值準確度的影響進行了比較[3]。從總體上看,基頻微擾和振幅微擾是嗓音聲學分析的重要參數。因此對基頻微擾和振幅微擾參數進行分析研究,是對發音人進行嗓音聲學分析的重要內容。雖然目前在嗓音聲學分析方面已有不少研究成果,但在較大樣本數量的嗓音聲學分析方面和對比分析一般自然語料中男性、女性的基頻微擾和振幅微擾數據方面,以及探討嗓音聲學分析的語言學意義方面,研究還不太多。基于此,本研究我們使用沖浪科技采集的出生地為全國30個地區的258名青年人的234617個普通話語句語料,利用Praat軟件對這些語料進行嗓音聲學分析,展示其基頻微擾和振幅微擾的表現。
本實驗基于沖浪科技500小時中文普通話數據語料開源的部分語料進行研究。該語料包含來自30個省市和自治區的258例正常成年人的嗓音樣本,其中男性111人,女性147人。所有發音人年齡在17~38歲之間,平均年齡21.9歲,具體見表1。因此本研究分析的發音對象認定為青年人是合適的。

表1 258名發音人年齡分布
沖浪科技開源的語料樣本所采用的錄音設備分別為安卓手機和蘋果手機,本研究分析的語料均為安卓手機采集。發音人在室內安靜環境下進行錄音,采樣率16 kHz,存儲字節16位。語料主要內容為自然話語的句子,如“你要是說實話我肯定不冤枉你啊”“我就想知道其中有沒有他而已”等。每名發音人的語句語料各不相同,語句數量為800~1000個不等。發音人均以正常語速發音。
本研究使用Praat軟件進行語料的標注和數據提取:使用自行編寫的Praat腳本量生成Pitch文件,將句子中首次出現基頻的位置設為起點,最后一次出現基頻的位置設為終點;使用腳本批量出具每句話起點和終點之間的嗓音分析報告。嗓音聲學分析按照計算方法的不同,提供了jitter和shimmer若干種相關參數。本研究分析采用jitter(local)和shimmer(local)兩個參數。
基頻微擾是進行嗓音聲學分析的主要參數之一,它表現的是聲帶振動中不規律性變化的程度。基頻微擾在聽感上反映為聲音的嘶啞及粗糙程度。基頻微擾與嗓音音質密切相關,基頻微擾的數值越大表明聲帶振動越不規律,聲音也就越為嘶啞和粗糙。
按照計算方法的不同,通常基頻微擾具體分為若干種相關的參數,例如絕對基頻微擾(jitta)、局部或相對基頻微擾(jitt)、基頻相對平均擾動(rap)、五點周期擾動商(ppq5)等。本研究一律使用jitter(local)參數(可省寫為jitt或jitter)。jitt參數表述音高連續周期中的平均絕對差異,單位為百分比。jitt由公式

計算得出,其中T為抽取的聲門周期長度,為抽取的聲門周期數量[3]1190–1199。
我們使用Praat腳本批量提取發音語料中的基頻微擾值(jitt),每個句子提取1個基頻微擾值。所有語料共提取到jitt數據234 617個,其中男性jitt值117 465個,女性jitt值117 152個。男性和女性的數據分布都存在一些極端值,其中男性的數據更分散一些;男性的jitt值總體比女性高。
我們對所有數據進行了統計分析,得到的jitt均值為2.168,中位數為2.101,標準差為0.594。我們又分性別對男性和女性的數據進行了統計分析,結果表明男性和女性的數據樣本相差很小:其中男性jitt均值為2.367,中位數為2.294,標準差為0.621;女性jitt均值為1.968,中位數為1.919,標準差為0.490。男性無論平均值、中位數還是標準差都高于女性。分析結果表明還表明:男性的四分位距為0.742,男性jitt值的四分位浮動范圍為1.426~2.91;女性的四分位距為0.633,女性jitt的四分位浮動范圍為1.335~2.601。
為檢測男、女性jitt值之間的差異是否具有顯著性,我們又分性別進行了單因素方差分析。結果顯示男、女性別對jitt值的影響差異具有統計學意義((1, 234 615)=29 886.820,<0.05),可見男性的jitt值顯著高于女性的jitt值。
關于jitter是否存在性別上的差異及其所確定的一般參考值,國內外文獻結論并不一致。王雙樂利用計算機語音頻譜技術(USSA)對正常人的嗓音進行了聲學參數測量,其研究表明同一年齡組女性的jitter值要大于男性,青年人的jitter值存在性別差異[4]。雷科等使用Dr.Speech軟件采樣分析,認為jitter值在青年組有性別差異[5]。楊青應用計算機語言分析系統進行測量,結果顯示發舒適音和真聲最低音的jitter值存在性別差異(<0.05)[6]。葉志騰通過Praat對成年人男女jitter值進行測量,認為jitter值男女性別無統計學差異[7]。Brockmann等人認為小聲發音時男性的jitter值比女性高,但聲量適中或大聲說話時男女的jitter值接近[8]。Finger等人將青年女性作為研究對象,研究結果顯示呈正態分布的樣本數據可以用來確定聲學參數的正常參考值,同時與之前國內外研究進行對比,發現各聲學參數測量結果接近[9]。本研究的分析則看到jitter值存在性別差異,青年男性的jitter值高于青年女性。
我們將上述文獻研究結果進行梳理對比,整理結果見表2。我們所篩選的數據為青年人(20~40歲)在自然舒適狀態下正常語速發音所測量的jitter值。

表2 青年人發音基頻微擾值研究結果對比
由表2可以看出,在受試的發音語料一致的情況下,葉志騰與Brockmann在性別是否對jitter值產生影響這一觀點上結論正好相反。這里兩者所提取參數的方式不一樣,前者采用的是jitta參數,而后者采用的是jitt參數。這可能反映了jitter是否存在性別差異與具體采用的計算方式有關。
本研究在與Brockmann和Finger的研究成果進行比較時,可以看到同樣使用的是Praat軟件,采用的是jitt參數,而受試發音語料和樣本數量不同,最后的jitter值也存在較大差異。關于受試的發音語料,表2中數據來源的語料都是持續穩態元音,如〔i〕〔?〕〔a〕等,尚未見到文獻研究中有成句的語料分析。本研究所分析的語料為自然話語的句子,切合人們實際的發音狀態與語音質量。
另外,本研究所得出的jitter均值浮動范圍男性為2.367±0.621(`x±s);女性為1.968±0.490(`x±s)。本研究得到的數值往往大于以往研究的數據。除了測量軟件、提取參數的方式、樣本數量等因素以外,導致結果不同的最大因素應該是被試的發音語料。以往研究采用的語料主要為單個的典型元音(/a/、/?/、/i/等),發單個的典型元音時聲帶的振動通常會更加規則。而本研究采用的語料為正常語句語料,其中有單元音、復合元音,也有不太典型的元音,例如漢語普通話中有帶有較多摩擦的所謂舌尖元音(如/?/、/?/等)、輔音中的響音(如/m/、/n/等)以及大量輔音。可以理解的是,這些復雜多樣的語料自然會增加聲帶振動的不規則性。這應該是本研究測量得到的jitt值與以往研究不相同并往往大于以往數據的主要原因。此外,本研究結果顯示男性jitt值總體大于女性,這反映的不是男性和女性發單一元音時的情況,而是男性和女性在正常語句發音時的情況。
振幅微擾是進行嗓音聲學分析的參數之一,它描述的是聲帶振動時相鄰周期之間振幅的微小變化,主要反映嗓音的嘶啞程度。它與基頻微擾一樣,是反映聲帶振動穩定性的有效指標,其數值越大,說明在發音過程中聲學信號出現的不規則變化越多。
振幅微擾分析與基頻微擾一樣,按照不同的計算方法分為多種相關的參數。Praat中提供了shimmer(local)、shimmer(local,dB)、shimmer(apq3)、shimmer(apq5)、shimmer(apq11)、shimmer(dda)6種參數,本研究分析采用shim(local)值(省寫為shim或shimmer),它計算的是連續周期振幅之間的平均絕對差異,單位為%。shim由公式

計算得出,其中A為抽取的振幅,為抽取的基頻周期數量。
我們使用Praat腳本批量提取發音語料中的振幅微擾值(shim),每個句子提取1個振幅微擾值。所有語料共提取到shim數據235 709個,其中男性shim值118 012個,女性shim值117 697個。男性和女性的數據分布都存在一些極端值,其中男性的數據相對更分散;男性的shim值總體比女性高。
我們對所有數據進行了統計分析,得到的shim均值為10.651,中位數為10.477,標準差為2.559。我們也分性別對男性和女性的數據進行了統計分析,結果表明男性和女性的數據樣本相差不太大:男性shim均值為11.905,中位數為11.772,標準差為2.367;女性shim均值為9.393,中位數為9.236,標準差為2.981。男性無論在平均值、中位數還是標準差上都比女性高。另外統計分析,男性的四分位距為3.214,男性shim值的四分位浮動范圍為8.691~15.119;女性的四分位距為2.813,女性shim的四分位浮動范圍為6.581~12.207。
為檢測男、女性shim值之間的差異是否具有顯著性,我們又分性別進行了單因素方差分析。結果顯示男、女性別對shim值的影響差異具有統計學意義((1, 235707)=74774.649,可見男性的shim值顯著高于女性的shim值。
然而,由于檢測儀器和計算方法的不同,不同研究所獲得的青年發音人的shimmer值也有所差異。王雙樂應用計算機語音頻譜技術(USSA)對正常人的嗓音進行了聲學參數測量,其研究結果表明同一年齡組男性的shimmer值要大于女性,青年人的shimmer值存在性別差異。雷科等使用Dr.Speech軟件采樣分析,研究結果表明shimmer值在青年組有性別差異,且青年女性的shimmer 值要大于男性。楊青應用計算機語言分析系統進行測量,結果顯示無論是發舒適音、真聲最低音、真聲最高音還是假聲最高音,shimmer值不存在性別差異(>0.05)。葉志騰通過Praat對青年男女shimmer值進行測量,分析shimmer參數值的性別比(=0.026<0.05),認為shimmer值男女性別存在統計學差異。Brockmann等人認為小聲發音或聲量適中時男性的shimmer值比女性低。Finger等人將青年女性作為研究對象,研究結果顯示呈正態分布的樣本數據可以用來確定聲學參數的正常參考值,同時與之前國內外研究進行對比,發現各聲學參數測量結果接近。本研究的分析則看到shimmer值存在性別差異,青年男性的shimmer值高于青年女性。
我們將上述文獻研究結果進行梳理對比,整理結果見表3。我們所篩選的數據為青年人(20~40歲)在自然舒適狀態下正常語速發音所測量的shimmer值。

表3 青年人發音振幅微擾值(Shimmer)研究結果對比
從表3可以看到,不同數據來源所使用的測量軟件存在差異,測量的具體shimmer參數也略有差異(例如Brockmann等人采用的測量單位為dB)。這可能造成測量結果的不同。而造成本研究數據在很大程度上大于以往結果的原因,與前面我們分析jitter數據時一樣,主要應該在于發音語料的不同。以往研究的發音語料大多為/i/、/?/、/ɑ/等單元音;而本研究的語料為普通話的實際語句。不難理解,單一/ɑ/、/i/等元音發音只占所有語音單位很小的一部分,實際語句中的發音包含有其他元音、響音甚至振幅規則性較差的輔音。這些規則性較差的語音單位顯然會增大發音時的振幅微擾。我們認為,在嗓音聲學分析中,發音語料采用實際話語中的漢語語句應該能夠更全面地反映嗓音的實際表現。
本研究使用Praat軟件對沖浪科技開源的258名中國青年發音人的漢語語句聲音樣本進行了嗓音聲學分析。與以往大多數研究不同,本研究所使用的語料為漢語普通話的自然語句,得到的結果在數據上與以往研究存在一定差異。對語言實際使用中的各種單位,例如詞匯、短語、句子等,而不是單一的元音進行嗓音聲學分析,應該能夠更全面、更準確地揭示語言各方面的微觀表現,并進而對語言學的一些重要問題提供新的認識。例如冉啟斌通過測量中國境內8種語言各1200個詞的jitter和shimmer數據,看到北方語言的jitter數據明顯高于南方語言,而shimmer數據則不存在這種差異,并判斷由jitter體現出來的嗓音差異應該與北方和南方懸殊很大的濕度差別具有關聯,而這一現象很可能揭示了漢語歷史上聲調先產生于南方,從而逐漸向北方過渡[10]。這使得嗓音的微觀聲學分析具有了更多語言學的意義。
應該說明的是,本研究使用的258名漢語發音人語料是沖浪科技開源的,其語料的主要用途是應用于語音識別的人機對話研究。人機對話研究對樣本的年齡差異要求不高,因此該語料的發音人以青年為主。從語言學研究的角度來看該語料在年齡的分布上不太均衡,中、老年等其他年齡段的嗓音表現需要另行研究。另外,對本研究語料的分析考察還可以更加細化,例如可以詳細考察語句中各個單元音的jitter和shimmer表現,并以這種語流語料的結果與以往研究進行對比。這些方面將作為以后進一步研究的課題。
[1] 黃昭鳴,萬萍.嗓音聲學參數與嗓音音質的相關研究[J].臨床耳鼻咽喉頭頸外科雜志,2008(6):251–255.
[2] 于萍,Giovanni Antoine.嗓音的客觀多參數分析與主觀聽覺分析相關性的研究[J].聽力學及言語疾病雜志,2003(3):161–164.
[3] Jo?o Paulo Teixeira,André Gon?alves.Accuracy of Jitter and Shimmer Measurements[J].Procedia Technology,2014(16):1190–1199.
[4] 王雙樂,周濤,何佳莉,等.成人嗓音計算機檢測及分析[J].臨床耳鼻咽喉科雜志,1998(10):448–450.
[5] 雷科,楊旭,沈建中,等.成人嗓音聲學參數正常參考值的研究[J].臨床耳鼻咽喉科雜志,2000(6):255–257.
[6] 楊青.嗓音的聲學檢測結果與定量分析[J].臨床工程,2008(3):104–105.
[7] 葉志騰.應用Praat軟件分析成人嗓音聲學參數[D].福建:福建醫科大學第一臨床學院,2009:1–29.
[8] M Brockmann,C Storck,PN Carding,MJ Drinnan.Voice Loudness and Gender Effects on Jitter and Shimmer in Healthy Adults[J].Journal of Speech Language & Hearing Research,2008(5):1152–1160.
[9] leila Susana Finger,Carla Aparecida Cielo,Karine Schwarz.Acoustic vocal measures in women without voice complaints and with normal larynxes[J].Brazilian Journal of Otorhinolaryngology,2009(3):432–440.
[10] 冉啟斌.嗓音的南北差異與漢語聲調產生的地域先后[J].語言研究,2020(4):46–53.
H018.4
A
1006–5261(2021)03–0138–06
2021-01-25
國家社科基金重大項目(19ZDA300);南開大學中央高校基本科研業務費專項資金項目(63202924)
金蒙(1990― ),女,湖北隨州人,助教,碩士;冉啟斌(1977― ),男,重慶巫溪人,教授,博士。
〔責任編輯 楊寧〕