○ 黃瑋 穆漢 許可 冉啟斌 梁煜珠
(南開大學 漢語言文化學院,天津 300350;南開大學 文學院,天津 300071)
嗓音的一項重要功能是傳遞說話人的信息[1]。嗓音作為語音的載體,既包含語言本身的信息,也包含性別、年齡、動機等生理、心理上的副語言信息[2-3]。對嗓音的聲學參數進行分析有助于診斷發音人的聲帶及其附屬器官的健康狀況,對發音人的音質進行評估,為發聲訓練提供參考標準等[4]。此外,嗓音參數體現出的嗓音控制能力在語言演化中與聲調的產生和聲調數量的多少有著較為密切的聯系。通常認為嗓音控制能力越好的地區越容易產生聲調語言,也越容易有更多數量的聲調[5-7]。
國內外對嗓音參數的研究較為充分,常見的嗓音參數包括基頻(F0)、基頻微擾(Jitter)、振幅微擾(Shimmer)、信噪比(Signal-to-noise ratio)、諧噪比(Harmonics-to-noise ratio)、聲門下壓(Subglottic pressure)等,總體來看,Jitter和Shimmer是較為常見的兩個嗓音參數之一,許多研究者基于Jitter和Shimmer對發音人的嗓音進行研究。對Jitter和Shimmer進行研究是對發音人進行嗓音聲學分析的重要內容[4]。
影響Jitter和Shimmer的因素有很多,包括發音人的性別、年齡、性激素水平等[9-10],也包括發音人所發語音的元音、音高等[11],同時Jitter和Shimmer還受到環境濕度等因素的影響[12]。其中,性別是爭議比較大的因素之一,主要爭議在于男性和女性之間誰的Jitter、Shimmer值更大,以及這種差異是否具有統計學上的顯著性。
有學者使用Dr.speech軟件檢測了40名嗓音正常的男性和40名嗓音正常的女性在發長元音[ɑ:]時的嗓音參數,結果顯示,Jitter和Shimmer在正常成人男女性之間無顯著差異。文章認為沒有顯著差異的原因在于Jitter、Shimmer與聲帶振動的特性密切相關,而并非與聲帶的振動頻率相關[13]。有學者考察了20名正常女性發元音[a i u]時的嗓音參數,并將實驗結果與前人研究中的男性數據做了差異顯著性檢驗,指出正常男女發音人在Jitter和Shimmer上具有顯著差異,女性的Jitter比男性更大,但Shimmer比男性更小[14]。有學者對1200例正常中國人按性別、年齡分組后使用Dr.Speech軟件檢測發元音[?]時的嗓音參數,指出女性的Jitter顯著大于男性,而男女性的Shimmer不具有顯著差異。文章認為這與女性嗓音比男性音調高而音量小有關[10]。另外還有學者考察了以普通話為母語的50名男性兒童和50名女性兒童在持續發[ɑ i u m]時的嗓音參數,指出女性的Jitter和Shimmer均要比男性大[11]。
與之不同,也有研究表明男性的Jitter和Shimmer均顯著大于女性。有學者使用Praat軟件測量了258名中國青年發音人普通話句子語料中的嗓音參數,指出男性的Jitter和Shimmer均要顯著大于女性[4](下文稱為“研究A”)。有學者考察了40個漢語方言語檔各182個詞語錄音的嗓音參數,指出性別的影響較為重要,男性的Jitter和Shimmer顯著比女性大[7](下文稱為“研究B”)。另外還有學者考察了15名男性和18名女性贛語大通片母語者在元音[ai u y]中的嗓音參數,結果也表明男性的Jitter和Shimmer要顯著大于女性[15]。
可見,性別對Jitter和Shimmer的影響還沒有定論。前人研究中截然不同的結果可能是由發音人的語言背景不同、發音內容不同、提取參數的軟件不同等因素導致的,這一問題還有進一步探究的空間。另外,上述研究中幾乎都是相同母語背景的發音人,跨母語背景的嗓音參數分析還較為少見。在語料的發音內容上,最為常見的是以持續元音為發音內容。研究A首次使用漢語普通話的句子作為語料進行分析[4],研究B嘗試使用漢語方言中的182個常用詞語進行分析[7]。使用Swadesh核心詞作為發音內容對Jitter和Shimmer進行分析的還比較少。
因此,本文將使用來自69個不同國家的發音人的Swadesh207核心詞錄音為語料,通過Praat軟件采用與相關研究相同的參數提取方法對發音人的Jitter和Shimmer進行檢測和數據分析[4、6、7],以促進對跨國別/語言的Swadesh207核心詞語料中發音人嗓音表現的認識。
本文所用的語料來自北京語言大學語言資源高精尖創新中心開源公布的“全球語言文化資源采錄展示系統”。該資源集展示了70余個國家語言的有聲材料,每個國家包括1名發音人的Swadesh207核心詞、123個句子和若干長篇語料等。在我們下載時(2019年年底、2020年年初)該資源集包括71個國家的資源,經過篩選實際可用的材料為69個國家。這些國家的語言涉及阿爾泰語系、高加索語系、漢藏語系、南島語系、南亞語系、閃含語系、突厥語系以及印歐語系等,其中印歐語系的語言偏多,此外還包括日語、韓語等系屬不明的語言。這69個國家中有男性29人,女性40人,國家名稱如表1所示。

表1 發音人信息表
本文進行嗓音分析使用的語料是69名發音人的207核心詞錄音(下文簡稱“語料”),使用這些語料主要出于三方面的原因:首先,與既有的研究相比,本文語料的發音人來自69個不同的國家,有著不同的母語背景,這使得發音人的語言背景更加多元;其次,在錄音內容上,69名發音人的發音內容均是Swadesh207核心詞(個別發音人存在詞語缺失的情況),內容統一,語料平行,且核心詞在各個語言中都比較基礎和穩定,有助于在近似的基礎上進行嗓音分析;最后,語料均是在北京語言大學錄制的,在一定程度上將環境相對濕度對嗓音的影響降到了最低,且錄音由專業人員操作,錄音音質有所保障。
8.牛呼吸道合胞體病毒感染。剖檢可見肺出現彌漫性水腫或氣腫,間質性肺炎灶,并見大小不等的肝變區;繼發細菌性支氣管肺炎時,肺前腹側區域呈現暗紅色、堅實、有纖維素覆蓋和實變。
在進行嗓音參數提取之前,我們使用Praat軟件對語料中每個詞的起點和終點進行了人工標注,這項工作由有經驗的標注者完成。標注完成以后,使用Praat腳本對基頻微擾和振幅微擾數據進行提取。Praat中提供的基頻微擾和振幅微擾算法較多,如jitter有jitter(local)、jitter(local,absolute)、jitter(rap)、jitter(ppq5)等,shimmer有shimmer(local)、shimmer(local, dB)、shimmer(apq3)、shimmer(apq5)等。本文采用的是jitter(local)和shimmer(local)兩個參數(簡稱“Jitt”、“Shim”)。幾種算法的異同以及Jitt和Shim的計算公式已有研究做過介紹[7、16],此處不再贅述。Jitt和Shim的提取是在Praat中使用腳本自動完成的。
Jitt和Shim提取完成后,剔除部分不可用的數據,如有的錄音文件只能提取出Jitt而提取不出Shim,則將該條錄音的數據刪除。最后將有效的數據導入到SPSS26.0軟件中進行分析。需要說明的是,由于Jitt和Shim的原始數值較小,為便于觀察和報告,我們將原始數值分別放大了100倍,這對數據的分布特征并不造成實質性的影響。在分別分析Jitt和Shim的情況之前,我們首先對Jitt和Shim做了總體的相關性分析,結果顯示Jitt與Shim呈顯著中度正相關(Spearman,r=0.58,p<0.001)。本文中Jitt和Shim的相關性略大于研究B報告的結果(r=0.503,p<0.01)[7],但是要小于兩項前人研究中報告的結果(r=0.92,p<0.05;r=0.709,p<0.001)[11、15],總的來看,本文的結果在可接受的范圍之內。下面分別報告基頻微擾與振幅微擾的情況。
語料中共有14 268條有效的Jitt數據,其中男性5 794條,女性8 474條。分別對男性和女性的Jitt數據進行K-S檢驗(Kolmogorov-Smirnova test),結果顯示,男性、女性的Jitt均不呈正態分布(ps<0.001)。總體來看,Jitt均值為2.292,中位數為2.113,標準差為0.990,這三項數據分別比研究A報告的數據大0.124、0.012和0.396,表明本文語料中的Jitt值更大,數據分布的離散程度也更高。下面分別對男性和女性的Jitt進行分析。
圖1所示為男性和女性Jitt分布的小提琴圖。小提琴圖的原理和箱線圖相似,但能更好地反映數據分布的情況。圖1中橫實線代表中位數,下虛線表示第一四分位數(下四分位數),上虛線表示第三四分位數(上四分位數),上須和下須頂端分別代表最大值和最小值,“琴身”的胖瘦顯示該數值出現的頻率,數據越集中,圖形越胖。從圖1可見,男女性Jitt的分布主體在1以上4以下,其中男性的中位數、上下四分位數均比女性大。

圖1 Jitt分布小提琴圖
從統計的具體數值可以看出,男性Jitt的均值為2.578,中位數為2.386,標準差為1.103,女性Jitt的均值為2.096,中位數為1.949,標準差為0.852。可見男性的三項數據均比女性要大,男性的Jitt要大于女性,且男性Jitt的分布離散程度也要大于女性。同時,非參數檢驗的結果也顯示,這種差異具有統計學上的顯著性(Mann-Whitney Test,p<0.001),即本文中的語料支持男性的Jitt要顯著大于女性的觀點。此外,男性Jitt的四分位距(上下四分位數差值的二分之一)為0.664,四分位浮動范圍為1.805~3.132,女性Jitt的四分位距為0.531,四分位浮動范圍為1.482~2.544,再一次表明男性Jitt的分布分散程度更高,即男性聲帶振動在頻率上的不穩定性與不規律性比女性更大。為便于與前人的相關研究(研究A和研究B)報告的數據對照比較,我們將Jitt的相關數據整理如表2所示。

表2 Jitt數據對照表
從表2可見本文語料中男、女Jitt的均值、中位數和標準差均要大于研究A和研究B報告的結果,即本文的Jitt值更大,同時在數據的總體分布上也更為分散。但需要注意的是,從四分位距來看,本文的數值要小于研究A的結果。四分位距雖然也能在一定程度上反映數據的分散程度,但其反映的只是數據從小到大排列后中間50%范圍內(即圖1中兩條虛線之間)數據的分布寬度,不考慮前25%和最后25%的數據,因而能夠較好削弱離群值的影響。從表2來看,三項研究中女性Jitt的四分位距和標準差均小于男性,即總體上女性Jitt的分布會比男性更集中,這既可能表明女性群體內部之間嗓音表現的個體差異比男性群體內部之間的個體差異要小,也可能表明女性在嗓音的控制能力上比男性更好。因為本文中的語料為207核心詞,而非某個具體的元音,所以在某些詞上可能存在女性的Jitt總比男性小的情況,這就表明女性的嗓音控制能力更好。在29名男性發音人中,可能存在某些發音人的Jitt總是會比其他男性發音人大,這就是男性群體內部之間個體差異更大的表現。不過,想要得到具體原因,仍有待進一步研究。由于研究A的發音人數量遠多于本文,收集到的數據量也更大(234 617個Jitt數據),而研究B的發音人數量和數據量(10 443個Jitt數據)稍少于本文,數據量越多則能代表中間50%數據寬度的數值可能越分散,這或許是本文的四分位距大于研究B但小于研究A的原因。
根據中心極限定理(Central limit theorem)和統計學的一般經驗,當n≥30時,樣本分布近似服從正態分布[17],因而本文中Jitt數值的分布基本滿足單樣本T檢驗(Single sample t test)的適用條件。我們將本文男性、女性的Jitt數據分別與研究A和研究B的數據進行了比較,檢驗結果顯示,本文男性、女性的Jitt顯著大于研究A的Jitt(t=14.543,t=13.824,ps<0.001),同時也顯著大于研究B的Jitt(t=35.598,t=30.672,ps<0.001)。總之,跨國別、跨語言發音人的基頻微擾總體上要顯著大于漢語母語者。下面分析振幅微擾的情況。
與Jitt一樣,語料中共有14268條有效的Shim數據,其中男性5794條,女性8474條。分別對男性、女性的Shim數據進行K-S檢驗(Kolmogorov-Smirnova test),結果顯示,男性、女性的Shim均不呈正態分布(ps<0.001)。總體來看,Shim的均值為9.239,中位數為8.787,標準差為2.999,這三項數據中,均值和中位數分別比研究A小1.412和1.690,但是標準差要大0.440,即本文語料的Shim總體上不及研究A的大,但是標準差更大,數據的分布上更為分散。下面分別對男性、女性的Shim數據進行分析。
圖2所示為男性、女性的Shim分布小提琴圖。從圖中可見,男性Shim的中位數、上下四分位數均要稍大于女性,男性Shim的極值比女性更大,數據分布范圍也更廣。從統計的具體數值來看,男性Shim的均值為10.185,中位數為9.716,標準差為3.214,女性Shim的均值為8.592,中位數為8.230,標準差為2.655。可見男性的三項數據均比女性要大,男性的Shim大于女性,且男性Shim的分布離散程度也要大于女性。同時,非參數檢驗的結果也顯示,這種差異具有統計學上的顯著性(Mann-Whitney Test,p<0.001),即本文中的語料支持男性的Shim要顯著大于女性的觀點。此外,男性Shim的四分位距為1.905,四分位浮動范圍為8.002~11.811,女性Shim的四分位距為1.631,四分位浮動范圍為6.787~10.049,再一次表明男性Shim的分布分散程度更高,即男性聲帶振動在振幅上的不穩定性與不規律性比女性更大。為便于與相關研究結果對照比較,同樣將Shim的數據整理如表3所示。

圖2 Shim分布小提琴圖

表3 Shim數據對照表
從表3可見,本文語料中男性、女性Shim的均值和中位數均比研究B的結果要大,但比研究A的要小,這與Jitt的情況有所不同。從標準差來看也與Jitt不同,本文語料男性Shim的標準差是最大的,但女性Shim的標準差比研究A的要小。四分位距的情況與Jitt相同,本文的數值要小于研究A的結果,原因可能在于其發音人比本文更多,樣本容量更大,Shim數據的中間50%跨度更大。結合Jitt來看,在這三項研究中,四分位距數值主要受到發音人數量以及嗓音參數數據量的影響,發音人越多、數據量越大則四分位距會越大。
我們同樣使用單樣本T檢驗(single sample t test)將本文男性、女性的Shim數據分別與研究A和研究B的數據進行了比較,結果顯示,本文男性、女性的Shim顯著小于研究A的結果(t=-40.744,t=-27.782,ps<0.001),同時,男性、女性的Shim顯著大于研究B的結果(t=47.912,t=43.908,ps<0.001)。總之,跨國別、跨語言發音人的振幅微擾顯著小于大樣本普通話發音人的數據,但顯著大于漢語方言發音人的數據。
本文使用Praat軟件對來自69個不同國家的29名男性和40名女性發音人的Swadesh207核心詞錄音樣本進行了嗓音參數檢測,使用統計學方法進行了分析,并將結果與研究A和研究B報告的結果進行了對比。分析結果顯示,基頻微擾和振幅微擾在男性和女性之間存在顯著的差異,并且是男性的基頻微擾和振幅微擾大于女性,這與上文提及的認為二者在性別之間沒有顯著差異或女性比男性大的研究觀點有所不同,但與研究A和研究B等認為男性顯著大于女性的研究結論一致。本文語料的發音人母語背景較以往研究更為多元,實驗結果應該更為可靠。男性的基頻微擾與振幅微擾大于女性,這一結果應該是由于男、女生理差異造成的。成年男性的聲帶往往比女性的聲帶長,女性比男性的聲帶約短三分之一[18],因而女性對聲帶的控制能力應該會強于男性,基頻微擾和振幅微擾比男性更小。
本文男性、女性的基頻微擾均要顯著大于研究A和研究B報告的結果,但是振幅微擾卻顯著小于研究A的結果,可見基頻微擾與振幅微擾的表現并不完全一致,其中原因有待進一步研究。應該看到,這三項研究中的發音人和語料都是不同的。研究A的發音人達到258名,并且發音內容是普通話語句;研究B的發音人是40名,發音內容是漢語方言中的182個詞語;而本文中的發言人是69名,發音內容是Swadesh207核心詞在不同國家的語言中的發音。所以,影響對比結果的因素應該既包括發音人的母語背景、發音人的數量,也包括發音的內容等。本文出于從多元母語背景的語料來綜合考察不同性別嗓音表現的目的,而未將69名發音人單獨分析,在以后的研究中可以更加細化。另外,由于嘎裂聲、鼻音等發聲習慣的差異,說不同語言或方言的人可能會有不同的嗓音表現[19],并且發不同的元音可能也會有不同的嗓音表現[20],所以在跨語言詞語語料的嗓音分析中,應當充分考慮不同語言的語音結構、元輔音比例等因素的影響。但本文的目的在于考察多母語背景發音人嗓音在性別上的表現,為嗓音參數的性別差異提供跨語言Swadesh207核心詞語料的數據,為嗓音病理、語言研究等提供跨語言語料的參考,因而未對上述因素做細致考察。