毛佩文
摘要:為了探究性別差異對漢語情緒語音韻律特征產生的影響,本研究采用角色扮演的誘導式方法,設計并采集了含有高興、憤怒、悲傷、驚奇四種基本情緒的語音語料,分析它們的時長、基頻曲線的特征,并通過不同性別的同種情緒語音信號對比,得到漢語情緒語音韻律特征分布變化規律,在此基礎上發現了女性話語所包含的情緒較男性更易被感知的原因:(1)男性情緒語音中的無聲部分,削減了語音的連續性并且增加了情緒的時長,導致識別率降低;(2)女性的情緒基頻值總體上高于男性;(3)女性基頻的變化率高于男性。情緒語音具有如下傾向:基頻的變化越明顯,變化率越高,情緒的表現力越強;(4)女性的基頻最高值位置較前。
關鍵詞:情緒語音 性別差異 時長 基頻曲線 Praat語音學軟
緒論
說話人性別識別是當前語音識別領域一個非常重要的課題,目前在限定條件下以基音為判別標準的說話人性別識別已經可以獲得較為滿意的效果,但與實際的應用要求還有一定的差距。在目前的使用環境中,說話人情緒是造成這種差距的主要因素之一。同時,我們發現,在面向不同情緒語音的說話人性別識別時,女聲的識別率普遍高于男聲。在日常對話中,女性話語所傳達的情緒也更易被感知。
本研究將對不同性別的同種情緒語音信號對比,以期獲得:(1)不同性別的漢語情緒語音韻律特征(時長、基頻)分布變化情況;(2)女性話語所包含的情緒較男性更易被感知的原因。
1.研究綜述
1.1情感、情緒與態度
人們在言語交際中表現出的情感,包含了對外部信息認知加工的兩個不同層面(Auberge & Gestalt,2002):一是不自主控制的情感,即“情緒”;二是自主控制的情感,即態度。我們認為,情緒和態度是兩種截然不同的心理狀態。情緒與生俱來,是對外部刺激的本能反應;而態度與語言、文化有非常密切的聯系,在不同的社會文化環境中會表現出一定的差異,某些態度的表達方式需要后天的學習。
本研究只考察漢語情緒語音韻律特征分布變化規律。
1.2兩類主流情緒描述模型
情緒的描述有多種方法,大致可分為離散和連續兩種形式。
前者將情緒描述為離散的、形容詞標簽的形式,如高興、悲傷等,在人們的日常交流過程中被廣泛使用,同時還被普遍運用于早期的情緒相關研究中。
后者是做連續的描述。這種觀點認為,情緒的描述不應局限于那些典型的基本情緒,還需考慮更精細的連續性變化。于是,往往在一個二維或三維的連續空間上描寫情緒。
我們以表格的形式對兩種情緒描述模型之間的區別進行了總結和展示,見表1-1。
一般認為,那些能夠跨越不同人類文化,甚至能夠為人類和具有社會性的哺乳動物所共有的情緒類別為基本情緒?!盎厩榫w”的說法屬于離散情緒描述模型,表1-2列舉了不同學者對基本情緒的定義和劃分。
在表1-2中,“高興”(happiness,joy,pleasure等)出現次數最多,為11次;其后分別為憤怒、悲傷、恐懼。同時,這四種基本情緒的頻次明顯高于其他情緒。因此,我們認為一共有四種基本情緒,即高興、憤怒、悲傷、恐懼。
1.3小結
綜上所述,本文仍然沿用傳統的離散情緒描述模型,研究基本情緒??紤]到“恐懼”在現實生活中出現頻率很低、在語音對話系統中很少需要,而且相比而言最難在實驗中誘導,所以我們的研究沒有包括“恐懼”,而代之以“驚奇”。于是,我們的研究對象為以下四種基本情緒:高興、憤怒、悲傷、驚奇。
2.實驗方案
2.1情緒語料設計
2.1.1設計思想
從國內外研究文獻來看,設計和采集情緒語音的方法??梢苑譃槿悺0凑鎸嵭院妥匀欢扔傻偷礁撸煽匦詣t由高到低)的順序,依次為:
(1)簡單模仿式(模仿語料):不設計語境,由被試簡單模仿,一般選取較專業的被試;
(2)場景誘導式(誘導語料):設計一定語境,在角色扮演中誘導出被試的情緒:
(3)完全自發式(自發語料):在真實情景下的情緒表達。
我們認為模仿式語料的語義與情緒之間缺乏內在關聯,錄音時難以保證情緒到位,且尋找符合要求的被試難度較大,因此未采用簡單模仿式方法。
從真實性和自然度考慮,最好當然是自發式語料。但這類語料的采集和后續處NT作量巨大,而且在自發話語中變化因素太多。即使僅考慮情緒因素,也很可能是多種情緒的混合,不適合直接用于對比研究。
綜合考慮語料自然度、實驗可控性和數據處理等多個因素,我們決定采用角色扮演的誘導式方法。
2.1.2設計原則
在正式設計語料前,我們先確立了以下的目標句設計原則:
(1)單句,長度適中:6-11個音節;
(2)句焦點:①今天星期四;②今天星期四;
(3)句類:陳述句、疑問句、祈使句、感嘆句;
(4)聲調:句尾字的聲調和句調的交互作用;
①句類相同:以陳述句為例
今天星期五。句尾字“五”降升調,整句為升調
今天星期一。句尾字“一”高平調,整句為降調
②句尾字的聲調相同:以中升調為例
今天正月初十。陳述句,整句為升調
今天正月初十?疑問句。整句升調更明顯
(5)不含性別暗示詞語:男朋友、女朋友等;
(6)字面上沒有明顯的情緒傾向;
(7)情緒可塑性大,而且語義自然;
(8)構成一個獨立的話輪,保證情緒全部落在目標句上。
2.2情緒語音采集
我們按照2.1.2節中的設計原則設計目標句。對每一個目標句,設計四段不同的對話腳本,分別誘導出高興、憤怒、悲傷、驚奇這四種基本情緒。我們最終確定了8個目標句,每段對話含有2-5個話輪。下面以目標句“真沒想到你會這樣”為例,列出四種情緒下的對話腳本。
(1)高興:
B:你好像和以前不一樣了,知道關心人了。
A:是啊,以前我挺自私的,現在學會為別人考慮了。
B:真沒想到你會這樣!
(2)憤怒:
A:你怎么了?這么生氣!
B:你是不是打小明了?
A:那家伙太煩了,打他又怎么樣!
B:真沒想到你會這樣!
(3)悲傷:
A:你叫我來有什么事嗎?
B:就在這兒,你說過你會一直陪著我。
A:我已經不記得了。
B:真沒想到你會這樣!
(4)驚奇:
A:這個月我天天去酒吧!
B:真的假的?
A:當然啦,我也要好好享受生活了!
B:真沒想到你會這樣!
實驗被試者為南京師范大學漢語言專業的一名女生和一名男生。在兩名被試熟悉腳本內容并模擬對話以后,進入專業錄音棚(科奧克聲學錄音室)內錄音,輪流扮演目標句發出者B。錄音設備為手持式數碼錄音機(Handy Recorder),錄音采樣率取44100Hz。錄制對話時,目標句以外的內容可以輕微改變,但目標句必須與腳本一致。為保證語料質量和情緒連續性,同類情緒的對話安排在同一時間段連續錄制,每種情緒錄制之間有休息時間。最后,我們得到男女各32個樣本。
2.3語音信號切分
為了提取樣本中的目標句,我們需要使用Adobe Audi-tion聲音處理軟件進行語音信號的切分。并將切分后僅含有目標句的音頻保存為Praat軟件可讀取的,wav格式。圖2-1是Adobe Audition聲音處理軟件的工作界面。
2.4語音韻律特征的提取
2.4.1時長提取
我們通過Praat軟件提取不同性別的同一情緒目標句的持續時間,對由性別引起的持續時間的變化進行分析和比較。本文計算出每一情緒語句從開始到結束的持續時間,這一時間包括句中的無聲部分。因為無聲部分本身對情緒是有貢獻的。
2.4.2基頻曲線提取
基頻是反映情緒信息的重要特征之一。而且通常情況下男女兩性的聲音的基頻有著比較明顯的區別。通過Praat軟件提取目標句的基頻值。然后手工檢查并做必要的修正。其后,對基頻曲線做輕微平滑,最終得到全句連續的基頻曲線。
3.實驗結果
3.1時長分析
由圖3-1可以看出,對于一個8音節的目標句而言:(1)四種基本情緒的時長都在1300ms到1850ms之間,差別不明顯:(2)男性四種基本情緒的時長都高于女性;(3)對于男性而言,悲傷的時長最高,而后分別是高興、憤怒、驚奇;(4)對于女性而言,高興的時長最高,而后分別是驚奇、悲傷、憤怒;(5)相對于男性而言,女性發音時長受情緒因素影響的變化不明顯;(6)悲傷的時長受性別因素影響的變化最顯著,而后分別是高興、憤怒、驚奇。
我們認為。除了性別間語速的差異。男性在生活中更傾向于使用停頓來表達情緒,因此男性的情緒語音中包含的無聲部分明顯多于女性。因為無聲部分本身對情緒是有貢獻的,因此我們在提取時長的過程中并未刪除無聲部分,這就導致男性四種基本情緒的時長都高于女性。于是,我們大膽推斷。正是由于男性情緒語音中所包含的無聲部分,削減了語音的連續性并且增加了情緒的時長。導致男性情緒的識別率降低。
3.2基頻曲線分析
圖3-2、圖3-3、圖3-4、圖3-5展示了四種基本情緒各自在不同性別基礎上的基頻曲線(以目標句“真沒想到你會這樣”為例),其中時間未做歸一化處理。
綜合分析上述4張圖。我們可以發現:
(1)①無論男女,四種基本情緒的基頻曲線都很清楚地聚為兩組:一組是憤怒和驚奇,另一組是高興和悲傷。前一組的基頻值總體上明顯比后一組高;②男女對比,女性的四種基本情緒基頻值總體上高于男性:
(2)①無論男女,驚奇狀態的音高范圍最寬,一方面全句基頻最高值通常較其他情緒高,另一方面全句基頻最低值在基頻值總體較高的兩種情緒中也較憤怒為低。與其他情緒形成對照的是,驚奇總是在某個音節上拉高基頻值到全句的最高值;②男女對比,男性的基頻最高值總是高于女性。而且晚于女性出現:
(3)無論男女,悲傷的基頻值最低,范圍也最窄(基頻曲線最為平坦):
(4)男女對比,四種基本情緒中男性的基頻曲線較女性更為平坦:
(5)男女對比,男性的基頻變化范圍較女性更大,但變化率則低于女性:
除了以上發現外,我們進一步考察了語調。在四種基本情緒中,除了憤怒,其他情緒的基頻曲線都有一定的下傾趨勢,語調下傾的幅度呈現以下順序:驚奇>高興>悲傷。這也表明:積極情緒>消極情緒。
字調和語調在當前階段是密不可分的兩個概念,因此我們也對尾字調進行了考察。我們可以發現:(1)無論男女,憤怒和悲傷(消極情緒)目標句的尾字調呈上升趨勢,驚奇和高興(積極情緒)目標句的尾字調呈下傾趨勢;(2)男女對比,男性的目標句尾字調上升趨勢和下傾趨勢較女性都更為明顯。
于是,我們認為,女性話語所包含的情緒更容易被感知的原因在于:
(1)基頻值:由于聲帶構造的差別,女性的情緒基頻值總體上高于男性,而人類更易感知基頻值較高的話語中的情緒:
(2)基頻的變化率:男性的基頻曲線較女性更為平坦,女性基頻的變化率高于男性。我們認為,情緒語音具有如下傾向:基頻的變化越明顯,變化率越高,情緒的表現力越強,也更易被感知:
(3)基頻最高值的位置:在四種基本情緒的基頻曲線上,雖然男女的基頻最高值都出現在目標句中后段,但女性的基頻最高值總是先于男性出現。我們認為,基頻最高值位置較前也是導致女性的情緒更易被感知的原因。
4.結語
4.1研究結論
本研究考察了基于性別差異的漢語情緒語音韻律特征分布變化情況。我們采用角色扮演的誘導式方法,設計并采集了含有高興、憤怒、悲傷、驚奇四種基本情緒的語音語料,分析它們的時長、基頻曲線的特征,并通過不同性別的同種情緒語音信號對比,發現了女性話語所包含的情緒較男性更易被感知的原因:
(1)無聲部分:除語速因素外,由于男性情緒語音中所包含的無聲部分,削減了語音的連續性并且增加了情緒的時長,導致男性情緒的識別率降低;
(2)基頻值:由于聲帶構造的差別,女性的情緒基頻值總體上高于男性,而人類更易感知基頻值較高的話語中的情緒:
(3)基頻的變化率:男性的基頻曲線較女性更為平坦,女性基頻的變化率高于男性。我們認為,情緒語音具有如下傾向:基頻的變化越明顯,變化率越高,情緒的表現力越強,也更易被感知:
(4)基頻最高值的位置:在四種基本情緒的基頻曲線上,雖然男女的基頻最高值都出現在目標句中后段,但女性的基頻最高值總是先于男性出現。我們認為,基頻最高值位置較前也是導致女性的情緒更易被感知的原因。
4.2研究展望
本研究存在一些不足,有待日后進一步彌補和探索。
(1)增加樣本量。由于對情緒的理解還停留在淺層,我們無法設計出大量符合要求的對話腳本。導致本研究樣本數量過少,對數據分析的準確性有一定的影響。希望日后能對情緒有進一步研究,設計出更多理想的目標句。
(2)增加被試量。本研究的被試僅為南京師范大學漢語言專業的一名女生和一名男生,數量少且不具有代表性。希望日后能增加被試量,選取不同年齡段的被試進行深入研究。
(3)改善情緒誘導方法。雖然本研究采用的角色扮演誘導式方法優于簡單模仿式,但未能保證目標句上有飽滿的情緒表達,且銜接不自然。導致四種基本情緒的數據差別不明顯。希望日后有機會使用真實性和自然度都更高的自發式語料進行深入研究。
(4)增加聲學參數。本研究僅對語音語料進行了時長和基頻曲線的特征分析,希望日后能增加對共振峰、頻譜、能量等參數的提取和分析,以獲得全面的數據。