(1. 西北工業(yè)大學 計算機學院, 西安 710072; 2. 海軍兵種指揮學院 作戰(zhàn)指揮系, 廣州 510430)
摘要:研究了用迭代自適應逆濾波器估計聲門激勵的方法,以聲門激勵的時域參數(shù)歸一化振幅商作為特征,對六種不同情感的連續(xù)語音,首先使用F-ratio準則判別其對情感的區(qū)分能力,然后運用混合高斯模型對語音情感進行建模和識別。采用eNTERFACE’05情感語音數(shù)據(jù)庫中的語音,比較了以整句NAQ值作為特征和以元音段的NAQ值作為特征,以及主觀感知的情感識別結果。實驗表明元音段的NAQ值是一種具有判別力的語音情感特征。
關鍵詞:迭代自適應逆濾波; 歸一化振幅商; F-ratio準則; 混合高斯模型
中圖分類號:TP391.42文獻標志碼:A
文章編號:1001-3695(2008)11-3243-03
Emotion recognition based on normalized amplitude quotient
BAI Jie1,2, JIANG Dong-mei1, XIE Lei1, FU Zhong-hua1, REN Cui-hong1
(1.School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China; 2. Dept. of Tactical Command, Naval Arm Servers Command Acdemy, Guangzhou 510430, China)
Abstract:This paper described a new time-domain parameter of the glottal flow, the normalized amplitude quotient and iterative adaptive inverse filtering. Six emotional speech coming from the eNTERFACE’05 audio-visual emotion database are inverse filtered using IAIF to estimate the glottal flow and parameterized using NAQ. To evaluate the properties of the emotion features based on the NAQ values of the vowel segments and of the whole speech sentences, firstly, gave F-ratio criterion to measure their ability to distinguish different emotions. Then, used the NAQ features to train the Gaussian mixture models for each speech emotional state, and compared emotion recognition results with subjective emotion perception results. Experimental results show that NAQ value of vowel segments can be used as an effective emotion feature in emotion recognition from speech.
Key words:IAIF(iterative adaptive inverse filtering); NAQ(normalized amplitude quotient); F-ratio criterion; GMM(Gaussian mixture models)
0引言
語音情感識別研究在近幾年得到了快速發(fā)展。針對語音的何種特征可以有效體現(xiàn)出情感,學者們進行了大量的研究,主要集中在基于韻律的特征和基于基頻的特征兩方面。但是如何提取對說話人、訓練語音庫等更具有魯棒性的語音情感特征,還需要作進一步的研究。
研究表明,語音情感與音色(voice quality)是密切相關的,或者說音色是語音情感的一種重要表現(xiàn)形式。文獻[1]中通過共振峰合成器合成了breathy voice、creaky voice、harsh voice、lax-creaky voice、modal voice、tense voice、whispery voice七種音色由聽者來判斷。實驗證明,不同的情感對應不同的音色,如生氣的音色表現(xiàn)為tense和harsh voice,悲傷的音色為breathy voice,厭惡的音色為creaky voice,害怕的音色表現(xiàn)為whispery和breathy voice。因此提取基于音色的特征將有利于情感判別。
對于音色的定量分析主要依據(jù)聲門激勵的特性。逆濾波提供了非入侵的方法來估計語音的聲門激勵。有很多對聲門激勵的量化參數(shù),常用的時域參數(shù)[2]有聲門開啟比例(open quotient,OQ)、開啟閉合速度比(speed quotient,SQ)和聲門閉合比例(closing quotient,CQ),但是它們都需要用到聲門開啟和閉合時刻。由于聲門開啟與閉合瞬間很難準確得到,這幾個參數(shù)的實用性不是很強。文獻[2]提出了新的聲門時域參數(shù)NAQ。作為對聲門閉合階段參數(shù)化的方法,它采用經(jīng)過逆濾波估計的聲門激勵波形的兩個振幅域值來度量,并用基音周期進行歸一化。實驗證明NAQ參數(shù)比傳統(tǒng)時域參數(shù)CQ對語音噪聲和失真更魯棒。文獻[2,3]中說話者分別用breathy、normal、pressed三種不同的發(fā)聲類型發(fā)元音/a:/,計算其NAQ值,結果表明不同的音色對應不同的NAQ值,即NAQ值對音色的區(qū)分是有效的。進一步,文獻[4,5]從neutral、sadness、joy、anger、tenderness五種情感的連續(xù)語音中提取元音/a:/的40 ms片段,進行逆濾波和計算NAQ參數(shù)。實驗分析也表明NAQ參數(shù)對情感具有一定的區(qū)分能力,在語音情感識別中可作為一個可行的特征。但是由于文獻[4,5]的實驗中僅提取連續(xù)語音中單一元音的40 ms片段進行NAQ參數(shù)分析,對其在整句連續(xù)語音情感識別中的應用并沒有作進一步的探討。目前尚未看到國內(nèi)外有將NAQ參數(shù)用在連續(xù)語音情感識別中的相關文獻。本文初步探索了NAQ參數(shù)作為特征應用于語音情感識別的途徑,取情感語音中所有元音段的NAQ值作為特征建立混合高斯模型,采用eNTERFACE’05[6]的聽/視覺情感語音數(shù)據(jù)庫,對六種情感anger、disgust、fear、happiness、sadness、surprise進行識別實驗,并與以整句語音的NAQ值作為特征的識別結果進行了比較。結果表明使用語音中元音段的NAQ值作為特征可以得到較滿意的情感識別率。
1基于NAQ的語音情感特征
11迭代自適應逆濾波器[7,8]
本文對語音信號采用IAIF進行逆濾波,它是一種從語音信號中提取聲門激勵的分析方法。其基本原理是:通過循環(huán)迭代地利用逆濾波技術,盡可能從原始語音信號中去除聲門激勵和口鼻輻射的效應,以便更精確地估計聲道濾波器特性,從而盡可能從語音信號中去除聲道濾波器效應,最終更精確地估計聲門激勵信號。IAIF流程如圖1所示。
這種方法的運作在兩個階段(圖1)內(nèi),第一個階段為模塊b)~f),產(chǎn)生聲門激勵的初步估計,被用來作為第二階段g)~l)更準確估計聲門激勵的輸入。其中DAP(discrete all-pole modelling,離散全集點模型)用來估計聲道濾波器或聲門激勵的模型;s(n)為聲壓波,即原始語音信號;g(n)為輸出,即估計的聲門波;Hg1(z),Hvt1(z),Hg2(z)是轉移函數(shù)。具體逆濾波的過程如下:
a)對語音信號高通濾波,以去除在錄音期間被麥克風扭曲的低頻波。高通濾波采用截止頻率為60 Hz的線性FIR濾波器來實現(xiàn)。
b)對經(jīng)過高通濾波處理的語音信號進行1階DAP分析,用全零點濾波器表示,對語音信號中聲門激勵和唇輻射的綜合影響進行初步估計,其轉移函數(shù)由Hg1(z)表示。
c)對b)的結果進行逆濾波,消除激勵信號和唇輻射的影響。
d)對c)的結果進行p階DAP分析,獲得一個聲道濾波器模型,用Hvt1(z)表示。p一般取8~12,本實驗中取11。
e)由d)得到的聲道濾波器模型通過逆濾波器消除聲道的影響。
f)對e)的輸出進行積分,以消除唇輻射的影響,得到聲門激勵的初步估計。
g)對f)得到的聲門激勵信號進行g階DAP分析,精確估計聲門激勵信號的模型,用Hg2(z)表示,g的值取4。
h)用激勵信號模型對輸入信號進行逆濾波,以消除估計聲門激勵的影響。
i)對上一步的輸出求積分,以消除唇輻射的影響。
j)通過r階的DAP分析,得到一個新的聲道濾波器模型Hvt2(z)。r的值可以被調(diào)節(jié),但通常與d)的p值相等。
k)利用j)得到的聲道模型,通過逆濾波從輸入信號消除聲道的影響。
l)求積分以消除唇輻射的影響,得到對聲門激勵的最終估計g(n)。
實驗中調(diào)節(jié)聲道共振峰的數(shù)量和唇輻射的系數(shù)以獲得最佳的聲門波估計。共振峰的數(shù)量一般為8~14,唇輻射系數(shù)為0.97~1.0。圖2為元音/a:/在生氣情感下的原始語音信號波形及其經(jīng)IAIF逆濾波后得到的聲門激勵信號。
12歸一化振幅商[ 2]
振幅商(amplitude quotient,AQ)是用單一的數(shù)字值定量描述聲源特征最有效的參數(shù)之一[9]。它被定義為聲門波最大振幅與其相應一階導數(shù)的最大負峰值之比[10]。
AQ=fac/dpeak(1)
其中:fac是聲門脈沖的最大波峰值;dpeak是聲門脈沖對應一階導數(shù)的最大負峰值。
因為無須測量聲門波開啟或閉合的瞬間時刻,AQ值比較容易得到。由于AQ的值依賴于信號的基頻(F0),將AQ用基音周期歸一化。文獻[2]導出一個新的聲源時域參數(shù)NAQ,去除了這種對基頻的依賴性[5]。
NAQ=AQ/T=fac/(dpeak×T)(2)
其中T為基音周期。
圖3給出了元音/a:/的一段經(jīng)IAIF處理得到的聲門激勵與其對應的一階導數(shù)波形。
圖4~7分別是元音o、e,爆破音p,清輔音s經(jīng)IAIF逆濾波后的聲門波形、對應的一階導數(shù)波形及其NAQ值。由圖中可以看出元音段NAQ值的變化比較平穩(wěn),而且不同元音段的NAQ值比較接近;爆破音p只求出了兩個NAQ值;而清輔音s的激勵類似于白噪聲,其求出的NAQ值也具有很大的隨機性。因此,如果采用整個語句中的所有輔音和元音段的NAQ值作為情感特征,這種特征的分布將會比較發(fā)散,由語音單元不同引起的NAQ值變化,將會超出由情感引起的變化。由此可見語音情感特征不宜采用整個語句的NAQ值。
本文只采用元音段的NAQ值作為語音情感特征。
2F-ratio準則
為了更直接地評價NAQ參數(shù)對不同情感的區(qū)別能力,本文采用一種廣義F-ratio測度準則[11]。定義如下:
Sw=1/I∑Ii=1∑Jj=1(Mij-Mj)2(3)
Sb=1/I∑Ii=1(Mi-Mo)2(4)
F-ratio=Sb/Sw(5)
其中:Mij為第i類情感語音中元音段NAQ值的第j個特征值;Mo為所有情感語音中元音段的NAQ均值;Mi為第i類情感語音中元音段的NAQ均值;Sw為第i類情感語音中元音段的NAQ值的方差;Sb為所有情感語音中元音段的NAQ值的方差。F-ratio的值越大,說明參加計算的各類情感間的區(qū)別效果越好。
3基于GMM的語音情感識別
本文采用聲門時域參數(shù)NAQ值為特征,用GMM為情感建模。GMM為高斯概率密度函數(shù)的一個線性組合,只要有足夠多數(shù)目的高斯概率密度函數(shù)就可以逼近任意一種密度函數(shù)。這里選擇八個高斯概率密度函數(shù)。bi(x)為特征矢量x對于第i個高斯的概率密度函數(shù):
bi(x)=1/[(2π)D/2|i|1/2]exp ((x-ui)∑-1i(x-ui))/2(i=1,…,8)(6)
其中:x表示D維NAQ特征值;ui、i是第i個高斯分量的均值和方差;D是特征矢量的維數(shù),此處D=1。x在GMM下的似然度為
p(x|λ)=∑8i=1wibi(x)(7)
其中:wi(i=1,…,8)是權重系數(shù),需滿足∑8i=1wi=1。
在訓練時,對每種情感模型的參數(shù)λ=[u,,w]進行初始化,分別對每種情感的所有NAQ特征用K-means聚類算法進行聚類,得到中心向量u=(u1,…,u8)作為均值u的初始值,并計算其方差i,作為=(1,…,8)的初始值,權重定為wi=1/8(i=1,…,8)。
使用期望最大化(expectation-maximization,EM)算法在迭代中改善GMM模型的參數(shù)估計,在每次迭代中增加模型估計λ與觀測特征矢量的匹配概率,即每次迭代有p(X|λk+1)>p(X|λk),k是迭代次數(shù)。這樣迭代運算直到模型收斂。
識別時,計算輸入語音的NAQ特征在每個情感模型下產(chǎn)生的概率,找出概率最大者,其對應的情感就是識別結果。
4識別實驗與分析
41情感數(shù)據(jù)樣本
實驗數(shù)據(jù)采用eNTERFACE’05聽/視覺情感語音數(shù)據(jù)庫[6]中的語音,它包含anger、disgust、fear、happiness、sadness、surprise六種情感,由來自14個不同國家的42個說話人錄制,使用英語,每種情感由每個人的5句話來表達。本文用Cooledit從視頻文件中提取16 kHz、16位、單聲道的音頻用于實驗。為了提高實驗的可靠性,從每種情感中挑出表達效果好的100句用于GMM訓練,另外挑選出30句作為識別語句。還對識別數(shù)據(jù)進行情感感知評估實驗,在未知原始語音感情的狀況下將識別語句隨機分給三位同學進行主觀感知識別。
首先針對所有的訓練語句采用語音處理工具包HTK[12],在用TIMIT標準語音語料庫訓練的三音素模型的基礎上,進行音素的強迫對準,并對元音段進行切分。因為存在元音與輔音的過渡段,為了保證提取的元音段的可靠性,對每段元音僅取其四分之一至四分之三部分。本文實驗共分為兩部分:a)六種情感分別兩兩之間以NAQ值作為特征計算F-ratio值;b)對各種情感以NAQ值作為特征,使用GMM模型進行訓練和識別實驗。兩部分實驗分別都以整句語音的NAQ值和元音段的NAQ值作為特征進行比較。
42F-ratio值比較
采用情感語音中元音段的NAQ值作為特征,針對六種情感分別計算兩種情感之間的F-ratio值。圖8~13是anger、disgust、fear、happiness、sadness、surprise分別與其他各種情感間以元音段的NAQ值為特征和以整句的NAQ值為特征計算的F-ratio值的比較結果。從圖中可以看出,以元音段的NAQ值為特征計算的F-ratio值大部分都明顯大于以整句NAQ值為特征計算的F-ratio值,說明以元音段的NAQ值作為特征對情感有更強的區(qū)分力。
43語音情感識別結果
表1是以元音段NAQ值為特征和以整句NAQ值為特征的情感識別結果,以及情感感知實驗結果。比較以元音段的NAQ值為特征和以整句的NAQ值為特征的情感識別結果,除了disgust外,識別率都是63.3%無變化;happiness在以元音段的NAQ值為特征的情感識別中識別率為0,而在以整句的NAQ值為特征的情感識別中識別率為3.3%,稍有下降;其他情感的識別中僅用元音段特征比用整句NAQ特征的識別率都有明顯的提高,尤其surprise的識別率由整句特征的3.3%提高到40%。這說明僅以元音段的NAQ值為特征的情感識別效果明顯高于以整句NAQ值為特征的情感識別效果。在感知實驗中,情感語音數(shù)據(jù)庫完全采用國外的,由于生活習慣以及文化差異,中外對情感的認知也存在差異,對fear、surprise感知實驗的正確識別率也只達到63.3%。比較基于元音段NAQ特征和GMM的情感識別和感知實驗,少數(shù)情感的識別率已經(jīng)比較接近,但大部分情感的識別率還有一定的差距,這是因為只采用了NAQ值這個一維特征。
表1GMM識別結果與感知實驗識別結果比較%
識別結果angerdisgustfearhappinesssadnesssurprise
感知實驗73.376.7639086.763.3
元音段特征3063.356.704040
整句特征26.763.3303.316.73.3
5結束語
本文通過實驗驗證了將聲源時域參數(shù)NAQ值作為情感識別的特征之一的可行性。情感識別實驗結果表明,大部分以元音段的NAQ值為特征的情感識別率比以整句NAQ值為特征的情感識別率高,而且F-ratio的實驗結果也表明,以元音段的NAQ值作為特征對情感有更強的區(qū)分力。當然本文僅用了NAQ值一維特征,識別結果還不是很理想。作為后續(xù)工作,本文將研究NAQ參數(shù)結合基于基頻的其他特征,選擇更有效的特征集進行語音情感識別,期望得到更好的識別效果。
參考文獻:
[1]GOBL C, CHASAIDE N. The role of voice quality in communicating emotion,mood and attitude[J].Speech Communication,2003,40:189-212.
[2]ALKU P,BCKSTRM T,VILKMAN E. Normalized amplitude quotient for parameterization of the glottal flow[J].Journal of the Acoustical Society of America,2002,112(2):701-710.
[3]LEHTO L, AIRAS M, BJRKNER E,et al.Comparison of two inverse filtering methods in parameterization of the glottal closing phase characteristics in different phonation types[J].Journal Voice, 2007,21(2):138-150.
[4]AIRAS M, ALKU P. Emotions in short vowel segments:effects of the glottal flow as reflected by the normalized amplitude quotient[C]//Proc of Tutorial and Research Workshop, Affective Dialogue Systems. 2004:13-24.
[5]AIRAS M, ALKU P.Emotions in vowel segments of continuous speech: analysis of the glottal flow using the normalized amplitude quotient[J].Phonetica,2006,63(1):26-46.
[6]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE’05 audio-visual emotion database[C]//Proc of the 22nd International Confe-rence on Data Engineering Workshops. Washington:IEEE Computer Society, 2006:8-16.
[7]ALKU P.Glottal wave analysis with pitch synchronous iterative adaptive inverse filtering[J].Speech Communication,1992,11(2-3):109-118.
[8]ALKU P, TIITINEN H, NRISTO NAATANEN R.A method for gene-rating natural-sounding speech stimuli for cognitive brain research[J].Clinical Neurophysiology,1999,110:1329-1333.
[9]FANT G. The voice source in connected speech[J].Speech Communication,1997,22(2-3):125-139.
[10]ALKU P, VILKMAN E. Amplitude domain quotient for characterization of the glottal volume velocity waveform estimated by inverse filtering[J].Speech Communication,1996,18(2):131-138.
[11]蔣冬梅,趙榮椿.一種基于共振峰恢復和Mellim變換的非特定人語音特征提取方法[J].數(shù)據(jù)采集與處理,2001,16(1):58-62.
[12][EB/OL].http://htk.eng.cam.ac.uk.