(1.大連理工大學(xué) 機(jī)械工程學(xué)院, 遼寧 大連 116024;2.大連大學(xué)先進(jìn)設(shè)計與智能計算省部共建教育部重點(diǎn)實驗室, 遼寧 大連 116622)
摘 要:首先介紹了語音情感識別系統(tǒng)的組成,重點(diǎn)對情感特征和識別算法的研究現(xiàn)狀進(jìn)行了綜述,分析了主要的語音情感特征,闡述了代表性的語音情感識別算法以及混合模型,并對其進(jìn)行了分析比較。最后,指出了語音情感識別技術(shù)的可能發(fā)展趨勢。
關(guān)鍵詞:語音;情感;識別
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:10013695(2009)02042805
Survey on speech emotion recognition
ZHAO Lasheng1,2,ZHANG Qiang2,WEI Xiaopeng1,2
(1.School of Mechanical Engineering, Dalian University of Technology, Dalian Liaoning 116024, China;2.Key Laboratory of Advanced Design Intelligent Computing of Ministry of Education, Dalian University, Dalian Liaoning 116622, China)
Abstract:First,introduced the system of speech emotion recognition. Second,detailed the used features. Then,presented comparison and analysis on the classification algorithms.At last,discussed future directions.
Key words:speech; emotion; recognition
語音情感識別是指由計算機(jī)自動識別輸入語音的情感狀態(tài)。作為人機(jī)語音智能交互的關(guān)鍵技術(shù),語音情感識別技術(shù)吸引了越來越多學(xué)者的注意;同時,隨著該項技術(shù)研究的深入,其對計算機(jī)發(fā)展和社會生活的重要性也日益凸現(xiàn)出來,在諸多領(lǐng)域如互動電影、情感翻譯、心理檢測、電子游戲和輔助心理治療等得到了應(yīng)用。因此,語音情感識別研究具有重要的理論價值和應(yīng)用前景。
目前有許多關(guān)于語音和情感關(guān)系的研究, 如美國、日本、韓國、歐洲等許多國家的一些研究單位都在進(jìn)行情感語音處理研究工作。國內(nèi)也已有多所高校從事語音情感識別的研究,東南大學(xué)較早地開始了這方面的研究, 中國科學(xué)院、清華大學(xué)、浙江大學(xué)、哈爾濱工業(yè)大學(xué)、微軟亞洲研究院、中國臺灣的一些大學(xué)和研究所等機(jī)構(gòu)也在這方面做了大量工作。
至今已有數(shù)篇綜述文獻(xiàn)分別從不同的角度總結(jié)了語音情感識別的研究成果[1~3],以上文獻(xiàn)主要總結(jié)了2005年之前的研究概況,本文的目的是對這些文獻(xiàn)提供進(jìn)一步的補(bǔ)充,著重增加2005年以后的有關(guān)語音情感識別的新進(jìn)展,以供讀者了解語音情感識別目前的發(fā)展趨勢和方向。
1 語音情感識別的系統(tǒng)概述
語音情感識別系統(tǒng)大致包括三個環(huán)節(jié),即預(yù)處理、特征提取和情感分類。系統(tǒng)的框架如圖1所示。通常, 輸入的語音信號都要進(jìn)行預(yù)處理, 預(yù)處理過程的好壞在一定程度上也影響系統(tǒng)的識別效果。預(yù)處理主要包括采樣量化、預(yù)加重、端點(diǎn)檢測、分幀加窗。當(dāng)然以上環(huán)節(jié)根據(jù)提取特征的不同略有調(diào)整。特征提取的任務(wù)是從輸入的語音信號中提取能夠區(qū)分不同情感的參數(shù)序列,在提取特征數(shù)據(jù)的過程中,為了獲得最優(yōu)特征子集,可能還需要特征降維、特征選擇等進(jìn)一步處理。而模式分類的任務(wù)則包含了兩個方面:a)在訓(xùn)練時用反映情感特征的參數(shù)序列,為每種情感建立相應(yīng)的情感模型;b)在測試或識別時根據(jù)所得到的待識別語音信號的特征參數(shù)序列,由系統(tǒng)對這些參數(shù)和已知情感模型之間的相似程度進(jìn)行評估,并根據(jù)評估的結(jié)果判斷輸入語音信號的情感歸屬。
2 語音情感特征參數(shù)
語音情感的變化通過特征參數(shù)的差異來體現(xiàn),研究者已嘗試使用了諸多情感特征。目前語音情感識別系統(tǒng)主要依靠語音的低層次聲學(xué)特征來進(jìn)行識別,這些特征大致可分為基于模型的特征和非基于模型的特征。
2.1 基于模型的特征
2.1.1 線性激勵源/濾波器語音產(chǎn)生模型特征
這類特征主要表現(xiàn)在語音的頻譜結(jié)構(gòu)上, 包含了反映聲道共振的頻譜包絡(luò)特征信息和反映聲帶振動等音源特性的頻譜細(xì)節(jié)構(gòu)造特征信息, 具有代表性的特征參數(shù)有基音頻率和共振峰。濁音的聲帶振動基本頻率稱為基音頻率,文獻(xiàn)[4]對多語種下的情感語音基頻參數(shù)變化進(jìn)行了統(tǒng)計分析,統(tǒng)計結(jié)果表明情感語音的基頻結(jié)構(gòu)特征隨情感狀態(tài)改變有明顯的變化,且不同語種下這種結(jié)構(gòu)的變化有較好的一致性。基頻對于情感識別的重要作用已成為語音情感研究人員的共識,眾多的文獻(xiàn)都采用了基頻作為獲取情感信息的一個重要參數(shù)[5~7]。在這些研究中,提取的基音參數(shù)一般是一段語音的基頻衍生參數(shù),如基頻的均值、范圍、方差、中值、輪廓變化等。由于基頻與人的生理構(gòu)造密切相關(guān),在不同的個體上表現(xiàn)出較強(qiáng)的相異性和不穩(wěn)定性,基頻本身絕對數(shù)值使用較少,更為常用的是基頻的統(tǒng)計數(shù)值,而且在不同的性別上基頻差異更為明顯。文獻(xiàn)[8]注意到了這種差異,通過分析基頻均值、方差、統(tǒng)計分布模型在性別上的差異,對基頻參數(shù)進(jìn)行基于性別差異的規(guī)整;引入規(guī)整后的基頻均值和方差以及基頻統(tǒng)計分布模型距離作為情感特征參數(shù),實驗結(jié)果表明應(yīng)用規(guī)整后的參數(shù)提高了識別率。聲道可以看成是一根具有非均勻截面的聲管, 在發(fā)音時起共鳴器作用。當(dāng)元音激勵進(jìn)入聲道時會引起共振特性, 產(chǎn)生一組共振頻率即共振峰。共振峰是反映聲道特性的一個重要參數(shù),考慮到不同情感的發(fā)音可能使聲道有不同的變化,而每種聲道形狀都有一套共振峰頻率作為特征,因此,共振峰也是表達(dá)情感的特征參數(shù)之一。它一般包括共振峰的位置和頻帶寬度,在文獻(xiàn)中應(yīng)用最廣泛的是前三個共振峰峰值及前三個共振峰的帶寬。由于共振峰參數(shù)存在個體差異,類似于基頻特征其應(yīng)用較多的也是其統(tǒng)計特征[6,9,10]。
2.1.2 非線性激勵源/濾波器語音生成模型特征
傳統(tǒng)的語音學(xué)方法對語音模型的研究將語音的產(chǎn)生假定為線性源—濾波器模型,語音被假設(shè)是沿聲道方向傳播的平面波;但Teager等人認(rèn)為當(dāng)氣流通過聲帶和偽聲帶區(qū)域會出現(xiàn)氣流的分離、附著,進(jìn)而形成渦流,并與平面波一起構(gòu)成語音生成的原因。基于對這一非線性問題的考慮,文獻(xiàn)[11]提出了Teager能量算子(TEO),并給出了離散形式的TEO算子運(yùn)算公式為
ψ[x(n)]=x2(n)-x(n-1)x(n+1)(1)
其中:ψ[x(n)]為TEO算子;x(n)為信號時域采樣值。信號x(n)在n點(diǎn)的TEO只與該樣本點(diǎn)及其前后各樣本點(diǎn)有關(guān)。隨著TEO算子的提出,許多基于TEO的特征被用于識別語音中的情感。文獻(xiàn)[12]將TEO算子分別應(yīng)用于信號的時域和頻域,時域TEO變換采用式(1),頻域TEO變換采用如下公式:
ψ[x(f)]=x2(f)-x(f-1)x(f+1)(2)
其中:x(f)為信號頻域采樣值。將以上兩種變換分別與子帶能量特征相結(jié)合,提出兩種基于TEO的非線性特征用于識別語音情感。文獻(xiàn)[13]結(jié)合小波分析的多分辨率思想將不同形式的TEO與美爾頻域倒譜系數(shù)(MFCC)相結(jié)合,提出五種非線性特征用于語音情感識別,結(jié)果顯示文本有關(guān)時,非線性特征性能優(yōu)于MFCC。文獻(xiàn)[14]提出將基于TEO的非線性特征用于帶噪語音情感的識別,實驗結(jié)果證明上述特征具有較高魯棒性。
2.1.3 語音的全極點(diǎn)模型特征
這類特征主要表現(xiàn)在語音頻譜結(jié)構(gòu)隨時間的變化上, 包含了特征參數(shù)的動態(tài)特性。代表性的特征參數(shù)是倒譜系數(shù),如線性預(yù)測倒譜系數(shù)(LPCC)和MFCC。LPCC是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。根據(jù)同態(tài)處理的概念和語音信號產(chǎn)生的模型,語音信號的倒譜等于激勵信號的倒譜和聲道傳輸函數(shù)的倒譜之和。通過分析激勵信號的語音特點(diǎn)及聲道傳輸函數(shù)的零極點(diǎn)分布情況可知,激勵信號的倒譜分布范圍很寬,而聲道傳輸函數(shù)的倒譜主要分布于低時域中。考慮到不同情感的發(fā)音可能使聲道有不同的變化,進(jìn)而引起聲道傳輸函數(shù)倒譜的變化,因而在語音情感識別中語音信號倒譜的低時域系數(shù)LPCC得到了應(yīng)用。文獻(xiàn)[15]采用10階LPCC作為情感特征參數(shù),文獻(xiàn)[16]則應(yīng)用LPCC的統(tǒng)計量作為特征參數(shù)。然而,LPCC在所有的頻率上是線性逼近語音的,這與人的聽覺特性不一致,而且LPCC包含了語音高頻部分的大部分噪聲細(xì)節(jié),使其抗噪聲性能較差。針對以上的缺陷提出了MFCC,并在語音情感識別領(lǐng)域得到廣泛應(yīng)用。文獻(xiàn)[17~19]表明MFCC是一組有效的語音情感特征參數(shù)。
2.1.4 正弦語音模型特征
正弦語音模型已在多個語音處理領(lǐng)域獲得了應(yīng)用,近來這一模型在語音情感識別領(lǐng)域得到了研究。在這種模型中,語音信號被假設(shè)可以由一組不同頻率、幅度和相位的正弦波之和表示,因此這組正弦波的頻率、幅度和相位可以作為表達(dá)語音情感變化的特征參數(shù)。語音幀的正弦模型表示如下:
s(n)=Lj=1Aj cos (2nπfj/fs+j)(3)
其中:s(n)表示信號時域采樣值;Aj和j分別表示第j個正弦波的幅度和相位;fs表示信號s(n)的采樣頻率,0≤fj≤fs/2;L表示正弦模型的階數(shù)。文獻(xiàn)[20]基于上述正弦模型分別研究了幅度特征、頻率特征以及相位特征與情感的變化特性,仿真結(jié)果表明上述三種特征可以有效地刻畫語音情感的變化,并且性能優(yōu)于常用的倒譜特征參數(shù)。
2.2 非基于模型的特征
這類特征通常由一幀或一段語音信號的各個時域采樣直接計算一個特征矢量,常用的特征參數(shù)有語速[21]、短時平均過零率[22]、發(fā)音持續(xù)時間和能量[23]等。通常認(rèn)為, 歡快、憤怒、驚奇的發(fā)音長度和平靜發(fā)音相比壓縮了, 而悲傷的發(fā)音長度卻稍稍伸長了。從語速和情感的關(guān)系來看, 歡快、憤怒、驚奇和平靜發(fā)音相比變快了,而悲傷卻變慢了。在提取持續(xù)時間時應(yīng)注意包括無聲部分,因為無聲部分本身對情感是有貢獻(xiàn)的。對于漢語而言,一個漢字即為一個音節(jié),所以用總音節(jié)數(shù)除以持續(xù)時間即得到語速[1]。語音作為一種能量有限的信號,能量特征是其最重要的特征之一。從人們的直觀感覺中就可感受到語音信號的能量特征與情感具有較強(qiáng)的相關(guān)性,如當(dāng)人們憤怒時,發(fā)音的音量往往變大;而當(dāng)人們悲傷時,往往講話聲音較低。語音幀的短時能量可用如下表達(dá)式表示:
En=nm=n-N+1[x(m)w(n-m)]2(4)
其中:w(n)為窗函數(shù);x(n)為語音信號采樣值。能量參數(shù)由于受錄音設(shè)備和個人發(fā)音習(xí)慣影響較大,在實際運(yùn)用中通常需要?dú)w一化處理。早期的能量特征多集中于原始信號采樣的直接計算如式(4),隨著小波分解、多帶濾波器等子帶分解方法的引入,一些新的子帶能量分布特征逐漸被提出。如文獻(xiàn)[24]基于多濾波器分解方法,提出一種新的短時能量特征稱做對數(shù)頻域能量系數(shù)(LFPC),仿真結(jié)果證明該特征優(yōu)于常用的MFCC和LPCC。文獻(xiàn)[14]在特征LFPC的基礎(chǔ)上,通過將LFPC減去均值進(jìn)而生成新的特征參數(shù),相對于原始LFPC的性能有了進(jìn)一步的提高。
3 特征選擇和降維方法
綜上,從不同的角度理解語音,分別提出了不同的特征參數(shù),但上述的任一類型特征都有各自的側(cè)重點(diǎn)和適用范圍,不同的特征之間具有一定的互補(bǔ)性。因此,相當(dāng)多的文獻(xiàn)采用了混合參數(shù)構(gòu)成特征向量。但在特征融合時,并非特征參數(shù)越多越好,這是因為多特征之間除存在互補(bǔ)性外,還可能存在相關(guān)性,多特征融合時存在一個最佳的特征子集。另外從模式識別的研究也表明,識別率不與特征空間的維數(shù)成正比,在高維情況下泛化能力反而減弱,甚至導(dǎo)致維數(shù)災(zāi)難。現(xiàn)在解決此問題的方法是對高維特征向量進(jìn)行特征選擇或者降維。常用的特征選擇方法有序列前向選擇(SFS)[6,22,25]、序列后向選擇(SBS)[26]、優(yōu)先選擇法(PFS)等。文獻(xiàn)[27]針對普通話情感語音特征分別運(yùn)用了PFS、SFS、SBS 和逐步判別分析(stepwise discriminant analysis,SDA) 進(jìn)行特征選擇,分析了特征個數(shù)和特征選擇方法對平均準(zhǔn)確率的影響, 最后進(jìn)行了特征選擇的有效性分析。常用的降維方法有主成分分析法(PCA)[6]、線性判別分析(LDA)[19]等。近年來,關(guān)于特征降維又有新的方法,如文獻(xiàn)[6]采用遺傳算法進(jìn)行特征選擇,該算法的基本原理是模擬生物遺傳特點(diǎn),通過對原始特征集復(fù)制、變異等操作,最后在某種準(zhǔn)則下獲得最優(yōu)特征子集。
這些方法在進(jìn)行特征提取時各有優(yōu)勢,如PCA提取了最有代表性的特征,可以有效地消除冗余,降低維數(shù),但它沒有考慮不同類別數(shù)據(jù)之間的區(qū)分性。而LDA則通過最大化數(shù)據(jù)的類間離散度和最小化類內(nèi)離散度來選擇合適的投影方向,側(cè)重于尋找具有最大分辨力的方向。特征選擇方法比特征降維方法理論簡單,容易理解,但其工作量繁瑣。SFS法考慮了所選特征與已選定特征之間的相關(guān)性,但它的主要缺點(diǎn)是一旦某特征已入選,即使由于后加入的特征使它變得冗余,也無法再將它剔除。SBS在計算過程中可以估計每除去一個特征所造成的可分性的降低,與SFS相比,由于要在較大的變量集上計算可分性判據(jù),其計算量要比SFS大。PFS方法雖然不能得到最優(yōu)的結(jié)果,但它能快速、方便地完成特征選擇過程,在一些原始特征數(shù)量較大、可分性判據(jù)計算復(fù)雜的情況下,被普遍使用,在有些情況下它的綜合效率比SFS和SBS都要高。基于智能算法的特征選擇方法是一種較新的嘗試,需作進(jìn)一步研究。
4 語音情感識別算法
語音情感識別現(xiàn)在的處理思路仍然是把它作為典型的模式識別問題,所以到目前為止,幾乎所有的模式識別算法都被應(yīng)用其中。在這些方法中,有兩大類方法是較為流行的:a)基于概率生成模型的方法如高斯混合模型(GMM)和隱馬爾可夫模型(HMM);b)基于判別模型的方法,主要有支持向量機(jī)(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)。近來,一種新的解決思路是把上述若干模型融合起來,各自取長補(bǔ)短,形成混合模型。
4.1 隱馬爾可夫模型(HMM)
HMM是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型,由于它既能用短時模型即狀態(tài)解決聲學(xué)特性相對穩(wěn)定段的描述,又能用狀態(tài)轉(zhuǎn)移規(guī)律刻畫穩(wěn)定段之間的時變過程,在基于時序特征的語音情感識別模型中,HMM已成為研究人員廣泛采用的模型。其中HMM的結(jié)構(gòu)成為識別研究的重點(diǎn)。應(yīng)用較多的模型結(jié)構(gòu)有自左向右連續(xù)型HMM模型[7,28]、狀態(tài)回跳連續(xù)HMM模型[13]、各態(tài)歷經(jīng)離散HMM模型[24]、自左向右半連續(xù)型HMM模型[29]。從文獻(xiàn)研究結(jié)果來看,自左向右的狀態(tài)轉(zhuǎn)移結(jié)構(gòu)適合文本相關(guān)的情感識別,各態(tài)歷經(jīng)的狀態(tài)轉(zhuǎn)移結(jié)構(gòu)適合文本無關(guān)的情感識別。離散型模型相對簡單,但其語音情感特征參數(shù)必須經(jīng)過矢量量化(VQ)處理從而造成一些信息的丟失;另外,VQ的碼本訓(xùn)練和離散HMM的訓(xùn)練不是同時進(jìn)行優(yōu)化訓(xùn)練,因而很難保證訓(xùn)練的全局優(yōu)化。連續(xù)型HMM模型避免了矢量量化的計算,可以直接處理特征參數(shù),但為得到較精確的狀態(tài)觀察值的概率密度分布函數(shù)必須使用較多的概率密度函數(shù)進(jìn)行混合,這樣造成模型復(fù)雜、運(yùn)算量大,并且需要足夠多的訓(xùn)練數(shù)據(jù)才能得到可靠的模型參數(shù)。半連續(xù)型模型的特點(diǎn)介于上述兩種模型之間。
采用HMM對語音進(jìn)行情感識別,不是孤立地利用語音的時序特征,而是把這些特征和一個狀態(tài)轉(zhuǎn)移模型聯(lián)系起來,它的合理性在于把情感的變化看做是語音時序特征動態(tài)變化,不同的情感可以由不同的HMM模型來表現(xiàn)。基于HMM的語音情感識別擴(kuò)展性好,增加新樣本不需要對所有的樣本進(jìn)行訓(xùn)練,只需訓(xùn)練新樣本;缺點(diǎn)是模型結(jié)構(gòu)參數(shù)的選擇仍與待處理的語音數(shù)據(jù)有關(guān),需由實驗確定,并且訓(xùn)練時的計算量較大。
4.2 高斯混合模型(GMM)
GMM本質(zhì)上是一種多維概率密度函數(shù),可以用來表示語音特征矢量的概率密度函數(shù)。它可以看做一種狀態(tài)數(shù)為1的連續(xù)分布HMM。通過對情感特征矢量聚類,把每一類看做是一個多維高斯分布函數(shù);然后求出每一類的均值、協(xié)方差矩陣和出現(xiàn)的概率,將此作為每種情感的訓(xùn)練模板。識別時將測試矢量輸入每種情感模板,最大后驗概率即為識別結(jié)果。文獻(xiàn)[30]在其情感識別實驗中使用GMM 識別七種情感狀態(tài),實驗結(jié)果表明,GMM的識別率高于采用短時特征矢量與HMM分類器的識別率。傳統(tǒng)的GMM算法中,通常假設(shè)特征矢量之間是統(tǒng)計獨(dú)立的,而事實上語音在發(fā)生過程中,特征矢量之間存在相互的制約關(guān)系,而矢量回歸模型(VR)則可有效地描述矢量之間的相關(guān)性。文獻(xiàn)[19]利用VR改進(jìn)傳統(tǒng)的GMM,提出一種稱為高斯混合回歸模型(GMVAR)的分類器,作者還將GMVAR 算法與HMM、K近鄰算法及前向神經(jīng)網(wǎng)絡(luò)算法進(jìn)行實驗比較,結(jié)果表明GMVAR算法的識別效果明顯優(yōu)于其他三種算法。
GMM的優(yōu)點(diǎn)是可以平滑地逼近任意形狀的概率密度函數(shù),每個密度分布可以表示出基本聲學(xué)類,并且模型穩(wěn)定、參數(shù)容易處理;但GMM階數(shù)和初值較難確定,特別是階數(shù)很難從理論上推導(dǎo)出來,通常根據(jù)不同的語音樣本由實驗確定。
4.3 支持向量機(jī)(SVM)
支持向量機(jī)是貝爾實驗室研究人員Vapnik等人在對統(tǒng)計學(xué)習(xí)理論進(jìn)行了多年研究的基礎(chǔ)上提出的一種全新的機(jī)器學(xué)習(xí)算法,該算法基于結(jié)構(gòu)風(fēng)險最小化原則,能夠較好地解決小樣本學(xué)習(xí)問題。由于SVM有統(tǒng)計學(xué)習(xí)理論作為堅實的數(shù)學(xué)基礎(chǔ),可以很好地克服維數(shù)災(zāi)難和過擬合等傳統(tǒng)算法所不可避免的問題,近年來已成為一種有效的分類工具,并被廣泛地應(yīng)用于語音情感識別研究當(dāng)中。文獻(xiàn)[31]利用SVM把提取的韻律情感特征數(shù)據(jù)映射到高維空間, 從而構(gòu)建最優(yōu)分類超平面實現(xiàn)對漢語普通話中生氣、高興、悲傷、驚奇四種主要情感類型的識別。計算機(jī)仿真實驗結(jié)果表明, 與已有的多種語音情感識別方法相比, SVM對情感識別取得的識別效果優(yōu)于其他方法。SVM通過確定類別之間的最優(yōu)超平面實現(xiàn)分類,如果將以上機(jī)制變?yōu)閷ふ彝悢?shù)據(jù)分布的最優(yōu)超平面,則可獲得一種基于SVM的新分類方法,即支持向量回歸模型(SVR)。文獻(xiàn)[32]應(yīng)用SVR實現(xiàn)情感識別,此外作者還將SVR 算法與模糊邏輯分類算法和模糊K近鄰算法進(jìn)行實驗比較,結(jié)果表明SVR算法的識別率明顯優(yōu)于其他兩種算法。
SVM良好的分類性能在模式識別中得到了日益廣泛的應(yīng)用,然而,目前在SVM的訓(xùn)練和實現(xiàn)上仍然存在一些亟待解決的問題。SVM中核函數(shù)的選擇影響分類器的性能,如何根據(jù)語音樣本數(shù)據(jù)選擇和構(gòu)造合適的核函數(shù)及確定核函數(shù)的參數(shù)等問題缺乏相應(yīng)的理論指導(dǎo),所以在多數(shù)文獻(xiàn)中采用實驗的方法進(jìn)行確定。另外,雖然多類SVM的訓(xùn)練算法已被提出,但用于多分類問題的有效算法及多類SVM的優(yōu)化設(shè)計等仍需進(jìn)一步研究。
4.4 人工神經(jīng)網(wǎng)絡(luò)(ANN)
神經(jīng)網(wǎng)絡(luò)可視為大量相連的簡單處理器(神經(jīng)元)構(gòu)成的大規(guī)模并行計算系統(tǒng),具有學(xué)習(xí)復(fù)雜的非線性輸入輸出關(guān)系的能力,可以利用訓(xùn)練過程來適應(yīng)數(shù)據(jù),對于模型和規(guī)則的依賴性較低。對于語音情感識別問題,根據(jù)使用的特征和情感分類的不同,可以使用不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。文獻(xiàn)[33]使用了一種稱為allclassinone(ACON)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),即為所有情感訓(xùn)練一個網(wǎng)絡(luò)。他們認(rèn)為利用兩層的網(wǎng)絡(luò)結(jié)構(gòu)容易實現(xiàn)較為滿意的近似映射,因此該網(wǎng)絡(luò)包含與特征維數(shù)相同的輸入節(jié)點(diǎn)、一個隱含層和與情感類別相同數(shù)目的輸出節(jié)點(diǎn)。對每一個待識別的情感語句,將其特征矢量輸入到網(wǎng)絡(luò)中,再根據(jù)網(wǎng)絡(luò)的輸出判斷其屬于何種情感。文獻(xiàn)[34]使用了一種稱為oneclassinone(OCON)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),即為每一種情感訓(xùn)練一個子網(wǎng)絡(luò),每個子網(wǎng)絡(luò)是一個多層感知器(MLP)。將提取出的特征矢量輸入到每一個子神經(jīng)網(wǎng)絡(luò)中,每個子網(wǎng)輸出界于0~1的數(shù)值,表示輸入的參數(shù)矢量可能屬于某種情感的似然程度,利用各個子網(wǎng)絡(luò)的輸出進(jìn)行決策得出情感識別結(jié)果。
神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)功能非常強(qiáng)大,由于語音樣本特征向量與情感的許多規(guī)律進(jìn)行顯性的描述是困難的,而神經(jīng)網(wǎng)絡(luò)則可以通過反復(fù)學(xué)習(xí)的過程獲得對這些規(guī)律的隱性表達(dá),其在語音情感識別中具有獨(dú)特的優(yōu)勢。為充分學(xué)習(xí)這些隱性規(guī)則,神經(jīng)網(wǎng)絡(luò)方法一般都采取了含有大量神經(jīng)元的隱含中間層,從而導(dǎo)致復(fù)雜度和計算量較高。
4.5 混合模型
基于概率生成模型的方法能夠反映同類數(shù)據(jù)本身的相似度特性,而判別模型的特點(diǎn)是尋找不同類別之間的最優(yōu)化分類面來反映異類數(shù)據(jù)之間的差異。一些研究者將兩者結(jié)合起來,用混合的識別模型進(jìn)行情感識別。這種混合模型現(xiàn)已基本形成兩類模式,即并聯(lián)融合和串聯(lián)融合。并聯(lián)融合是將單項特征分別進(jìn)行獨(dú)立的匹配處理,得到各個匹配分?jǐn)?shù),通過融合算法將各匹配分?jǐn)?shù)進(jìn)行綜合得到最終決策結(jié)果;串聯(lián)融合是將前面分類器的輸出作為后面分類器的輸入,最終決策結(jié)果由后面分類器決定。文獻(xiàn)[35]提出了GMM/K最近鄰的方法;文獻(xiàn)[6]提出了SVM/KNN的方法;文獻(xiàn)[36]則提出了多分類器融合方法,所用的分類器包括K最近鄰、加權(quán)K最近鄰(WKNN)、加權(quán)離散K最近鄰(WDKNN)、加權(quán)平均K最近鄰(WCAP)及SVM;文獻(xiàn)[37]提出了HMM/PNN的方法。以上文獻(xiàn)皆是將各個單獨(dú)的分類器輸出按照一定規(guī)則結(jié)合,屬于并聯(lián)融合方式。文獻(xiàn)[18]提出了GMM/SVM方法,它用GMM給出的概率信息作為特征參數(shù),再用SVM進(jìn)行訓(xùn)練與識別,屬于串聯(lián)融合方式。
HMM和GMM是基于概率生成模型的方法,這類模型可以從統(tǒng)計的角度充分表示語音同類情感特征矢量的分布情況,具有較好的魯棒性。但是概率生成模型只考慮同一類模式內(nèi)部的相關(guān)性,而忽略了不同模式之間的區(qū)別,所以對于比較相近的情感,概率生成模型的區(qū)分能力較差。ANN和SVM是基于判別模型的方法,這類模型是尋找不同類別之間的最優(yōu)化分類面,由于它們利用了訓(xùn)練數(shù)據(jù)的類別標(biāo)志信息,具有較好的識別性能。但其忽略了同類情感的特征相似性,這會導(dǎo)致識別結(jié)果過分依賴于不同情感類中的少數(shù)樣本特征,進(jìn)而造成識別錯誤。因此,兩類模型在識別機(jī)理上有著很大的互補(bǔ)性。混合模型的優(yōu)點(diǎn)是能對不同模型取長補(bǔ)短,將會在一定程度上使識別率得到提高;缺點(diǎn)是模型復(fù)雜、計算量大,并聯(lián)融合通常需要實驗來確定各分類器的加權(quán)系數(shù),串聯(lián)融合不能同步訓(xùn)練各個模型,因而很難獲得全局最優(yōu)混合模型。
5 結(jié)束語
本文對近年來語音情感識別領(lǐng)域的研究成果從情感特征、識別模型兩個方面進(jìn)行了總結(jié)。至今, 有關(guān)語音情感識別的研究已經(jīng)取得了豐碩成果, 就其情感特征提取和識別算法而言,尚有許多問題需要探索和解決。將來的發(fā)展和熱點(diǎn)可能會集中在以下幾個方面:
a)研究者們已分析了多種類型的特征與情感變化的關(guān)系特性,但就各類特征提取而言,不同的提取方法產(chǎn)生不同的特征精度,如基頻的提取目前仍是一項開放的研究課題。因此,更加準(zhǔn)確的特征提取方法有待進(jìn)一步研究。
b)由于語音情感變化引起語音的諸多特征發(fā)生變化,將多種特征混合起來可以更全面地表示情感。多類特征組合將是特征獲取的一個研究方向。
c)特征混合帶來的最直接的問題是特征維數(shù)可能很高。模式識別研究表明,準(zhǔn)確率不與特征空間的維數(shù)成正比,且在高維情況下分類器的泛化能力反而會減弱,甚至導(dǎo)致維數(shù)災(zāi)難。對語音情感進(jìn)行高效識別,必須進(jìn)行針對性的情感聲學(xué)特征降維和選擇等方法的研究。基于智能算法的特征選擇方法作了一些嘗試,但研究仍需深入。
d)不同的訓(xùn)練和測試環(huán)境導(dǎo)致語音情感特征參數(shù)的變異,也使識別系統(tǒng)的性能明顯降低,影響這種變異的因素包括環(huán)境、生理、心理、文化背景、語境、語義等。如何充分利用好這些影響情感的因素,有待深入地研究。
e)高效、穩(wěn)定的語音情感識別算法仍將是未來研究的熱點(diǎn),而將現(xiàn)有的幾種主要算法各取所長、集成使用將有可能是解決該問題的有效途徑。在這方面已有部分研究,有待進(jìn)一步發(fā)展。
f)部分文獻(xiàn)的仿真結(jié)果雖然取得了較高的識別率,但鮮有文獻(xiàn)從識別模型本身進(jìn)行識別算法優(yōu)劣的深層次理論分析。為識別模型的優(yōu)劣提供理論支持有待研究。
參考文獻(xiàn):
[1]
余伶俐,蔡自興,陳明義.語音信號的情感特征分析與識別研究綜述[J].電路與系統(tǒng)學(xué)報,2007,12(4):7784.
[2]林奕琳,韋崗,楊康才.語音情感識別的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報,2007,12(1):9098.
[3]VERVERIDIS D,KOTROPOULOS C.Emotional speech recognition: resources, features, and methods[J].Speech Communication,2006,48(9):11621181.
[4]田嵐,姜曉慶,侯正信.多語種下情感語音基頻參數(shù)變化的統(tǒng)計分析[J].控制與決策,2005,20(11):13111313.
[5]HYUN K H,KIM E H,KWAK Y K.Emotional feature extraction based on phoneme information for speech emotion recognition[C]//Proc of the 16th IEEE International Symposium on Robot Human Interactive Communication.2007:802806.
[6]MORRISON D,WANG Ruili,De SILVA L C.Ensemble methods for spoken emotion recognition in callcentres[J].Speech Communication,2007,49(2):98112.
[7]LI Xi,TAO Jidong,JOHNSON M T,et al.Stress and emotion classification using jitter and shimmer features[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.2007:10811084.
[8]王治平,趙力,鄒采榮.基于基音參數(shù)規(guī)整及統(tǒng)計分布模型距離的語音情感識別[J].聲學(xué)學(xué)報,2006,31(1):2834.
[9] PAO T L,CHEN Y T,YEH J H,et al.Mandarin emotional speech recognition based on SVM and NN[C]//Proc of the 18th Internatio-nal Conference on Pattern Recognition.Washington DC:IEEE Computer Society,2006:10961100.
[10]ZHAO Li,CAO Yujia,WANG Zhiping,et al.Speech emotional re-cognition using global and time sequence structure features with MMD[C]//Proc of the 1st International Conference on Affective Computing and Intelligent Interaction.Berlin:Springer,2005:311318.
[11]KAISER J F.On a simple algorithm to calculate the energy of a signal[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.1990:381384.
[12]NWE T L,F(xiàn)OO S W,DE SILVA L C.Classification of stress in speech using linear and nonlinear features[C]//Proc of IEEE International Conference on Acoustics,Speech,and Signal Processing.2003:912.
[13]GAO Hui,CHEN Shanguang,SU Guangchuan.Emotion classification of mandarin speech based on TEO nonlinear features[C]//Proc of the 8th ACIS International Conference on Software Engineering, Artificial Intelligence,Networking,and Parallel/Distributed Computing.Washington DC:IEEE Computer Society,2007:394398.
[14] 林奕琳.基于語音信號的情感識別研究[D].廣州:華南理工大學(xué),2006.
[15]MAO Xia,ZHANG Bing,LUO Yi.Speech emotion recognition based on a hybrid of HMM/ANN[C]//Proc of the 7th WSEAS International Conference on Applied Informatics and Communications.Stevens Point:World Scientific and Engineering Academy and Society,2007:367370.
[16]LIU Jia,CHEN Chun,BU Jiajun,et al.Speech emotion recognition using an enhanced cotraining algorithm[C]//Proc of IEEE International Conference on Multimedia and Expo.2007:9991002.
[17]LUENGO I,NAVAS E,HERNAEZ I,et al.Automatic emotion recognition using prosodic parameters[C]//Proc of the 9th European Conference on Speech Communication and Technology.2005:493496.
[18]HU Hao,XU Mingxing,WU Wei.GMM supervector based SVM with spectral features for speech emotion recognition[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Proces-sing.2007:413416.
[19]EL AYADI M M H,KAMEL M S,KARRAY F.Speech emotion recognition using Gaussian mixture vector autoregressive models[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.2007:957960.
[20]RAMAMOHAN S,DANDAPAT S.Sinusoidal modelbased analysis and classification of stressed speech[J].IEEE Trans on Audio, Speech, and Language Processing,2006,14(3):737746.
[21]趙力,將春輝,鄒采榮,等.語音信號中的情感特征分析和識別的研究[J].電子學(xué)報,2004,32(4):606609.
[22]TABATABAEI T S,KRISHNANS,GUERGACHI A.Emotion recognition using novel speech signal features[C]//Proc ofIEEE International Symposium on Circuits and Systems.2007:345348.
[23]詹永照,曹鵬.語音情感特征提取和識別的研究與實現(xiàn)[J].江蘇大學(xué)學(xué)報:自然科學(xué)版,2005,26(1):7275.
[24]NWE T L,F(xiàn)OO S W,De SILVA L C.Speech emotion recognition using hidden Markov Models[J].Speech Communication,2003,41(4):603623.
[25]LIN Yilin,WEI Gang.Speech emotion recognition based on HMM and SVM[C]//Proc of the 4th International Conference on Machine Learning and Cybernetics.2005:48984901.
[26]KWON O W, CHAN K, HAO J,et al.Emotion recognition by speech signals[C]//Proc of the 8th European Conference on Speech Communication and Technology.2003:125128.
[27]謝波,陳嶺,陳根才,等.普通話語音情感識別的特征選擇技術(shù)[J].浙江大學(xué)學(xué)報,2007,41(11):18161822.
[28]KAMMOUN M,ELLOUZE N.Pitch and energy contribution in emotion and speaking styles recognition enhancement[C]//Proc of Multiconference on Computational Engineering in Systems Applications.2006:97100.
[29]NOGUEIRAS A,MORENO A,BONAFONTE A.Speech emotion recognition using hidden Markov models[C]//Proc of the 7th Euro-pean Conference on Speech Communication and Technology.2001:26792682.
[30]SCHULLER B,RIGOLL G,LANG M.Hidden Markov modelbased speech emotion recognition[C]//Proc of IEEE International Confe-rence on Acoustics, Speech, and Signal Processing.2003:14.
[31]張石清,趙知勁,戴育良,等.支持向量機(jī)應(yīng)用于語音情感識別的研究[J].聲學(xué)技術(shù),2008,27(1):8790.
[32]GRIMM M,KROSCHEL K,NARAYANAN S.Support vector regression for automatic recognition of spontaneous emotions in speech[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.2007:10851088.
[33]RAZAK A A,KOMIYA R,ABIDIN M I Z.Comparison between fuzzy and NN method for speech emotion recognition[C]//Proc of the 3rd International Conference on Information Technology and Applications.Washington DC:IEEE Computer Society,2005:297302.
[34]LI Wu,ZHANG Yanhui,F(xiàn)U Yingzi.Speech emotion recognition in elearning system based on affective computing[C]//Proc of the 3rd International Conference on Natural Computation.Washington DC:IEEE Computer Society,2007:809813.
[35]KIM S,GEORGIOU P G,LEE S,et al.Realtime emotion detection system using speech: multimodal fusion of different timescale features[C]//Proc of the 9th IEEE Workshop on Multimedia Signal Proces-sing.2007:4851.
[36]PAO T L,CHIEN C S,CHEN Y T,et al.Combination of multiple classifiers for improving emotion recognition in mandarin speech[C]//Proc of the 3rd International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Washington DC:IEEE Computer Society,2007:3538.
[37]蔣丹寧,蔡蓮紅.基于語音聲學(xué)特征的情感信息識別[J].清華大學(xué)學(xué)報:自然科學(xué)版,2006,46(1):8689.