羅德虎,冉啟武,楊 超,豆 旺
陜西理工大學(xué) 電氣工程學(xué)院,陜西 漢中 723001
語音是人與人之間最直接自然的交流方式,隨著使用移動(dòng)設(shè)備的人數(shù)增加,也成為了人機(jī)交互的主要形式。帶有情感的語音使得人人、人機(jī)交流變得高效和有吸引力。然而現(xiàn)實(shí)生活中語音情感多樣,往往是混合的,微妙而復(fù)雜且是處于變動(dòng)狀態(tài)的,所以檢測(cè)識(shí)別語音中的情感就成為了一項(xiàng)比較有挑戰(zhàn)性的任務(wù)。語音情感識(shí)別(speech emotion recognition,SER)是情感智能的一個(gè)研究熱點(diǎn),利用計(jì)算機(jī)分析預(yù)處理后的各種情感信息,提取出描述情感的特征,將特征值與情感進(jìn)行對(duì)應(yīng),然后對(duì)情感信息進(jìn)行分類,進(jìn)而推斷出情感狀態(tài)的過程。其流程主要包括預(yù)處理、特征提取和情感分類3 部分。傳統(tǒng)SER 流程圖如圖1 所示。SER 經(jīng)過幾十年的發(fā)展,取得了豐碩的成果,圖2 為SER 的發(fā)展示意圖。隨著深度學(xué)習(xí)的發(fā)展,端到端的深度SER就開始受到了關(guān)注,可直接將原始情感語音信號(hào)或者手工特征作為深度學(xué)習(xí)模型的輸入,基于深度學(xué)習(xí)的SER流程圖如圖3所示。
一般從離散標(biāo)簽和連續(xù)維度兩個(gè)角度對(duì)情感進(jìn)行量化描述。離散標(biāo)簽是指使用與情感相關(guān)的形容詞來描述基本情感的集合。離散情感的描述方式更容易理解,所描述的情感種類單一純凈,但是對(duì)生活中常見的細(xì)微、復(fù)雜和混合的情感就無法表述了?,F(xiàn)實(shí)生活中人的情感處于連續(xù)動(dòng)態(tài)變化中,維度情感描述模型的出現(xiàn)能夠?qū)崿F(xiàn)對(duì)該動(dòng)態(tài)過程的建模,提高了計(jì)算機(jī)對(duì)復(fù)雜情感的處理能力。維度情感描述模型相比離散方法更具體,從多個(gè)維度對(duì)情感進(jìn)行量化,在一定程度上對(duì)情緒的強(qiáng)度和波動(dòng)進(jìn)行描繪,適合用來描述日常的自發(fā)情感,從理論上來講能完全覆蓋現(xiàn)實(shí)生活中的情感,但是在某些維度上比較抽象,沒有離散情感那么好理解。
兩種情感描述模型的區(qū)別如表1所示[1]。維度情感描述模型中常用的維度是效價(jià)維(Valence)、喚醒維(Arousal)和支配維(Dominance)。有研究者加入期望維(Expectation)和強(qiáng)度維(Intensity),以使該情感描述模型更全面,該五個(gè)維度的介紹如表2所示。

表1 兩種情感描述模型的區(qū)別Table 1 Difference between two emotion description models

表2 維度概述Table 2 Dimension overview
語音情感語料庫(kù)有多種分類方式,可按語種、類型、自然度和情感描述模型來分。按類型來分如表3所示,按情感描述模型來分,分為維度情感語料庫(kù)以及離散情感語料庫(kù),兩種類別中常見的語料庫(kù)如表4、5所示。廣泛使用的表達(dá)情感的形式主要有兩種,一類是明顯的情感線索,另一類是隱含的情感刺激[2]。明顯的情感線索是在現(xiàn)實(shí)生活中誘導(dǎo)人所產(chǎn)生的包含語音在內(nèi)的情感信息可以直接觀察到并收集的,隱含的情感刺激是來源于多媒體網(wǎng)絡(luò)用戶分享自己的生活和表達(dá)自己的觀點(diǎn)。從語音情感數(shù)據(jù)庫(kù)的建立可知,語音情感語料來源于這兩方面,其中收集來源于多媒體網(wǎng)絡(luò)的語音情感語料具有可行性和吸引力。大規(guī)模的情感語料庫(kù)大部分是來自于外國(guó),中文情感語料庫(kù)規(guī)模較小且通常只包含單一模態(tài)如語音,最近出現(xiàn)了大型的中文情感語料庫(kù),有中文自然情感視聽語料庫(kù)(CHEAVD)[3]、NTHU-NTUA中文交互式多模態(tài)情感語料庫(kù)(NNIME)[4]和CH-SIMS[5],三者都是包含語音的多模態(tài)情感語料庫(kù)。

表3 不同類型的數(shù)據(jù)庫(kù)對(duì)比Table 3 Comparison of different types of databases

表4 常見離散情感語音數(shù)據(jù)庫(kù)Table 4 Common discrete emotional speech database
隨著多媒體的急劇發(fā)展以及多模態(tài)情感分析成為研究熱點(diǎn),可以看出情感語料庫(kù)建立的趨勢(shì),首先,更多地摘引來自廣播、短視頻等平臺(tái)的內(nèi)容作為語料,如情感語料庫(kù)ShEMO[6]、OMG[7]、MSP-PODCAST[8]等,其次,語料庫(kù)更多建立為包含語音的多模態(tài)情感數(shù)據(jù)庫(kù),有BAUM-1[9]、CREMA-D[10]等。最后,語料庫(kù)趨向建立為同時(shí)包含離散和維度情感的數(shù)據(jù)庫(kù),有CMU-MOSEI[11]、DEMoS[12]等。除此之外,還出現(xiàn)了合并現(xiàn)有語料庫(kù)的大型語料庫(kù),如Gerczuk等[13]收集來自于26個(gè)SER語料庫(kù)的語料創(chuàng)建情感語音的大型語料庫(kù)EmoNet。

表5 常見維度語音情感數(shù)據(jù)庫(kù)Table 5 Common dimensional speech emotion database
情感注釋依賴于標(biāo)注者,由于標(biāo)注者在進(jìn)行情感標(biāo)注時(shí),存在一定的情感偏見,以及在標(biāo)注視聽數(shù)據(jù)存在反應(yīng)時(shí)的時(shí)間延遲[14]。另外有研究表明說話人自我報(bào)告的情感與聽者標(biāo)注出的情感存在很大的差異[15]。為了解決這些問題,通常的做法是多人對(duì)同一來源的數(shù)據(jù)進(jìn)行評(píng)注,并將結(jié)果進(jìn)行融合,但是當(dāng)有注釋者的標(biāo)注有巨大分歧時(shí),這些方法并不穩(wěn)定,因此需要建立廣泛認(rèn)可的情感評(píng)注標(biāo)準(zhǔn)。可借助標(biāo)注工具的便利性和結(jié)果可對(duì)比性來解決上述問題,Stappen 等[16]開發(fā)了一個(gè)情感標(biāo)注工具箱MuSe-Toolbox,該工具箱是基于Python的開源工具箱,用于創(chuàng)建離散和連續(xù)的情感黃金標(biāo)準(zhǔn),并可將連續(xù)維度轉(zhuǎn)換為離散情感,方便了包括語音在內(nèi)的多模態(tài)情感分析的評(píng)注工作。深度學(xué)習(xí)模型需要更大和更多樣化的數(shù)據(jù)集,于是研究者一方面繼續(xù)開發(fā)高性能的標(biāo)注工具,另一方面使用半監(jiān)督方法充分利用已標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù),來促進(jìn)深度學(xué)習(xí)模型在SER中的應(yīng)用。如Deng等[17]利用半監(jiān)督自動(dòng)編碼器結(jié)合少量的有標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)提高了SER的性能。
語音情感特征是進(jìn)行SER研究必不可少的模塊,特征提取是任何模式識(shí)別系統(tǒng)的重要組成部分,目的是提取表示情感狀態(tài)的關(guān)鍵信息。聲學(xué)特征主要分為兩類,即低級(jí)特征和深度特征,第一類是指使用時(shí)間算法和頻率算法所提取的特征,通常分為三大類,韻律特征、譜特征和音質(zhì)特征[18]。第二類是指使用深度學(xué)習(xí)直接從原始語音信號(hào)或者從低級(jí)特征中提取的高級(jí)特征[19]。聲學(xué)情感特征根據(jù)四個(gè)不同的分類角度可分為不同類型,如表6所示。具體的特征描述見表7。

表6 聲學(xué)情感特征歸類Table 6 Acoustic emotional characteristics categorization

表7 聲學(xué)情感特征描述Table 7 Acoustic emotional characterization
韻律特征在SER領(lǐng)域廣受研究者的認(rèn)可,最常使用的韻律特征為基頻、能量和時(shí)長(zhǎng)。文獻(xiàn)[20]使用較少數(shù)量的韻律特征達(dá)到92.32%的識(shí)別率,表明了韻律信息對(duì)情感識(shí)別非常有用。文獻(xiàn)[21]提取語音韻律的統(tǒng)計(jì)信息,但特征數(shù)量不足以區(qū)分七種情緒,只實(shí)現(xiàn)了51%的識(shí)別率,然而對(duì)于高喚醒情緒的識(shí)別率達(dá)到89.1%,表明了韻律特征能很好地區(qū)分具有不同喚醒度的情緒,然而對(duì)于有相同喚醒度或效價(jià)的情緒區(qū)分度較低。
頻譜特征是通過傅里葉變換將時(shí)域信號(hào)變換為頻域信號(hào)來獲得的,廣泛使用的譜特征有Mel頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCCs),線性預(yù)測(cè)倒譜系數(shù)(LPCC)和感知線性預(yù)測(cè)系數(shù)等特征(PLP)。近年來有新的譜特征被發(fā)現(xiàn)并成功應(yīng)用于SER,Liu[22]發(fā)現(xiàn)伽馬酮頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients,GFCCs)在SER中的表現(xiàn)相比MFCC平均提高了3.6%的準(zhǔn)確度。Jiang等[23]提出情感感知譜特征,在三個(gè)數(shù)據(jù)庫(kù)上做實(shí)驗(yàn),其中最高的識(shí)別率為81.5%。Tao等[24]提出GSLHu-PCA特征,在Emo-DB語料庫(kù)上較HuWSF、PLP 和MFCC 特征分別提高了1.6%、5.53%和12.68%。Peng等[25]提出一種新的基于聽覺的特征,稱之為多分辨率調(diào)制濾波耳蝸圖特征,將其用于維度情感識(shí)別以獲取時(shí)間動(dòng)態(tài)信息,實(shí)驗(yàn)表明,在效價(jià)維和喚醒維上取得了較好的性能。
音質(zhì)特征主要用于評(píng)價(jià)語音的干凈程度和辨識(shí)度等。廣泛使用的音質(zhì)特征有頻率微擾,振幅微擾和諧波噪聲比等。文獻(xiàn)[26]表明了語音質(zhì)量與情感內(nèi)容存在很大的相關(guān)性。文獻(xiàn)[27]利用在不同頻段分布的共振峰、諧波噪聲比等音質(zhì)特征,得出音質(zhì)特征更適合區(qū)分具有相同喚醒度和不同效價(jià)度情緒的結(jié)論。因此,這些特征可以和韻律特征相結(jié)合提高情感識(shí)別率。文獻(xiàn)[28]結(jié)合音質(zhì)特征和韻律特征,與單獨(dú)使用韻律特征相比提高了約10%。文獻(xiàn)[29]研究頻率微擾和振幅微擾對(duì)印地語SER 的影響,獲得了83.3%的識(shí)別率。文獻(xiàn)[30]在譜特征的基礎(chǔ)上加入頻率微擾和振幅微擾,在所有實(shí)驗(yàn)條件下均得到提高。文獻(xiàn)[31]提出傅里葉參數(shù)特征,與MFCC相結(jié)合比單獨(dú)使用MFCC性能得到進(jìn)一步提高,充分表明了音質(zhì)特征比主特征更具有補(bǔ)充性。
情感隨著時(shí)間變化,并非均勻分布在語音中所有位置上,研究者根據(jù)研究目標(biāo)選擇提取局部特征或全局特征[32]。文獻(xiàn)[33]和文獻(xiàn)[34]都提取了韻律的局部特征和全局特征,并進(jìn)行了對(duì)比,局部特征的識(shí)別率均低于全局特征。文獻(xiàn)[35]提取局部序列特征,實(shí)驗(yàn)結(jié)果優(yōu)于現(xiàn)有方法,平均準(zhǔn)確率提高了9%。文獻(xiàn)[36]利用基音輪廓的統(tǒng)計(jì)量進(jìn)行分析,準(zhǔn)確率高出對(duì)比文獻(xiàn)27%。在分類時(shí)間、準(zhǔn)確度和效率方面,全局特征的性能優(yōu)于局部特征。然而文獻(xiàn)[37]提出全局特征對(duì)具有相似喚醒度的情緒并不適用。表8給出兩種特征的優(yōu)缺點(diǎn)對(duì)比情況,通常將兩者組合用于情感識(shí)別。

表8 局部特征vs全局特征Table 8 Local features vs.global features
傳統(tǒng)特征要么專注時(shí)域信息,要么僅注重頻域信息,缺乏結(jié)合時(shí)域和頻域的特征,Wu等[38]提出了長(zhǎng)期調(diào)制譜特征,用于捕獲語音信號(hào)的時(shí)頻信息。唐閨臣等[39]提取語音信號(hào)的時(shí)域和頻域信息,將其組合形成語譜圖。如今可以直接應(yīng)用深度學(xué)習(xí)技術(shù)自動(dòng)提取特征,如利用卷積神經(jīng)網(wǎng)絡(luò)從語譜圖中自動(dòng)提取有用特征,這成為了一種流行趨勢(shì),避免了繁復(fù)的人工提取特征過程。Han等[40]利用深度神經(jīng)網(wǎng)絡(luò)從低級(jí)聲學(xué)特征中提取高級(jí)特征,取得了SER研究的巨大進(jìn)步。為了有效描述情感語音的時(shí)間動(dòng)態(tài)信息,Luo 等[41]利用卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合的卷積遞歸神經(jīng)網(wǎng)絡(luò)從不同時(shí)間尺度的語譜圖中提取上下文特征。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)所捕捉的語譜圖特征中缺失空間信息,為此Wu 等[42]利用序列膠囊網(wǎng)絡(luò)提取特征空間信息。
OpenSMILE[43]是較為常用的特征提取工具包,最初為提取語音特征而開發(fā),常用于Interspeech副語言信息提取挑戰(zhàn)賽,可提取的語音特征包括信號(hào)能量、語音質(zhì)量、光譜和共振峰等,現(xiàn)在已經(jīng)開發(fā)了2.0 版本,可以提取的特征不僅包含語音特征,還包括音樂特征和視頻特征,可以對(duì)特征進(jìn)行聯(lián)合處理,實(shí)現(xiàn)多模態(tài)特征提取。其他特征提取工具見表9[44]。

表9 常用語音情感特征提取工具Table 9 Commonly used speech emotion feature extraction tools
融合特征相較于傳統(tǒng)特征在不同語種的數(shù)據(jù)集及不同分類器上的性能較好且識(shí)別性能穩(wěn)定。融合特征包含傳統(tǒng)特征之間的融合,Bandela等[45]將Teo能量算子與MFCC 特征相結(jié)合,準(zhǔn)確率明顯高于MFCC。Rao等[46]將全局韻律特征和局部韻律特征結(jié)合,準(zhǔn)確率高于單一特征。此外融合特征還包括深度特征與傳統(tǒng)特征之間的融合以及深度特征之間的結(jié)合。傳統(tǒng)特征與深度特征的結(jié)合結(jié)果表明,特征工程可以幫助提高端到端系統(tǒng)的魯棒性,其中具有區(qū)分性的傳統(tǒng)特征,相比于復(fù)雜的深度學(xué)習(xí)特征集,擁有更優(yōu)秀的表現(xiàn)[47]。王怡等[48]將低層次手工特征集、高級(jí)統(tǒng)計(jì)特征、基于深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)所提取的深度特征相融合,相比未融合之前提高了分類性能。Wang等[49]結(jié)合手工特征與深度神經(jīng)網(wǎng)絡(luò)所提取的特征優(yōu)點(diǎn),提高了整體識(shí)別效果。對(duì)于深度特征之間的結(jié)合,Sun 等[50]融合卷積神經(jīng)網(wǎng)絡(luò)所提取的深層特征與淺層特征,在大多數(shù)測(cè)試數(shù)據(jù)集上取得了很好的結(jié)果。
在過去的幾十年中,SER研究一直以傳統(tǒng)的機(jī)器學(xué)習(xí)算法為主,取得了許多成果,現(xiàn)如今,隨著深度學(xué)習(xí)在SER 領(lǐng)域的發(fā)展,許多研究表明,與傳統(tǒng)情感識(shí)別方法相比,深度學(xué)習(xí)有更好的表現(xiàn)。每種分類器都有各自的優(yōu)缺點(diǎn),然而,由于情感的復(fù)雜性和主觀性,還沒有一個(gè)普遍認(rèn)可的通用分類器可以使用。傳統(tǒng)分類器所需要數(shù)據(jù)量相比深度學(xué)習(xí)分類器要少,但深度學(xué)習(xí)分類器可以省去人工提取特征的步驟,表10 簡(jiǎn)要介紹兩大分類器的區(qū)別。以下從傳統(tǒng)分類器、深度學(xué)習(xí)分類器以及兩者的混合模型三個(gè)角度對(duì)SER算法分別進(jìn)行闡述。

表10 傳統(tǒng)分類器與深度學(xué)習(xí)分類器的比較Table 10 Comparison of traditional classifiers and deep learning classifiers
常用的傳統(tǒng)分類器有高斯混合模型(Gaussian mixture model,GMM)、支持向量機(jī)(support vector machines,SVM)和隱馬爾可夫模型(hidden Markov model,HMM)等。
SVM算法使用核函數(shù)將樣本從原始空間映射到高維空間使其線性可分,因?yàn)槠浞夯芰?qiáng),不易受高維特征的影響而在SER 研究中使用廣泛。文獻(xiàn)[51]將SVM 與線性判別分類器,k近鄰分類器和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的SER任務(wù)性能進(jìn)行比較,SVM的性能最高,然而只分類了四種情緒。文獻(xiàn)[52]利用SVM 確定SER中最優(yōu)的特征集,提取七種情緒的基頻、能量和MFCC特征組合,三個(gè)語料庫(kù)中最低的識(shí)別率為89.8%,最高的識(shí)別率為98%。文獻(xiàn)[53]提出深度SVM,基于單獨(dú)使用MFCC及使用MFCC與其他特征的融合特征,相比標(biāo)準(zhǔn)SVM分別提高約7%和8%,驗(yàn)證了深度SVM的可行性。
HMM 是關(guān)于時(shí)序的概率模型,它能夠很好地模擬情緒的時(shí)間動(dòng)態(tài)。文獻(xiàn)[54]使用HMM 和SVM 對(duì)五種情感分類,在丹麥情感語音數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),與說話人無關(guān)的情況下,HMM 取得了99.5%的最優(yōu)識(shí)別率。文獻(xiàn)[37]利用短時(shí)對(duì)數(shù)頻率功率系數(shù)結(jié)合HMM,與使用線性預(yù)測(cè)倒譜系數(shù)和MFCC特征參數(shù)的性能做比較,結(jié)果表明,該方案達(dá)到最好的識(shí)別率89%,超過人類評(píng)估的65.8%。
GMM 是連續(xù)HMM 的特例,它使用混合的高斯分量來捕獲每一類的概率分布。文獻(xiàn)[55]將GMM、HMM和深度信念網(wǎng)絡(luò)用于在Emo-DB 與EMOVO 相結(jié)合的跨語言語料庫(kù)上進(jìn)行二分類和六分類實(shí)驗(yàn)對(duì)比,結(jié)果GMM 的識(shí)別率都優(yōu)于另外兩個(gè),在二分類上的識(shí)別率為83.4%,在六分類實(shí)驗(yàn)上的平均識(shí)別率為70.1%。考慮到GMM 對(duì)訓(xùn)練數(shù)據(jù)的依賴性較強(qiáng),文獻(xiàn)[56]提出變分高斯混合模型,在使用20%、50%、80%和100%的原始訓(xùn)練數(shù)據(jù)的情況下進(jìn)行與GMM 的對(duì)比實(shí)驗(yàn),結(jié)果表明了變分GMM 在同樣數(shù)據(jù)量的情況下其表現(xiàn)都優(yōu)于GMM。
各類分類器各有優(yōu)缺點(diǎn),研究表明各分類器集成的表現(xiàn)通常優(yōu)于單獨(dú)分類器。分類器的組合方式一般有兩種,一種是將數(shù)據(jù)送入每個(gè)分類器,每個(gè)分類器的輸出結(jié)果通過多數(shù)投票機(jī)制而獲得最終結(jié)果。另一種方式是分類器以分層的方式進(jìn)行組合,首個(gè)分類器的輸出結(jié)果再送入其他分類器,然后給出最終結(jié)果。文獻(xiàn)[57]提出基于維度情感模型的多級(jí)分類方案,先進(jìn)行喚醒維度分類,接下來的分類器進(jìn)行效價(jià)維度分類,在丹麥語情感語料庫(kù)上取得了81%的識(shí)別率,但其訓(xùn)練集和測(cè)試集都是來源于同一個(gè)語料庫(kù),為了挖掘集成分類器的通用性,文獻(xiàn)[58]利用集成分類器使用多數(shù)投票機(jī)制的方式進(jìn)行跨語料庫(kù)的多語言SER研究,兩組實(shí)驗(yàn)分別將烏爾都語作為訓(xùn)練集和測(cè)試集,與相應(yīng)研究文獻(xiàn)對(duì)比識(shí)別率最高增加15%,表明利用集成分類器進(jìn)行跨語料庫(kù)的SER研究是比較有效的方法。
用于SER 任務(wù)具有代表性深度學(xué)習(xí)技術(shù)有CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、膠囊網(wǎng)絡(luò)(capsulenetworks,CapsNet)、自編碼器(autoencoders,AE)等。SER 最近的研究更多的在于對(duì)各深度學(xué)習(xí)模型改進(jìn)和整合上。
CNN是專門用于處理如時(shí)間序列和圖像數(shù)據(jù)這種具有類似網(wǎng)格拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),被廣泛用作SER的基本框架。深度CNN(deep convolutional neural networks,DCNN)被認(rèn)為是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,相關(guān)研究成果見表11[59-60]。文獻(xiàn)[59]受到DCNN在計(jì)算機(jī)視覺領(lǐng)域較好表現(xiàn)的啟發(fā),將其用于建立SER 系統(tǒng),同時(shí)提出了判別時(shí)間金字塔匹配算法用于匯集深度特征,實(shí)驗(yàn)結(jié)果表明了該模型與算法結(jié)合的有效性,另外該研究將預(yù)先訓(xùn)練好的深度模型用于小型語音情感數(shù)據(jù)集時(shí)進(jìn)行微調(diào)為SER 的研究提供了較好的思路。i-vector[61]與深度學(xué)習(xí)結(jié)合的研究較少,2015 年,文獻(xiàn)[62]首次結(jié)合RNN與i-vector特征進(jìn)行SER研究。2019年,文獻(xiàn)[63]提出將DCNN與i-vector相結(jié)合的情感識(shí)別方法,結(jié)果顯示了該方法的有效性。

表11 基于深度卷積神經(jīng)網(wǎng)絡(luò)的SERTable 11 Deep convolutional neural network based SER
RNN 是專門用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),容易出現(xiàn)梯度消失的問題,由于該問題的影響,使得RNN在捕獲序列數(shù)據(jù)的長(zhǎng)期依賴關(guān)系方面存在局限性,因此開發(fā)了長(zhǎng)短期記憶網(wǎng)絡(luò)來解決這個(gè)問題。相關(guān)研究工作見表12,其中文獻(xiàn)[64]提出雙序列LSTM 模型,用來同時(shí)處理兩個(gè)Mel 譜圖,在IEMOCAP 上的準(zhǔn)確率相比目前最優(yōu)的單模型提高了6%。有研究表明無語義的發(fā)聲如笑聲、嘆息聲等有助于SER[65]。文獻(xiàn)[66]利用SVM檢測(cè)語音和無語義的發(fā)聲,使用韻律短語提取器將兩種類型的聲音進(jìn)行分離,然后使用深度殘差網(wǎng)絡(luò)提取各自的特征進(jìn)行決策級(jí)融合,之后輸入基于注意力機(jī)制的LSTM的序列到序列模型進(jìn)行分類,結(jié)果準(zhǔn)確率優(yōu)于基于特征級(jí)和模型級(jí)的融合方法。

表12 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的SERTable 12 Recurrent neural network based SER
文獻(xiàn)[67]首次將標(biāo)注者之間的不一致程度即感知不確定性融入SER,可以用來調(diào)整情緒預(yù)測(cè)過程,他們利用BLSTM-RNN回歸模型,在效價(jià)維和喚醒維對(duì)情感進(jìn)行預(yù)測(cè),結(jié)果表明感知不確定性可以在一定程度上改善識(shí)別性能。LSTM 通常與CNN 結(jié)合用于SER 任務(wù),兩者的各種組合成為了SER領(lǐng)域的一種流行趨勢(shì),其組合結(jié)構(gòu)通常優(yōu)于單獨(dú)的模型。文獻(xiàn)[68]構(gòu)建1維和2維的CNN LSTM 學(xué)習(xí)局部特征和長(zhǎng)期上下文關(guān)系,2 維CNN LSTM在EMO-DB、IEMOCAP語料庫(kù)上與說話人相關(guān)和無關(guān)的實(shí)驗(yàn)取得了較好的識(shí)別率,優(yōu)于深度信念網(wǎng)絡(luò)和CNN 等傳統(tǒng)方法。近期文獻(xiàn)[69]提出了基于注意力的3維CNN LSTM,將語譜圖、MFCC圖、耳蝸圖和分形圖拼接成4 維作為該模型的輸入,在SAVEE、RAVDESS 和RML 數(shù)據(jù)集的實(shí)驗(yàn)準(zhǔn)確率相較于以往文獻(xiàn)在這三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分別改進(jìn)了2.71%、8.75%和7.81%。
文獻(xiàn)[70]提出CapsNet,其每一個(gè)膠囊都由許多神經(jīng)元組成,輸入和輸出都是向量,而非CNN 的標(biāo)量,它具有平移同變性,因此其可以克服CNN 捕捉空間信息能力不足的局限性。相關(guān)研究工作見表13,有研究人員將其用于提取語譜圖空間信息,文獻(xiàn)[71]研究了基于CapsNet 的SER,提出有效的匯集方法獲得全局特征以及提出循環(huán)連接來獲取時(shí)間信息,與CNN-LSTM 模型基于IEMOCAP語料庫(kù)在四種情緒下的準(zhǔn)確率對(duì)比,其準(zhǔn)確率達(dá)到72.73%。由于CNN的壓縮方法不能直接應(yīng)用于CapsNet[72]。且CapsNet 算法速度較慢,因此文獻(xiàn)[73]提出了雙通道LSTM 壓縮CapsNet 算法,在多個(gè)語料庫(kù)上與多種分類算法進(jìn)行對(duì)比,結(jié)果表明該方法優(yōu)于多種分類算法,但是訓(xùn)練和測(cè)試的運(yùn)行時(shí)間相比傳統(tǒng)方法要長(zhǎng),特征提取也比所對(duì)比方法要復(fù)雜。

表13 基于膠囊網(wǎng)絡(luò)的SERTable 13 Capsule network based SER
AE 將原始數(shù)據(jù)重建為輸出,包含編碼器和解碼器兩個(gè)組件。相關(guān)研究工作見表14。針對(duì)源域與目標(biāo)域失配問題,文獻(xiàn)[74]提出了基于自適應(yīng)去噪自動(dòng)編碼器的無監(jiān)督域自適應(yīng)方法,在三個(gè)公開語料庫(kù)上的實(shí)驗(yàn)結(jié)果表明,該方法顯著減少了訓(xùn)練集和測(cè)試集之間的差異所帶來的對(duì)情感分類準(zhǔn)確率的影響。文獻(xiàn)[75]使用去噪自動(dòng)編碼器、變分自動(dòng)編碼器、對(duì)抗性自動(dòng)編碼器和對(duì)抗性變分貝葉斯作為特征學(xué)習(xí)器結(jié)合CNN作為與說話人無關(guān)的SER系統(tǒng),與沒有應(yīng)用無監(jiān)督特征學(xué)習(xí)并使用手工特征作為輸入的CNN和SVM進(jìn)行對(duì)比,自動(dòng)編碼器顯著改善了SER 的性能。文獻(xiàn)[17]提出一種基于半監(jiān)督自動(dòng)編碼器的語音情感識(shí)方法,結(jié)合少量標(biāo)簽樣本和未標(biāo)注樣本,實(shí)驗(yàn)表明,所提出的方法足以取得與監(jiān)督學(xué)習(xí)方法競(jìng)爭(zhēng)性的結(jié)果。

表14 基于自編碼器的SERTable 14 Autoencoder based SER
由于Transformer 模型[77]在自然語言處理方面的優(yōu)異成績(jī),且在長(zhǎng)序列建模方面表現(xiàn)突出,在一定程度上可以替代CNN 和RNN,因此有研究者將其用于SER。相關(guān)研究工作見表15,文獻(xiàn)[78]提出一種新的端到端的SER 架構(gòu),在其中加入了堆疊Transformer 層,與在IEMOCAP上做實(shí)驗(yàn)所取得較好結(jié)果的各種方法進(jìn)行對(duì)比,取得了相對(duì)20%的改進(jìn)。由于Transformer中多頭注意單元的Softmax消耗的時(shí)間和內(nèi)存占用過大,文獻(xiàn)[79]提出了類Transformer模型,并提出泰勒線性注意算法,雖與基本方法相對(duì)比沒有顯著差異,但是在內(nèi)存占用和時(shí)間開銷上卻大大減少。

表15 基于Transformer的SER Table 15 Transformer-based SER
將傳統(tǒng)機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)方法相結(jié)合而形成混合模型結(jié)構(gòu)也是SER研究的一種有效方式。相關(guān)研究工作見表16,其中文獻(xiàn)[81]提出了一種基于DNN-HMMs的SER方法,與四個(gè)模型分別基于eNTERFACE’05數(shù)據(jù)庫(kù)和柏林?jǐn)?shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明,該模型在第一個(gè)數(shù)據(jù)庫(kù)上的準(zhǔn)確率都比其他四個(gè)模型率提高了10%以上,在第二個(gè)數(shù)據(jù)庫(kù)上該模型相較于其他模型所提升的識(shí)別率整體上沒有在第一個(gè)數(shù)據(jù)庫(kù)上的高,但依舊能取得最好的結(jié)果。文獻(xiàn)[82]研究了一種基于DNN-決策樹SVM 的SER 方法,將多層決策思想與深度學(xué)習(xí)相結(jié)合,通過建立基于情感混淆程度的決策樹SVM 框架,使用DNN提取瓶頸特征用于訓(xùn)練SVM分類器。與SVM和DNN-SVM相比,平均識(shí)別率分別提高了6.25%和2.91%,一定程度上解決了隨著情感類別增加而識(shí)別率下降的問題。

表16 基于混合模型結(jié)構(gòu)的SERTable 16 Hybrid model structure based SER
以往大多數(shù)SER研究都是基于同一語料庫(kù)的,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)具有相同的分布。為了提高模型的泛化性能,研究者利用不同來源的數(shù)據(jù)庫(kù)分別訓(xùn)練和測(cè)試模型,然而由于各種數(shù)據(jù)庫(kù)的文化背景,語言和分布模式等不同,這不可避免地導(dǎo)致了情感識(shí)別率的下降,進(jìn)而阻礙SER技術(shù)的推廣。由于需要考慮的因素眾多,因此跨語料庫(kù)SER成為了極具挑戰(zhàn)性的研究,眾多研究者主要針對(duì)如何減小跨庫(kù)數(shù)據(jù)分布差異進(jìn)行了廣泛的探索。以下從傳統(tǒng)方法和深度學(xué)習(xí)方法兩方面來闡述跨庫(kù)SER 研究進(jìn)展和所存在的問題。文獻(xiàn)[83]較早研究跨庫(kù)SER,提出了說話人歸一化,數(shù)據(jù)庫(kù)歸一化以及說話人和數(shù)據(jù)庫(kù)都一化來處理數(shù)據(jù)庫(kù)之間的差異。遷移學(xué)習(xí)是跨庫(kù)研究中常用的方法,將一個(gè)語料庫(kù)獲得的信息遷移至另外一個(gè)語料庫(kù),克服兩庫(kù)失配的困難,其中研究較多的遷移學(xué)習(xí)方法為域適應(yīng)方法。文獻(xiàn)[84]提出基于特征遷移學(xué)習(xí)方法,利用最大均值差異和降維算法,旨在尋求源庫(kù)和目標(biāo)庫(kù)之間的鄰近低維特征空間。文獻(xiàn)[85]提出域適應(yīng)最小二乘回歸模型,結(jié)合目標(biāo)庫(kù)無標(biāo)簽數(shù)據(jù)和源庫(kù)有標(biāo)簽數(shù)據(jù)共同訓(xùn)練模型,且在損失函數(shù)中加入正則化約束來減小兩庫(kù)之間的分布差異。
近年來,由于深度學(xué)習(xí)的突出表現(xiàn),研究者利用領(lǐng)域自適應(yīng)方法結(jié)合深度學(xué)習(xí)進(jìn)行跨庫(kù)SER 研究。對(duì)于跨庫(kù)SER,模型的泛化能力尤其重要,由于深度信念網(wǎng)絡(luò)(deep belief network,DBN)具有較強(qiáng)的泛化能力,文獻(xiàn)[86]研究基于DBN 在5 個(gè)情感語音數(shù)據(jù)庫(kù)上的遷移學(xué)習(xí),結(jié)果優(yōu)于稀疏自動(dòng)編碼器和SVM的研究工作,另外還發(fā)現(xiàn)將一部分目標(biāo)領(lǐng)域數(shù)據(jù)用來擴(kuò)充訓(xùn)練數(shù)據(jù),識(shí)別率顯著提高。最近,有研究者提出利用領(lǐng)域?qū)褂?xùn)練神經(jīng)網(wǎng)絡(luò)來提取訓(xùn)練域和測(cè)試域的通用表示[87]。文獻(xiàn)[88]基于領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)進(jìn)行跨庫(kù)維度情感預(yù)測(cè),創(chuàng)建了可區(qū)分的特征表示,縮小了源域和目標(biāo)域特征空間的差距。當(dāng)來自目標(biāo)領(lǐng)域的標(biāo)記樣本很少時(shí),少樣本學(xué)習(xí)可用作解決方案,因此,文獻(xiàn)[89]提出基于少樣本學(xué)習(xí)和無監(jiān)督域適應(yīng)的跨庫(kù)語音情感識(shí)別方法,該方法訓(xùn)練從源域樣本中學(xué)習(xí)情感相似性并適應(yīng)目標(biāo)域。實(shí)驗(yàn)結(jié)果表明所提方法可以有效提高跨庫(kù)SER 的性能。當(dāng)目標(biāo)樣本較少時(shí),文獻(xiàn)[90]研究利用生成對(duì)抗網(wǎng)絡(luò)合成樣本作為額外訓(xùn)練數(shù)據(jù)的效用,然而生成對(duì)抗網(wǎng)絡(luò)難以訓(xùn)練。最近基于Transformer 的SER 研究逐漸增多,但未見將其用于跨庫(kù)SER的相關(guān)研究,與之前的方法相結(jié)合研究跨庫(kù)SER是將來的一個(gè)方向。
SER在工作、娛樂和日常生活等場(chǎng)景下的應(yīng)用較為廣泛,以下列舉了部分應(yīng)用領(lǐng)域。
在醫(yī)療護(hù)理領(lǐng)域,SER系統(tǒng)的應(yīng)用及時(shí)反饋患者和醫(yī)務(wù)人員的情緒狀態(tài),可以優(yōu)化治療過程改善醫(yī)患關(guān)系[91]。在航空、航天及航海等特殊環(huán)境下,航天人員與地面通信中應(yīng)用SER技術(shù),偵測(cè)焦慮與煩躁等應(yīng)激性情緒苗頭,利于地面心理專家及時(shí)進(jìn)行疏導(dǎo)[92]。
在教育領(lǐng)域,對(duì)網(wǎng)絡(luò)課堂學(xué)生學(xué)習(xí)過程中的情緒狀態(tài)進(jìn)行跟蹤識(shí)別,老師根據(jù)反饋結(jié)果調(diào)整教學(xué)進(jìn)度,針對(duì)不同的學(xué)生形成個(gè)性化的教育[93]。在服務(wù)領(lǐng)域,檢測(cè)客服人員以及客戶的情感激烈程度并采取相應(yīng)措施,提升服務(wù)效率和服務(wù)質(zhì)量[94]。
在娛樂領(lǐng)域,交互式電影中運(yùn)用語音情感識(shí)別,提升觀影者的參與度[95]。云游戲投入市場(chǎng),運(yùn)用包括SER在內(nèi)的多模態(tài)情感識(shí)別技術(shù)來根據(jù)玩家的游戲體驗(yàn)情緒對(duì)游戲本身進(jìn)行調(diào)整[96]。在影視領(lǐng)域,識(shí)別音樂情感與電影的氛圍進(jìn)行匹配以及為動(dòng)漫電影人物配音[97]。在文化領(lǐng)域,通過識(shí)別戲劇情感并結(jié)合觀眾的反應(yīng),提升戲劇情感表現(xiàn)力[98]。
在交通領(lǐng)域,對(duì)于下一代智能交通[99],自動(dòng)駕駛車輛的車載SER系統(tǒng)結(jié)合5G技術(shù)可以根據(jù)用戶的指示及結(jié)合智能交通系統(tǒng)進(jìn)行安全駕駛,對(duì)自動(dòng)開關(guān)窗,導(dǎo)航等方面為乘客和駕駛員提供個(gè)性化的體驗(yàn)。在音頻信息檢索方面[100],可以使用SER 技術(shù)對(duì)音頻內(nèi)容及某些片段進(jìn)行所需要情緒信息的檢索。在對(duì)老人的關(guān)注方面,可用陪護(hù)機(jī)器人與老年人進(jìn)行交流談話,關(guān)注老年人的身心健康[101]。
SER技術(shù)通過幾十年的研究發(fā)展,拓寬了許多應(yīng)用場(chǎng)景,從以下幾方面可以看出其存在的問題以及發(fā)展方向。
第一,缺少通用的情感描述模型。情感定義沒能達(dá)成共識(shí),現(xiàn)存情感描述模型多樣,研究人員只能根據(jù)研究目標(biāo)進(jìn)行選擇,一定程度上限制了結(jié)果對(duì)比。從不同情感模型的演化過程可以發(fā)現(xiàn),情感的表示一方面從簡(jiǎn)單地將情感分類為積極和消極到逐步演化為更復(fù)雜細(xì)微的情感表示方向發(fā)展,另一方面,也正在從離散的情感特征標(biāo)簽向連續(xù)長(zhǎng)期的維度情感度量方向深化。
第二,缺乏規(guī)模與質(zhì)量兼?zhèn)洳⒛軌蛲ㄓ霉蚕淼淖匀磺楦姓Z音數(shù)據(jù)庫(kù)?,F(xiàn)存數(shù)據(jù)庫(kù)數(shù)量多,規(guī)模較小,并不通用,研究人員按研究目標(biāo)各自選擇不同的庫(kù),為研究成果的比較設(shè)下了障礙。首先可以進(jìn)行跨庫(kù)、跨語言合并高質(zhì)量語料庫(kù),但各庫(kù)的建庫(kù)標(biāo)準(zhǔn)及建庫(kù)方法不同,將各庫(kù)進(jìn)行組建可能會(huì)存在問題,因此需要研究一個(gè)泛化性的方案。針對(duì)跨庫(kù)SER,遷移學(xué)習(xí)的研究還不夠充分,可將其他模態(tài)如文本和視頻的知識(shí)遷移到跨庫(kù)研究中,同時(shí)研究減小負(fù)遷移帶來的影響。針對(duì)現(xiàn)有高質(zhì)量語料庫(kù),使用數(shù)據(jù)生成技術(shù),在基礎(chǔ)上擴(kuò)充。另一方面,結(jié)合科研人員,心理專家以及標(biāo)注公司的努力,確立統(tǒng)一泛化性的記錄方法、建庫(kù)標(biāo)準(zhǔn)、標(biāo)注標(biāo)準(zhǔn)以及數(shù)據(jù)庫(kù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)。
第三,探索與情感強(qiáng)相關(guān)的特征。針對(duì)已提出的情感特征,探究?jī)?yōu)化方式和特征最優(yōu)數(shù)量,融合優(yōu)化顯著特征,構(gòu)成情感語音最優(yōu)特征集合。融合同一深度網(wǎng)絡(luò)不同層信息以及融合不同深度網(wǎng)絡(luò)學(xué)習(xí)到的不同深度特征的方法也是值得深入研究的。對(duì)于跨語言、跨庫(kù)研究,找到普適特征,發(fā)掘情感特征通用性,是未來的一個(gè)研究方向。
第四,缺乏可解釋性的深度神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的出現(xiàn)給SER 的研究帶來了很大的變革,加速了其發(fā)展,但是深度神經(jīng)網(wǎng)絡(luò)作為典型的“黑箱”算法,最終的分類結(jié)果是如何得出的,在“黑箱”中發(fā)生了什么,網(wǎng)絡(luò)的具體實(shí)現(xiàn)卻不易描述,為了更好地理解為SER研究所設(shè)計(jì)的深度網(wǎng)絡(luò),需要探索內(nèi)部細(xì)節(jié),構(gòu)建解釋能力強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)來促進(jìn)SER發(fā)展。
第五,SER 研究沒有進(jìn)一步從腦科學(xué)、認(rèn)知科學(xué)等學(xué)科的研究成果中得到啟示。現(xiàn)有的SER 研究只是將其作為模式識(shí)別問題,對(duì)人腦情感信息內(nèi)在處理機(jī)制深入分析利用的研究還處在初級(jí)階段,情感的復(fù)雜性以及心理學(xué),腦科學(xué)和認(rèn)知學(xué)等各學(xué)科的發(fā)展水平還不足以建立起模擬人腦情感處理機(jī)制的模型。因此,還需要結(jié)合各學(xué)科的發(fā)展共同致力于這一交叉研究。除此之外,結(jié)合腦科學(xué)、生理學(xué)學(xué)科研究表達(dá)的情感與經(jīng)歷的情感之間的差異,并建立一個(gè)通用模型是未來的一個(gè)研究方向。
第六,缺少對(duì)語音情感數(shù)據(jù)隱私保護(hù)的研究?,F(xiàn)代是萬物互聯(lián)的時(shí)代,可將SER 系統(tǒng)集成到物聯(lián)網(wǎng)中,語音情感處理系統(tǒng)放在云端,但語音數(shù)據(jù)被上傳到服務(wù)器并進(jìn)行處理時(shí),可能會(huì)泄露私人敏感信息,而導(dǎo)致收集不同來源的數(shù)據(jù)受限,對(duì)構(gòu)建有效的SER模型可能造成挑戰(zhàn),為應(yīng)對(duì)該問題,有研究者提出基于聯(lián)邦學(xué)習(xí)的隱私保護(hù)SER模型[102],但該方面的研究還比較少。