張會云,黃鶴鳴*,李 偉,康 杰
(1.青海師范大學計算機學院,青海 西寧 810008;2.藏文信息處理教育部重點實驗室,青海 西寧 810008;3.青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008)
隨著語音識別技術的迅速發展,以計算機、手機、平板等為載體的人工智能研究日新月異。各種人機交互不再局限于識別特定說話人語音中的單一音素或語句,如何識別語音中的情感已成為語音識別領域的新興研究方向。語音不僅包含說話人所要表達的語義信息,也蘊含說話人的情感狀態。對語音情感的有效識別能夠提升語音可懂度,使各種智能設備最大限度理解用戶意圖,從而更好地為人類服務。
情感是一種綜合了人類行為、思想和感覺的現象[1]。語音情感是指從語音信號中獲取相應情感信息,情感信息主要表現在內外兩個層面:內在情感信息指心率、脈搏、血壓等無法通過外表觀察到的信息;外在情感信息指面部表情、聲音、語氣、眉頭、姿勢等通過外表能觀察到的信息。語音情感識別(Speech Emotion Recognition,SER)指利用計算機分析情感,提取出情感特征值,并利用這些參數進行相應的建模和識別,建立特征值與情感的映射關系,最終對情感分類。
人的情感是通過面部表情、身姿、聲音及生理信號等多種模態表現出來的[2,3]。情感判斷可基于這些模態中的一個或多個進行,但單模態信息不全、易受干擾,而多模態信息能夠互相印證、互相補充,從而為情感判斷提供更全面、準確的信息,以提高情感識別性能。語音情感語料庫是進行SER的基礎,大規模、多樣化、高質量的優質語料庫對SER性能的提升至關重要。隨著SER的發展,各種單模態、多模態語音情感數據庫應運而生,根據語音屬性將數據庫歸類,見表1。

表1 語音情感語料庫的歸類
表1根據語種差異、語音自然度、情感獲取方式及情感描述模型將語音情感數據庫歸類,通常研究者立足于情感描述模型,即將情感劃分為離散型情感和維度型情感進行研究。為了更直觀地區分兩類情感,表2進行了詳細總結。
由表2可知,離散型情感[2]指使用形容詞標簽將不同情感表示為相對獨立的情感類別,多屬于表演型或引導型,每類情感演繹逼真,能達到單一、易辨識的程度。維度型情感[2]通過喚醒維(Arousal)、效價維(Valence)、支配維(Dominance)等取值連續的維度將情感描述為一個多維信號,要求標注者將主觀情感直接量化為客觀實數值,如圖1所示。其中,喚醒維是對人生理活動/心理警覺水平的度量;效價維度量人的愉悅程度,情感從極度苦惱到極度開心互相轉化;支配維指影響周圍環境或反過來受其影響的一種感受。為了更完整地描述情感,研究者也將期望維(Expectation)、強度維(Intensity)加入維度描述模型。期望維是對說話人情感出現的突然性度量,即說話人缺乏預料和準備程度的度量;強度維指說話人偏離冷靜的程度[3]。

表2 兩種情感描述模型的區別

圖1 愉悅-喚醒模
近年來,隨著SER研究的順利開展,研究者根據情感描述模型錄制了相應的離散型語音情感數據庫(見表3)和維度型語音情感數據庫(見表4),所列的各類情感數據庫大都公開或可以通過許可證授權得到。

表3 常用的離散型語音情感數據庫

表4 常用的維度型語音情感數據庫
由表3可見,大部分數據庫都是通過表演方式采集。事實上采用自發語音情感更合理,但使用表演型情感數據庫也有一定好處,可避免數據庫包含過多無效標簽數據。由表4可知,常用的維度型情感語料庫主要有:VAM、DEAP、RECOLA、SEMAINE、IEMOCAP等,對于維度型情感庫通常采用PAD(Pleasure-Arousal-Dominance)量表進行情感信息標注。
隨著SER的發展,越來越多的研究者嘗試將多模態信息融合來進一步提升SER性能。下面以常用的eNTERFACE05、SAVEE和RML模態數據庫為例,分析在不同數據庫上使用不同分類方法所取得的最佳性能。
表5展示了2015~2019年在SAVEE數據庫上使用不同分類方法所取得的性能。由表5可知,在SAVEE數據庫上,目前結合多模態信息的SER系統最優性能可達到98.33%,這是一個非??捎^的結果。

表5 SAVEE多模態庫上不同方法性能比較
表6展示了2012~2019年部分研究者在RML模態數據庫上的研究結果。由表6可知,目前RML數據庫上各分類方法整體性能不是很好,2015年取得的最優性能為83%。

表6 RML多模態庫上不同方法的性能比較
表7展示了2009~2019年部分研究者在eNTERFACE05模態數據庫上的實驗結果。由表7可知,文獻[10]取得了最優的性能,其它各類方法的性能均較低。縱觀表5、表6、表7,可以得出:在SAVEE數據庫上目前各分類方法取得了最優性能,RML次之,eNTERFACE05數據庫上性能最差。歸因于eNTERFACE05庫帶有一定噪音,而RML模態數據庫中的語料較為干凈,SAVEE數據庫是由專業演員錄制的,對于每種情感的表達到位,數據庫質量較好。

表7 eNTERFACE05多模態庫上不同方法的性能比較
語音中情感的自動識別將是一項具有挑戰性的任務,對情感的識別嚴重依賴于語音情感特征分類的有效性。語音情感特征可分為語言特征和聲學特征。語言特征即語音所要表達的言語信息,聲學特征則包含了說話人的語氣、語調,蘊含感情色彩。提取關聯度高的情感聲學特征有助于確定說話人情感狀態。通常以幀為單位提取聲學特征,但這些特征一般以全局統計的方式作為模型的輸入參與情感識別。全局統計指聽覺上獨立的語句或單詞,常用的統計指標有極值、方差、中值、均值、偏度、最小值、最大值、峰度等。目前,常用的聲學特征包括韻律特征、譜特征和音質特征。為了進一步提升識別性能,研究者也將個性化特征[19]與非個性化特征[20]、非線性動力學特征[21]、基于人耳聽覺特性的特征[22]以及i-vector特征[23]引入SER中,見表8。

表8 基于語音情感的聲學特征分類
表8給出了語音情感特征的分類及其所包含的成分。通常來說,單一特征不能完全包含語音情感的所有有用信息,為了使SER系統性能達到最優,研究者通常將不同特征融合來提高系統性能。下面將詳細介紹每種情感特征的內容及其研究狀態。
2.2.1 韻律特征
韻律特征[24]在SER領域已被普遍使用,這些韻律特征并不影響對語音語義信息的識別,但決定著語音流暢度、自然度和清晰度。最常用的韻律特征有:時長相關特征(如語速、短時平均過零率等)、基頻相關特征(如基因頻率及其均值、變化范圍、變化率、均方差等)以及能量相關特征(如短時平均能量、短時能量變化率、短時平均振幅)等。關于韻律特征對SER性能的影響,研究者作了深入分析與研究,見表9。

表9 常用的韻律特征對SER性能的影響
表9中,Luengo等人[25]使用了由基頻和能量的最大值、最小值、均值及方差等組成的31維韻律特征集,在包含英語、法語等多語種情感語料庫上的識別性能均接近于60%;IIiou等人[26]提取了EMO-DB語料庫的35維韻律特征,系統性能達到51%;Rao等人[27]提取了韻律特征時長、基頻和能量對應的全局特征和局部特征,并采用SVM在EMO-DB語料庫上對7種情感進行分類,取得了64.38%的平均識別性能;Kao等人[28]分別從幀、音節、詞語級別提取了韻律特征并對4種情感進行分類,獲得了90%的識別性能。綜合來看,韻律特征對情感識別系統性能的影響較大。
2.2.2 基于譜的相關特征
基于譜的相關特征體現了聲道形狀變化與發聲運動間的相關性[29]。譜特征參數反映信號在頻域的特性,不同情感在各個頻譜間的能量是有差異的(如表達歡快的語音在高頻區間能量較高,表達哀愁的語音在同樣的頻段能量較低)。基于譜的相關特征主要分為線性頻譜特征和倒譜特征。常用的線性譜特征有:線性預測系數(Linear Prediction Cofficients,LPC)、對數頻率功率系數(Log Frequency Power Coefficients,LFPC)及單邊自相關線性預測系數(One-sided Autocorrelation Linear Predictor Coefficient,OSALPC)等;常用的倒譜特征有:線性預測倒譜系數(Linear Prediction Cepstrum Cofficients,LPCC)、單邊自相關線性預測倒譜系數(One-sided Autocorrelation Linear Predictor Cepstral-based Coefficient,OSALPCC)以及梅爾頻率倒譜系數(Mel-Frequency Cepstrum Cofficients,MFCC)等。關于譜特征對SER性能的影響,部分研究者作了深入分析與研究,見表10。

表10 常用的譜特征對SER性能的影響
表10中,Bou-Ghazale等人[30]研究了倒譜特征和線性譜特征在壓力語音檢測任務中的性能表現,實驗表明,單獨使用LPC、OSALPC、LPCC、OSALPCC、MFCC特征時,識別率為:48.19%、53.51%、68.71%、65.87%、69.45%,平均識別率為61.15%。從實驗結果可以看出,倒譜特征的區分能力明顯優于線性譜特征;Nwe等人[31]使用LPCC、MFCC和LFPC特征時識別率分別為56.1%、59%和78.1%,平均識別率為64.4%,通過實驗證明線性譜特征的識別性能優于倒譜特征。目前,MFCC表現出的性能最優,是因為其具有計算簡單、區分能力好等優點。臺灣學者選用MFCC、LPCC等作為特征向量,使用SVM對普通話5種情感進行分類,獲得了84.2%的識別結果[32]。文獻[33]單獨使用MFCC特征對情感語音進行分類,平均識別率為62.3%。綜合來看,譜特征對SER的性能影響較大。
2.2.3 音質特征
音質特征是語音的一種主觀評價指標,描述了聲門激勵信號的性質,包括發聲者語態、喘息、顫音及哽咽,用來衡量語音純凈度、清晰度和辨識度[34]。通過對聲音質量的評價,可獲得說話人的生理、心理信息并對其情感狀態進行區分。用于衡量聲音質量的聲學特征一般有:共振峰頻率、帶寬、頻率擾動、振幅擾動、諧波噪聲比、閃光及聲門參數等。關于聲音質量對SER的影響,其代表性成果見表11。

表11 常用的音質特征對SER性能的影響
表11中,Lahaie等人[35]研究了5種音頻帶寬對SER的影響,平均識別率為71.65%。Li等人[36]提取了頻率微擾和振幅微擾等音質參數,僅有MFCC特征時,基線性能是65.5%,將MFCC與頻率微擾或振幅微擾結合時,系統性能都會有所改善,將三者結合,系統最佳性能可達到69.1%。Wang等人[37]等人提出了一種傅里葉參數特征,使用該特征時SER性能可達到76.00%。綜合來看,音質特征對SER性能也有一定的影響。
2.2.4 其它特征
為進一步提升SER性能,一些研究者致力于提取更為有效的特征,經過大量實驗驗證,除韻律特征、譜特征和音質特征外,目前對系統性能影響較大的一些特征有:個性化特征與非個性化特征、基于人耳聽覺特性的特征、i-vector特征以及非線性特征,下面詳述各類特征及其典型的研究成果。
個性化與非個性化特征:根據語音情感聲學特征是否受說話人自身說話特征影響,將其分為個性化和非個性化特征。個性化特征反映數值大小,包含大量反映說話人語音特點的情感信息;非個性化特征反映說話過程中情感的變化情況,包含一定情感信息且不易受說話人影響,具有很好的相通性和穩定性。文獻[38]提取了基頻、短時能量、共振峰的變化率及它們的變化范圍、方差等統計值作為非個性化特征,同時提取了傳統基頻、共振峰等個性化特征,并用這兩類特征進行實驗,結果表明非個性化特征對SER有著很大的作用,且這類特征受不同說話者的影響更小。
基于人耳聽覺特性的特征:過零峰值幅度特征(Zero Crossings with Peak Amplitudes,ZCPA)使用過零率和峰值的非線性壓縮表示語音信號的頻率及幅度信息,是一種基于人耳聽覺特性的特征。文獻[39]將其引入SER領域分析了分幀時長對ZCPA特征的影響,提出了一種將Teager能量算子與ZCPA特征相結合的過零最大Teager能量算子特征。該特征保留了人耳聽覺特性,同時也將最能表征情感狀態的特征融入系統,實驗結果表明,該特征取得了較好的識別性能。
i-vector特征:i-vector是一種將GMM超向量空間映射到低維總變異空間的技術。文獻[40]首先提取1584維的聲學特征訓練語音情感狀態識別的通用模型,然后在該模型基礎上為每類情感狀態生成用于i-vector的GMM超向量并將其串聯,最后使用SVM來識別4類語音情感,結果表明,該特征取得了較好的識別性能。
非線性特征:基于語音混沌特性,應用非線性動力學模型分析情感語音信號,可以提取該模型下情感語音信號的非線性特征及常用的聲學特征(韻律特征和MFCC)。文獻[41]將非線性動力學模型與情感語音信號處理相結合,提取了最小延遲時間、關聯維數、Kolmogorov熵、最大Lyapunov指數和Hurst指數等情感非線性特征,并將非線性特征與不同特征融合驗證了該組合下的情感識別性能,研究了EMO-DB語料庫下語音信號混沌特性對SER性能的影響,結果表明,在單獨使用韻律特征、MFCC和非線性特征時,識別率分別為:69.00%、80.88%和72.00%。將三者融合最佳識別率可達到87.62%。從識別結果來看,非線性特征有效表征了情感信號的混沌特性,與傳統聲學特征結合后,SER性能得到了顯著提升。
2.2.5 特征融合
單一特征僅從某個側面對語音情感信息進行表達,不能很好地表示語音情感,為此,研究者通常將多個單特征融合以進一步提升SER性能,見表12。

表12 融合特征對系統性能的影響(%)
表12中,趙力等人[42]將韻律特征與音質特征相結合,平均識別性能達到了75%;Amol等人[43]將MFCC、過零率、能量等特征相結合,獲得了98.31%的性能。文獻[44]提取了短時平均能量、短時平均幅度,短時過零率、線性預測系數、MFCC和短時自相關系數特征并將其融合,最佳識別率可達到79.75%。綜合來看,融合的特征集對情感識別性能均優于單一特征集。
2.2.6 深度學習特征
深度學習方法在處理復雜的海量數據建模上有很大優勢,可以直接從原始數據中自動學習最佳特征表示,通過組合低層特征形成更加抽象的高層特征以表示屬性的類別或特征,從而有效捕獲隱藏于數據內部的特征,近年來部分研究者將其應用于語音情感特征提取,并取得了一定成果,見表13。

表13 深度學習特征對系統性能的影響
表13給出了深度學習特征對SER性能的影響。文獻[45]將瓶頸結構(Bottle-Neck,BN)和深度置信網絡(Deep Belief Network,DBN)相結合來提取新的特征,其識別率可達到93.66%。文獻[46]采用CNN進行特征提取,其最佳識別率可達到93.7%;文獻[47]使用RNN提取語音情感特征,識別率可達到86.50%;文獻[48]使用LSTM提取語音情感特征,在CHiME中可進一步將錯誤率降到22%。綜合來看,使用深度學習自動提取的特征對SER性能的影響較大,更有利于SER的順利進行。
要對情感狀態進行判斷,首先要建立SER模型。識別模型是SER系統的核心。在識別過程中,情感特征輸入到識別網絡,計算機通過相應算法獲取識別結果。顯然,識別網絡的選擇與識別結果有著直接關系。早期的統計模型與識別算法大致有以下幾種:決策樹、基于模型匹配法、貝葉斯網絡、動態時間規整(Dynamic Time Warping,DTW)、多層感知機(Multilayer Perceptron,MLP)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(Support Vector Machine,SVM)、隱馬爾科夫模型(Hidden Markov Model,HMM)等。隨著深度學習的興起,SER模型訓練階段逐漸采用人工神經網絡(Artificial Neural Network,ANN)。目前SER領域使用最廣泛的模式分類器有:HMM、GMM、SVM及ANN等,下面著重介紹這幾種算法。
2.3.1 隱馬爾科夫模型
HMM是一種模擬了人類語言過程的時變特征有參表示法。在SER領域有著廣泛的應用,部分研究者在常用的一些情感語料庫(如EMO-DB、IEMOCAP等)上提取了韻律特征、譜特征、音質特征等各類特征,并采用HMM作為分類器識別不同語音情感,相關研究成果見表14。

表14 HMM分類算法對系統性能的影響
從表14可以看出,使用HMM作為分類器時,Yun等人的研究成果達到了89.00%的識別率,文獻[50,55]的研究成果也取得了不錯的成績,但最低性能僅有62.5%。
2.3.2 高斯混合模型
GMM是一種可擬合所有概率分布函數的概率密度估計模型。相關研究者提取了基頻、能量、MFCC、共振峰及其它特征并將各類特征以不同方式融合,在各類情感語料庫上做了大量實驗,見表15。
從表15可以看出,使用GMM進行SER識別時,Neiberg等人的研究成果達到了90.00%的識別率,這是一個非常不錯的識別結果。除此之外,文獻[57-58]也取得了可觀的識別結果。

表15 GMM分類算法對系統性能的影響
2.3.3 支持向量機
SVM是一種通過核函數將特征向量由低維空間映射到高維空間實現最優分類的算法。在SER領域有著廣泛的應用,相關研究成果見表16。

表16 SVM分類算法對系統性能的影響
從表16可以看出,目前很多研究者使用SVM作為分類器進行SER并取得了非??捎^的識別結果。其中,文獻[70]達到了90.00%的最優識別性能,其他研究者的研究成果也僅次于文獻[70]。綜合來看,該方法有利于提高SER的性能。
2.3.4 人工神經網絡
人工神經網絡(Artificial Neural Network,ANN)是基于生物學中神經網絡的基本原理,在理解和抽象了人腦結構和外界刺激響應機制后,以網絡拓撲知識為理論基礎,模擬人腦對復雜信息處理機制的一種數學模型、數學方法、計算結構或系統。該網絡具有一定的智能性,表現為良好的容錯性、層次性、可塑性、自適應性,并具有聯想記憶、非線性和并行分布式處理能力。
近年來,ANN依靠其強大的特征提取及對海量數據進行深層次建模能力,在SER領域取得了顯著進步。循環神經網絡(Recurrent Neural Network,RNN)、卷積神經網絡(Convolutional Neural Network,CNN)以及各種自編碼器等新的網絡模型、分支及算法不斷被提出,這些模型對SER系統性能的提升產生了深遠影響。下面以RNN、CNN以及各種自編碼器為例,詳細介紹SER的研究進展。
循環神經網絡:RNN中存在環形結構,其隱含層內部神經元互連,可存儲網絡序列輸入的歷史信息,是一種專門用于處理時序數據的神經網絡,其時序并非僅僅指代時間概念上的順序,也可理解為序列化數據間的相對位置,如語音中的發音順序、某個英語單詞的拼寫順序等。若相關信息與預測位置間隔較小,RNN可順利預測;反之,RNN無法學習這些信息。為此,研究者對RNN進行了改進,提出了長短期記憶網絡(Long Short-Term Memory,LSTM),該網絡能夠學習長期依賴關系,已被廣泛使用,相關研究成果見表17。

表17 循環神經網絡對SER性能的影響
在表17中,文獻[75]使用LSTM網絡從語音中自動發現與情感相關特征,并使用局部注意機制以集中于語音信號中更突出情感的特定區域,在IEMOCAP語料庫上進行了評估,結果表明,與使用固定特征的傳統SVM情感識別算法相比,該方法可提供更好的性能。然而,傳統LSTM假設當前時間步長狀態取決于前一個時間步長,該假設限制了時間依賴性建模能力,文獻[76]提出了Advanced-LSTM網絡,可更好地進行時間上下文建模,實驗表明,該網絡性能優于傳統LSTM。文獻[77]提出了一種時空循環神經網絡(Spatial-Temporal Recurrent Neural Network,STRNN),將信號源時空信息的特征集成到統一時空依賴模型。通過沿不同方向遍歷每個時間切片空間區域,利用多方向RNN層捕捉長距離上下文信息。實驗表明,所提出的方法更具競爭力。
卷積神經網絡:CNN是一種專門用來處理具有類似網格結構數據的神經網絡,如時間序列數據和圖像數據。CNN引入了權值共享及降采樣的概念,大幅減少了訓練參數數量,在提高訓練速度的同時有效防止過擬合,相關研究成果見表18。
在表18中,文獻[78]使用CNN對4種情感進行識別,平均識別率可達到73.32%。文獻[79]提出了基于時間調制信號的3維卷積循環神經網絡(Three-dimensional Convolutional Recurrent Neural Network,3D-CRNN)端到端SER系統。卷積層用于提取高級多尺度頻譜時間表示,循環層用于提取情感識別的長期依賴性。在IEMOCAP數據庫上進行驗證,結果表明,所提出方法具有更高識別精度。文獻[80]針對CNN訓練中卷積核權值的更新算法進行改進,使卷積核權值的更新算法與迭代次數有關聯,提高CNN的表達能力。在語音情感特征提取方面,選擇提取語音特征應用最廣泛的MFCC方法進行實驗,同時為了增加情感語音之間的特征差異性,將語音信號經過預處理后得到的MFCC特征數據矩陣做變換,提高SER性能。對改進CNN的SER模型進行實驗分析,結果表明,改進后的SER算法的錯誤率比傳統算法減少約7%。

表18 卷積神經網絡對SER性能的影響
自編碼器:自編碼器是一種能夠通過無監督學習學到輸入數據高效表示的ANN。輸入數據的這一高效表示稱為編碼,其維度一般遠小于輸入數據,使得自編碼器可用于降維。此外,自編碼器可作為強大的特征檢測器,應用于神經網絡預訓練,相關研究成果見表19。

表19 自編碼器對SER性能的影響
在表19中,文獻[81]提出了新的無監督域適應模型—Universum自編碼器,以改善在不匹配的訓練和測試條件下系統性能。在標記的GEWEC數據庫和其它3個未標記的數據庫上的實驗結果表明,與其它域適應方法相比,該方法具有較好的效果。文獻[82]使用半監督階梯網絡進行情感識別,最佳識別率可達到59.7%。
SER是一個新興的研究領域且在教育、醫學、心理學、話務中心、汽車駕駛、電子商務等人機交互領域有著廣泛的應用。
教育領域:對接受在線教育的學生進行語音情感分析,可隨時反饋學生狀態;若發現學生對課程內容困惑時,可適當調整教學難度和教學進度,實現更人性化的網絡教學,從而提升教學效果。
醫學領域:言語障礙者的言語特征往往比正常人言語特征更難理解,VAESS工程開發了一種便攜式語音合成器來輔助殘疾人講話和表達情感,對語音中情感的有效識別能提升語音可懂度,幫助聽眾更好地理解說話人所要表達的含義。
心理學領域:情感不僅與說話人語音有關,也與說話人所處的情景密切相關,基于SER系統的情景分析能夠及時獲取說話人情感狀態,幫助說話人排解不良情緒,避免產生抑郁傾向。另外,將基于說話人情景的檢測與心理學醫師的醫療方案結合,能夠為說話人提供良好的心理疏導。
智能話務系統:根據用戶情感狀態安排服務優先級或直接轉給人工客服,若用戶情緒起伏不定,智能系統可為用戶及時轉接人工客服;若人工客服情緒受到客戶影響,智能系統將及時提醒客服保持良好的服務態度,提高服務效率和質量。
汽車駕駛:通過提取駕駛員的語速、音量等聲學特征信息實時監控并分析駕駛員情感狀態,當發現疲勞駕駛時及時督促駕駛員安全駕駛,可有效避免交通事故發生[47]。
電子商務領域:在購物網站和股票交易網站識別用戶語音情感,可靈活調控流量。
綜上所述,研究SER系統具有一定學術價值和實用價值。要實現更好地人機交互,需要計算機在聽懂說話人言語信息的基礎上也能夠理解其中所蘊含的情感信息。
隨著模式識別的迅速發展和ANN的再度興起以及人機交互的迫切需求,越來越多研究者逐漸投入SER并取得了顯著性成果。本研究論述了SER領域的幾個關鍵問題,包括語音情感模型、語音情感語料庫、語音情感聲學特征提取、聲學建模及SER技術應用。出于對SER研究現狀的分析和語音情感復雜性的考慮,總結了該領域面臨的挑戰和值得深入探究的問題及未來發展趨勢。
縱觀近幾年文獻來看,盡管有很多算法成功運用于SER中,但大多數研究者僅使用這些算法在某些特定數據庫上測試,對實驗數據依賴性強。在不同情感數據庫和測試環境中,各種識別算法均有其優劣勢,沒有普遍性。常見的SER方法都是基于語音情感特征進行研究,但不論這些情感識別方法有多么精確,都無法與人腦相媲美。
泛化性與多模態信息融合:SER不再局限于對普通語音進行情感識別,如何將遠程通話語音、言語障礙者語音以及低資源語音(如各地區方言、藏語等民族語言)中的情感語音與各類人群的面部表情、肢體語言和語義特征等多模態信息相融合進行情感識別需要深入探討,多模態情感信息互相補充、相互驗證,但在情感表達過程中,個體易受環境影響,不能充分表達多模態情感,在獲取情感數據過程中也會受當前技術限制,使得多模態信息有所缺失;另外,多模態情感信息一般情況下借助多種傳感器來獲取,會存在記錄的異步性和不同模態與情感狀態表現的異步性。因此,將多模態信息進行有效融合來提高SER性能將是一個值得深究的問題。
語料問題:優質的情感語料庫能夠提供可靠的訓練數據和測試數據。與大規模語音語料庫和歌曲語料庫相比,現有情感語料庫一般是根據研究者研究目的建立的表演型、引導型語料庫,語料資源較為稀少。另外,由于低資源語音使用人群較少且從事低資源語音情感研究的人群也明顯少于英語、漢語等大語種的研究人群,使得低資源相關研究仍處于萌芽階段。最后,不同研究者所采用的語音情感語料庫也有所差異,諸如語種、情感種類及說話人差異等均影響SER。因此,針對現有語料庫問題,合理豐富各類情感語料庫及采用先進技術對情感語料庫進行有效標注很有必要。
語音情感與聲學特征的關聯度:SER的目標是讓機器勝任人腦識別水平。要求機器以盡可能接近人腦信息加工的方式對情感語音進行聲學特征提取并加以正確關聯和映射。語音識別中提取的MFCC特征大幅改善了系統性能,而SER領域目前并未找到具有MFCC同樣地位的情感聲學特征。通常情況下將韻律特征、聲音質量、譜特征相融合選出最優特征集進行SER。截至目前,該領域研究者普遍認為基于語句時長的全局特征與情感狀態間的關聯最密切,但界定情感特征的最優時長及將不同時長聲學特征進行融合探究與情感表達關聯更密切的聲學特征仍具有一定挑戰。
SER建模:利用充足的語料訓練情感識別系統找出各種聲學特征對應情感的映射,實現對測試語料的正確識別。SER是對人腦語音情感信息加工方式的模擬,受人腦情感信息加工方式的復雜性及科技水平的限制,目前該領域構建的識別系統僅是對人腦的一些簡單功能的模擬,還無法達到機制模擬水平。在現有認知水平上,構建接近人腦信息加工機制的SER系統具有很大挑戰。
SER技術的普及:隨著人機交互技術不斷發展,語音交互技術逐漸從實驗室進入市場(如蘋果公司Siri語音搜索軟件)。但SER領域目前并沒有成熟的相關應用問世,人機互動的實時性要求在SER性能提升的同時也能降低計算量,具有很大實用價值。