張會云,黃鶴鳴
(1.青海師范大學 計算機學院,西寧 810008;2.藏語智能信息處理及應用國家重點實驗室,西寧 810008;3.藏文信息處理教育部重點實驗室,西寧 810008;4.青海省藏文信息處理與機器翻譯重點實驗室,西寧 810008)
情感被認為是對生存[1]或機體行為[2]有關情況的典型反應[3]。在幾乎所有關于情感的理論解釋中,感覺加工有著非常重要的作用[4-6],但是神經科學的觀點認為,情感是由大腦的特定區域驅動的,例如,在邊緣系統[7]和相關的皮層下回路[8]中,神經回路被認為是專門處理諸如恐懼和悲傷等情感類別的。根據上述觀點,感覺皮層的活動被認為是情感的先決條件,而聽覺作為一級感覺區,對情感信息的加工具有至關重要的作用[9]。
語音情感識別是指計算機以幀為單位對情感信號進行特征提取,模擬人類感知并理解人類情感,進而推斷語音情感類型的一種技術[10]。常用的語音情感識別(Speech Emotion Recognition,SER)方法是在標注的數據庫上訓練和測試分類器,或者將數據集劃分為訓練集、驗證集和測試集進行交叉驗證[11]。通過這種方式,識別模型在特定的說話群體、語言與情感類別等方面都取得了很好的性能。但這種識別模型能在多大程度上推廣到不同交互場景和語言中還不能得出結論。
近年來,研究人員致力于多域語音情感識別研究。文獻[12]對多域語音情感識別進行了初步探索,在不同語料庫組合而成的訓練集上驗證了6 種語音情感的識別性能,但由于不清楚哪些因素對識別結果產生影響,因此對識別結果的解釋相對模糊;文獻[13]對來自4 個語系的8 種語言進行研究,結果表明多域情感識別是可行的;文獻[14]提出一種基于語言識別和模型選擇的多域語音情感分類方法,在多域語音情感數據庫上驗證了模型的識別性能;文獻[15]結合兩種語言進行語音情感識別研究,利用直方圖均衡化消除跨域語音情感表達之間的差異。
關于多域語音情感識別模型的分類性能,目前很難與其他多域語音情感識別模型在同一基準下進行比較,因為多域語音情感識別研究在諸如情感類別、訓練集和測試集的劃分、潛在的情感概念(離散情感或連續喚醒/效價維度)等方面沒有統一標準[16],且目前各種多域語音情感識別研究至少在一個方面有所不同,因此,無法在同一基準下進行分類性能的比較。目前,對于多域和跨域語音情感識別[17]往往以單域語音情感識別為基線進行性能比較。
基于已有研究及上述問題,本文構建多域語音情感數據庫Hybrid-CE、Hybrid-ES、Hybrid-CS 及Hybrid-CES,通過多操作運算實現韻律特征和譜特征等低級描述符的高級統計函數特征的融合,提出一種新穎的圖式層級多操作網絡(Hierarchical Multi-operation Network,HMN)模型。最后通過實驗驗證HMN 模型在多域語音情感數據庫上的分類性能、魯棒性和泛化性。
隨著深度學習的不斷發展,神經網絡的結構越來越復雜。與前饋網絡相比,循環神經網絡(Recurrent Neural Network,RNN)[18]能較好地處理序列數據,但存在梯度消失或者梯度爆炸問題;而長短時記憶(Long Short-Term Memory,LSTM)網絡和門控循環單元(Gated Recurrent Unit,GRU)能夠較好地解決梯度問題,同時對信息實現選擇性記憶[19]。為了更好地利用上下文語境信息,本文研究采用雙向長短時記憶(Bi-LSTM)網絡和雙向門控循環單元(Bi-GRU)共同提取語音情感的時間序列信息[20],通過完整地表征語音情感特征,利用卷積操作提取語音空間信息[21-22]。同時,采用Concate、Add 和Multiply 多操作運算,更多地保留和突出原始語音的情感信息?;诖?,本文構建了層級多操作網絡HMN,如圖1 所示。HMN 主要由兩個異構并行分支和多操作層構成。

圖1 層級多操作網絡結構Fig.1 Hierarchical multi-operation network structure
首先在兩個異構并行分支中,左分支由兩個同構并行的一維卷積層構成,卷積層的神經元數量均為128;右分支由并行的Bi-GRU 層和Bi-LSTM 層構成,GRU 和LSTM 的記憶單元數量均為64。設立左右分支的目的是將原始數據投影到不同的變換空間進行計算,從而更準確地表征語音的情感信息。
接著通過分層的多操作運算將左右分支提取的不同特征進行多重融合。左分支中有兩個子分支,將每一個子分支中的數據分別進行Concate、Add 和Multiply 操作。其中,Concate 操作用于聯合特征矩陣,這種操作增加了描述原始數據的特征維數,但每維特征對應的信息并未增加;Add 操作疊加特征矩陣中對應位置的元素,這種操作雖未增加原始數據特征維數,但增加了每一維特征的信息量;Multiply操作將特征矩陣對應位置元素進行相乘,進一步突出顯著性信息。對右分支中兩個子分支中的數據同樣進行Concate、Add 和Multiply 操作。
最后融合左右分支中的信息,即將左右分支中Multiply 操作后得到的數據進行Add 運算,Concate操作后得到的數據進行Add 運算,Add 操作后的數據進行Multiply 運算,將得到的3 個運算結果進行Concate操作拼接成219×512維的特征,并采用Flatten 操作將其平滑為一維數組,輸入到神經元個數分別為128 和64 的兩個全連接層中,最后采用Softmax 函數進行分類。
HMN 模型中數據的流動過程如下:1)將語音譜特征和韻律特征的高級統計函數值輸入異構的兩個并行分支;2)將左右兩個分支的數據進行多重融合;3)拼接左右兩個分支融合后的數據,進一步采取平滑操作后輸入到2 個全連接層;4)在輸出層進行分類。
在模型HMN 中,卷積層的計算為:

其中:h1是第一個全連接層的輸出;F=[k1,k2,…,k512]是卷積核;N是濾波器個數;S是步長。
操作Concate、Add和Multiply的計算公式如式(2)~式(4)所示:

其中:Concate(?)拼接左右兩個分支的數據yL和yR;Add(?)對yL和yR的對應元素求和;Multiply(?)將yL和yR的對應元素相乘。
為了評估HMN 模型的性能,首先分別在自行構建的4 個圖式多域數據庫Hybrid-CE、Hybrid-ES、Hybrid-CS 以及Hybrid-CES 上提取低級描述符(Low-Level Descriptor,LLD)特征[23]。其中,圖式指存在于記憶中的認知結構或知識結構[3],本文采用圖式原理將單域數據集中的研究方法遷移到多域數據集中。其次計算LLD 特征的高級統計函數(Highlevel Statistical Functions,HSF)值[24]作為HMN 模型的輸入。
CASIA 是由中科院自動化研究所錄制的中文語音情感數據庫[22]。該庫是由4 位說話人分別演繹高興(Happiness,H)、恐懼(Fear,F)、悲 傷(Sadness,Sa)、生 氣(Anger,A)、驚 訝(Surprise,Su)和中性(Neural,N)6 類情感而錄制的。在公開的CASIA 庫中包含6 類情感,每類情感各200 條,共1 200 條情感語音。
EMO-DB 是由柏林工業大學錄制的德語語音情感數據庫[25]。由10 位說話人(5 男5 女)對10 個德語語句進行中性(N)、生氣(A)、恐懼(F)、高興(H)、悲傷(Sa)、厭惡(Disgust,D)和無聊(Boredom,B)7 類情感演繹得到。每類情感的樣本數量依次為79、127、69、71、62、46、81,共535 個樣本。
SAVEE 是由4 名演員演繹生氣(A)、厭惡(D)、恐懼(F)、高興(H)、中性(N)、悲傷(Sa)以及驚訝(Su)7 類情感得到的表演型數據庫[26]。SAVEE 語音情感數量分布相對平衡,共有480 條情感樣本,除中性外,其余6 類情感均有60 條語句。
通過合并CASIA、EMO-DB 和SAVEE 3 個單域數據集構建4 種圖式多域語音情感數據集Hybrid-CE、Hybrid-ES、Hybrid-CS 以及Hybrid-CES。其中,Hybrid-CE 由單域數據集CASIA[22]和EMODB[25]合并而成,Hybrid-ES 由單域數據集EMODB 和SAVEE[26]合并而成,Hybrid-CS 由單 域數據集CASIA 和SAVEE 合并而成,而Hybrid-CES 由單域數據集CASIA、EMODB 以及SAVEE 合并而成。
合并方式如下:將2 個或者3 個單域數據集合并為1 個新的多域數據集;將擬合并單域數據集共有的情感類別對應的樣本合并,得到多域數據集的一類;若某類情感在某個單域數據集上獨有則單獨作為一類。例如,通過合并單域數據庫CASIA 和EMODB 構建多域數據庫Hybrid-CE 時,CASIA 包含6 類情感,EMODB 包含7 類情感,合并兩個數據集共有的高興、恐懼、悲傷、生氣、中性5 類情感,分別得到新構建的Hybrid-CE 庫中5 類情感樣本;驚訝類情感僅出現在CASIA 庫中,而EMODB 庫中無此類情感,此時將驚訝類情感作為Hybrid-CE 庫的一類新的情感;同理,EMODB 庫中包含無聊和厭惡類情感,而CASIA 庫中無此類情感,則將無聊和厭惡作為Hybrid-CE 庫中2 個新的情感類別,最終Hybrid-CE 庫中包含8 個情感類別:即憤怒、無聊、恐懼、厭惡、高興、驚訝、中性、悲傷,如表1 所示。多域數據庫Hybrid-ES、Hybrid-CS 以及Hybrid-CES 的構建方式與Hybrid-CE 類似。

表1 4 種多域語音情感數據庫的相關信息Table 1 Relevant information of four multi-domain speech emotion databases
表1 展示了本文所構建的4 種多域語音情感數據庫的語言類型、說話人數、情感類別、每類情感中的樣本數及總樣本數等信息。
韻律特征[27]和譜特征[28]是語音情感的主流特征,因此,本文提取了音高(Pitch)、調諧、過零率(Zero Crossing Rate,ZCR)等韻律特征以及梅爾頻率倒譜系數(Mel Frequency Ceptrum Cofficient,MFCC)、幅度(Amplitude)、譜重心(Centroid)、頻譜平坦度(Flatness)、色譜圖(Chroma)、梅爾頻譜(Mel)以及譜對比度(Contrast)等譜特征,并計算這些特征的高級統計函數值,將得到的219 維特征作為HMN 模型的輸入。所提取的低級描述符、高級統計函數特征以及相應的維數如表2 所示。

表2 低級描述符與高級統計函數特征Table 2 Low level descriptors and high level statistical function feature
單域數據庫EMODB、CASIA、SAVEE 以及由它們構建的4 個多域數據庫Hybrid-CE、Hybrid-ES、Hybrid-CS、Hybrid-CES均未提供單獨的訓練數據和測試數據。本文采用說話人無關(Speaker-Independent,SI)策略進行訓練:每類情感的所有樣本隨機等分為5 份,將其中的4 份作為訓練數據,剩余的1 份作為測試數據[29]。實驗重復10次,采用平均準確率(Average Accuracy,AA)、平均精確率(Average Precision,AP)、平均未加權召回率(Unweighted Average Recall,UAR)以及平均F1-得分(Average F1-score,AF)表征模型的整體性能。此外,采用混淆矩陣分析單個情感類別的識別精度。
實驗采用一臺CPU 為40 核80 線程、內存為64 GB 的高性能服務器進行計算,使用RTX 2080 Ti GPU 進行模型訓練,根據深度學習框架Keras[30]搭建模型。采用的優化器(Optimiser)為Adam,激活函數為Leaky ReLU,批處理(Batch_size)大小為32,丟棄率(Dropout)為0.5,迭代周期(Epoch)為100。
本文主要進行了以下3 個方面的實驗:1)以單域語音情感識別為基線來驗證多域語音情感識別的可行性;2)驗證HMN 模型的魯棒性和泛化性;3)分析HMN 模型在多域語音情感數據庫上的性能。
4.2.1 多域語音情感識別的可行性驗證
HMN 模型在單域與多域數據庫上進行實驗得到的平均性能如表3 所示。

表3 HMN 模型在單域(基線)與多域語音情感數據庫上的性能對比Table 3 Performance comparison of HMN model on mono-domain(baseline)and multi-domain speech emotion database %
從表1 可以看出:
1)在單域數據庫上,HMN 模型在CASIA 庫上的性能最優,EMODB 次之,SAVEE 最差。數據庫之間存在的差異是導致模型在這些數據庫上識別性能存在差異的主要原因,例如:CASIA 庫僅有6 類情感,識別難度相對較低,而SAVEE 數據庫包含7 類情感且樣本較少,因此識別難度相對較高。
2)HMN 模型在本文構建的4 類多域語音情感數據庫上均取得了較為可觀的識別結果,表明多域情感識別是可行的。具體而言,模型HMN 在Hybrid-CE 庫上性能最優,在Hybrid-CS、Hybrid-ES、Hybrid-CES 庫上性能較低,主要原因是這3 個庫中都包含了SAVEE 庫,而SAVEE 庫是一個視聽雙模態數據庫,僅使用音頻信息不能精確地表征情感。
與Hybrid-ES 相比,在Hybrid-CS 庫上的準確率提升了18.63 個百分點,原因是Hybrid-CS 庫僅包含7 類情感,識別難度降低,且該庫的樣本數量多于Hybrid-ES 庫,模型能得到充分訓練。
3)HMN 模型在多域數據庫上的性能略低于在單域數據庫上的性能,主要原因是受情感類別數量和語言類型等因素的影響。
4)多域數據庫Hybrid-ES、Hybrid-CS 以及Hybrid-CES 上的性能均優于SAVEE 庫,這是因為混合后的數據庫大幅增加了訓練樣本數量,能夠更好地訓練模型。
4.2.2 HMN 模型的魯棒性和泛化性驗證
利用HMN 模型分別在3 個單域數據庫和4 個多域數據庫上進行10 次實驗,得到HMN 在每個數據庫上對應的箱線,如圖2 所示。其中,橫坐標是7 類數據庫,縱坐標是準確率;在箱體的上方和下方各有一條線,分別表示一組數據中的最大值和最小值;箱體的高度在一定程度上反映了數據的波動程度;箱體中間的一條虛線表示數據的中位數;箱體的上下限分別是數據上四分位數和下四分位數,這意味著箱體包含了50%的數據;實心圓圈表示異常值。

圖2 HMN 模型在多域數據庫上的箱線圖Fig.2 Box-plot graph of HMN model on multi-domain database
從圖2可以看出:1)對于3個單域數據庫而言,模型在CASIA上的性能最高,而在SAVEE上的性能最差,平均性能最低,波動程度較大;2)在多域數據庫Hybrid-CE、Hybrid-CES上,模型的波動程度較小,魯棒性較好;3)無論是在單域數據庫上還是在多域數據庫上,模型HMN的性能均較好,表明該模型具有較好的泛化性。
圖3 利用AA、AP、UAR、AF 4 個指標對HMN 模型在4 個多域數據庫上的性能進行了較全面的對比??梢钥闯觯?)在同一數據庫上,無論在哪種評價指標下,HMN 模型的性能相差均較小,表明模型魯棒性較好;2)HMN 模型在4 種多域數據庫上的性能均較好,尤其在Hybrid-CE 數據庫上的性能最好,表明HMN 模型的泛化性較好。

圖3 HMN 模型在多域數據庫上識別性能對比Fig.3 Identification performance comparison of HMN model on multi-domain database
4.2.3 HMN 模型在多域語音情感庫上的性能
下文利用混淆矩陣詳細分析HMN 模型對多域數據庫Hybrid-CE、Hybrid-ES、Hybrid-CS以及Hybrid-CES中每類情感的識別性能。
圖4 所示為HMN 模型在多域數據庫Hybrid-CE 上所獲得的最佳混淆矩陣,其中,AA 為84.15%,AP 為83.38%,UAR 為81.09%,AF 為82.22%??梢钥闯觯?)模型的平均準確率為84.15%;2)模型在其他類情感的召回率均達到了79.00%以上,而厭惡與無聊兩類情感的召回率較低,因為在多域數據庫Hybrid-CE 中,各類情感樣本數量不均衡,其中,厭惡類情感僅有60 個樣本,模型未得到充分訓練;3)無聊類情感與中性易混淆,有33.33%的無聊類樣本被預測為中性,主要原因是無聊和中性兩類情感在效價維和激活維上取值較為接近,且兩類情感的激活程度均較低。

圖4 HMN 模型在Hybrid-CE 數據庫上的混淆矩陣Fig.4 Confusion matrix of HMN model on Hybrid-CE database
圖5 所示為HMN 模型在多域數據庫Hybrid-ES 上所獲得的最佳混淆矩陣,其中,AA 為65.52%,AP 為63.73%,UAR 為66.37%,AF 為65.02%??梢钥闯觯?)模型的平均準確率為65.52%;2)模型對恐懼類情感的識別率均較低;3)在多域數據庫Hybrid-ES 上,HMN 模型的整體識別性能較低,主要是由SAVEE數據庫引起的。

圖5 HMN 模型在Hybrid-ES 數據庫上的混淆矩陣Fig.5 Confusion matrix of HMN model on Hybrid-ES database
圖6 所示為HMN 模型在多域數據庫Hybrid-CS上所獲得的最佳混淆矩陣,其中,AA 為75.60%,AP為71.07%,UAR 為70.12%,AF 為70.59%??梢钥闯觯?)模型的平均準確率為75.60%;2)無聊類情感的識別率較低,僅為30.00%外,而其他類情感的識別率均較為可觀,主要原因是在多域數據庫Hybrid-CS中,無聊類情感的樣本較少,模型未能得到充分訓練;3)在多域數據庫Hybrid-ES 中,HMN 模型的整體識別性能較低,這仍然由SAVEE 數據庫引起的。

圖6 HMN 模型在Hybrid-CS 數據庫上的混淆矩陣Fig.6 Confusion matrix of HMN model on Hybrid-CS database
圖7 所示為HMN 模型在多域數據庫Hybrid-CES 上所獲得的最佳混淆矩陣,其中,AA 為76.30%,AP 為73.67%,UAR 為73.26%,AF 為73.47%??梢钥闯觯?)模型HMN 的平均準確率為76.30%;2)厭惡類情感的識別率最低,僅有52.94%;3)與由兩種語言混合的多域數據庫Hybrid-CE、Hybrid-ES、Hybrid-CS 相比,模型HMN 在3 種語言混合的多域數據庫Hybrid-CES 上的性能有所提升,這是因為該庫包含的情感樣本數增加,能夠更好地訓練模型。

圖7 HMN 模型在Hybrid-CES 數據庫上的混淆矩陣Fig.7 Confusion matrix of HMN model on Hybrid-CES database
總地來說,與作為基線的單域語音情感識別相比,多域語音情感識別因為情感類別數的增加導致區分難度加大,但本文提出的HMN 模型在多域數據庫上仍取得了較好的識別結果。
本文設計一種基于多操作網絡的圖式多域語音情感識別模型。通過3 種單域數據庫CASIA、EMODB、SAVEE 構建多域語音情感數據庫Hybrid-CE、Hybrid-ES、Hybrid-CS 以及Hybrid-CES,在多域數據庫上計算219 維的高級統計特征作為層級多操作網絡模型的輸入,并在單域與多域數據庫上對比HMN 模型的識別性能、魯棒性和泛化性。實驗結果表明,該模型在4 種多域數據庫上均具有較高的識別性能。下一步將采用HMN 模型在維度情感數據庫上研究多域和跨域語音的情感識別。