周偉東 周后盤 夏鵬飛
(杭州電子科技大學自動化(人工智能)學院 浙江 杭州 310000)
近年來雖然在語音領域的研究取得了很大發展,但還遠遠不能滿足人和機器自然交互的應用需求,因此建立一個理解人情感的自然交互系統非常重要[1-2]。然而人的情感識別非常困難。人的情感可以從肢體動作、語音、面部表情等多種方式獲取,但在許多實際生活場景中想要實時地獲取除語音之外的情感表達方式非常困難[3-7]。例如,對孤寡老人的情感監控、呼叫中心的情感識別、客服系統的情感識別等。因此使用語音進行情感識別非常有必要。
機器學習方法普遍被用于語音情感識別。以前的研究通常直接從原始語音信號中提取低級特征或者高層次的統計特征,然后直接輸入給分類器進行語音情感識別。常用的分類器有隱馬爾可夫模型(HMM)[8]、支持向量機(SVM)[9]、決策樹[10]等。但近期,研究者們利用深度神經網絡從語音信號中學習表征情感的高級特征。
由于不同深度神經網絡模型提取語音情感特征的優勢不同,組合多個深度神經網絡模型提取語音情感相關特征的方法逐漸被采用。常使用長短時記憶網絡(LSTM)提取語音信號中的時間特征,卷積神經網絡(CNN)提取語音信號中的空間特征,最后將提取的時空特征線性組合在一起進行語音情感識別,但這樣線性組合的時空特征無法在細粒度上獲取時空特征的動態依賴關系。
卷積神經網絡可以有效地提取頻域中的局部空間特征,因此一些研究者利用卷積神經網絡從語音的頻譜圖中提取情感相關特征[11-12]。但由于卷積神經網絡無法獲取語音序列中的長期依賴關系,因此常結合長短時記憶網絡來學習局部空間特征中的長期依賴關系。Zhao等[13]將全卷積神經網絡(FCN)提取的空間特征與循環神經網絡(RNN)提取的時間特征進行線性組合得到語音中情感相關特征的時空表達關系。Meng等[14]將時間卷積網絡(TCN)提取的空間局部特征送入到循環神經網絡來提取局部特征之間的長期依賴關系并在聲譜圖中取得了良好的效果。但前者無法捕獲時間特征和空間特征之間的非線性依賴關系,后者的模型受前一個模型的分類效果影響往往無法得到很好的識別效果。
本文提出基于注意力機制的非線性時空特征融合方法來解決線性時空特征融合無法在細粒度上獲取時空特征動態依賴關系的問題。實驗中使用基于注意力機制的時間卷積網絡(TCN)學習語音空間域中的高級特征,基于注意機制的長短時記憶網絡(LSTM)學習語音中的時間特征,并利用注意力機制進行非線性時空特征融合。該方法使用了三個注意力機制,單個網絡中的注意力機制用來關注模型自身的情感相關特征,模型間的注意力機制用來關注時空特征的動態依賴關系。實驗結果表明,使用基于注意力機制進行非線性時空特征融合相較于線性融合可以獲得更好的分類效果。
注意力機制在語音情感識別領域中運用廣泛。注意力機制由Bahdanau等[15]第一次提出,利用注意力網絡來協調機器翻譯中的輸入輸出序列。在此方法提出之后,注意力機制被廣泛運用到語音情感識別領域。Mirsamadi等[16]使用局部注意力機制去聚焦語音信號中情感更顯著的特定區域,利用logistic回歸模型作為注意力模型,將參數向量和循環神經網絡(RNN)的輸出進行內積,得到每一幀對于最終情感貢獻的分數,最后利用Softmax獲得幀的權重;Sarma等[17]使用時間限制的注意力層,在時延神經網絡(TDNN)和長短時記憶網絡(LSTM)中設置時間限制的注意力層,顯著提高了分類的準確率,同時減少了各個類別之間的混淆;Xu等[18]利用注意力機制進行多模態語音和文本的幀對齊,利用雙向長短時記憶網絡(Bi-LSTM)學習語音和語音文本的長期依賴,使用注意力機制將語音和文本的多模態特征進行幀層面上的軟對齊,最后組合在一起輸入給下一個雙向長短時記憶網絡進行最后的語音情感識別。受此啟發,我們利用注意力機制進行時空特征的非線性融合。
使用長短時記憶網絡(LSTM)提取語音信號中的時域特征。LSTM是循環神經網絡(RNN)的一種變體,通過加入輸入門、遺忘門、輸出門來學習序列中長期依賴關系,緩解了RNN中出現的梯度消失和梯度爆炸,并廣泛用于對時間序列建模[19]。LSTM模塊單元如圖1所示。

圖1 LSTM模塊單元
LSTM主要由四個單元構成:輸入門、遺忘門、輸出門。網絡中遺忘門來決定上一個狀態哪些數據可以保留。輸入門來決定更新哪些信息,輸出門用來決定哪些會被作為當前狀態的輸出。LSTM的前向傳播公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wt·[ht-1,xt]+bi)
ot=σ(Wo·[ht-1,xt]+bo)
ct=ft°ct-1+it° tanh(Wc·[ht-1,xt]+bc)
ht=ot° tanh(ct)
(1)
式中:ft表示遺忘門;it表示輸入門;ot表示輸出門;ct表示當前狀態;ht表示當前轉臺哪些是須要被輸出;W、b表示網絡的可訓練參數;σ表示激活函數;“° ”表示哈達瑪積(矩陣對應元素相乘)。
多層TCN結構如圖2所示,對于給定的輸入[x0,x1,…,xT]進行膨脹因果卷積。其中k表示卷積核的大小,d表示膨脹卷積的系數。TCN可以通過堆疊層數,讓d指數增長從而增加最終輸出的感受野,解決了因果卷積中為了獲取較長歷史信息所需要大的卷積核和深層網絡的弊端。此外這里的因果卷積是利用一維膨脹卷積的輸出經過Padding的方法實現,它可以使得語音信號中未來到過去的信息不存在泄露,還可以像RNN一樣將任意長度的輸入信息映射到具有相同長度的輸出序列。

圖2 多層TCN結構

圖3 一層TCN結構
基于注意力機制的非線性特征融合模型框架如圖4所示。其中右半部分為基于注意力機制的長短時記憶網絡解碼,結構如圖5所示。

圖4 基于注意力機制的非線性特征融合模型

圖5 基于注意力機制的長短時記憶網絡解碼
通過對語料庫中的每個音頻數據提取情感特征可以得到[x0,x1,…,xT],其中T表示語音片段經過提取情感特征后的幀數。實驗中將提取到的數據輸入給LSTM網絡,并獲取其隱藏層狀態,并將隱藏狀態輸入給注意力層來聚焦情感顯著部分。這里的注意力層結構類似Mirsamadi等[16]提出的使用局部注意力機制。利用logistic回歸模型作為注意力模型,通過訓練參數w,可以得到每幀在語音情感上的權重。基于注意力機制的長短時記憶網絡解碼定義如下:
Hi=LSTM(Xi)i∈{0,1,…,T}
(2)
f(Hi)=tanh(wTHi+b)
(3)
(4)
ei=viHi
(5)
式中:Hi表示LSTM隱藏層狀態;f(Hi)是相關度函數;w和b為模型的訓練參數;vi表示對于輸入向量Hi計算得到的注意力權重參數;ei是注意力層經過加權之后得到的輸出。
圖4的左半部分為基于注意力機制的時間卷積網絡,其結構如圖6所示。

圖6 基于注意力機制的時間卷積網絡解碼
將提取到的語音情感特征輸入給TCN,利用TCN獲取局部空間中的情感相關特征,并將學習到的高級空間特征輸入給注意力層。這里的注意力層和2.3節中類似,不過此處的注意力層是用來關注與情感相關的空間特征?;谧⒁饬C制的時間卷積網絡解碼定義如下:
Ci=TCN(Xi)i∈{0,1,…,T}
(6)
f(Ci)=tanh(wTCi+b)
(7)
(8)
(9)
式中:Ci為TCN最終解碼的輸出;f(Ci)是相關度函數;w和b為模型的訓練參數;ai是對每一個輸入向量Ci計算得到的注意力權重參數;s是注意力層中經過加權求和后的輸出。
為了建立TCN提取到的空間特征和LSTM提取到的時間特征之間的關聯,使用注意力機制將時空特征進行非線性特征融合。先將TCN解碼得到的空間特征s和LSTM解碼得到的時域特征ei分別取出,并將其進行矩陣相乘,并利用softmax進行標準化處理,接著將得到的注意力權重Ai和LSTM的輸出相乘,得到非線性融合后的特征m。最后將非線性融合的結果同TCN經注意力層后的輸出,以及韻律特征進行線性組合,并將結果O通過softmax函數得到預測結果。基于注意力機制的非線性特征融合層定義如下:
f(Di)=tanh(matmul(ei,s))
(10)
(11)
(12)
O=concat(m,s,P)
(13)
(14)

(15)

實驗采用的是交互式情緒二元捕捉(IEMOCAP)語料庫中的語音數據[21]。IEMOCAP語料庫是由10個演員通過明確的情感劇本和即興演出的方式進行會話。每個會話由2個表演者(一位男性,一位女性)參與,包含的總的會話時間為12個小時。音頻數據中包含10類情感(憤怒、高興、悲傷、中立、沮喪、興奮、恐懼、驚訝、厭惡、其他)。為了便于和其他研究者的實驗結果進行對比,本實驗只保留4類情緒(憤怒、高興、悲傷、中立)。由此我們將實驗數據劃分為訓練集、驗證集、測試集。具體的實驗數據劃分如表1所示。

表1 實驗數據劃分
實驗所用的語音特征數據是利用Opensmile工具包[22]提取的,一共提取了39維的時序特征,其中包含12個MFCC參數(1~12),26個梅爾遜頻率帶寬參數,以及一個對數能量參數。其中每個音頻的采樣頻率為16 kHz,實驗中采用25 ms的窗口,10 ms的步長提取語音特征。最后利用裁剪和填充的方法將每個句子提取的時間長度固定為750。此外還提取了35維的韻律特征。
實驗中LSTM隱藏層的大小設置為200,注意力的尺寸設置為2,解碼的時間步長設置為最大步長750,dropout概率為0.8。TCN隱藏層的大小為200,層數為1,dropout概率為0.7,注意力尺寸大小為1。全連接層是一個435×4的權值矩陣,分別對應隱藏層的大小和情感類別數。訓練中設置學習率為0.001。
實驗中采用加權精度(WA)和未加權精度(UA)來評價模型。加權精度是指整體的分類精度,未加權精度是情感類別的平均召回率。其中召回率是指正確預測的樣本數中占實際樣本總數的比例,平均召回率指每個類別計算得到的召回率的平均值。
評估中我們列出了基于注意力機制的長短時記憶網絡解碼結果(LSTM+Attn)、時間卷積網絡解碼結果(TCN)、基于注意力機制的時間卷積網絡解碼結果(TCN+Attn)、時空特征進行線性融合的解碼結果(TCN+LSTM+2 Attn)、時空特征進行非線性融合的解碼結果(TCN+LSTM+3 Attn)。此外為了更好比較模型的有效性,表2將本文實驗結果與Huang等[23]提出的LSTM+Greedy+Attn、Mirsamad等[16]提出的LLD+RNN+Attn、Zhao等[13]提出的FCN+LSTM+Attn網絡模型的分類結果進行比較。從表2中可以看出在TCN網絡中使用注意力機制較沒有使用注意力機制的分類效果中WA提升了18.7%,UA提升了18.9%,說明加入注意力機制后有效地提高了TCN的識別精度。使用注意力機制進行非線性特征融合較使用線性融合時,WA提升了5.2%,UA提升了6.3%,說明使用注意力機制進行時空特征的非線性融合可以做到時空特征動態非線性依賴,并且這種非線性依賴可以有效的提高語音情感的識別率。

表2 模型評估結果(%)
為了更加細致地比較不同模型在4種情感上的分類效果,我們列出了它們的混淆矩陣,如表3-表7所示。從表2可以看出單純地將得到的特征進行線性組合得到的分類效果不及只使用注意力機制的TCN分類效果好,但由表4和表5可以看出線性組合的結果有效地降低了中性情緒被分為生氣的精度。表6和表7中可以看出融合后的網絡在四類情緒的分類中更為均衡。

表3 基于Attention機制的LSTM識別效果

表4 TCN識別效果

表5 基于Attention機制的TCN識別效果

表6 基于Attention機制的LSTM和TCN線性組合識別效果
本文目的是解決線性時空特征融合無法在細粒度上獲取時空特征動態依賴關系的問題。利用注意力機制將TCN提取的空間特征與LSTM提取的時間特征進行非線性時空特征融合。實驗在IEMOCAP數據集上進行,得到四種情緒的混淆矩陣。通過對比時空特征線性融合和非線性融合的分類結果,得出基于注意力機制的非線性特征融合有效地提高了語音情感的分類精度。