結合Bi-LSTM-CNN的語音文本雙模態情感識別模型

2022-03-02 08:31:56王蘭馨王衛亞

計算機工程與應用 2022年4期

王蘭馨，王衛亞，程鑫

長安大學信息工程學院，西安710064

語音所表達的情感由語義信息和聲學特征信息[1]確定。如圖1 所示，語義信息即說話者要表達的內容，聲學特征則是說話者表達語義信息時，由發音系統產生的物理變化。

圖1 語音信號傳遞的不同層面信息Fig.1 Speech conveys different levels information

單一模式中包含的情感信息有限。由于技術受限，語音情感識別任務前期研究主要利用聲學特征來構建情感識別模型[2-5]，卻沒有考慮到語音中所包含的具體語義信息，將人語音信號中密切相關的聲音信息與文本信息內容分離并忽略文本信息的重要性[6]。近年來，隨著機器學習算法的發展，越來越多的學者考慮到語義信息與聲學特征內在的關聯性和互補性，開始將二者結合用于情感識別的研究中[7-8]。

人在執行說話行為時，僅依靠聲學特征信息來判斷其情感狀態可能會存在混淆。陳鵬展等人[9]利用序列浮動前向選擇算法（sequential forward selection，SFS），提取了短時能量、過零率、基頻等74個語音特征參數。對文本信息使用高斯混合模型（Gaussian mixture model，GMM）進行特征學習。對兩個單模態識別器的判別結果進行加權融合，獲得最終識別結果。實驗證明雙模態情感識別比單一模態識別效果更好。胡婷婷等人[10]提取語音數據中的聲學特征，使用卷積神經網絡與支持向量機（support vector machine，SVM）訓練分類器訓練模型。在聲學模型基礎上，加入了文本信息的相關特征，有效解決了憤怒與開心的誤判情況。

由于深度學習算法表現效果優秀，當前很多的情感識別研究都使用了深度學習相關算法來進行模型構建，但是仍存在一些問題。大多數語音文本雙模態情感識別的研究中，僅使用某一種卷積神經網絡（convolutional neural network，CNN）或循環神經網絡（recurrent neural network，RNN）結構來進行模態信息特征的提取，沒有充分考慮其上下文信息和局部信息，忽略了模態數據中蘊含的與時間相關的特征信息，沒有解決有效信息丟失的問題，部分模型中未考慮過模型擬合問題。

本文在語音文本雙模態情感識別研究優勢的基礎上，采用深度神經網絡進行特征學習，搭建Bi-LSTMCNN模型用于文本特征的學習，使用OpenSmile提取聲學特征，并在特征層對兩種模態數據進行融合，在決策層對分類結果進行融合，采用L2正則化和early stop技術防止模型的過擬合問題，最終搭建了Bi-LSTM-CNN+CNN 的混合網絡結構，提出一種單一模態模型與聯合模態模型相結合的語句級雙模態情感識別模型。

1 基于Bi-LSTM-CNN的語音文本雙模態情感識別模型

語音文本雙模態情感識別流程通常如圖2 所示。對語音信號和轉錄文本進行預處理，通過機器學習方法對文本、音頻進行特征提取和學習。將提取后的特征在特征層進行融合后送入分類器進行分類。另一種常見流程是直接將提取的各模態特征直接送入分類器，再對分類結果進行決策層融合得出最終情感歸類。

圖2 語音文本雙模態情感識別框圖Fig.2 Speech-text-bimodal emotion recognition framework

長短時記憶網絡（long short-term memory network，LSTM）是一種改進的RNN，具有強大的計算能力和存儲能力，可以有效地解決梯度爆炸或消失的問題。語音是一種非線性時間序列轉換信號，文字信息也與時間背景密切相關。因此，LSTM網絡適用于聲學和文本特征的提取和學習。然而，在LSTM 中沒有非線性隱藏層，這會導致隱藏狀態因子的變化增加[11]。

相反，CNN網絡可以減少輸入頻率的差異，并捕捉局部信息，但不考慮全局特征和背景。簡而言之，CNN和LSTM的建模能力都是有限的[12]。在此基礎上，結合CNN和LSTM搭建網絡進行語音情感識別，以學會對信息的最佳描述。

基于Bi-LSTM-CNN的語音文本雙模態情感識別模型網絡如圖3 所示。雙模態數據融合采用了特征層融合和決策層融合兩種方式。特征層融合是在輸入層面的可用特征傳遞給模型之前，先將不同模態數據的信息進行串聯，可以更好地利用模態信息的互補性。而決策級融合是為每個模態建立獨立的模型，模態間的信息互不影響，最終結果由獨立模型共同決定，可以有效地捕捉各模型間的動態變化。

圖3 語音文本雙模態情感識別模型網絡搭建Fig.3 Speech-text-bimodal emotion recognition model

2 文本特征學習

2.1 詞向量預訓練

在Word2vec[13]提供的Skip-Gram[14]模型訓練中，設詞典大小為V，給定中心詞生成背景詞的條件概率為：

其中，wo,c表示第c個背景詞；wI表示輸入的中心詞；uc表示索引為c的背景詞向量，vI(vI∈V)表示索引為I的中心詞向量。訓練目標是，給定一個中心詞wI，使模型輸出C個背景詞的概率最大，最大化條件概率為：

定義損失函數：

在維基百科提供的語料數據上，根據損失函數，利用反向傳播，采取隨機梯度下降策略更新權重，隨著Skip-Gram模型不斷訓練，損失函數逐漸減小直至穩定，此時的vI即為所求向量，最終得到了維度為300的預訓練詞向量。

2.2 基于文本的Bi-LSTM-CNN模型

長短時記憶網絡（LSTM）依靠其三門結構，有效地解決了神經網絡中的長期依賴性問題。

門結構如圖4所示，在t時刻，將當前隱層狀態記為ht，各門狀態更新如下：

圖4 LSTM“門”結構Fig.4 LSTM“gate”structure

其中，xt表示當前輸入單元狀態，ft、Ct、it、ot分別表示當前遺忘門、存儲單元、輸入門、輸出門。W*表示權重矩陣，b*表示偏置項，σ是激活函數。

Bi-LSTM由兩個單向LSTM組成，一個是計算正序上下文信息的正向LSTM，另一個是計算逆序上文信息的反向LSTM。通過這種方式，為每個時刻單詞提供了完整的上下文狀態信息。

圖5中，在RCNN[15]結構基礎之上進行改進，利用雙向長短時記憶網絡（Bi-LSTM）代替RNN，搭建Bi-LSTM-CNN網絡結構。

圖5 Bi-LSTM-CNN 網絡Fig.5 Bi-LSTM-CNN network

使用雙向長短時記憶網絡后接一個卷積層和最大池化層，構成的Bi-LSTM-CNN網絡結構，既解決了梯度消失或者梯度爆炸的問題，又能充分考慮當前詞的上下文語義，信息得到的文本特征具有全局性，最后輸入全連接層，通過softmax輸出分類結果。

3 聲學特征學習

3.1 語音信號預處理

語音信號的預處理分為三部分：語音采樣與量化，語音分幀，信號加窗。

通過采樣與量化將語音信號轉化為計算機可以識別的數字信號，使用22.05 kHz 的采樣頻率對語音信號進行采樣，采樣結果如圖6所示。

圖6 數字化語音信號Fig.6 Digital voice signal

語音信號在短時范圍內特征變化較小時可以認為是穩態信號，對語音信號進行分幀處理，幀長一般取10～30 ms。語音信號分幀通常需要加窗操作，窗函數可以減少因為截斷帶來的頻域能量泄漏的影響。一幀語音信號經過漢明（Hanmming）窗處理前后的語音信號波形圖變化如圖7所示。漢明窗公式如下所示：

圖7（a）一幀語音信號加窗前波形圖Fig.7（a） Waveform before speech signal transformation

圖7（b）一幀語音信號加窗后波形圖Fig.7（b） Waveform after speech signal transformation

3.2 幀級低層次聲學特征提取

使用開源軟件openSMILE[16]工具包對音頻進行幀級的低層次聲學特征（low level descriptors，LLDs）提取，語音特征集配置文件由“IS10_paraling.conf”提供，共1 582個維度特征。其中包括34個低級描述符（LLDs），34 個相應的一階delta 系數和21 個全局統計函數，具體參數如表1所示。

表1 openSMILE配置文件參數Table 1 openSMILE configuration file parameters

3.3 聯合CNN模型

openSMILE工具提取的1 582維語音特征向量reshape為（1，1 582），經基于Bi-LSTM-CNN的語音文本雙模態情感識別模型網絡中卷積層_2 提取語音特征，與Bi-LSTM網絡結構提取的文本特征進行特征層融合，結果輸入CNN模型。該模型采用具有卷積層和最大池化層的簡單CNN 作為特征提取器，輸入的數據被放在一個密集層中。經過密集層的非線性變化，這些特征之間的關聯性被提取并最終映射到輸出空間。引入Dropout機制，每次迭代放棄部分參數，使訓練過程不依賴部分固有特征，防止過擬合。通過約束添加的指標L2范數，可以適當地改善網絡訓練過程中出現的過擬合現象。具體計算公式如下：

其中，w表示模型權重。

4 數據融合與測試

4.1 數據融合

（1）特征級融合

組合文本和語音的特征信息[17]，將文本特征提取的輸出和音頻特征提取的輸出進行特征級融合。融合結果作為聯合CNN模型的輸入UD,UD的表達式如式（1）所示：

（2）決策級融合

本文提出的基于文本的Bi-LSTM-CNN模型和聯合CNN 模型作為獨立模型，將單個結果融合成最終的公共決策。決策級融合不會影響到各個模型之間的效果，并且有助于捕捉模型間的動態過程。

對不同模型賦予不同的權重值。給定語句在加權平均融合中輸出的得分為：

其中，0

4.2 實驗結果與評價

實驗驗證的數據集選用IEMOCAP[18]數據集，數據集由5男5女兩兩分組進行錄制。考慮到即興型數據比表演型數據更具有實用價值，本文選擇IEMOCAP數據集中的即興數據作為實驗數據集，使用四組數據作為訓練集，一組作為測試集，對“高興”“悲傷”“生氣”和“中性”四類情感進行識別。

模型的評估指標采用加權精確率（weight accuracy，WA）和未加權精確率（unweight accuracy，UA）。WA是將每條語句賦予相同權重，直接計算其正確率，計算公式如下所示：

其中，N表示情感類別，TPi表示第i類情感分類正確的樣本數，FPi表示第i類情感分類錯誤的樣本數。

由于數據集情感類別的樣本的分布不均衡，僅使用WA評價指標太過單一，樣本數量較多的類別占據效果評價主導地位。因此，提出UA指標來綜合平衡各個情感類別的識別性能，如式（10）（11）所示，先計算每個情感類別單獨的準確率Acci，再取平均數得到UA。

基于文本特征的單模態情感識別模型，本文對比了Bi-LSTM、LSTM+CNN、Bi-LSTM+CNN 三種網絡的情感識別效果；基于聲學特征的單模態情感識別模型，比較了SVM、LSTM、CNN 的情感識別效果，其性能效果如表2所示。SVM核函數采用徑向基函數（RBF），損失函數使用Hinge Loss，其懲罰項為L2正則化函數，誤差項的懲罰因子C設為1，停止標準為0.000 1。LSTM網絡主要結構包括LSTM 層、Dropout 層、全連接層，每個LSTM層有128個神經元節點，Dropout率設為0.5，激活函數使用softmax，優化器為Adam，損失函數采用交叉熵。CNN 網絡由兩層卷積層、池化層、兩個全連接層、Dropout層及輸出層組成，其中Dropout率設為0.5，網絡的學習率設為0.001，中間層的激活函數為Relu函數，輸出層的激活函數為softmax。

表2 單模態情感識別模型結果比較Table 2 Comparison of single model recognition accuracy results %

本文利用Bi-LSTM-CNN（BLC）網絡進行文本特征學習，CNN進行聲學特征學習，采用特征層融合構建雙模態情感識別模型“M-BLCCE”（Bi-LSTM-CNN+CNN+early fusion，無圖3中基于文本的CNN特征提取和決策層融合結構）；使用決策層融合構建雙模態情感識別模型“M-BLCCL”（Bi-LSTM-CNN+CNN+late fusion，無圖3 中特征層融合結構）；組合決策層和特征層融合的數據融合方式構成雙模態情感模型“M-BLCCEL”（Bi-LSTM-CNN+CNN+early fusion+late fusion）。將“M-BLCCEL”模型中對聲學特征學習的CNN網絡替換為SVM、LSTM 網絡，得到“M-BLCSEL”“M-BLCLEL”雙模態情感模型。五種模型的識別結果如表3所示。

表3 語音文本雙模態情感識別模型結果比較Table 3 Comparison of speech-text-bimodal model recognition accuracy results %

從表2 中可以看出，在單模態模型中，使用不同模型訓練得出的識別率相差較大。對基于音頻的情感識別來看，效果最好的是CNN 模型，其WA、UA 分別達到了52.77%、53.25%。對基于文本的情感識別來看，效果最好的是Bi-LSTM+CNN 模型，其WA、UA 分別達到了63.72%、63.25%。結合表2、表3，相比于單模態模型，混合模型的效果更好，本文所建立的雙模態情感識別模型最終效果好于任意一種單模態模型，最終WA為69.51%，UA為70.50%。

Text-Bi-LSTM-CNN、Speech-CNN 和M-BLCCEL模型的混淆矩陣如圖8～圖10 所示。其中，橫軸表示預測情感類別，縱軸表示真實情感類別。每一個彩格表示某情感語句級數據被預測為各類情感的概率，準確率越高，彩格顏色越深。

圖8 Text-Bi-LSTM-CNN情感識別模型混淆矩陣Fig.8 Text-Bi-LSTM-CNN emotion recognition model confusion matrix

圖9 Speech-CNN情感識別模型混淆矩陣Fig.9 Speech-CNN emotion recognition model confusion matrix

圖10 語音文本雙模態情感識別模型混淆矩陣Fig.10 Speech-text-bimodal emotion recognition model confusion matrix

如圖8 所示，從Bi-LSTM-CNN 文本情感識別模型的混淆矩陣中得到，將“生氣”“激動”“中性”“悲傷”標簽語句預測正確對應的概率為0.69、0.65、0.68、0.51。將“悲傷”標簽語句預測為“中性”類別的概率為0.25。可以看出文本情感識別模型對于“生氣”情感的識別率最高，對“興奮”“中性”的識別較高，易將“悲傷”情感識別為“中性”。

從圖9中可以看出，語音情感識別模型得到的結果與文本情感識別模型正好相反，“生氣”“激動”“中性”“悲傷”標簽語句預測正確對應的概率為0.43、0.50、0.56、0.64。CNN語音情感識別模型對于“悲傷”情感識別更為準確，而對于其他情感類別的識別準確度較低，同時各類情感之間的混淆情況較為嚴重。

圖10 為M-BLCCEL 模型的混淆矩陣，可以看出通過對語音、文本兩個模態情感特征進行融合，提高了大多數情感類型的識別準確度，情感之間的混淆也得到了有效降低。根據圖8～圖10 三張圖的對比，可以發現文本信息和語音信息之間的特征是互補的，表明了模態融合的有效性。

5 結束語

本文對IEMOCAP數據集中的文本、語音單模態信息建立了不同的訓練網絡進行情感識別分類，從中挑選基于文本的Bi-LSTM-CNN 網絡和基于語音的CNN 網絡進行雙模態情感識別模型的搭建，在特征層和決策層對模態數據進行融合，利用L2 正則化約束防止網絡過擬合，最終搭建出效果較好的雙模態情感識別模型。實驗效果證明，雙模態情感識別模型的性能要遠好于任意單模態情感識別模型。本實驗提出的雙模態情感識別模型側重于文本模態的處理，對于語音模態特征信息的使用還不夠充分。下一步可以從聲學特征入手，更加充分地利用語音特征信息，提高雙模態情感識別模型的準確率。