潘慧琳,韓志艷,王樹瑞,姜瀾,龔偉,王雅瓊
(渤海大學控制科學與工程學院,遼寧錦州 121013)
情感識別是一個跨學科的研究領域,近年來受到越來越多的關注,比如可以通過語音信號、面部表情信號和生理參數來進行情感識別。對于語音情感識別,文獻[1]在語音識別中引入錨模型的思想,改進了識別系統的性能。文獻[2]提出了一種新的傅里葉參數模型,利用語音質量的感知內容和一階二階的差異來進行獨立于說話人的語音情感識別。文獻[3]研究探討如何使用對抗性多任務訓練來提取訓練域與測試域之間的共同表示,并發現了從未標記的數據中提取盡可能多的有用信息是至關重要的。文獻[4]提出了一種基于子空間學習和特征選擇融合的語音情感識別方法,該方法在跨庫條件下具有較好的性能。
目前,語音情感特征主要有語句發音持續時間、基因頻率、振幅能量、共振峰、聲門波、諧波噪聲比等,雖然已經提出了一些語音情感特征,但是大多是基于語音的韻律特征和音質特征,目前還沒有一個人工設計的最優特征集。研究者可能會將越來越多的特征組合在一起,這可能會導致維度過高。此外,語音情感特征很容易受到說話者、內容和環境變化的影響[5-9]。因此,文中提出采用深度學習模型自動提取情感的抽象特征,有效地降低了運算量,提高了情感特征參數的魯棒性[10-16]。
如圖1 所示為該情感識別系統的總體結構框圖,其包括情感信號獲取、情感信號預處理、語音信號變圖像信號、情感特征參數的自動提取、獲取組合特征參數及最終的識別模塊。

圖1 系統的總體結構框圖
首先通過噪聲刺激或觀看影視片段進行情感誘發,然后利用麥克風接收語音數據,再通過計算機以11.025 kHz 的采樣頻率和16 bit 的量化精度進行采樣量化獲得相應情感狀態下的語音情感信號。
對獲取的語音情感信號進行預處理,包括預加重、分幀加窗和端點檢測。預加重采用一階數字預加重濾波器實現,預加重濾波器的系數取值為0.93~0.97;分幀加窗以幀長256 點的標準進行分幀,并對分幀后的數據加漢明窗處理;端點檢測利用基于能量和鑒別信息的語音端點檢測算法進行。
獲取語音情感信號的時域波形圖,然后對波形圖像素灰度值進行歸一化處理,將圖像歸一為像素灰度值為0方差為1的圖像,作為第一通道圖像信號。
獲取預處理后語音情感信號的語譜圖,然后對語譜圖像素灰度值進行歸一化處理,將圖像歸一為像素灰度值為0 方差為1 的圖像,作為第二通道圖像信號。獲取語譜圖的具體方法:將預處理后的語音情感信號進行快速傅里葉變換,得出相應的語譜圖。
1.4.1 第一通道情感特征參數提取
1)建立殘差式深度卷積神經網絡結構。包括卷積層、最大池化層、殘差塊、平均池化層和全連接層。這里殘差塊包括兩種類型的子殘差塊,分別是ResNet-34 和ResNet-50。
殘差式深度卷積神經網絡首先經過卷積層,卷積核大小為7×7,步長為2,再經過最大池化層,卷積核大小為3×3,步長為2;其次經過殘差塊,該殘差塊包含兩種類型的子殘差塊,分別是ResNet-34 和ResNet-50,此兩種殘差塊數量均為2;最后經過平均池化層和全連接層。具體結構如圖2 所示。

圖2 第一通道殘差式深度卷積神經網絡結構圖
2)采用梯度下降算法訓練建立好殘差式深度卷積神經網絡。
3)將第一通道圖像信號作為訓練好的殘差式卷積神經網絡的輸入,其輸出即為第一通道情感特征參數。
1.4.2 第二通道情感特征參數提取
1)建立殘差式深度卷積神經網絡結構,包括卷積層、最大池化層、殘差塊、平均池化層和全連接層。這里的殘差塊包括3 種類型的子殘差塊,分別是ResNet-34、ResNet-50 和ResNet-101。
首先經過卷積層,卷積核大小為7×7,步長為2,再經過最大池化層,卷積核大小為3×3,步長為2;其次經過殘差塊,該殘差塊包含3 種類型的子殘差塊,分別是ResNet-34、ResNet-50 和ResNet-101,此3 種殘差塊數量均為1;最后經過平均池化層和全連接層;
2)采用梯度下降算法訓練建立好殘差式深度卷積神經網絡。
3)將第二通道圖像信號作為訓練好的殘差式卷積神經網絡的輸入,其輸出即為第二通道情感特征參數。
將第一通道情感特征參數和第二通道情感特征參數順序組合起來獲得組合特征參數,其中前30 個特征為第一通道情感特征參數,后30 個為第二通道情感特征參數。
該文的深度信念網絡包括4 個隱含層,每層的每個單元連接到每個相鄰層中的每個單元,沒有層內連接,即使用多個受限玻爾茲曼機堆疊而成。
訓練深度信念網絡的具體方法為:
1)訓練第一個受限玻爾茲曼機,其聯合概率分布由能量函數指定,如式(1)所示:

其中,P(v,h;θ)為第一個受限玻爾茲曼機的聯合概率,v為M維的可見層向量,M是可見層的神經元個數,h為N維的隱含層向量,N是隱含層的神經元個數,θ={a,b,W},W為權重矩陣,b為可見層的偏置向量,a為隱含層的偏置向量,Z(θ)為配分函數的歸一化常數,如式(2)所示:

其中,E(v,h;θ)為能量函數,公式為:

其中,Wij是可見層的第i個神經元和隱含層的第j個神經元之間的對稱權值,bi是可見層的第i個神經元的偏置,aj是隱含層的第j個神經元的偏置,vi是可見層向量的第i個元素,hj是隱含層向量的第j個元素。
2)訓練第二個受限玻爾茲曼機,并將第一個受限玻爾茲曼機的隱含層作為第二個受限玻爾茲曼機的可見層,并依此添加任意多層繼續擴展,其中每個新的受限玻爾茲曼機對前一個受限玻爾茲曼機的樣本建模。
為證明該文方法的情感識別效果,將采用傳統方式進行特征提取,并用三層小波神經網絡進行識別的語音情感識別結果與該文單通道和雙通道條件下的語音情感識別結果進行對比。訓練樣本集和測試樣本集均包含每種情感的1 000條語句。采用傳統方式進行特征提取并用三層小波神經網絡進行識別的情感識別正確率如表1 所示。僅采用第一通道圖像信號進行識別的情感識別正確率如表2 所示。僅采用第二通道圖像信號進行識別的情感識別正確率如表3所示。該文方法情感識別正確率如表4所示。

表1 傳統方式進行識別的正確率

表2 僅采用第一通道信號識別的正確率

表3 僅采用第二通道信號識別的正確率

表4 該文方法識別的正確率
由表1~4 可以看出,僅通過采用傳統方式進行特征提取并用三層小波神經網絡進行識別的平均識別正確率是84.2%;僅通過采用第一通道圖像信號進行識別的平均識別正確率是91.2%;僅通過采用第二通道圖像信號進行識別的平均識別正確率是91.3%。該文方法的平均識別正確率是95.3%,識別結果明顯提高。
從實驗結果可以看出,直接從語音信號中提取傳統特征參數,然后送分類器進行識別的識別效果不是很好,因為它直接提取語音的韻律特征和音質特征,但這些特征參數并不能全面地代表語音情感特征。而表2、表3 和表4 的識別結果明顯有所提高,這是因為這3 種情況均先將語音信號變成圖像信號來處理,并采用殘差式深度卷積神經網絡來提取特征參數,充分利用了深度學習模型可提取抽象特征的優勢,有效地提高了特征參數的魯棒性。尤其是表4 采用了雙通道的方式進行識別,情感特征參數考慮得更加全面,更加接近人類情感識別的過程。