999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Res-Transformer模型的語音情感識別方法研究

2023-06-17 08:39:10劉方如
物聯網技術 2023年6期
關鍵詞:特征情感模型

劉方如,王 亮

(沈陽化工大學 計算機科學與技術學院,遼寧 沈陽 110142)

0 引 言

在語音中包含著說話人所表達的文本和情感的信息。語音情感識別(Speech Emotion Recognition,SER)在人機交互領域中是一個熱點研究方向[1-2]。SER 通常是指通過機器處理,從語音信號中模擬人類感知并識別人類情感的一種技術。研究者們就SER 做了大量的研究,使得SER 在教育、醫學、服務等領域發展得非常迅速。因此,積極開展SER 領域的研究具有很大的發展潛力和應用價值。

完整的語音情感識別流程包括采集語音信號、預處理、特征提取、情感識別等流程,如圖1所示。

圖1 語音情感識別流程

在語音情感識別中,提取的語音特征需要有效并且富有各類的情感,對于研究來說才有重要作用。其中,梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)是使用最為廣泛的聲學特征。MFCC 特征可以有效反映人耳的聽覺特性。文獻[3]利用MFCC 技術對快樂、悲傷和憤怒這三種情感進行測試,測試結果為80%。此外,還有許多研究者喜歡采用多種特征相互結合的方式,即融合特征進行實驗的研究。

在情感識別算法方面,高斯混合模型[4]、支持向量機[5]以及K 最近鄰分類器分類算法[6]等機器學習算法對于語音情感分類而言都是最基本的模型。盡管這些分類模型在語音情感識別領域做了很多貢獻,但是上述分類模型的準確性仍有待提高,需要研究者繼續探索。

近年來,深度學習極大地促進了語音情感識別的進展。深度信念網絡、遞歸神經網絡、卷積神經網絡、深度神經網絡和長短期記憶等深度學習分類器的研究越來越多[7]。在多類的應用中,卷積神經網絡取得了顯著的成功。He 等[8]提出的深度殘差網絡取得了重要的成果,刷新了CNN 模型的多項歷史。在深度殘差網絡中,其中的殘差塊使用了跳躍連接,主要作用是當深度增加時,緩解了梯度的消失問題。2017年,谷歌提出了Transformer 模型[9],該模型不僅在速度性能上最優,而且效果也是最佳的。Transformer 模型的多頭注意力機制結構可以更好地捕獲長期的上下文依賴,提取到遠距離特征,有效提升了分類的準確率。文獻[10]逐漸使用多頭注意力機制在處理時序特征上取代RNN 模型。如今,將深度學習和注意力機制結合的方法使得語音情感識別的效果更好。

因此,針對語音情感識別中數據樣本不足、識別準確率不高的問題,本文的主要貢獻如下:提出將Resnet 結構與Transformer 編碼器結構相結合,提出了Res-Transformer 模型對語音中的情感信息進行提取,Res-Transformer 模型不僅可提取到較豐富的深層情感特征,還提高了識別精度。針對數據樣本不足而造成的過擬合問題,使用加法高斯白噪聲(AWGN)來擴大數據集以增強數據。采用中心損失函數和SoftMax 交叉熵損失函數聯合決策的方式,增加了類間的距離,提高了分類的準確度。

1 Res-Transformer 模型

本文提出的Res-Transformer 模型主要是由Resnet 結構和Transformer 編碼器結構所組成,該模型整體結構如圖2所示。首先將MFCC 特征作為模型的輸入獲取語音信號中的情感特征,使用兩個并行的Resnet 層和一個Transformer編碼器層來獲得更深層的特征,利用Transformer 編碼器結構處理時間信息,Resnet 結構處理時間信息,其中Resnet結構中引入的殘差單元主要處理隨著網絡層數加深而產生的梯度爆炸或梯度消失問題。最后,將提取后的特征作為全連接層的輸入,通過中心損失函數和SoftMax 交叉熵損失函數聯合決策的方式進行情感識別,得到最終的八分類情感。

圖2 Res-Transformer 編碼器結構

1.1 深度殘差網絡結構

網絡深度適當加深會導致系統的性能有所提升,但是網絡深度過度加深系統性能就會下降,由于在訓練過程中的難度太大,因此導致了梯度消失和梯度爆炸的問題。深度殘差網絡中引入了殘差塊,由此構建更深層的網絡,很好地解決了此問題,殘差塊結構如圖3所示。圖中:x表示輸入;H(x)表示輸出;F(x)表示殘差映射;weight layer表示卷積層;ReLu 表示激活函數。

圖3 殘差塊結構

1.2 Transformer 編碼器結構

Transformer模型可以很好地解決序列到序列的問題。自注意力機制計算的是序列對注意力,并將每一幀上的頻域特征向量a1,a2,...,ai與訓練好的權重WQ、WK、WV分別相乘創建出了3 個向量,即 query、key、value,如式(1)所示:

計算所有的query 向量和key 向量,經過縮放點乘最后得到每一個向量與其他向量之間的關聯性,并對計算結果進行歸一化以保證梯度的穩定性,關聯矩陣A如式(2)所示:

將矩陣A進行SoftMax 標準化,然后和value 向量相互點乘,得到具有相關性的特征向量Head 如式(3)所示:

多頭注意力機制通過計算query、key、value 向量進行注意力計算。使用多頭注意力機制可以學習到獨立的相關信息,并且將多頭注意力機制與子空間中的信息合在一起,最后可令得到的特征信息更加全面和豐富。在子空間上對自注意力進行多次計算最終可得到注意力矩陣的輸出為Headn,n為頭數,將Headn進行拼接可以得到特征矩陣MultiHead,如式(4)所示:

1.3 中心損失函數和SoftMax 交叉熵損失函數

SoftMax 主要用于解決多分類的問題,并且通過使用梯度下降的方法完成網絡訓練,使其結果得到最小值。中心損失函數是一種典型的聚類算法,其損失函數是由特征值和對應中心的距離計算所得出。因為類別不平衡,所以在實驗中將權重分配給中心損失和SoftMax 交叉熵損失函數,其損失為:

式中:Ls為SoftMax 交叉熵損失;Lc為中心損失;wyi是反比于第j種類別在總訓練集中的占比。神經網絡通過使用聯合的損失來進行訓練,則聯合損失為:

式中:λ用來平衡中心損失和SoftMax交叉熵損失。當λ=0時,可以認為是僅有SoftMax 損失的結果。

2 實 驗

2.1 數據集

數據集的自然程度對評價語音情感識別方法的效果非常有效,數據集的質量比較差的情況下可能會得到錯誤的結果。本文選用RAVDESS 數據集進行實驗,RAVDESS 數據集[11]是通過驗證后得到的情感語音和歌曲的數據集,本文主要使用它的語音部分。此數據集一共有1 440 個樣本,由24 名專業的演員(12 男,12 女)組成,其中包含8 類情感(平靜、快樂、悲傷、憤怒、恐懼、驚訝、厭惡和中性)。RAVDESS數據集的平衡性較好,所以使用RAVDESS 數據集對這八類情感進行研究。

2.2 語音預處理

本文使用Librosa 音頻處理庫來實現MFCC 的提取。首先使用長度為1 024、跳長為512 的漢明窗口對音頻信號進行短時傅里葉變換(STFT),得到音頻信號的功率譜圖。然后利用梅爾濾波器將譜圖映射到梅爾尺度,取對數得到Mel譜圖。最后,使用離散余弦變換(DCT)來獲得MFCC。采用MFCC 作為輸入,將MFCC 視為灰度圖像,寬度是時間尺度,高度是頻率尺度,MFCC 中每個像素的值是在一個時間步長的特定梅爾頻率范圍內的音頻信號強度。

由于本文網絡層次較深,使用的訓練數據量過小會出現過擬合問題,導致模型泛化性差。為了提高識別精度,在RAVDESS 數據集上對原有的1 440 條語音數據進行數據增強。使用高斯白噪聲(AWGN)將數據集擴大到原來的二倍,對數據添加信噪比15~30 dB 的噪聲,使得訓練出的模型具有一定抗噪性,可以很好地解決過擬合問題。語音樣本采樣率為48 kHz,原始語音數據和高斯白噪聲增強數據分別如圖4和圖5所示。

圖4 原始語音數據

圖5 高斯白噪聲語音數據

2.3 實驗設置

本實驗在Ubuntu 環境下運行,內存大小為8 GB,CPU為i5-1035G1,GPU 為MX350,使用Python 版本為3.9.7,使用PyTorch 框架實現。語音情感數據中訓練集、驗證集和測試集所占比例為8 ∶1 ∶1。在RAVDESS 數據集上有1 440 條語音數據,使用高斯白噪聲增強后的語音數據有2 880 條,最終語音數據總計4 320 條,劃分后的數量為3 441、429 和450。

每次卷積和池化后都采用0.1的Dropout來緩解過擬合,使用中心損失函數和SoftMax 交叉熵損失函數聯合決策。使用SGD 優化器,學習率為0.001,動量設置為0.8,權重衰減設置為1×10-3,批處理(mini-batch)設置為8,迭代周期(Epoch)設置為500。

2.4 評價指標

本文采用準確率(Accuracy)、精確率(Precision)和召回率(Recall)來評估模型的性能。

(1)準確率是指在全部樣本中,預測為正確的樣本所占有的比例,其公式為:

式中:TN 表示負樣本被成功識別樣本數;TP 表示正樣本被成功識別樣本數;FN 表示負樣本被錯誤識別樣本數;FP 表示正樣本被錯誤識別樣本數。

(2)精確率是指正樣本被正確識別出來的比例,其公式為:

(3)召回率是指被正確識別的正樣本占所有被識別為正樣本的比例,其公式為:

2.5 實驗結果分析

實驗將MFCC 作為Res-Transformer 模型的輸入,提取了語音的情感特征。使用SoftMax 交叉熵損失和中心損失函數聯合決策的方式增大了分類的準確率。在RAVDESS 數據集上的Res-Transformer 模型經過訓練和驗證的損失結果如圖6所示。在RAVDESS 數據集上,本文提出的Res-Transformer 模型性能表現良好,通過不斷地迭代訓練,其訓練集中的損失值達到0.35 左右,其驗證集中的損失值達到0.99 左右。在訓練集和驗證集中,其精度與損失值收斂的方向大體相同,模型表現出非常優秀的擬合能力。最后,評估結果是對Res-Transformer模型在測試集上的精度與其損失值進行計算。實驗結果表明,測試集上的Res-Transformer 模型有優秀的性能,顯示出該模型在RAVDESS 數據集上的準確率為84.89%。

圖6 Res-Transformer 模型在RAVDESS數據集上進行訓練和驗證的損失

實驗利用Resnet 處理空間信息,Transformer 編碼器結構處理時間信息。表1展示了Res-Transformer 模型在RAVDESS 數據集上的八分類情感數據,該模型的語音情感識別準確率為84.89%,召回率分別為84.75%、83.87%、84.06%、86.67%、87.04%、84.62%、85.25%和83.33%。其中,平靜的情感預測效果最好,高達96.67%,即在60 個情感樣本中有58 個樣本預測正確,僅有2 個樣本被預測為其他類情感,說明模型可以很好地識別該情感的特征。但快樂的情感模型識別率有一部分被誤分為驚訝,說明模型不能很好地區分相似情感特征,模型識別時會有一定程度的混淆。最后,某類樣本可能容易預測為另一類,但反過來不一定成立。在本文的實驗條件下該結果符合預期。

表1 Res-Transformer 在RAVDESS 數據集下的八分類情感

由表2可以看出,本文的方法與DCNN 模型相比,準確率提高了3.89%;與文獻[13]中的模型相比,準確率提高了2.68%。在訓練過程中,CNN-Transformer 模型獲得80%的準確率,Res-Transformer 模型獲得了84.89%的準確率,改進后的Res-Transformer 模型在RAVDESS 數據集下八種情感的識別率提高了4.89%,同一數據庫的不同模型下改進后的Res-Transformer 模型語音情感識別準確率得到顯著提升。

表2 與其他在RAVDESS 數據集上的研究結果對比

3 結 語

本文將Resnet 和Transformer 編碼器結構組合,利用Resnet處理空間信息,Transformer編碼器結構處理時間信息,結合高斯白噪聲(AWGN)增強數據,以減少過度擬合。使用中心損失函數和SoftMax 交叉熵損失函數聯合決策的方式進一步提高分類準確率。

在今后的工作中,可以對數據進行更加有效的預處理并且使用特征融合的方式來保證提取最優特征,對Transformer模型做進一步研究以構建更優秀的模型,從而能更好地提高語音情感識別的準確率。

猜你喜歡
特征情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
主站蜘蛛池模板: 国产97视频在线观看| 欧美成人精品一区二区| 在线观看视频一区二区| 国产精品浪潮Av| 国产99视频精品免费观看9e| 无码国内精品人妻少妇蜜桃视频| 伊人色天堂| 嫩草国产在线| av午夜福利一片免费看| 国产成人综合日韩精品无码首页| 亚洲第一页在线观看| 真实国产乱子伦高清| 国内精品视频| …亚洲 欧洲 另类 春色| 在线五月婷婷| 国产成人精品免费av| 国产精品伦视频观看免费| 亚洲综合色婷婷| 无码精品福利一区二区三区| 亚洲欧美一区二区三区麻豆| 日本欧美精品| 91精品综合| 亚洲美女AV免费一区| 国产精品刺激对白在线| 亚洲男女在线| 亚洲综合国产一区二区三区| 国产亚洲精| 91娇喘视频| 狠狠躁天天躁夜夜躁婷婷| 免费一看一级毛片| 国产无人区一区二区三区| 最新国产你懂的在线网址| 91小视频在线| 亚洲永久色| 亚洲无卡视频| 国产 日韩 欧美 第二页| 成人在线观看不卡| 久久亚洲欧美综合| 成人精品区| 亚洲天堂区| 中文字幕首页系列人妻| 免费国产黄线在线观看| 超级碰免费视频91| 亚洲成人精品久久| 狠狠五月天中文字幕| 午夜毛片免费观看视频 | 在线亚洲小视频| 国产精品美女免费视频大全| 国内精品一区二区在线观看| 国产精品永久在线| 亚洲中文字幕97久久精品少妇| 成人在线天堂| 五月激情婷婷综合| 国产欧美亚洲精品第3页在线| 国产欧美高清| 一本一本大道香蕉久在线播放| 又黄又湿又爽的视频| 欧美成在线视频| 欧美区在线播放| 亚洲精品视频免费| 久草视频中文| 欧美激情福利| 无码AV日韩一二三区| 亚洲天堂免费| 国产美女视频黄a视频全免费网站| 欧美久久网| 四虎在线观看视频高清无码 | 国产区人妖精品人妖精品视频| 国产微拍一区二区三区四区| 欧美精品二区| 亚洲天堂色色人体| 成人在线观看不卡| 久青草免费在线视频| 亚洲天堂色色人体| 国产精品福利一区二区久久| 亚洲综合欧美在线一区在线播放| 国产成人高清精品免费| 中文字幕 91| 免费国产一级 片内射老| 国产精品无码一二三视频| 亚洲黄网视频| 激情五月婷婷综合网|