999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合分布注意力機制與混合神經網絡的語音情緒識別方法*

2022-12-22 11:31:26陳巧紅于澤源賈宇波
計算機工程與科學 2022年12期
關鍵詞:情緒機制特征

陳巧紅,于澤源,賈宇波

(浙江理工大學信息學院,浙江 杭州 310018)

1 引言

近年來人工智能取得了巨大的進步,但人類還遠不能與機器無障礙地互動,部分原因是機器無法理解人的情緒狀態(tài),而語音情緒識別就是對語音信號中包含的情緒狀態(tài)進行判斷,其中如何提取有效的情緒特征是一個值得探索的問題[1]。與語音識別相比,情緒識別方面的特征參數研究相對較少。以往的研究大多是根據基礎常規(guī)聲學特征,例如音高、韻律等作為輸入并生成段級情緒狀態(tài)概率分布。語音情緒識別的目的是從低層特征識別出話語的高級情緒狀態(tài),也可以作為一個序列的分類問題。為了有效地進行情緒分類,Bitouk等[2]在英文情緒數據集和柏林EMO-DB情緒數據庫上,從輔音和元音中提取出基礎的梅爾頻率倒譜系數MFCC(Mel Frequency Cepstral Coefficents)。Wu等[3]利用支持向量機SVM(Support Vector Machine)計算制譜特征和韻律特征,在特征方面通過控制錯誤通過率,再通過預加重、濾波器組等處理,最終提取出三角洲和雙三角洲特征,計算出13維的MFCC特征。

在語音情緒特征提取相關研究日益成熟時,應用在語音情緒識別上的模型也在不斷更新。Mower等[4]利用支持向量機SVM對低階聲學特征進行計算,然后將得到的語音信號的全局統(tǒng)計特征進行分類。其他一些分類器雖然也被陸續(xù)用于語音情緒識別[5],但大多需要人工特征選擇經驗。在這項研究中,Yamagishi等[6]將常規(guī)聲學特征作為輸入并生成段級情緒狀態(tài)概率分布,并以此為基礎生成言語級特征來確定語言層面的情緒狀態(tài)。除了傳統(tǒng)機器學習方法以外,深度學習的衍生也對語音情緒識別提供了新的思路。例如,深度神經網絡DNN(Deep Neural Network)因為有了足夠的訓練數據和合適的訓練策略,在許多機器學習任務中表現得很好[7]。Zhang等[8]使用循環(huán)神經網絡RNN(Recurrent Neural Network)作為聲學模型,獲得了更高的識別精度。但是,梯度消失和梯度爆炸問題降低了RNN學習時間依賴性的能力。為了解決這些問題,Zhao等[9]引入了長短時記憶網絡LSTM(Long Short-Term Memory)作為語音情緒識別模型,LSTM對靜態(tài)數據表現敏感,因此出現了針對語音數據的目標延遲,成為了聲學領域建模的首選。在此基礎上,Zhang等[10]提出了一種在2個方向上處理輸入序列以做出決定的特殊體系結構,即雙向長短時記憶網絡BLSTM(Bidirectional Long Short-Term Memory),可以更好地捕捉雙向情緒依賴,更具有魯棒性。考慮到僅使用一種神經網絡提取到的深層特征不夠充分,Huang等[11]提出將卷積神經網絡CNN(Convolutional Neural Network)與BLSTM進行融合,首先利用CNN提取局部顯著特征,再利用BLSTM提取語音信號的上下文特征,最后對訓練好的特征進行拼接合并。實驗結果表明,混合神經網絡模型可以更好地完成語音情緒識別。

本文提出的用于語音情緒識別的深層混合方法,能夠解決語音情緒識別準確率較低的問題。在分析了輸入特征集和CNN體系結構之后,考慮到BLSTM可對上下文信息提取更充分的特性,本文提出了一個基于CNN-BLSTM模型和混合分布注意力機制結構的模型作為解決方法,其中混合分布注意力機制是改進的多頭注意力機制。該方法首先由CNN和BLSTM在2個通道上分別提取語音特征;然后,將2個模型提取到的特征輸入到混合分布注意力機制中進行融合,分割計算后再進行拼接;最后,輸出到全連接層進行分類識別。

2 混合神經網絡與混合分布注意力機制

語音情緒識別中情緒種類較多,且有些情緒特征比較接近,難以區(qū)分,同時考慮到語音信號的上下文信息關聯(lián),本文構建了一個基于混合分布多頭注意力機制與混合神經網絡的方法進行語音情緒識別,識別步驟如下:

(1)對語音數據集進行整理,將可用數據輸入模型中。

(2)對語音進行加窗、分幀等預處理操作后,從語音中提取出梅爾頻譜圖作為特征向量。

(3)將頻譜圖輸入到CNN中,由CNN在數據空間進行特征提取。

(4)在CNN處理的同時將頻譜圖也輸入到雙向長短時記憶網絡BLSTM(Bidirectional Long Short-term Memory)中;特征參數經過雙向LSTM處理后,得到正向LSTM層與反向LSTM層的輸出,將2個輸出向量進行拼接,得到一個新的特征參數向量。

(5)將上述2個模型輸出的特征向量輸入到混合多頭注意力機制中,首先將2個模型的特征融合計算生成權重,并且保留BLSTM的輸出特征向量;接著對權重做混合分布處理并進行歸一化;然后將BLSTM的輸出向量與混合分布得到的權重計算出最終的特征表示,再拼接生成一個完整的注意力特征。

(6)最后將結果輸出到全連接層,分類識別后輸出分類標簽并獲得識別正確率。

基于混合分布注意力機制與混合神經網絡的語音情緒識別流程如圖1所示。

Figure 1 Speech emotion recognition process using mixed distributed attention mechanism and hybrid neural network

2.1 語音信號頻譜圖

常用的語音情緒識別特征為韻律、音素等基礎語音特征,但這些特征局限性較大,尤其在多情緒分類中沒有明顯的情緒差別。考慮到語音的產生過程,本文選擇了根據人類聲道模型建立的特征參數:梅爾頻率倒譜系數的頻譜圖作為語音情緒特征。

本文使用librosa提取梅爾頻譜圖,提取步驟如下所示:

(1)將語音信號進行預加重處理,增強高頻信號,再進行分幀處理。

(2)對分幀后的信號添加漢明窗處理,增加語音信號的連續(xù)性,以參數a來控制漢明窗的大小,具體計算方式如式(1)所示:

(1)

其中,M∈[0,N-1],a設置為0.46,N為幀的大小。

(3)逐幀進行傅立葉變換,對絕對值取平方后生成語音信號頻譜,具體計算如式(2)所示:

(2)

其中,x(M)為輸入的語音信號,k∈[0,N],k為傅里葉變換的點數。

通過上述步驟后,得到語音信號各幀的梅爾頻譜圖,梅爾頻譜圖中包含著語音的空間特征、頻率能量等信息。

2.2 卷積神經網絡

本文使用CNN提取梅爾頻譜圖的空間特征。CNN層與層之間的連接權值可以共享,其中最主要的2個部分是卷積層和池化層,卷積層中的每一個輸入都是由n幅二維特征圖組成的三維數組,該階段的輸出也是一個由m幅二維特征圖構成的三維數組,具體對應關系如式(3)所示:

(3)

其中,xi表示輸入特征,y表示輸出特征。w表示輸入xi與輸出y之間的權值,b為偏移量。

Figure 2 Model structure of CNN

卷積層將計算后的結果輸入到池化層中,池化層將卷積層輸出的特征維度進行縮小,以減少特征量。在卷積層和池化層后,由全連接層將特征進行整合。本文采用的CNN模型結構如圖2所示,包括2個卷積層、2個池化層、1個全連接層和1個Dropout層。

該網絡的具體實現為:

(1)卷積層1:32個5×5卷積核。

(2)池化層1:大小為2×2。

(3)卷積層2:采用64個5×5卷積核。

(4)池化層2:大小為2×2。

Figure 3 Speech emotion recognition process using BLSTM

(5)全連接層:大小為1*1024。

(6)Dropout層:dropout參數值設為0.5。

2.3 雙向長短時記憶網絡

LSTM是一種時間遞歸神經網絡,能選擇性地記憶歷史信息[12]。LSTM的結構由3種門控單元構成,分別為遺忘門、輸入門和輸出門。將上一時刻的狀態(tài)輸入門控單元,得到當前時刻的狀態(tài)。計算公式如式(4)~式(9)所示:

Ft=σ(Wf[at-1,xt,ct-1]+bf)

(4)

Ut=σ(Wu[at-1,xt,ct-1]+bu)

(5)

Ot=σ(Wo[at-1,xt]+bo)

(6)

(7)

(8)

ht=tanh(ct)×Ot

(9)

這種計算方式的局限在于每一次計算都無法得到上下文的關聯(lián)信息。針對上述問題,本文使用BLSTM進行上下文信息的提取。BLSTM由輸入層、前向傳遞層、后向傳遞層和輸出層構成。通過前向傳遞層和后向傳遞層,可以從2個相反方向更全面地去提取上下文中所包含的特征信息,基于BLSTM的語音情緒識別流程如圖3所示。

(10)

BLSTM層通過正向LSTM和反向LSTM獲取全局的上下文信息,然后輸入到多頭注意力機制模塊中。

2.4 混合分布注意力機制

本文在 CNN-BLSTM的雙通道編碼框架下,由CNN提取語音數據的空間特征,同時使用BLSTM從編碼向量中解碼出語音的時序特征矩陣,但因為生成特征較多,在分類識別時無法最大化利用有效特征。因此,本文在CNN-BLSTM的雙通道模型后添加了注意力機制模塊,以增加有效特征權重,增強模型表達能力。

多頭注意力機制通過將Q、K和V分別用n個不同的矩陣投影n次,再分別計算n次單一注意力,最后對結果進行拼接。其中,Q、K和V都源于輸入特征本身,Q和K由輸入特征得到,用來計算注意力權重的特征向量,V表示單個輸入特征的向量,再根據注意力權重加權計算。多個注意力計算本身也會增加模型的表達能力,但是在實際語音情緒識別中,多頭注意力機制將Q和K分別投影到低維時,假設特征維度為d,序列長度為l,投影后的注意力計算結果總的參數量為2ld/n,而此時Q和K2個向量的聯(lián)合分布構成的隨機向量總值為l2,當n較大時,總參數量很難逼近總值,就會造成一種低秩瓶頸,影響模型表達。為了解決上述問題,本文對Q和K進行融合計算后,將每一個多頭注意力計算方式改進為混合分布計算,即使用每個頭帶有的低秩分布與相似性進行計算,將原本孤立的注意力聯(lián)系起來。傳統(tǒng)多頭注意力機制及其改進分別如圖4和圖5所示。

Figure 4 Traditional multi-head attention mechanism

Figure 5 Mixed distributed attention mechanism

其中,圖4和圖5中的Ci表示CNN在最后一層輸出的特征向量,yi表示BLSTM的輸出向量。本文首先根據2個模型的輸出計算相似性,如式(11)所示:

φ(yi,C)=tanh(yi·W·CT+b)

(11)

其中,W為權值矩陣,b為訓練學習時得到的偏置項。考慮到低秩分布問題,將每一個頭帶有的低秩分布作為參數矩陣λ,并將此參數矩陣與2個模型的相似性結果進行疊加計算,如式(12)所示:

(12)

通過混合分布計算得到的權重,再利用softmax進行歸一化處理,得到對應權重Ai,最后將BLSTM的輸出向量與對應權重Ai計算得到最終的特征表示Pi,如式(13)和式(14)所示:

(13)

(14)

混合分布多頭注意力機制通過CNN和BLSTM輸出得到的語音信號的隱藏層結構作為注意力層的輸入,通過分割計算,并將每個頭帶有的低秩分布與相似性進行混合分布計算,使其在不減少頭數量的情況下,逼近與Q和K二元聯(lián)合分布的總值,增加模型的表達能力,再進行歸一化操作并計算得到不同的特征表示Pi,最后進行拼接得到注意力表示。

3 實驗與結果分析

3.1 實驗數據

語音情緒識別的準確率與語音情緒數據庫的質量息息相關。本文為了有效地驗證基于混合分布注意力機制與混合神經網絡的語音情緒識別方法的有效性,選用了柏林德語數據集EMO-DB和北美數據集IEMOCAP進行實驗。

EMO-DB數據集是語音情緒識別中常用的數據庫,共535句情緒語句,包括中性、生氣、害怕、高興、悲傷、厭惡和無聊7種情緒,采樣率為48 kHz,16 bit量化[13]。本文采用10折交叉驗證來進行實驗。

IEMOCAP具有多種情緒類別,但為了與現有研究保持一致和便于對比,本文采用目前該數據集中最常用的4類情緒類別,分別為高興、悲傷、中立和憤怒,采樣率為48 kHz,16 bit量化[14],4類情緒語音分布情況如表1所示。該數據集包含5個會話,其中4個會話的數據用于訓練模型,第5個會話的數據用于測試。本文對IEMOCAP數據集采取5折交叉驗證。

Table 1 Distribution of 4 kinds of emotions in IEMOCAP dataset

3.2 實驗結果對比

本文實驗在TensorFlow深度學習框架上完成。在特征提取時統(tǒng)一轉換語音信號為16 kHz,使用16 bit量化語音信號,將預加重的閾值設為0.97,將每一幀長度設定為256個采樣點。BLSTM網絡隱藏層單元個數設為128,考慮到數據批量值和學習率對準確率的影響,將批大小初始值設為64,初始學習率設為0.001。為了驗證本文方法的有效性,分別在2個數據集上進行測試,并與當前主流的語音情緒識別算法進行比較。本文挑選了幾個近年來在EMO-DB數據集上實驗效果較好的方法進行比較,評價指標包括加權準確率WA(Weighted Accuracy)和未加權準確率UA(Unweighted Accuracy)。DNN-RE[15]和DNN-KELM[16]為基于DNN創(chuàng)新組合后的新方法,其中DNN-RE為基于DNN和向量重建誤差RE(Reconstruction Error)融合方法,DNN-KELM為DNN和極限學習機KELM(Kernel Based Extreme Learning Machine)融合方法;Attention-RCNN-RNN[17]將通過殘差卷積神經網絡RCNN(Resnet Convolution Neural Network)提取的特征輸入到BLSTM中,再通過注意力機制進行識別;CNN-KELM[16]利用CNN提取聲學特征,采用極限學習機識別語音情緒;CNN-BLSTM[11]將卷積神經網絡與雙向長短時記憶網絡進行3個通道的特征融合,特征融合后再進行識別。在EMO-DB數據集上的實驗結果如表2所示。

Table 2 Experimental results on EMO-DB dataset

從表2可以看出,在EMO-DB數據集上本文提出的方法效果優(yōu)于其他方法,在WA和UA上都有一定的提升。

為進一步驗證本文方法的有效性,在IEMOCAP數據集上再次進行對比實驗。CNN-KELM、RNN-Attention[18]、Attention-LSTM-Attention[19]、FCN-LSTM-Attention[20]和Attention-RCNN-RNN為近年來在IEMOCAP數據集上效果較好的方法,并且都是基于卷積神經網絡或循環(huán)神經網絡的語音情緒識別創(chuàng)新方法。其中Attention-LSTM-Attention為雙累加注意力機制,在LSTM模型前后分別添加注意力機制模塊,增強模型特征表示;FCN-LSTM-Attention對卷積神經網絡進行改進,將基于注意力的完全卷積神經網絡FCN(Fully Connected Neural Network)與LSTM模型混合,從而進行語音情緒識別。實驗結果如表3所示。

Table 3 Experimental results on IEMOCAP dataset

從表3可以看出,本文方法在WA上高于其他方法,但在UA上略低于Attention-CNN-RNN方法。

從2個數據集上的實驗結果可以得出:本文方法與Attention-CNN-RNN對比,雖然在IEMOCAP數據集上的識別效果稍差,但在EMO-DB數據集上效果更好;與其他方法的結果相比,本文方法的整體效果高于其他方法。表明本文方法在語音情緒識別上有著更好的識別率和較高的準確率。

3.3 消融實驗結果對比

為證明本文提出的混合分布注意力機制在語音情緒識別上具有更好的識別效果,設置了3種消融實驗進行對比:

(1)使用CNN-BLSTM進行雙通道特征提取,將提取出的特征輸出到單一注意力機制模塊中進行計算,最后進行分類識別。

(2)使用CNN-BLSTM進行雙通道特征提取,將提取出的特征輸出到傳統(tǒng)多頭注意力機制模塊中計算注意力,對計算出的結果進行拼接后進行分類識別。

(3)同樣使用CNN-BLSTM進行雙通道特征提取,在保證2個神經網絡參數完全一致的情況下,將提取出的特征輸出到混合分布注意力機制模塊中計算注意力,同時保證與消融實驗(2)中的多頭注意力機制頭數量一致。

分別在EMO-DB和IEMOCAP 2個數據集上進行實驗,采用WA作為評價標準,實驗結果如表4所示。

Table 4 Comparison of ablation tests

從表4可以看出,基于CNN-BLSTM-多頭注意力機制的方法在2個數據集上的實驗結果優(yōu)于CNN-BLSTM-注意力機制的實驗結果,表明多個頭可以增強模型的表達能力;基于CNN-BLSTM-混合分布注意力機制的方法在2個數據集上的識別準確率高于CNN-BLSTM-多頭注意力機制的,驗證了在模型輸入條件和注意力機制的頭數量相同的情況下,混合分布注意力機制對分布擬合能力更強,識別準確率更高,表明本文方法在語音情緒識別上的識別效果更好。

為了更直觀地展現混合分布注意力對多頭注意力機制的改進效果,設計不同的頭數量分別基于本文提出的混合神經網絡-混合分布注意力模型和混合神經網絡-多頭注意力模型進行實驗,以WA為評價指標,實驗結果如圖6所示。

Figure 6 Comparison of experimental results based on different numbers of heads

由圖6可知,在EMO-DB數據集上,混合神經網絡-多頭注意力在頭數量為8時準確率達到92.31%,頭數量增大時,準確率逐漸減小,表明多頭注意力在頭數量過大時無法逼近參數總量,出現了上文所說的低秩瓶頸。而本文方法在頭數量為8時準確率為92.93%,高于多頭注意力機制;當頭數量繼續(xù)增大時準確率持續(xù)提升,在頭數量為32時準確率達到了93.79%,比多頭注意力模型高2.65%,表明混合分布注意力機制在消除低秩問題后,可以有效利用多個注意力增強模型表達能力。在IEMOCAP數據集上,多頭注意力模型在頭數量為32時準確率開始減小,同樣出現了低秩瓶頸。而本文模型在頭數量為32時,準確率達到69.80%,比多頭注意力模型的高1%左右,表明在IEMOCAP數據集上混合分布注意力機制依然可以取得更好的識別效果。上述實驗更細致地證明了混合分布注意力機制能夠解決低秩瓶頸問題,增強多頭注意力機制表達能力,充分驗證了本文模型的有效性。

3.4 噪聲魯棒性實驗

為驗證本文提出的語音情緒識別方法的魯棒性,對EMO-DB數據集添加噪聲處理。NOISEX-92數據集是公開的噪聲語音集,其中包括白噪聲、汽車噪聲和工廠噪聲。本文將EMO-DB數據集與上述3種噪聲按照-6 dB、-3 dB的信噪比進行混合,得到不同信噪比下的混合噪聲語音信號,在此語音信號上進行噪聲魯棒性實驗。對比實驗采用CNN、CNN-BLSTM和CNN-BLSTM-多頭注意力與本文方法進行對比,采用WA作為評價標準,實驗結果如表5所示。

由表5和表4進行對比可以得出:(1)在信噪比為-3 dB時,各方法的準確率較純凈EMO-DB數據集相比均有下降,表明噪聲對模型識別造成了一定影響。但是,本文提出的CNN-BLSTM-混合分布注意力機制方法與其他方法相比,準確率依然最高,表明了本文方法在噪聲環(huán)境下依然優(yōu)于其它方法。其中,CNN模型準確率最低,表明了單一模型在噪聲環(huán)境下受到的影響較大。(2)當信噪比為-6 dB時,各類方法的準確率較信噪比為-3 dB時的降低了9.14%~13.04%。其中,本文方法在對比中準確率下降最小,表明混合分布注意力機制在噪聲環(huán)境下依然可以關注到重要性較高的特征,可提高模型的表達能力。通過噪聲實驗對比可知,本文提出的基于混合分布注意力機制與CNN-BLSTM融合的語音情緒識別方法具有更好的魯棒性。

Table 5 Comparison of WA of noise tests

4 結束語

語音情緒識別是一個值得研究的課題,由于情緒自身的諸多表現也使情緒信息的識別富有挑戰(zhàn)性。本文提出了一種基于混合分布注意力機制與CNN-BLSTM融合的語音情緒識別方法,從CNN-BLSTM的2個通道上提取語音特征,將CNN和BLSTM的輸出作為混合分布注意力機制模塊的輸入,混合分布注意力機制模塊在計算2種神經網絡輸出的特征相似性后,將低秩分布與相似性做混合分布計算,計算后進行歸一化并求出最終的特征表示,最后輸入到全連接層中進行分類輸出。實驗結果表明,混合分布注意力機制與CNN-BLSTM模型識別效果高于現有的深度學習模型,表明了本文方法的有效性和可行性。同時,考慮到人機交互的發(fā)展,如何更好地提取不同情緒的特征參數,提高語音情緒的識別率,使情緒識別更精準、更可靠地應用在日常生活中也具有很重要的現實意義。

猜你喜歡
情緒機制特征
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
小情緒
小情緒
小情緒
抓住特征巧觀察
破除舊機制要分步推進
情緒認同
注重機制的相互配合
主站蜘蛛池模板: 国产日韩久久久久无码精品| 欧美人在线一区二区三区| 午夜啪啪网| 免费人成在线观看视频色| 美臀人妻中出中文字幕在线| 国产一级做美女做受视频| 一本一道波多野结衣一区二区| 午夜精品区| 国产成人亚洲综合a∨婷婷| 精品伊人久久久久7777人| 青青青视频91在线 | 9cao视频精品| 国产亚洲欧美日韩在线一区| 欧美一级黄片一区2区| 真实国产乱子伦高清| 在线播放国产一区| 国产午夜人做人免费视频中文| 亚洲色图欧美激情| 青青久久91| 日韩精品少妇无码受不了| 天天躁夜夜躁狠狠躁图片| 午夜福利视频一区| 在线日韩日本国产亚洲| 亚洲国产精品无码AV| 日本免费精品| 91在线播放国产| 免费又爽又刺激高潮网址| 亚洲中文字幕无码mv| 亚洲性一区| 欧洲av毛片| 欧美不卡视频一区发布| 91福利片| 日韩第一页在线| 国产激爽大片在线播放| 亚洲欧美h| 亚洲精品国产精品乱码不卞| 亚洲黄色片免费看| 日韩视频精品在线| 狠狠五月天中文字幕| 一本大道香蕉高清久久| 色综合网址| 久久窝窝国产精品午夜看片| 亚洲色大成网站www国产| 美女无遮挡免费视频网站| 免费观看成人久久网免费观看| av无码久久精品| 欧美视频在线不卡| 9cao视频精品| 久久国产精品77777| 日韩免费毛片| 久久视精品| 色悠久久久| 国产亚洲高清视频| 小说区 亚洲 自拍 另类| 亚欧美国产综合| 国产欧美成人不卡视频| 国产原创第一页在线观看| 色亚洲激情综合精品无码视频 | 国产不卡在线看| 青青青国产视频手机| 国产91高跟丝袜| 不卡午夜视频| 91青青草视频在线观看的| 久久久久无码精品| 草逼视频国产| 亚洲人成影院午夜网站| 欧美啪啪网| 国产99在线观看| 日本午夜三级| 欧美亚洲综合免费精品高清在线观看| 综合社区亚洲熟妇p| 欧美激情一区二区三区成人| 国内精品久久人妻无码大片高| 亚洲久悠悠色悠在线播放| 久久99热66这里只有精品一| 国产一区免费在线观看| 97在线观看视频免费| 在线中文字幕日韩| 免费无码网站| 日本黄色不卡视频| 在线欧美a| 91外围女在线观看|