999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制的語音情感識別非線性特征融合方法的研究

2023-02-17 01:54:18周偉東周后盤夏鵬飛
計算機應用與軟件 2023年1期
關鍵詞:機制特征融合

周偉東 周后盤 夏鵬飛

(杭州電子科技大學自動化(人工智能)學院 浙江 杭州 310000)

0 引 言

近年來雖然在語音領域的研究取得了很大發展,但還遠遠不能滿足人和機器自然交互的應用需求,因此建立一個理解人情感的自然交互系統非常重要[1-2]。然而人的情感識別非常困難。人的情感可以從肢體動作、語音、面部表情等多種方式獲取,但在許多實際生活場景中想要實時地獲取除語音之外的情感表達方式非常困難[3-7]。例如,對孤寡老人的情感監控、呼叫中心的情感識別、客服系統的情感識別等。因此使用語音進行情感識別非常有必要。

機器學習方法普遍被用于語音情感識別。以前的研究通常直接從原始語音信號中提取低級特征或者高層次的統計特征,然后直接輸入給分類器進行語音情感識別。常用的分類器有隱馬爾可夫模型(HMM)[8]、支持向量機(SVM)[9]、決策樹[10]等。但近期,研究者們利用深度神經網絡從語音信號中學習表征情感的高級特征。

由于不同深度神經網絡模型提取語音情感特征的優勢不同,組合多個深度神經網絡模型提取語音情感相關特征的方法逐漸被采用。常使用長短時記憶網絡(LSTM)提取語音信號中的時間特征,卷積神經網絡(CNN)提取語音信號中的空間特征,最后將提取的時空特征線性組合在一起進行語音情感識別,但這樣線性組合的時空特征無法在細粒度上獲取時空特征的動態依賴關系。

卷積神經網絡可以有效地提取頻域中的局部空間特征,因此一些研究者利用卷積神經網絡從語音的頻譜圖中提取情感相關特征[11-12]。但由于卷積神經網絡無法獲取語音序列中的長期依賴關系,因此常結合長短時記憶網絡來學習局部空間特征中的長期依賴關系。Zhao等[13]將全卷積神經網絡(FCN)提取的空間特征與循環神經網絡(RNN)提取的時間特征進行線性組合得到語音中情感相關特征的時空表達關系。Meng等[14]將時間卷積網絡(TCN)提取的空間局部特征送入到循環神經網絡來提取局部特征之間的長期依賴關系并在聲譜圖中取得了良好的效果。但前者無法捕獲時間特征和空間特征之間的非線性依賴關系,后者的模型受前一個模型的分類效果影響往往無法得到很好的識別效果。

本文提出基于注意力機制的非線性時空特征融合方法來解決線性時空特征融合無法在細粒度上獲取時空特征動態依賴關系的問題。實驗中使用基于注意力機制的時間卷積網絡(TCN)學習語音空間域中的高級特征,基于注意機制的長短時記憶網絡(LSTM)學習語音中的時間特征,并利用注意力機制進行非線性時空特征融合。該方法使用了三個注意力機制,單個網絡中的注意力機制用來關注模型自身的情感相關特征,模型間的注意力機制用來關注時空特征的動態依賴關系。實驗結果表明,使用基于注意力機制進行非線性時空特征融合相較于線性融合可以獲得更好的分類效果。

1 相關工作

注意力機制在語音情感識別領域中運用廣泛。注意力機制由Bahdanau等[15]第一次提出,利用注意力網絡來協調機器翻譯中的輸入輸出序列。在此方法提出之后,注意力機制被廣泛運用到語音情感識別領域。Mirsamadi等[16]使用局部注意力機制去聚焦語音信號中情感更顯著的特定區域,利用logistic回歸模型作為注意力模型,將參數向量和循環神經網絡(RNN)的輸出進行內積,得到每一幀對于最終情感貢獻的分數,最后利用Softmax獲得幀的權重;Sarma等[17]使用時間限制的注意力層,在時延神經網絡(TDNN)和長短時記憶網絡(LSTM)中設置時間限制的注意力層,顯著提高了分類的準確率,同時減少了各個類別之間的混淆;Xu等[18]利用注意力機制進行多模態語音和文本的幀對齊,利用雙向長短時記憶網絡(Bi-LSTM)學習語音和語音文本的長期依賴,使用注意力機制將語音和文本的多模態特征進行幀層面上的軟對齊,最后組合在一起輸入給下一個雙向長短時記憶網絡進行最后的語音情感識別。受此啟發,我們利用注意力機制進行時空特征的非線性融合。

2 算法描述

2.1 長短時記憶網絡

使用長短時記憶網絡(LSTM)提取語音信號中的時域特征。LSTM是循環神經網絡(RNN)的一種變體,通過加入輸入門、遺忘門、輸出門來學習序列中長期依賴關系,緩解了RNN中出現的梯度消失和梯度爆炸,并廣泛用于對時間序列建模[19]。LSTM模塊單元如圖1所示。

圖1 LSTM模塊單元

LSTM主要由四個單元構成:輸入門、遺忘門、輸出門。網絡中遺忘門來決定上一個狀態哪些數據可以保留。輸入門來決定更新哪些信息,輸出門用來決定哪些會被作為當前狀態的輸出。LSTM的前向傳播公式如下:

ft=σ(Wf·[ht-1,xt]+bf)

it=σ(Wt·[ht-1,xt]+bi)

ot=σ(Wo·[ht-1,xt]+bo)

ct=ft°ct-1+it° tanh(Wc·[ht-1,xt]+bc)

ht=ot° tanh(ct)

(1)

式中:ft表示遺忘門;it表示輸入門;ot表示輸出門;ct表示當前狀態;ht表示當前轉臺哪些是須要被輸出;W、b表示網絡的可訓練參數;σ表示激活函數;“° ”表示哈達瑪積(矩陣對應元素相乘)。

2.2 時間卷積網絡

多層TCN結構如圖2所示,對于給定的輸入[x0,x1,…,xT]進行膨脹因果卷積。其中k表示卷積核的大小,d表示膨脹卷積的系數。TCN可以通過堆疊層數,讓d指數增長從而增加最終輸出的感受野,解決了因果卷積中為了獲取較長歷史信息所需要大的卷積核和深層網絡的弊端。此外這里的因果卷積是利用一維膨脹卷積的輸出經過Padding的方法實現,它可以使得語音信號中未來到過去的信息不存在泄露,還可以像RNN一樣將任意長度的輸入信息映射到具有相同長度的輸出序列。

圖2 多層TCN結構

圖3 一層TCN結構

2.3 基于注意力機制的長短時記憶網絡解碼

基于注意力機制的非線性特征融合模型框架如圖4所示。其中右半部分為基于注意力機制的長短時記憶網絡解碼,結構如圖5所示。

圖4 基于注意力機制的非線性特征融合模型

圖5 基于注意力機制的長短時記憶網絡解碼

通過對語料庫中的每個音頻數據提取情感特征可以得到[x0,x1,…,xT],其中T表示語音片段經過提取情感特征后的幀數。實驗中將提取到的數據輸入給LSTM網絡,并獲取其隱藏層狀態,并將隱藏狀態輸入給注意力層來聚焦情感顯著部分。這里的注意力層結構類似Mirsamadi等[16]提出的使用局部注意力機制。利用logistic回歸模型作為注意力模型,通過訓練參數w,可以得到每幀在語音情感上的權重。基于注意力機制的長短時記憶網絡解碼定義如下:

Hi=LSTM(Xi)i∈{0,1,…,T}

(2)

f(Hi)=tanh(wTHi+b)

(3)

(4)

ei=viHi

(5)

式中:Hi表示LSTM隱藏層狀態;f(Hi)是相關度函數;w和b為模型的訓練參數;vi表示對于輸入向量Hi計算得到的注意力權重參數;ei是注意力層經過加權之后得到的輸出。

2.4 基于注意力機制的時間卷積網絡解碼

圖4的左半部分為基于注意力機制的時間卷積網絡,其結構如圖6所示。

圖6 基于注意力機制的時間卷積網絡解碼

將提取到的語音情感特征輸入給TCN,利用TCN獲取局部空間中的情感相關特征,并將學習到的高級空間特征輸入給注意力層。這里的注意力層和2.3節中類似,不過此處的注意力層是用來關注與情感相關的空間特征?;谧⒁饬C制的時間卷積網絡解碼定義如下:

Ci=TCN(Xi)i∈{0,1,…,T}

(6)

f(Ci)=tanh(wTCi+b)

(7)

(8)

(9)

式中:Ci為TCN最終解碼的輸出;f(Ci)是相關度函數;w和b為模型的訓練參數;ai是對每一個輸入向量Ci計算得到的注意力權重參數;s是注意力層中經過加權求和后的輸出。

2.5 基于注意力機制的非線性特征融合層

為了建立TCN提取到的空間特征和LSTM提取到的時間特征之間的關聯,使用注意力機制將時空特征進行非線性特征融合。先將TCN解碼得到的空間特征s和LSTM解碼得到的時域特征ei分別取出,并將其進行矩陣相乘,并利用softmax進行標準化處理,接著將得到的注意力權重Ai和LSTM的輸出相乘,得到非線性融合后的特征m。最后將非線性融合的結果同TCN經注意力層后的輸出,以及韻律特征進行線性組合,并將結果O通過softmax函數得到預測結果。基于注意力機制的非線性特征融合層定義如下:

f(Di)=tanh(matmul(ei,s))

(10)

(11)

(12)

O=concat(m,s,P)

(13)

(14)

(15)

3 語音數據集和特征提取

3.1 數據集介紹

實驗采用的是交互式情緒二元捕捉(IEMOCAP)語料庫中的語音數據[21]。IEMOCAP語料庫是由10個演員通過明確的情感劇本和即興演出的方式進行會話。每個會話由2個表演者(一位男性,一位女性)參與,包含的總的會話時間為12個小時。音頻數據中包含10類情感(憤怒、高興、悲傷、中立、沮喪、興奮、恐懼、驚訝、厭惡、其他)。為了便于和其他研究者的實驗結果進行對比,本實驗只保留4類情緒(憤怒、高興、悲傷、中立)。由此我們將實驗數據劃分為訓練集、驗證集、測試集。具體的實驗數據劃分如表1所示。

表1 實驗數據劃分

3.2 特征提取

實驗所用的語音特征數據是利用Opensmile工具包[22]提取的,一共提取了39維的時序特征,其中包含12個MFCC參數(1~12),26個梅爾遜頻率帶寬參數,以及一個對數能量參數。其中每個音頻的采樣頻率為16 kHz,實驗中采用25 ms的窗口,10 ms的步長提取語音特征。最后利用裁剪和填充的方法將每個句子提取的時間長度固定為750。此外還提取了35維的韻律特征。

4 實 驗

4.1 實驗細節

實驗中LSTM隱藏層的大小設置為200,注意力的尺寸設置為2,解碼的時間步長設置為最大步長750,dropout概率為0.8。TCN隱藏層的大小為200,層數為1,dropout概率為0.7,注意力尺寸大小為1。全連接層是一個435×4的權值矩陣,分別對應隱藏層的大小和情感類別數。訓練中設置學習率為0.001。

4.2 實驗結果及其分析

實驗中采用加權精度(WA)和未加權精度(UA)來評價模型。加權精度是指整體的分類精度,未加權精度是情感類別的平均召回率。其中召回率是指正確預測的樣本數中占實際樣本總數的比例,平均召回率指每個類別計算得到的召回率的平均值。

評估中我們列出了基于注意力機制的長短時記憶網絡解碼結果(LSTM+Attn)、時間卷積網絡解碼結果(TCN)、基于注意力機制的時間卷積網絡解碼結果(TCN+Attn)、時空特征進行線性融合的解碼結果(TCN+LSTM+2 Attn)、時空特征進行非線性融合的解碼結果(TCN+LSTM+3 Attn)。此外為了更好比較模型的有效性,表2將本文實驗結果與Huang等[23]提出的LSTM+Greedy+Attn、Mirsamad等[16]提出的LLD+RNN+Attn、Zhao等[13]提出的FCN+LSTM+Attn網絡模型的分類結果進行比較。從表2中可以看出在TCN網絡中使用注意力機制較沒有使用注意力機制的分類效果中WA提升了18.7%,UA提升了18.9%,說明加入注意力機制后有效地提高了TCN的識別精度。使用注意力機制進行非線性特征融合較使用線性融合時,WA提升了5.2%,UA提升了6.3%,說明使用注意力機制進行時空特征的非線性融合可以做到時空特征動態非線性依賴,并且這種非線性依賴可以有效的提高語音情感的識別率。

表2 模型評估結果(%)

為了更加細致地比較不同模型在4種情感上的分類效果,我們列出了它們的混淆矩陣,如表3-表7所示。從表2可以看出單純地將得到的特征進行線性組合得到的分類效果不及只使用注意力機制的TCN分類效果好,但由表4和表5可以看出線性組合的結果有效地降低了中性情緒被分為生氣的精度。表6和表7中可以看出融合后的網絡在四類情緒的分類中更為均衡。

表3 基于Attention機制的LSTM識別效果

表4 TCN識別效果

表5 基于Attention機制的TCN識別效果

表6 基于Attention機制的LSTM和TCN線性組合識別效果

5 結 語

本文目的是解決線性時空特征融合無法在細粒度上獲取時空特征動態依賴關系的問題。利用注意力機制將TCN提取的空間特征與LSTM提取的時間特征進行非線性時空特征融合。實驗在IEMOCAP數據集上進行,得到四種情緒的混淆矩陣。通過對比時空特征線性融合和非線性融合的分類結果,得出基于注意力機制的非線性特征融合有效地提高了語音情感的分類精度。

猜你喜歡
機制特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 日本一区二区三区精品国产| 女人18毛片久久| 久久精品电影| 亚洲日韩图片专区第1页| 福利在线一区| 精品无码人妻一区二区| 播五月综合| 亚洲欧洲日本在线| 日韩无码黄色网站| 福利一区三区| 2021国产精品自产拍在线| 沈阳少妇高潮在线| 日韩福利视频导航| 美女一级毛片无遮挡内谢| 国产区91| 亚洲色图欧美一区| 国产一区二区在线视频观看| 性喷潮久久久久久久久| 亚洲色图欧美| 九色综合伊人久久富二代| 在线观看免费国产| 久久黄色视频影| 久久精品嫩草研究院| 小说区 亚洲 自拍 另类| 欧美性久久久久| 国产一级α片| 国产乱人免费视频| 一区二区三区在线不卡免费| 在线观看无码av免费不卡网站| 亚洲国产精品日韩欧美一区| 99热最新在线| 国产凹凸视频在线观看| 在线免费观看a视频| 日韩精品久久无码中文字幕色欲| 国产9191精品免费观看| 中国毛片网| 全午夜免费一级毛片| 欧美午夜精品| www.99在线观看| 在线另类稀缺国产呦| 国产在线日本| 91av国产在线| 精品自窥自偷在线看| 丰满人妻久久中文字幕| Aⅴ无码专区在线观看| 新SSS无码手机在线观看| 伊在人亚洲香蕉精品播放| 久久精品一品道久久精品| 免费欧美一级| 久久精品中文无码资源站| 国产精品永久不卡免费视频| a在线亚洲男人的天堂试看| 国产一级无码不卡视频| 在线观看网站国产| 中文字幕欧美日韩高清| 亚洲第一页在线观看| 青青草综合网| 国产视频只有无码精品| 中文字幕乱码中文乱码51精品| 在线观看91精品国产剧情免费| 亚洲一区二区三区香蕉| 91视频免费观看网站| 88av在线播放| 日本一本在线视频| 久久香蕉国产线看观| 久久人搡人人玩人妻精品一| 国产一区二区精品福利| 午夜视频www| 老司机久久99久久精品播放| 一区二区三区成人| 亚洲精品天堂自在久久77| 激情国产精品一区| 91无码人妻精品一区二区蜜桃 | 色AV色 综合网站| 国产在线拍偷自揄观看视频网站| 91娇喘视频| 999福利激情视频| 亚洲欧洲国产成人综合不卡| 91国内外精品自在线播放| 国产最新无码专区在线| 国产成人艳妇AA视频在线| 久热中文字幕在线|