999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

具有互補(bǔ)特征學(xué)習(xí)框架和注意力特征融合模塊的語音情感識別模型*

2024-01-30 01:46:32黃佩瑤程慧慧唐小煜
關(guān)鍵詞:特征提取特征融合

黃佩瑤,程慧慧,唐小煜,?

(1.華南師范大學(xué)工學(xué)部電子與信息工程學(xué)院,廣東 佛山 528225;2.華南師范大學(xué)物理學(xué)院,廣東 廣州 510006)

0 引言

語言是人類最重要的交流媒介,除了語言信息以外,語音信號還承載著許多反映說話者情感的信息.在人機(jī)交互[1-2](Human-Machine Interaction,HMI)中,通過用戶的語音信號對用戶的情感進(jìn)行識別是一個關(guān)鍵環(huán)節(jié).從語音信號中提取情感特征以進(jìn)行情感分類的語音情感識別(Speech Emotion Recognition,SER)是人機(jī)交互中廣泛應(yīng)用的技術(shù)[3].語音情感識別面臨的一大挑戰(zhàn)是從語音信號中提取有效的情感特征,情感特征的有效性很大程度上影響了最終情感識別的準(zhǔn)確率[4].當(dāng)前許多語音情感識別的研究都面臨缺乏具有可辨別性的情感特征的問題,這限制了整體模型的情感識別能力.故本文針對先前研究中情感特征提取研究的不足,提出了互補(bǔ)特征學(xué)習(xí)框架(Complementary Feature Learning Framework,CFLF)和基于注意力機(jī)制的注意力特征融合模塊(Attentional Feature Fusion Module,AFFM),該模塊可從語音信號中獲得更加全面的情感表征,提升整體模型情感識別的能力.

本文主要貢獻(xiàn)包括三個方面:

1) 提出了CFLF,將梅爾倒譜系數(shù)[5](Mel-Frequency Cepstral Coefficients,MFCCs)和使用openSMILE[6]提取的手工特征(Hand-Crafted Features,HCFs)分別輸入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)分支中,以獲得獨(dú)立性表征;再將MFCCs和HCFs同時輸入交互處理通道,以捕捉這兩類特征的通道相關(guān)性和標(biāo)記(token)相關(guān)性,從而獲得高級的交互互補(bǔ)特征表征.

2)提出了基于注意力機(jī)制的AFFM.CFLF輸出的表征通過注意力機(jī)制關(guān)注跨通道和跨token的信息,并生成注意力特征融合權(quán)重,最終得到融合特征.

3) 交互式情感二元動作捕捉數(shù)據(jù)庫(IEMOCAP)和柏林情感數(shù)據(jù)庫(Emo-DB)中的仿真實(shí)驗(yàn)證實(shí)所提SER模型具有優(yōu)異的性能,其中非加權(quán)精度(Unweighted Accuracy,UA)和加權(quán)精度(Weighted Accuracy,WA)均得到了提升.

1 相關(guān)工作

提取語音信號中的情感特征是SER模型中十分重要的環(huán)節(jié).傳統(tǒng)的SER模型常常使用低級HCFs[7-10],這種特征是基于經(jīng)驗(yàn)設(shè)計(jì)的,不足以表征情緒狀態(tài).

近年來深度學(xué)習(xí)方法被廣泛應(yīng)用于生成高級的情感特征表征,SER中常用方法有CNN、長短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)和RNN等.Jiang等[11]提出了具有頻譜特征的并行卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(PCRNN),捕捉情緒的細(xì)微變化.為了充分利用不同特征的情感信息,許多研究者使用了雙通道結(jié)構(gòu)[11-14],但未考慮不同特征的獨(dú)立性.Zhong等[15]針對此問題,提出了獨(dú)立訓(xùn)練框架并利用深度學(xué)習(xí)自動學(xué)習(xí)特征和經(jīng)驗(yàn)特征的互補(bǔ)優(yōu)勢,但未考慮兩種特征的相關(guān)性,且使用簡單的連接操作融合獨(dú)立表征.Liu等[16]使用全連接層進(jìn)行特征融合,Jung等[17]在面部情緒識別任務(wù)中使用與Liu等[16]同樣的全連接層進(jìn)行融合,但使用聯(lián)合微調(diào)方法獨(dú)立訓(xùn)練全連接層,這兩種融合方法優(yōu)于簡單的加權(quán)求和融合.Woo等[18]提出了輕量級通用前饋CNN注意力模塊,能夠有效融合情感特征,讓模型集中在對分類貢獻(xiàn)更大的特征上.

為了提升SER模型性能而使用多類特征,卻缺乏對不同特征互補(bǔ)性的關(guān)注從而損失有效情感信息的問題[15],和融合多路表征時未考慮不同表征對后續(xù)情感分類的貢獻(xiàn)程度的問題[16-17].本文提出具有CFLF和AFFM的SER模型,能將互補(bǔ)特征(MFCCs和HCFs)的獨(dú)立特征表征和具有交互性表征提取出來,再有效地特征融合.這不僅保留了不同特征之間的獨(dú)立性、通道相關(guān)性和token相關(guān)性,也通過注意力機(jī)制考慮了不同表征對情感分類的貢獻(xiàn)程度,從而在表征融合時為不同表征分配適當(dāng)權(quán)重.由于本文著重于特征提取部分的優(yōu)化,故后續(xù)的情感分類器使用支持向量機(jī)(Support Vector Machine,SVM)[19].

2 具有CFLF和AFFM的SER模型

本節(jié)介紹了具有CFLF和AFFM的SER模型的整體結(jié)構(gòu),包括輸入的特征MFCCs和HCFs,特征提取部分的CFLF和AFFM.圖1展示了SER模型整體網(wǎng)絡(luò)架構(gòu).

圖1 SER模型的整體網(wǎng)絡(luò)架構(gòu)

2.1 特征選擇

SER模型輸入時,許多研究者會使用不同的特征進(jìn)行情感分類,如基于人耳聽覺敏感性提出的MFCCs[20]和使用openSMILE提取的HCFs.本文使用的MFCCs特征大小為400×13.首先對語音信號進(jìn)行預(yù)加重和平滑處理,提高高頻,其次利用Hamming窗函數(shù)將語音信號分割成幀,再對語音信號的能譜進(jìn)行離散傅里葉變換,將能譜傳遞到梅爾尺度三角濾波器組,最后利用離散余弦變換(DCT)獲得MFCCs.而本文使用的HCFs為384維,其中共包含32個低級描述符:過零率、能量、F0、MFCCs、語音概率等,所獲得的特征集涵蓋了主要的語音情感特征.而每一類特征都具有不同的情感域分布,圖2展示了MFCCs和HCFs的情感域分布,和兩類特征聯(lián)合后的情感域分布.由圖2可知,特征的情感域分布具有顯著重疊,而不同類型特征的重疊區(qū)域具有差異.由圖2(a)可知,MFCCs的易混淆情感域是悲傷、無聊和中性;由圖2(b)可知,HCFs的易混淆情感域是厭惡和中性;兩類特征聯(lián)合后,圖2(c)的易混淆部分為無聊和中性.情感域分布的重疊差異說明不同類型特征之間具有互補(bǔ)性,所以當(dāng)不同類型特征獨(dú)立處理和聯(lián)合處理時獲得的特征表征是具有顯著差異的.這便是我們提出CFLF的主要動機(jī),學(xué)習(xí)不同特征的互補(bǔ)性和獨(dú)立性,以提取出更全面的情感表征.

圖2 不同類型特征的情感域分布圖

2.2 CFLF

為學(xué)習(xí)不同特征的互補(bǔ)性和獨(dú)立性,本文提出了CFLF.框架包括三條分支:一條獨(dú)立處理MFCCs的CNN特征提取分支;一條獨(dú)立處理HCFs的DNN特征提取分支;一條處理聯(lián)合的MFCCs和HCFs的交互特征提取分支.獨(dú)立CNN特征提取分支中采用了四個卷積塊以挖掘MFCCs的時頻域內(nèi)的空間關(guān)系,卷積塊由卷積層、最大池化層和批量歸一化層組成[21].在卷積層最后加入注意層,以找出MFCCs的顯著情感區(qū)域,該分支的輸出稱為F1.

獨(dú)立CNN特征提取分支包含三個全連接網(wǎng)絡(luò)[22]和一個批處理歸一化層,從而有效捕捉CHFs之間的線性特征,該分支的輸出稱為F2.為在交互特征提取分支中提取MFCCs和HCFs之間的交互互補(bǔ)特征表征,使用1D卷積塊分別處理MFCCs和HCFs,輸出式(1):

其中:δ為非線性激活函數(shù),B為批量歸一化層.再使用全局拼接層將MFCCs和HCFs的1D卷積輸出組合在一起,獲得的輸出F(x)包含全局上下文信息,公式為:

拼接完成后,該模型通過交互卷積學(xué)習(xí)通道和空間感知上下文,即在信道交互卷積過程中,沿著通道軸進(jìn)行卷積,公式為:

空間交互卷積時,首先將G(x)重塑為G′(x),新的形狀為W×2C×H,通過沿H軸的卷積得到空間感知特征,公式為:

最后,將生成的全局、通道和空間感知特征聚合在平坦的級聯(lián)層,并后接一個全連接層.將交互特征提取分支的輸出稱為F3.

其中:Ft為平坦的級聯(lián)層,F(xiàn)c為全連接層.

2.3 AFFM

受前人工作[4,18]啟發(fā),通過學(xué)習(xí)不同輸出之間的跨通道和跨token的信息生成注意力特征融合權(quán)重.為有效融合CFLF中輸出的三個分支F1、F2、F3,并充分利用MFCCs和HCFs中的獨(dú)立表征和交互互補(bǔ)表征中的情感信息,使用了基于注意力機(jī)制[23]的AFFM.圖3為AFFM結(jié)構(gòu)圖.

圖3 AFFM結(jié)構(gòu)圖

將CFLF輸出的F1、F2、F3特征組合成一個全局向量F(x):

將F(x)作為AFFM的輸入.F(x)首先被重塑為F′(x),其形狀為B×H×1.使用逐點(diǎn)卷積(Point-Wise Convolution,PWConv)聚合通道和跨token交互,逐點(diǎn)卷積的輸出為:

經(jīng)逐點(diǎn)卷積后,獲得的輸出分別沿通道軸和token軸進(jìn)行平均池化,再經(jīng)sigmoid函數(shù),公式為:

其中:σ是sigmoid函數(shù).為生成跨通道和跨token上下文信息,將O(x)、CO(x)和TO(x)相乘:

AFFM中使用了兩個PWConv層,每個PWConv層具有大小為3×3的內(nèi)核.假設(shè)兩個PWConv層的輸出均為G(x),在G(x)后應(yīng)用全局平均池化(Global Average Pooling,GAP)生成通道注意力權(quán)重,公式為:

經(jīng)GAP后,全局跨通道上下文信息被壓縮為一個標(biāo)量,從而強(qiáng)調(diào)CFLF中三個支路的輸出對后續(xù)情感識別的不同貢獻(xiàn),最后使用跳躍連接對特征進(jìn)行細(xì)化.為了盡可能地保持已提取的情感特征并強(qiáng)調(diào)通道的可選擇性,將AFFM中短跳躍連接看作是模型輸出的映射.給定注意力特征融合權(quán)重,細(xì)化后的特征表示為:

最后獲得的F′是輸入后續(xù)情感分類器的情感表征,它包含了MFCCs和HCFs的獨(dú)立性表征和交互互補(bǔ)表征,并根據(jù)不同表征在情感識別中的貢獻(xiàn)被分配了不同的權(quán)重.

3 實(shí)驗(yàn)設(shè)置與數(shù)值結(jié)果

3.1 實(shí)驗(yàn)設(shè)置

使用IEMOCAP和Emo-DB數(shù)據(jù)庫[24-25]測試所提SER模型.IEMOCAP由5個環(huán)節(jié)組成,每個環(huán)節(jié)由兩位演講者(1女1男)完成.共包含10 039個話語,其持續(xù)時間從3秒到15秒不等.此外,本文只選擇了中性、憤怒、悲傷和快樂四種情緒標(biāo)簽的話語.Emo-DB由10位專業(yè)演員制作的535個話語組成,涵蓋7個情感類別,以16千赫頻率采樣,平均持續(xù)時間為2.7秒.

試驗(yàn)中80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于測試.由于CNN的輸入必須保持長度一致,故我們對所有的樣本進(jìn)行了填充或切割操作以保證每條語音長度一致.采用UA和WA性能指標(biāo)評價實(shí)驗(yàn)結(jié)果.為對比不同文獻(xiàn)中的特征表征提取、特征融合方法的性能,證實(shí)本文提出的CFLF和AFFM的SER模型的有效性,我們設(shè)計(jì)了四個SER模型:

1)基線模型[15]:將兩種輸入特征使用兩條獨(dú)立分支進(jìn)行處理,提取獨(dú)立性表征,輸入情感分類器.

2)全連接模型[16]:在基線模型的兩條獨(dú)立分支后增加一個全連接層,以融合兩個支路輸出.將融合輸出和兩個獨(dú)立性表征聯(lián)合以輸入情感分類器.

3)聯(lián)合微調(diào)模型:受聯(lián)合微調(diào)方法[17]的啟發(fā),提出了聯(lián)合微調(diào)模型,該模型和全連接模型結(jié)構(gòu)相同,但是在兩條分支權(quán)重凍結(jié)情況下重新訓(xùn)練全連接層來微調(diào).

4)本文模型:使用CFLF和AFFM,得到最終的加權(quán)表征以進(jìn)行情感分類.

以上模型均在IEMOCAP和Emo-DB上進(jìn)行訓(xùn)練,選取的情感特征均為MFCCs和openSMILE提取的HCFs,末端情感分類器均使用SVM.此外,與近期研究[11-12,14]中提出優(yōu)化特征提取方法的模型進(jìn)行了對比.

3.2 數(shù)值結(jié)果

表1展示了四個SER模型、僅使用CFLF塊的本文模型及其它研究實(shí)驗(yàn)的數(shù)值結(jié)果.相比前人[15-17]的提取互補(bǔ)特征方法,本文所提CFLF結(jié)合AFFM的SER模型取得了更好的情感識別結(jié)果,即使僅使用CFLF也比大多數(shù)模型效果好.可見采用CFLF獲取到的不同特征的獨(dú)立性和互補(bǔ)性表征能夠包含更加充分的情感信息,使用AFFM來融合不同表征能夠讓模型有效地選擇更具有影響力的情感表征進(jìn)行識別.

表1 不同模型比較

為了探究SER模型中AFFM和CFLF的有效性,進(jìn)行了消融實(shí)驗(yàn).使用基線模型、僅使用CFLF的模型和使用CFLF結(jié)合AFFM的模型進(jìn)行實(shí)驗(yàn).由表2可知,僅使用CFLF時,模型性能也優(yōu)于基線模型,可見提取出的交互互補(bǔ)特征表征的加入有助于提升情感識別性能.而同時使用CFLF和AFFM時,模型性能進(jìn)一步提高,說明AFFM能夠合理地為獨(dú)立情感表征和交互互補(bǔ)情感表征分配權(quán)重,從而有效地幫助模型關(guān)注到對情感識別貢獻(xiàn)度更大的情感表征.

表2 消融實(shí)驗(yàn)

4 總結(jié)與展望

為提取出不同特征之間的互補(bǔ)信息,使用了具有交互特征提取分支和兩個獨(dú)立性特征提取分支的CFLF,獲得了獨(dú)立性和互補(bǔ)性的特征表征.這有利于全面提取語音信號中的情感信息.而AFFM則是根據(jù)不同表征的貢獻(xiàn)來為表征分配權(quán)重,讓SER模型更集中注意在有效的情感特征上.然而本文僅集中在特征的互補(bǔ)性上和權(quán)重分配上,對分類器的研究仍有欠缺,后續(xù)研究中會考慮使用深度學(xué)習(xí)框架來設(shè)計(jì)分類器.

猜你喜歡
特征提取特征融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 日本久久久久久免费网络| 色香蕉影院| 亚洲精品无码抽插日韩| 亚洲国产系列| 欧美午夜精品| 亚洲男人的天堂视频| 毛片久久网站小视频| 欧美成人午夜影院| 无码综合天天久久综合网| 极品国产一区二区三区| a亚洲天堂| 欧美亚洲国产精品第一页| 午夜精品区| 亚洲中文字幕手机在线第一页| 色综合手机在线| 九一九色国产| 中文字幕66页| 午夜精品国产自在| 欲色天天综合网| 午夜激情福利视频| 97超碰精品成人国产| 久久天天躁狠狠躁夜夜2020一| 亚洲开心婷婷中文字幕| 凹凸国产熟女精品视频| 天堂岛国av无码免费无禁网站| 超碰91免费人妻| 欧美黄网在线| 91久久夜色精品| 一级毛片在线播放免费| 午夜国产不卡在线观看视频| 国产一区自拍视频| 国产剧情一区二区| 熟妇人妻无乱码中文字幕真矢织江| 九九香蕉视频| 国产免费福利网站| 毛片在线播放a| 9啪在线视频| 国产男人天堂| 亚洲欧美日韩成人高清在线一区| 亚洲无码A视频在线| 国产色伊人| 午夜a级毛片| 中文无码毛片又爽又刺激| 欧美精品三级在线| 色综合国产| 国产精品冒白浆免费视频| 51国产偷自视频区视频手机观看 | 国产麻豆精品手机在线观看| 韩日免费小视频| 波多野结衣中文字幕一区二区| 国产黄色视频综合| 国内精品一区二区在线观看| 国产成人高清精品免费5388| 2018日日摸夜夜添狠狠躁| 国产xx在线观看| 天堂成人在线| 在线观看国产精美视频| 无码又爽又刺激的高潮视频| 国产精品视频久| 黄色国产在线| 在线一级毛片| 国产日韩欧美一区二区三区在线| 宅男噜噜噜66国产在线观看| 日本妇乱子伦视频| 亚洲欧美日本国产综合在线| 亚洲手机在线| 九色在线视频导航91| 中文精品久久久久国产网址| www.亚洲色图.com| 欧美一区二区三区国产精品| 久久亚洲AⅤ无码精品午夜麻豆| 国产成本人片免费a∨短片| 成人第一页| 成人午夜网址| 国产综合无码一区二区色蜜蜜| 国产精品成人一区二区不卡 | 另类专区亚洲| 黄片在线永久| 亚洲第一黄片大全| 国产XXXX做受性欧美88| 亚洲欧美综合在线观看| 亚洲久悠悠色悠在线播放|