999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合級聯注意力和多任務學習的語音情感識別*

2023-06-04 06:24:12楊京寶高恩錄王慶越夏玉琦
計算機與數字工程 2023年2期
關鍵詞:特征情感實驗

楊京寶 高恩錄 劉 揚 陳 庚 王慶越 夏玉琦 趙 振

(1.青島淄柴博洋柴油機股份有限公司 青島 266701)(2.青島科技大學信息科學技術學院 青島 266061)

1 引言

語音信號是人類生活中認知溝通的重要信息載體,它不僅包含語義信息,還攜帶著說話者的情感狀態。隨著計算機處理能力的進一步提高和對智能生活需求的增長,語音情感識別(Speech Emotion Recognition,SER)已成為人們生活中不可或缺的一部分[1],具有廣泛的應用場景,包括人工服務[2]、遠程教育[3]和醫療援助[4]等。然而,由于語音的多樣性和情感表達的復雜性,提高情感識別準確度仍是一個亟待解決的難題。

基于傳統機器學習方法的語音情感識別模型,如隱馬爾可夫模型[5]、高斯混合模型[6]和決策樹[7]等,在以往的研究中被廣泛用于情感識別的特征提取。然而,傳統的情感識別方法面對規模龐大的訓練據集時難以實施,且由于語音中包含多種情感狀態,從而導致模型訓練計算量大,情感狀態分類困難,最終導致整體識別率較低。

近年來,深度神經網絡在SER的特征提取方面表現出了突出的性能。與傳統的語音情感識別方法相比,深度神經網絡能夠通過監督學習從大量的訓練樣本中提取語音情感的高級特征表示,例如Tursunov[8]等采用卷積神經網絡(Convolutional Neural Network,CNN)從語譜圖中學習的語音情感特征,并在基準測試數據集上取得了優異的語音情感識別效果;盧艷[9]等采用遞歸神經網絡(Long Short-Term Memory Network,LSTM)提取了語音情感特征的隨機時間關系和情感特征的不確定性,從而顯著提高了SER的準確性;梁宗林[10]等引入卷積遞歸神經網絡(Convolutional Recurrent Neural Network,CRNN)捕獲原始音頻中上下文情感特征的最優表示,在IEMOCAP 數據集上取得了良好的識別效果。盡管深度神經網絡在SER 領域取得了巨大的成功,然而上述模型均使用個性化特征作為輸入,對于特定的說話者取得了良好的語音情感識別效果,但是忽略了不同說話人、說話內容和環境中的共同情緒信息。此外,由于性別差異,語音情感特征在變化過程中所體現出的情感信息也不盡相同[11]。上述問題阻礙了SER 技術在說話者獨立環境中的實際應用。

因此本文提出了一種融合級聯注意力機制(Cascading Attention Mechanisms,CAM)和多任務學習(Multi-task Learning,MTL)語音情感識別方法。首先,提取Log-Mel 特征及其一階差分和二階差分特征,并進一步提取時頻方向的非個性化情感特征,以學習語音情感的變化過程;然后,通過由通道注意力、空間注意力和自注意力組成的級聯注意力網絡篩選顯著的情感特征,并學習情感特征之間的相互依賴關系,同時關注情感特征對通道和空間的不同貢獻。最后,引入了一種多任務學習策略[12~16],將說話人性別識別(Speech Gender Recognition,SGR)與語音情感識別任務相結合,減少了由于性別的差異對情感識別的影響。實驗結果表明,本文方法在IEMOCAP 數據集上的加權精度(Weighted Accuracy,WA)和非加權精度(Unweighted Accuracy,UA)分別達到79.39%和76.76%。

2 融合CAM-MTL的網絡模型

如圖1 所示,本文提出的融合CAM-MTL 的語音情感識別模型主要處理流程如下。首先,提取非個性化特征,以反映情感特征在時頻方向上的變化過程。然后,引入級聯注意力網絡,獲得非個性化特征中最顯著的情感特征。最后,采用多任務學習策略減少對不同說話者性別的感知差異的影響。

圖1 融合級聯注意力機制的多任務語音情感識別的模型結構

2.1 非個性化特征提取

為了有效地學習語音情感發生變化的過程,本文在時頻方向上提取了非個性化特征,如圖1 所示。首先,對給定的語音信號進行零均值和單位方差的歸一化操作,并按照25 ms 的幀移和10 ms 的幀長進行分幀操作;然后,利用離散傅里葉變換(Discrete Fourier Transform,DFT)計算每一幀語音信號的功率譜;之后,通過Mel 濾波器組計算獲得輸出pi,其中i為Mel濾波器組的序號;最后,通過式(1)~(3)獲得Log-Mel特征mi、一階差分特征mdi和二階差分特征,并按照通道方向組合形成三維特征表示(3D Log-Mels)。

式中,N是用于計算3D Log-Mels 特征的連續幀數,n為時間幀的長度。

進一步,使用時間方向卷積濾波器(Conv1a)從3D Log-Mels 中提取特征Ftime,減少時間跨度對語音情感的影響。同時,通過頻率方向的濾波器(Conv1b)提取特征Ffreq,減少頻率跨度對語音情感的影響。然后,將Ftime和Ffreq沿通道方向合并,得到三維時頻特征Fin,如式(4)所示。最后,將Fin輸入CNN 層,提取目標非個性化語音情感特征Fout∈RC*H*W,其中,C、H和W分別表示信道數、頻率采樣點數和幀數。具體計算過程如下:

式中:Concat是沿著通道方向的川里操作。f表示卷積操作。Wk和bk是的第k個卷積濾波器的可訓練參數。

2.2 級聯注意力網絡

為了能從復雜的語音中區分出有效的目標特征,需要聚焦語音中的關鍵情感特征,從而增加不同情感特征之間的判別性。因此,本文引入級聯注意力網絡,采用通道注意力及空間注意力實現語音情感特征的定位,利用CNN-BLSTM 提取語音的句子級情感特征,使用自注意力有效應對不同通道語音情感變化的影響,減少對外部信息的依賴。

通道注意力:通道注意力通過壓縮和聚合操作,提取出每個通道中最顯著的語音情感特征。

首先,通過全局平均池化aPoolsp和全局最大池化mPoolsp生成壓縮通道平均描述符和通道最大描述符。然后,通過MLP 對和進行聚合計算。最后,將和映射到原始信道上,通過兩個全連接層獲得通道權重輸出FM'∈RC*1*1。通道注意力計算方式如下:

式中:σ為sigmod 函數,W0和W1∈RC*C為權重參數。最終,通道注意力的輸出表示如下:

空間注意力:空間注意力作為通道注意力的補充,能夠使得具有強烈情感特征的通道更為突出而抑制情感無關通道。

首先,通過平均池化和最大池化從FM'∈RC*1*1中提取空間平均特征描述符和空間最大特征描述符,有效地建立特征與空間之間的映射關系。然后,對和按照通道方向合并后,采用卷積核f大小為7×7進行卷積計算生成空間特征描述符。最后,通過sigmod函數處理獲得情感特征。空間注意力的計算方法如下:

式中:σ為sigmod 函數,aPool和mPool為平均池化和最大池化,f7×7表示與濾波器大小為7×7的卷積操作。最終,空間注意力的輸出表示如下:

CNN-BLSTM:語音情感的當前狀態不僅與過去的狀態有關,而且還與未來的狀態有關。因此,本文使用CNN-BLSTM 學習句子級別的情感。首先,為了保持顯著的情感信息,減少語音序列的長度,采用尺寸為1×n卷積核對空間時間注意的輸出進行卷積計算,其中1 是步幅大小,n是窗口大小,并生成一個向量序列Hcnn=,其中?clnn∈Rcnn。其次,為了從語音序列中提取全局上下文信息,以Hcnn作為BLSTM 的輸入,輸出一系列隱藏狀態Hblstm=,其中Hblstm∈Rl*d為第l個前向隱藏狀態和第l個后向隱藏狀態。l為幀的序列號,d為BLSTM隱藏層的大小。

自注意力:為了有效地應對不同通道語音情感變化的影響,減少對外部信息的依賴,首先輸入隱藏狀態Hblstm,接著計算注意力權值α。最后,將加權后的特征值連接,得到最終的編碼向量Oself=[oemotion,ogender],其中,oemotion∈R1*4為情感類別任務輸出的編碼向量,ogender∈R1*2為性別分類任務輸出的編碼向量。具體計算過程如下:

式中:Wl和bl為可訓練的參數。

2.3 多任務輸出

本文將性別分類與情感分類任務融合,通過并行學習使結果相互影響。兩個任務共享輸入層和隱藏層的全部參數,通過兩個輸出層分別輸出情感和性別分類結果,并通過以下目標函數對模型進行訓練:

式中:yemotion和ygender分別為情感分類與性別分類的標簽的編碼向量。

3 實驗設置

3.1 數據集介紹

為了評估出的模型的性能,本文在交互式情感二元運動捕獲數據庫(IEMOCAP)[17]上開展了驗證實驗。該語音數據集包括五個部分,每個部分由一對演講者(女性和男性)以腳本和即興的場景錄制,樣本平均持續時間為4.5s,采樣率為16kHz。

本文實驗使用了四種情感類別的5531 個句子:快樂(1636 個句子,與興奮合并)、憤怒(1103 個句子)、悲傷(1084個句子)和中性(1708個句子)。

3.2 參數設置

本實驗優化器采用Adam,學習率初始設置為0.001,在第80、120、160 輪分別減小10 倍,batchsize設置為32,epoch 設置為200,訓練集、測試集及驗證集的比例為8∶1∶1。

對于簡單的索賠事項,監理工程師一般在收到報告的1個月之內給出處理意見。但在實際施工中,難免會有個別索賠出現爭議。索賠發生爭議時,當事人雙方應本著合作共贏的態度去協商談判,不要急于采用訴訟或仲裁的方式。在該案中,承包商考慮到未來還要在當地長期發展,需要維護自己的商業信譽,所以一直堅持采用協商的方式解決索賠,多次談判之后,承包商在費用方面作出了一些讓步,最終以76萬元了結了該爭議。

訓練集和測試集通過訓練集的全局平均值和標準差進行歸一化,在特征提取步驟中,樣本按照幀長25ms 和幀移10ms 進行統一分幀。為了更好地進行并行加速,本文將有幀的樣本分割成300 幀等長片段,對于少于300 幀的片段進行零填充。經過分割后,語音片段總數為14521 個,如表1 和表2所示。

表1 不同情感的分割前后的句子數量

表2 不同性別的分割前后的句子數量

為了驗證本文模型的有效性,本文采用加權精度(WA)和未加權精度(UA)作為實驗評價指標,對不同模型的實驗結果進行評估。

4 實驗結果與分析

4.1 多任務學習超參數實驗

如圖2 所示,為了驗證式(13)中不同情感損失占比β對多任務學習結果的影響開展權重選擇實驗。隨著情感損失的提高,WA 和UA 隨之提高,并在情感損失占比為0.8時達到頂峰,當β超過0.8時,語音情感分類準確率重新歸于平穩。因此本文中的β設置為0.8。

圖2 不同β對WA和UA的影響

4.2 對比實驗

如表3 所示,為了驗證本文提出的方法的有效性,將其與目前IEMOCAP上的先進模型進行比較,對比方法的訓練集和測試集配置與本文方法一致。

表3 本文方法與6種先進方法對比實驗結果

Han[18]等通過DNN-ELM 網絡提取了情感特征,然而此方法無法捕捉到情感特征的長時依賴關系和變化過程。為了解決這個問題,Lee[19]等提出RNN-ELM 網絡學習語音情感特征的長期依賴關系。為了捕捉情感特征的變化過程,Chen[20]等提出了提3D ACRNN 網絡,并使用了由Log-Mel 靜態、Deltas和Deltas-Deltas組成的三維差分特征來有效反映情感的變化過程。Li[21]等使用了基于時間和頻率方向的特征更有效地表達情緒特征。Wu[22]等為了獲得不同空間中集中表達情感信息的位置,使用膠囊網絡(Capsule Network)獲得了有效的語音情感特征的空間信息表征。盡管如此,上述方法忽略了說話人性別造成的影響。Li[11]等利用基于自注意機制的SER框架,并將說話人性別識別作為一個輔助任務來調整情感識別以提高SER的準確性。

與性能最好的方法相比,本文提出的方法的WA 和UA 分別提高了1.24%和1.11%。本文方法通過將性別分類與情感分類任務融合,通過參數共享,能夠有效地檢測出高層次的辨別性表征,解決不同性別之間信號差異所帶來的影響,從而提升了情感識別的準確率。

4.3 消融實驗與分析

4.3.1 級聯注意力消融實驗

級聯注意力消融實驗的設置如下:(S1-1)本文方法;(S1-2)AM-MTL:將CAM 替換為空間注意力和自注意力的組合,以驗證通道注意力對模型性能的貢獻;(S1-3)CM-MTL:將CAM 替換為通道注意力和自注意力的組合,以驗證空間注意力對模型性能的貢獻;(S1-4)CA-MTL:將CAM 替換為通道空間注意力,以驗證自注意力對模型性能的貢獻。

首先,為了驗證通道注意力在本文方法中的有效性,本文對比了S1-1 和S1-2。表4 的實驗結果表明,S1-1 的WA 和UA 比S1-2 的分別提高了1.95%和1.88%。通道注意力作為特征選擇器,實現通道內特征的篩選,提取更為重要的語音情感特征,能夠顯著地提高語音情感識別的效果。

表4 級聯注意力消融實驗結果

其次,為了驗證空間注意力在本方法中的有效性,本文對比了S1-1 和S1-3。 表4 的實驗結果表明,S1-1 的WA 和UA 分別比S1-3 提高了1.30%和2.21%。空間注意力通過對比不同通道特征,增強了不同通道特征之間的判別性,獲取了通道所能表達的情感特征的優先級。

最后,為了驗證自注意力在本方法中有效性,本文對比S1-1 和S1-4。表4 的實驗結果表明,S1-1 的WA 和UA 分別比S1-4 提高了1.75%和1.23%。自注意力能夠對不同話語特征進行加權打分,有效應對不同通道語音情感變化的影響,減少對外部信息的依賴。

4.3.2 級聯注意力特征可視化分析

為了直觀地理解通道空間注意力的影響,本文隨機選擇了一個樣本,并將其作為通道空間注意的特征圖進行可視化展示。對于該樣本,可視化了四種圖片。圖3(a)為原始Mel譜圖;圖3(b)為通過通道注意力的特征圖;圖3(c)為通過空間注意力的特征圖;圖3(d)為通過通道空間注意力的特征圖。圖3顯示了語音情感特征可視化結果。

圖3 級聯注意力特征可視化結果

強調重要領域:將圖3(b)和(c)與原始Mel 譜圖(a)進行對比,通道注意力和空間注意力有效地突出存在隱藏情感信息的語音部分,如圖中的共振峰區域。同時,與對應的原始Mel 譜圖的相比較,共振峰之間的淺色區域基本被去除,使得情感信息豐富更加突出,通道空間注意力的融合增強了突出含有情感特征的語音表達的能力。

抑制其他區域:在日常生活環境中,語音錄制過程中經常會出現突發噪聲,如咳嗽、碰撞等噪聲,這些噪聲在語音Mel 譜上通常有很強的強度。將圖3(d)與相應的原始語音Mel 譜圖相比較,語音中的無聲區域(圖中的共振峰之間的淺色區域)基本被去除,而原始語音中情感較強的區域(圖中的共振峰所在的深色區域)被保留。這證明了通道空間注意力可以極大地抑制與情感無關的區域。

4.3.3 多任務學習消融實驗

多任務學習消融實驗的設置如下:(S2-1)本文提出的方法;(S2-2)CAM:將說話人性別識別刪除,驗證多任務學習對模型性能的貢獻。

對比S2-1 和S2-2 驗證多任務學習在本方法中有效性,由表5 可知,在性別識別的輔助下,本文提出方法的WA 和UA 分別比S2-2提高了1.95%和2.08%。以性別識別作為情感識別的輔助任務,弱了不同性別在語音情感表達上的內在差異,減少了由于不同性別導致分類錯誤,因此提高了模型的情感分類能力。

表5 多任務學習消融實驗結果

5 結語

本文提出了一種融合級聯注意力機制的多任務語音情感識別方法解決非個性化特征提取問題。首先提取時頻方向的3D Log-Mels特征以反映情感特征的變化過程,同時解決情感特征混淆問題;然后通過由通道注意力、空間注意力及自注意力組成的級聯注意力網絡,增強非個性化特征中情感顯著區域,抑制情感無關區域,最后通過多任務學習策略,融合說話人性別識別任務輔助說話人情感識別任務,提升情感識別的準確率。實驗結果表明,在IEMOCAP數據集中,本模型與最先進的方法相比WA 和UA 分別提高了1.24%和1.11%,能夠有效地提升語音情感識別的準確率。

猜你喜歡
特征情感實驗
記一次有趣的實驗
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 亚洲AV免费一区二区三区| 亚洲视频欧美不卡| 午夜福利视频一区| 亚洲精品视频免费| 女人18一级毛片免费观看 | 97久久免费视频| 亚洲欧美日韩天堂| 99视频全部免费| 国产女人18水真多毛片18精品| 美女国产在线| 成年午夜精品久久精品| 国产免费a级片| 99精品久久精品| 国产综合无码一区二区色蜜蜜| 制服丝袜国产精品| 国产精品yjizz视频网一二区| 激情無極限的亚洲一区免费| www.亚洲一区| 国产凹凸一区在线观看视频| 萌白酱国产一区二区| 亚洲综合片| 四虎精品国产AV二区| 四虎永久在线| 中文字幕 91| 国产玖玖玖精品视频| 2021天堂在线亚洲精品专区| 黄片在线永久| 无码日韩人妻精品久久蜜桃| 久久天天躁狠狠躁夜夜躁| 亚洲婷婷六月| 毛片免费网址| 国产精品999在线| 黄色一级视频欧美| 好紧太爽了视频免费无码| 91视频免费观看网站| 99er精品视频| 91在线无码精品秘九色APP| 婷婷综合亚洲| 国产精品密蕾丝视频| 精品无码日韩国产不卡av| 伊人无码视屏| 中文天堂在线视频| 黄色不卡视频| 欧美激情福利| 国产精品自拍露脸视频| 日韩二区三区| 五月婷婷精品| 国产欧美日韩另类| 国产激情影院| 99re这里只有国产中文精品国产精品 | 伊人91在线| 18禁高潮出水呻吟娇喘蜜芽| 高清不卡毛片| 制服丝袜国产精品| 国产精品视频白浆免费视频| 日韩麻豆小视频| 日韩天堂视频| 欧美午夜小视频| 狂欢视频在线观看不卡| 亚洲高清国产拍精品26u| 成人伊人色一区二区三区| 国产精品免费福利久久播放| 婷婷综合色| 久久天天躁狠狠躁夜夜2020一| 亚洲码一区二区三区| 国产乱人视频免费观看| 内射人妻无套中出无码| 久久免费精品琪琪| 色视频国产| 中文字幕在线看视频一区二区三区| 制服丝袜在线视频香蕉| 亚洲91在线精品| 亚洲精品国产自在现线最新| 91美女视频在线| 欧美精品H在线播放| 国产一级α片| 欧美激情第一欧美在线| 日韩中文无码av超清| 99国产在线视频| 精品欧美视频| 国产精品人莉莉成在线播放| 2021国产在线视频|