999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別方法研究*

2022-09-28 01:40:34董炳辰
關(guān)鍵詞:特征提取特征情感

董炳辰 湯 鯤

(1.武漢郵電科學(xué)研究院 武漢 430074)(2.南京烽火天地通信科技有限公司 南京 210019)

1 引言

近些年來(lái),隨著科技的不斷進(jìn)步、發(fā)展,人工智能成為了人們?nèi)粘I钪兄陵P(guān)重要的技術(shù)手段之一。語(yǔ)音方面,諸如阿里巴巴集團(tuán)基于語(yǔ)音語(yǔ)義識(shí)別的客服系統(tǒng)等系統(tǒng)已經(jīng)展現(xiàn)出語(yǔ)音人工智能的硬實(shí)力。為了促使人機(jī)交互和人工智能更好的發(fā)展,情感分析已經(jīng)成為目前人工智能研究不可忽視的研究方向之一,而含有較多情感特征的語(yǔ)音情感方面的研究就顯得尤為重要。

語(yǔ)音情感識(shí)別的過(guò)程一般分為語(yǔ)音信號(hào)預(yù)處理,語(yǔ)音情感特提取和情感分類三個(gè)部分,其中對(duì)于情感特征提取和情感分類方面的研究是在語(yǔ)音情感識(shí)別研究方向中主要提升準(zhǔn)確率的技術(shù)手段,研究人員在此領(lǐng)域不斷地探索嘗試,取得了一定的進(jìn)展。特征提取方面,文獻(xiàn)[1]利用PCANet沿著從源域到目標(biāo)域的路徑提取特征;文獻(xiàn)[2]提出相空間重構(gòu)的情感語(yǔ)音特征提取;文獻(xiàn)[3]也已經(jīng)從特征融合角度嘗試提升情感識(shí)別準(zhǔn)確率。情感分類方面,深度學(xué)習(xí)網(wǎng)絡(luò)表現(xiàn)較為優(yōu)秀。文獻(xiàn)[4]利用改進(jìn)遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音情感識(shí)別;文獻(xiàn)[5]通過(guò)改進(jìn)Elman 神經(jīng)網(wǎng)絡(luò)也對(duì)識(shí)別率的提升產(chǎn)生了積極作用;文獻(xiàn)[6]則是通過(guò)SincNet的改進(jìn)取得了較好的效果。

在取得較好效果的同時(shí),也存在著一些問(wèn)題:識(shí)別系統(tǒng)的魯棒性不足是現(xiàn)階段研究中的難點(diǎn)[7];在一些網(wǎng)絡(luò)中準(zhǔn)確率不高[8]等。針對(duì)上述準(zhǔn)確率問(wèn)題,結(jié)合一些網(wǎng)絡(luò)的突出點(diǎn),本文提出一種應(yīng)用于語(yǔ)音情感識(shí)別的含有注意力機(jī)制的雙向GRU 的CNN-RNN 網(wǎng)絡(luò),以提升深度學(xué)習(xí)網(wǎng)絡(luò)在語(yǔ)音情感分類方面的準(zhǔn)確率。通過(guò)對(duì)CASIA 中文語(yǔ)音情感數(shù)據(jù)集進(jìn)行梅爾頻率倒譜系數(shù)提取,再將所得結(jié)果在同等條件下,較CNN 網(wǎng)絡(luò)提升11.84%,較CNN-GRU 網(wǎng)絡(luò)提升7.2%,較無(wú)注意力機(jī)制的CNN-BiGRU 網(wǎng)絡(luò)提升了3.84%。在一定程度上證明了BiGRU 是可以運(yùn)用于語(yǔ)音情感識(shí)別并對(duì)提升準(zhǔn)確率具有一定程度的積極作用。

2 特征提取和情感識(shí)別網(wǎng)絡(luò)

2.1 特征提取

語(yǔ)音信號(hào)的特征提取是語(yǔ)音情感識(shí)別的重要一環(huán),其作用是通過(guò)一定的技術(shù)手段從原始的語(yǔ)音音頻信號(hào)提取出目標(biāo)信息的特征數(shù)據(jù),用以送入相應(yīng)模型進(jìn)行模型訓(xùn)練和語(yǔ)音情感分類。

圖1 語(yǔ)音情感識(shí)別流程圖

用于語(yǔ)音情感識(shí)別的聲學(xué)特征大致可歸納為韻律學(xué)特征、基于譜的相關(guān)特征和音質(zhì)特征三種[9]。韻律學(xué)特征是指諸如時(shí)長(zhǎng)、基頻、能量等的語(yǔ)音結(jié)構(gòu)性表達(dá)特征;基于譜的相關(guān)特征是指諸如線性譜特征和倒譜特征等一系譜特征,此兩類特征在現(xiàn)階段的語(yǔ)音情感識(shí)別領(lǐng)域中被較為廣泛的認(rèn)可;音質(zhì)特征是指用于衡量語(yǔ)音信號(hào)是否純凈以及辨識(shí)度等的特征的統(tǒng)稱。目前,音質(zhì)特征在語(yǔ)音情感識(shí)別過(guò)程中作為主要特征進(jìn)行識(shí)別的情況下效果相較與其余兩類特征較差。故目前常見(jiàn)的語(yǔ)音情感特征的提取種類主要圍繞韻律學(xué)特征和譜相關(guān)特征。本文在結(jié)合當(dāng)前研究現(xiàn)狀和效果優(yōu)劣后,選擇梅爾倒譜系數(shù)作為所提取的特征。

2.2 梅爾倒譜系數(shù)

MFCC[10]是一種準(zhǔn)確描述聲道的形狀在語(yǔ)音短時(shí)功率譜的包絡(luò)的一種特征。一般提取MFCC 的流程如下。

1)預(yù)加重

預(yù)加重的實(shí)質(zhì)是將語(yǔ)音信號(hào)通過(guò)高通濾波器,其主要目的是提升語(yǔ)音信號(hào)的高頻部分,使整個(gè)頻譜變得平坦,突出高頻共振峰。

2)分幀、加窗

預(yù)加重結(jié)果中的若干采樣點(diǎn)(假設(shè)有N 個(gè)采樣點(diǎn))的集合稱作幀,分幀的作用是為了利用語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性。

加窗的目的是通過(guò)漢明窗使首尾連續(xù)性欠佳的分幀信號(hào)具有較好周期性以進(jìn)行FFT(快速傅里葉變化)。

3)FFT

FFT 的目的是將語(yǔ)音信號(hào)由時(shí)域轉(zhuǎn)化為特征較為明顯的頻域,其函數(shù)表達(dá)式為

4)Mel濾波

由于人耳對(duì)語(yǔ)音信號(hào)的低頻部分較為敏感,故在提取特征時(shí)需要在低頻部分較為密集,高頻部分相對(duì)稀疏。Mel 濾波[11]就是通過(guò)三角濾波器實(shí)現(xiàn)這一過(guò)程。三角濾波器函數(shù)表達(dá)式如下:

5)對(duì)數(shù)能量和DCT(離散傅里葉變換)

Mel 頻率經(jīng)過(guò)下列對(duì)數(shù)運(yùn)算可以求得對(duì)數(shù)能量:

再經(jīng)DFT得到MFCC系數(shù):

其中L為MFCC階數(shù),M為三角濾波器個(gè)數(shù)。

2.3 神經(jīng)網(wǎng)絡(luò)

2.3.1 CNN網(wǎng)絡(luò)

CNN(卷積神經(jīng)網(wǎng)絡(luò))是一種利用卷積計(jì)算且具有深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)算法的代表之一。其主要結(jié)構(gòu)分為輸入層、隱含層和輸出層。其中輸入層負(fù)責(zé)承接張量形式的多維特征數(shù)據(jù),而輸出層的上層網(wǎng)絡(luò)通常是由全連接層構(gòu)成,以進(jìn)行相關(guān)分類工作,因此其工作原理與傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的輸出層相同;其主要功能層集中在隱藏層,隱藏層一般包括以下方面。

1)卷集層

卷集層是CNN 的核心層,其功能是對(duì)數(shù)據(jù)張量的特征進(jìn)一步提取。在卷積層中具有網(wǎng)絡(luò)構(gòu)建者指定的卷積核,其中包括但不限于卷積核大小和步長(zhǎng)等的相關(guān)參數(shù),卷積核類似于前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)元,核中的每個(gè)元素都有對(duì)應(yīng)的權(quán)重系數(shù)和偏差量,以此完成相關(guān)計(jì)算。

2)池化層

數(shù)據(jù)張量在經(jīng)過(guò)卷積層特征提取后,通常會(huì)經(jīng)過(guò)池化層進(jìn)行信息進(jìn)一步的篩選。數(shù)據(jù)張量通過(guò)池化函數(shù)以使用單個(gè)點(diǎn)的值代替相鄰區(qū)域的特征統(tǒng)計(jì)量,以達(dá)到減少整個(gè)網(wǎng)絡(luò)參數(shù)計(jì)算的龐大計(jì)算量的作用。其中,最常見(jiàn)的池化有最大池化和均值池化。

3)全連接層

全連接層一般位于CNN 隱含層的最后層,通過(guò)相應(yīng)的激活函數(shù)得到相應(yīng)需要得到的輸出。

此外,卷積層后常有批標(biāo)準(zhǔn)化層和Dropout層,設(shè)置批標(biāo)準(zhǔn)化層的原因是激活函數(shù)對(duì)零附近的數(shù)據(jù)更為敏感;設(shè)置Dropout 層則是使一部分神經(jīng)元不參與訓(xùn)練,以達(dá)到抑制過(guò)擬合的作用。

2.3.2 LSTM和GRU

1)LSTM

LSTM[12](長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))是一種為了解決RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))長(zhǎng)時(shí)間依賴問(wèn)題的特殊RNN。

LSTM 主要由遺忘門(mén)、輸入門(mén)和輸出門(mén)組成。遺忘門(mén)的作用,顧名思義,是用來(lái)決定是否信息丟棄,通過(guò)ht-1和xt共同決定Ct-1中的信息是否保留,其中:

隨后,ht-1和xt通過(guò)輸入門(mén)sigmoid 層決定更新信息內(nèi)容,并且通過(guò)tanh(圖2 中為T(mén))層獲取新候選細(xì)胞信息并將Ct-1更新為Ct,其中:

圖2 LSTM結(jié)構(gòu)示意圖

最后,ht-1和xt輸出門(mén)sigmoid 層得到判斷條件與Ct狀態(tài)經(jīng)tanh 函數(shù)得到值的乘積即為L(zhǎng)STM單元的最終輸出,其中:

2)GRU

GRU 是LSTM 的一種效果良好的變體,具有結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快等優(yōu)點(diǎn)[13]。

GRU 相較于LSTM 的三個(gè)門(mén)而言僅有兩個(gè)門(mén),分別是更新門(mén)和重置門(mén)。在圖3 中zt=σ(Wz·[ht-1,xt])為更新門(mén),重置門(mén)則為rt=σ(Wr·[ht-1,xt]),其中Wz和Wr為待訓(xùn)練參數(shù)。

圖3 GRU結(jié)構(gòu)示意圖

GRU 作為L(zhǎng)STM 的變種結(jié)構(gòu),相對(duì)LSTM 門(mén)函數(shù)較少,故其訓(xùn)練速度較LSTM 快,在一定應(yīng)用場(chǎng)景下效果也較LSTM好。

2.3.3 注意力機(jī)制

注意力(Attention)機(jī)制是為了模仿人類注意力行為,進(jìn)而提出的一種為了解決RNN 類網(wǎng)絡(luò)模型輸入序列較長(zhǎng)時(shí)較難獲得合理結(jié)果問(wèn)題的解決方案。其核心目的是快速地從大量信息中篩選出有利信息。簡(jiǎn)言之,即為對(duì)重要部分分配較大權(quán)重[14]。

目前多數(shù)的注意力模型都是基于Encoder-Decoder 框架,但這并不意味著Attention 機(jī)制僅可以在該框架下使用[15]。注意力機(jī)制嚴(yán)格意義上講是一種思想,而不是某種模型的實(shí)現(xiàn),因而其實(shí)現(xiàn)方式可以完全不同[16]。本文中采取的是自注意力(self-attention)模型。

3 實(shí)驗(yàn)設(shè)置

3.1 數(shù)據(jù)集選擇

本文中的語(yǔ)音情感識(shí)別選用的是中科院CASIA 漢語(yǔ)情感數(shù)據(jù)集進(jìn)行的相關(guān)實(shí)驗(yàn),數(shù)據(jù)集包含生氣(angry)、害怕(fear)、高興(happy)、中立(neutral)、悲傷(sad)和吃驚(surprise)共6種情緒。

3.2 情感識(shí)別網(wǎng)絡(luò)

為了在一定程度上提高語(yǔ)音情感識(shí)別的準(zhǔn)確率,本文提出一種應(yīng)用于語(yǔ)音情感識(shí)別的含有注意力機(jī)制的CNN-BiGRU 網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4。首先,本文將利用上文所提到的MFCC 作為神經(jīng)網(wǎng)絡(luò)的輸入特征數(shù)據(jù),將原始數(shù)據(jù)集進(jìn)行MFCC 特征提取并儲(chǔ)存。然后進(jìn)行網(wǎng)絡(luò)搭建,先利用CNN 進(jìn)行特征提取,CNN網(wǎng)絡(luò)如圖4中CNN部分所示。

圖4 網(wǎng)絡(luò)結(jié)構(gòu)圖

隨后,將提取后的特征送入含有自注意力機(jī)制雙向GRU 再次訓(xùn)練。最后通過(guò)全連接層并展開(kāi)后送入softmax 函數(shù)進(jìn)行情感識(shí)別,進(jìn)而得到情感分類,完成情感識(shí)別過(guò)程。

在實(shí)驗(yàn)中,在CNN 中添加標(biāo)準(zhǔn)化層于卷集層和激活函數(shù)之間;此外訓(xùn)練過(guò)程中發(fā)現(xiàn)過(guò)擬合現(xiàn)象,故在每層CNN 后添加Dropout 層。對(duì)于數(shù)據(jù),數(shù)據(jù)集中驗(yàn)證集占總數(shù)據(jù)集比例20%,共計(jì)訓(xùn)練200輪次。其中CNN的參數(shù)如表1所示。

表1 CNN參數(shù)

3.3 實(shí)驗(yàn)結(jié)果及分析

本文將上述注意力機(jī)制CNN-BiGRU 網(wǎng)絡(luò)和傳統(tǒng)CNN 網(wǎng)絡(luò)、CNN-BiLSTM 網(wǎng)絡(luò)、CNN-GRU 網(wǎng)絡(luò)以及CNN-BiGRU 網(wǎng)絡(luò)分別在CASIA 漢語(yǔ)情感數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其結(jié)果對(duì)比如表2。

表2 準(zhǔn)確率對(duì)比

從表中可以看出,注意力機(jī)制下的CNN-BiGRU網(wǎng)絡(luò)相較此前的CNN-BiLSTM 等網(wǎng)絡(luò)準(zhǔn)確率的確存在提升,證明了注意力機(jī)制以及雙向GRU 在語(yǔ)音情感識(shí)別方面是存在應(yīng)用空間和準(zhǔn)確率提升空間的,或在語(yǔ)音情感識(shí)別領(lǐng)域結(jié)合其余優(yōu)秀網(wǎng)絡(luò)會(huì)有更佳的效果和更大的提升空間。

4 結(jié)語(yǔ)

情感是在一種客觀存在而情感的表達(dá)卻又是一個(gè)較為復(fù)雜的過(guò)程。即使現(xiàn)階段在各領(lǐng)域能對(duì)情感識(shí)別都有著不同進(jìn)度的研究,但這仍是一個(gè)具有相當(dāng)挑戰(zhàn)性的課題。本文將雙向GRU 和注意力機(jī)制引入CNN 網(wǎng)絡(luò),通過(guò)實(shí)驗(yàn)證明在情感識(shí)別的準(zhǔn)確率提升方面是有積極作用的。但是由于數(shù)據(jù)集的限制,情感識(shí)別網(wǎng)絡(luò)的魯棒性不佳成為了新的難題,這個(gè)問(wèn)題也同樣出現(xiàn)在本文所提到的網(wǎng)絡(luò)當(dāng)中。解決這一難題將對(duì)利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行情感識(shí)別產(chǎn)生非凡意義。

猜你喜歡
特征提取特征情感
如何在情感中自我成長(zhǎng),保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
如何在情感中自我成長(zhǎng),保持獨(dú)立
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 欧美国产综合视频| 99久久精品久久久久久婷婷| 亚洲av无码专区久久蜜芽| 亚洲无限乱码一二三四区| 九九热精品在线视频| 自偷自拍三级全三级视频 | 91小视频在线观看免费版高清| 全午夜免费一级毛片| 免费国产好深啊好涨好硬视频| 三区在线视频| 久久婷婷国产综合尤物精品| a级毛片毛片免费观看久潮| 欧美 亚洲 日韩 国产| 精品视频在线一区| 亚洲欧洲日韩综合| 国产理论精品| 国产成人夜色91| 国产日韩欧美精品区性色| 成人a免费α片在线视频网站| 国产精品福利一区二区久久| 国产精品视频导航| 在线观看国产精品一区| 日韩欧美在线观看| 午夜国产理论| 国产精品久久精品| 精品自窥自偷在线看| 在线亚洲小视频| 亚洲欧美不卡中文字幕| 免费人成网站在线高清| 国产爽妇精品| 88国产经典欧美一区二区三区| 亚洲性视频网站| 成人韩免费网站| 在线色国产| 日本成人精品视频| 久久精品中文字幕免费| 国产精品午夜福利麻豆| A级全黄试看30分钟小视频| 91精品国产自产在线观看| 午夜福利在线观看入口| 亚洲成A人V欧美综合| 欧美黄网站免费观看| 免费啪啪网址| 国产欧美在线| 亚洲精品无码av中文字幕| 国产毛片高清一级国语| 无码精品一区二区久久久| 婷婷六月在线| 国产精品综合久久久| 日韩成人在线网站| 亚洲男人的天堂在线观看| 亚洲精品成人福利在线电影| 成年人国产视频| 国产香蕉在线| 99ri国产在线| 三上悠亚一区二区| 女人18毛片久久| 久久久亚洲国产美女国产盗摄| 亚洲国产第一区二区香蕉| 最新国产网站| 久久久久亚洲av成人网人人软件| 午夜啪啪网| 国产呦精品一区二区三区下载| 影音先锋亚洲无码| 黄色a一级视频| 全部免费特黄特色大片视频| 国产成人免费高清AⅤ| 免费中文字幕一级毛片| 亚洲一级毛片| 欧美亚洲一区二区三区在线| 国产自在线拍| 国产日韩精品欧美一区喷| 欧美午夜网站| 精品国产欧美精品v| 老汉色老汉首页a亚洲| 少妇精品在线| 黄网站欧美内射| www.99精品视频在线播放| 国产香蕉97碰碰视频VA碰碰看| 国产在线自乱拍播放| 日韩欧美中文亚洲高清在线| 日韩欧美中文字幕一本|