999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡和長短時記憶神經網絡的非特定人語音情感識別算法

2018-04-04 07:30:10姚增偉劉煒煌王梓豪劉雅倩潘家輝
新型工業化 2018年2期
關鍵詞:特征信號情感

姚增偉,劉煒煌,王梓豪,劉雅倩,潘家輝

(華南師范大學軟件學院, 廣東 南海 528225)

0 引言

自從“情感計算”的概念被提出以來,計算機情感計算領域引起了國內外許多研究者的關注。情感識別是情感計算的關鍵環節。語音信號中包含了說話者豐富的情感信息,是傳遞信息最方便直接的途徑。同一個人對同一句話用不同的情感表達時,其傳遞信息有所不同。為了讓計算機更好理解人的情感,語音情感識別有很大必要性。語音情感識別在人機交互領域應用越來越廣泛,例如人工客服、汽車駕駛、遠程教育和醫學輔助等[1]。

目前,國內外的傳統語音情感識別在情感描述模型的引入、情感語音庫的構建、情感特征分析等領域的都得到了很大程度的發展[2]。傳統的語音情感識別技術建立在情感聲學特征的基礎上,語音情感特征的提取與識別準確率有很大關系。常用的情感聲學特征包括以基頻、短時能量、短時過零率為主的韻律特征和以梅爾頻率倒譜系數為主的頻譜特征,基于此類高層語音特征的情感識別技術在特定人語音情感識別中取得了一定的效果[3-6]。然而,由于不同人之間的情感表達存在較大差異[7-8]以及大型情感語料庫的缺乏,基于非特定人的語音情感識別仍然面臨巨大挑戰。

近年來,深度神經網絡(Deep Neural Networks,DNN)已經在語音識別領域取得很大突破,并且在大型詞匯連續語音識別任務(LVCSR)方面與最新的高斯混合模型/隱馬爾可夫模型(GMM /HMM)系統相比取得的效果更好[9-11]。卷積神經網絡(Convolutional Neural Network,CNN)不僅在圖像識別方面表現優異,在語音識別方面也能取得成功。同DNN相比較,CNN的局部感知可以有效利用頻譜特征的局部結構信息進行建模,采用了權值共享和池化技術,具有更強的廣泛性和魯棒性[12]。例如,Ossama Abdel-Hamid等人在傳統DNN的基礎上添加了CNN,在TIMIT語音庫進行實驗,與只使用傳統DNN的方法相比較,識別錯誤率在其基礎上降低了10%以上[13]。長短時記憶神經網絡(Long Short Term Memory Network,LSTM)在聲學方面體現了強大的建模能力。Hasim Sak等人通過實驗證明,LSTM相比較于DNN和傳統循環神經網絡,更適合對大規模語音進行聲學建模[14]。TN Sainath等人提出一種結合CNN、LSTM的應用于語音識別任務的神經網絡模型“CLDNN”,一方面,CNN能夠降低頻域方向的維度,另一方面,LSTM能夠學習信號長時依賴,有效提取時域信息[15]。

CNN和LSTM已經被成功應用到語音情感識別領域中。CNN可以從低層特征中學習提取相應的情感特征,并且取得比現有的基于高層特征的模型更高的效果。例如,以原生語音信號作為輸入的基于1維卷積神經網絡(1D-CNN)的端到端語音情感識別方法[16]和以語音信號頻譜圖作為輸入的分別基于利用2維卷積(2D-CNN)和3維卷積(3D-CNN)提取情感特征的方法[17-18]。利用LSTM在時域上的建模能力,學習提取語音信號上下文信息特征,基于LSTM的實時語音情感識別方法也被提出[19]。

本文提出一種基于CNN和LSTM的語音情感識別算法,算法流程如圖1,應用在非特定人的語音情感識別中。算法通過提取語音信號的梅爾頻域特征作為輸入,利用CNN和LSTM提取頻域和時域特征,實現語音情感分類。

圖 1算法流程Fig. 1 Algorithm flow

1 預處理

傳統的語音情感識別技術建立在高層語音特征的基礎上,但是高層語音特征丟失了大量的原始信息。利用深度學習方法可以從低層語音特征中提取相關的情感特征,因此,在本文提出的情感識別算法中,以語音信號的梅爾頻譜特征代替高層特征。算法中語音信號預處理過程如下:

1)對語音信號重采樣,采樣率為16000 Hz;

2)對語音信號進行分幀處理,為保證幀與幀之間的平滑過渡,對語音交疊分幀,幀長為512點,幀疊為256點,加漢明窗,得到單幀的短時信號x(n);

3)對每幀信號進行快速傅里葉變換(FFT),得到頻域數據X(i,k),如公式(1);

4)求功率譜E(i,k),如公式(2);

5)計算功率譜在一組梅爾濾波器(40個)中的能量,并將得到的結果取對數,即得到梅爾頻譜特征。

本文的語音信號處理使用基于python語言實現的librosa語音信號處理庫。經過預處理過程得到低層語音特征,即梅爾頻譜特征作為神經網絡的輸入,使得語音信號中大量的原始信息得以保留。算法以連續的30個時間步作為一個樣本輸入,每個時間步包括連續10幀的語音信號。

2 卷積神經網絡提取特征

CNN由卷積層和池化層組成,具有局部感知、權值共享和池化的特征。卷積層中包含若干個濾波器,當使用梅爾頻譜特征作為模型輸入,每個濾波器作用于整一張梅爾頻譜圖,共享相同的權重和偏置,通過卷積操作提取局部特征,卷積結果為特征圖輸出。

算法利用2D-CNN對單一時間步的語音信號梅爾頻譜特征進行特征提取,過程如圖2所示。算法使用3個2維卷積層(Conv2D)層,每個卷積層的濾波器個數均為32,為了提高模型性能,濾波器形狀均為矩形[17],大小為(2,3)。在第二個和第三個卷積層后都接著2維池化層(MaxPooling2D),大小分別為(2,2)和(1,2)。2D-CNN作用在連續10幀語音信號上,不僅可以提取頻域方向特征,還可以提取短時域方向的特征。

圖 2單個時間步2D卷積特征提取Fig. 2 Conv2D feature extraction of each time step

3 長短時記憶神經網絡提取特征

LSTM的核心是細胞狀態,其獨特的門控機制控制信息的選擇性通過進而控制細胞狀態的改變。LSTM記憶單元結構如圖3,包括三個門控單元,即遺忘門、輸入門和輸出門。記憶單元結構中相關公式如式 (4)~(8):

其中,ft為遺忘門信號,gt為輸入門信號,st為細胞狀態,qt為輸出門控制信號,ht為細胞輸出,xt為輸入信號;bf、bg、bs和bq為偏置;為Wfx、Wgx、Wsx和Wqx為與連接權重;Wfh、Wgh、Wsh和為與ht?1連接權重。

將每個時間步的語音信號經過卷積神經網絡的特征提取操作后,把每個時間步的特征數據一維化,得到的數據維度為(30,768),30為時間步個數,768為每個時間步一維化后的特征大小。算法使用2個LSTM層,每層的記憶單元個數均為256。以每個時間步一維化后的特征數據作為LSTM的輸入,第一個LSTM層返回其全部輸出序列,維度為(30,256)。第二個LSTM層則返回其輸出序列的最后一步結果,維度為256。通過兩個LSTM層,可以學習語音信號上下文信息,提取長時域特征。

圖 3 LSTM記憶單元Fig. 3 Memory unit

4 情感分類

本文提出的算法的情感分類結果包括“生氣”、“高興”、“中性”和“悲傷”,語音情感分類神經網絡結構如圖4所示,神經網絡模型使用基于tensorflow的keras框架實現,利用框架中的時間步包裝器將CNN的特征提取操作應用到輸入的每個時間步的梅爾頻譜特征上,再利用LSTM對所有時間步進行長時域建模,以此得到維度為256的特征數據。為了對提取到的頻域和時域特征進行更好的處理,以更適合分類[20],在LSTM后接著一個神經元個數為128的全連接層,在全連接層后接一個Dropout層(ratio=0.2)避免過擬合[21]。然后,將全連接層的輸出經過Softmax層得到情感分類結果。

為了避免過擬合,在訓練過程使用了早停機制[22],最大迭代次數為100,若連續3次迭代的驗證集準確率不上升,則停止訓練。為了體現算法應用于非特定人環境下,使用來自不同人的三個情感語音數據集分別作為模型訓練集、驗證集和測試集。

圖 4情感分類神經網絡Fig. 4 Emotion classification neural network

5 實驗及結果

5.1 數據及實驗說明

本文使用的語音情感語料庫為IEMOCAP[23],該語料庫由十個演員錄制而成,包括五個小節,每個小節的語音分別來自一個男性和一個女性,總時長為12小時。本文選取標簽為“生氣”、“高興”、“中性”和“悲傷” (將“興奮”類別歸到“高興”類別中)的語音進行實驗。

參考文獻[24]的實驗策略,每次實驗使用其中四個小節作為訓練集,使用剩余一個小節中一個人的語音作為驗證集,另一個人作為測試集,以此類推重復十次實驗。本文使用十次實驗中四情感預測準確率的平均值作為對應情感的最終預測準確率,使用十次實驗的平均加權準確率(即先求得十次次實驗得到的四種情感預測準確率的加權平均值,再求所得加權平均值的平均值)作為情感預測性能衡量標準。

除了對本文提出的算法進行實驗“2D-CNN-LSTM”外,還包括以下對比實驗,所有實驗均以300幀語音信號的梅爾頻譜特征作為輸入:

1) 為了研究在將語音信號梅爾頻譜特征輸入到LSTM進行時域建模之前,先經過CNN進行特征提取操作對情感分類準確率的 影響,設置實驗“LSTM”進行對比,該實驗直接梅爾頻譜特征作為LSTM的輸入;

2) 為驗證在結合CNN與LSTM的方法中,在CNN部分使用2D-CNN是否能比使用1D-CNN取得更好的預測結果,設置實驗“1D-CNN-LSTM”進行對比。實驗將本文算法中的2D-CNN替換為1D-CNN,卷積層濾波器大小為3,池化尺寸為2,將輸入數據劃分為300個時間步,即每個時間步為1幀,在每個時間步內使用1D-CNN提取頻域特征。

3) 為了探索最適合2D-CNN-LSTM的LSTM層數,分別將LSTM層數改為1和3以學習不同層次的時域特征,進行實驗“2D-CNN-LSTM1”和“2D-CNN-LSTM3”。

5.2 實驗結果分析

經過實驗所得平均加權準確率如表格1所示。

表1 實驗準確率Tab. 1 Experimental accuracy

LSTM比普通循環神經網絡更易于學習信號的長期依賴關系,避免了普通循環神經中的梯度消失問題[25],適合于對復雜多變的語音時序信號進行建模。由實驗結果可以得知,單獨使用LSTM的方法在對四種情感的分類任務中,取得了48.7%的情感預測準確率。相比較于DNN和GMM,CNN具有類內收斂和類間發散的特點,在語音建模中具有更優的性能和魯棒性。在卷積過程中,卷積層可以對輸入語音信號降低噪聲維度上的差異,池化層可以解決由于非特定人發生習慣差異造成的信號差異的問題[26]。實驗中,結合了CNN與LSTM的方法的情感預測性能均高于單獨使用LSTM的方法,表明將語音信號輸入到LSTM進行時域建模之前先經過CNN進行特征提取可以提高預測性能。在結合CNN與LSTM的方法中,使用2D-CNN的方法比使用1D-CNN的方法高出2.9%的準確率,表明在使用卷積神經網絡進行特征提取時,同時對短時域與頻域特征提取比只對頻域特征提取可以取得更好的效果。另外,增加LSTM層數可以提取更高層次的時域特征,使用多層LSTM的預測結果優于只使用1層LSTM,,預測性能有所提升。3層LSTM比2層LSTM提高了0.1%的準確率,但同時增加了系統計算量。

如表格2,本文的算法即“2D-CNN-LSTM”的與使用相同語料庫和相同實驗策略的文獻[24]實驗結果相比較,對于標簽為“生氣”、“高興”的預測準確率高于該文獻,標簽為“中性”、“悲傷”的預測準確率則低于該文獻,但平均加權準確率比其提升了1.3%,證明本文提出的算法的有效性。

表2 與其他文獻比較Tab. 2 Compared with other literature

6 結語

經過實驗證明,本文提出的算法對非特定人的語音情感具有較好的識別性能。算法結合了CNN和LSTM,利用CNN對語音信號進行短時域特征和頻域特征的提取,利用LSTM進行長時域特征的提取,可以在低層語音特征中學習提取情感特征,實現語音情感分類。

[1] YI Z, LIU C L, TAN T N. Retrospect and Outlook of Brain-Inspired Intelligence Research[J]. Chinese Journal of Computers, 2016, 39(1).

[2] 韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述.軟件學報,2014,25(1):37-50. Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014,25(1):37?50.

[3] EYBEN F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia.ACM, 2010:1459-1462.

[4] SCHULLER B, Valstar M, EYBEN F, et al. AVEC 2011–The First International Audio/Visual Emotion Challenge[C]//International Conference on Affective Computing and Intelligent Interaction. Springer-Verlag, 2011:415-424.

[5] VALSTAR M, COWIE R, PANTIC M. AVEC 2012: the continuous audio/visual emotion challenge - an introduction[C]//ACM International Conference on Multimodal Interaction. ACM, 2012:361-362.

[6] DAHAKE P P, SHAW K, MALATHI P. Speaker dependent speech emotion recognition using MFCC and Support Vector Machine[C]//International Conference on Automatic Control and Dynamic Optimization Techniques. IEEE, 2017:1080-1084.

[7] MILL A, ALLIK J, REALO A, et al. Age-related differences in emotion recognition ability: A cross-sectional study[J]. Emotion, 2009,9(5):619-630.

[8] VOGT T, ANDRE E. Improving automatic emotion recognition from speech via gender differentiation[C]// 2006.

[9] MOHAMED A, DAHL G E, HINTON G. Acoustic Modeling Using Deep Belief Networks[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 20(1):14-22.

[10] MORGAN N. Deep and Wide: Multiple Layers in Automatic Speech Recognition[J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(1):7-13.

[11] HINTON G, DENG L, YU D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine, 2012, 29(6):82-97.

[12] ABDEL-HAMID O, DENG L, YU D. Exploring Convolutional Neural Network Structures and Optimization Techniques for Speech Recognition[C]// Interspeech, 2013:3366-3370.

[13] AEDEL-HAMID O, MOHAMED A R, JIANG H, et al. Applying Convolutional Neural Networks concepts to hybrid NN-HMM model for speech recognition[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2012:4277-4280.

[14] SAK H, SENIOR A, BEAUFAYS F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling[J].Computer Science, 2014:338-342.

[15] SAINATH T N, VINYALS O, Senior A, et al. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2015:4580-4584.

[16] Trigeorgis G, Ringeval F, Brueckner R, et al. Adieu features? End-to-end speech emotion recognition using a deep convolutional recurrent network[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2016.

[17] BADSHAH A M, RAHIM N, ULLAH N, et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools & Applications, 2017(3):1-19.

[18] KIM J, TRUONG K P, ENGLEBIENNE G, et al. Learning spectro-temporal features with 3D CNNs for speech emotion recognition[J]. 2017.

[19] EYBEN F, W?LLMER M, GRAVES A, et al. On-line emotion recognition in a 3-D activation-valence-time continuum using acoustic and linguistic cues[J]. Journal on Multimodal User Interfaces, 2010, 3(1-2):7-19.

[20] MOHAMED A R, HINTON G, PENN G. Understanding how Deep Belief Networks perform acoustic modelling[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2012:4273-4276.

[21] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1):1929-1958.

[22] PRECHELT L. Automatic early stopping using cross validation: quantifying the criteria[J]. Neural Networks the Official Journal of the International Neural Network Society, 1998, 11(4):761-767.

[23] BUSSO C, BULUT M, LEE C C, et al. IEMOCAP: interactive emotional dyadic motion capture database[J]. Language Resources & Evaluation, 2008, 42(4):335.

[24] GHOSH S, LAKSANA E, Morency L P, et al. Representation Learning for Speech Emotion Recognition[C]// Interspeech. 2016:3603-3607.

[25] JOZEFOWICZ R, ZAREMBA W, SUTSKEVER I. An empirical exploration of recurrent network architectures[C]//International Conference on International Conference on Machine Learning. JMLR.org, 2015:2342-2350.

[26] Mao Q, Dong M, Huang Z, et al. Learning Salient Features for Speech Emotion Recognition Using Convolutional Neural Networks[J]. IEEE Transactions on Multimedia, 2014, 16(8):2203-2213.

猜你喜歡
特征信號情感
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
如何在情感中自我成長,保持獨立
完形填空二則
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
主站蜘蛛池模板: 国产精品无码翘臀在线看纯欲| 亚洲女同一区二区| 国产性猛交XXXX免费看| 91尤物国产尤物福利在线| 亚洲欧美日韩另类| 97超级碰碰碰碰精品| 国产精品漂亮美女在线观看| 97色伦色在线综合视频| 国内精品伊人久久久久7777人| a毛片在线播放| 久久精品国产精品青草app| 狠狠做深爱婷婷综合一区| 日本成人一区| 国产午夜一级淫片| 99在线视频精品| 久久久久亚洲精品成人网| 尤物视频一区| 97国产精品视频自在拍| 亚洲va精品中文字幕| 国产成人1024精品下载| 久久网欧美| 亚洲视屏在线观看| AV无码无在线观看免费| 欧美性精品不卡在线观看| 亚洲中文字幕在线一区播放| 亚洲综合一区国产精品| 97久久免费视频| 日韩在线播放欧美字幕| 在线免费观看AV| 99精品福利视频| 国产精品一区二区不卡的视频| 国产第一页第二页| 日韩在线网址| 国产在线91在线电影| 中文字幕 日韩 欧美| 国产jizzjizz视频| 夜夜操国产| 国产一区二区人大臿蕉香蕉| 99久久国产自偷自偷免费一区| 日韩精品久久久久久久电影蜜臀| 色成人亚洲| 亚洲熟妇AV日韩熟妇在线| 免费 国产 无码久久久| 欧美在线中文字幕| 女人av社区男人的天堂| www.youjizz.com久久| 国产成人综合久久精品下载| 日韩黄色大片免费看| 国产黄在线免费观看| 成人午夜久久| 国产黄在线免费观看| 四虎成人在线视频| 免费无遮挡AV| 欧美日韩一区二区在线免费观看| 黄色网在线免费观看| a级毛片一区二区免费视频| 国产精品久久久精品三级| 91免费国产在线观看尤物| 九九热在线视频| 丁香六月激情婷婷| 国产理论精品| 超碰aⅴ人人做人人爽欧美 | 美女亚洲一区| 2021最新国产精品网站| 欧美激情综合| 亚洲福利片无码最新在线播放| 国产内射一区亚洲| 玩两个丰满老熟女久久网| 2020久久国产综合精品swag| 国产一级在线播放| 中文字幕不卡免费高清视频| 丁香婷婷久久| 中文字幕不卡免费高清视频| 玖玖精品在线| 国产91精选在线观看| 人妻无码中文字幕一区二区三区| 国产91线观看| 国内嫩模私拍精品视频| 亚洲成人网在线播放| 日韩 欧美 国产 精品 综合| 亚洲欧洲天堂色AV| 福利在线不卡|