999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

全卷積循環神經網絡的語音情感識別

2021-11-08 08:50:20姜芃旭
聲學技術 2021年5期
關鍵詞:數據庫特征情感

朱 敏,姜芃旭,趙 力

(1.常州信息職業技術學院電子工程學院,江蘇 常州 213164;2.東南大學信息科學與工程學院,江蘇 南京 210096)

0 引 言

語言學家專注于從語音中探索潛在的信息,代表說話者或聲音中間體的狀態。作為副語言學中的一項情感任務,語音情感識別技術通過電腦來對輸入的情感特征做出判別。作為人機語音交互的重點之一,語音情感識別的相關技術在近年來受到了廣泛的關注[1]。語音情感識別有著廣闊的研究前景,大量學者對副語言學的研究促使情感識別研究取得了突出的進展。隨著計算機性能的逐步提升以及相關語音情感研究內容的不斷突破,語音情感技術開始不斷應用在各個行業中。作為語音在人工智能發展中的主要分支,語音情感識別的相關研究具有重要的意義。

作為語言情感識別系統中最重要的一步,情感特征提取決定了整個系統對不同情感的識別效果。語言情感識別的核心課題之一便是從語音中提取顯著的情感特征[2]。傳統的語音情感特征包括譜相關特征、超音質特征和語音質量特征[3]。由于語音本身復雜的內在因素,手工制作的特征目前難以描述更精細的特征表示,如何提高語言情感識別的性能依然是一個挑戰。

深度學習網絡[4]近年來在表達特征方面表現出了突出的性能,相關的最新研究為語音情感識別提供了更好的描述語音中情緒狀態的深度模型。與手工設計的特征相比,神經網絡通過自動學習的方式提取的深層特征具有更多的內在信息。目前,大量基于神經網絡和深度學習方法在語音情感識別中應用[5],通過設計和開發相應的網絡模型,提高了語音情感識別的研究水平,并且一些相關網絡已經成功地應用于語音情感識別中的特征學習[6-8]。相關神經網絡的成功應用,促使我們利用相關網絡對語音信號進行深層研究,因此我們需要解決一些現有系統中存在的問題。

首先,每個語音文件的長度基本都不相同,但大多數的神經網絡模型需要固定的輸入,有必要在不丟失情感細節的前提下設計適當的輸入來滿足模型的要求。其次,以往的很多情感識別的相關研究都是采用串聯的方式來連接不同的神經網絡模型,模型間的呈遞關系可能會失去一些情感細節。

對此,本文提出了一種針對語音情感識別的FCN+LSTM模型。將譜圖和幀級兩種不同功能的特征作為模型的輸入。不同于傳統模型之間的呈遞關系,FCN+LSTM模型采用并行的連接方式,以獲得更好的情感細節。全卷積神經網絡(Fully Convolutional Network,FCN)模塊[9]可以捕獲譜特征中的時頻相關信息。同時,由于長短期記憶(Long Short-Term Memory,LSTM)模型[10]可以接受不同長度的輸入,采用幀級特征作為輸入可以更好地彌補因壓縮譜圖大小而在FCN模塊中丟失的時間細節。使用加權融合的方式分別對兩個模塊的輸出連接到一個可訓練的權重層后進行融合,最后,使用分類器對不同情感進行分類。不同的對比實驗證明了所提模型的優越性。

1 全卷積循環神經網絡

本文的語音情感識別系統框圖如圖1所示。首先,分別從語音的原始波形中提取出譜圖特征和幀級特征,然后分別在FCN和LSTM模塊中進行學習,最后將不同模塊的輸出融合后進行分類。

圖1 基于FCN+LSTM的語音情感識別系統框圖Fig.1 Block diagram of the FCN + LSTM based speech emotion recognition system

1.1 特征提取

譜圖特征是目前語音識別中的一個熱門特征,該特征綜合考慮了頻率和時間的關系,包含更多的相關參數,表達情感更加直觀,可以提取到更多的情感信息。對語音信號進行預加重、加窗、快速傅里葉變換,并將信號通過一組三角濾波器來提取出譜圖特征[11]。同時,為了從語音中提取出更多的情感信息,將三維譜圖特征作為FCN的輸入,三維譜圖特征由原始譜圖以及其一階導數和二階導數組合而成。在本文中,使用64組濾波器,25 ms的漢明窗以及10 ms的重疊來獲取譜圖特征,三維譜圖特征作為 FCN模塊的輸入。為了加速訓練效果并提高模型性能,預訓練的AlexNet作為初始化模型,由于AlexNet需要固定的輸入,所以使用雙線性差值的算法將每段譜圖特征以及其一階導數和二階導數的大小調整為227×227。

大多數神經網絡需要在特征輸入網絡前對其進行處理,使所有特征保持統一的輸入大小,語音數據不同于圖像數據,每一個語音文件可能有著不同的時長,為了將不同時長的語音輸送進神經網絡中,常用的方法是將語音信號切割成同樣大小的片段作為輸入[7-8]。但是不完整的情感細節的輸入特征可能會導致模型的魯棒性下降,并且在卷積的計算過程中可能會丟失語音的時間相關信息。因為使用的是預訓練的AlexNet模型,網絡對輸入特征的要求為 227×227×3,由于我們將 n×64×3的特征利用雙線性差值變為227×227×3,n為每段語音的幀長,不同語音的幀長可能并不相同,由于幀長的拉伸或者壓縮一定程度上造成了原有特征中的時間相關信息的丟失。為了解決這個問題,同時使用融合的幀級特征作為LSTM模塊的輸入特征,來補足在卷積過程中丟失的時間信息。獲取幀級特征的參數與三維譜圖特征相同,同樣使用 64組梅爾濾波器,25 ms的漢明窗以及10 ms的重疊來獲取幀級特征。其中幀級特征中的每幀不同的特征號如表1所示。其中前 30維幀數分別為梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)及其一階導參數,后 50維幀數分別為譜圖特征及其一階導參數,80維的幀級特征作為LSTM模塊的輸入特征,每幀中包含更豐富的信息量,可以讓LSTM獲得更多的情感信息。圖2為兩模塊輸入特征的特征圖。

表1 幀級特征中的基本特征Table 1 Basic feature of frame-level features

1.2 FCN模塊

FCN模塊用于從譜圖特征中提取情感細節。卷積層和池化層是卷積網絡的主要組成部分。其中,卷積中不同層間的連接通過卷積核操作。不同于深度神經網絡中的全連接操作,卷積層中每一個卷積核都采用局部連接的方式連接不同層,也就是每一個像素點都只包含上一層中的規定大小區域的信息,并且每層卷積中可以由多個卷積核組成,每個卷積核的特征映射可以表示為

池化層一定程度上規避了過擬合,池化層中的窗口化計算與卷積層中相同,計算特征對于窗口的最大、最小值進行,池化算法可以表示為

圖3 FCN網絡結構Fig.3 FCN network structure

表2 卷積網絡模塊的詳細參數Table 2 Detailed parameters of convolution net module

使用平均池化為本模塊的池化方式以更好地獲取最后一層池化層中抽象的特征表示。同時,平均池化層可以減少大量的參數,減輕網絡的復雜度,緩解過擬合。通過層間算法運算,將輸入數據抽象為高級特征表示。同時,對整個網絡在結構上做正則化防止過擬合,FCN每一層模塊的詳細輸出參數如表3所示。

表3 FCN模塊參數Table 3 Parameters of FCN module

1.3 LSTM模塊

LSTM內部實現了一個更精細的內部單元來有效地存儲和更新信息。xt、ht-1和ct-1分別表示當前時刻的輸入,上一時刻的輸出和上一時刻的單位狀態。ht和ct分別表示當前時刻的輸出和當前狀態。LSTM通過不同門函數之間的運算來更新內部參數。忘記門用于決定單元需要丟棄的信息,可用式(4)表示:

式中:bf和Wf分別代表偏差和權重;σ是Sigmoid激活函數;遺忘門ft通過讀取當前時刻的輸入xt和單元狀態ht-1,輸出介于“0”和“1”之間的值??捎檬剑?)、式(6)表示:

圖4 LSTM模塊展開形式Fig.4 Expansion form of LSTM module

LSTM動態處理每幀數據的方式彌補了在卷積網絡中由于壓縮或拉長輸入數據而造成的時間信息丟失。

最后將兩個模塊中同時訓練的特征進行融合,使用SoftMax分類器進行分類。所有模塊同時進行訓練,以保證模型可以獲得最佳的學習能力。

2 實驗結果及分析仿真數據庫

2.1 仿真數據庫

2.1.1 中國科學院自動化研究所漢語情感語料庫

中國科學院自動化研究(Institute of Automation,Chinese Academy of Sciences,CASIA)數據庫[12]是為研究情感語音所設計的語料,由4位專業發音人在純凈的錄音環境下錄音,包括6種情緒,分別為驚訝(surprise)、憤怒(anger)、悲傷(sadness)、恐懼(fear)、中性(neutral)和快樂(happy)。共1 200句不同的發音,50句相同文本。

2.1.2 柏林德語情感語音庫

柏林德語情感語音庫(Berlin Emotional Database,Emo-db)[13]是柏林大學錄制的德語語音情感數據庫,數據庫由10名演員(5男、5女)錄制而成,包含了7種不同情感,分別為生氣(anger)、高興(joy)、害怕(fear)、悲傷(sadness)、厭惡(disgust)、無聊(boredom)和中性(nertral)。共包含535條語句。

2.2 參數設定

本實驗在CASIA庫上采用1 200句6種情感中的1 080句作為訓練數據,其余的作為測試數據,在Emo-db庫上選取535句7種情感中的481句作為訓練數據,其余作為測試數據,實驗重復 10次并取均值來減少誤差,每一輪實驗中所有對比實驗的數據集劃分相同。采用非加權準確率(Unweighted Accuracy,UA)[14]作為實驗的評價標準。

本實驗采用 Windows 10操作系統,顯卡為GTX 1080 ti,使用Python語言編碼,深度學習庫為Tensorflow。FCN與LSTM的輸出維度為1 024,其中全局池化層采用平均化池化策略,dropout設置為0.7,訓練過程中的學習率設置為0.000 1,迭代次數設置為200。

3 仿真實驗

由于對CNN的網絡結構進行了修改,使其變為全卷積網絡。為了驗證修改模型的優越性,首先在AlexNet和本文所改進的FCN中對兩個數據庫進行對比實驗,實驗中采用相同的模型參數,其中AlexNet表示為CNN。FCN中刪除了原網絡中的全連接層,最后一層池化層后加入了一層1×1大小的卷積層和平均池化層,兩庫中測試集的UA隨迭代次數的變化如圖5所示。在兩模型的對比實驗中可以看出,改進的 FCN模型相較于原始卷積網絡模型具有更好的識別效果。在 CASIA和 Emo-db數據庫中可以看出,CNN網絡在收斂過程中具有較大的起伏,而FCN相較于CNN在迭代過程中的波動較小,說明改進后的網絡更加穩定。兩模型的實驗準確率如表4所示,實驗結果顯示,FCN在兩數據庫中的測試結果分別為78.6%和81.4%,相較于CNN網絡準確率分別提升了5.8個百分點和6.4個百分點,準確率有明顯的提升,證明改進的模型相較于傳統的CNN模型有著更好的識別性能。

圖5 兩個數據庫中以譜圖特征為輸入的CNN和FCN測試非加權準確率(UA)的對比Fig.5 Comparison of the UA values of the spectrograph features in the two databases tested by CNN and FCN

表4 CASIA和Emo-db數據庫中以譜圖特征為輸入的CNN和FCN測試的非加權準確率(UA)Table 4 The UA values of the spectrograph features in CASIA and Emo-db databases tested by CNN and FCN

在傳統的語音識別模型中,LSTM通常是作為最后的特征整合模型,這種模型間的串聯關系可能會使得 LSTM 在特征學習的過程中流失一部分情感。為了更好地獲取語音中的情感細節,本模型采用80維的幀級特征作為LSTM的輸入特征并直接進行特征提取以盡可能地減少過于復雜的模型中情感細節的流失。為了驗證所提取的特征性能,LSTM模塊使用64維幀級特征進行對比,64維幀級特征為譜圖特征,使用64組濾波器,25 ms的漢明窗以及 10 ms的重疊來獲取。兩庫中測試集的UA隨迭代次數的變化如圖6所示,測試準確率如表5所示。從兩個輸入的對比實驗中可以看出,在CASIA數據庫中,80幀級特征作為LSTM的輸入與64維特征作為LSTM的輸入的收斂曲線十分接近,并且UA的提高也不明顯。但是在Emo-db數據庫中,80為幀級特征作為輸入具有較大的優勢。相較于64維幀級特征作為輸入的準確率提升了5.1個百分點。

圖6 兩個數據庫中64維和80維幀級特征為輸入的LSTM測試的非加權準確率(UA)的對比Fig.6 Comparison of the UA values of the 64D and 80D frame-level features in the two databases tested by LSTM

表5 兩個數據庫中64維和80維幀級特征作為LSTM模型輸入的測試UA值比較Table 5 Comparison of the UA values of the 64D and 80D frame-level in the two databases tested by LSTM

最后,將所設計完整的模型 FCN+LSTM 與FCN模塊和LSTM模塊相比較,同時,CNN+LSTM+幀級特征(64維)也加入對比實驗來驗證不同模塊的并行效果。本文使用了加權的融合方式對不同模塊的輸出進行融合,為了驗證該融合方法相較于普通融合方法的優越性,FCN+LSTM+幀級特征(80維)+加權融合也同樣加入到對比實驗中。兩個數據庫中測試集的UA隨迭代次數的變化如圖7所示。從圖中可以看出,在兩個數據庫中,所有的實驗經過200次的訓練后測試集都趨于穩定,并且本文中所設計的 FCN+LSTM+幀級特征(80維)+加權融合的模型相較于其他模型可以更快地收斂。表6顯示了所有實驗的對比情況。

圖7 所有的非加權準確率(UA)測試值隨迭代次數變化的曲線Fig.7 Variation curves of all tested UA values with iteration times

實驗結果如表6所示,FCN+LSTM+幀級特征模型相較于單一的FCN模型和LSTM模型對情感都有著更好的識別效果,說明并行的模型結構確實可以提升模型的準確率。同時改進的模型FCN+LSTM+幀級特征(80維)相比于CNN+LSTM+幀級特征(64維)的性能也有所提升,兩個數據庫中的UA值分別提升了1.6個百分點和0.6個百分點。說明對CNN模型的改進以及LSTM輸入特征的提取對并行模型的性能改善同樣是有效的,也說明我們針對不同模塊所設計的不同輸入是合理的。最后,我們所設計的 FCN+LSTM+幀級特征(80維)+加權融合的模型在所有實驗中取得了最好的實驗效果,與不使用加權融合的FCN+LSTM+幀級特征(80維)的模型相比,兩個數據庫中的UA值分別提升了3.4個百分點和4.9個百分點,實驗效果顯著,驗證了所提出的對不同模塊的輸出分別進行權重計算的重要性。實驗結果證明了在我們所設計的并行多輸入模型中,在 FCN模塊學習語音數據的時頻相關細節的同時,LSTM模塊補足了在卷積過程中所丟失的時間信息,并通過對不同模塊的輸出分別加權的特征融合方式,較好地融合了不同特征。

表6 不同模塊測試的非加權準確率(UA)對比Table 6 Comparison of the UA values tested by different modules

同時,本文還對一些相似的方案進行了對比。文獻[15]、[16]同樣提出了一種LSTM和CNN的語音情感識別方法。文獻[15]提取譜圖特征作為LSTM的輸入,利用CNN提取更高層的情感特征。文獻[16]同樣是提取譜圖特征作為輸入,但采用的是CNN-LSTM的連接方式,文獻[15]、[16]均采用串行結構連接LSTM和CNN模型。與文獻[15]、[16]不同的是,首先使用的是并行結構來連接兩個不同的模塊,其次,不同模塊的輸入是不同的。為了驗證所設計模型的優越性,在相同的實驗條件下對不同模型進行了對比,結果如表7所示。

從表7中可以看出,相較于文獻[15]、[16]中的串行結構,本文所采用的并行結構模型具有較大的優勢。兩個情感數據庫的UA有大幅的提高,相較于文獻[15],兩個數據庫的UA分別提高了8.1個百分點和9.6個百分點,相較于文獻[16],兩個數據庫的UA分別提高了4.7個百分點和3.6個百分點,說明本文改進的模型結構以及算法的優化是合理的,可以顯著地提升語音情感識別系統的性能。

表7 不同算法測試的非加權準確率(UA)對比Table 7 Comparison of the UA values tested by different algorithms

4 總 結

本文提出了一種全卷積循環神經網絡模型,采用多輸入并行的模型組合方法對特征進行學習。利用FCN模塊學習語音譜圖特征中的時頻相關信息,同時利用LSTM模塊來學習語音的幀級特征,以補充模型在 FCN學習過程中缺失的時間相關信息,特征融合后使用分類器進行情感分類。在兩個公開的情感數據集上的實驗證明了該方法的優越性。

猜你喜歡
數據庫特征情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 色香蕉影院| 欧美亚洲一二三区| 亚洲精品午夜天堂网页| 久久成人免费| 欧美不卡视频一区发布| 亚洲国产日韩欧美在线| 亚洲黄网视频| 欧美五月婷婷| 一区二区自拍| 丁香五月婷婷激情基地| 日韩A∨精品日韩精品无码| 国产精品视频猛进猛出| 美女一级毛片无遮挡内谢| a级毛片在线免费| 色婷婷天天综合在线| 国产精品亚欧美一区二区三区 | 91最新精品视频发布页| 国产白浆视频| www中文字幕在线观看| 秘书高跟黑色丝袜国产91在线 | 国产美女视频黄a视频全免费网站| 亚洲人成影院在线观看| 国产91丝袜在线观看| 色噜噜狠狠狠综合曰曰曰| 欧美日本在线一区二区三区| 国产精品3p视频| www.亚洲一区| 在线另类稀缺国产呦| 992Tv视频国产精品| 韩国v欧美v亚洲v日本v| 亚洲最新在线| 国产免费人成视频网| 麻豆精选在线| 99在线视频精品| 亚洲天堂久久新| 丝袜久久剧情精品国产| 欧美三级不卡在线观看视频| 77777亚洲午夜久久多人| 制服丝袜在线视频香蕉| 亚洲色无码专线精品观看| 欧美国产精品不卡在线观看 | 青青草原国产一区二区| 国产超碰一区二区三区| 国产精品福利在线观看无码卡| 黄色网在线免费观看| 成人日韩精品| 日韩国产高清无码| 久久久波多野结衣av一区二区| 国产理论一区| 国产91久久久久久| 国产18页| 久久人体视频| 在线日本国产成人免费的| 高清免费毛片| 中文字幕色在线| 最新国产在线| 午夜国产理论| 精品丝袜美腿国产一区| 57pao国产成视频免费播放| 五月天香蕉视频国产亚| 日韩精品免费一线在线观看| 日韩福利视频导航| 国产精品专区第1页| 青青草原偷拍视频| 亚洲黄色成人| 亚洲狼网站狼狼鲁亚洲下载| 日本成人精品视频| 午夜福利视频一区| 97成人在线视频| 欧美在线视频a| 国产精品主播| 久久久久夜色精品波多野结衣| 亚洲欧洲天堂色AV| 亚洲午夜综合网| 曰韩人妻一区二区三区| 四虎影视库国产精品一区| 日本成人在线不卡视频| 99在线视频免费| 国产丝袜丝视频在线观看| 伊人久久婷婷| 夜精品a一区二区三区| 久久一色本道亚洲|