王瑋蔚 張秀再
(1 南京信息工程大學電子與信息工程學院 南京 210044)
(2 江蘇省大氣環境與裝備技術協同創新中心 南京 210044)
在多種通信方式中,語音信號是人與人、人與機器通信最快的自然方法。人類甚至可以從語音交流中感覺到說話人的情緒狀態。語音情感是分析聲音行為的一種方法,是指各種影響(如情緒、情緒和壓力)的指針,側重于語音的非言語方面。在這種情況下,語音情感識別的主要挑戰是提取一些客觀的、可測量的語音特征參數,這些參數可以反映說話人的情緒狀態。近年來,語音情感識別在人機通信、機器人通信、多媒體檢索等領域得到了廣泛關注。語音情感識別研究主要是利用語音中的情感和語音特征的統計特性,進行一般定性的聲學關聯[1?2]。
語音情感識別的主要工作為語音情感特征提取和分類網絡模型選擇。當前國內外的研究方向多為分類網絡模型選擇,而情感特征提取方向研究內容較為匱乏,因此,提取有效的語音情感特征也是當前語音情感識別的關鍵任務。2004年,Ververidis等[3]從能量、基音和語音頻譜的動態行為中提取出87個靜態特征,并提出了譜平坦度測度與譜中心的比值作為說話人獨立的特征,利用幀級特征、基音周期、能量和Mel倒譜系數(Mel frequency cepstral coefficents, MFCC)對性別和情感進行了層次分類。2011年,Sun 等[4]將Teager 能量中提取的小波系數引入到語音情感識別中。2008年,韓一等[5]將MFCC 參數作為特征對語音情感進行識別,也取得了較好的結果。
2011年,He 等[6]首先將經驗模態分解(Empirical mode decomposition, EMD)引入到語音情感識別中。2015年,Sethu等[7]利用EMD將語音進行分解,以分解得到的固有模態函數(Intrinsic mode functions, IMF)分量進行語音分類。Shahnaz 等[8]將EMD 和小波分析相結合,通過選取主導IMF 分量,不僅減少了計算負擔,而且避免包含冗余或信息量較少的數據,得到了80.55% 的語音情感識別準確率。向磊[9]將集合固有模態函數(Ensemble empirical mode decomposition, EEMD)和希爾伯特(Hilbert)邊際譜相結合,有效地解決了傳統EMD分解帶來的模態混疊問題。
為了提高語音情感特征識別性能,解決基于EMD 和EEMD算法的語音情感特征模態混疊和計算量過大的缺點,本文將變分模態分解(Variational modal decomposition, VMD)方法引入到語音情感特征提取中[10],提出基于VMD 分解的語音情感特征,采用極限學習機(Extreme learning machine,ELM)將本文特征與語音基音特征、譜特征作為分類特征進行實驗。結果表明,相較于傳統語音特征以及基于EMD、EEMD的語音情感特征,本文提出的特征能更好地表示語音的情感特征,提高了語音情感的識別準確率。
VMD 方法與反復循環剝離進行模態函數分解的EMD 方法不同,VMD 通過對變分模型的最優極值求解,實現自適應地獲取IMF,在迭代過程中不斷更新每個IMF分量的中心頻率和帶寬[10?11]。
IMF分量表達式為

其中,uk(t)為第k個IMF分量,0 約束條件為 式(2)中,{uk}:={u1,··· ,uK},uk(t)記為uk,{uk}為分解到的K個有限帶寬的IMF 分量的集合,uk表示分解到的第k個有限帶寬的IMF 分量,?t為微分算子,δ(t)為狄利克來函數,j為虛數符號,e 為自然常數,f(t)為約束函數,{ωk}:={ω1,··· ,ωK},{ωk}為K個IMF 分量所對應的中心頻率的集合,ωk表示第k個IMF 分量所對應的中心頻率,∥·∥22表示范數;通過拉格朗日函數求該約束條件下的最優解,生成的拉格朗日表達式為 式(3)中,L({uk},{ωk},λ)為拉格朗日函數,α為懲罰系數,λ(t)為拉格朗日乘子,表示內積。 采用乘法算子交替的方法求式(3)的鞍點,就得到IMF 分量,求解過程中unk+1的值會不斷更新。公式(4)取得最小值時,unk+1與unk的誤差小于預設值,unk+1為第n+1次迭代的第k個IMF分量,其表達式為 式(4)中,X為uk的集合,wn+1k為第n+1次迭代的第k個IMF分量的中心頻率,表示將第n+1次迭代的除了第k個IMF 分量之外的分量進行求和。 利用Parseval/Plancherel 傅里葉等距變換可將式(4)轉換到頻域進行計算,可得到各模態的頻域更新,就可將中心頻率的取值問題轉換到頻域,得到中心頻率的更新方法;同時更新λ,表達式如下: 1)因指導教師精力有限,在講解和示范過程中,認真聽講的學生少,圍觀的學生多,而且不同教師的授課效果也有差異; 每個IMF 分量的頻率中心及帶寬在模型求解過程中,隨著迭代次數不斷更新,直到滿足迭代條件即可根據相應的頻域特征得到K個IMF 分量。該分解模式可以自適應地對信號頻帶進行切割,有效避免模態混疊,且IMF 分量被固定劃分為K個,消除了EMD 算法大量的無效分解分量,使得計算量大幅下降[10]。 對語音信號進行VMD 分解得到IMF 分量后,為了得到能對語音情感分析的特征,利用IMF 分量為平穩信號的特點[6],對VMD 各分量進行Hilbert變換,得到IMF 的瞬時頻率和幅值[12],特征提取流程如圖1所示。 式(8)中,Hk(t)為IMF 分量的Hilbert 變換函數,uk(t′)為基于時間常數t′的第k個IMF分量。 圖1 VMD-HT 特征提取流程圖Fig.1 VMD-HT feature extraction flow chart 式(9)中,Zk(t)為解析函數為第k個IMF 分量的瞬時幅值為相位,uk(t)為第k個IMF分量,Hk(t)為第k個分量的Hilbert變換。 式(9)中,Zk(t)的相位表達方式突出了Hilbert變換的物理意義,是基于時間序列形成的一個振幅和相位調制的三角函數。則Hilbert 譜的瞬時頻率定義為[8] 其中,θk表示第k個IMF分量的相位。 然后,對于語音信號第k個IMF 分量uk(t)的幅值ak(t)和瞬時頻率Wk(t),計算uk(t) 的平均瞬時頻率(Mean instantaneous frequency, MIF)。根據獲得的各IMF分量的MIF及幅值,計算原始信號的MIF表示為[10] 將各IMF 分量的平均瞬時頻率、幅值以及原始信號的瞬時頻率作為該語音信號的VMD-HT特征。 圖2 各IMF 信號的邊際譜圖Fig.2 The marginal spectrum of each IMF signal MFCC由Stevens在1937年提出[11],MFCC參數是基于人耳對不同頻率聲音有不同敏感度的特點提出的,揭示了人耳對高頻信號的敏感度低于低頻信號的特點。語音信號由頻率f轉換到Mel 尺度的表達式為[12?13] 語音信號通過VMD 分解后,剔除余波分量,再重新聚合,對聚合信號提取MFCC 參數,即得到VMD-MFCC 特征。在將信號進行VMD 分解之后,提取MFCC參數的過程分為數步,流程如圖3所示。 MFCC 參數提取采用一組基于Mel 尺度的三角帶通濾波器,將語音信號轉換到頻域后,對語音信號進行濾波處理,使語音信號遵循Mel 尺度的衰減特性。濾波器組對頻域信號進行切分,每個頻段產生一個對應的能量值。本實驗中濾波器個數取24,因此可得到24個能量值。 圖3 MFCC 參數提取流程圖Fig.3 MFCC parameter extraction flow chart 由于人耳對聲音的感知程度具有非線性特性,用對數形式描述更好。因此,對能量值進行對數處理,再倒譜分析。 根據MFCC定義,對對數能量進行反傅里葉變換,再通過低通濾波器獲得低頻信號。使用離散余弦變換(Discrete cosine transform, DCT)可以直接獲取低頻信息,DCT 與離散傅里葉變換相似,但只有實數部分,該過程可表示為 式(13)中,Ek為第k個濾波器的對數能量值;Q為三角濾波器個數,一般取22~26;m為當前計算的MFCC 特征參數的維數,L取12,12 維MFCC 特征參數足以代表一幀語音特征[14]。 以EMODB 中害怕情感語句為例,以256 個點為一幀,幀移為64,Mel 倒譜濾波器取24個,預加重系數為0.95,計算12 階MFCC 參數如圖4所示。采用本文方法對語音進行分解后提取的MFCC 參數如圖5所示。由圖4可知,直接提取的MFCC 特征參數每一幀之間差別較大,經過處理后的語音信號的MFCC特征參數每幀之間差別明顯降低,可以使MFCC特征更易于通過分類器進行識別。 圖4 FEAR 語句12 階MFCC 參數Fig.4 FEAR statement 12th order MFCC parameters 圖5 FEAR 語句12 階VMD-MFCC 參數Fig.5 FEAR statement 12th order VMD-MFCC parameters 語音情感識別中最常用的分類器是支持向量機[15?16](Support vector machine, SVM)、人工神經網絡[11,17?18](Artificial neural network, ANN)、K 最近鄰算法[12](K-nearest neighbor, KNN)、Elman 神經網絡[12]、高斯混合模型[19](Gaussian mixture model, GMM)長短時神經網絡[20]( Long short-term memory, LSTM)和隱馬爾可夫模型[10](Hidden Markov model, HMM)。在眾多人工神經網絡中,將快速模型學習與準確預測能力相結合的極限學習機,應用于多模式情感識別和計算語言學,以適度的計算資源獲得了最好的結果[21?23]。 最初,ELM作為單隱層前饋網絡的一種快速學習方法——反向傳播的另一種方法提出[21]。與傳統的神經網絡和機器學習算法相比,ELM 方法學習速度快、泛化性能好。因此,本實驗采用ELM 方法進行情感特征分類,基本ELM的體系結構如圖6所示。 圖6 ELM 基本結構圖Fig.6 ELM basic structure 式(14)為ELM 神經網絡處理輸入數據的公式,式中g(x)為激活函數,Wi= [wi,1,wi,2,··· ,wi,n]T為輸入權重,βi為輸出權重,bi為第i個隱藏單元的偏置,Xj是輸入的數據,·表示內積。 單隱層神經網絡學習目標是使輸出誤差最小,表示為 即存在βi、Wi和bi,使得 以矩陣的形式表示為 式(17)中,N為隱含層節點輸出,β為隱含層到輸出層的權重系數,T為訓練所需要得到的期望結果。為了對隱含層神經元進行訓練,得到βi、Wi和bi的解為 式(18)中,i= 1,··· ,L,該式用最小化損失函數表示為 傳統的一些基于梯度下降法算法(如反向傳播(Back propagation, BP)、多層感知器(Multi-layer perception, MLP))可以用來求解這樣的問題,但這些學習算法需要在迭代過程中調整所有參數。而ELM 算法的輸入層權重Wi和隱含層bi在初始化時已被隨機產生且唯一,因此隱含層的輸出矩陣N就被確定,只需要調整隱含層到輸出層的權重系數βi,對該系數的訓練可轉化為求解一個線性系統Nβ=T。輸出權重可由式(20) 確定, 式(20)中,N?是矩陣的Moore-Penrose廣義逆。可證明求得解的范數最小且唯一,且ELM 的計算速度較基本梯度下降算法快數倍[21]。 本實驗基于德國BerlinEMODB語音情感數據庫和美國RAVDESS 視聽情感數據庫,下面對兩種數據庫進行簡單的介紹。 德國BerlinEMODB 語音情感數據庫是最為常用的公開語音情感數據庫之一,它是由德國柏林工業大學錄制的德語情感數據庫,由10位專業演員(5男5女)參與錄制,得到包含生氣、無聊、厭惡、害怕、高興、中性和悲傷等7類基本情感的800條語句。對于文本語料的選擇遵從選擇語義中性、無明顯情感傾向的日常語句,且語音在專業錄音室中錄制而成。經過20 個說話人的聽辨測試,最終得到494 條情感語句用于實驗評價[11]。 美國RAVDESS 視聽情感數據庫是為北美英語的科學家和治療師提供一個可自由使用的動態視聽語音錄音庫,由24名演員(12 男,12女)參與錄制,他們用北美英文口音說話和唱歌,語音中包含各種情緒。包含7356 個情感中性陳述的高品質視頻錄音,用一系列情緒說出和唱出。演講集包括8 個情緒表達:中性、冷靜、快樂、悲傷、憤怒、恐懼、驚訝和厭惡。歌曲集包括6 種情緒表達:中性、冷靜、快樂、悲傷、憤怒和恐懼。除了中性以外的所有情緒都表現為兩種情緒強度:正常和強烈。有2452 個獨特的發聲,所有這些都有三種模式格式:完整的音頻-視頻(720p,H.264)、純視頻和純音頻(波形)。該數據庫已經在涉及297名參與者的感知實驗中得到驗證[24]。 傳統語音情感特征為基頻特征、韻律譜特征以及部分非線性特征[10],本文將VMD-MFCC、VMD-HT 和傳統語音情感特征相結合作為實驗選取的特征,稱為底層特征,底層特征描述見表1。 表1 底層特征描述Table1 Description of the underlying features 為了驗證VMD-HT 和VMD-MFCC 特征在語音情感識別中的應用效果,取兩種語音情感數據集中共有的生氣、傷心、害怕、開心、中性五種情感,取10名說話人的情感語句各50句。其中,隨機抽取40句用來做訓練,10句用來測試,進行10次實驗,實驗結果以10次實驗識別率的平均值作為評估指標,整個實驗與說話人無關。采用KNN(K=5)、SVM(核函數設置為sigmoid)、ELM 作為分類方法,輸入為91 維底層情感特征,并采用Sethu V 的EMD 特征和向磊的EEMD 特征進行對比實驗,對比實驗中的輸入特征中25~76 和80~91 維分別替換為基于EMD和EEMD的特征。實驗結果見表2、表3。 由表2、表3可知,ELM 分類準確度要高于KNN 和SVM;在兩個數據集中,加入VMD 特征的ELM 方法分別在中性和害怕情緒的識別率達到最高,而開心情感識別率在兩個數據集中都為最低。相較于傳統語音情感特征,基于EMD 的特征通過選取主導IMF 分量,不僅減少了計算負擔,而且避免包含冗余或信息量較少的數據,有效地提升了語音情感識別性能;基于EEMD 的特征,由于避免了EMD分量的模態混疊問題,識別率在EMD 特征的基礎上有所提升;在加入VMD 特征之后,由于VMD 分解方法不僅解決了EMD 方法模態混疊的問題,還提升了IMF 信號的分解完整性,因此,基于VMD 的特征在三種分類方式上的識別度都高于基于EMD 和EEMD 的特征。以EMODB 為例,害怕的識別率提高了2%,中性的識別率提高了5%,生氣的識別率提高了2%。因此,將VMD 特征用于語音情感識別,可以有效提高識別準確率,且將VMD 特征和ELM分類器結合,有更好的識別效果。 表2 EMODB 數據集分類實驗結果(識別率)Table2 EMODB data set classification experiment results 表3 RAVDESS 數據集分類實驗結果(識別率)Table3 RAVDESS data set classification experiment results 根據語音信號非平穩、非線性特點,本文將變分模態分解(VMD)引入到語音情感特征識別中,通過Hilbert 變換和提取MFCC 參數,組成新的語音情感非線性聯合特征。將該特征應用于語音情感識別,實驗將基于VMD 提取的VMD-MFCC 特征和VMD-HT特征與傳統語音情感特征相結合,采用極限學習機進行語音情感分類。實驗結果表明,相較于基于EMD 和EEMD 的情感特征,基于VMD 的語音特征結合極限學習機進行語音情感分類的方法,具有更高的識別率。




1.2 基于VMD-HT的語音情感特征






1.3 基于VMD-MFCC的語音情感特征





2 分類算法
2.1 分類算法簡介
2.2 ELM簡介








3 實驗驗證
3.1 數據集選取
3.2 特征選取

3.3 仿真結果


4 結論