999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HMM和ANN混合模型的語音情感識別研究

2018-10-15 06:03:36林巧民齊柱柱
計算機技術與發展 2018年10期
關鍵詞:信號情感模型

林巧民,齊柱柱

(1.南京郵電大學 計算機學院,江蘇 南京 210023;2.南京郵電大學 教育科學與技術學院,江蘇 南京 210003)

0 引 言

語音是人類溝通方式中最快和最自然的方法。研究人員認為語音是一種快速和有效的人機交互方法。然而,這要求機器應具有足夠的智能來識別人類聲音。自五十年代以來,已經對語音識別進行了大量研究,其中涉及了將人類語音轉換為詞序列的過程。盡管在語音識別方面的研究已經取得了重大進步,但仍然遠遠沒有實現人與機器之間的自然交互,這是因為機器不能理解說話者的情感狀態。因此引入了語音情感識別[1]這一相對較新的領域,即定義為從他或她的語音中提取說話者的情感狀態。語音情感識別可以從語音中提取有用的語義,并改進語音識別系統的性能[2]。

目前,大多數研究者都同意“調色板理論”[3],其中指出任何情感都可以分解成主要情感和次要情感。在此將情感分為5種:高興、驚奇、憤怒、悲傷和中性,并對其進行語音情感識別。在語音情感識別中,算法的優劣決定著識別率的高低。盡管目前研究者已取得大量成果,比如文獻[4]僅使用隱馬爾可夫模型對語音進行情感識別,文獻[5]對傳統的神經網絡方法進行了分析,文獻[6]使用深度神經網絡和隱馬爾可夫模型相混合的模型,相比單獨使用統計模型得到了不錯的識別率。因此單一使用某算法進行語音情感識別的效果并不理想。依據HMM對動態時間序列具有的極強的建模能力和較弱的分類決策能力,以及ANN具有的較強的并行處理能力和分類決策能力及不能處理語音動態變化的特征序列等特點,將HMM和ANN兩種算法相結合,取長補短,以提高語音情感識別率。

1 情感特征參數提取

在對語音信號進行特征參數提取之前,首先要對語音信號進行預處理[7],以去除語音信號中摻雜的背景噪音的影響,并且獲得計算機能夠識別的、較為理想的語音樣本數據。語音信號預處理包括反混疊濾波、預加重、分幀加窗和端點檢測等操作。

原始語音信號包含各種各樣的信息,如語調、文字、情感、韻律等,那么可提取的情感特征參數也是多種多樣的。首先要解決的一個關鍵問題是如何從這些情感特征參數中建立能反映個人情感特征的矢量[8]。因此要取得較好的語音情感識別效果,必須準確選取語音情感特征參數。一個重要的選擇策略是:盡可能提取更易于提高語音情感識別率的情感特征參數,并減少語音信號中那些無用的冗余信息[9]。

1.1 基音頻率

基因頻率是人說話發濁音時聲帶振動的基本頻率,簡稱基頻,通常用F0表示。基頻的變化模式稱為聲調,包含了大量有用的語音情感激活度的信息。在國內外許多有關語音情感識別的研究中,基因頻率是重要的參數之一,有助于研究語音情感的變化。

1.2 短時能量

短時能量即音量高低,它是一幀采樣點值的加權平方和。短時能量直接反映聲音的音量大小,其中清音的能量較小,濁音的能量較高。一個人的情感不同時,其說話的音量也不同。例如在生氣或者驚訝時,說話的音量就較大,其短時能量也就越高。

1.3 振 幅

語音信號的振幅特征也是語音情感特征參數的一種,憤怒或驚奇時人們音量變大,語音信號振幅較大,然而當悲傷或者平靜時,語音信號具有較小振幅,因此振幅也常被用作語音情感識別中的特征參數。選取發音起始點間的平均振幅的最大值作為最大振幅,同時提取平均振幅和最大振幅做參數。

1.4 LPCC系數

在語音情感識別中,線性預測倒譜系數(LPCC)常被用作情感特征參數,由線性預測系數(LPC)推導出。LPCC系數的最大優點就是能較徹底地消除語音產生過程中的激勵信息,并且能較好地反映聲道響應。LPCC系數能很好地模擬人的聲道模型,十幾個LPCC系數就能良好地描述語音信號的共振峰特性,同時求取LPCC系數時計算量小,易于實現,因此在語音情感識別中能獲得良好的識別效果[10]。文中選取10階LPCC系數作為情感特征參數,表示為Ci1,Ci2,…,Ci12,其中i表示幀數,k=1,2,…,12。

2 語音情感識別模型

HMM模型[10]的最大優勢是有極強的建模能力,尤其對動態時間序列,在語音情感識別中已經取得了相當不錯的效果,并大大提高了語音情感識別性能。然而,HMM模型的分類能力弱、模式識別性能差,存在先驗假設問題,需要先驗統計知識等,先驗假設也就是假設語音信號當前的狀態只與前一個狀態有關[11]。

HMM模型中常用的Baum-Welch訓練算法是基于最大似然準則,其分類決策能力較弱,而且僅根據累積概率最大值判斷,忽略了其他狀態的累積概率和每個模型之間的相似特征,降低了HMM情感識別能力。

ANN模型[12]正好相反,具有極強的分類決策能力,良好的自適應和自學習能力,較強的魯棒性和容錯性,不需要預先假設,廣泛應用于語音情感識別。但ANN模型動態特性描述能力較弱,只能解決不涉及時間序列處理的靜態模式分類問題。ANN模型是可以訓練的,可不斷積累學習經驗以便提高性能,同時又因具有高度的并發性而能進行快速分類判別。

因此,將有較強動態時序建模能力的HMM和有較強分類決策能力的ANN兩種方法進行有機結合[13],充分發揮兩者各自的優勢,進一步提高語音情感識別的準確率。該方法識別流程如圖1所示。

圖1 語音識別系統流程

2.1 混合模型原理

針對HMM和ANN各自的優缺點,將HMM模型的較強動態時序建模能力和ANN模型的較強分類決策能力相混合形成新的模型,HMM模型的輸出作為ANN模型的輸入,對語音信號進行識別和分類,完成語音情感識別。

將HMM模型與ANN模型融合在一起,這里選擇的ANN模型是徑向基函數神經網絡(RBF),可以充分利用全部情感狀態的累積概率,并對信號細節分量加以提取。RBF神經網絡是由輸入層、輸出層和隱含層組成的網絡結構,其中輸入層節點是線性神經元,輸出層節點是線性求和單元,隱含層節點常采用高斯核函數,可以對輸入產生局部響應,將輸入空間劃分為若干小的局部區間,以達到分類和函數逼近的目的。RBF網絡結構簡單,參數訓練易于實現,且不易陷入局部極小的麻煩。

綜合兩類方法各自的優點,研究HMM和RBF相結合的問題。

2.2 訓練和識別

RBF模型的訓練采用BP算法。經過HMM模型的Viterbi算法解碼輸出全部情感狀態的累積概率,然后利用RBF模型進行非線性映射。HMM/RBF混合模型的訓練算法如下:

(1)用Baum-Welch算法訓練HMM模型,為每個情感狀態分別建立一個HMM模型,獲得訓練好的HMM參數庫。

(2)輸入待識別語音樣本xi(1≤i≤M),i是語音在語音庫中的序號,M為其容量。用HMM模型對語音信號數據進行時間序列處理,采用Viterbi算法解碼得到相應HMM參數輸出的狀態累積概率V=[βT(1),…,βT(j),…,βT(N)](1≤j≤N),這表示狀態sj的累積概率。

(4)RBF采用BP學習算法對RBF進行訓練,直到滿足網絡的收斂精度要求為止。神經網路訓練算法使用BP學習算法,并且代價函數為修正的互熵函數。假設輸出層有N個節點,每個節點的輸出為Yn,對應的期望輸出為Tn,修正的互熵函數可以表達為:

(1)

當期望輸出為1時,互熵函數中的第二項為0,可以加快網絡的訓練速度。

如圖2所示,系統識別過程為:首先待識別樣本經過預處理和特征提取操作后,經過HMM模型的Viterbi算法[15]解碼產生全部狀態的累積概率保存在矢量V中,且不用HMM模型識別;然后對所得矢量進行時間規整,可使用空間正交基函數展開的方法[16],最終生成等維的特征矢量,將其作為RBF模型的輸入進行非線性映射,獲取識別結果。

2.3 Viterbi算法

Viterbi算法用于生成最佳狀態序列,評估給定觀察字符號序列與給定HMM模型之間的最佳匹配的可能性,然后實現最優狀態序列。指P(S,O/λ)最大時確定的狀態序列,即HMM輸出一個觀察值序列O=o1,o2,…,oT時,使輸出概率最大的狀態序列S=s1s2…sT就是最佳。算法描述如下:

在使用Viterbi算法求取最佳狀態序列時,由于使用遞歸計算的方法,概率值的連續乘法運算很容易導致下溢現象。為了解決該問題,通常使用兩種方法:第一種是增加比例因子,用于求和運算;第二種是對概率值取對數后再進行計算,用于乘積運算。

2.4 狀態歸一化

(2)

矩陣C中每一列可看作為m次多項式系數,公式如下:

(3)

該多項式在0到1空間用正交基函數展開:

(4)

其中,Pn(x)為勒讓德多項式;Cn為展開系數。

為了簡化計算,僅選擇6個勒讓德多項式作為正交基。盡管m是變量,但是每個m階多項式可被擴展為6個系數。因此對于狀態i而言,L列的向量通過勒讓德多項式展開的系數共有6L個,L是常量。

3 實驗結果

系統中采用的語音樣本來自CASIA漢語情感語料庫[17],由四個專業發音人對相同的文本賦予不同的情感來閱讀。挑選出憤怒(angry)、高興(happy)、中性(neutral)、悲傷(sad)、驚奇(surprise)五種情感共300句語音狀態作為實驗對象。采用多次十折交叉驗證的方法,將語音樣本分為十份,輪流將其中9份做訓練1份做測試,10次結果的均值作為對算法精度的估計。實驗中語音信號的采樣頻率為16 kHz,量化精度為16 bit,信噪比約為35 dB,幀移為5 ms,幀長為16 ms。

表1和表2分別顯示了單獨使用HMM模型以及HMM/RBF混合模型在5類不同情感狀態下的情感識別率。從表1看出,悲傷的識別率最高為82.2%,其平均識別率達到77.86%,由此可知,采用單獨HMM模型的識別效果一般。從表2看出,高興和憤怒的識別率有明顯提高,其平均識別率達到了89.5%。

表1 基于HMM的語音情感識別結果

表2 基于HMM和ANN混合模型的語音情感識別結果

由圖3可明顯看出,混合模型在憤怒、高興、悲傷、驚奇和中性5種不同情感識別效果上較單獨的HMM模型有較為明顯的提高。

圖3 單獨的HMM以及HMM/ANN混合模型的語音情感識別模型比較

4 結束語

目前,多種網絡模型相結合是解決語音識別中的問題的有效途徑和思路,因此提出了基于HMM/RBF的語音情感識別模型,并介紹了該模型在語音情感識別中的使用方法。實驗結果表明,該模型比單一的模式識別在語音情感識別中有更好的識別效果。同時也有許多可以改進的地方,如在特征參數選擇提取上,HMM模型訓練算法等方面,有待進一步的深入研究。

猜你喜歡
信號情感模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
如何在情感中自我成長,保持獨立
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
主站蜘蛛池模板: 乱人伦中文视频在线观看免费| 日本成人福利视频| 欧美成人A视频| 综合久久五月天| 久久精品免费看一| 免费在线播放毛片| 9久久伊人精品综合| a亚洲视频| 高清免费毛片| 欧美日本激情| 精品国产aⅴ一区二区三区| 免费高清a毛片| 国产又大又粗又猛又爽的视频| 日本人妻一区二区三区不卡影院| 欧美亚洲欧美区| 美女无遮挡被啪啪到高潮免费| 欧美日韩国产精品综合| 国产精品太粉嫩高中在线观看| 国产精品区网红主播在线观看| 久久综合成人| 亚洲第一香蕉视频| 久久久久国产精品熟女影院| 亚洲精品片911| 91美女视频在线| 久久性视频| 色天天综合| 久草视频中文| 丝袜高跟美脚国产1区| 国产熟睡乱子伦视频网站| 国产91精品调教在线播放| 久久伊人操| 成人午夜网址| 免费看美女毛片| 日本国产精品一区久久久| 国产日本欧美在线观看| 国产夜色视频| 亚洲无码视频一区二区三区| 亚洲欧美另类视频| 久久综合九九亚洲一区| 国产成人精彩在线视频50| 男人的天堂久久精品激情| 国产亚洲一区二区三区在线| 久996视频精品免费观看| 欧美亚洲一区二区三区导航| 性喷潮久久久久久久久| 亚洲经典在线中文字幕| 亚洲无码精彩视频在线观看| 精品人妻无码中字系列| 久久一本精品久久久ー99| 亚洲制服丝袜第一页| 亚洲国产AV无码综合原创| 久久综合丝袜长腿丝袜| 理论片一区| 亚洲九九视频| 国产黑丝一区| 亚洲无码免费黄色网址| 中文字幕乱码二三区免费| 欧美在线一级片| 色婷婷亚洲综合五月| 中文无码精品a∨在线观看| 国产精品一区在线麻豆| 国产精品性| 国产女人爽到高潮的免费视频 | 免费jizz在线播放| 国产一区二区影院| 中文字幕欧美成人免费| 国产亚洲精久久久久久无码AV| 97在线免费| 国产主播在线一区| 亚洲全网成人资源在线观看| 国产三级毛片| 国产亚洲欧美在线视频| 中国精品自拍| 国产女人18毛片水真多1| 99精品这里只有精品高清视频| 亚洲第一成网站| 亚洲无线一二三四区男男| 久久国产拍爱| 亚洲第一视频网| 在线播放国产一区| 久久国语对白| 国产福利小视频在线播放观看|