姚增偉,劉煒煌,王梓豪,劉雅倩,潘家輝
(華南師范大學軟件學院, 廣東 南海 528225)
自從“情感計算”的概念被提出以來,計算機情感計算領域引起了國內外許多研究者的關注。情感識別是情感計算的關鍵環節。語音信號中包含了說話者豐富的情感信息,是傳遞信息最方便直接的途徑。同一個人對同一句話用不同的情感表達時,其傳遞信息有所不同。為了讓計算機更好理解人的情感,語音情感識別有很大必要性。語音情感識別在人機交互領域應用越來越廣泛,例如人工客服、汽車駕駛、遠程教育和醫學輔助等[1]。
目前,國內外的傳統語音情感識別在情感描述模型的引入、情感語音庫的構建、情感特征分析等領域的都得到了很大程度的發展[2]。傳統的語音情感識別技術建立在情感聲學特征的基礎上,語音情感特征的提取與識別準確率有很大關系。常用的情感聲學特征包括以基頻、短時能量、短時過零率為主的韻律特征和以梅爾頻率倒譜系數為主的頻譜特征,基于此類高層語音特征的情感識別技術在特定人語音情感識別中取得了一定的效果[3-6]。然而,由于不同人之間的情感表達存在較大差異[7-8]以及大型情感語料庫的缺乏,基于非特定人的語音情感識別仍然面臨巨大挑戰。
近年來,深度神經網絡(Deep Neural Networks,DNN)已經在語音識別領域取得很大突破,并且在大型詞匯連續語音識別任務(LVCSR)方面與最新的高斯混合模型/隱馬爾可夫模型(GMM /HMM)系統相比取得的效果更好[9-11]。……