姚增偉,劉煒煌,王梓豪,劉雅倩,潘家輝
(華南師范大學(xué)軟件學(xué)院, 廣東 南海 528225)
自從“情感計(jì)算”的概念被提出以來,計(jì)算機(jī)情感計(jì)算領(lǐng)域引起了國內(nèi)外許多研究者的關(guān)注。情感識(shí)別是情感計(jì)算的關(guān)鍵環(huán)節(jié)。語音信號(hào)中包含了說話者豐富的情感信息,是傳遞信息最方便直接的途徑。同一個(gè)人對(duì)同一句話用不同的情感表達(dá)時(shí),其傳遞信息有所不同。為了讓計(jì)算機(jī)更好理解人的情感,語音情感識(shí)別有很大必要性。語音情感識(shí)別在人機(jī)交互領(lǐng)域應(yīng)用越來越廣泛,例如人工客服、汽車駕駛、遠(yuǎn)程教育和醫(yī)學(xué)輔助等[1]。
目前,國內(nèi)外的傳統(tǒng)語音情感識(shí)別在情感描述模型的引入、情感語音庫的構(gòu)建、情感特征分析等領(lǐng)域的都得到了很大程度的發(fā)展[2]。傳統(tǒng)的語音情感識(shí)別技術(shù)建立在情感聲學(xué)特征的基礎(chǔ)上,語音情感特征的提取與識(shí)別準(zhǔn)確率有很大關(guān)系。常用的情感聲學(xué)特征包括以基頻、短時(shí)能量、短時(shí)過零率為主的韻律特征和以梅爾頻率倒譜系數(shù)為主的頻譜特征,基于此類高層語音特征的情感識(shí)別技術(shù)在特定人語音情感識(shí)別中取得了一定的效果[3-6]。然而,由于不同人之間的情感表達(dá)存在較大差異[7-8]以及大型情感語料庫的缺乏,基于非特定人的語音情感識(shí)別仍然面臨巨大挑戰(zhàn)。
近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)已經(jīng)在語音識(shí)別領(lǐng)域取得很大突破,并且在大型詞匯連續(xù)語音識(shí)別任務(wù)(LVCSR)方面與最新的高斯混合模型/隱馬爾可夫模型(GMM /HMM)系統(tǒng)相比取得的效果更好[9-11]。……