張雪英,孫 穎,張 衛,暢 江
(太原理工大學 信息工程學院,太原 030024)
語音情感識別的關鍵技術
張雪英,孫 穎,張 衛,暢 江
(太原理工大學 信息工程學院,太原 030024)
語音信號中的情感信息是一種很重要的信息資源,僅靠單純的數學模型搭建和計算來進行語音情感識別就顯現出不足。情感是由外部刺激引發人的生理、心理變化,從而表現出來的一種對人或事物的感知狀態,因此,將認知心理學與語音信號處理相結合有益于更好地處理情感語音。首先介紹了語音情感與人類認知的關聯性,總結了該領域的最新進展和研究成果,主要包括情感數據庫的建立、情感特征的提取以及情感識別網絡等。其次介紹了基于認知心理學構建的模糊認知圖網絡在情感語音識別中的應用。接著,探討了人腦對情感語音的認知機理,并試圖把事件相關電位融合到語音情感識別中,從而提高情感語音識別的準確率,為今后情感語音識別與認知心理學交叉融合發展提出了構思與展望。
語音情感識別;語音自然度;聲學特征;認知機理;模糊認知圖;事件相關電位
情感能力是人類智能的重要標志,情感在人與人的交流中必不可少。人類在有能力制造和研制機器以后,希望機器可以聽懂人的語言,判斷人的情感,從而實現更自然和諧的人機交互。情感語音識別(Emotion Speech Recognition)的出現,使得人類的這一設想得以實現。目前,人機交互的方式大部分局限在使用鍵盤、鼠標或觸摸屏。隨著社會的發展,人類希望機器能夠更人性化、更智能化、更便于操作。這一要求,必然需要計算機實現與人類相似的思維、感知以及行為功能。
研究計算機的情感識別技術,可以從兩大方面進行。一是面部表情,面部表情和手勢向來是情感識別系統中的基本方式;二是語音,在溝通過程中想要得知對方的動機和情緒,語音是最有利和最直接的方式。語音信號中的情感信息是一種很重要的信息資源,它是人與人交流中必然存在的信息。同樣的一句話,由于說話人的情感不同,在聽者的感知上就可能會有較大的差別。目前,關于情感信息處理的研究正在逐步深入;而其中語音的情感識別因涉及到不同語種之間的差異,進展也不盡相同。英語、日語、德語、西班牙語的語音情感分析處理研究較多,漢語語音的情感分析也逐漸成為研究熱點。隨著科技的發展,情感語音識別會越來越貼近人們的生活,開展這方面研究對于人類社會的進步與發展具有重要的意義。目前,國內外對語音情感識別的研究主要集中在以下幾個方面。
情感語音數據庫是情感語音識別的基礎。情感語音數據庫的質量對情感語音識別研究起著決定性的作用。情感語音數據庫按照應用目的可以分為識別型和合成型;按照語種差異可以分為英語、德語、中文等類別;按照情感描述模型可以分為離散型情感語音數據庫和連續型情感語音數據庫;按照獲取途徑可分為表演型、激勵型、啟發型和摘引型;按照語音的自然度可以分為模仿型、誘發型和自然型[1]。本文從自然度的角度對3種類型的情感語音數據庫進行描述分析。
模仿型語音庫一般由專業演員朗讀的有情感要求的語音組成。這種語音庫的優點是文本、性別、情感可以滿足研究要求。但因該庫由專業演員表演獲得,語音情感表現具有一定的夸張度,不同于生活中的真實情感,不利于將所得研究結果運用到現實生活中。
誘發型語音庫是對被錄音人員進行啟發、引導等獲得研究所需要的情感語音。它相對于自然型來說較為容易實現。但是這種方式的錄音效果是由激勵的情感程度決定。建立誘發型語音庫不僅要選取合適的激勵源,而且要克服人對激勵源的個體差異性,確定情感誘發的有效性。
自然型語音庫就是采集正常生活中的對話片段,在被錄音者不知道的情況下進行語音的錄制,或者在廣播、電視等多媒體材料中剪輯研究所需要的情感語音片段。這種方法的優點是情感真實度較高,情感表達直接由心理狀態出發,并且有上下文的關聯信息,有利于以后的研究。但是數據的來源可能會涉及到隱私等問題,并且獲得自然型語音需要較大的工作量。
近年來,國內外研究者已經建立了多種情感語音數據庫[2-7]。這些數據庫涉及到多個語種,如瑞士語、英語、葡萄牙語、西班牙語、德語、漢語等。隨著對情感語音研究的關注度的提高,國內高校、研究機構也根據自己的研究需求建立了情感語音數據庫[8]。然而,由于情感語音數據庫的建立標準、研究任務不同,并且沒有公開共享的情感語音數據庫,因此不同情感語音數據庫之間無法共享研究成果。
我們參照國內外語音庫的制作規范建立了TYUT1.0情感語音數據庫[9]。該數據庫屬于模仿型情感語音數據庫,選擇高興、生氣、中立等3種最基本的情感狀態,6句中文、5句英文進行語音的錄制。錄制結束后對語音進行有效性分析,通過兩次主觀辨聽篩選出四種情感語音。
為了研究自然情感語音,我們又建立了TYUT2.0自然型情感語音庫。該數據庫是通過剪輯多媒體材料獲得包括高興、生氣、悲傷、驚奇等4種情感的語音庫。第一階段為初選階段的語音庫,從廣播劇中截取4種情感的語音片段獲得。第二階段為情感語音數據庫的有效性評價階段,建立改進的模糊綜合評價模型,利用該模型對初選階段語音庫從情感準確度、自然度、背景噪聲等5個方面進行評價篩選,得到最終的情感語音數據庫。
提取情感關聯度高的特征是語音情感識別的又一關鍵。如果提取的特征不能很好地代表情感差異度,將導致之后的識別網絡處理結果難以令人滿意。近年來,情感語音特征種類雖然沒有一個統一的劃分,但是大致上可分為聲學特征和語言特征[10]。這兩類特征提取方法和對語音情感識別的貢獻也因選取的語音庫不同而截然不同。如果選取的語音庫是基于文本的數據庫,語言特征就可以忽略不計。如果選取的語音庫是貼近現實生活的真實語料,語言特征將發揮極大的作用。以往的學者大多數關注的是對聲學特征的研究。目前,常用的語音情感識別的聲學特征主要包括韻律學特征、基于譜的特征和音質特征等[11]。這些特征向量一般以全局統計的方式進行構造,作為語音情感識別網絡的輸入。常用的統計參數主要有方差、均值和中值等。
2.1 韻律特征
韻律體現了語音信號強度和語調的變化,可以使得語言結構更加自然,同時增強語音流動性。此外,韻律還可以被看作是音節、單詞、短語和句子相關的語音特征,表征了語音信號中的非言語特性[12]。因此,韻律特征也被稱為“超音段特征”。韻律已經作為語音情感識別的特征取得了顯著結果,且常用的韻律特征主要包括能量、語速、基頻、時長等。
IIiou和Anagnostopoulos[13]提取了柏林語音庫35維韻律特征(基頻、能量和時長),采用神經網絡對其中情感進行判別,獲得了51%的識別結果。Rao et al[14]選用Telugu情感語音庫(IITKGP-SESC)和德國柏林語音庫(EMO-DB)作為實驗室語料庫來源[15],提取韻律特征時長(duration)、基頻(pitch)和能量(energy);并在此基礎上分別提取對應的全局特征和局部特征。采用支持向量機(Support Vector Machine,SVM)對提取的特征向量進行分類,并對7種情感進行識別,得到了64.38%的平均識別結果。Kao和Lee[16]分別從幀、音節和詞語的水平上對韻律特征進行研究,對4種情感的判別獲得了90%的識別結果。
2.2 基于譜的特征
基于譜的特征體現了語音信號頻譜特性,主要分為頻譜特征和倒譜特征。常用于語音情感識別的譜特征有梅爾倒譜系數(Mel-Frequency Cepstrum Coefficients,MFCC),線性預測倒譜系數(Linear Prediction Cepstrum Coefficients,LPCC);對數頻率功率系數(Log Frequency Power Coefficients,LFPC),感知線性預測(Perceptual Linear Predictive,PLP),線性預測系數(Linear Prediction Coefficients,LPC)。目前,用于語音情感識別中的基于譜的特征,MFCC表現出的性能最優,并得到了廣泛使用[17]。
臺灣學者選用MFCC[18]、LPCC等作為特征向量,分別使用SVM[19]和人工神經網絡(Artifical Neural Network,ANN)對普通話5種情感進行分類,分別獲得84.2%和80.8%的識別結果,并總結出SVM對憤怒情感的識別優于ANN,但是沒有將高興與其他3種情感(悲傷,厭煩,中性)更好地區分開來[20]。
2.3 音質特征
音質特征描述了聲門激勵信號的性質,包括發聲者的語態、呼吸喘息,可以通過脈沖逆濾波補償聲道影響。此外,音質特征的表現因情感不同而有所差異。通過對音質特征的評價,可以獲得說話人的生理、心理信息并區分情感狀態。音質特征主要包括諧波噪聲比(Harmonics-to-noise Ratio,HNR)、抖動(jitter)和閃光(shimmer)。
Lugger et al針對音質特征在噪聲環境下的魯棒性進行研究,分析了影響音質特征的5個參數并驗證參數對情感判別的性能[21]。此外,Lugger et al分別提取了65維MFCC統計特征、201維韻律統計特征和67維音質統計特征對柏林語音庫6種情感進行訓練和測試。經驗證,針對說話人獨立的語音情感識別中,音質特征性能優于MFCC[22]。
2.4 融合特征
單獨使用某一方面的聲學特征存在一定的局限性,于是研究者相繼將以上3種特征融合起來進行語音情感識別。趙力等在對實用語音情感的特征分析中,提取了針對煩躁、喜悅和平靜等實用情感的74個全局統計特征,其中前36個特征為韻律特征,后38個特征為音質特征,平均識別率達到75%[23]。Amol et al選用MFCC,過零率(Zero-crossings Rate,ZCR)、能量等特征對柏林語音庫6種情感進行實驗,獲得了98.31%的優異結果[24]。此外,研究者使用上述3種聲學特征及其統計特征,在一定程度上容易造成特征向量維度過高,冗余量過大。特征維度過高對識別網絡的訓練產生很大的干擾。因此,采用不同的算法來實現特征篩選也逐漸成了特征提取的另一研究熱點。趙力等分析了Fisher判別準則(Fisher Discrimination Ratio,FDR)和線性降維分析算法(Linear Discrimination Analysis,LDA)的性能優劣。此外,尤鳴宇對常用的情感特征篩選算法進行了分析與研究[25]。
2.5 基于人耳聽覺特性的特征
過零峰值幅度特征(Zero Crossings with Peak Amplitudes,ZCPA)是一種基于人耳聽覺特性模型的特征。這種特征將信號的頻率及幅度信息用過零率和峰值的非線性壓縮來表示,并將兩種信息有機結合。ZCPA在孤立詞識別中具有較高的抗噪性,我們將其引入到語音情感識別后,獲得了較好的識別效果[26,27]。我們從語音信號短時平穩理論的角度詳細分析了分幀長短對ZCPA特征的影響,并將Teager 能量算子(Teager Energy Operator,TEO)與ZCPA特征相結合,提出了一種新的基于人耳聽覺特性模型的過零最大Teager 能量算子(Zero-Crossings with Maximal Teager Energy Operator,ZCMT)特征。該特征既保留了人耳的聽覺特性,又將最能表征情感狀態的特征融入了系統。實驗取得了較好的識別結果。
識別網絡模型是情感語音識別系統的核心部分,網絡的有效性對識別結果的高低有很大的影響。識別網絡模型的目的是實現模式匹配,在識別過程中,當語音信號的特征輸入到識別網絡中時,計算機通過相應的算法得到識別結果。顯然,識別網絡的選擇與識別結果有著直接的關系。
現有的統計模型與識別算法大致有以下幾種:動態時間規整模型(Dynamic Time Warping,DTW)、隱馬爾可夫模型(Hidden Markov Models,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(SVM)和人工神經網絡(ANN)等。其中,DTW利用模板匹配法進行識別,HMM和GMM利用概率統計原理進行識別,ANN和SVM是基于判別模型的方法進行識別。
DTW是一種較早的模型訓練和模式匹配技術,該模型以整個單詞作為一個識別單元,模板庫中存入了詞匯表中所有詞的特征矢量序列模板。識別時分別將待識別語音的特征矢量序列與庫中的各個模板進行比較,并將最相似的模板作為識別結果輸出。DTW 應用動態規整方法成功解決了語音信號特征參數序列時長不等的難題,在小詞匯量、孤立詞語音識別中有良好的性能。但因其不適合連續語音、大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型取代。
HMM是語音信號時變特征的有參表示法[28]。該模型通過兩個相互關聯的隨機過程共同描述語音信號的統計參數特性。一個是不可觀測的、具有有限狀態的馬爾可夫鏈,另一個是與該馬爾可夫鏈的各個狀態相關聯的觀察矢量的隨機過程,它是可觀測的。HMM的應用為語音識別帶來重大突破,尤其是在連續、大詞匯量語音識別方面。文獻[29]中指出,在連續語音句子中的每個單詞發音沒有明顯的界限,分割比較困難,典型的技術解決方案就是使用基于HMM的連續語音識別系統。Nwe et al[30]利用HMM識別系統識別6種情感,通過一個緬甸語語音庫和一個漢語普通話語音庫訓練和測試HMM,系統識別率最高可以達到78.5%和75.5%。HMM很好地模擬了人類的語言過程,HMM模型的訓練和識別都已研究出有效的算法,并被不斷完善以增強模型的魯棒性,目前該模型應用十分廣泛。很多研究者提出了HMM改進算法,例如加入遺傳算法、神經網絡技術等,提高了HMM的訓練速率和識別準確率。但是訓練HMM需要大量的訓練樣本,時間成本比較高。
GMM是一種用于密度估計的概率模型[31],主要優點是擬合能力很強,在理論上可以擬合所有的概率分布函數。文獻[32]在GMM模型中使用了boosting算法進行類條件分布估計,相比傳統使用EM(Expectation Maximization)方法進行估計的GMM模型,該方法獲得了更優的性能。GMM成功地應用在語種識別和說話人識別研究中,在2009年召開的語音領域著名國際會議Interspeech中,GMM的識別系統在總體性能上效果最佳。但是GMM的主要缺點是對數據的依賴性過強,因此在采用GMM的情感語音識別系統中,訓練數據的選擇會對系統識別結果產生很大的影響。
SVM是以統計學習理論為基礎的識別算法,它通過一個核函數將特征向量由低維空間映射到高維空間中,完成線性不可分到線性可分的轉化,從而在新的高維空間中實現最優分類[33]。SVM適用于小樣本分類,在多分類問題中存在不足。很多研究者在情感語音識別系統中采用SVM,并且得到了很好的識別效果。文獻[34]中,Tato et al使用SVM作為識別模型對喜、怒、悲、平常4類情感進行識別研究,最終平均識別率達到73%。
我們也一直在研究利用SVM建立識別網絡,例如,將傳統的AdaBoost.M2與SVM結合以實現多類分類,采用Geesepso算法對弱分類器的權值全局尋優,這樣得到的弱分類器具有更高的準確率。實驗表明,在低信噪比語音識別中,改進的AdaBoost.M2-SVM相比傳統的SVM有更好的泛化能力和較高的識別準確率[35]。
ANN是當前語音識別研究的一大熱點。ANN是由節點互連組成的計算網絡,通過訓練可以使其不斷學習知識從而獲得解決問題的能力,本質上是一個自適應非線性動力學系統。它模擬了人類大腦神經細胞活動,具有記憶、聯想、推理、總結和快速并行實現的特點,同時還具備自適應、自組織的功能。在一些環境因素復雜、背景信息模糊、推理規則不明確的情況下,ANN比HMM有更大的優勢,ANN因此為噪聲環境下非特定人的語音識別提供了很好的解決方法。目前利用ANN的語音識別系統大部分采用BP神經網絡,并取得了很好的識別效果[36]。在文獻[37]中,研究者采用時間規整網絡級聯BP神經網絡分類器構成了語音識別系統,在對小詞表中文孤立詞語音識別中得到了98.25%的正確識別率。
此外,研究者經常把以上模型相互結合,取長補短,形成混合模型,應用在不同的識別系統中,取得了較好的效果。文獻[38]提出了基于ANN/HMM混合模型的語音識別方法;該方法利用二者各自的優勢,將ANN強大的分類能力以及HMM較好的時域建模能力相結合。實驗結果表明,與傳統的HMM和ANN識別結果對比,該混合模型語音識別方式改善了系統識別性能,提高了識別率,并在抗干擾性和魯棒性方面也得到加強。
目前我們主要側重選用模糊認知圖(Fuzzy Cognitive Map,FCM)來構建識別網絡,其基本思路闡述如下。FCM是在認知圖(Cognitive Map,CM)中加入模糊推理機制得來的一種有向圖,是一種用于研究認知系統組織、相互關系以及行為特征的工具;情感維度理論是基于心理學提出的,語音情感識別與人類情感認知過程有很大的關系;現擬將情感維度理論和FCM結合,構建基于FCM和情感維度理論的語音情感識別模型,將復雜的認知過程與信號處理手段相結合,對提高系統整體性能會有積極作用。并且在原有學習方法的基礎上,應用人工蜂群算法訓練FCM網絡,從而實現了維度空間理論與人工蜂群算法的結合,以共同優化FCM參數。
認知網絡研究面對的主要問題是理論上沒有實現突破。雖然現在一直提出各種修正方法,但其優缺點各異,沒有普遍適用性。縱觀近幾年的文獻來看,盡管有很多算法成功地運用到了語音情感識別中,但大多數研究者只是使用這些算法在某些特定的數據庫上進行了測試,對實驗數據依賴性強。在不同的情感數據庫上和測試環境中,各種識別算法均有自己的優劣勢,沒有普遍性。
常見的語音情感識別方法都是基于語音信號本身的情感特征進行研究,但是不論這些情感識別方法有多么精確,它都無法與人腦相媲美。因此,研究人腦對語音情感的認知機理,是研究語音情感識別的另一個領域。
行為學數據表明,人們對不同情感語音進行識別,其識別速度和識別正確率都會有所不同,而且不同年齡和不同性別的人對情感的識別也會存在不同[39]。對于語音情感識別的認知研究,目前主要采用功能核磁共振成像(Function Magnetic Resonance Imaging,FMRI)[40]及腦電(Electroencephalography,EEG)[41]等腦科學的研究方法。由于功能核磁共振的設備體積龐大、價格昂貴,不適用于實驗室,因此目前人們更多地采用 EEG信號來進行情感識別。EEG技術是近幾年興起的研究人腦加工機制的主要技術手段。它含有豐富的有用信息,若把特定事件刺激下引發的腦電波形按照一定規則疊加,就會產生關于該事件的腦電波形圖,也就是事件相關電位(Event-Related Potentials,ERP)[42]。ERP技術[43]可以對不同的刺激進行分類,從而分辨不同的情緒狀態。采用ERP的方法探討情感語音對神經的腦加工機制[44]、精神疾病的診斷[45]、治療選擇[46]及預后判斷具有潛在應用價值[47]。
情感ERP研究始于20世紀60年代后期,早期的這類研究主要是基于兩個方面。一方面,通過某種情感誘發方式,使被試產生某種需要的情感以后,再對被試進行腦電活動研究;這類研究主要是對被試的腦電EEG信號進行分析,觀察其腦電的節律變化。Ray et al[48]較早發現情感的認知過程主要集中在β節律上;之后,他們又發現腦電中的γ節律與人的緊張和焦慮狀態有關[49]。上海交通大學聶聃[50]采用支持向量機SVM對腦電的節律特征進行分類,并通過流形學習模型擬合出了被試在整個實驗過程中的情感變化軌跡。另一方面,讓被試對一些基本的情感進行辨別,研究某種特定情感事件出現時的ERP波形。通常這類研究都是通過視覺誘發的方式進行,并采用國際情緒圖片系統(International Affective Picture System,IAPS)作為刺激材料。如Carretié et al[51]的研究結果顯示,負性圖片誘發出的ERP正性波波幅增大,而這個效應發生在額部。Briggs和Martin[52]的研究結果顯示,與中性圖片相比,喚醒度高的情緒圖片能誘發更大的P300波幅。Yuan et al[53]、Meng et al[54]研究團隊發現人腦對不同效價的負性情感具有敏感性,而對不同效價的正性情感卻不敏感。這些關于腦電的情感研究都是基于視覺的,但它們為聽覺情感的研究提供了理論支持。
近年來,隨著腦認知機理研究的深入,關于語音情感識別的ERP研究也受到越來越多的關注。這類研究主要集中在以下幾個方面。
1) 情感語義的研究。主要針對語義文本的研究,即字音、字形、字義及句法的研究[55]。Kutas和Hillyard[56]研究發現,當人們閱讀無意義語句時,會產生N400事件相關電位。Hagoort[57]發現語義違反與句法違反相關聯的事件相關電位N400和P600。Niznikiewicz et al[58]對字形和語義分別進行研究,設計了同音、同形、語義相關和無關4種詞對,要求被試進行語義相關判斷。我國浙江師范大學的曹曉華等[59]、郅菲菲[60]以及王魁[61]對漢語字詞認知的N170成分進行了研究,發現了漢語字詞認知的敏感性和偏側化。但是關于情感語義的研究多數都是基于單個字詞的,對于整句的研究卻不多,而且這些研究大多也是基于視覺。雖然已有學者[62]從聽覺角度對其進行研究,但是也都是基于單個字詞的。
2) 情感韻律的研究[63]。情感語音的研究表明,語音情感信息[64]主要體現在韻律特征的變化上[65]。韻律是言語的整體特性,包括語調、重讀位置、停頓、速度和持續長短等[66]。有的進一步指出,基本情感的聲學特征差異,主要反映在基頻的高低、能量的增減和語速的快慢[67-68]上。在停頓加工上,Besson et al[69]發現言語理解中,延長詞與詞之間的停頓會引起在頭皮前中部分布,200 ms達到峰值的負波。Honbolygó et al[70]對單詞的重音部分進行了研究。鐘毅平等[71]采用情感韻律不同的句子誘發了右單側化的ERP正波效應,而語義-情感韻律都誘發了早期雙側化分布的ERP負波效應。此外,鄭志偉等[72]還對情緒韻律調節情緒詞識別的 ERP進行研究,發現情緒韻律能夠調節情緒詞識別。
3) 情感時長的研究。盡管語音情緒變化加工機制的研究還不多見,但聽覺刺激變化加工的研究卻頗為豐富。聽覺刺激在時間維度延伸,導致預期式加工是聽覺加工的重要特征[73],即聽者會根據已聽到的刺激對即將出現的刺激形成預期,并將后來的刺激與預期相對比。大量研究發現,人腦能夠迅速檢測這種聽覺刺激的變化,在自動加工時偏差刺激誘發 MMN,主動加工時誘發 N2/P3 復合成分[74]。有研究者[75]認為情感語音加工是多階段的,它主要由情感顯著感知、相關意義處理及情感識別這三個階段構成。同時文獻[72]指出了漢語情緒言語加工的三個基本過程:在100 ms左右,首先對韻律和詞匯的聲學特征進行早期的感覺加工;在200 ms 左右,再對情緒詞的語音特征進行加工;在250 ms 左右,情緒韻律還對情緒詞的語義加工產生影響。此外,文獻[76]發現不同語境中聲調的早期加工及時間進程。
我們在基于聽覺條件下,對不同語句的情感聲音及非言語情感聲音進行了初步研究[77]。主要從兩個方面進行分析和比較:一是比較不同語種在相同情感下的 ERP 成分;二是對言語和非言語的ERP 成分進行比較。研究結果發現,在 200 ms 左右出現的ERP成分,其潛伏期可能受到語義理解的影響,其峰值可能受到語音情感強烈程度的影響,由此可以推測人腦對熟悉的情感語言更具有敏感性,且對非言語情感聲音處理的時間進程相對較快[77]。
對于語音情感的研究已取得了部分成果,但是大多數都是基于信號處理角度的研究。情感與人腦的認知機理密切相關,因此今后的研究工作在情感的認知模型及事件相關電位研究等方面有較大的發展空間。情感的認知模型在語音情感識別中的應用剛剛開始,諸多認知概念與模型可以與信號處理算法相結合,以提出更為符合人類行為的識別算法。同時,之前的事件相關電位研究中多數都是從單個字詞或短語或從視覺角度出發來研究的,基于聽覺條件的情感語音語句的事件相關電位研究卻不多。由于聽覺的呈現方式與視覺的呈現方式不同,如果用完全相同的方法進行研究,就很難得到理想的效果。因此,可以從信號處理的角度與心理認知實驗相結合,設計出符合聽覺事件相關電位研究的實驗,并分析其與不同情感的關系,這也是今后研究的方向。
[1] 趙力,黃程韋.實用語音情感識別中的若干關鍵技術[J].數據采集與處理,2014,29(2):157-170.
[2] Ververidis D,Kotropoulos C.A state of the art review on emotional speech databases[C]∥Proc 1st Richmedia Conference.Lausanne,Switzerland,2003:109-119.
[3] Ambrus D C.Collecting and Recording of an Emotional Speech Database[D].Maribor,Slovenia:Faculty of Electrical Engineering and Computer Science,Institute of Electronics,University of Maribor,2000.
[4] Burkhardt F,Paeschke A,Rolfes M,et al.A database of German emotional speech[C]∥Interspeech-200.Lisbon,Portugal,2005:1-4.
[5] Oflazoglu C,Yildirim S.Recognizing emotion from Turkish speech using acoustic features[J].EURASIP Journal on Audio,Speech,and Music Processing,2013,2013:26.
[6] Grimm M,Kroschel K.The Vera am mittag German audio-visual emotional speech database[C]∥Proc of the 2008 IEEE International Conference on Multimedia and Expo(ICME).Hannover,Germany,2008:865-868.
[7] Pan Y,Xu M,Liu L,et al.Emotion-detecting based model selection for emotional speech recognition[C]∥Proc IMACS Multiconference on Computational Engineering in Systems Applications.Beijing,China,2006:2169-2172.
[8] 徐露,徐明星.面向情感變化檢測的漢語情感語音數據庫[C]∥第十屆全國人機語音通訊學術會議論文集.2009:135-140.
[9] Sun Ying,Werner V,Zhang Xueying.A robust feature extraction approach based on an auditory model for classification of speech and expressiveness[J].Journal of Central South University of Technology (English Edition),2012,19(2):504-510.
[10] Bjorn S,Anton B,Stefan S,et al.Recognising realistic emotions and affect in speech:State of the art and lessons learnt from the first challenge[J].Speech Communication,2011,53(9):1062-1087.
[11] 韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學報,2014,25(1):37-50.
[12] Rainer B,Klaus R.Acoustic profiles in vocal emotion expression[J].Journal of Personality and Social Psychology,1996,70(3):614-636.
[13] Kao Y H,Lee L S.Feature analysis for emotion recognition from Mandarin speech considering the special characteristics of Chinese language[C]∥Proceedings of 9th International Conference on Spoken Language Processing.Pittsburgh,Pennsylvania,2006:1814-1817.
[14] Rao K S,Shashidhar G K,Ramu R V.Emotion recognition from speech using global and local prosodic features[J].International Journal of Speech Technology,2013,16(2):143-160.
[15] Shashidhar G K,Rao K S.Emotion recognition from speech using source,system and prosodic features[J].International Journal of Speech Technology,2012,15(2):265-289.
[16] Iliou T.Statistical evaluation of speech features for emotion recognition[C]∥Proceedings of Fourth International Conference on Digital Telecommunications.Colmar,France,2009:121-126.
[17] Wang Y T,Yang X H,Zou J.Research of emotion recognition based on speech and facial expression[J].Indonesian Journal of Electrical Engineering,2013,11(1):83-90.
[18] 韓一,王國胤,楊勇.基于MFCC的語音情感識別[J].重慶郵電大學學報:自然科學版,2008,20(5):597-602.
[19] Milton A,Roy S S,Selvi S T.SVM scheme for speech emotion recognition using MFCC Feature[J].International Journal of Computer Applications,2013,69(9):34-39.
[20] Pao T L,Chen Y T,Yeh J H,et al.Mandarin emotional speech recognition based on SVM and NN[C]∥Proceedings of 18th International Conference on Pattern Recognition.Hong Kong,China,2006:1096-1100.
[21] Lugger M,Yang B,Wokurek W.Robust estimation of voice quality parameters under realworld disturbances[C]∥Proc of 2006 International Conference on Acoustics,Speech and Signal Processing.Toulouse,France,2006:1097-1100.
[22] Lugger M,Yang B.Cascaded emotion classification via psychological emotion dimensions using a large set of voice quality parameters [C]∥Proc of International Conference on Acoustics,Speech and Signal Processing.Las Vegas,NY,2008:4945-4948.
[23] 黃程韋,趙力.實用語音情感的特征分析與識別的研究[J].電子與信息學報,2011,33(1):112-116.
[24] Amol T K,Guddeti R M R.Multiclass svm-based language independent emotion recognition using selective speech features[C]∥Proc of 2014 International Conference on Advances in Computing,Communications and Informatics.New Delhi,India,2014:1069-1073.
[25] 尤鳴宇.語音情感識別的關鍵技術研究[D].杭州:浙江大學,2007.
[26] Sun Y,Zhang X.A study of zero-crossings with peak-amplitudes in speech emotion classification[C]∥Proc of 2010 1st International Conference on Pervasive Computing,Signal Processing and Applications.2010:328-331.
[27] Sun Y,Zhang X Y.Study for classification of emotional speech by using optimized frame zero crossing with peak amplitudes feature extraction algorithm[J].Journal of Computational Information Systems,2011,7(10):3508-3515.
[28] 劉豫軍,夏聰.連續語音識別技術及其應用前景分析[J].網絡安全技術與應用,2014(8):15-16.
[29] 崔文迪,黃關維.語音識別綜述[J].福建電腦,2008(1):28-29.
[30] Nwe T L,Foo S W,De S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.
[31] Vlassis N,Likas A.A greedy em algorithm for gaussian mixture learning[J].Neural Processing Letters,2002,15(1):77-87.
[32] Tang H,Chu S M,Hasegawa J M,et al.Emotion recognition from speech via boosted gaussian mixture models[C]∥Proc of the 2009 IEEE International Conference on Multimedia and Expo.New York,2009:294-297.
[33] Hassan A,Damper R I.Multi-class and hierarchical SVMs for emotion recognition[C]∥Proc of International Speech Communication Association.Chiba,Japan,2010:2354-2357.
[34] Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]∥Proc of CSLP.Denver,Colorado,2002:2029-2032.
[35] 劉紅芬,劉曉峰,張雪英,等.改進的AdaBoost.M2-SVM在低信噪比語音識別中的應用[J].微電子學與計算機,2015,32(2):88-91.
[36] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協論壇,2010(3):62-63.
[37] 孫光民,董笑盈.基于神經網絡的漢語孤立詞語音識別[J].北京工業大學學報,2002,28(3):289-292.
[38] 高維深.基于HMM/ANN混合模型的非特定人語音識別研究[D].成都:電子科技大學,2013.
[39] Paulmann S,Pell M D,Kotz S A.How aging affects the recognition of emotional speech[J].Brain and Language,2008,104(3):262-269.
[40] Nummenmaa L,Saarim?ki H,Glerean E,et al.Emotional speech synchronizes brains across listeners and engages large-scale dynamic brain networks[J].NeuroImage,2014,102:498-509.
[41] Liu Y,Sourina O,Nguyen M K.Real-time EEG-based emotion recognition and its applications [M]∥Transactions on computational science XII.Berlin,Heidelberg:Springer,2011:256-277.
[42] 趙侖.ERPs實驗教程[M].南京:東南大學出版社,2010.
[43] 魏景漢,羅躍嘉.事件相關電位原理與技術[M].北京:科學出版社,2010.
[44] Rohaut B,Faugeras F,Chausson N,et al.Probing ERP correlates of verbal semantic processing in patients with impaired consciousness[J].Neuropsychologia,2015,66:279-292.
[45] UedaK.A psychophysiological approach towards understanding emotions[M]∥Emotional Engineering:Vol.3.Springer International Publishing,2015:105-116.
[46] 劉光雄,楊征,葉明,等.首發精神分裂癥執行功能異常的心理生理機制[J].神經疾病與精神衛生,2013,13(3):247-249.
[47] Cason N,Astésano C,Sch?n D.Bridging music and speech rhythm:Rhythmic priming and audio-motor training affect speech perception [J].Acta Psychologica,2015,155:43-50.
[48] Ray W J,Cole H W.EEG alpha activity reflects attentional demands,and beta activity reflects emotional and cognitive processes[J].Science,1985,228(4700):750-752.
[49] Oathes D J,Ray W J,Yamasaki A S,et al.Worry,generalized anxiety disorder,and emotion:Evidence from the EEG gamma band[J].Biological Psychology,2008,79(2):165-170.
[50] 聶聃.基于腦電的情感識別[D].上海:上海交通大學,2012.
[51] Carretié L,Iglesias J,Garcia T,et al.N300,P300 and the emotional processing of visual stimuli[J].Electroencephalography and Clinical Neurophysiology,1997,103(2):298-303.
[52] Briggs K E,Martin F H.Affective picture processing and motivational relevance:arousal and valence effects on ERPs in an oddball task[J].International Journal of Psychophysiology,2009,72(3):299-306.
[53] Yuan J,Zhang Q,Chen A,et al.Are we sensitive to valence differences in emotionally negative stimuli? Electrophysiological evidence from an ERP study[J].Neuropsychologia,2007,45(12):2764-2771.
[54] Meng X,Yuan J,Li H.Automatic processing of valence differences in emotionally negative stimuli:Evidence from an ERP study[J].Neuroscience Letters,2009,464(3):228-232.
[55] 劉燕妮,舒華.ERP與語言研究[J].心理科學進展,2003,11(3):296-302.
[56] Kutas M,Hillyard S A.Reading senseless sentences:Brain potentials reflect semantic incongruity[J].Science,1980,207(4427):203-205.
[57] Hagoort P.Interplay between syntax and semantics during sentence comprehension:ERP effects of combining syntactic and semantic violations[J].Cognitive Neuroscience,2003,15(6):883-899.
[58] Niznikiewicz M,Squires N.Phonological processing and the role of strategy in silent reading:behavioral and electrophysiological evidence[J].Brain and Language,1996,52:342-364.
[59] 曹曉華,李超,張煥婷,等.字詞認知N170成分及其發展[J].心理科學進展,2013,21(7):1162-1172.
[60] 郅菲菲.字詞認知N170成分發展的人工語言訓練研究[D].金華:浙江師范大學,2013.
[61] 王魁.漢字視知覺左側化N170——反映字形加工還是語音編碼[D].重慶:西南大學,2012.
[62] Hagoort P,Brown C M.ERP effects of listening to speech:Semantic ERP effects[J].Neuropsychologia,2000,38(11):1518-1530.
[63] Sobin C,Alpert M.Emotion in speech:The acoustic attributes of fear,anger,sadness,and joy[J].Journal of Psycholinguistic Research,1999,28(4):347-365.
[64] Vergyri D,Stolcke A,Gadde V R R,et al.Prosodic knowledge sources for automatic speech recognition[C]∥Acoustics,Speech,and Signal Processing:2003 IEEE International Conference on IEEE,2003,1:I-208-I-211.
[65] 蔣丹寧,蔡蓮紅.基于語音聲學特征的情感信息識別[J].清華大學學報:自然科學版,2006,46(1):86-89.
[66] 楊潔,舒華.言語韻律加工的 ERP 研究[J].心理學探新,2009(2):43-47.
[67] 曹劍芬.普通話節奏的聲學語音學特性[C]∥中國科學院聲學研究所.第四屆全國現代語音學學術會議論文集.1999.
[68] 劉紅芬,張雪英,劉曉峰,等.基于特征加權的FSVM在低信噪比語音識別中的應用[J].太原理工大學學報,2014,45(6):764-768.
[69] Besson M,Faita F,Czternasty C,et al.What’s in a pause:event-related potential analysis of temporal disruptions in written and spoken sentences[J].Biological Psychology,1997,46:3-23.
[70] Honbolygó F,Csépe V.Saliencyor template? ERP evidence for long-term representation of word stress[J].International Journal of Psychophysiology,2013,87(2):165-172.
[71] 鐘毅平,范偉,趙科,等.情感韻律在真假句子加工上的差異:來自ERPs的證據[J].心理科學,2011,34(2):312-316.
[72] 鄭志偉,黃賢軍,張欽,等.情緒韻律調節情緒詞識別的 ERP研究[J].心理學報,2013,45(4):428-437.
[73] 陳煦海,楊曉虹,楊玉芳.語音情緒變化內隱加工的神經生理機制[J].心理學報,2013,45(4):416-426.
[74] 常翼,龐小梅,許晶.情緒語音信息自動加工的失匹配負波研究[J].醫學與哲學,2013,34(6):41-44.
[75] Paulmann S,Ott D V M,Kotz S A.Emotional speech perception unfolding in time:the role of the basal ganglia[J].PLoS One,2011,6(3):e17694.
[76] 齊佳凝,任桂琴,任延濤,等.不同語境中聲調早期加工的作用及時間進程[J].社會心理科學,2014,29(2):221-225.
[77] 暢江,張雪英,張奇萍,等.不同語種及非言語情感聲音的 ERP 研究[J].清華大學學報:自然科學版,2016.
(編輯:張紅霞)
Key Technologies in Speech Emotion Recognition
ZHANG Xueying,SUN Ying,ZHANG Wei,CHANG Jiang
(CollegeofInformationEngineering,TaiyuanUniversityofTechnology,Taiyuan030024,China)
Emotional information in speech signal is an important information resource.When verbal expression is combined with human emotion,emotional speech processing is no longer a simple mathematical model or pure calculation.Fluctuations of the mood are controlled by the brain perception; speech signal processing based on cognitive psychology can capture emotion better.In this paper the relevance analysis between speech emotion and human cognition is introduced firstly.The recent progress in speech emotion recognition is summarized,including the review of speech emotion databases,feature extraction and emotion recognition networks.Secondly a fuzzy cognitive map network based on cognitive psychology is introduced into emotional speech recognition.In addition,the mechanism of the human brain for cognitive emotional speech is explored.To improve the recognition accuracy,this report also tries to integrate event-related potentials to speech emotion recognition.This idea is the conception and prospect of speech emotion recognition integrated with cognitive psychology in the future.
emotional speech recognition;speech naturalness;acoustic features;cognitive mechanism;fuzzy cognitive map;event related potential
1007-9432(2015)06-0629-08
2015-09-01
國家自然科學基金資助項目(61376693);山西省青年科技研究基金資助項目(2013021016-2);山西省研究生教育創新項目(2015-24)
張雪英(1964-),女,河北行唐人,博士,教授,博導,主要從事語音信號處理和情感識別研究,(E-mail)zhangxy@tyut.edu.cn
TN912.34
A
10.16355/j.cnki.issn1007-9432tyut.2015.06.001