李 鶴,冉 妮,王 蔚
(南京師范大學 教育科學學院,江蘇 南京 210097)
人的情感是人與人交往的一個重要因素,可以通過表情和手勢等非語言來表達,也可以通過詞匯等語言來表達。語音是表達情感的主要渠道之一,對于一個自然的人機交互界面來說,識別、解釋和響應語音中表達的情感是至關(guān)重要的。
人的情感豐富多樣,情感主要由兩種模型描述。第一種是離散情感描述模型,情感以獨立標簽的形式區(qū)分,基本的六個情感是快樂、悲傷、驚訝、恐懼、憤怒和厭惡。第二種是維度情感描述模型,情感以笛卡爾空間的坐標點進行區(qū)分,因此可以表示無限個情感。一段語音包含的情感往往變化且不唯一,所以用維度情感模型描述情感更合理,但是這大大提高了識別難度。所以目前的語音情感識別研究主要基于離散情感描述模型展開。
盡管相關(guān)研究中使用的情感模型存在差異,但用于情感模型訓練的語料庫對情感識別的準確率影響更顯著。現(xiàn)有的情感語料庫根據(jù)錄制方式的差異可分為三類,分別是表演型語料庫、引導型語料庫和自然型語料庫[1]。表演型語料庫是由專業(yè)演員以慎重的方式表達的表演性語音,如Berlin Emotional database[2]。引導型語料庫是以一種隱式的方式收集的,其中情感是對電影或引導對話的自然反應,如IEMOCAP[3]。自然型語料庫是對真實情景的記錄。然而,由于法律版權(quán)問題,現(xiàn)存的最自然的語音語料庫是電影和電視節(jié)目等的剪輯集,如Acted Facial Expressions In The Wild(AFEW)[4]。由于自然語音中情感表達的多樣性和背景噪聲的存在,從表演語音到自然語音的情感識別準確率依次下降[5]。
語音情感識別(speech emotion recognition,SER)是計算機識別人類情感的過程,從語音信號中提取情感表達的關(guān)鍵特征,并建立特征與情感的映射關(guān)系,進而自動判斷語音涵蓋的情感。這些用于情感識別的特征可以大致分為四類[6]:(1)聲學特性;(2)語言特征(詞匯和語句);(3)上下文信息(例如,主題、性別);(4)混合特性。其中聲學特征往往具有最佳的識別效果。
隨著深度學習推動著自然語言處理能力技術(shù)的提高,SER新的研究方法層出不窮。從語音情感特征研究到情感識別算法研究,從語音通道到結(jié)合多模態(tài)和多任務(wù)等研究方法的融合,從機器學習到深度學習等技術(shù)的改進。圖1顯示了語音情感識別系統(tǒng)的基本框架。

圖1 語音情感識別系統(tǒng)框架
語音情感識別的一般流程依次是預處理、特征提取和分類。預處理的目的降低說話人本身或外部環(huán)境對語音質(zhì)量的影響,一般包括能量閾值、預加重、分幀和加窗。預處理后從語音中提取情感特征,最常用的聲學特征分為韻律學特征(音高相關(guān)特征、能量相關(guān)特征、語速等)和頻譜特征(Mel倒譜系數(shù)等)以及音質(zhì)特征(諧波噪聲比等)。目前使用較多的情感分類器有決策樹、KNN(k-nearest neighbor algorithm)、SVM(support vector machine)、GMM(Gaussian mixture model)、HMM(hidden Markov model)等。
針對語音情感識別研究的發(fā)展現(xiàn)狀,調(diào)研總結(jié)語音情感識別領(lǐng)域的發(fā)展情況。當前關(guān)于情感識別的綜述性文章,少有學者通過文獻計量學的方法來調(diào)研。鑒于此,文中選取Web Of Science核心合集數(shù)據(jù)庫中語音情感識別相關(guān)論文,通過對作者、機構(gòu)、國家和研究熱點與前沿變化的計量分析與可視化分析,了解國際上語音情感識別領(lǐng)域的發(fā)展動向,把握該領(lǐng)域的整體發(fā)展趨勢,為語音情感識別領(lǐng)域的深層次持續(xù)發(fā)展提供科學依據(jù)和指導。
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,僅對數(shù)據(jù)進行計量統(tǒng)計已難以挖掘數(shù)據(jù)間深層次的聯(lián)系,數(shù)據(jù)可視化不僅能通過關(guān)系數(shù)據(jù)庫來識別和分析數(shù)據(jù)信息,而且能以更直觀的方式建立數(shù)據(jù)間的結(jié)構(gòu)關(guān)系,從而對數(shù)據(jù)信息進行深入的分析和理解。Citespace[7]軟件是陳超美博士開發(fā)的信息可視化計量工具。通過可視化的方式直觀地表達科學知識的分布、規(guī)律和結(jié)構(gòu),其優(yōu)點為動態(tài)識別研究熱點與共引聚類,并且具有時區(qū)視圖與共詞聚類等圖譜繪制功能。因此本研究采用Citespace文獻處理工具和Web Of Science檢索結(jié)果結(jié)合分析的方法,對語音情感識別相關(guān)文獻進行數(shù)據(jù)挖掘和可視化計量分析。
以Web Of Science(WOS)核心合集數(shù)據(jù)庫為數(shù)據(jù)源,時間跨度為2000年至2019年5月,以“speech emotion recognition”為主題名進行文獻搜索,排除無關(guān)文獻后,最終獲得625篇相關(guān)文獻。檢索結(jié)果涉及的研究方向共有30個。其中,語音情感識別研究與計算機科學、工程學的聯(lián)系最為密切。此外,聲學、電信、自動化控制系統(tǒng)等研究方向的文獻也占有一定比重。可見語音情感識別涉及的學科比較廣泛,具有較高的綜合性。同時,檢索的文獻中會議論文占最大比重,達到了448篇,期刊論文有177篇,語音相關(guān)會議對語音情感識別的研究貢獻較大,這和與其他大部分研究領(lǐng)域不同。
2.1.1 作者發(fā)文情況
以WOS數(shù)據(jù)庫的檢索結(jié)果為數(shù)據(jù)源,按全部作者統(tǒng)計,論文影響力排名前3的作者分別為英國學者Schuller B、中國學者Zhao L和英國學者Zhang Z X,三位學者的發(fā)文量均達到15篇以上,但是Zhao L的論文被引次數(shù)和h指數(shù)明顯低于其他學者。
2.1.2 機構(gòu)發(fā)文情況
基于WOS數(shù)據(jù)庫檢索結(jié)果,按全部作者統(tǒng)計,獲得機構(gòu)發(fā)文數(shù)量及其論文影響力情況。中國東南大學以50篇的數(shù)量位列第1。但是其篇均被引頻次為2.98,h指數(shù)為6,遠低于慕尼黑工業(yè)大學(12.48)。慕尼黑工業(yè)大學總發(fā)表論文25篇,總被引次數(shù)高達575次,說明該機構(gòu)在語音情感識別的研究影響力較大。另外,還有3所中國科研機構(gòu)在總發(fā)文數(shù)量上排名前10,分別為中國科學院、清華大學、江蘇大學,這3所機構(gòu)同樣總發(fā)文量較多,但中國科學院和清華大學的被引頻次和h指數(shù)均較低。
2.1.3 國家發(fā)文情況
將中國臺灣合并入中國,并將英格蘭、北愛爾蘭和蘇格蘭全部合并為英國,統(tǒng)計整理獲得總發(fā)文量排列前10的國家。由表1可知,中國的發(fā)文數(shù)量位于全球第1,遠高于排名第2的印度。總發(fā)文量排名第3、第4的德國和美國其總被引頻次和h指數(shù)均超過了前兩者。中國雖然在h指數(shù)和篇均被引頻次等影響力指標不如德、美,但總發(fā)文數(shù)量領(lǐng)先,反映了中國在該領(lǐng)域具備強大研究力量與能力。

表1 發(fā)文量排名前10國家的論文影響力
2.2.1 作者之間的合作
根據(jù)檢索出來的625篇文獻,經(jīng)Citespace可視化計量軟件處理可生成作者間合作可視化關(guān)系圖。由此分析,語音情感識別領(lǐng)域形成了一個以Schuller B、Zhao L、Zheng W M、Zhang Z X等作者為核心的錯綜復雜的合作網(wǎng)絡(luò),他們對語音情感識別領(lǐng)域研究深入,且團隊之間合作密切度明顯比其他團隊高。通過連線的多少以及粗細可以看出,中國的幾位學者彼此聯(lián)系較為密切,但與國際間的合作較少。此外,還有以Tao J H、Bu J J、Liu J等人組成的小型合作網(wǎng)絡(luò)。
2.2.2 機構(gòu)之間的合作
由Citespace可視化軟件處理生成機構(gòu)間合作可視化關(guān)系圖(見圖2)可分析出,當前語音情感識別的研究在國際范圍內(nèi)已形成一個較大團體,即由東南大學、帝國理工大學、慕尼黑理工大學為核心的研究機構(gòu)團體。與作者合作網(wǎng)絡(luò)的情況類似,機構(gòu)間的合作也以一個復雜交錯的核心網(wǎng)絡(luò)為主,其余機構(gòu)游離在關(guān)系網(wǎng)絡(luò)外,彼此之間協(xié)作關(guān)系和整體聯(lián)系較薄弱。

圖2 機構(gòu)合作關(guān)系網(wǎng)絡(luò)
2.2.3 國家之間的合作
Citespace軟件處理可生成國家間合作可視化關(guān)系網(wǎng)。由此得出,中國在語音情感識別領(lǐng)域的影響力最大,與多個國家都存在合作關(guān)系,由于美國、德國、英國,印度的發(fā)文數(shù)量較多,也存在很大的影響力,但它們與其他國家的合作聯(lián)系較少。通過連接線的粗細可以發(fā)現(xiàn),英德兩國之間的合作關(guān)系非常密切,中國雖然與多國都有合作,但連接線都比較細,說明合作次數(shù)偏少。
使用Citespace計量軟件分析其關(guān)鍵詞,得出頻次前10的關(guān)鍵詞,分別為“speech emotion recognition”“emotion recognition”“classification”“feature”“neural network”“feature selection”“speech”“support vector machine”“affective computing”“mfcc”。除”語音情感識別”關(guān)鍵詞外,分類器和特征占比較大,與該領(lǐng)域的研究熱點話題一致。
2010年前,研究主要聚焦于“speech emotion recognition”“neural network”“affective computing”“human computer interaction”等熱點詞。這是從情感計算出現(xiàn)之后,人們開始逐漸探索對語音進行情感識別,并將其應用于生活中。
情感計算在1997年由麻省理工學院的皮卡德教授提出,包括識別、表達、建模、交流和對情感的響應[8]。其中,情感識別是最基本、最重要的模塊之一。Wu Li等[9]在此基礎(chǔ)上,針對目前網(wǎng)絡(luò)學習系統(tǒng)中存在的情感缺失問題,分析了諸多負面影響,提出了基于情感計算的網(wǎng)絡(luò)學習系統(tǒng)模型。以語音特征作為輸入數(shù)據(jù),構(gòu)建了基于情感計算的網(wǎng)絡(luò)學習系統(tǒng)模型。根據(jù)學習者的情緒狀態(tài)調(diào)整教學策略和學習行為。因此,該系統(tǒng)可以從本質(zhì)上幫助學習者解決網(wǎng)絡(luò)學習系統(tǒng)中的情感缺失問題。
2010-2012年間,熱點詞出現(xiàn)“classification”“mfcc”“SVM”“feature selection”等,研究主要集中于從語音中提取有效的情感特征和情感自動分類問題,并且此時關(guān)注的研究問題逐漸轉(zhuǎn)向獨立于說話人的語音情感識別。
例如,Moataz等[10]分析了不同類型的特征,并把可用的聲學信息與其他信息(如語言、話語和視頻信息)結(jié)合起來,形成混合特征集。Chen等[11]為了解決說話人獨立的情感識別問題,提出了一種三級語音情感識別模型,將悲傷、憤怒、驚訝、恐懼、快樂、厭惡等六種語音情感從粗到細進行分類。在每個層次上,利用Fisher率選取合適特征,作為SVM的輸入?yún)?shù)。實驗結(jié)果表明,F(xiàn)isher在降維方面優(yōu)于PCA,SVM在說話人獨立語音情感識別方面優(yōu)于ANN。Espinosa等[12]考察了不同語音聲學特征組在自然語音情感識別中的重要性,定義了一個三維連續(xù)情感模型。從德語自發(fā)情感語音數(shù)據(jù)庫中提取了一組特征,應用特征選擇和降維技術(shù)來尋找最能估計效價、激活和控制情感維度的特征子集。
2013-2015年間,語音情感識別領(lǐng)域發(fā)展迅速,出現(xiàn)了“model”“spectral feature”“cross-corpus”“spectrogram”“prosody””transfer learning”等詞。隨著自然語言處理特別是機器學習算法的發(fā)展,語音情感識別領(lǐng)域有了新的突破口,算法的改進與特征的融合使得語音情感識別結(jié)果大大提升。隨著深度神經(jīng)網(wǎng)絡(luò)大范圍的引入到語音情感識別的研究中,學者們開始關(guān)注跨語料庫的語音情感識別器的魯捧性能。
例如,Mansour Sheikhan等[13]使用一種模塊化的神經(jīng)支持向量機分類器,并與高斯混合模型、多層感知器神經(jīng)網(wǎng)絡(luò)和基于c5.0的分類器進行比較,利用變分法選擇最有效的特征。與模擬的單分類器相比,他們提出的模塊化神經(jīng)支持向量機分類器的識別精度至少提高了8%。Jun Deng等[14]提出了一種特征遷移學習的稀疏自編碼方法。在此方法中,從目標域中的一組標記數(shù)據(jù)中學習了一個常見的特定情緒的映射規(guī)則。然后,將該規(guī)則應用于不同領(lǐng)域的情緒數(shù)據(jù),得到新的重構(gòu)數(shù)據(jù),相對于獨立學習每個源域,特征遷移學習的稀疏自編碼方法顯著提高了性能。Syed Abbas Ali等[15]介紹了一種多語種的情感語料庫Emotion-Pak,該語料庫由烏爾都語、信德語、俾路支語等巴基斯坦地方語言的包含情感的句子組成,用于分析語音中存在的語言情感問題。與柏林情感語言數(shù)據(jù)庫相比,該語料庫通過韻律特征來研究語音情感是否依賴性別和語種。
2015年后,隨著深度學習方法的深入應用,出現(xiàn)了“deep learning”、“domain adaptation”、“CNN”、”attention mechanism”、“extreme learing machine”等熱點詞,語音情感識別(SER)性能得到進一步改善。
例如,Seyedmahdad Mirsamadi等[16]使用深度學習自動搜索與語音情感相關(guān)的特征。結(jié)果表明,利用深度循環(huán)神經(jīng)網(wǎng)絡(luò),既可以學習與情感相關(guān)的幀級聲學特征,又可以將這些特征按適當?shù)臅r間聚合成緊湊的話語級表征。此外,他還提出了一種新穎的隨時間推移的特征匯聚策略,利用局部注意力來聚焦語音信號中情感更為突出的特定區(qū)域,與現(xiàn)有的情緒識別算法相比,該算法能夠提供更準確的預測。Mu等[17]提出利用CNN學習語音情感識別的顯著影響特征,將特征學習引入到SER中,在公共情感語音數(shù)據(jù)集上的實驗結(jié)果表明,該方法在復雜場景中具有穩(wěn)定和魯棒的識別性能,并且優(yōu)于一些成熟的語音情感識別特征。楊明極等[18]為避免在高層語音語音特征提取中丟失大量原始信息,結(jié)合卷積CNN與LSTM顯著提高了情感識別率。Shamim Hossaina等[19]提出了一種基于情感大數(shù)據(jù)的深度學習方法的情感識別系統(tǒng),利用兩個連續(xù)的極限學習機將神經(jīng)網(wǎng)絡(luò)的輸出融合在一起,最后將融合后的圖像輸出到支持向量機進行最終的情感分類。
通過對語音情感識別相關(guān)論文進行文獻計量分析和可視化分析,主要得出以下結(jié)論:
(1)作者情況。在發(fā)文總量方面Schuller B、Zhao L、Zhang Z X、Zheng W M幾位學者位居前列,在語音情感識別領(lǐng)域中處于核心地位。但其中兩位中國學者的總被引次數(shù)、h指數(shù)和篇均被引頻次等指標較低,說明文章國際綜合影響力相對不足,文章的質(zhì)量有待提高。
(2)機構(gòu)情況。中國東南大學、帝國理工學院、慕尼黑工業(yè)大學等3所機構(gòu)在語音情感識別領(lǐng)域研究能力和綜合影響力較高;總發(fā)文量方面,中國東南大學居于首位,但是文章影響力相對薄弱。
(3)國家情況。中國、印度、德國、美國等國家在語音情感識別研究領(lǐng)域的整體國際影響力處于重要地位;雖然中國的h指數(shù)和篇均被引頻次等指標都相對較低,但其發(fā)文總量較多,反映中國在該領(lǐng)域具備強大的綜合研究和發(fā)展能力。
隨著人工智能的快速發(fā)展,語音情感識別研究領(lǐng)域擁有較高的實用價值,許多學者重視這一方向的研究,目前的主要發(fā)展趨勢如下:
(1)對于研究問題,目前更關(guān)注多模態(tài)融合的情感識別,這不僅包含不同數(shù)據(jù)類型的融合,例如語音與圖像融合、語音與生理信號融合、語音與腦電信號融合等,也包括行為、環(huán)境等情境化的融合研究。
(2)使用韻律學特征、基于譜的相關(guān)特征和聲音質(zhì)量特征的融合特征進行語音情感識別研究是本領(lǐng)域的重要方向,i-vector在近些年來的說話人識別領(lǐng)域也有著廣泛的應用。
(3)近些年來,隨著深度學習技術(shù)的不斷革新,人工智能也進入了一個新的紀元,如何利用深度學習或者無監(jiān)督特征學習算法進行語音情感特征提取是目前最火熱的研究方向之一,相對于傳統(tǒng)的手工特征提取方法,深度學習給相關(guān)研究者帶來新的研究思路。
(4)隨著人機交互的廣泛應用,在語音交互中加入情感機制成為目前的研究熱點。同時將語音情感應用于人類語言學習與測評成為促進人類語言學習研究的新的課題。
隨著人工智能的興起,語音情感識別在人機交互領(lǐng)域發(fā)揮著重要作用。例如,在交通行業(yè),對司機駕駛的精神狀態(tài)進行監(jiān)督,當檢測駕駛員處于疲憊狀態(tài)時加以提醒,提升安全性[20]。在教育行業(yè),在線課程學習過程中,對學生的學習狀態(tài)進行檢測,根據(jù)學生的情感變化適當調(diào)整學習進度與難度,提高個性化服務(wù)[21]。在醫(yī)療行業(yè),輔助孤僻癥患者對情感的理解與表達,促進患者正常的言語交流。同時,可以對患者進行實時情感監(jiān)控,當患者情緒異常時,醫(yī)生可以及時發(fā)現(xiàn)并治療。在服務(wù)行業(yè),具有情感系統(tǒng)的家庭服務(wù)機器人可以與用戶進行多維交互,具備聊天對話、文本閱讀、互動游戲等功能,進而為用戶提供更優(yōu)質(zhì)的服務(wù)[22]。情感識別也可用于電話客服中心,當系統(tǒng)檢測到用戶負面情緒較激烈,及時將他們轉(zhuǎn)接給人工客服進行補救,優(yōu)化用戶服務(wù)體驗[23]。在刑偵行業(yè)中,在計算機中加入情感識別模塊,可以輔助生理信號判斷犯人言語的真實性[24-25]。
語音情感識別是人機交互中一項重要的研究方向,在人工智能領(lǐng)域具有巨大的應用價值。文中在調(diào)研文獻的基礎(chǔ)上對當今的語音情感識別領(lǐng)域研究發(fā)展狀況進行分析。從該領(lǐng)域在20世紀末期被創(chuàng)立以來,在世界范圍內(nèi)的研究者們數(shù)十年的不懈努力下,語音情感識別研究取得了令人歡欣鼓舞的進步與發(fā)展。然而,鑒于情感其本身自有的復雜性,以及說話人,語言,性別等差異,該領(lǐng)域仍面臨著挑戰(zhàn)。這將是研究者們今后重點研究與解決的問題。