胡明 崔冉 郭健鵬 吳靜然 翟曉東



摘要:語音信號包含了人類豐富的情感信息,本文從離散情感模型出發,選擇了高興、悲傷、憤怒和害怕4種基本情感作為研究對象,利用螢火蟲算法實現了支持向量機參數自動尋優,從而提高了識別的效率。為了使測試數據更據代表性,選取了中文和德文數兩種據庫,400個樣本進行訓練和測試。實驗表明,對SVM分類器進行優化在一定程度上提高了情感識別率。
關鍵詞:語音信號;螢火蟲算法;改進的支持向量機;情感識別
中圖分類號:TP18 文獻標識碼:A 文章編號:1007-9416(2019)06-0109-02
0 前言
機器情感這一研究領域從提出概念伊始,就伴隨著倫理道德的疑慮。而隨著人工智能技術的發展,如何設計并實現一個具有情感識別的智能機器人顯得尤為重要了。而其關鍵技術就是研究情感識別核心算法,不斷提高識別的速度和準確率。
目前情感識別研究領域中,最主要的途徑就是通過對人的生理信息,例如聲音信號、脈搏信號、腦電信號、面部表情、身體形態等一種信號分析或多種信號的多模分析,利用識別技術進行訓練學習和類型識別判斷。本文主要通過對語音信號的拾取、預處理、特征提取和類型識別,達到情感識別的目的,這一過程的核心是類型識別,也是近幾年研究最多、成果最豐富的環節。本文利用改進的支持向量開展語音信號情感識別的研究,研究思路如圖1所示。
1 語音情感的分類
人類的情感是一個復雜的系統,屬于心理學范疇,目前尚無一個統一的、標準的定義。人類的情感是人類對不同物理、事件體現出的反映,再通過人的語音、表情、動作、生理信號等各種外在的方式表達出來。各個國家心理專家、情感識別專家對情感有不同的分類依據和方法,主要有離散情感模型和緯度情感模型。離散情感模型,將人類的情感分為基本情感和復雜情感,且復雜情感是有基本情感的有機組合產生的,因此研究基本情感就顯得尤為重要了。不同的心理學家將人類的基本情感進行了不同的分類,有的分為高興和悲傷兩種,而其它各種情感均是這兩種情感的不同比例組合而成。而有的專家則將人的基本情感分為3-9種更加細膩的情感。緯度情感模型,則認為人的感情是連續的,不是離散的,主要有二緯度情感模型和三維度情感模型,每個緯度分為正向積極方向和反向消極方向。本文主要從離散情感模型出發,重點研究公認的幾種基本情感:高興、悲傷、憤怒和害怕。
2 語音情感的數據庫樣本選取
語音情感的數據庫是分析識別語音情感的前提。因為語言、方言、性別等因素不同,目前尚無公認的、統一的、標準語音數據庫庫。為了驗證改進型支持向量機的準確率,本文選取兩種語言的語音情感數據庫:EMO-DB數據庫和CASIA數據庫[1]。
2.1 CASIA數據庫
CASIA數據庫是一個中文情感數據庫,該數據庫由中國科學院錄制,分別錄制了4名人員在6類不同情感(快樂、中性、憤怒、悲傷、害怕、驚訝)下的聲音,采樣頻率16KHz,16位AD采集量化,每種感情保留200句。根據本文設計需要,選取其中高興(原數據庫中的快樂)、悲傷、憤怒和害怕4類數據進行訓練和測試,每類選取50句,如表1所示。
2.2 EMO-DB數據庫
EMO-DB數據庫是一個德語情感數據庫,該數據庫由柏林工業大學建立,是目前國際上相對標準和認可的數據庫,分別錄制了10名專業演員在7類不同情感(快樂、中性、憤怒、悲傷、恐懼、無聊、厭惡),共計錄制800句,最終保留535句。根據本文設計需要,選取其中高興(原數據庫中的快樂)、悲傷、憤怒和害怕(原數據庫中的恐懼)4類數據進行訓練和測試,每類選取50句,如表2所示。
3 語音信號的預處理
語音信號具有隨著時間變化而變化的特性,而且是不穩定的,因此需要對語音信號進行預處理,從而去除干擾,獲得高質量的信號[2]。語音信號的預處理過程如圖2所示。
考慮到小波變換處理語音信號時存在一定的局限性,本文采取了近期較為常用、不需要事先選定基函數的EMD算法對語音信號進行預處理,取得了較好的效果。
4 語音信號情感特征參數的提取
語音信號中的情感特征參數是其能表達感情的關鍵,包含了韻律特征、音質特征、基于譜的相關特征[2]。其中,韻律特征參數主要有語速、基因頻率及短時能量,而音質特征參數主要有共振峰、聲門參數,基于譜的相關特征參數主要有線性譜特征和倒譜特征。我們主要研究了梅爾頻率倒譜系數(MFCC),基音周期,共振峰參數,短時過零率,短時能量,能量抖動參數,時域及頻域能量,平均功率,語速等參數,并通過對這些參數的分析,分別計算了它們的統計學特征,包括平均值、中位值、標準差、最小值、最大值、方差、變化率、一階差分等。
5 改進的支持向量機算法對語音信號情感的分類識別
5.1 螢火蟲算法優化支持向量機參數
螢火蟲算法(Firefly Algorithm,FA)是由Xin-she Yang教授于2008年提出的一種十分新穎的生物群智能優化算法,算法的靈感來源于對螢火蟲群體行為的簡化和模擬,一經提出就吸引了國內外大量學者的關注,是優化算法研究領域的熱點之一[3]。本文選取FA算法對SVM的關鍵參數進行優化,建立FA-SVM模型[4],主要流程如圖3所示。
5.2 情感分類結果分析
本文將從EMO-DB數據庫和CASIA數據庫中選取關于高興、憤怒、悲傷、害怕等四類情感各50個,合計400個數據分別在SVM和FA-SVM模型中訓練和測試,識別結果統計如表3所示。
通過對表3的橫向和縱向進行分析,可以得出,經過改進的支持向量機FA-SVM針對語音信號的情感識別率,比未經過優化的支持向量機的識別率有明顯的改善,尤其是憤怒的識別最高,提高了11.1%,而高興、 悲傷、害怕分別有4.1%、7.6%、5.6%的效果改善。
參考文獻
[1] 王艷,胡維平.基于BP特征選擇的語音情感識別[J].微電子學與計算機,2019,36(5):14-18.
[2] 李曉琴.基于支持向量機的語音情感識別[D].吉林:哈爾濱理工大學,2018.
[3] 臧睿,李晶.基于維度加權的改進螢火蟲算法[J].計算機科學,2017,44(6A):123-125.
[4] 曾建梅.改進的支持向量機用于脈搏信號的情感識別研究[D].吉林:重慶理工大學,2016.