韓志艷,王健
(渤海大學 遼寧 錦州121000)
基于模糊核聚類的多模式情感識別算法研究
韓志艷,王健
(渤海大學 遼寧 錦州121000)
為了克服單模式情感識別存在的局限性,該文以語音信號和面部表情信號為研究對象,提出了一種新型的多模式情感識別算法,實現對喜悅、憤怒、驚奇和悲傷4種人類基本情感的識別。首先,將獲取的信號進行預處理并提取情感特征參數,然后利用模糊核聚類算法對其進行聚類分析,即利用Mercer核,將原始空間通過非線性映射到高維特征空間,在高維特征空間中對多模式情感特征進行模糊核聚類分析。由于經過了核函數的映射,使原來沒有顯現的特征突現出來。實驗結果驗證了該方法的可行性和有效性。
多模式情感識別;語音信號;面部表情信號;模糊核聚類
近年來,情感識別的研究工作在人機交互領域中已經成為一個熱點問題。國內外情感識別的研究主要有兩大類,一類是單模式情感識別,另一類是多模式情感識別。所謂單模式情感識別為只從單一信息通道中獲得當前對象的情感狀態,如從語音信號、面部表情信號或生理信號(血壓、體溫、脈搏、心電、腦電、皮膚電阻等)等。對于語音情感識別,1990年麻省理工大學多媒體實驗室構造了一個“情感編輯器”對外界各種情感信號進行采樣來識別各種情感,并讓機器對各種情感做出適當的反應。北京航空航天大學的毛峽[1]通過用相關密度和分形維數作為情感特征參數來進行語音情感識別,獲得了較好的性能。Attabi等[2]將錨模型的思想應用到了語音情感識別中,改進了識別系統的性能。Zheng等[3]通過對傳統的最小二乘回歸算法進行改進,提出了不完稀疏最小二乘回歸算法,能同時對標記和未標記語音數據進行情感識別。Mao等[4]通過使用卷積神經網絡來選擇對情感有顯著影響的特征,取得了很好的效果。對于面部表情識別,1978年開發出了面部動作編碼系統(Facial Action Coding System,FACS)來檢測面部表情的細微變化。1997年提出了基于視頻的動態表情描述方法FACS+,解決了FACS中沒有時間描述信息的問題。Rahulamathavan等[5]利用局部Fisher判別分析對加密面部表情信號進行了識別研究。中國科學技術大學的文沁等[6]提出一種基于三維數據的人臉情感識別方法,給出了基于三維特征的眼角和嘴角新的提取算法。Zheng等[7]提出了基于組稀疏降秩回歸的多視角面部表情識別方法,能夠從多尺度子域中自動選擇出對情感識別貢獻最大的子域。對于生理信號情感識別,Petrantonakis等[8]采用高階過零技術(Higher order crossing,HOC)提取腦電波信號中的情感信息來進行情感識別。Zacharatos等[9]分析研究了身體姿勢和動作對情感識別的重要性。
雖然單一地依靠語音信號、面部表情信號和生理參數來進行情感識別的研究取得了一定的成果,但卻存在著很多局限性,因為人類是通過多模式的方式表達情感信息的,它具有表達的復雜性和文化的相對性。比如,在噪聲環境下,當某一個通道的特征受到干擾或缺失時,多模式方法能在某種程度上產生互補的效應,彌補了單模式的不足,所以研究多模式情感識別的方法十分必要。如Kim等[10]融合了肌動電流、心電、皮膚電導和呼吸4個通道的生理參數,并采用聽音樂的方式來誘發情感,實現了對積極和消極兩大類情感的高效識別。東南大學的趙力、黃程韋等[11]通過融合語音信號與心電信號進行了多模式情感識別,獲得較高的融合識別率。但是上述方法均為與生理信號相融合,而生理信號的測量必須與身體接觸,因此對于此通道的信號獲取有一定的困難,所以語音和面部表情作為兩種最為主要的表征情感的方式,得到了廣泛的研究。Hoch等[12]通過融合語音與表情信息,在車載環境下進行了正面(愉快)、負面(憤怒)與平靜等3種情感狀態的識別。Sayedelahl等[13]通過加權線性組合的方式在決策層對音視頻信息中的情感特征進行融合識別。從一定意義上說,不同信道信息的融合是多模式情感識別研究的瓶頸問題,它直接關系到情感識別的準確性。聚類屬于非監督模式識別問題,其特點是輸入空間的樣本沒有期望輸出。比較經典的聚類方法有傳統的C-均值方法和模糊C-均值聚類方法,這些方法都沒有對樣本的特征進行優化,而是直接利用樣本的特征進行聚類,這樣上述這些方法的有效性很大程度上取決于樣本的分布情況。Grolami[14]在結合核方法和聚類算法方面做了開創性的工作,他通過把模式空間的數據非線性映射到高維特征空間,增加了模式的線性可分概率,在高維特征空間達到線性可聚的目的。
因此,文中以語音信號和面部表情信號為基礎,提出了一種基于模糊核聚類的多模式情感識別算法,對喜悅、憤怒、驚奇和悲傷4種人類基本情感進行識別。
通過噪聲刺激和觀看影視片段等誘發方式采集相應情感狀態下的語音信號和面部表情信號,并將二者綁定存儲。對于語音數據,在提取特征之前要進行一階數字預加重、分幀、加漢明窗和端點檢測等預處理。對于面部表情數據,在提取特征之前要首先用膚色模型進行臉部定位,然后進行圖像幾何特性歸一化處理和圖像光學特性的歸一化處理,其中圖像幾何特性歸一化主要以兩眼位置為依據,而圖像光學特性的歸一化處理包括先用直方圖均衡化方法對圖像灰度做拉伸,以改善圖像的對比度,然后對圖像像素灰度值進行歸一化處理,使標準人臉圖像的像素灰度值為0,方差為1,如此可以部分消除光照對識別結果的影響。
2.1 語音情感參數提取
以往對情感特征參數的有效提取主要以韻律特征為主,然而近年來通過深入研究發現,音質特征和韻律特征相互結合才能更準確地識別情感。研究發現,音質類特征對于區分激活維接近的情感有較好的效果,證實了共振峰等音質類特征與效價維度的相關性較強。
為了盡可能地利用語音信號中所包含的有關情感方面的信息,我們選取了語句發音持續時間與相應的平靜語句持續時間的比值、基音頻率平均值、基音頻率最大值、基音頻率平均值與相應平靜語句的基音頻率平均值的差值、基音頻率最大值與相應平靜語句的基音頻率最大值的差值、振幅平均能量、振幅能量的動態范圍、振幅平均能量與相應平靜語句的振幅平均能量的差值、振幅能量動態范圍與相應平靜語句的振幅能量動態范圍的差值、第一共振峰頻率的平均值、第二共振峰頻率的平均值、第三共振峰頻率的平均值、諧波噪聲比的均值、諧波噪聲比的最大值、諧波噪聲比的最小值、諧波噪聲比的方差作為情感識別用的特征參數。
2.2 面部表情參數提取
目前面部表情特征的提取根據圖像性質的不同可分為靜態圖像特征提取和序列圖像特征提取,靜態圖像中提取的是表情的形變特征,而序列圖像特征是運動特征。文中以靜態圖像為研究對象,采用Gabor小波變換來提取面部表情參數。具體過程如下:
1)將預處理后的人臉圖像進行網格化,網格化為25×25像素,所以每張臉共有4行3列共12個網格。
2)將網格化后的圖像和Gabor小波進行卷積,其公式如下:

3)取‖r(x,y)‖的均值和方差作為面部表情參數;
4)用主成分分析法PCA對上述特征進行降維處理,獲得的面部表情特征參數作為特征融合的特征參數。
3.1 核方法
近年來,核方法已經成為機器學習研究的熱點之一。核方法的基本思想是把輸入空間的非線性樣本映射到高維特征空間使之線性化,在高維空間中設計線性學習算法。但是高維特征空間的映射會使計算量成指數倍增長,因此通常利用Mercer核技巧來解決非線性變換帶來的“維數災難”問題[15]。
假設輸入空間的樣本xk,k=1,2,…,N被某種非線性映射Φ(·)映射到某一特征空間H得到Φ(x1),Φ(x2),…,Φ(xN)。那么在特征空間就可以用Mercer核來表示輸入空間的點積形式:

對任意的平方可積函數g(x),都滿足:

則就可以找到核函數K的特征函數和特征值,(Φi(x),λi),相應的核函數可以寫成:

其中NH是特征空間維數,非線性映射函數可寫成:

這樣由式(4)和式(5),就可以得到式(2)。
常用的Mercer核函數有sigmoid核函數、多項式核函數和高斯核函數。目前還沒有一個通用的標準來選擇核函數,但由于高斯核函數所對應的特征空間是無窮維的,有限的樣本在該特征空間中肯定是線性可分的,因此文中選用高斯核函數:

其中y(p)為矢量y的第p維分量,z(p)為矢量z的第p維分量,p=1,…,d,d為矢量的維數,σ為高斯核函數的寬度。通常采用歐式范數時,取a=2,b=1。
3.2 模糊核聚類算法
令X={x1,x2,…,xN}為輸入模式空間Rd中的一個有限數據集,xk是維數為d的模式矢量。依照核方法的思想,利用非線性映射Φ(·)將輸入模式空間變換到一個高維特征空間,在該高維特征空間擴展模糊C-均值算法,其目標函數為:

其中U=[uik],i=1,…c;k=1,N為模糊隸屬度函數矩陣。V={v1,v2,…vc}是第i類的模式原型或聚類中心。m>1是模糊加權指數。利用Mercer核的性質,目標函數中模式矢量xk與vi在特征空間中的Euclid距離表示為:

則在特征空間中的目標函數就可以寫為:

特征空間中的隸屬度函數滿足:

在特征空間Rq中新的類中心為:

可計算得:


其中xk,xl∈X,j=1,…,N,l=1,…,N為模式矢量。所以在特征空間新隸屬度函數uik更新為:

從上式可以看出,可以通過對兩個核函數K(xk,)和K()的更新來完成對隸屬度函數的更新,而不需要更新類的中心,因此大大減少了計算量。
本算法的具體實現過程為:
步驟1:選擇類數c、迭代終止條件ε∈(0,1)及迭代次數T;
步驟2:選擇核函數K及其參數;
步驟3:初始化類中心vi,i=1,…,c;
步驟4:利用式(10)計算每個樣本在特征空間的隸屬度函數;
步驟5:利用式(12)、(13)計算核函數,并按式(14)更新隸屬度;
實驗中獲取的語音信號采樣頻率是11.025 kHz,量化精度是16 bit;面部表情信號則是通過攝像機拍攝,每幅圖像大小為256×256像素。
4.1 不同高斯核寬度對系統性能的影響
在該算法中核函數的計算對系統性能會有較大的影響。圖1給出了系統錯聚率隨高斯核函數的變化曲線。

圖1 系統錯聚率隨核寬度的變化曲線圖
從圖1可以看出,當高斯核寬度σ<5時,系統錯聚率隨σ著的增大而迅速減小。當σ=5時,錯聚率是最小的。但當σ>5時,錯聚率卻有所提高,在σ≥7時錯聚率基本保持恒定。這主要是由于隨著σ的增大或減小,就越接近1或0,從而使(xk,vi)就越接近于0,此時特征空間中矢量之間的可區分性減少,導致了聚類效果的下降。
4.2 算法結果比較
為了驗證該算法的可行性和有效性,我們對σ=5時3種聚類算法進行了比較研究。同時為了證明該文方法的識別效果,將單模式條件下的識別結果與多模式條件下的識別結果進行了對比。我們對樣本集進行了10次試驗,表1為僅通過語音信號進行聚類的對比結果;表2為僅通過面部表情信號進行聚類的對比結果;表3為在多模式條件下,通過用該文方法進行聚類的對比結果。

表1 僅通過語音信號進行聚類

表2 僅通過面部表情信號進行聚類

表3 通過該文方法
從表1、表2和表3可以看出,用模糊核聚類的方法收斂速度最快,聚類正確率明顯高于其它兩類。還可以看出僅通過語音信號特征和僅通過面部表情信號特征進行聚類分析的平均聚類正確率較同時用語音信號特征和面部表情特征進行聚類分析的平均聚類正確率低。因此,單純依靠語音信號或面部表情信號進行聚類分析在實際應用中會遇到一定的困難,因為人類是通過多模式的方式表達情感信息的,所以研究多模式情感識別的方法十分必要。
該文提出了一種基于模糊核聚類的多模式情感識別方法,而且仿真實驗結果也證實了該方法的可行性。但是該文只是針對特定文本的語音情感進行識別,距離實用還有一定的距離,所以非特定文本的語音情感識別將成為我們下一步的研究方向。
[1]Mao X,Chen L J.Speech emotion recognition based on parametric filter and fractal dimension[J].IEICE Trans on Information and Systems,2010,93(8):2324-2326.
[2]Attabi Y,Dumouchel P.Anchor models for emotion recognition from speech[J].IEEE Trans on Affective Computing,2013,4(3):280-290.
[3]Zheng W M,Xin M H,Wang X L et al.A novel speech emotion recognition method via incomplete sparse least square regression[J].IEEE Signal Processing Letters,2014,21(5):569-572.
[4]Mao Q R,Dong M,Huang Z W et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Trans on Multimedia,2014,16(8):2203-2213.
[5]Rahulamathavan Y,Phan R C-W,Chambers J A et al. Facial expression recognition in the encrypted domain based on local fisherdiscriminant analysis[J].IEEE Trans on Affective Computing,2013,4(1):83-92.
[6]文沁,汪增福.基于三維數據的人臉表情識別[J].計算機仿真,2005,25(7):99-103.
[7]Zheng W M.Multi-view facial expression recognition based on group sparse reduced-rank regression[J].IEEE Trans on Affective Computing,2014,5(1):71-85.
[8]Petrantonakis P C,Hadjileontiadis L J.Emotion recognition from EEG using higher order crossings[J].IEEE Trans on Information Technology in Biomedicine,2010,14(2):186-197.
[9]Zacharatos H,Gatzoulis C,Chrysanthou Y L.Automatic emotion recognition based on body movement analysis:a survey [J].IEEE Computer Graphics and Applications,2014,34(6):35-45.
[10]Kim J,Andre E.Emotion recognition based on physiological changes in music listening[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(12):2067-2083.
[11]黃程韋,金赟,王青云等.基于語音信號與心電信號的多模態情感識別[J].東南大學學報:自然科學版,2010,40(5): 895-900.
[12]Hoch S,Althoff F,Mcglaun G et al.Bimodal fusion of emotional data in an automotive environment:IEEE International Conference on Acoustics, Speech, and Signal Processing,2005[C]∥USA:IEEE,2005:1085-1088.
[13]Sayedelahl A,Araujo R,Kamel M S.Audio-visual featuredecision level fusion for spontaneous emotion estimation in speech conversations:2013 IEEE International Conference on Multimedia and Expo Workshops,2013[C].USA:IEEE,2013:1-6.
[14]Mao X,Chen L J.Mercer kernel based clustering in feature space[J].IEEE Trans on Neural Networks,2002,13(3): 780-784.
[15]林琳,王樹勛,郭綱.短語音說話人識別新方法的研究[J].系統仿真學報,2007,19(10):2272-2275.
Research on multimodal emotion recognition algorithm based on fuzzy kernel clustering
HAN Zhi-yan,WANG Jian
(BohaiUniversity,Jinzhou 121000,China)
In order to overcome the limitation of singlemode emotion recognition.This paper described a novelmultimodal emotion recognition algorithm,took speech signal and facial expression signal as the research subjects,and accomplished recognition for six kinds of human emotion(joy,anger,surprise,sadness).First,made some pre-processing and extracted emotion feature for speech signaland facialexpression signal.Second,used the fuzzy kernel clustering for clustering analysis. That is to say,by using Mercer kernel function,the data in original spaceweremapped to a high-dimensional eigen-space,and then used the fuzzy clustering for the speech features in the high-dimensional eigen-space.Because of the kernel mapping,the feature inherent in the emotion signals explores,which improves the discriminations of the different emotion category.Experimental results verify the feasibility and effectivenessof the proposedmethod.
multimodal emotion recognition;speech signal;facial expression signal;fuzzy kernel clustering
TN101
A
1674-6236(2016)20-0001-04
2016-03-12 稿件編號:201603150
國家自然科學基金資助(61503038;61403042)
韓志艷(1982—),女,內蒙古赤峰人,博士,副教授。研究方向:情感識別、情感可視化。