張曉靜,蔣冬梅,FAN Ping,SAHLI Hichem
1.西北工業大學計算機學院,西安 710072
2.陜西省語音與圖像信息處理重點實驗室,西安 710072
3.布魯塞爾自由大學電子與信息系,比利時布魯塞爾 1050
基于改進異步DBN模型的聽視覺融合情感識別
張曉靜1,2,蔣冬梅1,2,FAN Ping3,SAHLI Hichem3
1.西北工業大學計算機學院,西安 710072
2.陜西省語音與圖像信息處理重點實驗室,西安 710072
3.布魯塞爾自由大學電子與信息系,比利時布魯塞爾 1050
提出了一個改進的三特征流聽視覺融合異步動態貝葉斯網絡情感模型(VVA_AsyDBN),采用面部幾何特征(GF)和面部主動外觀模型特征(AAM)作為兩個視覺輸入流,語音Mel倒譜特征(MFCC)作為聽覺輸入流,且視覺流的狀態和聽覺流的狀態可以存在有約束的異步。在eNTERFACE’05聽視覺情感數據庫上進行了情感識別實驗,并與傳統的多流同步隱馬爾可夫模型(MSHMM),以及具有兩個聽覺特征流(語音MFCC和局域韻律特征LP)和一個視覺特征流的聽視覺異步DBN模型(T_AsyDBN)進行了比較。實驗結果表明,VVA_AsyDBN獲得了最高識別率75.61%,比視覺單流HMM提高了12.50%,比采用AAM、GF和MFCC特征的MSHMM提高了2.32%,比T_AsyDBN的最高識別率也提高了1.65%。
聽視覺融合;動態貝葉斯網絡;主動外觀模型(AAM);異步約束
如果計算機能夠感知和響應人類的情感,人機交互將會變得更加自然,因而情感識別逐漸成為多個領域的熱門研究課題,如心理學、認知學以及計算機科學等,而大多數研究只關注單特征流信息,如聽覺上的語音韻律信息[1]或視覺上的面部表情信息[2]。近年來,出現了一些聽視覺融合多模態情感識別方法,所采用的融合策略包括特征層融合、決策層融合和模型層的融合。其中,特征融合[3]可能由于特征空間的擴大,帶來維數災難而導致識別率下降,而決策層融合[3-4]則忽略了聽覺和視覺信息之間的關聯關系。為了更加合理地融合聽覺和視覺的情感信息,文獻[5]提出了多流融合隱馬爾可夫模型(Multi-Fused HMM,MFHMM),其聽覺特征采用基頻、能量等韻律特征,面部表情特征采用人臉紋理特征,基于最大熵和最大互信息準則,將聽覺情感和視覺情感的兩個HMM模型關聯起來。文獻[6]提出了三元HMM(triple HMM,THMM),允許特征流之間存在無限制的狀態異步,采用語音韻律特征、上半部人臉幾何特征和下半部人臉幾何特征作為三個輸入流進行情感識別。
然而,由于HMM結構的局限性,以上基于HMM的聽視覺融合不能合理地描述聽覺和視覺情感特征流之間的異步關系。為了更靈活地描述兩者之間可能存在的異步,在前期工作中[7],提出了異步可控的雙流動態貝葉斯網絡模型(Asy_DBN),采用語音感知線性預測系數(PLP)作為聽覺輸入流,視頻人臉的面部幾何特征為視覺輸入流,通過設置合理的聽視覺流狀態異步約束,Asy_DBN模型得到了比聽覺單流或視覺單流HMM以及狀態同步的多流HMM(MSHMM)都要高的識別率。在文獻[8]中,進一步提出了三特征流混合的DBN模型(T_AsyDBN),以語音Mel倒譜特征(MFCC)和局部韻律特征(LP)作為兩個聽覺輸入流,面部幾何特征(GF)作為視覺輸入流,并且允許聽覺流和視覺流的狀態在一定范圍內異步。實驗結果表明,T_AsyDBN模型獲得了比MSHMM以及Asy_DBN更高的識別率。然而,由于每種情感的訓練數據量有限,當訓練和測試數據集發生改變時,實驗結論不是很穩定。
考慮到在人類對于情感的感知中,從面部表情上獲得信息量占主要成分,為了進一步提高情感識別的識別率以及魯棒性,本文除了采用面部幾何(GF)特征外,還另外提取了包含人臉形狀和紋理信息的主動外觀模型(AAM)特征[9]作為視覺特征流,同時對T_AsyDBN模型進行了修正,構建了包含兩個視覺特征流和一個語音特征流的情感識別模型(VVA_AsyDBN),使得GF特征和AAM特征這兩個視覺特征流在狀態層同步,而它們與語音MFCC特征流之間允許在狀態層異步。在eNTERFACE’05情感數據庫上進行了聽視覺融合情感識別實驗,每種情感選取60句語句進行模型訓練,六種情感共135句作為測試數據,并采用了Jack-Knife方法,以消除訓練和識別樣本較少造成的影響。識別結果表明,VVA_ AsyDBN比Asy_DBN和T_AsyDBN模型的識別率有了進一步提升,達到75.61%。
本文在eNTERFACE’05數據庫上進行聽視覺情感識別實驗。數據庫包含六種基本情感:生氣、高興、悲傷、厭惡、害怕和驚奇。
2.1 聽覺情感特征提取
(1)MFCC特征
對語音信號施加窗長為30 ms,幀移為10 ms的海明窗之后,用HTK工具包[10]提取14維MFCC及其一階差分和二階差分,得到42維的MFCC特征序列。
(2)基于基頻和短時能量的局域韻律特征(LP)
在對語音信號施加窗長為30 ms,幀移為10 ms的海明窗后,分別提取每幀語音的基頻和短時能量,然后以130 ms作為一個局部區域,計算該局域內基于基頻和短時能量的韻律特征,包括其最大值、最小值、中值、均值、上升段斜率的最大值、下降段斜率的最小值,并以10 ms作為局部區域的位移,計算韻律特征的一階差分,得到28維局域韻律統計特征。為了降低數據的冗余度,對特征進行了PCA降維,在本文實驗中,最終得到了19維局部韻律特征。
2.2 視覺情感特征提取
(1)面部幾何特征(GF)
在本文前期工作中[8],采用有約束的貝葉斯切形狀模型(CSM)方法[11],檢測和跟蹤得到人臉圖像序列的83個特征點。如圖1(a)所示,83個特征點的標識位置如圖1(b)所示。

圖1 面部特征點跟蹤結果及特征點標識
在此基礎上,文獻[8]定義了將眉毛,眼睛和嘴巴考慮在內的整個臉部的18維面部幾何特征,與其一階差分相結合形成了36維視覺特征[8]。經過PCA降維之后,得到21維面部幾何特征。
為了進一步提高對頭部運動(旋轉、縮放和平移)的魯棒性,本文對文獻[8]提取的GF特征進行了改進:(1)對每幀面部圖像應用仿射變換,針對中性表情面部圖像進行了歸一化操作。(2)考慮到特征點距離的動態變化,將每幀圖像與中性圖像的特征向量的差值作為新的面部幾何特征。
(2)主動外觀模型(AAM)特征
為了獲得更加豐富的面部表情信息,本文使用AAM工具包(http://bagpuss.smb.man.ac.uk/~bim/software/)提取包含面部形狀和紋理信息的AAM特征。在訓練時從eNTERFACE’05數據庫中選取12個人的720幅面部圖像及其面部特征點來訓練AAM參數,設置特征向量的貢獻率為95%時,對每幀圖像提取了26維AAM特征。考慮到動態特性,采用AAM特征與中性圖像AAM特征的差值作為一幀圖像的特征向量。
最后,為了與聽覺特征的幀率100 frame/s相匹配,分別對幀率為25 frame/s的面部幾何特征和AAM特征進行線性插值,將其內插為幀率為100 frame/s的特征向量序列。
因此,當一句音視頻語音結束之后,分別離線提取其聽覺情感特征和視覺情感特征,形成了同步的兩個(或三個)動態特征流,作為情感識別模型的輸入。
3.1 VVA_AsyDBN模型及參數
借用DBN靈活的結構和強大的描述功能,考慮到情感識別中面部信息的優越性,本文設計了異步可控的聽視覺三特征流DBN情感識別模型,以面部幾何特征和AAM特征作為兩個視覺輸入流,MFCC特征作為聽覺輸入流,而且兩個視覺流在狀態層同步,它們與聽覺特征流可以在狀態層異步。VVA_AsyDBN模型的結構如圖2所示,包括三個部分:Prologue部分對模型進行初始化,Chunk塊可以隨著時間序列進行擴展,Epilogue部分描述了模型的結束幀,連線表示結點之間的條件概率。VVA_AsyDBN模型結點含義描述如表1所示。
在這個模型中,聽覺狀態和視覺狀態能夠在各自狀態流內進行獨立轉移,但其異步程度由結點CA的值控制。CA表示聽覺流和視覺流狀態之間的距離,其條件概率分布為:

設音頻流和視頻流的最大狀態數分別為AN和VN,聽視覺流狀態之間的最大異步約束為M,則AS和VS的條件概率分布分別定義為:


圖2 VVA_AsyDBN模型結構

表1 VVA_AsyDBN模型結點含義描述
上式表明,當AS/VS沒有達到最大狀態數AN/VN,并且允許狀態轉移,同時異步程度在M的約束范圍之內時,AS/VS可以發生狀態轉移,否則不允許轉移。
t時刻產生聽覺觀測向量和視覺觀測向量的聯合概率為:

j為聽視覺流的狀態組合,對每個特征流d,,和分別是狀態j的第n個高斯的權值、均值和方差陣,λd為三個特征流對應的權重,在本文實驗中均設置為1。
3.2 基于VVA_AsyDBN模型的情感識別
本文采用圖模型工具包GMTK[12]進行DBN模型的訓練和識別。在訓練時,對每一種情感訓練一組DBN參數。在本文實驗中,聽覺最大狀態數,視覺最大狀態數和混合高斯數分別設置為3、3和8。在識別階段,將一段視頻的MFCC特征、面部幾何特征和AAM特征輸入到模型中,將最大似然概率對應的情感模型作為識別結果。
4.1 聽視覺情感數據庫
實驗采用eNTERFACE’05聽視覺情感數據庫[13],該數據庫由來自14個不同國家的42個說話人,在純凈語音環境下用英語進行錄制,包括生氣、高興、悲傷、厭惡、恐懼、驚訝6種基本情感。對每種情感隨機挑選60句作為訓練數據,其他各種情感共135句作為測試數據。由于實驗數據量較少,為了保證實驗結果的穩定性,本文采用了Jack-Knife方法[14],對于每種情感,每次在訓練集和測試集中分別選取10句進行交換,循環3次,最終的情感識別結果是3次識別率的平均值。

表2 聽視覺單流和多流情感識別結果(%)
4.2 實驗結果分析
聽覺/視覺單流HMM和聽視覺多流模型的情感識別結果如表2所示,AHMM,VHMM分別代表聽覺單流和視覺單流HMM,(n)表示聽視覺狀態之間的異步約束為n。
實驗結果表明:
(1)視覺單流的情感識別率高于聽覺單流,這一結果符合人類對情感的感知。在視覺單流識別中,以AAM為特征的VHMM(AAM)模型的識別率最高達到63.11%,也說明了AAM特征對情感識別的有效性。
(2)跟單流HMM相比,狀態同步的雙流HMM(MSHMM_AAM_MFCC)的識別率達到72.08%,而異步約束為1時的Asy_DBN_AAM_MFCC(1)模型的識別率又進一步提高到73.61%。
(3)對于三特征流模型,狀態同步的MSHMM_AAM_ GF_MFCC識別率為73.29%,有兩個音頻流(MFCC和LP)和一個視頻流(AAM)且異步約束為2的T_AsyDBN_ AAM_MFCC_LP(2)的情感識別率為73.94%,而本文提出的VVA_AsyDBN_AAM_GF_MFCC(2)模型在異步約束為2時,在所有模型中得到了最優的識別結果,達到75.61%。
本文提出了一個改進的聽視覺融合三特征流DBN情感識別模型(VVA_AsyDBN),以面部幾何特征和面部AAM特征作為視覺輸入流,語音MFCC特征作為聽覺輸入流,而且兩個視覺特征流在狀態級同步,聽覺特征流的狀態與視覺特征流的狀態之間可以存在有約束的異步。在eNTERFACE’05聽視覺情感數據庫上的情感識別實驗結果表明,本文提出的VVA_AsyDBN模型,效果不僅優于傳統的狀態同步的聽視覺雙流和聽視覺三流HMM,而且識別率比聽視覺雙流異步的Asy_DBN模型以及T_AsyDBN模型又有了進一步提升,達到了75.61%。本文的不足之處在于:由于CSM算法不能實時跟蹤面部特征點,導致視覺特征的提取不能實時,因此不能做到實時的聽視覺情感識別。在進一步工作中,將嘗試應用AAM進行面部特征點跟蹤,以提高視覺情感特征提取的實時性。同時,還將擴展在其他聽視覺情感數據庫中的情感識別實驗,以進一步驗證VVA_AsyDBN模型的有效性。
[1]Metze F,Polzehl T,Wagner M.Fusion of acoustic and linguistic features for emotion detection[C]//IEEE Int Conf on Semantic Computing(ICSC’09),2009:153-160.
[2]Yang Peng,Liu Qingshan,Metax D N.Boosting encoded dynamic features for facial expression recognition[J].Pattern Recognition Letters,2009,30(2):132-139.
[3]Busso C,Deng Z,Yildirim S,et al.Analysis of emotion recognition using facial expressions,speech and multimodal information[C]//ACM Int Conf on Multimodal Interfaces,2004:205-211.
[4]Zeng Z,Tu J,Liu M,et al.Audio-visual affect recognition[J].IEEE Trans on Multimedia,2007,9(2):424-428.
[5]Zeng Z,Tu J,Pianfetti,et al.Audio-visual affective expression recognition through multi-stream fused HMM[J].IEEE Transactions on Multimedia,2008,10(4):570-577.
[6]Song M,You M,Li N,et al.A robust multimodal approach for emotion recognition[J].Neurocomputing,2008,71(10/12):1913-1920.
[7]Chen D,Jiang D,Ravyse,et al.Audio-visual emotion recognition based on a DBN model with constrained asynchrony[C]//Proc Int Conf Image and Graphics(ICIG),2009:912-916.
[8]Jiang Dongmei,Cui Yulu,Zhang Xiaojing,et al.Audio visual emotion recognition based on triple-stream dynamic Bayesian network models[C]//LNCS 6974:Affective Computing and Intelligent Interaction,2011:609-618.
[9]Cootes T F,Edwards G J,Taylor C J,et al.Active appearance models[C]//LNCS 1407:Computer Vision,1998:484-498.
[10]Young S,Kershaw O D,Ollason J,et al.The HTK book[M]. Cambridge:Entropic Ltd,1999.
[11]Hou Y,Sahli H,Ravyse I,et al.Robust shape based head tracking[C]//LNCS 4678:Proc the Advanced Concepts for Intelligent Vision Systems,2007:340-351.
[12]Bilmes J,Zweig G.The graphical models toolkit:an open source software system for speech and time series processing[C]//Proc ICASSP,2002:3916-3919.
[13]Martin O,Kotsia I,Macq B,et al.The eNTERFACE’05 audio-visual emotion database[C]//Proc 22nd Int Conf on Data Engineering Workshops,2006.
[14]Wu C F J.Jackknife,Bootstrap and other resampling methods in regression analysis[J].The Annals of Statistics,1986,14(4):1261-1295.
ZHANG Xiaojing1,2,JIANG Dongmei1,2,FAN Ping3,SAHLI Hichem3
1.School of Computer Science,Northwestern Polytechnical University,Xi’an 710072,China
2.Shaanxi Provincial Key Laboratory on Speech and Image Information Processing,Xi’an 710072,China
3.Department of Electronics and Informatics,Vrije Universiteit Brussel,Brussel 1050,Belgium
This paper proposes a modified triple stream asynchronous DBN model(VVA_AsyDBN)for audio visual emotion recognition,with the two visual feature streams,facial geometric features(GF)and facial active appearance model features(AAM),synchronous at the state level,while they are asynchronous with the audio feature stream(Mel Filterbank Cepstrum Coefficients,MFCC)within controllable constraints.Emotion recognition experiments are carried out on the eNTERFACE’05 database,and results are compared with the traditional state synchronous Multi-Stream Hidden Markov Model(MSHMM),as well as the asynchronous DBN model(T_AsyDBN)with two audio feature streams(MFCC and local prosodic features LP)and one visual feature stream.Results show that VVA_AsyDBN obtains the highest performance up to 75.61%,which is 12.50%higher than the visual only HMM,2.32%higher than the MSHMM with MFCC,AAM and GF features,and 1.65%higher than the T_AsyDBN model with MFCC and LP features as well as AAM features.
audio visual fusion;Dynamic Bayesian Network(DBN);Active Appearance Model(AAM);asynchrony constraint
A
TP391.4
10.3778/j.issn.1002-8331.1211-0289
ZHANG Xiaojing,JIANG Dongmei,FAN Ping,et al.Audio visual emotion recognition based on modified asynchronous DBN models.Computer Engineering and Applications,2014,50(21):162-165.
國家自然科學基金(No.61273265);陜西省國際科技合作重點項目(No.2011KW-04)。
張曉靜(1988—),女,碩士研究生,主要研究方向:聽視覺融合的語音情感分析;蔣冬梅,女,教授,主要研究方向:語音處理、聽視覺融合的語音情感識別和面部動畫合成;FAN Ping,女,博士生;SAHLI Hichem,男,教授,主要研究方向:視頻與圖像處理。E-mail:jiangdm@nwpu.edu.cn
2012-11-23
2013-01-24
1002-8331(2014)21-0162-04
CNKI出版日期:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0946.009.html