韓志艷,王健(渤海大學 遼寧 錦州 121000)
面向語音與面部表情信號的情感可視化方法
韓志艷,王健
(渤海大學 遼寧 錦州 121000)
為了提高情感可視化的魯棒性,該文提出了一種面向語音與面部表情信號的情感可視化方法。首先對獲取的情感信號進行特征提取,并將其作為神經網絡的輸入,神經網絡的輸出即為相應的圖案信息,然后通過圖像生成模塊生成可視化圖像,實現對中性、高興、憤怒、驚奇、悲傷和恐懼六種人類基本情感的可視化。該方法通過組合不同模式的情感特征進入一幅圖像中,為人們創造了情感的可讀模式,可以直觀地展示情感的分類結果。仿真實驗結果表明,僅通過語音信號進行可視化的平均正確率是78.0%,而通過該文方法的平均正確率是91.8%,具有良好的魯棒性和易懂性。
語音信號;面部表情信號;情感可視化;特征提取
近年來,情感信息的研究工作在人機交互領域中已經成為一個熱點問題[1-4]。隨著社會信息化的推進和網絡應用的日益廣泛,信息源越來越龐大。對海量信息之間的復雜關系的努力探索,促使了信息可視化這一嶄新科學技術的出現。情感信息可視化的研究任務是將大規模復雜數據信息轉換為直觀圖形或圖像,充分發揮人們對可視模式的形象思維優勢,達到觀察、瀏覽、研究、探索、發現隱藏在大規模數據內部的特征和規律的目的[5-8]。目前情感可視化的研究主要停留在單模式情感可視化的水平,即只從單一信息通道中獲得當前對象的情感狀態,如從語音信號、面部表情信號或生理信號(血壓、體溫、脈搏、心電、腦電、皮膚電阻等)等[9-12]。雖然單一地依靠語音信號、面部表情信號或生理參數來進行可視化取得了一定的成果,但卻存在著很多局限性,因為人類是通過多模式的方式表達情感信息的,它具有表達的復雜性和文化的相對性[13]。比如,在噪聲環境下,當某一個通道的特征受到干擾或缺失時,多模式方法能在某種程度上產生互補的效應,彌補了單模式的不足。所以研究多模式情感可視化的方法十分必要[14]。由于生理信號的測量必須與身體接觸,因此對于此通道的信號獲取有一定的困難,所以語音和面部表情作為兩種最為主要的表征情感的方式,在情感識別方面得到了廣泛的研究,但是其只能通過文字來表達識別結果,顯示不直觀[15-16]。因此本文中提出了一種面向語音和面部表情信號的情感可視化方法,可以應用到情感識別結果的表達上,實現了情感信息的生動描述和高效表達。
如圖1所示為本可視化系統的總體結構框圖,其包括情感信號獲取、情感信號預處理、情感特征參數提取、神經網絡設計及圖像生成模塊。
首先通過噪聲刺激或者觀看影視片段等誘發方式誘發人的情感,再同步獲取相應情感狀態下的語音信號和面部表情信號,并將二者綁定存儲。其中利用麥克風輸入語音數據,然后利用計算機以11.025 kHz的采樣頻率、16 bit的量化精度進行采樣量化,獲得相應的語音信號;對面部表情信號則是通過攝像機拍攝,每幅圖像大小為256×256像素。

圖1 系統總體結構圖
利用一階數字預加重濾波器對獲取的語音信號進行預加重處理,其中利用的預加重濾波器的系數取值范圍為0.93~0.97之間,本文取0.937 5。接下來以幀長256點的標準進行分幀處理,并對分幀后的語音信號加漢明窗處理,再利用短時能零積法進行端點檢測。
對獲取的面部表情信號,首先用膚色模型進行臉部定位,然后進行圖像幾何特性歸一化處理和圖像光學特性歸一化處理,其中圖像幾何特性歸一化主要以兩眼位置為依據,而圖像光學特性的歸一化處理包括先用直方圖均衡化方法對圖像灰度做拉伸,以改善圖像的對比度,然后對圖像像素灰度值進行歸一化處理,使標準人臉圖像的像素灰度值為0,方差為1,如此可以部分消除光照對識別結果的影響。其歸一化后的圖像大小為75×100像素。
4.1語音情感特征參數提取
以往對情感特征參數的有效提取主要以韻律特征為主,然而近年來通過深入研究發現,音質特征和韻律特征相互結合才能更準確地識別情感。為了盡可能地利用語音信號中所包含的有關情感方面的信息,文中提取了16個語音情感特征,其中前9個語音情感特征為韻律特征,后7個語音情感特征為音質特征。
前9個語音情感特征分別為:語句發音持續時間與相應的平靜語句持續時間的比值、基因頻率平均值、基因頻率最大值、基因頻率平均值與相應平靜語句的基因頻率平均值的差值、基因頻率最大值與相應平靜語句的基因頻率最大值的差值、振幅平均能量、振幅能量的動態范圍、振幅平均能量與相應平靜語句的振幅平均能量的差值、振幅能量動態范圍與相應平靜語句的振幅能量動態范圍的差值。
后7個語音情感特征分別為:第一共振峰頻率的平均值、第2共振峰頻率的平均值、第三共振峰頻率的平均值、諧波噪聲比的均值、諧波噪聲比的最大值、諧波噪聲比的最小值、諧波噪聲比的方差。
4.2面部表情特征參數提取
目前面部表情特征的提取根據圖像性質的不同可分為靜態圖像特征提取和序列圖像特征提取,靜態圖像中提取的是表情的形變特征,而序列圖像中提取的是運動特征。本文以靜態圖像為研究對象,采用Gabor小波變換來提取面部表情特征參數,具體過程如下:
1)將預處理后的面部表情圖像網格化為25×25像素;
2)用Gabor小波和網格化后的圖像進行卷積,公式如下:


其中,r(x,y)為Gabor小波變換后的結果;I(ε,η)為對應像素坐標(ε,η)的像素值;數算子,σ是與小波頻率帶寬有關的常數,取值為的取值決定了Gabor濾波的波長,取值為0,1,2,u的取值表示Gabor核函數的方向,取值為1,2,3,4,5,6,表示總的方向數,取值為6;ε,η為積分變量;
3)取模‖r(x,y)‖的均值和方差作為面部表情特征參數;
4)用主成分分析法PCA對上述面部表情特征參數進行降維處理,文中將初始的75*100*2,即15 000個維數降為30維。
如圖2所示,所述的神經網絡為三層小波神經網絡,其中輸入層有46個神經元,激勵函數為線性變換,隱含層有12個神經元,激勵函數為小波函數,輸出層有3個神經元,激勵函數為Sigmoid函數。

圖2 神經網絡結構示意圖
6.1圖像主顏色編碼
通過給屏幕相應位置的RGB賦值,即通過設定圖像紅色飽和度R、綠色飽和度G和藍色飽和度B的值,來獲得圖像的主顏色信息。紅綠藍三基色幅度全為0得到黑色,紅綠藍三基色幅度全為1得到白色,各個基色對顏色的貢獻是加色法則。本文取R=0,G=0,B=0,即主顏色為黑色。
6.2圖案信息編碼
如圖3所示,將16個語音情感特征和30個面部表情特征共46個情感特征作為神經網絡的輸入,神經網絡的輸出即為相應的圖案信息,神經網絡的輸出層有3個神經元,均采用二進制編碼,共有8個不同的碼,其中只用前6個碼,依次對應著中性、高興、憤怒、驚奇、悲傷和恐懼6種人類基本情感,即000代表中性情感,001代表高興情感,010代表憤怒情感,011代表驚奇情感,100代表悲傷情感,101代表恐懼情感。可以通過改變相應位置的三基色RGB的飽和度來顯示不同質地的圖案。本文取R=1,G=1,B=1,即白色質地的圖案。
6.3圖像合成
圖像合成時,把圖像主顏色信息與圖案信息融合在一幅圖像中在顯示屏上顯示。具體為先獲得圖像的主顏色信息,然后用圖案信息置換相應位置的主顏色信息,獲得相應的情感可視化圖像。

圖3 圖案信息編碼示意圖
圖4(a)所示為中性情感的可視化效果圖,圖案信息為一條橫線;圖4(b)為高興情感的可視化效果圖,圖案信息為一條橫線;圖4(c)為憤怒情感的可視化效果圖,圖案信息為一條豎線;圖4(d)為驚奇情感的可視化效果圖,圖案信息為兩條橫線;圖4 (e)為悲傷情感的可視化效果圖,圖案信息為兩條豎線;圖4(f)為恐懼情感的可視化效果圖,圖案信息為十字線。圖中可以直觀地展示情感的分類結果,與現有技術相比,具有良好的易懂性。

圖4 可視化效果圖
為證明文中方法的可視化效果,將單模式條件下的可視化效果與多模式條件下的可視化效果進行對比。原始訓練樣本集包含每種情感的200條語音數據樣本與200條面部表情數據樣本,測試集包含每種情感的100條語音數據樣本和100條面部表情數據樣本。在單模式條件下,僅通過語音信號進行可視化的正確率如表1所示;在多模式條件下,通過用本文方法進行可視化的正確率如表2所示。注:表中第行第列的元素表示真實情感狀態是的樣本被判別成的比例。
由表1和表2可知,僅通過語音信號進行可視化的平均正確率是78.0%,而本文提出的方法可視化的平均正確率是91.8%。因此,單純依靠某個通道信號進行可視化在實際應用中會遇到一定的困難,因為人類是通過多模式的方式表達情感信息的,所以研究多模式情感可視化的方法十分必要。

表1 僅通過語音信號進行可視化的正確率
文中通過組合語音信號和面部表情信號兩種不同模式的情感特征進入一幅圖像中,為人們創造了情感的可讀模式,可以直觀地展示情感的分類結果。同時提取了語音信號的音質特征和韻律特征,能夠更全面地提取蘊含在語音信號中的情感信息,使可視化的結果更加準確。采用Gabor小波變換來提取面部表情特征參數,它能夠同時檢測多尺度、多方向的紋理變化,而且對亮度和人臉姿態的變化不敏感,使得提取的面部表情特征參數魯棒性更好。而且本文通過神經網絡來對圖案信息進行編碼,有效地提高了情感的可視化正確率,縮短了可視化時間,實現了效率與時間的雙贏。但是本文只是針對特定文本的情感進行可視化,距離實用還有一定的距離,所以非特定文本的情感可視化將成為我們下一步的研究方向。

表2 本文提出的方法
[1]余伶俐,蔡自興,陳明義.語音信號的情感特征分析與識別研究綜述[J].電路與系統學報,2007,12(4):76-84.
[2]Mao X,Chen L J.Speech emotion recognition based on parametric filter and fractal dimension[J].IEICE Trans on Information and Systems,2010,93(8):2324-2326.
[3]Attabi Y,Dumouchel P.Anchor models for emotion recognition from speech[J].IEEE Trans on Affective Computing,2013,4(3):280-290.
[4]Zheng W M,Xin M H,Wang X L et al.A novel speech emotionrecognitionmethodviaincomplete sparse least square regression[J].IEEE Signal Processing Letters,2014,21 (5):569-572.
[5]Mao Q R,Dong M,Huang Z W,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Trans on Multimedia,2014,16(8): 2203-2213.
[6]梁路宏,艾海舟,徐光,等.人臉檢測研究綜述[J].計算機學報,2002,25(5):449-458.
[7]Rahulamathavan Y,Phan R C-W,Chambers J A,et al.Facial expression recognition in the encrypted domain based on local fisherdiscriminant analysis[J].IEEE Trans on Affective Computing,2013,4(1):83-92.
[8]文沁,汪增福.基于三維數據的人臉表情識別[J].計算機仿真,2005,25(7):99-103.
[9]Zheng W M.Multi-view facial expression recognition based on group sparse reduced-rank regression[J].IEEE Trans on Affective Computing,2014,5(1):71-85.
[10]Petrantonakis P C,Hadjileontiadis L J.Emotion recognition from EEG using higher order crossings[J].IEEE Trans on Information Technology in Biomedicine,2010,14(2):186-197.
[11]林時來,劉光遠,張慧玲.蟻群算法在呼吸信號情感識別中的應用研究[J].計算機工程與應用,2011,47(2):169-1172.
[12]Zacharatos H,Gatzoulis C,Chrysanthou Y L.Automatic emotion recognition based on body movement analysis:a survey[J].IEEE Computer Graphics and Applications,2014,34 (6):35-45.
[13]Zeng Z,Pantic M,Roisman G I,et al.A survey of affect recognition methods:audio,visual,and spontaneous expressions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(1):39-58.
[14]Kim J,Andre E.Emotion recognition based on physiological changes in music listening[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(12):2067-2083.
[15]黃程韋,金赟,王青云,等.基于語音信號與心電信號的多模態情感識別[J].東南大學學報:自然科學版,2010,40(5): 895-900.
[16]Sayedelahl A,Araujo R,Kamel M S.Audio-visual feature-decision level fusion for spontaneous emotion estimation in speech conversations:2013 IEEE International Conference on Multimedia and Expo Workshops,2013[C].USA:IEEE,2013:1-6.
Emotion visualization method for speech and facial expression signals
HAN Zhi-yan,WANG Jian
(Bohai University,Jinzhou 121000,China)
In order to improve the robustness of emotion visualization,this paper proposes a new emotion visualization method for speech and facial expression signals.Firstly,extracts emotion feature parameters.Then makes the feature parameters as the input of neural network,the output of neural network is the corresponding pattern information,and then generates a visual image by image generation module,and finally accomplishes the visualization for six kinds of human emotion(neutral,joy,anger,surprise,sadness,fear).This method creates emotion readable mode for people by combining the emotion features of different patterns into an image.That can visually show emotion classification results.The simulation results show that the average correct rate is 78.0%only through speech signal,while the average correct rate is 91.8%through the proposed method. That is robust and easy to understand.
speech signal;facial expression signal;emotion visualization;feature extraction
TN101
A
1674-6236(2016)11-0146-04
2016-02-17稿件編號:201602056
國家自然科學基金(61503038;61403042)
韓志艷(1982—),女,內蒙古赤峰人,博士,副教授。研究方向:情感識別、情感可視化。