四川信息職業技術學院軟件學院 周建儒
情緒調節系統通過獲取用戶的語音和臉部圖像識別用戶的情緒,并且在適當的時候會幫助用戶調節負面情緒。人類情感的表達形式是復雜而多樣的,基于單一語音信號或人臉表情圖像的情感識別具有一定的局限性,為了提高情感識別的準確率,探索了基于自適應遺傳算法(AGA)將語音信號特征與人臉表情圖像特征相融合,然后采用支持向量機(SVM)進行情感識別。
上世紀初,英國醫生費里斯和德國心理學家斯沃博特同時發現了一個奇怪的現象:有些患有頭疼、精神疲倦等癥狀的病人每隔28天就來治療一次,于是他們就將這種現象稱為“情緒周期”,28天稱為“情緒定律”。人的情緒周而復始地變化著,一般28天為一個周期。每個周期的前半期為“高潮期”,后半期為“低潮期”,高潮期向低潮期過度的時間叫“臨界期”,一般為兩三天。當人處于臨界期時,情緒不穩定。
了解情緒變化的周期,人們就可以更好地控制自己的情緒。人們在心情愉悅的時候,可以承受更大的工作壓力,從事難度較大的工作,接受較繁瑣的任務。在心情低落的時候,可以找人傾訴,或者進行體育運動,或者借助一些可以調節情緒的軟件,及時調整個人的心情,使自己的情緒盡快恢復到良好的狀態,從而避免不良事情的發生。
情緒調節系統正是為了調節人的情緒而設計的一款適用于手機的情緒自動識別與調節軟件,當用戶在使用手機進行通話或者工作的時候,只要開啟這個軟件,它就能夠自動獲取語音信息和臉部表情信息,然后進行情緒識別,識別出用戶的情緒狀態,如果用戶處于負面情緒的狀態,這個軟件會在設定的時間播放能夠舒緩情緒的音樂,幫助用戶調節情緒,使其更快的恢復到良好的情緒狀態。
情緒調節系統主要有三個功能,語音情感識別、人臉圖像情感識別、播放音樂。只要用戶打開該系統,并設定系統獲取用戶語音數據和臉部圖像數據的起止時間,系統就會在設定的時間段內實時獲取用戶的語音和正面的臉部圖像,然后進行情緒識別,系統會統計用戶負面情緒出現的時間和數量,自動分析用戶負面情緒出現的頻率和分布的時間,然后綜合評估用戶的情緒狀態,并在適當的時間提醒用戶注意調節情緒,在征得用戶同意后,系統會為用戶播放可以舒緩情緒的音樂,幫助用戶調節負面情緒。
用戶在通話過程中采集語音數據,保存在語音庫中,對每一段語音進行預加重、分幀、加窗、端點檢測等預處理,在采用MFCC方法進行語音特征提取,然后在基于SVM進行語音識別,識別出用戶的情緒狀態。
情緒調節系統對臉部表情識別有兩種方式,圖像識別和實時視頻識別。圖像識別方式,先開啟攝像頭,每間隔0.5s拍一張照片,拍攝的如果是正面人臉的照片就保存在圖像庫中,否則就丟棄;實時視頻識別方式,每間隔0.4s采集5幀圖像,采集的圖像使用OpenCV進行預處理,挑選出人臉面部圖像保存。對圖像庫中的圖像進行情緒狀態識別。
用戶將自己喜歡且可以起到舒緩情緒的音樂上傳到手機,單獨保存在某個固定的路徑中。當情緒調節系統檢測到用戶處于負面情緒狀態的時候,系統可以從這個路徑中隨機選取音樂播放,調節用戶的情緒。情緒調節系統功能邏輯如圖1所示。

圖1 情緒調節系統功能邏輯圖
語音情感識別(Speech emotion recognition,SER)是指計算機可以自動識別語音信號的情感狀態。SER技術主要分為語音信號采集、特征提取和情感識別三個階段,其中關鍵技術是語音特征提取和語音情感識別。
語音信號是模擬信號,在對語音信號進行預處理之前必須通過采樣將其轉換成數字信號,預處理的目的是消除語言信號中的無用信息,獲得穩定的語音信號。預處理之后的語音信號有相同的數據格式,可以降低特征提取的難度。
語音情感特征主要包括韻律特征、音質特征、基于譜的相關特征,這些特征在語音情感識別中起到關鍵作用,所以,語音特征的選取和提取直接決定了語音情感識別的準確率。語音情感識別模型有支持向量機(SVM)、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、卷積神經網絡(CNN)、遞歸神經網絡(RNN)等。其中卷積神經網絡在語音識別和圖像識別領域取得了成功。黃晨晨將連續多幀的語音情感特征合并為一個高維特征,在利用深度信念網絡自動提取語音情感特征,然后輸入SVM分類器中進行分類。
語音情感識別的分類算法之一是支持向量機(SVM),由Vapnik等人在1995年提出,這是一種基于統計學習理論基礎的機器學習方法,具有良好的性能指標。通過學習算法,SVM能夠自動尋找出對分類有較好區分能力的支持向量,并構造出分類器,它可以尋找各種類樣本點之間的最寬距離,區別歸屬各種類別樣本的數據,具有較好的適應能力和較高的分類準確率。
人臉情緒識別有四個步驟:人臉圖像采集、圖像預處理、人臉檢測與定位、人臉情緒識別。

圖2 基于語音和人臉圖像的情感識別圖
通過攝像頭采集人臉圖像,可以是照片也可以是視頻,如果是視頻就要獲取每一幀圖像,把所有的圖像轉換為數字圖像格式方便進行預處理。從視頻中采集到的圖像由于受到拍攝角度、位置、燈光等因素的影響,可能會導致人臉識別不準確,所以必須通過灰度化、幾何變換、圖像增強的流程對圖像進行預處理,使得人臉圖像具有標準的大小、位置、灰度等級。
人臉檢測是判斷圖像中是否存在人臉以及人臉在圖片中的位置。定位人臉位置的方法有很多,其中Viola和Jones使用一種基于臉部地理信息的人臉檢測方法,對臉部的眼睛、鼻子、嘴巴等關鍵部位進行定位,根據人臉紋路的分布改變人臉圖像的像素密度,通過自適應增強的方法去掉圖像中不重要的節點,進而定位人臉在圖像中的位置。
人臉表情情緒識別是針對檢測到人臉的面部表情進行情緒識別。近年來基于深度學習的卷積神經網絡的表情識別技術成為該領域的研究熱點。Song等人設計了一個具有65000個神經元的五層CNN網絡模型,使用dropout技巧削弱了訓練過程中過擬合的問題,并且該模型可以部署在智能手機上。
當情緒調節系統檢測到用戶處于負面情緒狀態,并且有必要借助該系統進行情緒調節的時候,當獲得用戶允許后,系統會自動從音樂文件中隨機挑選音樂播放,幫助用戶舒緩情緒,起到調節負面情緒的作用。
為了讓情緒調節系統能夠在沒有網絡的環境中運行,該系統不支持播放網絡中的音樂文件,同時為了提高系統在手機上的運行速度,該系統不支持對音樂情緒特征的識別,主要是因為音樂情緒特征的識別過程占用的內存較大,特征提取過程的計算量較大,不適合在手機上進行計算,所以,音樂的選擇根據用戶主觀愛好,自己分類并傳入手機即可。
基于語音和人臉圖像的多模態情感識別是情緒調節系統的核心模塊,在整個系統研究中占有重要的作用,核心工作是構建多模態情感識別模型。
國內的很多學者對多模態的情感識別進行了深入的研究,其中閆靜杰采用交叉模態因子分析(KCMFA)方法對語音和臉部圖像進行特征降維和特征融合,再利用隱馬爾可夫模型對情感類型進行識別。王曉華提出了基于時空局部二值模式矩方法的雙模態情感識別算法,有效的解決了視頻情感識別中運算復雜的問題。本文采用了自適應遺傳算法(AGA)對人臉表情、語音兩個特征進行融合,然后采用支持向量機進行情感分類識別,如圖2所示。
結語:目前,情感識別是人機交互領域的研究熱點,本文探索了基于語音和人臉圖像多模態情感識別的方法,并基于此研究設計了情緒調節系統,目的是幫助處在負面情緒狀態中的人們借助這個系統調節自己的情緒,從而避免對身心造成傷害。