繆立欣,蘇日娜,邢淑敏,段曉東
(1.大連民族大學 a.計算機科學與工程學院;b.大連市民族文化數字技術重點實驗室,遼寧 大連 116605;2.北方民族大學 計算機科學與工程學院,寧夏 銀川 750000)
在情感研究中,研究者們對面部表情識別[1-2]、語音識別[3-4]和腦電信號等信息融合來識別和分析人類情感。眼睛作為面部的主要器官,也是反映人心理活動的主要窗口,通過不同的眼神表達豐富的情感和意向。人們在交流中除了使用語言、面部表情和肢體動作表達情感之外,眼睛作為心靈的窗口也在交流中起著至關重要的作用[5-6]。所以眼動信息也成為情感分析重要的一環,Schurgin和Nelson使用眼動信息來進行人臉情感識別的研究[7],但缺乏融合表情和眼動數據的相關研究。
人臉的族群特征是人臉視覺認知中先于年齡、性別和表情識別的最重要的人臉信息之一。此外,不同民族在表現不同情緒時采用的方式既有共同點又有差別,民族屬性將會在情感計算和分析中增加重要的屬性元素,有利于數據的多樣性。因此,一個包含多民族、數據真實的情感數據庫更是多民族情感識別研究的關鍵。
融合人臉民族、表情和眼動數據需要由攝像機、Tobii眼動儀兩種設備進行數據的采集工作。
(1)攝像機:考慮到后期要把錄制的面部視頻分解成視頻幀,并截取出面部區域,如果攝像機的幀數和分辨率太低,可能會給多民族情感的研究造成不必要的情感數據誤差。本文選用佳能XC10 4K影像機動態影像模式,分辨率為1920×1080 px的視頻。
(2)眼動儀:眼動數據采集使用Tobii ProX3-120眼動儀錄制,且與關聯Tobii Studio軟件系統結合使用。由于Tobii Studio的誘發刺激源可以是一個序列的圖像??刹杉?種數據內容,分別是:文本數據(原始注視點坐標及時間)、圖片(注視點分布圖,軌跡圖,熱點圖,興趣區,集簇圖)、視頻 (整個記錄視頻,特點片段視頻,動態熱點圖,軌跡圖flash)、表格(統計指標數據)、柱狀圖(統計指標數據)。
(3)數據記錄計算機:實驗采用臺式電腦記錄情感視頻和眼動數據,內存6G,主頻3.10GHz,操作系統Windows7旗艦版,64位系統。眼動數據是由和眼動儀配套使用的軟件Tobii Studio生成,最后從該軟件內,導出軌跡視頻、熱點圖、表格等數據到電腦上。情感視頻數據由Cannon攝像機采集存儲到內存卡中,再導入到電腦上進行存儲備份。
(4)誘導視頻播放計算機:播放誘導素材的計算機是一臺64位、i5的英特爾處理器的臺式電腦,電腦的內存為6G,主頻為3.10GHz,Windows7旗艦版的操作系統。該電腦配置兩個顯示器,一個顯示器供給實驗人員觀看,另一個顯示器用于實驗參與人員進行相關操作。并使用漫步者電腦專用音箱連接電腦的USB接口,進行播放情感誘導視頻的聲音。
(5)誘導視頻:本文中通過讓被試者觀看誘導視頻的方式,誘導被試者的情感。選定6段帶有不同情感色彩的誘導視頻作為最終的誘導材料,六種情感分別是生氣、厭惡、害怕、高興、驚奇、傷心,在測試六種情感過程中,需要在每一段中插入可以使人平靜的視頻。
數據的采集在數字攝影棚進行,實驗采集環境如圖1。負責播放情感誘導視頻的是一臺配置了兩個顯示屏電腦,桌子兩邊放了兩臺立式的柔光燈補光。攝像機架在被試者面對的顯示屏的后邊,根據被試者的情況調節攝像頭的角度和椅子的高度,以及調節暖光燈的位置,以達到拍攝畫面的最佳效果。

(a)實驗整體環境 (b)數據采集場景
由于不同的人心理承受能力不同,所以在實驗開始前,首先詢問參與實驗數據采集人員是否能夠承受誘發情緒視頻,實驗參與人員幫助被試者調整好座位和相關機器的位置,校準眼動設備,以實現最佳的數據采集效果;并將實驗室內所有人的手機都設置靜音模式遠置于被試者周圍。數據集總計錄制了時間為171.24 min的面部情感視頻和眼動軌跡的情感視頻,完成了五個民族情感數據的采集,采集了與之對應的六種情感類型的眼動數據,每個眼動數據包含三種數據類型,最終錄制的數據總量為86 G。
在對情感數據的源文件進行處理前,要對文件名稱進行規范,從而更好地進行數據的管理工作[8],本文制定了多民族情感數據的文件命名規則。
(1)第1位:表示情感數據來源的類型,共有兩種數據來源類型,分別表示為表情圖片F(Facial Expression Picture),眼動E(Eye);
(2)第2位:被試人員的性別,由男女的英文首字母縮寫組成,男性M(Male),女性F(Female);
(3)第3~4位:實驗者的民族,由民族的英文縮寫組成,分別是漢族HZ(Han Zu)、蒙古族MG(Mongolian)、回族HN(Hui Nationality)、壯族ZN(Zhuang Nationality)、滿族MC(ManChu);
(4)第5~7位:被試人員的編號,按照情感數據錄制的先后順序從001開始(不分男女);
(5)第8~9位:6種基本情感類型(每種情感類型的縮寫),高興HP,驚奇SP,厭惡DG,傷心SD,生氣AG,害怕FE;
(6)第10~11位:不同的數據類型代表的含義不一樣;情感圖片表示圖片的情感采樣點,例如02代表面部情感采樣片段為2的視頻片段里的圖片;眼動的數據類型,Gazeplot 1,Heatmap 2,cluster 3,video 4;
(7)第12~14位:該圖片的編號,按照錄制的先后順序從001開始。
面部情感圖片的命名示例如下:文件名FFMG004HP06003代表從第四個參與被試的人員的第六個情感片段中截取的第三張面部表情圖片,該參與者為女性,蒙古族;眼動數據的命名實例如下:文件名EFHZ003HP2代表第三個實驗參與者的眼動視頻軌跡,該參與者為女性,蒙古族。
情感圖片截取是從錄制的情感視頻文件中截取出目標情感片段,然后從帶有目標情感的視頻片段中分解出關鍵幀。在每一種情感中,情感表現最強烈的地方做標記,標記的規則為情感的最低值到最高值再到最低值這樣一個完整的過程。五位不同編號的實驗被試人員所表現出來的6種面部基本情感圖片如圖 2,圖片已經經過一系列的處理和篩選,符合目標情感且情感表現強烈,以下6張圖片的名稱分別為FFHZ003HP04002、FFHN004
AG01082、FMMC007DG03097、FMHN006FE01014、FFHN004SP01044、FMHZ002SD03011。

(a)高興 (b)生氣 (c)厭惡 (d)害怕 (e)驚奇 (f)傷心
目前所進行的無論是情感圖片識別的研究,還是多民族人臉識別的研究,大多數都是采用灰度表情圖片作為研究的基礎,需要進一步把彩色圖片轉為灰度圖像。所謂灰度圖像是用一個采樣顏色的圖像表示每個像素,經常使用的算法有以下三種:
(1)中值法:取彩色圖片的R、G、B的分量值,并求三者的和,然后進行平均計算,即
R=G=B=(R+G+B)/3。
(1)
采用中值法把彩色圖像轉換為灰度數字圖像的處理,得到比較柔和的灰度圖像,如圖3(a)。
(2)加權平均值法:根據彩色圖片進行灰度處理的指標,分別給R、G、B三個分量值賦予不同的權重,三原色的值分別和自身對應的權重相乘,最后除以權重總和,所得的結果分別復制給三原色的值,即
R=G=B=(Wr*R+Wg*G+Wb*B)/(Wr+Wg+Wb)。
(2)
式中,Wr、Wg、Wb為權重,分別對應R、G、B。經過加權平均值的算法處理過的圖像如圖3(b)。
(3)最大值法:取三原色的分量值中最大的一個,分別賦值給G、B、R,然后賦值給R、G、B,即
R=G=B=max(R,G,B),
(3)
用最大值法對彩色圖像進行灰度處理會使得圖像的整體亮度增強,如圖3(c)。
關于加權平均值算法,針對不同的權重值,加權平均值法將形成不同的灰度圖像,由于人眼對綠色的敏感度最高,對紅色的敏感度次之,對藍色的敏感度最低,因此使三個權重之間的關系定位Wg>Wr>Wb時,得到的灰度圖像將會比較合理。結合前人的理論推導和實踐操作證明,當三原色的權重值分別為Wr=0.299、Wg=0.587、Wb=0.114時,得到的灰度圖像最合理,即:
R=G=B=(0.299*R+0.578*G+0.114*B)/(0.299+0.578+0.114)。
(4)
按照以上三種方法對圖2的傷心表情彩色圖片的灰度化處理結果如圖3(a)中值法、3(b)加權平均值法、3(c)最大值法。

(a)中值法 (b)加權平均值法 (c)最大值法
從圖3的三幅圖片的展示效果中可以看出,使用中值算法生成的灰度亮度最低,使用最大值法生成的灰度圖片亮度最高,而使用權值為0.299、0.578、0.114三個權值的加權平均值法生成的灰度圖片亮度適中。此外,最大值法生成的灰度圖最模糊,中值法生成的灰度圖次之,加權平均值法生成的灰度圖像比中值算法亮度高,比最大值算法生成的圖片亮度低,生成的灰度圖片效果最好,故本文選擇加權平均值法生成的灰度圖片。
面部關鍵區域的截取原則是:從帶有目標情感的圖片中通過相關算法截取出僅包含面部區域的人臉情感圖片。從源圖片中截取出僅包含人臉關鍵部分的范圍較小的面部區域圖片。眼睛、眉毛、臉頰、嘴巴、額頭、鼻子、下顎是表情識別的主要識別區域,通過人臉區域算法截取出面部關鍵區域,算法的基本步驟為,針對圖像中的人臉區域先做一個基準點標注,以鼻梁中點為中心將不是水平的的圖像旋轉至水平狀態,圖像旋轉為水平的標準是與兩眼連線之間的線段是否平行。
進行人臉關鍵區域截取采用Openface和Face-crop[9],算法實現過程如圖4。把彩色圖片轉換為灰度圖片后,截取出的人臉面部區域圖片。

圖4 人臉截取算法
眼動信息就是通過使用眼動儀記錄人在處理視覺信息時的眼動軌跡特征,所以眼動數據的表達方式是展現在視頻的每一幀上,眼動追蹤過程中的眼動軌跡如圖5。

圖5 眼動追蹤過程中的眼動軌跡
為了管理方便,情感數據分別以兩種類型存儲,每種類型的文件夾下包含實驗參與者的數據文件夾,每個情感參與者的文件夾下包含6種情感的情感數據文件。
由于眼動數據表達的情感不具有直觀性,無法使用評判面部情感視頻片段的原則一樣,直接給出眼動軌跡所屬的情感類型,只有以截取情感圖片的視頻分段時做的標記為參考,來截取某段眼動軌跡視頻,然后給出此段眼動軌跡所屬的情感類型;參考面部情感片段截取的時間標記眼動軌跡視頻,根據標記好的眼動軌跡視頻從眼動記錄文件中截取出相應眼動軌跡片段存為新的視頻文件。由于眼動軌跡是連續的,隨著誘導視頻的變化而變化,單獨截取一幀的眼動軌跡圖片,經過一系列的處理,最終共采集了196個眼動信息。
介紹了在多民族情感數據庫的構建過程中進行情感采集實驗的過程以及如何從情感采集實驗的情感視頻和眼動文件中得到面部表情圖片和眼動軌跡這兩種多民族情感數據,分別給出了具體的數據提取和數據挑選規則,并展示了部分面部表情圖片、眼動軌跡。在情感數據采集及處理的基礎上,最終建立了一個包含5個民族6種基本表情的多民族情感數據庫,其中共有11 328幅表情圖片、196個眼動信息的多民族情感數據。本數據集雖然采集一定數量的數據,但是少數民族較少,多民族的情感類別的數據量依然需要進一步補充,進而促進我國多民族情感識別和智能人機交互的發展。