權學良 曾志剛 蔣建華 張亞倩 呂寶糧 伍冬睿
情感(Affect)遍布于人們的日常生活中.根據(jù) 《心理學大辭典》[1]的定義,情感是人類對客觀事物和自己需求相比較之后產(chǎn)生的態(tài)度和體驗.情感能反映一個人當下的生理心理狀態(tài),也對人們的認知、溝通和決策等產(chǎn)生重要影響[2].情感的變化通常是在外界環(huán)境的刺激之下產(chǎn)生的,會伴有個體表征和心理反應的變化,因此可以通過科學的方法來進行測量和模擬.
情感計算(Affective computing)[3]是一個跨學科研究領域,涉及計算機科學、心理學和認知科學等多個學科,旨在研究和開發(fā)能夠識別、解釋、處理和模擬人類情感的理論、方法和系統(tǒng).其研究發(fā)展簡史如圖1 所示.1986 年,人工智能奠基人之一、圖靈獎獲得者、麻省理工學院Minsky 教授在其著作The Society of Mind[4]中最早提出了讓計算機能夠識別情感的概念.1997 年,麻省理工學院Picard教授發(fā)表了關于情感計算的首部專著Affective Computing[5],情感計算正式成為現(xiàn)代計算機學科的一個分支.2010 年,IEEE 計算機學會、計算智能學會和系統(tǒng)、人和控制論學會共同創(chuàng)辦了第一個情感計算領域的學術期刊IEEE Transactions on Affective Computing.
圖1 情感計算研究發(fā)展簡史Fig.1 A brief history of affective computing research
情感計算的常見輸入信號包括視頻(面部表情、肢體動作等)、音頻、文本、生理信號等.與面部表情等不同,腦電等生理信號不易偽裝,更能反應個體的真實情緒狀態(tài),因而基于生理信號的情緒識別在諸如臨床診斷、治療等方面有著重要作用[6].又如在交通運輸領域,駕駛員的憤怒、焦慮等負面情緒會嚴重影響專注度,可能導致交通事故.利用可穿戴設備對駕駛員的情緒狀態(tài)進行實時監(jiān)測,能夠有效減少交通事故.隨著5G 技術、物聯(lián)網(wǎng)、人機交互、機器學習尤其是深度學習等技術的不斷發(fā)展,基于腦電等生理信號的情感計算在醫(yī)療保健、媒體娛樂、信息檢索、教育以及智能可穿戴設備等領域都有著廣闊的應用前景.
本文對基于生理信號的情感計算進行綜述與展望.文章組織結構如下:第1 節(jié)介紹情感計算的相關基礎理論;第2 節(jié)介紹情感計算中常用的生理信號類型;第3 節(jié)介紹基于生理信號的情感計算流程;第4 節(jié)介紹基于腦電等生理信號的情感計算常用公開數(shù)據(jù)集;第5 節(jié)總結情感計算中生理信號的特征處理方法;第6 節(jié)詳細介紹基于生理信號的情感計算中的機器學習算法;第7 節(jié)指出基于腦電等生理信號的情緒識別研究面臨的一些挑戰(zhàn);最后,第8節(jié)對全文進行總結.
1997 年,麻省理工學院Picard 教授在其專著Affective Computing[5]中明確定義了情感計算的概念:情感計算是指因為情感引發(fā)的、和情感相關的、或者能夠影響和決定情感變化的因素的計算.
根據(jù)各個領域近年來所取得的研究成果,科學家們總結出,情感是人類在適應社會環(huán)境的過程中所逐漸形成的一種機制.由于個體生活環(huán)境的差異,導致不同個體面臨相同的環(huán)境刺激時,既可能會產(chǎn)生相同或相似的情感變化,也可能產(chǎn)生截然不同的情感變化.這種心理機制能夠起到趨利避害的作用.計算機雖然具備強大的邏輯計算能力,但是由于缺少與人類相似的心理機制,使人類在與計算機進行人機交互時往往不能進行更深入的交流.情感理論是解決這一問題的有效方法.所以一個實現(xiàn)計算機智能化的有效手段就是將邏輯計算與情感計算相結合,這也是目前眾多研究者重點關注的一個研究課題.
根據(jù)心理學家的研究,對人類情緒產(chǎn)生關鍵影響的因素主要包括環(huán)境變化、個體需求和認知[7].其中環(huán)境變化是情緒產(chǎn)生的先決條件,同時個體需求以及認知也會對人類的情緒產(chǎn)生不同程度的影響.
對于情緒具體是如何產(chǎn)生以及變化的,目前在心理學上并沒有統(tǒng)一的理論.現(xiàn)有的主要理論包括:刺激和響應理論、生理反應和表現(xiàn)理論、主觀認知和評價理論等.其中刺激和響應理論的應用相對更為廣泛.該理論認為,情緒的喚醒和產(chǎn)生的關鍵因素是主體對客觀事物和環(huán)境的評價水平.
刺激和響應理論的一個代表性的研究工作是1990 年Ortony、Clore 和Collins[8]提出的OCC(OCC 為三位作者名字首字母縮寫)理論.OCC 情感理論根據(jù)誘發(fā)情緒的條件將情緒劃分為三類,分別是:由事件誘發(fā)的情緒、由個體行為誘發(fā)的情緒、和對對象的看法誘發(fā)的情緒.基于該標準,OCC 情感理論具體列出了22 類情緒的層次結構.在該模型中,恐懼、憤怒、高興和悲傷是最經(jīng)常出現(xiàn)的4 種情緒.OCC 理論較早地以計算機實現(xiàn)為目的進行情感理論建模,在諸多人機交互技術中得到了較為廣泛的應用.
由于情緒本身具有非常高的復雜性和抽象性,導致諸多研究者在做情感計算相關工作時并不能達成統(tǒng)一的情緒分類標準.目前,研究者們通常將情緒模型分為離散型模型和連續(xù)型模型兩種.
離散型情緒模型可以從范疇觀的角度進行理解.中國古代文獻 《禮記》 將情緒分為喜、怒、哀、樂、愛、惡、欲等7 種類別.文獻 《白虎通》 則將情緒劃分為喜、怒、哀、樂、愛、惡等6 種類別.中國著名心理學家林傳鼎[9]將 《說文》 中354 個表示情緒狀態(tài)的字劃分為安靜、憤怒、喜悅等18 種情緒狀態(tài).1971 年,美國心理學家Ekman 等[10]通過分析人類的面部表情,將人類的情緒劃分為生氣、討厭、害怕、高興、悲傷和驚訝等6 種基本情緒類別.1993 年,美國應激理論的現(xiàn)代代表人物之一Lazarus[11]將情緒劃分為生氣、焦慮、幸福等15 種類別,并且每一種情緒狀態(tài)都有一個相應的核心相關主題.2003 年,心理學家Plutchik[12]將情緒劃分為8 種基本類別:生氣、害怕、悲傷、討厭、期待、驚訝、贊成、高興.這些離散型情緒劃分方法相對比較簡單和容易理解,在許多情緒識別研究中得到了廣泛應用.
連續(xù)型情緒模型可以從維度觀的角度進行理解.情緒的維度空間模型又可以分為二維、三維等不同類型.情緒二維表示模型最早由心理學家Russell[13]在1980 年提出,如圖2 (a) 所示.該模型的橫軸和縱軸分別表示愉悅度(Valence) 和喚醒度(Arousal).愉悅度表示情緒的愉悅程度,喚醒度表示情緒的強烈程度.模型的四個極點表示四種不同的離散情緒類別:高興(高愉悅/高喚醒)、輕松(高愉悅/低喚醒)、厭煩(低愉悅/低喚醒)、驚恐(低愉悅/高喚醒).在文獻中,該二維表示模型經(jīng)常被稱為VA (Valence-arousal)模型.
圖2 情緒的連續(xù)型維度空間表示Fig.2 Continuous dimensional representations of emotions
由于情緒的二維空間表示無法有效區(qū)分某些基本情緒,如害怕和憤怒,Mehrabian[14]提出了情緒的三維空間表示,在愉悅度和喚醒度的基礎上又增加了支配度(Dominance),如圖2 (b) 所示:憤怒的支配度高,而害怕的支配度低.在文獻中,該三維表示模型經(jīng)常被稱為VAD (Valence-arousal-dominance)模型.
上述VA 和VAD 模型是目前受到較高認同并且得到廣泛使用的兩種維度型情緒模型.
人類的情緒變化通常會伴隨著生理信號的變化.生理信號相較于面部表情或者語音信號的優(yōu)點在于生理信號更能反應真實情緒狀態(tài),而面部表情和語音信號對情緒的表征不夠細膩,且易于偽裝.因此,生理信號是情感計算的重要輸入信號.
用于情感計算的生理信號主要包括腦電、眼動、肌電、皮膚電、心電和呼吸等,如表1 所示.由于這些生理信號的頻率通常比較低,且采集時易受到外界環(huán)境影響,因此通常需要專門的設備進行采集,并且在采集之后需要進一步對信號進行預處理,以提高信號質量和情感計算效果.
表1 情感計算中常用的生理信號Table 1 Common physiological signals in affective computing
其中,腦電圖(EEG)是通過腦電帽,在頭皮處將人的大腦產(chǎn)生的微弱生物電信號收集、放大并記錄而得到的信號[15].在頻域中通常將腦電信號劃分為5 個頻段,不同頻段能夠反應出大腦的不同活動狀態(tài),如表2 所示.
表2 腦電頻率劃分Table 2 Frequency bands of EEG
Zheng 等[16]關注不隨時間變化的穩(wěn)定情感模式.他們的研究結果表明:穩(wěn)定的模式會出現(xiàn)在一整個試次中;在β和γ頻段,顳葉區(qū)域對于積極情緒的激活遠大于對消極情緒的激活;正常情緒的神經(jīng)模式在枕葉和頂葉區(qū)域有較為明顯的α頻段響應;對于消極情緒,其神經(jīng)模式在頂葉和枕葉區(qū)域有較為明顯的δ頻段響應,同時在額葉前部有較高的γ頻段響應.此外,在不同試次之間的結果表明,以上不同情緒對應的模式也具有穩(wěn)定性.該研究表明情緒狀態(tài)、大腦神經(jīng)活動區(qū)域以及EEG 信號頻段之間有一定聯(lián)系,并且同一個體基于EEG 的情感模式是穩(wěn)定的.
在基于腦電信號的情緒識別任務中,需要對腦電信號進行預處理以提高信號的質量.預處理一般包括降采樣、濾波、去除偽跡以及特征提取等環(huán)節(jié).常見的腦電信號分析方法有獨立成分分析(Independent component analysis,ICA)、功率譜密度分析(Power spectral density,PSD)、小波分析(Wavelet analysis,WA)等[17-18].更具體的腦電信號特征提取及分類器設計等工作將在后文中進行詳細介紹.
除腦電信號外,其他生理信號也被證實與個體情緒狀態(tài)之間存在諸多聯(lián)系.如心率信號對于積極情緒和消極情緒的識別有很大幫助[19].基于心率信號可得到心率變異性(HRV)指標[20],即逐次心跳周期的變化情況.當受試者受到刺激時,心率變異性會被抑制;而當受試者處于放松狀態(tài)時,心率變異性則會回到正常狀態(tài).又比如人類情感的變化通常會引起皮膚的生理反應.皮膚是人體和外界接觸最緊密的器官,研究表明[1],皮膚電反應(GSR)對于情緒識別有很大幫助.皮膚電反應的原理是:當機體受到外界刺激或者情緒狀態(tài)發(fā)生變化時,其神經(jīng)系統(tǒng)的活動會引起皮膚內血管的舒張和收縮以及汗腺分泌等變化,從而導致電阻發(fā)生改變.當受試者受到強烈刺激、情緒波動較大時,皮膚電變化較大;而當受試者情緒變化較小時,皮膚電變化也較小.
進一步地,我們通過谷歌學術檢索了2010 年以來公開發(fā)表的標題中同時含有生理信號與情感計算等關鍵詞的文章,檢索結果如表3 所示.在基于生理信號的情感計算研究工作中,腦電信號占據(jù)主導地位,因為情緒與人的大腦思維密切相關.因此,腦電信號是本綜述關注的焦點.基于心電圖、心率變異性、皮膚電、肌電等生理信號的情感計算研究工作相對較少,而基于血壓、脈搏、皮膚溫度、眼電、血氧等生理信號的研究工作更少.
表3 谷歌學術中2010 年以來基于生理信號的情感計算工作統(tǒng)計Table 3 Statistics of physiological signal based affective computing Google Scholar publications since 2010
因此,在接下來的內容中,我們重點關注基于腦電信號的情感計算研究工作,并簡要介紹其他外圍生理信號.此外,融合腦電與其他外圍生理信號的情感計算研究也是我們關注的一個重點.
在進行情緒識別相關任務時,既可以使用一種生理信號,也可以將多種生理信號融合.以腦電信號為例,基于腦電的情緒識別主要包括以下步驟[21]:
1)對被試進行外界刺激,使其產(chǎn)生高興、悲傷、憤怒等情緒變化,同時采集被試的腦電信號.刺激方式包括圖片[22]、視頻[23]、音樂[24]等.
2)對所采集的腦電信號進行預處理,包括降采樣、去除眼動信號和肌電信號等噪聲,以及帶通濾波、空間濾波等.
3)特征提取和特征選擇.
4)訓練分類器以及測試.
在基于EEG 的情緒識別任務中,需要考慮的因素有:被試的數(shù)量、性別、識別的情緒類別、誘發(fā)情緒變化的方式、使用的腦電設備及相關的電極位置、EEG 信號預處理方法、特征提取方法以及分類器設計等[25].
在基于多生理信號的情感計算任務中,每種生理信號的獲取及特征處理流程與步驟1)~3)相似.進一步地,需要將不同生理信號的特征進行選擇和融合,之后應用于具體的情感計算任務.表4 總結了部分情感計算工作中所使用的生理信號類型.
表4 部分最近的基于生理信號的情感計算工作Table 4 Some recent studies on physiological signals based affective computing
近年來,隨著情感計算逐漸成為一個研究熱點,許多研究者進行了相關實驗,并發(fā)布多個基于腦電等生理信號的情感計算公開數(shù)據(jù)集,表5 總結了常用的基于EEG 等生理信號的情感計算數(shù)據(jù)集.其中,SEED (SJTU emotion eeg dataset)和DEAP(Database for emotion analysis using physiological signals)數(shù)據(jù)集是目前基于生理信號的情感計算中使用最為廣泛的兩個數(shù)據(jù)集.
表5 情感計算常用公開數(shù)據(jù)集Table 5 Popular public affective computing datasets
SEED[21,33]是由上海交通大學呂寶糧教授2015 年10 月公開發(fā)布的基于62 導EEG 信號的情感計算數(shù)據(jù)集.目前該數(shù)據(jù)集包括三個子集:SEED、SEED-IV 和SEED-VIG.SEED 是最早發(fā)布的三類情緒數(shù)據(jù)集,SEED-IV 是四類情緒數(shù)據(jù)集,而SEED-VIG 是一個警覺度估計數(shù)據(jù)集.其中,SEED數(shù)據(jù)集是通過電影視頻片段來誘發(fā)被試者的不同情緒,它主要由兩部分組成.一部分是獲取的被試在實驗中的EEG 信號,這些EEG 信號在采集后進行了降采樣、濾波以及偽跡去除等操作,以提高腦電信號的質量(值得指出的是,從信號處理的角度,對采樣信號先進行濾波,然后進行降采樣處理更利于保留原始信號中包含的信息);另一部分數(shù)據(jù)是對預處理后的EEG 信號進行的特征提取,包括功率譜密度(PSD)、微分熵(Differential entropy,DE)、微分熵的不對稱差(Differential asymmetry,DASM)、微分熵的不對稱商(Rational asymmetry,RASM)等多種特征.同時還通過移動平均和線性動態(tài)系統(tǒng)(Linear dynamic system,LDS)對特征進行了平滑.關于SEED 三分類情緒識別數(shù)據(jù)集更具體的介紹可參考[21,33].
DEAP[43]是由倫敦瑪麗皇后大學Koelstra 等采集并公開的用于情感計算的多模態(tài)生理數(shù)據(jù)庫.采樣數(shù)據(jù)包含40 個通道:32 導EEG 信號,2 導肌電信號,2 導眼電信號(1 導水平眼電信號,1 導垂直眼電信號),1 導皮膚電信號,1 導體溫信號,1 導呼吸信號,和1 導血壓信號.該數(shù)據(jù)庫中被試的情緒是通過音樂視頻來誘發(fā)的.實驗中,被試觀看40段長度為1 分鐘的音樂視頻,并填寫自我評估量表(Self-assessment manikins,SAM).自我評估量表包含喚醒度(Arousal)、效價度(Valence)、支配度(Dominance)和喜好度(Liking)等信息.前22名被試在觀看視頻時的面部表情信息也包含在數(shù)據(jù)庫中.關于DEAP 數(shù)據(jù)集更詳細的信息可參考文獻[43].
在基于生理信號的情緒識別任務中,生理信號特征處理和分類器設計是影響情緒識別準確率的兩個關鍵因素.本節(jié)重點介紹基于腦電和心率變異性的情緒識別任務中生理信號的特征處理方法,以及不同生理信號特征融合對情緒識別效果的影響.
EEG 信號是多通道時間序列,從傳統(tǒng)信號處理的角度分析,EEG 信號可以提取的特征主要包括時域特征、頻域特征和時頻域特征[44-45],也可通過離散小波變換[46]等方式進行特征提取.目前,在情緒識別任務中,一種更為有效且常用的特征提取方式為微分熵特征(DE).微分熵特征由Duan 等[47]于2013 年提出,其計算公式為:
其中,時間序列X服從高斯分布 N (μ,σ2).Duan 等在SEED 數(shù)據(jù)集的6 個用戶上進行了情緒識別實驗,驗證了DE 特征情緒識別有效性.此外,由于大腦不同分區(qū)受到刺激時會產(chǎn)生不同程度反應,基于DE 特征,Duan 等又提出了微分熵的不對稱差(DASM)和微分熵的不對稱商(RASM)兩種特征.
以上EEG 信號特征提取方式主要考慮普通電信號的常規(guī)特征.情感腦機接口中,針對腦電信號的特征提取,不同電極通道和受試者性別是需要額外考慮的因素.為此,Moon 等[48]在情緒識別任務中考慮了大腦連通性特征來有效捕捉非對稱的大腦活動模式,并與功率譜密度特征組合作為卷積神經(jīng)網(wǎng)絡的輸入用于模型訓練.其中,兩個電極連通性的計算指標有皮爾遜相關系數(shù)(Pearson correlation coefficient,PCC)、相位鎖定值(Phase locking value,PLV)和相位滯后指數(shù)(Phase lag index,PLI).
男性和女性對于外界環(huán)境的情緒感知存在很大的差異,這會在腦電信號中有所反應.在情緒識別問題中,Yan 等[49]的研究結果表明,在多數(shù)頻段和腦區(qū),女性大腦的活躍程度要低于男性,尤其是對于恐懼情緒.與男性相比,女性在恐懼情緒下更有多樣性,而男性則在悲傷情緒下有更大的個體差異.在利用腦電信號分析不同性別在情緒誘發(fā)時的關鍵腦區(qū)研究中,Yan 等[50]的實驗結果表明,對于男性和女性,不同情緒下的神經(jīng)模式側重于不同的關鍵腦區(qū),其中女性偏右側化而男性偏左側化.這兩項研究結果都表明了性別因素對情緒識別效果的影響,然而目前并沒有針對性別特別設計的EEG 信號特征提取方式.
由于EEG 信號是非線性時間序列,Soroush 等[51]提出了一種非常新穎的特征提取方式,他們將腦電相空間重構并轉換成新的狀態(tài)空間,然后利用龐加萊平面對狀態(tài)空間進行數(shù)學描述,從而對腦電動力學實現(xiàn)量化并進行特征提取.需要指出的是,這種方式所提取出的特征所表征的生理意義目前還不明確,尚待進一步研究.
以上特征都是手工提取的.利用神經(jīng)網(wǎng)絡進行深度特征提取的相關工作在第6.3.1 節(jié)中進行介紹.對手工提取的特征進行平滑處理能提高其質量.同時,對特征進行降維處理能有效減少模型訓練時間.
在提取的特征序列中,除了與情緒相關的腦電特征,可能還會摻雜其他大腦活動產(chǎn)生的腦電特征,如聽覺和視覺等行為產(chǎn)生的特有的腦電特征.為了只利用與情緒相關的特征序列,需要去除這些無關成分.情緒變化一般不會非常劇烈,而是平緩穩(wěn)定的.在實際操作中,得到的特征序列常??梢杂^察到劇烈的變化.由此可見,腦電特征序列里變化非常劇烈的部分往往是由情緒無關的腦電活動等引起的,可以利用情緒變化緩慢的特性對其進行去除.常用的腦電特征平滑算法有滑動平均平滑算法和線性動力系統(tǒng)平滑算法[52].Pham 等[53]對EEG 特征使用Savitzky-Golay 方法進行了平滑處理.Savitzky-Golay 平滑器是一種基于局部最小二乘多項式逼近的數(shù)據(jù)平滑方法,可以在保持波形峰值形狀和高度的同時降低噪聲.
此外,由于腦電信號的特征維數(shù)較高,導致模型訓練需要較大的時間開銷.為了有效降低特征維數(shù),Hu 等[54]在基于EEG 的注意力識別任務中使用了基于相關性的特征選擇方法.Zheng 等[55]在基于EEG 的情緒識別任務中,提出使用群稀疏典型相關性分析(Group sparse canonical correlation analysis,GSCCA) 進行EEG 通道選擇.?zerdem 等[56]使用人工神經(jīng)網(wǎng)絡在情緒識別任務中進行了EEG通道選擇相關研究.值得注意的是,在腦電信號通道選擇的研究工作中,由于不同研究者采用的研究方法不同,并且任務場景、所使用的腦電設備等都不盡相同,最終選擇的EEG 信號通道也存在差別.
與EEG 不同,外圍生理信號通道數(shù)很少,因而相應的特征提取方式也較少.需要進行特征提取的外圍生理信號主要有心電、肌電、皮膚電以及光電容積脈搏波.Picard 等[57]提出6 種生理信號常用的傳統(tǒng)統(tǒng)計特征,包括原始信號的均值、標準差、一階差分絕對值的均值、二階差分絕對值的均值,以及規(guī)范化信號的一階和二階差分絕對值的均值.這6種傳統(tǒng)的特征提取方式都可以用在心電等生理電信號上.
基于心電圖(ECG)的時域和頻域信息可以分別計算心率(HR)和心率變異性(HRV)[39],這是基于心電的情緒識別任務中最為常見的兩個特征.研究表明,人在誘發(fā)愉悅等正面情緒時,心率的峰值可能會增加,而心率變異性在受到恐懼或快樂等刺激時會被抑制,情緒平靜時則會恢復正常.此外,基于心電圖中QRS 波群計算的均值、標準差等統(tǒng)計特征對于情緒識別也有一定幫助.進一步地,還可以通過經(jīng)驗模態(tài)分解獲取ECG 的本征函數(shù)及對應的瞬時頻率特征[58],或者利用小波包字典和離散余弦變換提取ECG 信號的MP (Matching pursuit)系數(shù)作為情感計算特征[59].最后,高階統(tǒng)計量(High order statistics,HOS)也被用于增強心電信號的R峰檢測和拍頻分類.
與心電相比,皮膚電信號(GSR)的特征提取主要為基于時域或頻域信息的統(tǒng)計特征[60],如中位數(shù)、均值、標準差、最大值、最小值、一階差分、二階差分等經(jīng)典統(tǒng)計參數(shù)[61],或者高階的偏度和峰度特征.頻域中還可以計算最大譜幅對應的頻率以及一些基于高階譜的信息[62].此外,GSR 信號也可通過離散余弦變換提取MP 系數(shù)[59].在具體的情緒識別任務中,由于所提取的一些高階特征所表征的生理意義不易理解,可使用PCA、LDA 等方法對這些統(tǒng)計參數(shù)進行特征選擇,以提高情緒識別效果[59].
前文提到的高階統(tǒng)計量是一種有效的特征提取方式,被廣泛應用于生物信號處理等領域[63].與一階和二階統(tǒng)計量相比,基于HOS 的參數(shù)更適合非高斯和非線性系統(tǒng).具體地,高階特征中3 階的偏度(Skewness)和4 階的峰度(Kurtosis)特征尤為常用.偏度指數(shù)據(jù)分布在其均值周圍的不對稱程度,峰度指分布尾部相對于正態(tài)分布的相對冗余程度.對于面部肌電信號(EMG),高階統(tǒng)計特征相較于傳統(tǒng)統(tǒng)計特征能更有效地保留EMG 中的情緒信息.
除高階統(tǒng)計特征外,對EMG 進行離散小波變換也是一種常用的特征提取方式[64-65].基于離散小波變換的非參數(shù)特征提取是一種新穎的將肌電信號分解到不同頻率范圍的方法.與快速傅里葉變換或短時傅里葉變換等傳統(tǒng)方法相比,離散小波變換提供了有效的時頻分辨率,被認為是解讀肌電信號中的情緒狀態(tài)信息的有效手段.具體地,利用離散小波變換對肌電信號進行分解,得到不同頻率范圍內的小波系數(shù),根據(jù)小波系數(shù)計算出原始信號的功率等統(tǒng)計特征用于情緒識別任務.
光電容積脈搏波(PPG)描記技術是紅外無損檢測技術在生物醫(yī)學中的應用,主要用于人體運動心率檢測.其原理為:通過光電傳感器,檢測經(jīng)過人體血液和組織吸收后的反射光強度的不同,描記出血管容積在心動周期內的變化,從得到的脈搏波形中計算出心率.在基于生理信號的情感計算中,PPG信號除了可以計算出心率用于模型的輸入,其在時域、頻域中的均值、標準差等經(jīng)典統(tǒng)計參數(shù)也可以作為模型輸入[61].此外,龐加萊截面可以量化高維相空間中軌跡的幾何模式,將PPG 信號的二維相空間進行重構,然后形成不同的龐加萊截面,進而可以提取幾何指標作為PPG 信號特征[66].為了提高情緒識別模型魯棒性,也可使用粒子濾波器去除PPG 信號中的噪聲[67].
在情感計算中,眼電圖(EOG)是一種較少使用的生理電信號.EOG 信號的均值、標準差、信號能量以及提取出的眨眼頻率等信息對于情緒識別有一定幫助[68].
本刊訊:中國釀酒裝備智能制造技術交流會于2018年11月16日在上海國家會展中心召開。會議由中國酒業(yè)協(xié)會組織。
外圍生理信號中,除以上提到的心電、肌電、皮膚電、光電容積脈搏波和眼電等生理電信號,心率、心率變異性、脈搏、脈搏變異性(Pulse rate variability,PRV)、皮膚溫度、血氧飽和度、呼吸模式、血壓[69]等有明確生理意義的信號也經(jīng)常作為情緒識別模型輸入.其中心率變異性可以通過心電或脈搏進行計算得到,其與情緒狀態(tài)之間的聯(lián)系得到了較多研究[70-72].HRV 和PRV 的時域或頻域統(tǒng)計參數(shù)對于情緒識別也有一定幫助[73].龐加萊散點圖是二維相空間上的時間序列表示.時間序列的動力學通過龐加萊散點圖更容易理解,因而也可利用龐加萊散點圖對HRV 和PRV 序列進行分析[74].
總結來說,外圍生理信號的特征提取主要分為3 類.一是具有明確生理意義的信號,主要包括心率、心率變異性、脈搏、脈搏變異性、皮膚溫度、血氧飽和度、呼吸模式和血壓等.二是基于心電、肌電、皮膚電、眼電和PPG 等生理電信號在時域或頻域中所提取的均值、標準差、一階差分、二階差分等傳統(tǒng)統(tǒng)計特征.三是基于心電等生理電信號提取的偏度、峰度等高階統(tǒng)計特征,或利用龐加萊映射、離散小波變換等提取的特征.
在情緒識別任務中,將腦電、心電等多種生理信號的特征組合在一起作為模型的輸入,有助于提升情緒識別效果.
Zheng 等[75]融合腦電特征與眼動信號特征進行情緒識別.Guo 等[76]進一步融合了眼睛的圖像信息,并對比了這3 種模態(tài)信號在不同組合下的情緒識別效果.Becker 等[42]對比了腦電、皮膚電、心電、呼吸、血氧、脈搏等不同生理信號組合的情緒識別準確率.實驗結果顯示,不同生理信號特征對于情緒識別具有一定的互補性[77],如在三分類情緒識別任務中,腦電信號更容易區(qū)分正面和負面情緒,而眼動信號相對于腦電信號能更好地區(qū)分中性和負面情緒.Wu 等[78]使用聯(lián)合稀疏表示(Joint sparse representation,JSR) 將特征融合問題轉化為優(yōu)化問題,將不同特征的稀疏矩陣結合在一起,最終得到所有特征的聯(lián)合稀疏表示.此外,很多研究者也使用深度學習進行多模態(tài)生理信號的情感計算,相關研究工作將在第6.3.2 節(jié)中介紹.
除了將腦電信號與其他生理信號進行特征融合,Thammasan 等[79]在音樂誘發(fā)的情緒識別任務中,將EEG 特征與音樂特征進行融合,這是一項非常新穎的工作,該工作證明了音樂模態(tài)特征能有效緩解EEG 的不穩(wěn)定性.
上述工作都將EEG 特征與其他信號特征融合進行情緒識別,且都指出腦電信號與其他生理信號之間存在互補性.融合多生理信號的情緒識別是目前和未來的一個重要研究方向.
情感計算中另一個核心問題是情感模型的設計.其中所涉及到的機器學習算法也是本文重點研究與總結的工作.
Doma 等[80]在DEAP 數(shù)據(jù)集上對比了PCA、樸素貝葉斯、邏輯回歸、kNN、支持向量機、決策樹等傳統(tǒng)機器學習方法的性能,其中PCA 和SVM 的表現(xiàn)相對更好.但是,這里的結果與數(shù)據(jù)集和實驗設置相關,并不一定能推廣到其他問題中.
基于腦電等生理信號的情緒識別算法研究主要包括遷移學習、主動學習、深度學習等.
遷移學習[81]主要用于處理測試數(shù)據(jù)與訓練數(shù)據(jù)不服從獨立同分布的場景,非常適合處理情感計算中的個體差異問題.具體地,情感計算中的遷移學習使用源域(來自其他用戶的數(shù)據(jù)或知識) 來幫助目標域(新用戶)進行學習.Wu 等[82]綜述了2016 年以來遷移學習在腦機接口中的應用,包括基于腦電的情感腦機接口系統(tǒng).
傳統(tǒng)的遷移學習方法有遷移成分分析(Transfer component analysis,TCA)[83]、直推式參數(shù)遷移(Transductive parameter transfer,TPT)[84]、TrAdaBoost[85]、風格遷移映射(Style transfer mapping,STM)[86-87]等方法.Zheng 等[88]對比了TCA、KPCA(Kernel principal component analysis)[89]、TPT 等三種遷移學習方法在SEED 數(shù)據(jù)集上的表現(xiàn),發(fā)現(xiàn)TPT 效果最優(yōu).TPT 首先在多個源域用戶上分別訓練SVM 分類器,再學習每個源域用戶的分類器參數(shù)與數(shù)據(jù)分布之間的回歸函數(shù),最后以目標域用戶的數(shù)據(jù)分布為輸入,通過回歸函數(shù)得到適用于目標域用戶的分類器.
Zhang 等[85]在情緒識別任務中,提出一種基于個體相似度的遷移學習框架.具體是通過使用最大均值差異(Maximum mean discrepancy,MMD)[90]對個體差異性進行度量,然后使用TrAdaBoost 訓練模型.MMD 的計算公式為:
其中,X和Y分別表示源域和目標域的分布,ns和nt表示源域和目標域的樣本數(shù),φ表示映射函數(shù).
Li 等[91]將風格遷移映射應用到基于腦電信號的多源域跨用戶情感識別.遷移風格映射是將目標域的數(shù)據(jù)映射到源域特征空間中,從而使在源域訓練的分類器在目標域中也能取得較好的測試效果.
上述研究結果表明,在不同情緒識別場景中,選擇合適的遷移學習方法對于情緒識別準確率的提升有一定幫助.與以上在同一數(shù)據(jù)集內部進行跨用戶遷移不同,Lan 等[92]首次進行了跨數(shù)據(jù)集遷移的情緒識別研究,但是其準確率還有很大的提升空間.鄭偉龍等[93]提出一種新的從眼睛的掃視軌跡進行知識遷移的異質遷移學習方法.他們引入了基于掃視軌跡和基于腦電信號的核矩陣,并提出了改進的直推式參數(shù)遷移學習算法,以實現(xiàn)跨被試腦電情感模型的構建.該方法與傳統(tǒng)方法相比,具有兩個優(yōu)點:一是利用了目標被試容易獲取的眼動追蹤數(shù)據(jù)進行被試遷移,二是在目標被試只有眼動追蹤數(shù)據(jù)的情況下,仍然能夠從其他被試的歷史數(shù)據(jù)中學到腦電信號的情緒類別判別信息.
在機器學習任務中,往往需要大量有標簽訓練數(shù)據(jù)以獲得更好性能.但是,在許多實際應用場景中,獲取未標注的數(shù)據(jù)相對容易,標注過程卻很困難,通常需要投入大量時間和人力資源.數(shù)據(jù)標注難問題在情感計算中尤其突出.例如,在語音信號的情感估計問題中,可以很容易地記錄大量語音,但是要對語音進行三個維度的評估[94](愉悅度、喚醒度和優(yōu)勢度),評估者須反復傾聽,仔細檢查.此外,由于情感估計具有主觀性,且部分數(shù)據(jù)可能只存在細微差異,通常需要多個評估者.例如,VAM語料庫[95]用到6~17 個評估者,IADS-2[96]用到超過110個評估者.
除了第6.1 節(jié)介紹的遷移學習方法外,主動學習[97]也可用來大幅降低情感計算中的標注數(shù)據(jù)量[98-104].主動學習從大量無標注數(shù)據(jù)中選擇少量最有用的數(shù)據(jù)來標注(并非所有訓練數(shù)據(jù)都是平等的),從而可以用最少的標注數(shù)據(jù)訓練出更好的模型.
Wu 和Parsons[98]使用主動類別選擇(Active class selection)進行基于多種生理信號的喚醒度(Arousal)分類,取得比傳統(tǒng)標注更好的效果:使用同等數(shù)量的標注數(shù)據(jù),通過主動類別選擇選出的樣本能夠取得比隨機標注樣本更高的分類準確度.主動類別選擇的基本思想是在多分類問題中優(yōu)化每個類別應標注的樣本量,而不是各個類別標注同樣數(shù)量的樣本.
Wu 等[103]也進行了基于腦電信號的駕駛員疲勞狀態(tài)估計.通過主動學習選出在輸入域和輸出域上多樣性都高的腦電樣本進行標注,能取得比隨機選擇樣本標注更低的估計誤差.
值得一提的是,主動學習和遷移學習也可以相互結合,取得比單獨使用主動學習或遷移學習更好的效果.Wu 等[99]提出一種融合遷移學習和主動類別選擇的方法,在基于多種生理信號的喚醒度分類問題中取得比單獨使用遷移學習和主動類別選擇更高的準確度.
隨著深度學習的快速發(fā)展,其在情感腦機接口中也得到了越來越多的應用[21,105-108].基于深度學習的情感腦機接口主要有以下三個研究熱點:一是利用深度學習技術挖掘腦電信號中的深層情感特征;二是利用神經(jīng)網(wǎng)絡將腦電信號與其他生理信號進行深度融合;三是利用深度遷移學習技術提升基于腦電信號的情緒識別準確率.
6.3.1 深度特征提取
眾多研究表明,腦電信號及其他外圍生理信號的變化與人的情緒變化之間存在諸多聯(lián)系[16,21,47].深度學習能有效學習樣本的深層特征表示,對挖掘生理信號中所蘊涵的情感狀態(tài)信息有很大幫助.表6總結和對比了不同神經(jīng)網(wǎng)絡模型在情緒識別任務中的表現(xiàn).
在基于腦電等生理信號的情緒識別中,表6 中提到的不同深度特征表示方式相較于傳統(tǒng)的手工特征提取具有更好效果,但其所學習到的特征也更難被理解.另外,基于生理信號的情感計算是當前較新的研究領域,情緒識別的場景設置尚無統(tǒng)一標準,因而從有限實驗結果中很難總結出哪種深度學習方法效果更好.比如,Yang 等[114]和Wang 等[115]都在SEED 數(shù)據(jù)集上進行了相關實驗,但由于實驗場景設置不同,不能輕易認為雙向長短期記憶神經(jīng)網(wǎng)絡比具有子網(wǎng)節(jié)點的分層網(wǎng)絡模型更適合基于腦電的情緒識別.
表6 不同深度特征提取方式及效果Table 6 Different deep learning methods of feature extract and their effects
6.3.2 多模生理信號融合
基于腦電等生理信號的情緒識的另一個研究焦點是如何融合多種模態(tài)生理信號.不同模態(tài)的生理信號包含了人類情感的不同信息表示,有效融合不同模態(tài)的信息能夠有效提高情感計算系統(tǒng)性能.
為了學習EEG 信號與其他生理信號之間的相關性,Ma 等[118]提出了一種多模態(tài)殘差LSTM 網(wǎng)絡模型(Multimodal residual LSTM network,MMResLSTM),該模型既包含殘差網(wǎng)絡提供的空間快捷方式路徑,也包含LSTM 網(wǎng)絡提供的時間快捷方式路徑,進而能夠高效地學習到與情感相關的深層特征表示.
Zheng 等[33]提出了一種基于6 個對稱顳葉EEG 電極(FT7、T7、TP7、FT8、T8、TP8)和眼動信號進行情感識別的多模態(tài)框架.先將EEG 信號與眼動信號的初級特征進行初步融合,進一步使用雙峰深度自編碼器(Bimodal deep auto-encoder,BDAE)來提取EEG信號和眼動信號的深層特征表示.Liu 等[119]使用深度典型相關性分析(Deep canonical correlation analysis,DCCA)融合腦電與眼動信號.
Rayatdoost 等[120]設計了一種跨模態(tài)編碼器來聯(lián)合學習從EEG、EMG 和EOG 等信號中提取的特征.該跨模態(tài)編碼器是一種表情導向的編碼網(wǎng)絡,先將EEG 信號不同頻段的PSD 特征轉換成頻譜地形圖,然后通過卷積網(wǎng)絡提取新的特征,學習對情緒狀態(tài)的非線性表征.該表征以EMG 和EOG特征中提取的面部表情特征為引導,可以針對特定的情緒識別任務進行優(yōu)化.
除以上提到的關于多模態(tài)生理信號融合的研究,在多模態(tài)場景下,還存在模態(tài)信息缺失、標簽信息不完整等情況.Du 等[121]針對該問題,提出了一種多視圖深度生成模型,可以學習到多模態(tài)的聯(lián)合深度表示,同時能夠對每個模態(tài)的重要性進行評估.進一步地,將多視圖模型擴展為半監(jiān)督學習框架,以解決數(shù)據(jù)標簽缺失問題.針對模態(tài)數(shù)據(jù)缺失問題,則是將缺失的視圖視為一個隱變量,然后在推理過程中進行集成.
6.3.3 深度遷移學習
與傳統(tǒng)的非深度遷移學習相比,深度遷移學習在許多任務場景中能顯著提升遷移學習效果,其在情緒識別中也有許多相關研究.
受傳統(tǒng)遷移學習方法TCA 的啟發(fā),Long 等[122]提出了深度網(wǎng)絡自適應(Deep adaptation network,DAN) 方法,在神經(jīng)網(wǎng)絡的深層使用多核MMD (Multi kernel MMD,MK-MMD)[123]對源域和目標域進行適配,以緩解域間差異.Li 等[124]將DAN 框架應用到情緒識別任務中,取得了比傳統(tǒng)遷移學習方法更高的準確率.與遷移學習中的聯(lián)合概率適配方法(Joint distribution adaptation,JDA)[125]相似,Li 等[126]在使用神經(jīng)網(wǎng)絡進行情感計算建模時,在網(wǎng)絡的淺層使用對抗訓練來適配邊緣分布,深層使用協(xié)同強化的方式適配條件分布,從而實現(xiàn)源域和目標域的聯(lián)合分布自適應.
近年來,隨著ADDA[127]等基于對抗機制的遷移學習方法的提出,深度對抗網(wǎng)絡遷移逐漸成為深度遷移學習方法中的主流.在基于腦電的跨被試情緒識別任務中,Luo 等[128]提出了一種基于Wasserstein 生成對抗網(wǎng)絡[129](Wasserstein generative adversarial network,WGAN)的域適應方法(WGANDA),包括源域和目標域生成器、判別器和分類器四個部分以及預訓練和對抗訓練兩個步驟.在預訓練階段,WGANDA 首先通過兩個域生成器將源域和目標域映射到一個高維公共空間.在對抗訓練階段,WGANDA 使用對抗的方式減小兩個映射的距離.WGANDA 能夠很好地解決跨被試情緒識別模型中存在的域偏移問題.
Ma 等[130]在域對抗網(wǎng)絡(Domain-adversarial neural network,DANN)[131]的基礎上提出了域殘差網(wǎng)絡(Domain residual network,DResNet).其基本思想是,給定k個域的訓練數(shù)據(jù),模型的特征提取器包含一套共享權值的標簽信息參數(shù)和k套分配給各個域的域偏差參數(shù).該結構類似殘差網(wǎng)絡,優(yōu)點是其為一個域泛化框架,在情感模型訓練階段不需要目標域被試的任何信息.
由于大腦的左右半球之間具有不對稱性,Li 等[132]將其與對抗機制結合,提出了雙半球域對抗神經(jīng)網(wǎng)絡模型(Bi-hemispheres domain adversarial neural network,BiDANN).該網(wǎng)絡將大腦左右半球的EEG 信號分別映射到易于區(qū)分的特征空間中,從而使數(shù)據(jù)的特征表示更容易分類,并在預測過程中使用一個全局和兩個局部域判別器,以縮小測試數(shù)據(jù)和訓練數(shù)據(jù)之間的分布差異.
以上深度遷移學習方法在情緒識別中都取得了較好的效果.值得注意的是,在基于腦電或其他生理信號的情緒識別任務中,眾多深度學習方法都是基于卷積神經(jīng)網(wǎng)絡進行的.只有少部分工作[133-134]研究了LSTM 在情緒識別任務中的應用.由于腦電等生理信號為時間序列,而LSTM 等循環(huán)神經(jīng)網(wǎng)絡比卷積神經(jīng)網(wǎng)絡更適合處理時序信息,其在基于生理信號的情感計算中的應用值得進一步研究.
此外,圖網(wǎng)絡是近年來的研究熱點,也有研究者將其引入到情緒識別中,用以緩解個體之間的差異性.Zhao 等[135-136]使用高階相關模型的超圖結構來構建生理信號與人格之間的關系.考慮到在超圖中不同頂點、超邊和模式的重要性不同,進一步提出頂點加權多模式多任務超圖學習(Vertex-weighted multi-modal multi-task hypergraph learning,VM2HL) 來構建個性化的情緒識別模型.Song等[137-138]提出了樣本自適應圖(Instance adaptive graph,IAG)和動態(tài)圖卷積神經(jīng)網(wǎng)絡(Dynamical graph convolutional neural networks,DGCNN)模型用于緩解個體差異性,通過圖結構來表示不同區(qū)域腦電之間的動態(tài)關系.此外,Song 等還提出了一種稀疏圖形表示,以提取更多的有區(qū)分性的特征.
基于腦電等生理信號的情感計算研究雖然已取得諸多進展,但是依然存在下列挑戰(zhàn)和需要進一步研究的問題:
1) 情感計算基礎理論研究.目前關于情緒識別的理論基礎主要有離散型模型和連續(xù)型模型.二者之間雖然有一定關聯(lián),但是尚未形成統(tǒng)一的理論框架.此外,情感計算中的外顯信息(如高興、悲傷等情緒類別) 與內隱信息(如EEG 信號不同頻段對應高興、悲傷等情緒類別的信號特征) 之間的聯(lián)系也值得進一步研究.挖掘出二者之間的聯(lián)系對于理解腦電信號表示的不同情緒狀態(tài)有非常重要的作用.
2) 外部誘發(fā)情緒與內部誘發(fā)情緒之間的差異性問題.目前公開的用于情感計算的數(shù)據(jù)集幾乎都是采用圖像、視頻、音頻等外部方式誘發(fā)情緒變化.這些都是被動的情緒變化,與現(xiàn)實場景中個體主動產(chǎn)生的情緒變化之間存在差異,也可能導致二者的腦電信號存在差異.因此,如何解決外部誘發(fā)情緒變化與內部主動情緒變化之間的差異也是一個值得研究的課題.
3) 生理信號的高質量采集和預處理.情感計算中使用到EEG、EOG、EMG、HRV、GSR、ST 等多種生理信號,所需設備繁多,實驗中需要盡量減小信號采集過程中的噪聲.其中腦電信號的采集較為復雜,并且腦電信號容易受到外界因素的干擾,實驗需要耗費一定的時間和精力.高效、高質量地采集腦電等生理信號是情感計算的重要環(huán)節(jié).對原始腦電信號的預處理也非常重要.有效的預處理可以去除原始腦電信號中的噪聲,提高信號質量,有助于特征提取.
4) 生理信號的特征提取、選擇和融合問題.不同生理信號有不同的特征提取方式,以腦電信號為例,其特征提取方式種類繁多,常用的特征有功率譜密度、微分熵、微分熵的不對稱差、微分熵的不對稱商、離散小波分析、經(jīng)驗模態(tài)分解經(jīng)驗模態(tài)分解一樣本熵 (EMD_SampEn)、統(tǒng)計特征(均值、方差等)等.如何提取合適的特征或融合不同特征等都會對情感計算模型產(chǎn)生重要影響.
5) 個體差異性問題.由于不同被試個體之間在生理、心理等方面都存在差異,對于同一個情緒誘發(fā)視頻,不同個體所誘發(fā)的情緒不一定完全相同.即使產(chǎn)生相同的情緒,由于個體間生理上的差異,所產(chǎn)生的腦電等生理信號一般也會存在一定差異.有效解決個體差異問題,從個體的角度,可以構建個性化的情感計算模型.但由于生理信號的采集和標注會帶來較大的成本,構建泛化能力更好的情緒識別模型是一個相對更經(jīng)濟的解決辦法.提高情感計算模型的泛化能力的一個有效方法是遷移學習[82].
6) 用戶隱私問題.用戶個人信息的隱私保護是互聯(lián)網(wǎng)時代的一個重要倫理道德問題.情感計算中采集的腦電等生理信號屬于用戶的私人信息,因此也需要注意隱私保護.目前這方面的研究才剛剛開始[139-140].
本文對近年來基于腦電等生理信號的情感計算研究進展進行了綜述.首先介紹了情感計算的相關理論基礎和常用的生理信號類型,以及離散和連續(xù)兩種情緒模型.接著總結了情感計算任務的整體流程,包括生理信號的采集、預處理、特征提取、特征平滑、特征融合、模型訓練與測試等,并介紹了基于生理信號的情緒識別常用公開數(shù)據(jù)集.然后重點介紹了為解決情感計算中個體差異的遷移學習方法、減少標注數(shù)據(jù)量的主動學習方法、以及基于深度學習的生理信號的深層情感表示和多模態(tài)生理信號的特征融合等相關算法.最后,分析總結了基于生理信號的情感計算領域面臨的挑戰(zhàn)及未來需要進一步解決的問題.