郭國棟,高亞罕,曹宇杰
(1.上海理工大學 醫療器械與食品學院,上海 200093;2.上海健康醫學院 醫療器械學院,上海 200237)
情緒是以個體的需要、愿望等傾向為中介的一種心理現象,是人對客觀事物的態度體驗以及相應的行為反應[1]。早在1884 年,情緒的概念第一次被提出。隨著研究的深入,Ekman等[2]將情緒劃分為6種基本形式,包括悲傷(Sad)、高興(Happy)、恐懼(Fear)、厭惡(Dis-gust)、驚訝(Surprise)和憤怒(Angry)。在進行情緒識別時微表情信息、語言語態、姿態表情、生理信號等都是重要的數據來源[3]。其中,生理信號具有難以偽裝、信息量更加豐富等特點。腦電信號就是一種典型的生物電信號,是大腦皮層神經細胞或頭皮表層電活動的總體反應,其中包含了大量的生理和病理信息[4]。同時,情緒的波動會對肌體生理信號產生影響,不可避免會對腦波產生相應的影響[5]。因此,通過對腦電信號進行采集和分析可以直觀準確地判斷人體的生理及心理狀態。
腦電信號的情緒識別主要包括了5 個基本步驟[6],如圖1 所示。本文主要對腦波情緒特征提取、情緒分類方法以及基于深度學習的腦電信號情緒識別方法進行歸納與總結。并且,腦電信號數據集是情緒識別研究中的重要部分,主要對常用的腦電信號數據集進行介紹與分析。最后,闡述了目前腦電情緒研究中存在的問題,并對其未來發展作出了展望。

Fig.1 Main steps of emotion recognition of EEG signals圖1 腦電信號情緒識別主要步驟
腦電信號是一種極其微弱的生理信號(幅值在微伏級別),在采集過程中不僅會受到腦電數據采集設備和外部環境的干擾,人體自身的一些生理因素如眼電、肌電等也會對腦電信號產生影響[7]。同時,測試者自身當下的生理及心理狀態也會對腦電信號的采集產生影響。大量的偽跡信號會增加腦電信號分析難度,難以從中直觀分析出與情緒的內在聯系。為了便于后續研究,對采集到的信號作一定預處理,通過這種初步處理,可以得到具有一定規律的信號[8]。
腦電信號的情感識別是情感計算領域的一個重要研究方向,腦電信號的特征提取與分類是進行情緒識別的基礎。傳統腦電信號的特征提取,主要從時域特征、頻域特征、時頻域以及非線性動力學分析4 種特征入手,如圖2 所示。研究表明,右腦區在情緒方面有更多信息[9]。傳統的特征提取方法從每個通道提取腦電特征,卻忽略了通道的空間特征和全局同步信息。這些特征也包含了與情緒狀態相關的信息,因此在進行腦電情緒識別時有必要對空間域特征進行分析。

Fig.2 Feature extraction of EEG signals圖2 腦電信號的特征提取
(1)時域特征。時域特征也稱信號的統計特征,Kwon等[10]將腦電信號采集時對稱電極間產生的幅值差作為特征信號進行采集,并取得了較好的分類效果;Zhuang 等[11]利用經驗模式分解(EMD)的特征提取和情感識別方法,適用于非線性非平穩信號的分析處理,可提高情感識別性能。因為腦電信號的特殊性,難以通過某一確定的時域特征進行分析,在實際運用過程中想要達到預期處理效果,需根據特定需求對實驗數據進行有針對性的處理。
(2)頻域特征。在腦電情感識別中,最常見的特征是來自不同頻帶的功率特征,可通過傅里葉變換(Fourier Transfer,FT)將時域信號轉換為頻域信號。Xing 等[12]利用腦電信號和視聽特征視頻情感識別的融合方法將功率譜密度與視頻視聽特征相結合,取得了較好的分類效果。通過頻域特征進行提取,可從分離不同頻帶相應的特征信號加以分析,但在腦電信號采集中會產生干擾導致頻帶出現重疊,此時提取的特征值會產生偏差。
(3)時頻域特征。腦電信號是一種非平穩隨機信號,僅從時域或頻域進行特征提取具有局限性,最常用的還是時頻結合的分析方法。在運用小波變換處理信號時只對信號的低頻部分進行分解,而拋棄對信號高頻部分的處理。因此,需依據小波包變化對小波空間作進一步分解,能同時對信號的低、高頻部分進行多層次劃分,可以對腦電信號的任意頻段信號進行特征提取[13]。希爾伯特黃變換與傳統方法相比,其在處理非線性非平穩信號方面更具優勢。Mutlu[14]提出一種基于Hilbert 振動分解(HVD)的腦電信號識別框架,其計算復雜度較低,更適合于實時生理信號處理應用。總體而言,時頻域法能夠更加細節地表現出腦電信號的瞬時特征。
(4)非線性動力學分析。腦電信號具有非線性和混沌性的特點[15],傳統的腦電信號分析大多基于傅立葉變換技術,該技術假定被分析信號的線性和平穩性,由于腦電活動的復雜性和動態性,非線性方法更適合于評估腦電的內在動力學,探索情緒發生時大腦活動的生理機制。Zheng等[16]通過具有微分熵特征的判別圖正則化極值學習機實現情緒有效識別;Thammasan 等[17]采用分形維數(FD)從原始腦電信號中提取信息特征,對情緒進行分類。實驗結果表明,FD 在喚醒和價態分類方面略優于PSD 方法,并且FD與情緒的相關性高于PSD。
(5)空間域特征。腦電信號采集時在大腦頭皮層上放置不同位置的電極,這些電極在大腦頭皮上有固定的空間分布模式。同時,不同腦區對不同情緒的反應也不盡相同。因此,在對腦電信號的空間域特征進行提取時主要從空頻域特征和電極空間組合上加以分析。Hao 等[18]在進行腦電信號情緒識別時融入對空間特性的分析,構造了多通道腦電信號的多帶特征矩陣(MFM)。隨著研究的深入,Chao 等[19]提出一種借助通道的空間特征和全局同步信息,將多通道腦電信號封裝成灰度圖像的全局特征提取方法。結果表明,對腦電信號全局同步特征和空間特征的分析有利于情緒識別。
在對腦電信號進行特征提取后,依據提取出的特征對腦電信號進行情緒分類處理。隨著人工智能的不斷發展,情緒識別計算技術已經成功地將情緒變化與腦電信號聯系起來,因此只要施加適當的刺激,就可以從腦電信號中識別情緒變化并對其加以分類。
目前,傳統機器學習研究方向主要包括決策樹、隨機森林、人工神經網絡、貝葉斯學習等。每一個預測模型都獨有一個特定的算法結構,通過參數微調完成不同的識別任務。在進行預測時首先根據數據特點選定一個模型結構,然后將訓練數據輸入模型,最后輸出一個使輸出錯誤最小化的基于特定參數的學習模型。Zhang 等[20]采用EMD策略提取特征向量,通過支持向量機分類器進行訓練和識別情緒。隨后Mohammadi 等[21]將支持向量機和K-近鄰分類器相結合對所提取的特征進行情感狀態檢測。針對多通道的信號特征,Zheng[22]提出一種新的群稀疏典型相關分析(GSCCA)方法,非常適合同時處理EEG 情感識別和自動通道選擇問題。與利用SVM 法不同的是,Tripathi 等[23]探索了兩種不同的神經網絡模型,一種簡單的深層神經網絡和一種用于分類的卷積神經網絡。同時,證明了神經網絡可以作為大腦信號的魯棒分類器,甚至優于傳統的學習技術。每種模式都有自己的特點,在一些任務中表現不錯,但在其他方面表現不佳。因此,Mehmood 等[24]將SVM、K-近鄰、線性判別分析、樸素貝葉斯、隨機森林、深度學習和4 種集成方法(Bagging、Boosting、Stacking 和Voting)相結合對最優特征作了進一步處理。實驗結果表明,與常用的譜功率帶方法相比,該方法極大提高了情感識別率。
傳統的機器學習分類器存在著缺乏確定模型結構的專業知識和多模態特征提取過于簡單的不足[25]。利用深度學習,學習腦電信號樣本數據的內在規律和表示層次,能夠讓機器具有分析學習能力,在處理復雜的樣本數據和進行分類處理時更具優勢。
(1)卷積神經網絡(Convolutional Neural Networks,CNN)。CNN 是一類基于卷積計算且具有深度結構的前饋神經網絡,在圖像領域取得了巨大成功。近年來,它們被引入到腦電、肌電圖、心電圖等生理信號的處理中。Xiang等[26]進一步設計了一個結合CNN 和RNN 的混合深度學習模型,在提取任務相關特征、挖掘信道間相關性以及從這些幀中合并上下文信息方面具有更好的效果;Li 等[27]利用層次卷積神經網絡(HCNN)對情緒的積極、中性和消極狀態進行分類。研究表明,HCNN 在二維空間中具有很強的表征學習能力,它在情緒識別尤其是在β 波和伽瑪波上具有很高的識別效率。
(2)深度神經網絡(Deep Neural Network,DNN)。深度神經網絡是一個復雜的模型,由一組簡單的RBM 模型組成。可以逐步提取輸入數據的深層特征,通過預訓練學習深度輸入特性。Zheng 等[28]介紹了一種新的基于差分熵特征的深度信念網絡(DBN),將兩種情緒類別(正和負)從EEG 數據中進行分類,結合隱馬爾可夫模型(HMM)準確捕捉更可靠的情緒階段轉換,DBN-HMM 的平均準確率達87.62%。Kawde 等[29]將原始的EEG、EMG、EOG 和GSR 信號直接輸入到DBN 中,根據數據分布提取高級特征,在DEAP 數據庫上,對價態和喚醒的識別準確率分別為78.28%和70.33%。
(3)概率神經網絡(Probabilistic Neural Network,PNN)。PNN 是一種基于貝葉斯策略的前饋神經網絡。PNN 學習過程簡單、訓練速度快、分類更準確、容錯性好等,使得分類更加準確,對誤差和噪聲有較高的容忍度。Siao 等[30]利用PNN 和KNN 研究左腦損傷和右腦損傷對情緒識別的影響,發現RBD 在情緒識別方面存在更大的障礙。
(4)長短期記憶網絡(Long Short-Term Memory,LSTM)。LSTM 可以處理RNN 的消失梯度問題,并且可以利用長期依賴序列和上下文信息。Salma 等[31]提出一種從原始腦電信號中識別情緒的深度學習方法,通過LSTM 從腦電信號中學習特征,然后由稠密層將這些特征分為低/高喚醒、價態和喜歡。在DEAP 數據集上對該方法進行了驗證,結果表明,喚醒類、價態類和喜歡類的平均準確率分別為85.65%、85.45%和87.99%。
人工神經網絡(ANN)是當前備受青睞的計算智能技術之一。然而,傳統的人工神經網絡在人類情感分析等應用中的性能并不理想。這就需要對神經網絡進行改進,使其具有比傳統系統更好的性能。為了克服傳統神經網絡在計算復雜度和準確性方面的不足,Zhong 等[32]利用深度學習方法提出一種基于多層融合層的層疊式自動編碼器(MESAE)集成分類器用于情緒識別,基于生理數據驅動的方法識別深層結構。與現有最好的情感分類器相比,分類率和F 評分的平均值提高5.26%。Hemanth 等[33]提出循環反向傳播神經網絡(CBPN)和深Kohonen 神經網絡(DKNN)。基于以上研究,探討使用腦電圖(EEG)信號對人類不同情緒進行分類時的表現。
腦電信號情緒識別中各數據集比較如下:
(1)DEAP。2012 年,Koelstra 等[34]創建了一個多模態數據集用來分析人類的情感狀態。該數據集是目前公開的情緒腦電信號數據集中較為完善的數據集,共采集了32名受試者,每位受試者進行40 次長度為1 分鐘的音樂視頻刺激,采集相應的腦電圖(EEG)和外周生理信號,同時還記錄了其中22 人的正面面部視頻。受試者從視頻的熟悉程度、不喜歡程度、興趣程度進行評分。
(2)NeuroMarketing[35]。該數據集是一個通過腦電信號分析神經營銷的數據集,共采集了25 名受試者,受試者觀看14 種商業電子商務產品后作出喜歡與否的判斷。
(3)SEED[36-37]。該數據集擁有最多的腦電信號采集通道,對15 名受試者的62 個通道的腦電信號進行采集。通過令受試者觀看每段約4 分鐘的蘊含正/負/中性情緒的視頻,記錄相應的腦電信號。該數據集用于情緒刺激的視頻時間長度較長,更有利于受試者的情緒表達。
(4)SEED-IV[38]。該數據集在腦電信號的基礎上,添加了眼球運動。該數據集對每位受試者進行了更多的實驗次數,在不同的時間段對受試者進行3 個階段采集,每個階段包含24 個試驗共觀看72 個電影片段,并記錄相應的腦電信號。使用62 通道ESI 神經掃描系統和SMI 眼睛跟蹤眼鏡收集他(她)的EEG 信號和眼球運動。
(5)HCI-Tagging。該數據集建立在對多媒體標簽這一新領域的研究上,在腦電信號的基礎上,記錄音頻、視頻、凝視數據和生理數據,建立了一個在多媒體信息檢索中用戶對媒體內容的情感反饋數據集,是目前腦電信號采集中數據類型最豐富的數據集。
(6)DREAMER[39]。建立了一個多模式數據集,該數據集由23 名參與者通過視聽刺激在情感激發過程中記錄的腦電圖(EEG)和心電圖(ECG)信號組成。同時,參與者在每次刺激后對他們的情感狀態進行自我評估,包括配價、喚醒和支配力。
(7)MPED[40]。建立了一個多模態生理情感數據庫,該數據集中的情緒類型最豐富,通過28 個視頻作為誘導樣本刺激6 種不同情緒和中性情緒,收集了腦電圖(EEG)、皮膚電反應、呼吸和心電圖(ECG)4 種生理信號。
這些數據集在樣本個數、數據類型等方面略有不同,具體如表1 所示。

Table 1 Comparison of emotional EEG data sets表1 情緒腦電信號各數據集比較
數據擴充是通過轉換訓練生成新樣本的過程數據,目的是提高分類器的準確性和魯棒性[41]。隨著深度學習在情緒識別領域的發展,訓練神經網絡需要更豐富、均衡的數據集。但現有數據集仍面臨著采集規模較小、數據量不足以及樣本不均衡的問題。因此,提出通過從少量原始訓練數據中生成大量人工訓練數據,并利用這些數據擴充訓練集以解決該問題。在語音識別、圖像處理等領域,這已被證明可以提高分類精度。Lotte 等[42]針對BCI 領域提出在時域、時頻域進行信號分割和重組,使用類比方法生成大量人工訓練數據,并利用這些數據擴充訓練集以解決該問題。在處理腦電信號時,Palazzo 等[43]在腦電圖儀(EEG)記錄的大腦信號基礎上利用生成對抗網絡(GAN)生成匹配特定對象類別或短文本描述的圖像。同時,由于生成對抗網絡產生的人工腦電圖數據是由單通道產生的,缺乏通道相關性。Wang 等[44]提出通過幾何變換和加噪(高斯,Poisson,Salt,Pepper 等)同時隨機加入一些局部噪聲(泊松噪聲、Salt 噪聲,或胡椒噪聲)的方法進行數據擴充,并在HCI 數據集上進行了實驗驗證。結果表明,數據擴充是解決該問題的有效方法。
隨著人工智能的發展,腦機接口技術不斷進步,通過腦電信號進行情緒識別的需求日益凸顯,腦電情緒信號研究具有廣闊前景。情緒識別可從技術創新與應用開發兩方面進行探討。
在技術層面注重與情緒相關的特征識別,考慮更多的邊緣信息,也與其他生理信號相結合進行情緒識別。同時,改進深度學習模型,雖然當前學習模型可以得到較高的識別結果,但在數據預訓練過程中會產生大量參數,導致成本增加,且距離實時識別還有一定距離,應在降低成本的同時進一步提高準確率。在數據增強方面,通過合理的技術手段對原始數據進行人工合成以提高數據規模,從而達到更好的訓練效果。
在應用開發方面,與腦機接口技術進一步結合,使設備輕便化,增加情緒識別的實用性,做到實時的情緒識別、情緒反饋。在心理學領域,將進一步探索在傳統的微表情等情緒識別中加入生理信號的相互佐證。隨著腦科學的不斷發展和腦機融合技術的逐步完善,通過腦電信號對人們的情緒以及各項生理指標進行智能分析和判斷將成為現實。