連衛芳,晁 浩,劉永利
(河南理工大學計算機科學與技術學院,河南焦作 454000)
情感是機體內部的主觀體驗,是綜合感覺、思想和行為而產生的心理和生理狀態。情感有生理喚醒、主觀體驗以及外部表現3 種成分,人類情感的早期研究通常利用外部表現,包括對人的面部表情和聲音信號進行情感狀態識別。近年來的研究結果表明,腦電(Electroencephalographic,EEG)信號所包含的情感相較于語音[1]、表情[2]等更為客觀可靠,更能反映一個人最真實的情感狀態[3]。因此,有很多研究人員開始利用EEG 信號進行情感識別。
利用EEG 信號進行情感識別時常用的特征有時域特征[4]、頻域特征[5]和時頻域特征[6]。時域特征主要集中在事件相關電位(Event-Related Potentials,ERPs)的研究中,統計學特征也被用于描述EEG 信號時間序列,主要包括能量特征、幅值特征等。頻域特征主要包括功率譜密度(Power Spectral Density,PSD)、自回歸(Autoregressive,AR)模型功率譜估計、能量及其不對稱性(Asymmetry,ASM)以及快速傅里葉變換等。時頻域特征包含基于小波變換、小波包變換、Wigner-Ville 分布、短時傅里葉變換(Short-Time Fourier Transform,STFT)、希爾伯 特-黃 譜(Hilbert-Huang Spectrum,HHS)[7]的特征等。由于EEG 信號具有隨時間瞬變的特點,因此只使用時域、頻域或時頻域特征中的一種將難以取得良好的識別效果。具體而言,使用單一的EEG 特征進行識別時存在2 點不足:一是傳統的EEG 特征在低頻信號段時表現能力較弱;二是EEG 特征容易受到噪聲的干擾。
深度學習能將底層特征提取為抽象的高層特征,可以發現數據的分布式特征表示[8],同時對高維特征進行自動提取和分類,因此,深度學習適用于EEG 信號分析。文獻[9]提出一種基于多融合層堆疊式自動編碼器的集成分類器,將其用于情緒識別。文獻[10]運用監督限制玻爾茲曼機(Restricted Boltzmann Machine,RBM)修改了標準深度信念網絡(Deep Belief Networks,DBN),并提出基于監督DBN 的情感狀態識別模型。文獻[11]提出基于DBN 的半監督深度學習模型(Semi-Supervised Deep Learning Model,Semi-DLM),用于二元情感分類。文獻[12]提出一種基于EEG 信號的主題獨立情感識別方法,該方法以變分模態分解(Variational Modal Decomposition,VMD)為特征提取技術,以深度神經網絡(Deep Neural Networks,DNN)為分類器。文獻[13]使用改進的基于SincNet 的深度學習模型進行EEG 情感分類。
作為深度學習模型的關鍵組成部分,堆疊式降噪自動編碼器(Stacked Denoising Auto-Encoder,SDAE)不僅可以通過數據學習特征,而且能夠獲得不同數據級別的特征表達。但是,由于結構較深,SDAE 難以以較快的學習速度獲得良好的泛化性能。基于梯度下降的反向傳播(Backpropagation,BP)算法很容易陷入局部最優,導致其分類精度不佳。極限學習機(Extreme Learning Machine,ELM)以較快的學習速度和良好的泛化性能引起了研究人員的廣泛關注,但是,由于輸入權重和隱藏偏差的隨機選擇,ELM 傾向于使用更多的隱藏節點以實現更好的泛化性能,這使得其網絡結構較復雜。
本文提出一種SDAE 和正則化極限學習機(Regularized Extreme Learning Machine,RELM)相結合的EEG 特征提取與識別方法。利用SDAE 對EEG 多分析域特征進行降維去噪處理,以過濾生理特征中的有害噪聲并導出穩定的特征表示。通過RELM 實現情感分類,使用SDAE 和RELM 相結合的深度學習方法捕捉高維數據中的有效特征并提高表達能力。將SDAE 用于優化RELM 的輸入權重和隱藏層偏差,從而以更少的隱藏層節點來簡化模型。同時,將時域、頻域和時頻域特征相結合并應用于EEG 信號分析,利用三者自身的優點提取EEG 信號的多角度特征,以實現更好的識別效果。
DEAP 數據集[14]是倫敦女王大學瑪麗分校某研究小組開發的一個基于生理信號的開放數據集,該數據集中包括32 位健康參與者(19 歲~37 歲,平均26.9 歲,男性和女性參與者均為16 人),對于每位參與者,在40 次實驗中使用40 個時長1 min 的音樂視頻作為視覺刺激,以激發不同的情感,同時記錄EEG 信號和部分外周生理信號。在每次實驗結束后,參與者對他們的喚醒度(Arousal)、效價(Valence)、優勢度(Dominance)和喜好程度(Liking)進行自我評估。本文關注喚醒度、效價和優勢度3 個指標,每次實驗針對3 個指標將結果均分為兩類,如果被試者對某一音樂視頻的評級分低于4.5,則標簽被設置為“low”;如果大于等于4.5,則標簽被設置為“high”。3 個指標均有2 個標簽,分別為HA(高喚醒度)、LA(低喚醒度)、HV(高效價)、LV(低效價)、HD(高優勢度)和LD(低優勢度)。因此,情感識別任務轉化為3 個二分類問題,圖1 所示為三維情感模型。

圖1 三維情感模型Fig.1 Three-dimensional emotion model
在預處理階段,512 Hz 采樣頻率的EEG 信號被下采樣成128 Hz。采用一個4.0 Hz~45.0 Hz 的帶通濾波器進行濾波,從而消除EEG 信號中眼電(Electrooculogram,EOG)信號的影響。為了充分利用EEG 信號中蘊含的多分析域特征,提取每個樣本的EEG 信號特征,特征具體描述如表1 所示。

表1 4 種初始EEG 信號特征描述Table 1 Description of the four initial EEG signal features
假設每一個通道的EEG 信號為s(t),t=1,2,…,T,其中,t為信號時長。時域和頻域提取的均值、方差、過零率、近似熵和功率譜密度5 種特征表示公式分別為:

其中:?m(r)表示平均相似率,可以表示為?m(r)=為時間序列屬性統計數值;m表示子序列數量;FT(ω)為s(t)的傅里葉變換。
由于短時傅里葉變換在所有頻率下均具有恒定的分辨率,因此不適合分析EEG 這種非平穩信號。而離散小波變換(Discrete Wavelet Transform,DWT)在非平穩信號分析中具有多分辨率的特性,可以捕獲信號的局部行為,并且同時獲得瞬態非平穩信號的頻率和時間信息。因此,本文使用DWT 進行EEG信號分析。在第一級分解中,低通和高通濾波器用于獲得原始信號表示,以近似系數(A1)和細節系數(D1)表示數字信號,DWT 分解定義如下:

其中:dj,k和Cn,k分別代表近似系數和細節系數;n是分解級別;? 表示規模函數。隨后分解近似系數并多次重復上述過程。
本文將DWT 應用于32 個腦電通道的EEG 信號分析,由于4 級分解提供了最好的信號特征,因此本文使用Daubechies4(db4)小波對EEG 信號進行4 級DWT 處理。圖2 所示為DWT 樹結構,其中包含采樣頻率為128 Hz 的EEG 信號分解,將每一通道的EEG信號分解為5 個不同的波段,包括δ(0~4 Hz)、θ(4 Hz~8 Hz)、α(8 Hz~16 Hz)、β(16 Hz~32 Hz)和γ(32 Hz~64 Hz)。如表2 所示,本文分別提取γ、β、α和θ4 個波段的能量和熵值作為時頻域特征。

圖2 DWT 樹結構Fig.2 DWT tree structure

表2 離散小波分解Table 2 Discrete wavelet decomposition
熵是信號中信息量的度量值,計算特定頻帶內時間窗上的信號熵如下:

通過將時間窗上的小波系數進行平方求和,可以得出每個頻帶的能量如下:

其中:j是小波分解級別(頻帶);k是j頻帶中的小波系數。
自動編碼器(Auto-Encoder,AE)是一種盡可能復現輸入信號的前向型神經網絡,其包含輸入層、隱含層(特征層)和輸出層,輸出向量與輸入向量同維,常用于無監督學習中的特征提取任務。圖3(a)所示為簡單的AE 模型結構。堆疊式自動編碼器(Stacked Auto-Encoder,SAE)將多個AE 堆 疊在一起,如圖3(b)所示。SAE 采用逐層貪婪訓練方法以無監督的方式對每個AE 進行單獨訓練,通過堆疊多個AE 形成SAE 網絡,以層次結構計算生理特征抽象。逐層確定SAE 參數的過程稱為預訓練,要進行情感識別需要在SAE 的頂級編碼層添加一個與二元情緒相對應的含2 個神經元的輸出層。最后,用BP算法對訓練好的SAE 參數進行微調。

圖3 AE 和SAE 的結 構Fig.3 Structure of AE and SAE
ELM 是一種具有單隱藏層前饋神經網絡(Single-hidden Layer Feed Forward Neural Networks,SLFNs)結構的算法,其網絡拓撲與反向傳播(BP)神經網絡相同,由輸入層、隱藏層和輸出層組成。雖然網絡結構相同,但是ELM 和BP 的訓練方法大不相同。BP 網絡需要使用梯度下降算法,通過多次迭代來求解網絡權重,而ELM 通過隨機生成輸入權重和隱藏偏差來求解輸出權重。ELM 的具體架構參考文獻[15],RELM 在標準ELM 的二次型指標中增加了正則化項。
RELM 的目標是獲得最低的訓練誤差和最小的輸出權重,其極限學習機的目標函數為:

加入正則化項可控制模型的復雜程度,將約束條件引入其目標函數中,即得到下面的等價優化問題:


利用訓練集樣本數量N和RELM 隱藏層神經元數量L,根據KKT(Karush-Kuhn-Tucker)定理[16]可以得到β的2 種不同的近似解,如下:

其中:I是單位矩陣;C是正則化系數。
為了防止過擬合問題,同時學習到較魯棒的特征并提高模型的訓練穩定性,本文在AE 的輸入層數據中引入50%的隨機噪聲,將其變為DAE。在該過程中,本文還嘗試引入30%、40%和60%的隨機噪聲,但引入50%隨機噪聲時效果最好。為了實現情感分類,本文在SDAE 的頂端編碼層添加一個分類器,使用RELM 代替softmax 作為分類器可以有效提高網絡訓練速度,且通過訓練SDAE 可以獲得RELM 的網絡參數。如圖4 所示,SDAE-RELM 情感識別模型結構由3 個部分組成,包括數據預處理、特征融合和情感識別,系統架構如圖5 所示。

圖4 SDAE-RELM 情感識別模型結構Fig.4 SDAE-RELM emotion recognition model structure

圖5 SDAE-RELM 系統架構Fig.5 SDAE-RELM system architecture
實驗將32 路腦電通道中每一通道的60 s 腦電信號無重疊等分為30 段,每段2 s 作為獨立樣本繼承原始樣本的標簽。首先,分別計算如表1 所示的初始600 維情感特征,包括統計特征、能量特征、能量差異特征和小波變換特征;然后,通過多層SDAE 模型進行特征融合并提取高層抽象EEG 特征;最后,將獲得的高層抽象特征輸入RELM,實現情感分類。模型的訓練過程分為2 個部分:
1)特征提取。SDAE 模型通過重構誤差的反向傳播訓練無監督模型,先對每個單隱藏層的DAE 單元進行無監督預訓練,然后再堆疊得到一個包含多個隱藏層結構的SDAE。為了進行線模型的訓練,本文將小批量梯度下降用作優化器算法,并將均方誤差(Mean Square Error,MSE)作為損失函數。
2)特征分類。本文將特征提取部分最后一層的輸出作為RELM 的輸入,RELM 的隱藏層激活函數選擇非線性函數hardlim,如式(14)所示:

使用RELM 分類器進行分類,計算其隱藏層的權值,至此網絡模型的權值都被確定下來,即訓練完畢。本文選取整個實驗過程中所有分類結果的最優值作為模型分類結果。算法詳細描述如下:
算法1SDAE-RELM 算法
輸入特征H0=,標簽T=,隱藏節點數Li,隨機噪聲的百分比,正則化系數C
輸出所有隱藏層的權值βi
步驟1訓練SDAE 的第一個隱藏層DAE。建立DAE 網絡的第一層,并使用梯度下降法訓練,獲得該隱藏層的輸出H1和相應的網絡參數θ1,H1為輸入特征的抽象表示,且θ1=(W1,b1)。
步驟2訓練SDAE 的第i個隱藏層DAE。將第i-1 層的輸出作為第i層的輸入,建立DAE 網絡的第i層,并使用梯度下降法訓練,以確定RELM 的輸入權重和隱藏偏差,獲得該隱藏層的輸出Hi和相應的網絡參數θi,Hi為Hi-1的抽象表示,且θi=(Wi,bi)。
步驟3訓練RELM。建立RELM 分類器,輸入為最后一層DAE 的輸出,權重和隱藏層偏置為θi+1=(Wi+1,bi+1),RELM 網絡的隱藏層輸出矩陣為Hi+1,輸出權重向量β可以根據式(13)計算而得。
本文使用DEAP 數據集中全部32 個通道的EEG數據。數據預處理是處理原始EEG 數據的第一步,去除前3 s 靜默狀態數據,為了避免腦電信號連續樣本之間存在的依賴性,采用無重疊固定寬度滑動窗口技術將后60 s 數據無重疊等分為30 段,每段為2 s并作為獨立的樣本數據,提取特征向量并繼承原始樣本的標簽,則每位被試者的實驗數據樣本數為1 200(40×30),特征向量維數為600。
在實驗中采用交叉驗證技術。訓練時每一位參與者的1 200個樣本被劃分為不重合的10個子集,9個子集(1 080 個樣本)分配給訓練集,1 個子集(120 個樣本)分配給測試集。以上過程重復10 次,直到測試完所有子集。
一般而言,隨著網絡深度的增加,可以獲得更抽象的特征表示。但是,太多的層數會使網絡難以有效訓練,同時帶來更多的參數需要學習,因此,將花費更長的訓練時間。本文對3 個情感維度分別進行測試,得出2 層或3 層隱藏層能取得較好的結果。因此,在超參數的選擇中,首先將SDAE 模型的隱藏層數設置為2 層或3 層,對于SDAE-RELM 模型,SDAE和RELM 模型分別進行訓練。如2.3 節所述,本文使用SDAE 的網絡進行特征提取,對SDAE 中的降噪自動編碼器都進行200 個epochs(批量大小為100)的訓練,然后微調為500 個epochs(批量大小為120)。
SDAE 將softmax 回歸分類器添加到SDAE 的頂級編碼層,并且在訓練的最后一步微調所有層的參數以實現所需的分類性能。SDAE-ELM 將ELM 添加到SDAE 的頂層作為分類器。對于3 個維度的分類精度,本文均使用輸入的初始600 維高維特征進行訓練測試,分別尋找ELM 和RELM 的最佳隱藏節點數。從圖6 可以看出,隨著隱藏節點數量的增加,ELM 和RELM 的分類精度提升。當隱藏節點的數量增加到30 000 時,SDAE-ELM 的精度達到77.5%。此后,由于模型處于過擬合狀態,精度幾乎保持不變。因此,在對SDAE-ELM 進行訓練時,需將ELM的隱藏層節點數設置為30 000。由此可見,為了獲得更好的分類效果,ELM 需要大量的隱藏節點,網絡結構將會很復雜。當使用RELM 進行分類時,僅需15 000 個隱藏節點即可獲得77.5%的精度。因此,本文所提方法可以有效減少ELM 的隱藏層節點數,從而簡化網絡結構。

圖6 ELM 和RELM 在不同隱藏層節點數量下的分類準確率Fig.6 Classification accuracy of ELM and RELM under different numbers of hidden layer nodes
對于RELM,需要調整正則化系數C和隱藏層節點數量L這2個參數。實驗中需要尋找C和L的最佳組合:

本文采用網格搜索法確定了C和L的最佳組合值,分別是100 和15 000。
為了驗證SDAE-RELM 的學習性能,本文對SDAE 和SDAE-RELM 模型采用5 種參數組合進行測試,同時確定模型參數的最佳組合。對于每一個組合,分別訓練一個SDAE 和SDAE-RELM,在訓練時,1 200 樣本被劃分為1 080 個樣本(訓練集)和120 個樣本(測試集),采用10 折交叉驗證法,根據表3 和表4 所示的5 種模型參數組合分別對喚醒度、效價和優勢度3 個維度進行訓練測試,對32 個被試者測得的最高分類精度值取平均。圖7(a)~圖7(c)所示為情感狀態分類結果。

表3 SDAE 模型參數設置Table 3 Parameter settings of SDAE model

表4 SDAE-RELM 模型參數設置Table 4 Parameter settings of SDAE-RELM model

圖7 不同模型參數組合在3 個維度的識別精度對比Fig.7 Comparison of recognition accuracy of different model parameter combinations in three dimensions
可以看出,無論使用哪種參數組合來構建模型,每一維度SDAE-RELM 的識別準確率都要明顯優于SDAE 模型。在喚醒維度,SDAE-RELM 采用Model 4的參數組合達到了最優的識別效果(77.08%);在效價維度,SDAE-RELM 采用Model 2 的參數組合達到了最優的識別效果(77.69%);在優勢維度,SDAERELM 采用Model 5 的參數組合達到了最優的識別效果(78.46%)。
本文還比較了SDAE 和SDAE-RELM 的訓練時間,結果如表5 所示。從表5 可以看出,無論采用哪種參數組合方式,在輸入特征相同的情況下,SDAE-RELM 的訓練時間均少于SDAE,這是因為SDAE 將softmax 回歸分類器添加到頂級編碼層,并且在訓練的最后一步微調所有層的參數以實現所需的分類性能,會花費較多時間,而本文提出的EEG 情感識別方法將具有更快學習速度和更少調整參數的RELM 添加到SDAE 的頂層作為分類器,其不需要微調所有層的參數,即減少了網絡訓練所需時間。

表5 SDAE 和SDAE-RELM 的訓練時間比較Table 5 Comparison of training time of SDAE and SDAE-RELM s
為了驗證本文所提模型利用時域、頻域和時頻域特征進行情感識別的有效性,使用10 折交叉驗證技術,用相同的特征分別訓練幾種常用的情感分類模型,并對每種模型的最優識別結果進行對比分析,對比模型包括決策樹(Decision Tree,DT)、隨機決策森 林(Random Decision Forest,RDF)、K 近 鄰(KNearest Neighbor,KNN)、支持向量機(Support Vector Machines,SVM)以及SDAE-DT、SDAE-RBF、SDAEKNN 和SDAE-SVM,實驗結果如表6 所示。其中,最優結果加粗表示,SDAE-RELM 的分類結果是從表4 的5 種模型中選出的最優值。

表6 不同模型的識別性能比較Table 6 Comparison of recognition performance of different models %
從表6 可以看出,深度學習算法(如SDAE、SDAE-SVM 和本文方法等)比傳統機器學習算法(如DT、KNN 和RDF 等)識別精度更高,這是因為傳統機器學習算法需要充分訓練樣本來確保識別性能,由于網絡結構淺,這些算法無法有效地將目標的固有類信息與特征空間中的某些外部因素區分開,深度學習算法在逐層解調各種因素之間的耦合關系時,會盡可能少地損失目標的固有類信息,即深度網絡中的底層功能通常是分布式的,并且可以在不同的類之間共享,而高層功能通常更抽象,更可分離,這說明了SDAE 能夠有效地提取EEG 信號中蘊含的情感狀態區分性信息。SDAE-RELM 方法被試者間的標準差和其他方法相近,與其他方法相比,SDAERELM 的平均分類精度更高(喚醒度為76.3%,效價為76.8%,優勢度為78.5%),這驗證了本文所提方法不僅有效,而且對于不同被試者也更魯棒。
RELM 通過使用多個隱藏節點來實現更好的泛化性能,而研究模型的泛化性能需要證明在訓練樣本較少的情況下也可以獲得良好的識別性能。本文比較SAE、ELM、主成分分析(Principal Component Analysis,PCA)、SDAE-SVM 和SDAE-RELM 5 種模型在優勢維使用不同數量訓練樣本時的情感分類準確率,結果如圖8 所示。從圖8 可以看出,隨著訓練樣本數量的增加,5 種模型的分類精度提高。當訓練樣本較少時,SDAE-RELM 的分類性能優于其他模型,說明該模型具有較好的泛化性能,當只有少量訓練樣本可用時,SDAE-RELM 也可以獲得良好的情感識別效果。

圖8 5 種模型在不同數量訓練樣本時的分類性能比較Fig.8 Comparison of classification performance of five models with different number of training samples
在DEAP 數據集上,文獻[17]將EEG 的原始通道通過Pearson 相關系數和重新排列的腦電圖輸入卷積神經網絡(Convolutional Neural Network,CNN)。文獻[18]提出一種基于經驗模態分解(Empirical Mode Decomposition,EMD)的特征提取與情感識別方法。文獻[19]提出一種基于多通道腦電圖的SAE和長短時記憶網絡(Long Short Term Memory Network,LSTM)相結合的情感識別框架。文獻[20]提出提取大腦連通性特征并使用SVM 識別情緒的方法。文獻[21]使用深度信念網絡(DBN)從原始EEG 信號中自動提取高級特征進行情感識別的方法。文獻[22]結合CNN 和遞歸神經網絡(Recursive Neural Network,RNN),用于提取與任務相關的特征,挖掘通道間的相關性并從這些特征中獲得上下文信息。文獻[23]使用EEG 的雙樹復小波包變換(Double-Tree Complex Wavelet Packet Transform,DT-CWPT)時頻域特征,用以檢測情緒,并分析不同情緒狀態下的大腦活動。將本文所提方法的情感識別結果與上述方法的識別結果進行比較,結果如表7 所示。

表7 不同方法的分類準確率比較Table 7 Comparison of classification accuracy of different methods %
在喚醒和優勢2 個維度,本文所提方法均達到了最好的識別效果,在效價維度上其識別準確率也優于多數對比方法,但低于文獻[19]方法,原因是文獻[19]方法采用的是包含所有被試者信息的數據樣本,使得模型訓練更加充分,而本文方法對每一位被試者的樣本分別進行訓練。此外,本文所提方法在喚醒、效價和優勢3 個維度的識別準確率相近,這表明該方法在綜合使用表1 所述的時域、頻域和時頻域3 種分析域特征進行情感識別時具有有效性。
本文提出一種基于SDAE 和RELM 的EEG 情感識別方法SDAE-RELM。利用SDAE 對EEG 信號的多分析域特征進行降維去噪,過濾生理特征中的有害噪聲并導出穩定的特征表示。在網絡的回歸層,使用RELM 實現快速的情感分類。實驗結果表明,與SDAE 相比,SDAE-RELM 方法喚醒度提升6.8%,效價提升7.5%,優勢度提升12.6%,平均節省約17.11 s 訓練時間,其在準確性和實時性方面均有明顯提升,與其他傳統基于機器學習的方法相比,SDAE-RELM 在隱藏節點較少的情況下擁有更高的識別精度,喚醒度為76.3%,效價為76.8%,優勢度為78.5%,當僅有少量訓練樣本可用時,該方法也具有良好的識別性能。下一步將使用多模態生理信號進行情感識別,包括實時記錄的中樞神經系統和外周神經系統的生理信號。此外,本文所提方法僅在DEAP 數據集上進行了測試,今后將在更多的情感數據集上對其進行測試,以驗證該方法的普適性。