張 靜,張雪英,陳桂軍,閆 超
(太原理工大學 信息與計算機學院,山西 太原 030024)
人工智能技術的發展,正在改變著人機交互的方式。其中,情感識別促進了人與智能設備的交互,在人機交互領域占有重要地位。情感的產生往往是由外部刺激誘發的復雜心理和生理變化過程,相比于語音、表情等非生理信號,腦電(ElectroencEphaloGram,EEG)信號能夠在不受人為主觀控制的情況下反映人的內心情緒狀態,并且具有無創、可靠、成本低等特點。近年來神經科學研究表明,大腦皮層存在一些特定區域,這些區域與情感存在密切的關系[1-2]。因此,基于腦電信號的情感識別在情感計算領域得到了越來越多的關注。
隨著深度學習在計算機視覺、自然語言處理等領域取得顯著成效,研究者們逐漸將深度學習應用于腦電情感識別領域。文獻[3]結合卷積神經網絡和循環神經網絡提出了一種卷積遞歸神經網絡,其在DEAP數據集[4]效價維和喚醒維二分類的識別率分別為72.06%和74.12%。文獻[5]提出一種多模態殘差基于長短時記憶網絡,其在DEAP數據集效價維和喚醒維二分類的識別率分別為92.87%和92.30%。上述研究表明,基于深度學習的情感識別模型比傳統機器學習具有更好的識別性能。
腦電信號包含豐富的時域、空間域以及頻域信息,但是要融合不同域的腦電信息以期得到更好表征情感識別的模型仍具有挑戰性[6]。目前的研究主要集中在兩個方面:一是尋找新的方法表征原始腦電信號,使之能夠包含更有效的腦電信息;二是設計一種更適合情感識別的深度學習網絡。針對上述問題,國內外學者做出了諸多嘗試。文獻[7]利用小波變換得到腦電信號的二維時頻圖,并采用自適應卷積神經網絡模型在DEAP數據集的效價維和喚醒維二分類以及效價-喚醒維四分類上分別達到76.56%,80.46%和73.43%的平均識別率。文獻[8]設計了一種三維特征表示方法,同時保留腦電信號的頻率和空間信息,并采用連續卷積網絡在DEAP數據集的效價維和喚醒維二分類平均識別率分別為90.24%和89.45%。文獻[9]針對微分熵(Differential Entropy,DE)特征[10]設計了一種4D-CRNN模型,分別使用卷積神經網絡和LSTM學習腦電信號中的空頻域特征和時域特征,在DEAP數據集效價維和喚醒維的識別率分別達到了94.11%和94.22%。上述研究表明,結合腦電信號時域、空間域和頻域的特征有助于提升情感識別性能。然而,現有研究只結合腦電信號時域、空間域和頻域任意二者之間的信息,并沒有一種方案可以同時關注腦電信號的時域、空間域和頻域的信息。
此外,不同腦區和頻段的腦電信號對情感表達能力也不盡相同,近年來注意力機制逐漸被引入腦電情感識別中,用于挖掘腦電信號在時間、空間和頻率上與情感相關的特性[11]。文獻[12]提出了一種具有注意力機制的兩層雙向門控循環單元(Gated Recurrent Unit,GRU)模型,通過對局部和全局腦電特征分配不同的權重,從而提取腦電信號的顯著特征,在效價維和喚醒維二分類識別率分別達到了67.9%和66.5%,較傳統LSTM模型分別提升了4.2%和4.6%。文獻[13]提出了一種基于注意力機制的CRNN網絡,采用基于通道的注意機制卷積神經網絡模型和基于自注意機制LSTM模型分別挖掘腦電信號不同電極通道和不同時間的重要性,該模型在 DEAP數據集的效價維和喚醒維二分類識別性能分別達到了93.72%和93.38%,較傳統CRNN模型分別提升了30.75%和26.26%。由此可以看出,注意力機制可以很好地關注腦電信號中更能表達情感的時間、頻率以及空間電極位置,進而提升情感識別性能。因此,將頻率注意力機制和空間注意力機制結合,可以挖掘腦電信號中更能反映情感狀態的空間和頻率信息。
以提高腦電信號的情感分類識別性能為目標,筆者提出一種基于3D-CNN和頻率-空間注意力機制(Frequency-Spatial Attention mechanism-based 3D-CNN,FSA-3D-CNN)的情感識別模型。首先,提取DEAP公共數據集中腦電信號的DE特征并設計了一種四維特征表示結構,將DE特征轉換為時間-空間-頻率的四維特征結構,有效地整合腦電信號的時域、空間域和頻域信息;其次,提出一種改進的3D-CNN識別網絡,可以同時學習腦電信號中的時間、空間和頻率的信息;然后,將頻域注意力機制和空間注意力機制相結合并應用于3D-CNN網絡中,挖掘腦電信號中更能顯著反映情感狀態變化的空間和頻率信息。最后,FSA-3D-CNN在公共DEAP情感數據集[4]的效價維和喚醒維二分類平均識別率分別達到約95.87%和95.23%,效價-喚醒維四分類平均識別率達到約94.53%。
圖1為FSA-3D-CNN情感識別框架。主要包括情感腦電信號時域分段,DE特征提取和四維特征表示,以及提出的FSA-3D-CNN情感識別模型。

圖1 FSA-3D-CNN情感識別框架
圖2為提出的四維特征構建過程。首先,將原始腦電信號分為N個相同長度的腦電段信號,并通過傅里葉變換分別提取θ(4~8 Hz)、α(8~12 Hz)、β(12~30 Hz)、γ(30~45 Hz)4個頻段的腦電信號。相比于其他情感腦電特征,DE特征在情感識別領域應用更加廣泛且具有較好的情感識別性能。因此,對每段腦電信號在每個頻段上分別計算DE特征h(X)。其計算過程如下所示:

圖2 四維特征構建過程

(1)

(2)
為了保持腦電電極位置的空間結構信息,根據腦電電極的空間坐標以及不同電極之間的相對位置,將32導聯腦電信號的DE特征值映射為二維特征圖,如圖3所示。按照圖3(a)中給出的腦電電極空間坐標,將原始電極按照水平和垂直劃分映射到二維空間,對于沒有值的位置采用0填充,最終得到大小為9×9的二維特征圖,如圖3(b)所示。

圖3 32導聯電極節點映射二維圖
基于此,每個頻段腦電信號的DE特征均可轉換為二維特征圖,將4個頻段(θ,α,β,γ)的二維特征圖疊加后得到9×9×4的三維特征矩陣,該矩陣包含腦電信號的空間和頻率信息。最后,由于每個腦電信號被等分為N段,對每段腦電信號分別求取其三維特征,最終得到一個大小為N×9×9×4的四維特征,更多地保留了腦電信號的時域、頻域和空間域的信息。
3D-CNN在圖像特征提取方面具有強大的能力,目前在計算機視覺領域已經得到廣泛應用。文獻[8]使用3D-CNN提取腦電信號中的頻率和空間信息,但是并沒有考慮腦電信號的時間特性。然而上述四維特征包含腦電信號的時間、空間和頻率信息,無法直接使用3D-CNN進行情感識別。基于此,借鑒計算機視覺中二維圖像的彩色通道思想,將腦電信號的頻率維度類比為視頻序列中的RGB通道,此時每個時刻的三維特征類比為一幅彩色圖像,四維特征類比為視頻序列,具體對應關系如表1所示。

表1 腦電特征結構與計算機視覺對應關系
針對四維特征提出一種改進3D-CNN情感識別模型,如圖4所示,該模型可以同時提取腦電信號中的時間、空間以及頻率維度的信息。改進3D-CNN模型包括輸入層、3個三維卷積層、全連接層和輸出層。首先,采用3個三維卷積層提取腦電信號的深度時、空、頻特征,然后通過全連接層將特征空間通過線性變換映射到樣本標記空間,并得到情感識別結果。其中,三維卷積核的大小均為3×3×3,每層卷積核的個數分別為32、64、128。與傳統的3D-CNN模型不同,在相鄰的兩個三維卷積層之間沒有池化層,這是由于DE特征圖的大小只有9×9,如果進行多次池化,則會導致大量腦電特征中空間信息的丟失。
注意力在人類感知中起著重要作用。受人類注意力的啟發,近年來各種注意力機制被提出并用于計算機視覺領域,如通道注意力、空間注意力、語義注意力等[11,14]。現有研究表明[5],情感誘發下不同頻帶的腦電信號對情感的識別能力各不相同,其中β和γ頻段的識別性能較好,α頻段次之,θ頻段最差。此外,由圖3可以看出,在電極映射的二維特征圖中有很大一部分的值為0,然而在3D-CNN訓練過程中,將它們與有值的電極位置分配相同的權重,這與腦電電極的實際空間信息分布不一致。基于此,將3D-CNN模型與注意力機制模型相結合,提出一種頻率-空間融合注意力機制的3D-CNN情感識別模型,通過對3D-CNN中卷積層的輸出信號進行加權調整,更好地利用腦電信號中與情感顯著相關的頻段和電極節點位置。網絡結構如圖5所示。
圖5(a)展示了FSA-3D-CNN模型。對于輸入的四維特征,依次經過3個FSA-3D-CNN層、一個全連接層以及一個Softmax層,得到情感識別結果。其中,每個三維卷積層都使用相同的網絡結構,每個3D-CNN層的內部結構如圖5(b)所示,包括2個三維卷積層,BN層,頻率-空間注意力層,Dropout層以及ReLu層。

圖5 FSA-3D-CNN模型
頻率-空間注意力機制的具體過程如圖6所示。

圖6 頻率-空間注意力機制
假設3D-CNN網絡中每個卷積層輸出維數為C×W×H×B,其中C、W、H、B分別為四維特征圖在每個卷積階段的通道、寬度、高度和頻段。對于給定輸入信號X∈RC×W×H×B,依次經過頻率注意力機制Ff∈R1×1×1×B和空間注意力機制Fs∈R1×W×H×1,得到輸出信號Y∈RC×W×H×B。整個過程可以表達為
X′=Ff(X)?X,
(3)
Y=Fs(X′)?X′ ,
(4)
其中,X′表示經過頻率注意力機制以后的輸出信號。
不同頻段的腦電信號對情感的反應能力不同,為了探索腦電信號中不同頻段的重要程度,將頻率注意力機制應用于3D-CNN網絡的每層輸出X。如圖6所示,首先對X采用全局平均池化去除時間和空間維度,得到第b個頻率下的特征均值Fave,b:
(5)
其中,Xb∈RC×W×H×1,表示第b個頻率下的C個通道中大小為W×H的二維特征圖集合。
然后,采用2個全連接層、ReLu激活函數和Sigmoid激活函數實現頻率注意力機制,最終得到與頻段數相同的1D向量作為頻率注意力機制的權重系數Ff(X)∈R1×1×1×B:
Ff(X)=f2(ReLu(f1FAave)) ,
(6)
其中,f1和f2分別表示2個全連接層的映射過程,FReLu(x)和FSigmoid(x)激活函數分別表示為
FReLu(x)=max(x,0) ,
(7)
(8)
最后將頻率注意力機制的權重系數Ff(X)施加于輸入信號X實現頻率注意力機制的過程。通過上述過程最終為各個頻段分配不同的權重,更加關注與情感相關的腦電頻段。
在包含多通道的情感腦電信號中,必然存在與情感不相關以及對情感反映不強烈的電極通道。此外,圖3所示的二維特征圖在保持了大腦空間結構的同時,也引入了大量值為0的無意義信息。基于此,在頻率注意力機制之后增加空間注意力機制,自適應地捕獲重要的大腦區域。如圖6所示,對于頻率注意力機制的輸出特征X′,首先分別進行最大池化Smax,(h,w)和平均池化Save,(h,w)操作,并將二者拼接得到新的特征描述S∈R1×W×H×2。最后對S依次經過2D卷積層和Sigmoid層生成空間注意力圖Fs∈R1×W×H×1。該過程可以表示為
(9)
(10)
S=cat(Save,(h,w),Smax,(h,w)) ,
(11)
Fs(X′)=Sigmoid(conv(S)) ,
(12)

最后將得到的W×H大小的空間注意力權重系數施加于特征X′,最終得到空間注意力機制的輸出特征Y,即輸入信號經過頻率-空間注意力機制以后的輸出信號。
DEAP數據庫[4]是由英國倫敦瑪麗皇后大學的KOELSTRA等人通過實驗采集得到,用來研究人類情感狀態的多通道數據,記錄了32名受試者觀看40段時長為1分鐘的音樂視頻的腦電信號和外周生理信號;參與者對他們的喚醒、效價、聯系和支配能力水平進行自我評估。DEAP數據庫包含32通道腦電信號,經下采樣后頻率為128 Hz。一般情況下,人的情緒狀態持續時間為1 s到12 s。研究表明,3 s滑動窗口可以獲得較好的分類準確率[13,15]。因此,每個被試者最終得到800個腦電樣本。通過分析DEAP情感數據庫在效價維和喚醒維的二分類和四分類情感識別性能,驗證FSA-3D-CNN模型的有效性。
所有實驗使用相同的軟硬件環境、實驗數據集劃分、參數設置和評價指標。硬件環境為戴爾 XPS 8930臺式電腦,處理器(CPU)為英特爾Core i7-8700K @ 3.70 GHz六核,內存(RAM)為16 GB,顯卡為Nvidia GeForce RTX 1080。軟件環境為Windows 10操作系統,Python 3.6編程語言環境以及Pytorch深度學習框架。對于提出的FSA-3D-CNN情感識別模型,采用Adam優化算法最小化交叉熵損失函數,學習率和batchsize分別為0.000 3和128。為了減少模型訓練過程中的過擬合現象,設置Dropout的值為0.3。此外,每個被試者均使用五折交叉驗證,并將五折平均值作為該被試的情感識別結果,最后計算32名被試者的平均識別率和標準差,用于評估最終模型的識別性能。
由于腦電信號的長度決定了所包含情緒信息的不同,筆者重點研究了時間段的個數對情感識別性能的影響,選取時間段個數N∈[2,3,6,12]。表2給出了不同時間長度劃分下的效價維和喚醒維二分類和四分類的情感識別結果。從中可以看出,當N=3時,FSA-3D-CNN模型識別性能達到最優。其中,效價維、喚醒維二分類以及效價-喚醒維四分類的平均識別率分別約為95.87%、95.23%和94.53%。相比于N為2、6和12時,N=3在三種分類性能上平均提高了約0.37%、1.99%和3.14%。因此,在后續的實驗過程中,將腦電信號均分為3段,此時的四維特征維度為3×9×9×4。

表2 不同個數腦電段下FSA-3D-CNN的情感識別性能 %
為了分析提出頻率-空間注意力機制中每個部分的貢獻,對FSA-3D-CNN模型進行消融,通過分析每個部分的作用驗證融合注意力機制模型的有效性。主要包括無注意力機制(3D-CNN)、頻率注意力機制(FA-3D-CNN)、空間注意力機制(SA-3D-CNN)和頻率-空間注意力機制(FSA-3D-CNN)4種情況。圖7展示了不同注意力機制下的EEG情感識別性能。可以看出,相比于3D-CNN模型,增加注意力機制的FA-3D-CNN、SA-3D-CNN和FSA-3D-CNN模型在效價維和喚醒維二分類以及效價維-喚醒維四分類的情感識別率均取得了2%~5%的提升。實驗結果表明,在3D-CNN模型中增加注意力機制模塊,可以有效地提升腦電信號情感識別性能。

圖7 不同注意力機制下的腦電情感識別性能
此外,FSA-3D-CNN模型比3D-CNN、FA-3D-CNN和SA-3D-CNN模型在效價維二分類分別提升了約4.85%、1.62%和2.66%,在喚醒維二分類分別提升了約4.52%、1.01%和2.43%,在效價-喚醒維四分類上提升了約4.51%、1.96%和1.71%。實驗結果表明,采用FSA-3D-CNN可以更好地提取腦電信號在頻率和空間上更能表達情感的認知模式,有助于尋找更能表達人類情感狀態的頻率和大腦區域。
為了進一步驗證方法的有效性,將FSA-3D-CNN模型分別與傳統的卷積神經網絡和LSTM,以及最新的CCNN[8]、CRNN[9]以及4D-CRNN[9]進行了比較。每種方案的識別準確率和標準差如表3所示。
為了驗證設計的四維特征組織形式的有效性,首先將提出的改進3D-CNN與傳統的3D-CNN和LSTM進行了對比。傳統的卷積神經網絡只能從腦電信號中提取頻率和空間信息,LSTM只能提取腦電信號的時間和頻率信息,而改進的3D-CNN可以同時提取腦電信號的時間、空間和頻率信息。從表3可以看出,改進的3D-CNN方案相比傳統方案在二分類和四分類上都取得了較好的提升。其中,改進3D-CNN方案在效價-喚醒維四分類識別性能提升最高,比傳統的3D-CNN和LSTM分別提升了約5.02%和12.34%。實驗結果表明,改進3D-CNN模型在頻率和空間特征學習方面優于傳統的3D-CNN、LSTM模型。

表3 不同方案的情感識別性能對比結果 %
為了驗證頻率-空間注意力機制的有效性,將FSA-3D-CNN方案與單一注意力機制的性能對比以外,還與最新的ACRNN[13]進行了對比。ACRNN采用通道注意力機制和自注意力機制,分別關注腦電信號中的空間信息和EEG信號本身的重要性。實驗結果表明,FSA-3D-CNN比ACRNN在效價維和喚醒維二分類上分別提升了約2.14%和1.95%。相比單一注意力機制模型FA-3D-CNN和SA-3D-CNN,也取得了較好的提升。上述結果進一步驗證了頻率-空間注意力機制可以很好地利用情感腦電信號在不同頻段和空間上的對情感識別能的差異性,進而提升整體識別性能。
此外,表3中也將FSA-3D-CNN方案與最新的CCNN 、CRNN和4D-CRNN模型進行了對比。CCNN是同時提取腦電信號的空間和頻率特征,忽略了腦電信號的時間特性;CRNN方案先提取腦電信號的空間特征,然后提取時間特征,忽略了腦電信號的頻率特征;4D-CRNN方案先提取腦電信號的頻率和空間特征,然后提取時間特征。與CCNN、CRNN和4D-CRNN方案相比,FSA-3D-CNN在效價維二分類上分別提升了約6.07%、3.89%和1.65%;在喚醒維二分類上分別提升了約4.73%、2.77%和0.65%;在效價-喚醒維四分類上分別提升了約9.23%、8.69%和5.66%。綜上所述, FSA-3D-CNN同時考慮腦電信號的時間、空間和頻率信息,可以更好地提取與情緒相關的特征。
考慮到情感腦電信號包含時間、空間以及頻率三個維度的信息,筆者提出一種FSA-3D-CNN情感識別模型。首先,根據腦電信號的特性設計了一種四維特征結構,可以同時包含腦電信號的時間、空間以及頻率上的信息。其次,針對四維輸入特征提出一種改進的3D-CNN模型,可以同時提取腦電信號中的時-空-頻特征,在DEAP數據庫的效價維和喚醒維二分類以及效價-喚醒維四分類的實驗結果表明,提出的改進3D-CNN模型比傳統的卷積神經網絡和LSTM模型取得了明顯的提升。最后,針對改進的3D-CNN情感識別模型,設計了一種頻率-空間注意力機制模塊提取腦電信號中更反映情感狀態變化的頻段和腦區。通過對不同注意模塊的消融研究表明,提出的頻率-空間注意機制是有效的。最后,DEAP數據集上實驗結果表明,FSA-3D-CNN模型的性能優于目前最新的方案。在未來的工作中,可以考慮嘗試將DE特征與更多的特征相結合,通過特征互補性進一步增強腦電信號的情感識別性能。