劉 京,趙 薇,董澤浩,王少華,王 余
1.河北師范大學計算機與網絡空間安全學院,石家莊050024
2.河北師范大學軟件學院,石家莊050024
3.河北師范大學數學科學學院,石家莊050024
腦電圖(electroencephalogram,EEG)是由Hans Berger 于1924 年首先檢測到并命名,是測量電極和基準參考電極所采集得到電位的差值,是兩個電極間大量神經元自發性、節律性放電的電位差的記錄。EEG由于其簡單、安全和低廉的優勢而被廣泛用于許多非侵入性腦機接口(brain-computer interface,BCI)系統的研究中[1]。BCI通過腦電信號和解碼技術在人腦和計算機之間建立直接通路。早期的BCI 系統主要用于中風康復或改善殘疾患者的生活質量,如控制電動輪椅[2]、文字拼寫器[3]和假肢[4]等。近些年,BCI系統不僅僅局限于殘疾患者,還被廣泛應用于健康人群[5]。在不同類型的EEG信號中,運動想象(motor imagery,MI)腦電信號作為一種經典范例已經研究和開發了數十年。其生理學基礎是,當人們用雙手、雙腳或舌頭想象或執行動作時,在腦半球的對側和同側的感覺運動區域中,mu(8~12 Hz)和beta(16~26 Hz)節律的能量受到抑制或促進,即產生事件相關同步/去同步(ERS/ERD)現象[6]。
BCI 的關鍵問題是如何實現腦電信號的精確分類,盡管學者們在MI分類方面提出了許多方法,包括機器學習的方法和深度學習的方法,但是仍然面臨著許多挑戰。首先,之前的方法主要選擇在感覺運動區域的電極(如C3、Cz、C4電極)記錄的腦電信號,但不同身體部位的MI可能會激活大腦的不同功能區域[7],所有的大腦功能區域都會對不同的MI 任務產生一定的影響,而不僅僅是感覺運動區域。由于MIEEG 信號活動的幅值與響應時間因人而異,無法確定哪個腦區與MI 最相關[8]。其次,MI 信號在時間上是連續的,具有低信噪比(signal-to-noise ratio,SNR)的特性,并且容易受到多種生物學因素(如眨眼、心臟跳動和肌肉活動產生的眼電、心電和肌電)或環境偽影(如機器的工頻噪聲)的影響。這些目前面臨的挑戰的組合使得以前的方法提取特征的能力有限,并且分類準確率較低。
為了克服如上問題,本文提出了一種基于注意力機制的多尺度時空自注意力網絡模型,用于原始MI-EEG信號的運動想象任務分類,該模型由特征提取模塊、特征融合模塊與特征分類模塊組成。本文方法假設在大腦活動過程中,與運動想象相關的通道應分配更高的權重值。權重值根據本文提出的空間自注意力機制計算得到,該機制捕獲高級可區分的空間特征,并在原始MI-EEG信號數據的空間域中定義更緊湊、更集中的表現形式。MI-EEG信號是一種非平穩時序信號,可以采用時間卷積神經網絡(temporal convolutional neural networks,TCN)提取EEG信號隨時間變化的狀態和程度,且TCN 可以通過擴張卷積和改變卷積核大小的方式來保證淺層網絡獲得更大的感受野,同時其反向傳播路徑與序列的時間方向不同,因此TCN 在一定程度上可以避免梯度消失和爆炸的問題。本文在TCN 網絡架構的基礎上,采用并行多尺度TCN 層,以解決MI-EEG 信號中時間域上存在的噪聲干擾的問題,同時可以提取不同尺度的時間域特征信息,與空間自注意力機制得到的空間域特征信息相結合,得到豐富的時空域特征信息,進一步提高分類性能。本文的主要工作如下:
(1)在空間域中,本文使用空間自注意力機制層提取任意兩個通道的腦電信號之間的潛在空間聯系。某一通道的特征通過加權求和的方式聚合所有通道上的特征來更新,其中的權重是通過相應通道之間的特征相似性計算得到的。定義了一種新的原始MI-EEG信號空間域特征信息的表示形式,通過自動分配較高的值給運動相關的通道,較低的值給運動無關的通道來選擇最佳的通道。該層提高了分類精度,消除了人工選擇信號通道所產生的特征信息的丟失。
(2)在時間域中,MI-EEG 信號是連續的時序信號,具有信噪比低的特性,從原始腦電信號中提取與MI 相關的特征信息相對困難。因此,本文使用并行多尺度TCN 層消除時間域特征信息中的噪聲,并利用不同時間尺度的TCN網絡提取不同尺度下的時間域特征信息。
(3)將兩層得到的特征圖拼接融合,得到MIEEG空間域與時間域特征信息增強的特征圖。為了驗證所提出模型的性能,將該模型在三個公共數據集上進行了評估。相應結果表明,本文方法在MI-EEG的分類任務上優于幾種傳統方法(平均提高11.84%),與基于DL 的方法相比,本文方法也處于領先水平。為了直觀地從生理上驗證所提出的空間自注意力機制的合理性,本文繪制了MI-EEG 數據的腦地形圖,據此來說明MI 不僅激活了C3、C4、Cz 通道,而且還影響了其他的通道。
針對MI-EEG 信號的分類已有許多研究。這些研究可以分為兩類:傳統研究方法和基于深度學習的方法。在傳統研究方法中,共空間模式(common spatial pattern,CSP)算法[9]及其變體,如濾波器組共空間模式(filter bank common spatial pattern,FBCSP)[10],被廣泛用于從多通道EEG數據中提取特征的空間分布。Jin 等人[11]使用Pearson 的相關系數手動選擇包含最相關信息的通道,然后使用正則化的共空間模式(regularized common spatial pattern,RCSP)提取有效特征,并使用支持向量機(support vector machine,SVM)作為分類器。但是,特征選擇工程在很大程度上取決于手工特征的選擇,依賴于人類的經驗。此外,由于MI-EEG具有有限的空間分布,易受噪聲干擾,信噪比(signal-to-noise ratio,SNR)低和隨時間發生變化的高動態特性,傳統方法無法實現高精度解碼。
目前,深度學習(deep learning,DL)在各個領域中均表現出優越的性能,尤其是在計算機視覺、自然語言處理和語音識別方面取得了巨大成就,在各種醫學應用中也表現出卓越的性能[12-14]。DL 的發展引起了BCI 領域研究人員的關注。相關研究包括基于深度學習模型的腦電特征提取[15]、癲癇病的預測和監測[16-17]、分類[18-19]和聽覺音樂檢索[20]。
深度學習在基于MI-BCI系統的分類任務中發展迅速,根據網絡的輸入形式,基于DL 的MI 分為兩類:特征輸入網絡和原始信號輸入網絡。特征輸入網絡的MI腦電信號分類分兩個階段完成。首先,通過傳統的特征提取方法,如功率譜分析、小波變換和CSP 等,將MI-EEG 信號的空間、頻譜和時間信息組合在一起,將1D 的特征向量人工轉換為2D 的特征圖。然后,將這些特征圖輸入網絡,采用DL 訓練模型對特征進行分類。Bashivan等人[18]將MI-EEG信號轉換為保留拓撲的多光譜圖像,并訓練了一個深度遞歸卷積神經網絡來進行分類。Kumar 等人[12]使用CSP 提取特征,然后將其輸入到多層感知器(multilayer perceptrons,MLPs)中。Tabar 和Halici[21]將通過短時傅里葉變換生成的時頻特征圖輸入具有5層堆疊式自動編碼器的CNN(convolutional neural networks)中進行分類,取得了很好的結果。Sakhavi等人[22]提出了一種新的特征表示方法,該方法結合了FBCSP 和Hilbert變換來提取空間域和時間域特征,隨后將特征輸入到5層的CNN網絡中進行分類。Zhu等人[23]提出了一種分離通道的卷積神經網絡對多通道的MIEEG 數據進行編碼,將編碼后的特征拼接起來輸入到識別網絡中,來執行最終的MI分類任務。
另外一種輸入形式是將原始時間序列MI-EEG信號(即C(通道)×T(時間點)矩陣)直接輸入DL神經網絡中,該方法無需人工選擇特征即可從原始EEG 信號中獲得高級隱式特征,是一種端到端的方法。目前已經提出了幾種性能較好的端到端DL 模型。受到FBCSP 的啟發,Schirrmeister 等人[24]提出了ShallowNet和DeepNet兩種卷積神經網絡,與FBCSP相比,兩者均具有更高的精度。EEGNet[19]是一個通用型的EEG 任務分類網絡,它使用相對較少的參數在不同的EEG分類任務上實現了良好的性能。Azab等人[25]提出了一種新的加權遷移學習的方法,提高了MI-BCI系統分類的準確率。Song等人[26]通過將表示模塊、分類模塊和重構模塊組合到端到端框架中,利用有限的MI-EEG 數據提高了分類性能。Li 等人[27]提出了一種通道投影混合尺度卷積神經網絡架構,采用擴張卷積的方法擴大感受野,來提取不同尺度下的時間域特征,提高了分類性能。Amin 等人[28]采用一種用于融合具有不同特征和架構的多層CNN方法,利用不同的卷積網絡從原始MI-EEG信號中提取空間域和時間域特征。Wu等人[29]提出了一種并行的多尺度濾波器組卷積神經網絡的方法,通過不同尺度的卷積核來提取不同尺度下的原始MI-EEG 信號時間域特征,從而提高分類精度。Ingolfsson 等人[30]首次將TCN 應用于MI-EEG 分類任務中,取得了很好的結果。
兩種輸入形式都有其優點和缺點。特征輸入網絡的方法由于是人工選擇特征,具有強大的可解釋性,適用于小型數據集,并且優于傳統方法。但是,人工選擇的特征會丟失一些潛在的信息,從而影響性能。而端到端模型可以從原始MI-EEG 信號數據中自動學習有用的潛在信息,并可以獲得令人滿意的結果。但是,對于小的訓練數據集,端到端的方法很難訓練出令人滿意的模型。從文獻中可以看出,為MI-EEG 分類設計可行的端到端深度神經體系結構仍然是一個挑戰。
本文的網絡體系結構如圖1所示。圖中,平行四邊形是不同層中的特征圖,它們對應的大小在四邊形周圍標明。Ⅰ是特征提取層,其中空間自注意力機制層與并行多尺度TCN 層由橙色和藍色方塊表示;Ⅱ是特征融合層;Ⅲ是特征分類層。D為特征圖的個數,H為特征圖的高度,W為特征圖的寬度。輸入的運動想象原始信號M為22個采樣通道,1 125個時間采樣點。網絡架構分為三個模塊:特征提取模塊、特征融合模塊、特征分類模塊。

圖1 所提方法的網絡結構示意圖Fig. 1 Schematic diagram of proposed method
首先介紹特征提取模塊,該模塊包含平行的空間自注意力層與并行多尺度TCN 層兩層,在空間域和時間域提取可區分的特征;然后介紹特征融合模塊,該層將特征提取模塊得到的兩組特征圖進行拼接融合;最后將得到的特征圖輸入到特征分類模塊中進行分類。
2.1.1 空間自注意力層
傳統方法通常是人工手動選擇EEG 通道,或者假設每個通道都起著同等的作用。然而,不同的人對于相同的MI動作的腦活動區域是不同的,這就意味著不同被試的MI信號的強度是不同的,同樣的被試在不同的試驗中MI信號的強度也存在差異。這種現象會導致較低的分類精度。因此,為了消除人工選擇信號通道造成的損失,本文提出了空間自注意力層,自動選擇最有用的信號通道來提取被試者的判別特征。
該層的相應網絡架構如圖2(其中M∈RH×W表示原始信號數據,A∈RD×H×W表示卷積之后得到的特征圖,D為特征圖的個數,H為特征圖的高度,W為特征圖的寬度。C、E表示重塑之后的特征圖,用于計算通道間的相似性。?表示矩陣乘法,⊕表示逐元素求和)所示,網絡參數如表1所示。由圖1,M∈RH×W為高度H=22 和寬度W=1 125 的運動想象腦電信號原始數據。首先將這些數據輸入一個卷積層(Conv11)得到特征圖A,其中A∈RD×H×W,D=8 表示特征圖的數量。由圖2,將A重塑為C∈RH×(D×W)和E∈R(D×W)×H,用來實現它們之間的矩陣乘法。最后,應用Softmax 函數得出空間自注意力權重矩陣P∈RH×H,相應公式如下式所示:

表1 空間自注意力機制層網絡的詳細說明Table 1 Detailed architecture of channel self-attention mechanism module network

圖2 空間自注意力機制層網絡結構示意圖Fig. 2 Schematic diagram of channel self-attention mechanism module network
式中,f是相似性函數,使用矩陣點乘來計算相似度。P表示相似度,表示第i個通道和第j個通道的相似性,取值范圍為0~1(0 表示沒有相似性,而1 表示完全相似)。
之后由式(1)得到的P與M∈RH×W矩陣乘法來獲得信號F∈RH×W。信號F是通道預測信號,其中每個通道都是原始數據空間域中其他通道的加權和。該工作自動學習通道之間相似的權值,自適應地集合所有通道的信號數據,并使用加權求和來更新每個通道。最后,本文通過將F與可學習的參數α相乘形成一個殘差塊,并對原始信號執行逐元素求和運算,獲得最終的空間特征信號G∈RH×W,相應公式如下:
其中,α初始化為0,并在整個深度學習模型的訓練過程中逐漸更新被分配更合適的權重。G增強了跨被試分類的性能。這意味著當人們思考一個動作時,任何具有相似特征的通道都能相互促進,而不管它在大腦中的空間位置。
2.1.2 多尺度TCN層
MI-EEG 信號在時間域上具有連續且SNR 低的特性。因此,本文構建了一個多尺度TCN 層,利用TCN能夠并行處理和增大感受野且一定程度上能夠避免梯度消失與爆炸的優勢,采用不同的時間步長提取不同尺度的時間域特征信息,再將這些特征拼接融合,得到增強的時間域特征信息,同時消除噪聲影響,增加魯棒性,提高分類性能。該層的相應網絡架構如圖3,網絡參數如表2所示。

表2 多尺度TCN層網絡的詳細說明Table 2 Detailed architecture of multi-scale TCN module network

圖3 多尺度TCN層網絡結構示意圖Fig. 3 Schematic diagram of multi-scale TCN module network
由圖1,將M∈RH×W輸入一個卷積層(Conv21)得到特征圖B∈RD×1×W,Conv21的卷積核大小為(22×1),此時特征圖B有16個,每個特征圖大小為(1,1 125)。如圖2,將特征圖B并行輸入4個不同尺度的TCN卷積層,每層TCN 的尺度由卷積核的大小體現。每層卷積核大小分別為(1×25)、(1×50)、(1×75)、(1×100),分別代表以100 ms、200 ms、300 ms、400 ms 的時間步長對MI-EEG特征圖進行卷積,得到4組時間特征圖T1,T2,T3,T4∈RD×1×W。其中,每層TCN 由若干個殘差塊組成,殘差塊的網絡結構如圖4 所示,其中卷積核大小KT=2,膨脹系數d={1,2}。

圖4 TCN中的架構元素Fig. 4 Architectural elements in TCN
TCN[31]與常規CNN的區別主要是由于其三種結構:因果卷積、膨脹卷積和殘差塊[32]。
(1)因果卷積:TCN 的輸出與輸入的長度相同。為此,TCN使用1D全卷積網絡架構[33],其中每個隱藏層的大小與輸入層的大小相同,采用0填充的方式使后續層的長度與先前層相同。此外,因果卷積保證沒有信息從未來流向過去,簡而言之,時間t的輸入僅取決于時間t或更早的輸入。
(2)膨脹卷積:常規的因果卷積只能在網絡深度上線性增加其感受野大小,導致如果要獲得大的感受野大小,就需要一個非常深的網絡或者一個具有巨大卷積核的網絡,這是常規因果卷積最主要的一個缺點。為了解決這個問題,TCN 使用一系列膨脹卷積[34],該卷積通過成倍增加膨脹因子d的方法,使感受野的大小與網絡深度成比例的方式增大。
(3)殘差塊:TCN 的殘差塊由兩層膨脹卷積組成,每一層除了因果卷積層,還具有批量歸一化、非線性激活和Dropout層。雖然TCN只有一維卷積,但將二維特征圖的第二維度視為深度維,仍然能夠處理二維深度圖。跳過連接將輸入添加到輸出特征映射中,并檢查輸入和輸出的深度是否相同,若不同,則會進行1×1卷積。
那么,膨脹基為b,卷積核大小k(k≥b),TCN的感受野大小l與殘差塊數n有:
在本網絡中,b=2,l=W=1 125,則有:
k取值為25、50、75、100,則對應TCN 層的殘差塊數n為5、4、4、3,如圖3所示。
最后,將4 組特征圖T1,T2,T3,T4∈RD×1×W通過拼接函數融合為一組特征圖T∈R4D×1×W,T即最終獲得的消除噪聲且包含不同時間尺度信息的時間域特征圖。
本節將空間自注意力層的輸出G∈RH×W經過一個卷積核大小為(22×1)的空間卷積層(Conv12)得到特征圖S∈RD×1×W,然后將S∈RD×1×W與T∈R4D×1×W按照深度維進行拼接融合,得到增強的時空信息特征圖N1∈R5D×1×W,其中D=16,W=1 125,方法如下:
該模塊的網絡架構如圖1中的Ⅱ部分,參數如表3所示。

表3 特征融合模塊的詳細說明Table 3 Detailed architecture of feature fusion layer
本節將特征融合模塊得到的N1∈RD×1×W輸入到特征分類模塊中,該模塊的網絡架構如圖1中的Ⅲ所示,網絡參數如表4 所示。該模塊包含兩個卷積層(Conv3 和Conv4,都包含批量歸一化與非線性激活層)、兩個平均池化層(AvgP1 和AvgP2,都包含Dropout 層)、一個全卷積層(FC)和一個LogSoftmax函數。

表4 特征分類模塊的詳細說明Table 4 Detailed architecture of feature classification layer
將N1經過一個內核大小為(1×75)的卷積(Conv3),采用0填充的方法得到與N1同樣大小的特征圖,將得到的特征圖應用批量歸一化與非線性激活得到N2。將N2通過內核大小為(1×8)的平均池化層(AvgP1),將輸入大小(80,1,1 125)減小到(80,1,140)輸出得到N3。將N3經過一個內核大小為(1×25)的卷積(Conv4),采用0填充的方法得到與N3同樣大小的特征圖,將得到的特征圖應用批量歸一化與非線性激活得到N4。N4再通過一個內核大小為(1×8)的平均池化層(AvgP2),將輸入大小(80,1,140)減小到(80,1,17)輸出得到N5。將N5通過一個內核大小為(1×17)的全卷積層(FC),其輸出的大小為N6(4,1,1)。最后,通過N6轉換為4 個標簽的條件概率,使用LogSoftmax函數執行四分類。
對于四類MI 分類,將Pytorch 中的NLLoss 函數定義為損失函數[35],使用Xavier算法初始化網絡中的所有參數[24],優化算法采用Adam算法[36]。BCICIV2a和BCICIV2b 數據集的學習率為0.000 1,而HGD 數據集的學習率為0.001,批次大小為32。
由于3 個數據集均將訓練數據集和測試數據集清晰地劃分出來,本節將訓練數據集隨機分為訓練集(80%)和驗證集(20%),所有測試數據集作為測試集。采用這種劃分方式可以使用在計算機視覺領域開發的早期停止策略。當驗證精度在預定時期內沒有提高時,訓練的第一階段停止。然后,使用使驗證數據集具有最高準確率的參數值,繼續對訓練和驗證數據集進行訓練。當驗證數據集上的損失函數下降到與第一個訓練階段結束時的訓練數據集的值相同時,訓練結束。Dropout 層中的超參數以及批歸一化層中的常數和權重衰減率分別設置為0.4、10-5和0.1。
為了驗證提出的模型的性能和可行性,對3個數據集進行了一系列實驗。單被試分類實驗目的是驗證本文的模型對單被試分類的性能。之后設計了跨被試遷移實驗,來驗證所提出方法的遷移能力。在跨被試實驗中,其他被試(除目標被試)的腦電信號用來預先訓練模型,然后將該模型作為初始權重對網絡進行初始化,最后對目標被試進行測試實驗。
在這項研究中,本文采用了3個廣泛使用的公共MI-EEG數據集進行評估。它們之間的主要區別在于通道數量、試驗數量、被試數量、任務類別和采樣率。
第一個數據集是BCICIV2a[24],該數據集記錄了由9 位不同的被試執行的四類運動想象任務(左手、右手、雙腳和舌頭),采樣率為250 Hz,共25 個通道(22 個腦電通道和3 個眼電通道),每個通道都經過0.5~100 Hz帶通濾波器的預處理。對于每個被試者,在不同的日子里共記錄了兩個時間段(session)的腦電數據。每個session 包含6 個運行(run),中間有短暫的休息。一個run 包括48 個試驗(4 種可能的類別各12 個),每個session 總共288 個試驗(trial)。本文使用一個session 作為訓練集,另一個session 用于測試分類器和評估性能。因此,訓練集由第一個session的288個試驗組成,而測試集由第二個session的288個試驗組成。此外,每個試驗都使用相同的時間窗[-0.5,4](單位:s)提取22個腦電通道的運動想象信號。因此,在數據集中,顯式分離了9個訓練集和9個測試集。在子集中,每個類別有72 個trial,并未提供反饋。因此,去除3 個眼電通道信號后,每次試驗獲得22×1 125 個數據點。
第二個數據集是BCICIV2b[24],該數據集包含了6個通道(3 個腦電通道和3 個眼電通道),記錄了9 個不同的被試兩類運動想象任務(左手、右手)。對于每個被試,運動想象任務分為5個session,BCICIV2b數據集中的前兩個session 在運行時沒有反饋,其余session具有反饋。
第三個數據集是HGD 數據集[24],該數據集包含了44 個腦電通道,記錄了14 位健康被試進行的4 類運動想象任務,對想象運動進行4 s 試驗。每個被試包含13 個session,每個session 包括80 次試驗。這4類運動包括左手、右手、雙腳和休息(不動)。對于每個被試,訓練集由大約880個試驗(除了最后兩個session 的其他session)組成,測試集由大約160 個試驗(最后兩個session)組成。HGD 的采樣率為500 Hz。為了與BCICIV2a 進行公平的比較,對HGD 重新采樣,采樣率為250 Hz,并使用相同的4.5 s 時間窗,因此每個試驗獲得44×125 個數據點。
本文方法在3個公共數據集BCICIV2a、BCICIV2b和HGD 上進行評估,以準確率作為評價指標。計算公式為:
其中,TP為真陽性數,TN為真陰性數,FP為假陽性數,FN為假陰性數。
3.3.1 BCICIV2a數據集的比較
為了驗證提出方法的有效性和準確性,首先使用BCICIV2a進行了單被試分類實驗,并將本文方法的準確率與基于DL 的方法EEGNet[19]、M3DCNN[37]、CPMixedNet[27]、MSFBCNN[29]、DMTLCNN[26]、MCCNN[28]、WTL[25]、EEG-TCNet[30]和基于ML 的方法FBCSP[10]進行比較,結果見表5(最優的準確率加粗顯示)。

表5 BCICIV2a數據集在單被試分類中的準確率Table 5 Accuracy on BCICIV2a dataset for intra-subject classification 單位:%
表5 列出了各種方法中每個被試者的準確率以及BCICIV2a 數據集的平均準確率。本文方法明顯優于其他基于DL的方法,對單被試分類的平均準確率為79.26%。此外,圖5(a)中給出了MI任務的混淆矩陣和測試集上的實驗結果。FBCSP 是一種基于ML 的基線方法,被廣泛用于識別振蕩的MI-EEG 數據,該方法使用支持向量機作為分類器。它選擇最優的空間濾波器來提取特征,并且在BCI比賽中運行BCICIV2a時表現最好。但其在所有被試者中的平均準確率僅為67.42%,比本文方法低了11.84 個百分點。因此,與傳統的機器學習方法相比,本文方法擁有更好的結果。

圖5 運動想象(MI)任務的混淆矩陣Fig. 5 Confusion matrices for motor imagery(MI)task
這里介紹的其他基于DL 的方法是具有較高準確率的最新技術。在此任務中,它們的平均準確率值的范圍是65.43%至77.35%。M3DCNN 模型結合了新的EEG三維表示形式,采用多分支三維CNN和相應的分類策略,來增強其對不同被試的抗過擬合能力。M3DCNN的最大貢獻是證明原始MI-EEG的復雜表示形式可以幫助改善性能。但是,其準確率為75.01%,比本文方法低4.25個百分點。DMTLCNN和WTL 使用遷移學習技術使分類準確率顯著提高,分別達到75.21%和75.56%。與這兩種方法相比,本文方法準確率分別提高了4.05個百分點和3.70個百分點,MCCNN模型采用不同的濾波器大小和深度提取不同類型的時空特征,融合不同架構的CNN模塊,提高MIEEG分類精度。吳等人提出的并行的MSFBCNN,利用特征提取網絡從腦電數據中充分提取潛在的時空特征[29]。Li 等人提出的端到端的腦電解碼框架采用原始多通道腦電數據作為輸入,利用CPMixedNet 和振幅擾動數據增強技術來提高精度[27]。與上述模型相比,本文的平均準確率分別提高了3.54個百分點、3.68 個百分點和4.66 個百分點。EEG-TCNet 是一種端到端的DL模型,擁有一個空間卷積和一個時間卷積,之后輸入到TCN網絡中進行特征提取,最后由全卷積網絡進行分類。該網絡第一次將TCN網絡應用于MI-EEG 分類領域,并取得很好的結果,可以證明TCN 適合于MI-EEG 的分類研究。但是該網絡沒有考慮到不同尺度的時間域特征信息。與EEG-TCNet方法相比,本文方法平均準確率高出1.91個百分點。
以上結果表明,對于4 類MI-EEG 分類,本文方法優于傳統方法,平均提高11.84 個百分點。與目前最新的基于DL 的方法相比,本文方法在BCICIV2a數據集的單被試分類實驗上取得了更好的結果。除了平均準確率外,本文也在兩個被試者(被試2、被試5)上取得了最好的結果。
3.3.2 BCICIV2b和HGD數據集的比較
為了進一步驗證所提出方法的自適應性和魯棒性,本文對另外兩個具有挑戰性的數據集BCICIV2b和HGD(見3.1 節)進行單被試分類實驗來評估提出的模型的性能,網絡結構并未進行改動,其中對二分類數據集BCICIV2b進行實驗時,LogSoftmax的輸出分類為二分類。由于目前最先進的方法僅提供了BCICIV2b 和HGD 的平均精度值,在比較時,本文僅將平均精度分別列于表6和表7中(最優準確率加粗顯示),相應的混淆矩陣如圖5(b)、圖5(c)所示。

表6 BCICIV2b數據集在單被試分類中的平均準確率Table 6 Average accuracy on BCICIV2b dataset for intra-subject classification 單位:%

表7 HGD數據集在單被試分類中的平均準確率Table 7 Average accuracy on HGD dataset for intra-subject classification 單位:%
表6 所列的數據表明,BCICIV2b 的結果與其他最先進的方法相比有了良好的改進。本文方法獲得了85.90%的準確率,而次優方法MSFBCNN 獲得了84.30%的準確率,準確率提高了近1.6個百分點。表7 數據表明,本文方法在HGD 的實驗結果取得了顯著的提高,達到了96.96%的準確率。實驗結果表明,提出的網絡模型對不同的腦電數據集及不同的分類任務具有較好的自適應性和魯棒性。
為了驗證所提出方法的遷移學習能力,本文進行了跨被試分類實驗。本文采用遷移學習技術,利用其他被試(除目標被試)的腦電數據在BCICIV2a數據集上訓練一個模型,然后將該模型作為網絡的初始權值進行初始化,之后加載新被試者(目標被試)的數據進行進一步測試。這樣,訓練后的模型可以整合其他被試者的信息,從而使其更具魯棒性。
表8 給出了每個被試者對應的分類結果(最優準確率加粗顯示)。由于每個被試的MI-EEG活動的幅值和響應時間有差別,不同被試者之間差異較大,故而表8中的結果并不優于單被試者分類的結果(如表5所示)。圖6為BCICIV2a數據集跨被試分類結果的混淆矩陣。與其他先進的DL 方法(僅DeepCNN、DMTLCNN、STSACNN 提供跨被試分類實驗比較結果)相比,本文方法平均準確率為73.78%,9個被試者中2個被試(被試2、被試9)取得最優。

表8 BCICIV2a數據集上跨被試遷移學習分類結果Table 8 Results of inter-subject transfer learning classification on BCICIV2a dataset 單位:%

圖6 MI任務的混淆矩陣(BCICIV2a跨被試分類)Fig. 6 Confusion matrices for MI task(inter-subject classification of BCICIV2a)
結果表明,本文方法不僅可以由網絡自動學習與MI相關的通道信息,消除了手動選擇信號通道的影響,同時為MI腦電信號的分類提供了更通用的特征表示,具有更好的魯棒性和更高的分類準確率。
為了驗證本文所提出的模型的預測性能和泛化能力,本文進行了10 倍交叉驗證實驗。在數據集有限的情況下,本文結合BCICIV2a 的訓練集和測試集,每個被試者有576個試驗,將它們隨機分為10個相等的部分。每次運行使用9 個子集作為訓練集,1個子集作為測試集,即518 個和58 個試驗分別用于訓練和測試。最終的準確率是通過取10次最佳值的平均值得到的。
表9 給出了10 倍交叉驗證的結果(最優準確率加粗顯示)。與本文之前使用的288個訓練試驗和288個測試試驗相比,10倍交叉驗證顯著增加了訓練集的數量,因此平均準確率提高了11.82%,達到了91.08%。除了平均準確率外,該數據集9名被試均取得最佳結果。這再次證明了數據量小確實是DL 方法的瓶頸。

表9 BCICIV2a數據集上使用十倍交叉驗證單被試分類結果Table 9 Intra-subject classification of 10-fold cross-validation results on BCICIV2a dataset 單位:%
為了驗證所提出的空間自注意力層和多尺度TCN層的作用,本文進行了基于BCICIV2a的消融實驗,該實驗采用去除其中一層來測試另一層的作用,其中MSTCN-CAMNet 表示本文提出的網絡結構,MSTCN 表示只包含多尺度TCN 層的網絡結構,CAMNet 表示只包含空間自注意力層的網絡結構。結果如表10所示。

表10 基于BCICIV2a數據集消融實驗Table 10 Ablation experiments on BCICIV2a dataset
從表10 中數據可以看出,兩層對所提出網絡的準確率都有明顯提升效果,驗證了所提出兩層的有效性。其中,對于空間自注意力機制層,多尺度TCN網絡層對所提出方法的作用更大。
前幾節進行了一系列定量評價任務,定量評價的標準為4 類MI 腦電分類準確率和混淆矩陣,混淆矩陣對角線上的值表示對每個運動想象分類任務的正確預測準確率。本節進行了t 分布隨機鄰域嵌入(T-SNE)定性評價任務。T-SNE 被廣泛用于評價特征向量的判別能力,它可以將高維數據投影到二維散點圖上。在T-SNE 可視化的情況下,評價標準如下:一個類的實例越多,可以從其他類的實例中分離出來,相關特征的表現就越好。本文所有的實驗都在BCICIV2a上進行,使用相同的訓練策略進行單被試分類實驗。
如圖7所示,被試者1的原始MI-EEG數據的所有類別標簽均勻分布在T-SNE 圖中。其中,數字0 到3代表MI-EEG信號的4類標簽(左手、右手、腳和舌頭)。

圖7 被試者1在BCICIV2a原始數據上的T-SNE映射Fig. 7 T-SNE mapping of subject 1 on BCICIV2a raw data
被試者1的混淆矩陣及其對應的T-SNE圖如圖8所示。從圖中可以看出,混淆矩陣中最大的誤差發生在左手和右手之間以及腳和舌頭之間。將腳分類為舌,錯誤率為23.04%,將舌頭分類為腳,錯誤率為10.59%。這一趨勢與圖8的T-SNE圖是一致的,在圖8的T-SNE圖中,誤分程度最大的是label 2和label 3之間,對應的是腳和舌。從上面的實驗可以表明,TSNE 圖和相應的混淆矩陣具有相同的變化趨勢:一個類的實例越多,可以從其他類的實例中分離出來,在四分類MI-EEG實驗中獲得更好的分類性能。

圖8 被試1的混淆矩陣和相應的T-SNE映射Fig. 8 Confusion matrices and corresponding T-SNE mapping for subject 1
圖9中(電極Cz位于頭部的中心,C3、C4分別位于左右兩側。紅色表示正相關,即表示幅值增加(ERD);藍色表示負相關,即表示幅值減少(ERS)),本文使用來自BCICIV2a 數據集的四類MI-EEG 信號,并畫出與每個單被試分類結果相對應的大腦活動相關圖。當人們想象或執行左手、右手、雙腳和舌頭運動時,mu(8~12 Hz)和beta(16~26 Hz)節律的能量會在大腦半球對側和同側的感覺運動區域減少或增加,即ERS/ERD 現象。因此,在圖9 中本文將紅色定義為表示ERD 的正相關,紅色的色調越強烈,正相關性越強。將藍色定義為表示ERS 的負相關,藍色陰影越強烈,負相關性越強。例如,圖9 中的第一行顯示的是左手運動想象數據的大腦活動相關圖。本文的分類結果是針對左手運動的MI-EEG 信號,相應的大腦活動相關圖顯示了左半球的ERS和右半球的ERD。

圖9 BCICIV2a數據集上本文方法分類結果的大腦活動相關圖Fig. 9 Brain active correlation map to classification results of proposed method on BCICIV2a dataset
圖9 是在BCICIV2a 數據集上對四類MI 腦電信號進行分類,得到對應于本文方法分類結果的大腦活動相關圖。圖中所示的結果證明,當人們想象或執行某個動作時,任何具有相似特征的通道都能相互促進,而不管它在大腦中的空間位置如何。本文首次使用自注意力與TCN網絡融合機制提取EEG信號的新時空特征表示形式,以提取可區分的時空特征。因此,從圖9 中的圖像中得出結論,本文方法在神經生理學上得到了可信賴的結果。
本文提出了一種基于注意力機制的多尺度時空自注意力網絡模型,用于四類(左手、右手、雙腳和舌頭或休息)MI-EEG 分類。該模型由特征提取模塊、特征融合模塊、特征分類模塊三個模塊組成。其中特征提取模塊由空間自注意力機制層和多尺度TCN層兩個并行層組成,通過這兩層可以提取到空間域和時間域上特征增強的可區分的時空特征。
本文使用三個公共數據集(BCICIV2a、BCICIV2b和HGD)進行實驗,以驗證本文方法對不同數據的魯棒性和準確率。實驗結果表明,本文方法與現有的基于DL 的方法相比,具有更好的分類性能,并且適用于單被試與跨被試實驗,具有遷移學習的能力。同時,消融實驗也證明了本文方法的有效性。未來,計劃進一步完善模型,提高單被試與跨被試的分類性能。