陳敬凱,孟雪,王常青,鐘亞鼎
1.安徽醫科大學生物醫學工程學院,安徽合肥 230032;2.安徽醫科大學第一附屬醫院放射科,安徽合肥 230032
腦電活動與大腦的生長及發展狀況有著密切的聯系[1-2]。對腦電信號的研究探索是認識腦活動機制、人的認知和學習機理機制、人的腦活動與機體活動的關系以及診斷腦部和精神疾病的重要手段,利用計算機技術對腦電信號進行處理和分析可以為醫生提供快速有效的診斷依據[3-5]。關于腦電信號的特征提取與分類方法已經有許多學者做出了很多成果。較常見的處理方法有時頻域分析[6]、小波變換[7-8]、人工神經網絡[9-10]、支持向量機[11-13]和非線性動力學分析[14-15]等。但現有的腦電數據普遍存在維度高,數據難以預測解釋等特點,如何提高分類準確率和算法的穩定性是腦電信號分類研究中需要繼續思考的問題。
本研究利用多重分形去趨勢波動分析算法(Multifractal Detrended Fluctuation Analysis,MF-DFA)來提取多標度特征,并將其與長短時記憶網絡(Long Short-Term Memory Network, LSTM)結合起來對腦電信號進行分類,最后通過相關的實驗來驗證該方法的有效性和可行性。實驗流程如圖1所示。

圖1 分類實驗流程圖Fig.1 Flowchart of classification experiment
MF-DFA 是由Kantelhardt 等[16]提出的一種可以用于分析腦電信號多標度特征的分析方法。通過該方法可以得到信號樣本的多重分形譜,即廣義Hurst指數hq 與廣義維數Dq之間的函數關系,然后從中找出信號樣本類間差異較大的標量作為特征向量用于分類器分類[17-19]。
對于長度為N的時間序列{xk} ,k= 1,2,…,N,MF-DFA計算步驟如下:
第一步,計算序列樣本{xk} 的平均值:

第二步,確定信號樣本的累計離差:

其中,i= 1,2,…,N。
第三步,將第二步所得的累計離差序列Y(i)劃分成Ns個小區間。其中如果N不能整除s,Y(i)將會有一段數據沒有被使用。為了能夠充分利用數據樣本而不造成數據丟失,需要對序列的剩余部分重復這一劃分過程。最終得到2Ns個等長小區間,將數據樣本的所有數據都充分利用起來以達到最佳效果。
第四步,將第三步中劃分所得的每個等長小區間內的s個點進行最小二乘法的k階多項式擬合:

其中i= 1,2,…,s;k= 1,2,…。
第五步,計算均方誤差。 設區間為v=1,2,…,2Ns,計算均方誤差F2(s,v):

當v=Ns+ 1,Ns+ 2,…,2Ns,計算均方誤差F2(s,v):

第六步,對去趨勢后的F2( )s,v取平均值,則可得到q波動函數Fq( )s:

其中,q為任意不為零的實數,Fq(s)隨著s的增大,以冪律關系遞增,即Fq(s)∝sh(q)。則對應每一個s,都有一個對應的函數值Fq(s),對于ln[Fq(s)]—lns函數關系圖中的斜率即為廣義Hurst 指數hq。不同階波動函數下Fq和s間的關系如圖2所示。q階廣義Hurst指數hq與階數q的關系如圖3所示。

圖2 不同階波動函數下Fq與s間的關系Fig.2 Relationship between Fq and s under different order wave functions

圖3 廣義Hurst指數hqFig.3 Generalized Hurst exponent hq
第七步,計算質量指數:

第八步,計算廣義維數:

通過上述計算過程,可得出在波動函數不同的矩階數q下信號樣本的多重分形譜,如圖4所示。

圖4 信號樣本的多重分形譜Fig.4 Multifractal spectrum of signal samples
LSTM 是對循環神經網絡(Recurrent Neural Network,RNN)進行改進之后的結果[20-21],因此,它的網絡結構和模型參數都與RNN 很相像。LSTM 和RNN在深度學習中常用于處理時序信息。
本研究采用LSTM 對MF-DFA 所提取的多重分形特征向量進行分類訓練和測試。使用數學工具Matlab 中的深度學習神經網絡設計工具箱來設計LSTM分類模型,結構如圖5所示。

圖5 LSTM 結構示意圖Fig.5 Schematic diagram of long short-term memory network(LSTM)structure
LSTM 的核心第一層的特征序列輸入層和第二層的LSTM處理層和最后一層的分類輸出層,第一層輸入層將腦電信號的特征向量導入神經網絡。第二層LSTM層對特征向量進行分析,找出其中的相關性用于數據分類,最后一層的分類輸出層會輸出分類結果。
LSTM 的運作從序列輸入層輸入特征值序列開始,然后是LSTM 層對輸入的特征序列進行分析。LSTM 的用途是對信號樣本進行分類,所以該網絡的末尾是一個分類輸出層classoutput。中間加了一個dropout 層是為了防止過擬合的情況出現,此處dropout的可能性參數為0.5。
實驗數據為波恩大學醫院臨床采集的癲癇腦電數據集。該數據集由5個子集組成。每個子集由100個數據樣本構成。每個子集對應一種類別的腦電信號,分別為Z類、O類、N類、F類、S類。
針對Z類和S類兩種類別的腦電信號進行分類實驗,其中Z類數據為正常人的腦電波,而S類數據為癲癇患者發病時的腦電波。兩類樣本示例如圖6所示。

圖6 Z與S兩類腦電信號示例Fig.6 Examples of two types of EEG signals,namely Z-type and S-type
此次實驗是對特征提取方法和分類器的有效性和可行性進行探索,因此首先利用MF-DFA對腦電信號進行特征提取,然后進行腦電信號分類。從Z類和S 類中各取兩個樣本進行MF-DFA 計算所得到的多重分形譜如圖7所示。

圖7 Z類和S類中各取兩個樣本所得的多重分形譜Fig.7 Multifractal spectrum obtained by taking two samples in each of Z-type and S-type
4 個樣本的多重分形譜中,根據Dq和hq 兩者的變化,可以看到兩個類別的樣本有顯著的不同。Z 類樣本中hq 的最大值和最小值之差要小于S 類樣本,同時hq 最大值和最小值對應的Dq值之差也要小于S類樣本。每個樣本數據的多重分形譜中可找到hq最大值對應的點、hq 最小值對應的點以及Dq最大值對應的點,這3個點基本可以反映出該樣本數據的多重分形特征。從物理意義上講,hq 最大值對應的點及最小值對應的點分別對應多重分形中的最大和最小奇異指數,分別展現了腦電信號在低概率測度子集和高概率測度子集的奇異程度。Dq最大值對應的點對應的hq 值,則為奇異性的值。值越小說明信號越平滑,反之,說明信號細節越復雜。因此,取這3個點的坐標作為該樣本的特征,如樣本1 的特征值為(1.086 5,0.272 1)、(0.790 1,1.000 0)、(0.659 9,0.725 3)。
將100 個Z 類和100 個S 類樣本數據按照不同比例劃分訓練集和測試集進行分類。LSTM 分類結果如表1所示。

表1 LSTM 分類結果Tab.1 LSTM classification results
表1第一行表示從兩個類別中各取5 個數據作為訓練樣本,另外的190 個樣本作為測試集合,準確率為95.79%。以此類推,最后一行表示200個數據全部用來訓練,再從中挑選20個數據進行測試,最后所得的準確率為100%。
從表1中可以看出,當訓練樣本達到20 個,占樣本總數的10%,算法的準確率就可高達98%。當訓練樣本超過160 個,占樣本的總數的80%,準確率達到了100%??梢钥吹椒诸惼髟诓煌壤挠柧毤蜏y試集中都有良好的表現并且具有較高的分類準確率和穩定性,該方法的有效性和可行性得到了驗證。
對腦電信號進行特性分析和分類研究對人類認知大腦運行機制和處理相關疾病具有重大而深遠的意義。實驗使用波恩數據集中的癲癇患者和健康者的腦電信號樣本進行二分類,對算法的有效性和可行性進行了驗證。通過對每個腦電數據樣本進行特征提取來實現通過少量的數據反映樣本的特性,大大降低分類器學習過程中的計算量,也可以防止無意義數據對分類器的影響。MF-DFA 提取出的特征向量能夠很好地反映信號樣本的差異。并且,在特征提取的時間成本上,MF-DFA 分析算法要遠小于其多種特征分析算法組合。因此,該方法還存在計算量少、特征數據少、耗時少,且物理意義清晰的優勢。LSTM 一般直接用來對時間信號樣本進行分類訓練和測試,不過這樣會因為時間信號緯度高體量大的特點,使得網絡的訓練成本非常高,需要耗費大量的時間進行迭代的同時,成功率也只有90%[22]。本研究將MF-DFA 和LSTM 結合起來用于腦電信號的分類實驗,將分類器的訓練成本極大降低,成功率也大幅提升。該結果為癲癇疾病的精確診斷提供了有效的輔助信息,也為腦電信號的異常檢測提供參考依據。