陳亮,郭濱,李沐芳,李哲
(長春理工大學 電子信息工程學院,長春 130022)
抑郁癥是一種常見的情感障礙性疾病,抑郁癥患者存在嚴重的心理障礙和不良情緒,通常表現為悲傷、疲勞、絕望等。最嚴重時,抑郁癥可引致自殺[1]。抑郁癥治療的關鍵在于前期的診斷篩查,但由于抑郁癥的病理原理不清,臨床醫生只能根據患者的相關信息做出主觀診斷。因此,有必要引入更加客觀便捷的測量方式輔助臨床抑郁癥的早期篩查,幫助患者得到及時有效的治療。
腦電信號是神經元從頭皮表面自發的、有節律的放電活動。近年來,許多研究者利用腦電圖來研究抑郁癥。越來越多的研究發現,抑郁癥患者和健康對照者的腦電數據在波段、功率和波幅等參數上有不同的變異規律。Debener等人[2]基于前腦活動和情緒不對稱的理論研究了15例臨床抑郁癥患者和22例健康人的靜息腦電數據,發現前額葉α波的不對稱是抑郁癥的特征之一。Hughes等人發現約20%~ 40%的抑郁癥患者腦電圖與正常人不同[3]。腦電信號是人體自發的生理信號,也可以通過光、聲、電等各種刺激誘發,音樂就是一種常見的刺激材料,關于音樂與腦電的結合,目前已經做了許多研究。彭金歌等人[4]對基于EEG的音樂舒緩緊張情緒進行了研究,發現左腦對節奏歡快的音樂更敏感,右腦對憂傷的音樂更敏感。Dharmadhikari AS等人[5]比較了抑郁的患者和對照組在聽音樂之前和期間在額葉theta能力的半球差異,研究發現在沒有抑郁的對照組中,聽音樂期間左半球的平均額葉theta功率和額葉theta不對稱性顯著增加。在抑郁癥患者中,聽音樂時額葉theta不對稱性被逆轉。Marko Punkanen等人[6]研究了抑郁癥患者對音樂中的情緒感知,研究表明抑郁癥患者在音樂刺激中感知到負面情緒較多,這也為抑郁癥的識別提供了一種手段。
本研究旨在通過三種模態(正性、中性、負性)的音樂刺激誘發腦電信號,確定標準化條件下抑郁腦電的有效特征,并創建腦電的抑郁分類模型。
既往研究表明,大腦杏仁核和前額參與了積極和消極情緒的處理。Harmon Jones等人[7]揭示了憤怒和認知失調、具有負性效價的情緒,相對左額葉活動的相關趨勢更大。此外,在無毛發覆蓋的前額位置采集的腦電信號阻抗低、失真低、可用性高。因此,AF3、AF4、F3、F4是本研究中電極位置的理想選擇。腦電采集設備采用的是Emotiv公司開發的便攜式腦電圖儀Emotiv EP?OC neuroheadset,如圖 1(a)所示。圖 1(b)是該儀器的電極放置位置,設備一共包含14個通道(AF3,F7,F3,FC5,T7,P7,O1,O2,P8,T8,FC6,F4,F8,AF4),符合國際通用的 10-20電極系統。為了保證實驗數據的真實性和可靠性,在選擇實驗樣本時,盡量做到樣本在數量和類型上的全覆蓋。根據貝克抑郁量表(BDI)的得分招募參與者。招募標準包括:18-25歲,沒有頭部外傷或癲癇病史,當前沒有使用精神活性藥物。共招募了20名在校學生,所有人均為右利手。其中對照組10人(BDI<7),無自我報告的MDD病史,也沒有自我報告的癥狀。輕度抑郁癥癥狀組保持穩定的高BDI(>=13)。在實驗過程中,所有參與者都首先完成了BDI以及Spielberger焦慮量表(TAI)。

圖1 EEG采集裝置示意圖
研究發現,抑郁癥患者對外界刺激的情緒反應與正常對照組不同。抑郁癥患者對正性情緒刺激相對麻木,對負性情緒刺激相對敏感。因此,本研究設計將三種不同情緒的音樂刺激作為三種不同的方式。對參與者的腦電信號進行記錄和分析在5段音樂刺激中完成,包括2個中性刺激、2個負性刺激和1個正性刺激。刺激來源于1 000 SongsDatabase,該數據庫是一類用于情感分析的歌曲數據庫,歌曲的采樣頻率為44 100 Hz,每首音樂的時長為45秒,且全部歌曲標注了效價維和激活維的均值和方差,故可以用二維情感模型對其進行分類,廣泛應用于情緒的研究。整個實驗在安靜、隔音、無眩光、通風良好的專用實驗室進行。整個實驗環境中無強電磁干擾;實驗過程中無其他噪聲影響。具體實驗方案如圖2所示。

圖2 實驗流程圖
提出了一種基于中性、負性和正性音樂刺激下采集的腦電數據融合的多模態抑郁識別方法。抑郁癥患者對積極情緒刺激的主觀體驗較少(積極情緒均被削弱);對負性情緒刺激更敏感,表現為對負性情緒的注意力增強,情緒反應增強(負性情緒增強);在個體差異的情況下,個體模態(正性音樂刺激或負性音樂刺激)提取的特征不準確。鑒于這些缺點,融合多種模態特征可以有效地彌補單一模態特征的不足。文中的腦電數據融合是在特征層面進行的。如圖3所示是論文采用的方法流程圖,它主要由腦電采集、預處理、特征提取、特征融合、特征選擇、和分類六個部分組成。

圖3 方法流程圖
在腦電信號采集過程中,不可避免地引入了許多噪聲。噪聲通常包括環境和設備引起的工頻噪聲和其他噪聲,如人體自身生理信號引起的心電圖(ECG)、眼電圖(EOG)、肌電圖(EMG)等。為獲得相對純的腦電數據,對原始腦電信號進行預處理。首先,工頻噪聲主要由裝置本身的電源引起,其頻率為50 Hz。在該過程中,使用50 Hz陷波濾波器以50 Hz的頻率去除信號。第二,心電由心臟的節律性操作產生,幅度較大。由于心臟位于離頭部較遠的地方,當它傳到頭皮時,心電信號大大減弱。因此,在對腦電信號進行預處理時,通常會忽略心電圖。第三是肌肉收縮產生肌電,肌電的頻率主要集中在>100 Hz的高頻段。在本研究中,EEG的頻率為0.5~ 50 Hz。因此,采用基于Blackman時間窗的有限脈沖響應濾波器去除肌電引起的高頻帶噪聲。第四,在使用額葉前EEG部位的同時不可避免地記錄EOG;而EOG的頻率為0.1~ 100 Hz,與EEG重疊。本研究采用卡爾曼濾波方法結合離散小波變換和自適應預測濾波器來估計純EOG偽跡。隨后,從原始腦電信號中去除眼部偽跡,得到相對純的腦電信號。Fz通道原始腦電信號與去除水平眼電噪聲后對比如圖4所示。圖中可以看出腦電信號經過預處理后水平眼電偽跡已經被去除。

圖4 Fz通道去除EOG前后EEG信號的比較
傳統的腦電信號分析一般由醫生根據自己的臨床經驗進行,依靠醫生的主觀判斷。因此,在診斷過程中容易忽略大量的信息。一般的腦電分析主要是線性分析,提取頻率、功率譜、峰值等一定的線性特征。然而,許多研究已經證明,腦電信號是非平穩和隨機的[8],簡單的線性分析無法提取這些信號中包含的所有信息。因此,本研究提取了預處理后腦電數據的線性和非線性特征,對腦電信號進行綜合分析。最后在全波段(0.5~ 50 Hz)、θ(4~ 8 Hz)、α(8~ 13 Hz)、β(13~ 30 Hz)、γ(30~ 50 Hz)選取腦電信號的 60個線性特征和36個非線性特征。腦電圖線性特征包括相對中心頻率、絕對中心頻率以及θ、α、β、γ波的相對功率和絕對功率,以及全波段的絕對功率、中心頻率、偏度和峰值等。腦電非線性特征包括方差、Hjorth參數、功率譜熵、Shannon熵、相關維數和全波段的C0復雜度等。
以往的研究大多以個體模態EEG數據為研究內容,通常提取靜息時的特征。如果僅以單峰方式提取特征,則采集的特征相對簡單,必然導致腦電信息不足,從而影響整體分類性能。特征融合為上述問題提供了一種解決方案,因為多種模態的特征與單個模態特征相比,可以充分描述腦電信息,從而實現特征之間的相互補充。早期的信息融合是特征融合方法的來源,將幾種不同傳感器獲得的數據進行融合研究。近年來,數據融合在目標跟蹤識別[9-10]、模式分析、分類[11]等領域得到了廣泛的應用。
一般而言,根據不同的收斂階段,在三個不同的處理級別進行數據融合:像素級、特征級和決策級。像素級融合是指對原始數據層進行融合,即在對原始信息進行預處理之前對信息進行綜合分析[12-13]。決策階段融合根據不同的特征集做出單獨的決策,然后將其協調或組合到全局決策中。特征級融合是對不同特征進行特征提取后,以線性或非線性方式組合得到新的融合特征。該方法結合了其他兩種融合方法的優點,融合后原始信息不易丟失,實時性好,有助于結果的最終分類。
在本研究中,使用了特征階段融合。首先,根據實驗范式,在3種模態(中性、負性和正性音樂刺激)中依次采集參與者的腦電數據。接下來,提取每個單獨模態下的EEG特征。特征矩陣如下所示:

其中,xpos表示正性音樂刺激模態下的特征矩陣;xneu表示中性音樂刺激模態下的特征矩陣;xneg表示負性音樂刺激模態下的特征矩陣。
然后,采用特征融合方法對3種模態的特征矩陣進行線性組合。產生的新的矩陣記作U。

式中,U1為正性-負性音樂刺激模態的特征矩陣;U2為正性-中性音樂刺激模態的特征矩陣;U3為負性-中性音樂刺激模態的特征矩陣。
最后,融合特征矩陣計算如下:

其中,β設為 1;γ 設為-1;ui、vi、ωi分別為正-負音樂刺激、正-中音樂刺激、負-中音樂刺激三種融合模態的特征值。
在統計學上,檢驗變量在兩類樣本之間是否存在顯著差異是一個經典的假設檢驗問題。常用的方法有t檢驗、秩和檢驗等。這些方法給出了反映兩種樣本之間差異的統計量和反映它們之間統計學差異的P值。從分類角度來看,兩類之間用于分類的特征明顯不同。因此,這些統計數據可用于測量功能在選擇它們時的能力。
本研究采用t檢驗作為特征選擇的方法。比較抑郁癥患者與正常對照組融合新特征的差異,選取了U1、U2、U3中p<0.05 的特征ui、vi、ωi。在融合矩陣U1中選擇的特征如下:θ波的相對功率(AF4),α波的功率譜熵,β波絕對功率、絕對中心頻率、功率譜熵(AF3),γ波的絕對中心頻率、相對中心頻率(F3,F4),全頻帶EEG的中心頻率、香農熵、相關維數和Kolmogorov熵。
U2中選擇的特征為:α波的相對功率(AF3),β波的相對中心頻率、絕對中心頻率,γ波的功率譜熵、絕對中心頻率(F3,F4),全頻帶EEG的偏度。
融合矩陣U3中選取的特征為:θ波的絕對中心頻率(AF4),γ波的相對功率(F3,F4),全頻帶EEG的偏度(AF4),全頻帶EEG的C0復雜度(AF3)。
使用了KNN、SVM和DT三種傳統分類器對特征進行分類。表1給出了文中所用的三種分類器的核心參數設置。最近鄰算法(KNN)中k值設置為3,限定半徑最近鄰算法采用的是球樹實現,距離度量參數為歐式距離。在決策樹(DT)中使用基尼系數計算不純度。支持向量機(SVM)中懲罰系數C設為1,核函數采用高斯核函數。

表1 分類算法的參數設置
表2列出單模態與融合模態在三種分類器下的分類結果,模態融合方法采用的是前文所述的線性組合公式。從表中可以看出,在單模態下平均性能最低的是中性音樂刺激,并且三種模態在不同分類器下的平均性能相差不大,然而研究表明抑郁癥患者對負性刺激更加敏感,原因在于在個體差異的情況下,個體模態提取的特征不準確。融合模態中,正性-負性音樂刺激的融合達到了最佳性能,分類性能相比于正性-中性刺激和負性-中性刺激均高出了10%左右。

表2 不同分類器在不同模態下的性能/%
表3描述了不同分類器在單個模態和融合模態的平均分類結果,結果表明,在KNN、SVM和DT這三種分類器中,KNN分類器在單個模態和融合模態中都取得了最好的性能,均達到了70%以上的準確率。

表3 單個和融合模態中每個分類器的平均性能/%
為了對分類器在不同音樂刺激下的性能進行明確的比較,圖5顯示了不同音樂刺激下單個模態和融合模態的分類性能,如圖5(a)所示,對于單個模態,從正性音樂刺激模態的特征中獲得了最佳的分類精度;圖5(b)是三種融合模態的平均分類結果,對于融合模態,正性和負性音樂刺激的融合表現最好。

圖5 不同音樂刺激下單個模態和融合模態分類器的平均值
此外,文中還比較了不同模式組合的效果。圖6顯示了不同融合模態的性能以及由它們組成的單個模態的性能。如圖所示,正負音樂刺激的融合模態比組成它的兩個單獨模態表現更好。同時,與正性-負性音樂刺激的融合模態相比,另外兩種融合模態的分類準確性沒有顯著提高。因此,根據圖5和圖6的結果,最佳的融合方法是正負音樂刺激的融合。

圖6 融合模態的性能及其組成模態
為了確定最佳的分類方式,如圖7所示,對于所有分類器來說,單個模態中的最佳抑郁識別方式是正性音樂刺激模態,平均準確率為71.08%,融合模態中的最佳識別方式是正、負音樂刺激的融合,平均準確率為76.04%。融合模態的平均精度比單個模態高5%。結果也表明,最佳個體模態為正性音樂刺激下的KNN分類器,最佳融合模態為正-負音樂刺激,分類器也為KNN,最佳融合模態的抑郁識別準確率比最佳個體模態約高12%。

圖7 最佳個體模態和最佳融合模態的準確率
正如前面所討論的,抑郁識別分析主要限于多電極腦電圖和單模態信息。單個模態特征的使用并不能很好地解決特定數據集的抑郁識別問題。與其他模態相比,對于所有分類器,正負音樂刺激的融合模態的準確性高于單個模態和其他兩種融合模態。研究發現,無論是在個體模態還是在融合模態中,KNN的分類正確率在三種分類器中最高。分類器KNN在正負音樂刺激融合模態中獲得了最佳的抑郁識別,準確率為86.98%。因此,KNN分類器在正負音樂刺激的融合中更適合區分抑郁組和正常組。
從3種模態(中性音樂刺激、負性音樂刺激和正性音樂刺激)的腦電數據出發,本研究將整個分類算法分為3個階段。在特征提取階段,對抑郁癥患者和健康者的腦電數據進行3種模態的記錄并提取腦電特征,包括線性特征,如腦電相對功率和絕對功率;非線性特征,如功率譜熵、C0-復雜度和相關維數。在特征融合階段,利用特征融合技術對不同模態下提取的腦電特征進行線性組合,采用t檢驗在線性組合特征矩陣中選擇新特征作為分類器的輸入。分類階段使用了十倍交叉驗證對KNN、DT和SVM這三種眾所周知的分類器進行了評估和比較。在比較不同融合方式中所有分類器間的分類準確率上,發現KNN分類器在正負音樂刺激的融合中表現最好,準確率最高,為86.98%。
與以往的研究相比,本研究發現了利用音樂刺激腦電數據并進行特征融合識別抑郁癥的新途徑,實現了更高分類準確性。總之,腦電信號可以成為研究抑郁癥和區分抑郁癥患者與正常對照的有用工具。