劉 一,謝 懿
(廣東技術(shù)師范學(xué)院 電子與信息學(xué)院 廣州 510665)
情感識別已逐漸成為腦電信號識別研究的重點[1-3],Petrantonakis 等[4]利用高階交叉和混合濾波的方法對前額區(qū)腦電信號用以進行情感識別研究,數(shù)據(jù)包含氣憤、高興、驚訝、恐懼、厭惡、悲傷6 種情感,識別率為84.72%.Khosrowabadi 等[5]利用自組織映射的方法對4 種情感進行情感識別,獲得較好的結(jié)果.Hosseini 等[6]提取腦電信號的近似熵特征,并以支持向量機(Support Vector Machine,SVM)進行識別,正確率達到73.25%.李昕等[7]提出了基于PCA 特征融合近似熵、小波變換特征、Hurst 指數(shù)特征方法并以SVM 識別,在8 種情感識別平均準確率在85%左右.
自回歸模型(Auto-Regressive,AR)是一種經(jīng)典的分析腦電信號方法.Zhang 等[8]從腦電信號中提取自回歸模型系數(shù)和樣本熵值作為特征向量,基于SVM 進行情感識別,結(jié)果反映自回歸模型可以有效地提高腦電信號的分類性能.Pham 等[9]利用功率譜密度和自回歸模型從腦電信號提取特征并識別,最高分類識別準確率為77.38%.Hatamikia 等[10]從腦電信號中提取自回歸模型系數(shù)作為特征向量進行情感識別,最高識別率為74.20%.與上述文獻僅使用AR模型從原始腦電信號提取AR 系數(shù)不同,本文提出了基于小波變換的AR模型提取腦電信號特征方法,不僅使用AR模型從原始腦電差分信號提取系數(shù),并從小波分量及一階差分小波分量中提取系數(shù).小波分量反映了腦電信號在不同頻段下的時頻信息,AR模型能用較少的系數(shù)反映序列豐富的譜信息,兩者之間的結(jié)合能夠結(jié)合兩種方法的優(yōu)勢.PCA 在數(shù)據(jù)分析中通常作用是壓縮數(shù)據(jù)維數(shù),而李昕等[7]使用PCA 對腦電信號的多特征起到融合作用,本文則使用PCA 過濾AR 系數(shù)中擬合誤差數(shù)據(jù).在模式識別方面中泛化性能比較好的分類器使用較多[11-15],如SVM[6,7],本文使用與SVM 一樣擁有較強泛化能力的梯度提升分類樹以實現(xiàn)情感識別.
本文算法基于小波變換、自回歸模型這兩種腦電信號分析方法提取出每種情感的腦電特征.小波變換是一種經(jīng)典時頻域腦電信號分析方法,自回歸模型能夠近似擬合真實的腦電信號,可用較少的參數(shù)反映更多的譜信息[16].本文算法從這二個不同特征提取角度出發(fā),先是利用小波變換獲取腦電信號的時頻信息,后在原始腦電信號與小波分量中使用自回歸模型,以用較少的AR 系數(shù)反映信號的譜信息以及時頻信息,最終使用PCA 對系數(shù)進行過濾.具體算法流程如圖1所示.
小波變換在眾多腦電信號分析方法中是一種經(jīng)典的時頻分析方法.其定義為:

本文使用基于db4 小波函數(shù)的四階離散小波變換.信號經(jīng)離散四階小波變換后可得:

式中,S(t)是腦電信號,i為離散小波變換的分解層數(shù),cAi、cDj,j=1,2,···,i別為低頻小波分量和不同尺度下的小波分量.

圖1 算法流程圖
AR(p,0)模型可表示為:

其中Xt是t時刻去中心化樣本值,αi是AR模型的系數(shù),δt是白噪聲序列,p為AR模型的階數(shù).本文對于AR模型的系數(shù)估計使用Yule-Walker 方法,其方法詳細過程如下:
對總體規(guī)劃方案要進行多方案比選,在優(yōu)化過程中,既要重視和論證方案的技術(shù)先進性,又要重視和論證方案的經(jīng)濟合理性,只有進行全面客觀的技術(shù)經(jīng)濟分析,才能設(shè)計出“在安全可靠的前期下,降低工程造價、縮短建設(shè)周期、降低上網(wǎng)電價”的優(yōu)秀設(shè)計方案,爭取更大的經(jīng)濟效益和社會效益。
首先設(shè)αi滿 足Yule-Walker 方程.

在工程實際應(yīng)用中,用樣本自相關(guān)函數(shù)r(k)代替總體值y(k)得到αi滿足n元方程組

式(3)中,

其中,s2為樣本方差[8].
使用Yule-Walker 估計AR 系數(shù),步驟如下:
(1)設(shè)每個通道的原始腦電信號為y(t),進行一階差分并歸一化得到Y(jié)(t).
(2)Y(t)進行小波變換,得到cA4、cD4、cD3、cD2、cD1分量.
(4)對y(t)、cA4、cD4d、cD3d、cD2d分別用30,30,20,25,30 階AR模型獲得總計135 維AR 系數(shù),則每個人14個腦電信號通道總計提取1890 維的特征數(shù)據(jù).
使用PCA 對AR 系數(shù)特征進行特征變換.
(1)假設(shè)n×m的原始特征矩陣為M,對矩陣M去中心化處理,得到矩陣M?=M-.
(2)求M?的協(xié)方差矩陣C,C=M??(M?)T.
(3)求解協(xié)方差矩陣C,從而得到矩陣C的特征根和特征向量.

(5)式中,協(xié)方差矩陣C的特征向量是U=(u1,u2,···,up),特征根矩陣A=diag(λ1,λ2,···,λp)對角矩陣,主成分方差的大小與對應(yīng)的特征根成正比.
(4)求解投影矩陣W,特征根的值反映對應(yīng)主成分所包含的信息量,其主成分的貢獻率CR定義為

則前k個主成分累積貢獻率定義為:

根據(jù)累積貢獻率的大小來確定主成分的投影矩陣W,一般而言,保留累計貢獻率大于85%的前k個主成分,因為特征根向量A是按照特征根的大小順序排列,所以投影矩陣W=(u1,u2,···,um)是矩陣U的前k個特征向量.
(6)依據(jù)矩陣M與投影矩陣W計算出原特征量在新特征空間中的低維特征量

利用PCA 方法對1890 維AR 系數(shù)特征進行特征變換,保留累積貢獻率在85%以上的主成分,所得主成分的累積貢獻率和特征根如圖2所示(以前15個特征量為例).

圖2 主成分的特征根和累積貢獻率變化
圖2中的上圖對應(yīng)主成分的累積貢獻率,可以看出,第一主成分的累積貢獻率是93.40%,但第三主成分的累積貢獻率已為98.61%.下圖是對應(yīng)主成分的特征根,可看出前三個主成分的特征根之間相差較大,相對之前的主成分而言,后面主成分的特征根很小并且之間的相差很小.一般而言,在保留累積貢獻率在85%以上的主成分的基礎(chǔ)上,結(jié)合PCA 特征變換后的新特征量選取依據(jù)是選擇特征根之間相差較大的主成分[7].本文在不同情感分類時,皆保留前三個主成分,即經(jīng)變換后特征數(shù)據(jù)總計三維.
為探究PCA 在本文算法中起到的作用,以有無使用PCA的識別平均結(jié)果作為推斷依據(jù),結(jié)果如表1所示.由表1 可知,未使用PCA的識別結(jié)果僅有50.89%,而使用后準確率有明顯提高.因為AR模型是對腦電信號序列進行擬合,由于模型擬合具有一定的誤差,14個通道的信號擬合誤差的疊加將會導(dǎo)致AR 系數(shù)特征數(shù)據(jù)中含有較多的冗余及錯誤信息,將會導(dǎo)致分類精度的下降.PCA 通常作用是能夠壓縮數(shù)據(jù)維數(shù),而在本算法中PCA 起到過濾AR 系數(shù)特征中的冗余及錯誤信息的作用.

表1 8 種情感兩兩分類識別結(jié)果(%)
采用由Koelstra 等[17]提出的分析人類情感狀態(tài)的多模態(tài)數(shù)據(jù)庫DEAP.該數(shù)據(jù)庫記錄了32 位健康受測試者觀看40個時長為1 分鐘的不同音樂視頻(MV)時的腦電信號和外周生理信號.受試者的平均年齡為26.9 歲,男女各半.每位觀看MV的受測試者所采集到的腦電信號數(shù)據(jù)格式為40×40×8064,采樣頻率為128 Hz,其中第一個40 代表MV 編號,第二個40 代表采集腦電信號的常用通道,8064 是指每通道腦電信號所含數(shù)據(jù)點數(shù)量.按照國際標準10-20 系統(tǒng),分別提取前額區(qū)(FP1、FP2)、額區(qū)(F3、F4、F7、F8)、中央(C3、C4)、顳區(qū)(T7、T8)、頂區(qū)(P3、P4)和枕區(qū)(O1、O2)的通道數(shù)據(jù).本文從數(shù)據(jù)庫中選取8 種常見的情感:高興、激動、歡樂、喜愛、憎恨、抑郁、難過、恐懼[5],所選取的腦電信號數(shù)據(jù)截取時間長度為24 s,即3072個數(shù)據(jù)點,則每種情感有32個數(shù)據(jù)段,即32個樣本.
為了防止因為數(shù)據(jù)選取位置不同而造成的偶然結(jié)果.本文隨機選取8 段不同位置的數(shù)據(jù),評估任務(wù)為八種情感兩兩分類,得到平均分類精度以及平均標準差,其結(jié)果如表2所示.結(jié)果反映了不同位置的數(shù)據(jù)的識別結(jié)果具有差異,原因是不同位置數(shù)據(jù)段所含有情感的信息量不同.在8 次識別結(jié)果中,最低平均準確率為91.93%,最高96.13%,總體平均準確率為94.44%,其結(jié)果表明在數(shù)據(jù)選取方面上本算法泛化能力良好.下文以對于識別的詳細結(jié)果以及分析使用7 號數(shù)據(jù)段作為討論對象以及本實驗仿真使用的平臺是Anconda3-5.0.1.

表2 不同選取位置的數(shù)據(jù)段的八種情感識別結(jié)果(%)
以八種情緒兩兩之間的分類任務(wù),用10 折交叉驗證法的平均準確率作為算法評估,如表3所示;取10 折交叉驗證所得的平均標準差作為模型的泛化能力評估,如表4所示.從表3中可知,最低分類精度為82.50%,最高分類精度為98.75%,平均分類精度為95.76%.從表4中可以看出,最高標準差為11.90%,最低標準差為3.75%.平均標準差為6.82%.結(jié)合表3 與表4 數(shù)據(jù),發(fā)現(xiàn)較多情感分類任務(wù)不僅識別結(jié)果較好,且標準差低,反映模型在分類任務(wù)的泛化能力良好.因為與文獻[7]的使用相同的情感數(shù)據(jù)庫DEAP,且情感選取類別及分類任務(wù)相同,因此本文選取文獻[7]進行算法橫向?qū)Ρ?文獻[7]使用了基于PCA 方法融合近似熵、小波變換特征和Hurst 指數(shù)三種特征算法.結(jié)果如表5所示.文獻[7]結(jié)果中最低分類精度為77.45%,最高分類精度為91.47%.平均分類精度為85%左右.對比表3 和表5 數(shù)據(jù),本文的算法的總體分類精度高于文獻[7]算法,識別結(jié)果提高10.76%.

表3 8 種情感兩兩分類的識別結(jié)果(%)

表4 8 種情感兩兩分類的識別結(jié)果標準差(%)

表5 采用文獻[7]方法時,8 種情感兩兩分類的識別結(jié)果(%)
本文算法雖使用了PCA、離散小波變換與AR模型這些經(jīng)典腦電信號分析方法提取情感腦電信號特征,但本文利用AR模型將小波分量和腦電信號的變化情況作為特征提取重點,而不僅僅從原始腦電信號提取系數(shù);PCA 在本文方法中作用亦不是壓縮數(shù)據(jù)維數(shù),而是與AR模型搭配,從而過濾特征中的冗余及信息.腦電信號與小波分量的差分序列反應(yīng)不同尺度下的情緒劇烈程度,而AR模型因為其擬合誤差的原因,如果能夠?qū)⑾禂?shù)中的錯誤信息過濾,則系數(shù)能夠有效的從腦電信號與小波分量的差分序列中提取特征.結(jié)果表明PCA 能夠過濾系數(shù)中的擬合誤差信息,使得AR模型能夠作為有效提取情感腦電信號特征的一種方法.