陳玲玲,畢曉君
(1.哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001;2.中央民族大學(xué) 信息工程學(xué)院,北京 100081)
睡眠分期是睡眠監(jiān)測(cè)領(lǐng)域的一項(xiàng)基礎(chǔ)研究,通過對(duì)睡眠時(shí)期進(jìn)行劃分,可以幫助醫(yī)學(xué)專家更好地認(rèn)識(shí)睡眠結(jié)構(gòu),并為失眠、嗜睡等相關(guān)睡眠疾病的診斷與治療提供依據(jù)。AASM 標(biāo)準(zhǔn)[1]指出,睡眠可分為清醒期(wake,W)、非快速動(dòng)眼期(non-rapid eye movements,NREM)和快速動(dòng)眼期(rapid eye movements,REM)。NREM 又被細(xì)分為N1、N2、N3 期[2]。而睡眠多導(dǎo)圖(polysomnogram,PSG)被稱為睡眠分期的“黃金標(biāo)準(zhǔn)”,其包含睡眠過程中腦電(electroencephalogram,EEG)、眼電(electrooculogram,EOG)、肌電(electromyography,EMG)等信號(hào)的記錄。通過綜合分析睡眠多導(dǎo)圖中的各模態(tài)信息,能實(shí)現(xiàn)睡眠階段的劃分[1],但耗費(fèi)了睡眠專家大量時(shí)間和精力,因此睡眠多導(dǎo)圖的分期任務(wù)成為了熱點(diǎn)問題[3]。
通過非線性時(shí)域、頻域分析等操作可實(shí)現(xiàn)睡眠PSG 特征的提取[4],利用支持向量機(jī)等技術(shù)進(jìn)行分類,但易出現(xiàn)錯(cuò)分,且模型泛化能力不高[5]。近年來深度學(xué)習(xí)在圖像領(lǐng)域取得突破性進(jìn)展,結(jié)合深度學(xué)習(xí)利用睡眠PSG 進(jìn)行睡眠分期研究逐漸成為研究的熱點(diǎn)。一些在圖像領(lǐng)域取得顯著效果的模型如VGG[6]、ResNet[7]、膨脹卷積[8]、深度可分離卷積[9]等都被應(yīng)用到睡眠分期中,取得了較好的效果。但是,由于輸入模態(tài)的多樣性與差異性,如何實(shí)現(xiàn)多模態(tài)信息的有機(jī)融合成為亟待解決的問題。目前睡眠分期領(lǐng)域最常用的模態(tài)融合方法分別是從數(shù)據(jù)[10-14]和特征[15]兩個(gè)角度進(jìn)行融合。Phan 等[10]從數(shù)據(jù)融合的角度,將PSG經(jīng)短時(shí)傅里葉變換為含EEG、EOG 信息的多通道時(shí)頻圖,然后利用2 維卷積神經(jīng)網(wǎng)絡(luò)提取時(shí)不變特征。除此之外,小波變化[11]、希爾伯特變換[12]等方法也被應(yīng)用到了睡眠分期中。這種方法雖然綜合考慮了多模態(tài)的信息,但是轉(zhuǎn)換為時(shí)頻圖時(shí)會(huì)丟失關(guān)鍵的時(shí)域信息[13]。隨后,從特征角度進(jìn)行融合的方法成為主流,其中代表性的有Duan等[15]利用卷積神經(jīng)網(wǎng)絡(luò)提取各個(gè)模態(tài)的時(shí)不變特征,利用多模態(tài)聯(lián)合網(wǎng)絡(luò)實(shí)現(xiàn)睡眠分期。
雖然從特征角度進(jìn)行模態(tài)融合的實(shí)驗(yàn)效果優(yōu)于從數(shù)據(jù)角度融合,但是沒有充分考慮各模態(tài)在不同時(shí)期的差異性,而主要依據(jù)了EEG 特征,例如在REM 期會(huì)出現(xiàn)明顯的眼球運(yùn)動(dòng),EOG 信號(hào)更為重要。
本文針對(duì)睡眠PSG 中各模態(tài)特征存在差異性導(dǎo)致的特征融合不充分的問題,主要進(jìn)行了如下工作:
1)設(shè)計(jì)了一種基于通道注意力機(jī)制的睡眠PSG 的不變提取特征網(wǎng)絡(luò),根據(jù)各通道特征的重要性對(duì)模態(tài)特征進(jìn)行重標(biāo)定,得到睡眠多導(dǎo)圖的時(shí)不變特征;
2)設(shè)計(jì)了一種基于自適應(yīng)門控機(jī)制的多模態(tài)門控模塊,對(duì)各模態(tài)特征及時(shí)不變特征按照重要性程度進(jìn)行加權(quán)融合;
3)利用睡眠分期最常用的Sleep-EDF 數(shù)據(jù)集的多導(dǎo)圖數(shù)據(jù)設(shè)計(jì)20 折交叉驗(yàn)證實(shí)驗(yàn),通過與對(duì)比算法比較,證明了算法具有一定的有效性和先進(jìn)性。
基于通道注意力機(jī)制和多模態(tài)門控機(jī)制的睡眠分期模型如圖1 所示,首先利用各模態(tài)特征提取網(wǎng)絡(luò)分別提取不同模態(tài)的高維特征,并利用通道注意力機(jī)制對(duì)在通道維度上拼接的各模態(tài)高維特征進(jìn)行重標(biāo)定,得到睡眠多導(dǎo)圖的時(shí)不變特征,然后設(shè)計(jì)多模態(tài)門控模塊實(shí)現(xiàn)不同模態(tài)特征的融合,得到能充分表征各模態(tài)信息的融合特征,最后,將其輸入到時(shí)序特征提取網(wǎng)絡(luò)中,提取信號(hào)的時(shí)序特征。下面將詳細(xì)介紹本文所設(shè)計(jì)的模型框架。

圖1 基于多模態(tài)融合的睡眠分期網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of sleep staging based on multimodal fusion
針對(duì)PSG 中各模態(tài)信號(hào)中含有噪聲的問題,本文首先利用殘差收縮網(wǎng)絡(luò)設(shè)計(jì)各個(gè)模態(tài)的特征提取網(wǎng)絡(luò),然后利用通道注意力機(jī)制學(xué)習(xí)不同模態(tài)特征間的相關(guān)性,進(jìn)而得到睡眠多導(dǎo)圖的時(shí)不變特征,本文采用的時(shí)不變特征提取網(wǎng)絡(luò)如圖2所示。

圖2 時(shí)不變特征提取網(wǎng)絡(luò)Fig.2 Architecture of time-invariant feature extraction
首先利用各模態(tài)特征提取網(wǎng)絡(luò)分別提取不同模態(tài)的高維特征,分別將每個(gè)模態(tài)信息輸入到卷積尺度為30,步長為6 的1 維卷積提取原始信號(hào)的低維特征。然后利用2 個(gè)并行的最大池化層實(shí)現(xiàn)下采樣,提取不同尺度的關(guān)鍵信息。
利用殘差收縮網(wǎng)絡(luò)去除融合特征的冗余信息[16],殘差收縮網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,進(jìn)而得到每個(gè)模態(tài)信息的高維抽象特征。

圖3 殘差收縮網(wǎng)絡(luò)Fig.3 Residual shrinkage network
由圖3 可知,殘差收縮網(wǎng)絡(luò)由ResNet 網(wǎng)絡(luò)(residual neural network)、閾值學(xué)習(xí)網(wǎng)絡(luò)和軟閾值化函數(shù)組成。利用ResNet 學(xué)習(xí)抽象特征表示,然后通過閾值學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)反映信息重要程度的閾值,其中閾值學(xué)習(xí)網(wǎng)絡(luò)的表達(dá)式為

式中 α表示由全連接層和Sigmoid 函數(shù)得到的權(quán)值。通過閾值學(xué)習(xí)網(wǎng)絡(luò)可以確保 τ是一個(gè)很小的正實(shí)數(shù)。然后利用軟閾值化函數(shù)將特征中不重要的信息置為0,其中軟閾值化函數(shù)是小波降噪算法中的核心步驟,其表達(dá)式為

通過軟閾值化函數(shù)的引入,可以有效地增強(qiáng)有效的信息,抑制冗余的信息,進(jìn)而消除信號(hào)中噪聲的影響,得到高效的各模態(tài)抽象特征表示。
將各模態(tài)的抽象特征在通道維度上進(jìn)行拼接,如式(3)所示,得到初步融合特征。

式中:ZF,ZP,ZO,ZM∈Rl×C,代表各個(gè)模態(tài)特征,l為特征圖的尺度,C為輸出濾波器的個(gè)數(shù);Z代表拼接特征,Z∈Rl×nC,n代表模態(tài)的個(gè)數(shù)。
隨后利用通道注意力機(jī)制學(xué)習(xí)不同通道特征間的相關(guān)性。本文利用SE-ResNeXt 模塊[17]根據(jù)不同通道特征重要程度對(duì)特征進(jìn)行整合。其中,SE-ResNeXt 由ResNeXt 和SENet (squeeze and excitation network)兩部分組成,如圖4 所示。殘差網(wǎng)絡(luò)通過增加模型深度和寬度來提高特征提取的質(zhì)量,但會(huì)造成模型參數(shù)量增加、計(jì)算開銷增加的問題,ResNet 在此基礎(chǔ)上引入了基數(shù)的超參數(shù),即卷積支路的個(gè)數(shù)。通過增加基數(shù),在不增加網(wǎng)絡(luò)參數(shù)量的前提下有效提高了模型的特征提取能力。

圖4 SE-ResNeXt 結(jié)構(gòu)Fig.4 Architecture of SE-ResNeXt
SENet 通過自適應(yīng)獲得各個(gè)通道特征的重要程度,對(duì)輸出特征進(jìn)行重標(biāo)定,進(jìn)而提升有用的通道特征,抑制重要程度低的特征。圖中l(wèi)為特征圖尺度,c為通道數(shù),ratio 為特征維度縮放比。SENet 分別經(jīng)過壓縮和激勵(lì)變換,建模各通道特征的重要權(quán)重,最后各通道特征逐點(diǎn)相乘的操作將歸一化的權(quán)重加權(quán)到輸入特征中,得到含通道重要程度的特征向量。式(4)~(6)分別給出了壓縮、激勵(lì)、加權(quán)的公式。

式中:W1和W2分別代表兩個(gè)全連接層的權(quán)重;δ代表ReLu 函數(shù);σ代表Sigmoid 函數(shù);Fsq、Fex、Fscale分別代表壓縮、激勵(lì)和尺度變換的效果。
多模態(tài)學(xué)習(xí)中模態(tài)融合對(duì)模型性能有很大的影響,為了充分發(fā)揮不同模態(tài)間的差異性[18],本文模擬人工判讀以關(guān)鍵信號(hào)為主,其他信號(hào)為輔的判讀模式,引入了多模態(tài)門控模塊,建模各個(gè)模態(tài)特征對(duì)于睡眠分期任務(wù)的重要程度,通過自適應(yīng)門控機(jī)制[19]對(duì)不同模態(tài)特征按照重要程度進(jìn)行加權(quán),根據(jù)不同模態(tài)特征的組合自適應(yīng)地找到更適合睡眠分期任務(wù)的特征表示。設(shè)計(jì)的多模態(tài)門控模塊如圖5 所示。圖中Zv為睡眠多導(dǎo)圖的時(shí)不變特征,ZF、ZP、ZO、ZM分別為各模態(tài)高維抽象特征表示。

圖5 多模態(tài)門控模塊Fig.5 Multimodal gating module
將睡眠多導(dǎo)圖的時(shí)不變特征分別首先經(jīng)過全局平均池化層得到全局信息,然后經(jīng)過兩層全連接層和Sigmoid 函數(shù)增加特征的非線性,通過式(7)~(10)分別學(xué)習(xí)各個(gè)模態(tài)特征的權(quán)重,然后通過式(11)得到輸出特征的最優(yōu)組合,尋找對(duì)于輸出貢獻(xiàn)度最大的各個(gè)模態(tài)的特征組合,進(jìn)而得到更豐富的融合特征表示。


睡眠PSG 是一種時(shí)序信號(hào),相鄰樣本間具有時(shí)序相關(guān)性。在對(duì)t時(shí)刻的樣本進(jìn)行分期時(shí),可以利用t-1 和t+1 時(shí)刻的特征或分期結(jié)果輔助進(jìn)行t時(shí)刻樣本階段的分類。
本文利用雙向長短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM)[20]設(shè)計(jì)時(shí)序特征提取網(wǎng)絡(luò)。與長短時(shí)記憶網(wǎng)絡(luò)只能學(xué)習(xí)序列前向傳播規(guī)律不同的是Bi-LSTM 分別由一個(gè)前向傳播和一個(gè)反向傳播的LSTM 組成,保證了時(shí)序特征提取網(wǎng)絡(luò)既可以學(xué)習(xí)前向傳播規(guī)律,還可以學(xué)習(xí)序列的反向傳播規(guī)律。最后將Bi-LSTM 學(xué)習(xí)到的時(shí)序特征與多模態(tài)特征進(jìn)行融合得到睡眠PSG 的時(shí)序特征,得到的時(shí)序特征表達(dá)式為

為了驗(yàn)證本文創(chuàng)新工作的有效性和先進(jìn)性,進(jìn)行了3 個(gè)方面的實(shí)驗(yàn):1)分別利用PSG 中不同的模態(tài)組合設(shè)置相關(guān)實(shí)驗(yàn),進(jìn)而驗(yàn)證本文利用多模態(tài)信號(hào)進(jìn)行睡眠分期的有效性,并且得到最優(yōu)的模態(tài)組合;2)設(shè)計(jì)不同初步融合方式的對(duì)比實(shí)驗(yàn),驗(yàn)證本文采用SE-ResNeXt 進(jìn)行特征重標(biāo)定的有效性;3)將本文提出的MSN 算法與4 種先進(jìn)的方法進(jìn)行對(duì)比,驗(yàn)證本文算法的先進(jìn)性。
利用Sleep-EDF 數(shù)據(jù)集[21]設(shè)計(jì)相關(guān)的實(shí)驗(yàn)共包括39 個(gè)完整夜晚的PSG 記錄。每個(gè)PSG 包含個(gè)兩模態(tài)的EEG,分別是Fpz-Cz 和Pz-Cz,一個(gè)模態(tài)的EOG 和一個(gè)模態(tài)的EMG[22]。每個(gè)樣本都已由睡眠專家標(biāo)記為W、N1、N2、N3、N4、REM,根據(jù)AASM 標(biāo)準(zhǔn)將N3 和N4 合并為N3。最后,W、N1、N2、N3、REM 各個(gè)類別的樣本量分別為7 927、2 804、17 799、5 703、7 717,共41 950 個(gè)樣本。
本文所有實(shí)驗(yàn)均是在64 位的Ubuntu16.04 系統(tǒng)中進(jìn)行,采用的深度學(xué)習(xí)框架為tensorflow 1.14.0,在訓(xùn)練過程中利用GeForce RTX 980Ti 顯卡進(jìn)行加速,并且采用python3.5 編程語言完成代碼的編寫。
優(yōu)化過程中采用Adam 函數(shù),學(xué)習(xí)率設(shè)為0.001,序列學(xué)習(xí)過程中batch size 為25,子序列長度為10,ResNeXt 中的基數(shù)設(shè)置為8,ratio 設(shè)置為4。利用丟失率為0.5 dropout 層來防止過擬合。進(jìn)行20折交叉驗(yàn)證,按19∶1 劃分訓(xùn)練集和驗(yàn)證集。
采用分?jǐn)?shù)(macro-averagingF1-score,)、整體準(zhǔn)確率(overall-accuracy,ACC)作為評(píng)價(jià)指標(biāo),具體公式為

式中:N代表樣本總數(shù);C代表類別總數(shù);代表類別i的F1分?jǐn)?shù),即

由于EEG 是睡眠分期的主要判讀依據(jù),在驗(yàn)證利用多模態(tài)信息有效性時(shí)選擇在EEG 的基礎(chǔ)上加入不同模態(tài)的數(shù)據(jù),驗(yàn)證不同模態(tài)數(shù)據(jù)對(duì)睡眠分期的影響。得到的結(jié)果如表1 所示,表中1 代表兩個(gè)模態(tài)的EEG 組合,2 代表兩個(gè)模態(tài)EEG 加EOG 的組合,3 代表兩個(gè)模態(tài)EEG 加EOG 加EMG 的組合。

表1 多模態(tài)信息有效性驗(yàn)證Table 1 Verification of the multimodal information %
從表1 中可以看出,僅用兩模態(tài)EEG 進(jìn)行睡眠研究時(shí)平均準(zhǔn)確率為86.1%,為80.3%,但是當(dāng)加入眼電信號(hào)后平均準(zhǔn)確率達(dá)到了87.3%,相較于僅利用腦電信號(hào)提高了1.4%,達(dá)到了81.4%,提高了1.4%。并且由于快速眼動(dòng)是REM 期的典型特征,在加入眼電信號(hào)后,REM 期的F1有了較大的提升,提升了2.0%,同時(shí)對(duì)于W 期、N1 期、N2期也有了一定的提升,說明眼電的加入可以有效地豐富信息特征,增強(qiáng)模型對(duì)于睡眠各階段的識(shí)別能力。在腦電、眼電信號(hào)的基礎(chǔ)上加入肌電后,平均準(zhǔn)確率達(dá)到了87.6%,與利用腦電和眼電相比提升了0.3%,達(dá)到了82%,提升了0.7%,說明肌電信號(hào)的加入進(jìn)一步豐富了信息特征,可以讓網(wǎng)絡(luò)模型學(xué)習(xí)到更豐富的分期特征,特別是肌肉運(yùn)動(dòng)明顯的時(shí)期如W 和N1 期的識(shí)別精度有了明顯的提升,其中W 期的F1提升了1.3%,N1 期的F1提升了2.8%,說明肌電信號(hào)的加入有效地增大了W、N1 期與其他類別的階段差異性,進(jìn)而提高了網(wǎng)絡(luò)模型的分期性能。綜上證明了同時(shí)利用EEG、EOG、EMG 可以得到更好的睡眠分期結(jié)果。
本文將各模態(tài)特征在通道維度上進(jìn)行拼接,然后利用通道注意力機(jī)制對(duì)拼接特征進(jìn)行重標(biāo)定的方式實(shí)現(xiàn)各模態(tài)的初步融合,為了進(jìn)一步驗(yàn)證該方法的有效性,分別與逐點(diǎn)相加、通道拼接的特征融合方式進(jìn)行對(duì)比,表2 分別給出了不同融合方式得到的分期結(jié)果。從表2 中可以看出,采用各通道特征逐點(diǎn)相加進(jìn)行特征融合的整體準(zhǔn)確率為86.4%,為80.4%,但是將特征融合的方式變?yōu)樵谕ǖ谰S度上拼接后,準(zhǔn)確率提高了0.5%,提高了1.1%,證明利用在通道維度上拼接的方式能夠更好地利用不同特征之間的差異性,進(jìn)而得到更充分的初步融合特征。隨后加入通道注意力機(jī)制后準(zhǔn)確率提高了0.9%,提高了0.8%,并且各個(gè)類別的F1都有了一定的提高,進(jìn)而證明了本文采用SE-ResNeXt 對(duì)特征按照通道重要性權(quán)重進(jìn)行重標(biāo)定,能夠讓特征融合得更充分,進(jìn)而驗(yàn)證了本文采用通道維度拼接和SE-ResNeXt 對(duì)特征進(jìn)行初步融合的有效性。

表2 特征融合方式有效性驗(yàn)證Table 2 Verification of modal fusion %
為了驗(yàn)證本文算法的先進(jìn)性與目前4 種先進(jìn)的算法進(jìn)行對(duì)比,表3 給出了對(duì)比結(jié)果。

表3 算法先進(jìn)性驗(yàn)證Table 3 Verification of algorithm advancement %
從表3 中可以看出,本文提出的模型的平均準(zhǔn)確率為87.6%,為82.0%,均高于目前先進(jìn)的對(duì)比算法,并且除N1 期外,各個(gè)類別的F1分?jǐn)?shù)均取得了最優(yōu)的水平,證明本文算法能夠充分學(xué)習(xí)不同睡眠階段的特征,取得了優(yōu)異的睡眠分期性能,進(jìn)而證明了本文算法的先進(jìn)性。
采用混淆矩陣對(duì)本文提出的算法進(jìn)行可視化操作。圖6 給出了本文算法利用兩個(gè)模態(tài)EEG、一個(gè)模態(tài)EOG 和一個(gè)模態(tài)EMG 達(dá)到的最好分類效果時(shí)的混淆矩陣。圖中每一行代表實(shí)際標(biāo)簽為該類別的樣本數(shù),每一列代表預(yù)測(cè)為該類別的樣本數(shù),并且顏色越深代表預(yù)測(cè)為該類別的樣本數(shù)越多。從混淆矩陣中可以看出,本文利用所提出的多模態(tài)融合的方法進(jìn)行睡眠分期研究,大多數(shù)樣本都能被正確分類,并且主要的錯(cuò)分出現(xiàn)在相鄰階段的樣本中,這主要是因?yàn)檗D(zhuǎn)換階段的樣本特征中存在一定的中和,甚至睡眠專家也無法對(duì)轉(zhuǎn)換期的樣本進(jìn)行正確分類,導(dǎo)致模型學(xué)到的轉(zhuǎn)換期特征邊界較模糊,進(jìn)而造成了錯(cuò)分主要出現(xiàn)在相鄰階段轉(zhuǎn)換期的樣本。由于睡眠本身的特征,N1 期存在時(shí)間短于其他時(shí)期,樣本量較小,所以N1 期的F1低于其他類別。

圖6 混淆矩陣Fig.6 Confusion matrix
本文為了充分利用睡眠PSG 中各模態(tài)信息,利用通道注意力機(jī)制和多模態(tài)門控機(jī)制設(shè)計(jì)了基于多模態(tài)融合的睡眠分期模型。首先利用殘差收縮網(wǎng)絡(luò)設(shè)計(jì)各模態(tài)特征提取網(wǎng)絡(luò)提取各個(gè)模態(tài)的高維特征,并將各個(gè)模態(tài)的高維特征在通道維度上進(jìn)行融合得到初步融合特征,然后利用SE-Res-NeXt 根據(jù)各通道信息的重要性程度對(duì)特征進(jìn)行重標(biāo)定,得到睡眠多導(dǎo)圖的時(shí)不變特征。然后輸入到多模態(tài)門控模塊中,利用全連接層和非線性函數(shù),學(xué)習(xí)各個(gè)模態(tài)信息的重要性程度,結(jié)合乘法門對(duì)各模態(tài)特征進(jìn)行加權(quán),進(jìn)而找到能充分表示各模態(tài)信息的最優(yōu)組合。隨后,利用Bi-LSTM提取相鄰樣本間的時(shí)序相關(guān)性。本文利用Sleep-EDF 中的Fpz-Cz、Pz-Oz、EOG、EMG 模態(tài)信息進(jìn)行了二十折交叉驗(yàn)證實(shí)驗(yàn),并通過與目前先進(jìn)的4 種對(duì)比算法進(jìn)行比較,本文提出的算法無論是整體準(zhǔn)確率還是均高于對(duì)比算法,進(jìn)而證明了本文算法的有效性和先進(jìn)性。