張金輝,鄭宇博,羅瑩瑩,鄒冰,央妮,李蕾
1. 解放軍總醫院服務保障中心 裝備保障室,北京 100853;2. 北京郵電大學 人工智能學院,北京 100876
睡眠是人類非常重要的生理活動,睡眠質量與人類身體健康直接相關[1]。根據美國睡眠醫學會(American Academy of Sleep Medicine,AASM)分類標準,將人的睡眠劃分為W、N1、N2、N3 和快速眼動期(Rapid Eyes Movement,REM)這5 個階段,不同的睡眠階段中腦電信號(Electroencephalogram,EEG)呈現出不同的節律[2-3]。通常選用大腦中心部(C 區)、枕部(O 區)、前額部(FP 區)采集的腦電信號來判斷睡眠階段。但基于腦電信號進行人工睡眠分期需要豐富的經驗且極其耗時。借助人工智能技術進行睡眠分期有助于提升效率,近年來已成為人工智能算法的研究熱點。
傳統的睡眠特征主要有時域、頻域、標準差、中位數等,因此實現睡眠分期主要有兩種思路:一種是基于特征提取的分期方法,設計算法從原始數據提取特征,再通過特定的分類器進行分類,如Phan 等[4]從多通道信號中提取時頻分布特征;Chen 等[5]基于多模態數據融合,特征融合實現睡眠分期。以上方法在其數據集上均達到了約81%的準確率,但由于需要具備專業的先驗知識進行特征提取,模型可遷移性較差,且非端到端的學習受主觀的影響較大。另一種是基于深度學習進行睡眠分期[6],如Supratak 等[7]基于單通道EEG 信號提出了一種深度學習模式,并命名為DeepSleepNet,其主要采用卷積神經網絡(Convolutional Neural Networks,CNN)提取特征,長短期記憶網絡(Long Short Term,LSTM)進行序列的學習,相較于人工提取特征方法的準確率提升了3%;Dong 等[8]提出了循環神經網絡+LSTM 的混合網絡;Eldele 等[9]利用多頭注意力機制捕獲分支卷積后的特征之間的時間依賴關系;馬家睿等[10]通過隱馬爾科夫模型狀態轉移規則優化提高使用CNN 網絡的睡眠分期的準確率;Sun 等[11]基于多模態生理信號進行睡眠分期研究。雖然基于深度學習的方法不需要設計算法提取特征,也不需要依賴專業知識,且應用前景廣闊,然而,這些深度學習方法采用的數據集多為單通道或雙通道數據,易使研究人員設計神經網絡模型時忽略了多通道EEG 之間的空間關聯性,缺乏對多通道EEG 數據的有效利用。
本研究基于深度學習方法,提出基于注意力的多通道EEG 融合睡眠分期方法(Attention Based Multi-Channel EEG Sleep Net,AMCSleepNet),通過多分支卷積網絡提取EEG 的時頻特征。與單通道模型不同,AMCSleepNet 關注睡眠EEG 樣本的多通道的結構,通過壓縮聚合(Squeeze and Excitation,SE)模塊[12]融合不同通道的時頻特征,該方法結合Transformer 思想來替換LSTM 方案,通過多頭注意力挖掘特征的時間前后相關性,減少了模型訓練時間,相較于單通道模型和多通道深度卷積模型,可提升臨床數據的利用率和睡眠分期的準確率。
AMCSleepNet 的整體架構如圖1 所示,主要分為特征提取模塊、特征融合模塊、Transformer 編碼器和分類模塊4 個部分。提取過程如下:① 特征提取模塊中的多分支卷積網絡采用不同尺度的卷積,對EEG 各通道分別提取時頻域特征;② 特征融合模塊通過SE 和殘差層(Residual Layer)將不同通道的特征進行融合和選擇;③ 利用Transformer 編碼器,捕捉特征的時間前后關系;④ 在分類模塊中,全連接網絡和softmax 層將特征轉換為概率向量,得到最終的睡眠分期結果。特征提取和特征融合模塊的具體操作如下。
不同睡眠階段采集的EEG 信號能量集中在不同的頻率范圍。研究表明,小尺度的卷積核能捕捉一定的時域特征,大尺度的卷積核能捕捉頻域的特征,并且卷積核越大,對應的特征頻率越低;卷積核越小,對應的特征頻率越高。因此,模型第一部分是輸入的EEG 通道,分支卷積網絡的結構如圖1 所示。兩個分支均有3 個卷積層,且第一層卷積核大小不同。由于EEG 數據的采樣率為100 Hz,長度為50 個采樣點的小尺度卷積核對應0.5 s 的樣本數據,因此可以捕捉2 Hz 正弦信號的整個周期。同樣,長度為400采樣點的大尺度卷積核對應4 s 的樣本數據,可以捕捉到0.25 Hz 正弦信號的完整周期。以此提取EEG 信號不同頻率范圍的特征,其后兩層卷積用以提取更多特征信息。使用Dropout 層和最大值池化防止過擬合。每一個卷積層計算后均進行批量歸一化,并通過高斯誤差線性單位(Gaussian Error Linear Units,GELU)激活函數[13]進行非線性運算。GELU 是非初等函數的激活函數,為提升神經網絡的訓練速度,根據公式(1)近似為初等函數,式中變量x為經過每一個批量歸一化層得到的中間特征如圖1 所示。


圖1 基于注意力的多通道EEG融合睡眠分期方法AMCSleepNet的整體架構
由于特征提取模塊已經得到來自不同通道的EEG 時頻特征,因此AMCSleepNet 的特征融合網絡主要解決各通道的特征融合問題,其結構如圖1 所示。特征融合模塊主要有壓縮、聚合、重構3 部分。設輸入特征融合網絡的特征為FC×N×d,C為通道數,N,d為每個分支卷積網絡輸出特征的數量和特征的長度。采用卷積和全局平均值池化方法,將輸入的多通道特征矩陣壓縮成一維向量s={s1,s2,…sN}。然后利用兩個全連接層和sigmoid 函數將s轉換為權重eN×d。最后通過F和e點積重新構造多通道的特征矩陣F’N×d,作為下一模塊的輸入。
Transformer 編碼器是Transformer 模型中的重要組成部分,包括多頭注意力、求和與歸一化層、前饋網絡與殘差連接,其結構如圖1 所示。該編碼器能夠有效捕捉特征的時間相關信息,被廣泛應用于機器翻譯[14]、自然語言處理[15]、計算機視覺[16-18]等領域。
在編碼器中,多頭注意力網絡是第一個單元,其結構如圖2 所示。設輸入的特征為X={x1,…xN}N×d,X在d維度上被分為h個子空間,對應h個頭部。根據公式(2)[14],對每個子空間Xi,分別乘以WQ、Wk和WV,得到圖2 中的Qi、Ki和Vi。其中,將注意力矩陣轉化為標準正態分布,softman( )用于計算Vi的權重。將各個子空間的注意力拼接,得到多頭注意力MA,如公式(3)所示。


圖2 Transformer編碼器的多頭注意力結構
采用求和與歸一化層以殘差連接的方式,將網絡的輸入與多頭注意力網絡的輸出相加,避免深層網絡的梯度消失。在前饋網絡中,使用兩層線性全連接和線性整流函數(Linear Rectification Function,RELU)進一步深化模型。
本研究使用的睡眠EEG 數據來自2021 全國智能睡眠科學大賽提供的6 名受試者的睡眠數據。其中包含3 名兒童睡眠數據和3 名成人睡眠數據,共6237 個樣本。每個樣本包含30 s 的多通道EEG 信號。取兒童樣本和成人樣本共有的4 個EEG 通道:F3-M2、F4-M1、C3-M2、C4-M1,并下采樣至100 Hz。睡眠分期結果由專家按照AASM 標準進行標注,并作為標簽來評估模型。受試者樣本數量分布如表1 所示。

表1 受試者睡眠樣本分布
單通道模型性能突出的AttnSleepNet 利用并行CNN 架構提取單通道EEG 信號的特征,并利用因果卷積和時間前后文編碼來捕捉時間相關性[9]。EEGNet[19]利用深度卷積和可分離卷積提取EEG 特征,從而能對多通道EEG 信號進行分析。由于缺少多通道睡眠分期模型作為對比方案,本研究將EEGNet 特征提取模塊的卷積核進行調整,改造成適用于多通道的睡眠分期模型EEGNet-Sleep[20]。
采用留一法開展實驗:選取1 名受試者整晚的睡眠(0:00—8:00)數據作為測試集,其他受試者的睡眠數據作為訓練集。對于多通道模型,將多個EEG 通道共同輸入網絡進行訓練,計算其準確率、訓練時間、內存消耗等性能指標,根據這些性能指標選擇神經網絡超參數。選擇自適應矩估計(Adaptive Momentum Estimation,Adam)作為優化器,學習率設置為5e-5,每次訓練的batch size 大小設置為256,訓練500 輪。以準確率作為性能評估的標準,如公式(4)所示。

其中,TP為正確預測類別的個數,FN為預測錯誤的個數,i∈{W,N1,N2,N3,REM}。
單通道模型無法處理多通道數據,而多通道模型能夠向下兼容,因此首先將AMCSleepNet 的通道數設為1,在數據集的每個EEG 通道分別訓練網絡并進行對比,不同通道睡眠分期準確率如圖3 所示。由圖3 可知,AMCSleepNet 在各個通道上相較于AttnSleepNet 均有提升,且在F4-M1 通道上的提升最明顯,睡眠分期準確率平均提升6.30%,在SA0 上相較于AttnSleepNet 提升了12.51%,結果表明AMCSleepNet 模型在單通道數據上已經具有更好的睡眠分期效果,能夠捕捉到不同通道的信息。

圖3 AttnSleepNet與AMCSleepNet不同通道的睡眠分期準確率對比
為驗證AMCSleepNet 與多通道EEG 數據結合是否能提升睡眠分期效果,采用留一法,將其與EEGNetSleep 在多通道數據集上分別進行訓練和測試,并與兩種單通道最佳結果進行對比。AttnSleepNet 的最優通道是C3-M2,AMCSleepNet 的最優通道是F4-M1,具體結果如表2 所示。AMCSleepNet對各期的分類準確率如表3所示。由表2可知,AMCSleepNet 相比于單通道方法和EEGNetSleep 方法在整體性能上有所提升。對比AttnSleepNet 的最優單通道模型提升了5.69%,對比EEGNetSleep 模型提升了11.06%。結果表明,利用多通道EEG 數據,能夠提升睡眠分期的平均準確率。由表3 可知,AMCSleepNet 對于W 期的分類效果最優,而對N1 期的分類效果最差,結合原始數據表1 分析,N1 期的樣本數過少,使模型對其分析存在明顯的不足。

表2 模型在不同受試者上的睡眠分期準確率(%)

表3 多通道AMCSleepNet針對不同睡眠期的準確率(%)
綜合以上實驗結果可知,受試者SC1 的睡眠分期效果最好,幾種模型均能達到較高的分期準確率,因此以受試者SC1 為例,對比了真實標簽、AttnSleepNet 最優通道和AMCSleepNet 多通道的結果,結果如圖4 所示,圖中局部區域比對可知,AMCSleepNet 在N3 期的分類效果較好,與表3 中結果一致,而AttnSleepNet 在該狀態的分類效果不佳。整體來看,AMCSleepNet 多通道的分類結果與專家標注的結果一致性更高。

圖4 受試者SC1睡眠分期結果對比
本研究提出的AMCSleepNet 與單通道方法AttnSleepNet[9]相比,利用并行的多個分支對EEG 數據的每個通道進行特征提取,提升了臨床數據的利用率。在注意力機制的幫助下,模型關注多通道的特征結構,通過SE 方法自適應的學習不同通道的注意力權重,從而有效地融合不同通道的時頻特征。在多通道特征融合之后AMCSleepNet 采用Transformer 來替換前人研究中采用的LSTM方案[7],其中多頭注意力挖掘特征的時間前后相關性,關注特征序列中更有區分性的特征,同時減少了模型訓練時間。在實驗過程中,參考以往研究[8],采用了LOSO 的訓練策略,訓練數據和測試數據來自不同受試者,由此體現模型跨受試者的分類能力。從實驗結果來看,相較于單通道模型和多通道深度卷積模型,AMCSleepNet 提升了睡眠分期的準確率。由于受試者之間的個體差異對模型的泛化能力要求較高,且不同睡眠時期的樣本量差異也會對準確率產生影響,未來的研究應進一步關注個體差異與類別均衡,探究跨個體的遷移學習方法和不同數據量對模型的影響。
本研究針對多通道睡眠分期問題,提出了基于深度學習的多通道腦電信號睡眠分期方法AMCSleepNet,該方法利用多分支卷積網絡提取不同通道的腦電信號的時頻域特征,使用壓縮聚合網絡和殘差網絡進行特征融合,通過Transformer 編碼挖掘融合特征的時間相關性。在2021 全國智能睡眠科學大賽提供的6 名受試者睡眠樣本上,采用留一法進行交叉訓練和測試,與基于注意力的單通道深度神經網絡模型AttnSleep 相比,本研究提出的方法在各個通道的分類準確率平均提升了5.69%。利用多通道數據,與基于深度卷積的多ssss 通道模型EEGNet-Sleep 相比,分類準確率提升了11.06%。表明本研究的模型對單通道或多通道數據均有更好的分類能力。臨床睡眠期間采集的多通道EEG 數據相比于單通道數據具有更多睡眠狀態信息,從而提升了睡眠分期的準確率,具有潛在的應用價值。