基于復合特征參數的睡眠分期算法設計與仿真

2022-08-06 07:13:14曹荻秋何美霖

實驗室研究與探索 2022年4期

關鍵詞：實驗

馮維，曹荻秋，呂耿，何美霖，應娜

（杭州電子科技大學通信工程學院，杭州 310018）

0 引言

睡眠質量不僅與個人身體健康息息相關，同時還與多種疾病及其發病征兆密切相關［1］。人處在不同睡眠狀態時，腦電波的成分有著顯著差異。由此進行的睡眠時期分期，使得人們可以從科學的角度對人體的睡眠狀況進行分析，這對臨床醫學診斷有著極大的參考價值。同時也為人腦相關疾病的深入研究提供了基礎。

腦電圖（Electroencephalogram，EEG）是通過探針等儀器記錄人體頭皮各個方位的生物電位綜合得來的圖像，可以反映人體大腦的當前狀態［2］。Rechtschaffen和Kales 提出，觀察和分析腦電圖，眼電圖和肌電圖，可以將非快速眼動期劃分為4 個時期，簡稱睡眠1 ～4 期。結合Nathaniel Kleitmanti提出的分期標準，將此標準稱為R&K分期標準［3］，讓定量分析睡眠狀況成為一種可能。由于人工進行手動分類效率低下且錯誤率高，人們開始尋找自動實現睡眠分期的方法［4］。

早期使用的腦電信號分析方法一般直接從時域提取信號波形特征。Kayikcioglu 等［5］使用自回歸（Autorgressive，AR）模型來提取腦電信號的4 種節律波的AR系數，根據節律波的組成來區分不同睡眠時期。同時考慮EEG信號的時域和頻域特征，設計出時頻分析法，例如小波變換。Azim等［6］用離散小波變換提取了EEG信號在不同睡眠期的時域、頻域特征，結果表明其在特征提取方面有較好的性能。本次實驗選取了AR系數，能量特征，樣本熵和信源熵4 個特征參數進行復合，與單一AR 系數相比能更好地實現腦電信號的自動睡眠分期。

1 數據描述

本次實驗數據來自于MIT-BIH 公開數據庫中的人體睡眠數據。這些數據從年齡在25 ～101 歲的健康受試者身上采集，且受試者在采集期間沒有服用任何藥物，其中包含腦電圖，眼電圖（EOG）和肌電圖（EMG）信號，且所有實驗數據均已通過倫理檢測。如圖1 所示，所有的EEG數據都是通過國際10-20 電極分布系統采集［7］。本次實驗采用的是圖1 所示的Fpz-Cz（Fpz：額極中線點；Cz：中央中線點）通道腦電信號。該數據庫中EEG信號的采樣頻率為100 Hz，所有的數據都已經由專業人員根據R&K 分期標準進行了睡眠期標注。

圖1 國際10-20電極分布系統

圖2為Fpz-Cz 通道原始腦電信號波形圖。研究表明，Fpz-Cz通道腦電信號，在睡眠分期中有著較好效果［8］。因此本次實驗從多個通道數據中選取Fpz-Cz導聯的單通道腦電信號進行后續研究。由于EEG信號采集過程中，會受到設備、肌肉活動和眼球活動等因素的影響，產生噪聲和偽跡。在本實驗中，使用0.5～30 Hz的帶通濾波器濾除干擾噪聲和偽跡。本實驗選取數據庫中16 個樣本，共計時長100 h 的睡眠數據。為更好地提取不同時期睡眠特征，將連續的EEG信號分為若干片段，長度30 s，無重疊，并對每個EEG片段進行分析處理。

圖2 Fpz-Cz通道原始腦電信號

2 睡眠分期識別算法

本實驗算法主要包括數據預處理、特征提取、支持向量機分類3 部分。算法步驟說明如圖3 所示。在數據預處理階段將原始腦電數據分片，并提取每個片段的4 種節律波。在特征提取階段利用不同的特征提取算法提取特征參數，并將特征參數復合作為特征向量。使用支持向量機實現睡眠自動分期。

圖3 睡眠分期識別算法步驟說明

2.1 數據預處理

數據預處理階段，對所獲取的腦電信號數據進行分片處理，將長時間的腦電信號分成小周期。在R&K分期標準的基礎上，實驗將睡眠周期劃分為4 個時期：清醒期（W），非快速眼動1 期（NREM12），非快速眼動2 期（NREM34），快速眼動期（REM）。不同時期的腦電信號最大區別在于所含的節律波成分和比例不同。國內外研究學者普遍認為EEG 信號主要由4 種節律波組成，即：δ 波（0.5 ～4 Hz）、θ 波（4 ～8 Hz）、α 波（8 ～13 Hz）和β波（14 ～30 Hz）［9］。根據4 種節律波所處的頻段不同，選擇帶通濾波器，將一個小周期的4種節律波提取出來。

2.2 特征提取算法

本實驗采用時頻域分析方法提取腦電信號中的AR系數和能量特征，采用非線性動力學分析方法提取樣本熵和信源熵，并將4 個特征參數復合作為特征向量來區分不同睡眠階段。

2.2.1 AR系數

AR模型即自回歸模型，在時域可以表述為線性預測問題。在AR 模型中，給定信號的每個樣本x（1），x（2），…，x（n）可以用該信號的前p個樣本的線性加權和來預測：

式中：ai為AR 模型系數；p為AR 模型階數；ep（n）為前向預測誤差，即預測值與實際值的差值。與之相對應的反向預測誤差

用Levinson-Durbin遞推算法［10］可得：

式中：app為遞推過程中階次為p時AR 模型的第p個系數；Ep為p階前向預測誤差和反向預測功率之和；kp=app為反射系數；api為遞推過程中階次為p時AR 模型的第i個系數。

式（4）中Ep也可通過直接計算前向預測誤差和反向預測誤差功率和得到

式中，N為腦電信號長度。

進一步將式（3）中的ep（n）和bp（n）代入式（6），并，可得：

本實驗使用Burg法［11］對AR系數進行估計，主要步驟如下。

步驟1初始化，設AR 模型階數為p。p=0 時，前后向預測誤差e0（n）、b0（n）及前后向預測誤差之和E0可根據式求得：

步驟2當階數為1 即p=1 時，由于kp=app，所以可以根據式（7）計算反射系數k1。將k1和步驟1 中求得的E0帶入式（4）可求得E1。

步驟3將步驟2 中求得的k1，結合步驟1 中所得初始值e0（n）和b0（n）代入式（3）可求出e1（n）和b1（n）。

步驟4當階數為2 即p=2 時，與步驟2 一樣，可繼續利用式（7）和（4）計算出a22和E2，進一步代入式（5）計算出AR系數a21。

對p=2，3，…，重復步驟2 ～4，直至求出所有階次的AR系數。

AR模型的階數是AR模型構建中一個重要參數。選擇的階數過低，會導致擬合效果不好；階數過高，會增加計算量和計算復雜度。根據多次實驗，本次課題最終選取AR模型階數為27。

2.2.2 能量特征

腦電信號節律性明顯，各睡眠階段所含能量不同。因此選擇各節律波的能量Ei與總能量Etotal比值作為特征，用于區分不同睡眠階段。對于δ、θ、α 和β 這4種節律波，其能量特征

式中：p（ω）為腦電信號頻譜；bi和ai分別為第i類節律波頻域上下界。

總能量特征Etotal為4 種節律波能量特征之和

2.2.3 樣本熵

樣本熵算法［12］主要步驟如下：

步驟1腦電信號為時間長度為N的序列：u（1），u（2），…，u（N）。

步驟2將序列組成一個m維矢量Xm（i），Xm（2），…，Xm（N-m）：

式中，i=1，2，…，N-m。

步驟3定義矢量間距離d［Xm（i），Xm（j）］為兩者相應元素的最大差值：

式中：k=0 ～m-1；i，j=1 ～N-m，i≠j。

步驟4給定閾值r（r＞0），對于每一個i（i≤Nm），統計距離d［Xm（i），Xm（j）］小于閾值r的數目Nm（i）和此數目與距離總數N-m-1 的比值為

步驟5計算所有i的平均值，記為

步驟6增加維數為m+1，構造m+1 維矢量，重復步驟2 ～5，得到Bm+1（r）。由此可知，該段腦電信號的樣本熵為

在參數選取中，根據文獻［13］中相關研究，取N=3 000，m=2，r=0.2SD（SD 為實驗數據X（i）的標準差）。

2.2.4 信源熵

信源熵用于描述信號的不確定度，在概念上易于理解，且計算公式簡單，目前廣泛應用于生物醫學工程。

若腦電信號X的可能取值范圍R=｛x1，…，xn｝，xi的出現概率為p（xi），則信源熵

2.2.5 特征參數歸一化

對上述計算得出的4 種特征參數進行Z-score 歸一化處理，可以在一定程度上消除特征間尺度和單位差異影響，以改善支持向量機（Support Vector

Machine，SVM）的預測效果［14］。對參數進行歸一化處理：

所以，2019年的走向，如果看完市場所有的主流策略，投資者一定會覺得不知所措。為了更加精準的判斷市場拐點，經過近二十年的經驗教訓的總結，我們建立了“技道分析”的研究框架，即將賠率和勝率、趨勢與價值等維度相結合進行多因素分析，試圖找到符合A股市場運行規律的一套分析方法。下面僅以技道分析框架下的幾個維度來探討一下A股策略。

式中：μ為原始數據均值；δ 為原始數據標準差。經過歸一化處理的數據，均值為0，標準差為1。

特征參數提取完畢后，需要進行支持向量機分類。

2.3 支持向量機分類

SVM是一種常用的分類算法。支持向量機既可以處理線性分類問題，也可以處理非線性分類問題。當數據在原空間非線性可分時，SVM 通過核函數將數據映射到高維空間，在高維空間中構造出進行分類的超平面，將原空間上的非線性數據分開［15-16］。

本實驗選取徑向基核函數［17］作為核函數進行分類：

3 實驗結果與分析

本實驗選取MIT-BIH 數據庫中16 個樣本，隨機提取相同數量的各階段睡眠時期片段。將數據中的8 000 個片段作為訓練集輸入SVM 分類器進行訓練，再將剩余4 000 個作為測試集（分10 組，每組100 個）對分類器進行測試，再將測試結果與人工專家分期結果進行對比。

表1、2 分別為基于AR系數和基于復合特征參數的訓練集測試結果，每行為該時期的識別結果。表中：AC為正確率；R為召回率（Recall）；P為精度；F1分數（F1-score）為精度和召回率的調和平均數；Kappa為檢驗一致性的Kappa 系數。由仿真結果可見，基于復合特征參數的方法無論是在W期，NREM12 期，NREM34期，還是REM 期，其識別正確率、召回率、精度和F1-score都要優于基于AR 系數的方法。基于復合特征參數的方法總體正確率提高了4.69%，Kappa 系數提高了6.25%。

表3、4 分別為基于AR系數和基于復合特征參數的測試集分期結果，每行為該時期的識別結果。每個睡眠階段選用10 份100 個樣本進行測試，最終得出平均結果。復合特征參數的測試結果都要優于基于AR系數的方法，其總體正確率提高了5.63%，Kappa系數提高了7.50%。

表1 基于AR系數的訓練集分期結果

表2 基于復合特征參數的訓練集分期結果

表3 基于AR系數的測試集分期結果

圖4為一個8 h樣本的自動分期結果與人工專家分期結果的對比圖。圖中橫坐標為睡眠片段數目，縱坐標為睡眠階段。由圖中可見，本文方法的分期結果，與人工專家分期結果吻合度較高。

表4 基于復合特征參數的測試集分期結果

圖4 人工分析與自動分析分期結果的對比

4 結語

本文提出了一種結合能量特征，AR 系數，樣本熵和信源熵的復合特征值睡眠分期算法，并通過Matlab軟件對所提出算法進行了仿真分析。仿真結果表明，與傳統方法相比，提出的方法具有更好的分類性能。通過該實驗，學生可以將信號處理、機器學習，Matlab編程等理論知識應用到解決實際生物醫療方面的問題，極大地培養了學生的動手能力和解決問題的能力。