999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樣本不平衡的睡眠數據分期研究

2016-10-28 08:30:31李玉平
網絡安全與數據管理 2016年18期
關鍵詞:分類特征信號

李玉平, 夏 斌

(上海海事大學 信息工程學院,上海 201306)

?

樣本不平衡的睡眠數據分期研究

李玉平, 夏斌

(上海海事大學 信息工程學院,上海 201306)

睡眠數據中各個階段的樣本數差異較大,睡眠數據的自動分期是一個典型的樣本不平衡的機器學習問題。均衡樣本方法通過抽樣的手段來平衡樣本,是解決樣本不平衡問題的主要方法。采用均衡樣本方法來平衡睡眠數據的不同階段的樣本,并且結合多域特征(時域、頻域、時頻域以及非線性)和隨機森林分類算法進行分類預測。比較分析了樣本均衡處理和非均衡處理的分類結果,發現均衡處理后的數據取得了更好的分類效果。

睡眠分期;數據不平衡;隨機森林

引用格式:李玉平, 夏斌. 樣本不平衡的睡眠數據分期研究[J].微型機與應用,2016,35(18):55-57,61.

0 引言

睡眠是生命過程中必不可少且十分重要的生理現象。依據國際R&K標準[1],睡眠期可分為快速眼動期、非快速眼動期(S1,S2,S3,S4)以及清醒期,區別分期主要以眼球是否進行了陣發性快速運動為標準。根據上述睡眠分期標準,睡眠數據可分為6類,且不同類別的數據量之間具有較大的差異性,即睡眠數據分期存在樣本不平衡的問題。在應用機器學習研究睡眠分期過程中,樣本不平衡會導致睡眠分期結果不準確,睡眠分期的可信度降低。在以前的睡眠分期研究中,研究的主要是睡眠數據特征的提取以及分類算法的選取[2-4],并沒有研究睡眠分期樣本不平衡問題。本文采用EEG、EOG、EMG 3種信號5個通道的睡眠數據,研究中發現,EOG信號會出現在EEG信號的一些睡眠分期(如清醒狀態和快速眼動狀態)中,這種數據會對睡眠分期產生不好的影響[5]。本文通過對睡眠分期樣本不平衡的研究以及信號混雜的處理,進一步提高睡眠分期的準確度,同時對相關睡眠疾病的診斷和治療提供重要的參考意義。

基于以上睡眠數據分期的討論,本文采用均衡采樣的方法解決睡眠分期樣本不平衡問題,同時研究睡眠數據的特征提取以減少信號混雜對睡眠分期的影響。

1 方法

1.1特征提取

睡眠數據的特征主要劃分為時域特征、頻域特征、時頻域特征以及非線性特征。本文中,提取EEG、EOG和EMG每種信號各38種特征。

特征參數如下:第1~6種是6個時域特征[6-8]:均值(Mean)、方差(Variance)、峰度(Kurtosis)、偏度(Skewness)、過零率(Number of zero crossing,NZC)、最大值(MaxV);第7~19種是頻域特征[8-10]:對4個子節律波分別提取各自范圍的功率譜能量(SP_),計算0.01~30 Hz頻帶的總功率譜能量(SP_D),以及總功率譜能量的規范化能量比(NSP_),即theta/beta、beta/alpha、(theta+alpha)/beta, (theta+alpha)/(beta+alpha);第20~35種是時頻域特征[8-10]:4個子節律波在當前頻帶范圍上小波系數的均值、能量、標準差以及相對于總頻帶范圍的絕對平均值;第36~38種特征分別是Petrosian分形指數、Hurst指數、排列熵[11-12]。

1.2均衡采樣

睡眠數據存在樣本不平衡的問題,在6類的數據中,最多一類的數據集與最少的一類數據集的比例達到10倍以上,存在嚴重不平衡現象。本文應用均衡采樣的方法處理樣本失衡的問題[13]:(1)分別計算6類睡眠分期數據的個數n1、n2、n3、n4、n5、n6;(2)去掉個數最少和個數最多的個數值,剩余為n1、n2、n3、n4,計算這4類個數的平均值n;(3)對6類數據按個數平均值n采樣,不足平均個數的類別重復采樣,超過平均個數的類別欠采樣;(4)整合6類數據采樣得到的新數據集即為均衡處理后的數據[4,14]。

1.3隨機森林分類器

隨機森林模型是決策樹集成的算法,并且由一隨機向量決定決策樹的構造。通過訓練集得到隨機森林模型后,當有一個新的輸入樣本進入時,就讓隨機森林的每一棵決策樹分別進行判斷,判斷樣本所屬類別,然后計算哪一個類別被選擇最多,就預測該樣本所屬的類別。隨機森林算法特征參數較多,測試結果不會出現過擬合的情形;能夠處理高維度特征的睡眠數據,不用做特征選擇,對數據集的適應能力強;訓練速度快,能夠檢測不同特征之間的影響[13,15]。

隨機森林實現過程為:(1)原始訓練集為N,采用集成算法有放回地隨機選取k個樣本集構建k棵分類樹,每次沒有被抽到的樣本組成k個袋外數據;(2)設定mall變量,在每棵樹的每個節點處隨機抽取mtry個變量(mtry,n,mall),然后在mtry中選擇一個最佳的分類變量,變量分類的閾值通過檢查每一個分類點確定;(3)每一棵樹最大限度地生長,不做任何修剪;(4)將構造的多棵分類樹組成隨機森林,用隨機森林分類器對新的數據進行判別與分類,分類的結果按樹分類器投票數確定。

2 實驗與結果

2.1數據

本文采用9名受試者的睡眠數據來驗證分類方法和數據不平衡處理的可行性。數據集記錄了這9名志愿者一晚上的睡眠數據,以1~9命名這些數據集。數據包含15個通道的睡眠時的信號數據以及呼吸頻率和身體溫度。對應的EEG、EOG、EMG信號按100 Hz進行采樣。數據集處理部分,分別進行了7/3分和留一方法,采用這兩種方法驗證睡眠分期樣本不平衡的處理效果。

2.2數據預處理

首先采用巴特沃夫濾波器提取原始睡眠數據中0.01~35 Hz的數據,并應用高斯歸一化方法對數據進行歸一化處理。由于采樣的睡眠數據可能存在標簽不正確的問題,因此會剔除不正確的標簽數據。具體方法是,首先找出空標簽或標簽異常(不在已有類別中的標簽),根據標簽對應的位置,剔除這些標簽對應的數據集,最后更新數據集。采用以上方法進行數據預處理之后,得到7 461條數據。

2.3均衡采樣數據

經預處理和特征提取之后,對9個受試者的數據進行整合,數據總量為59 680。采用7/3分數據集,即70%數據做訓練集,30%數據做測試集,訓練集數據量為41 773,測試集數據量為17 907。為了驗證均衡采樣的可行性,對訓練集做均衡處理,得到22 465條新的訓練集。

2.4結果

本文第一種驗證方法是7/3數據集,結果如下:表1是所有數據集7/3分,對訓練集進行均衡處理的分類結果準確率;表2是均衡采樣數據集和普通數據集分類結果對比;表3是不同信號組合,均衡采樣分類結果對比。

表1 均衡處理測試結果

表2 分類結果對比 (%)

表3 不同信號組合分類結果對比 (%)

圖1 均衡處理留一驗證準確率

第二種驗證方法是對9個受試者的數據集進行留一驗證。分別提取其中8個受試者的數據集作為訓練集做均衡處理,剩下1個受試者的數據集作為測試集。分類結果如圖1所示。

由表1得知,同時考慮EEG、EOG、EMG 3種信號5個通道的數據集,得到的分類準確率達到84.33%,wake類別的分類準確率最高,模型對wake類別的泛化能力最好,而S1類別數據量最少,同時分類效果也最差。由表2得知:均衡處理之后,wake、S1、S3、rem這4類睡眠分期結果得到了提升,S4基本一致,S2的結果降低了。由表3知:提取一種信號EEG時,睡眠分期準確率比同時提取多種信號時的準確率低。由圖1留一驗證知,2、5、9號受試者睡眠分期的結果達到了80%以上,分類效果較好;3、6號受試者睡眠分期準確率較低。

3 結論

本研究采用了EEG、EOG、EMG 3種信號5個通道數據集,并且應用均衡采樣的方法處理訓練集數據不平衡問題,睡眠分期結果較好,平均分類準確率得到了提升,并且有4個睡眠分期的分類結果都得到了提升。在今后對睡眠分期樣本不平衡的研究中,可以采用加權隨機森林或其他的方法處理睡眠數據集不平衡的問題。

[1] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.

[2] 李谷,范影樂,龐全.基于排列組合熵的腦電信號睡眠分期研究[J].生物醫學工程學志,2009,26(4):869-872.

[3] Liu Derong,Pang Zhongyu,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,2008,19(2):308-318.

[4] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.

[5] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.

[6] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.

[7] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.[8]EN B, PEKER M, A ?AVULU A, et al. A comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,2014,38(3):1-21.

[9] HAMIDA T B, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.

[10] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.

[11] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,98(5):401-410.

[12] PEREDA E, GAMUNDI A, RIAL R, et al. Non-linear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.

[13] 毛文濤,王金婉,等.面向貫序不均衡數據的混合采樣極限學習機[J].計算機應用,2015, 35(8):2221-2226.

[14] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.

[15] BREIMAN L. Random forests[J]. Machine Learning,2001, 45(1):5-32.

Research on the stage of sleep data with imbalanced sample

Li Yuping, Xia Bin

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306,China)

Sleep data in each stage is different, and the automatic staging of sleep data is a typical problem of sample imbalance.Balanced sampling method balances samples by sampling, and it is the main method to solve the problem of sample imbalance.In this paper, we use a balanced sample method to balance the different stages of sleep data in a sample,and combine multi domain features (time domain, frequency domain, time domain and nonlinear) with random forest classification algorithm for classification and prediction.We compare the classification results of sample equalization processing and non equalization processing, and find that the better classification results are obtained after balancing the processed data.

sleep stage;data imbalance;random forest

TP391.9

ADOI: 10.19358/j.issn.1674- 7720.2016.18.016

2016-04-18)

李玉平(1990-),通信作者,男,碩士研究生,主要研究方向:智能信息處理。E-mail:liyuping_love@126.com。

夏斌(1975-),男,博士,副教授,碩士生導師,主要研究方向:腦-機接口、云計算及人工智能。

猜你喜歡
分類特征信號
分類算一算
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 免费a在线观看播放| 国产福利一区视频| 日韩国产高清无码| 成人福利一区二区视频在线| 国产成人无码播放| 久久综合五月| 日本影院一区| 欧美一级大片在线观看| 91午夜福利在线观看| 伊人久久精品亚洲午夜| 中文字幕精品一区二区三区视频| 日韩资源站| 国产精品欧美亚洲韩国日本不卡| 欧美中文字幕在线二区| 中文字幕人妻av一区二区| 青青久久91| 欧美不卡在线视频| 香蕉网久久| 亚洲av无码人妻| 高清不卡一区二区三区香蕉| 99精品在线视频观看| 日本黄色不卡视频| 波多野结衣一区二区三视频| 日本不卡视频在线| 国产精品真实对白精彩久久| 国产一在线| 91免费国产在线观看尤物| 亚洲女同一区二区| 日本免费福利视频| 高清色本在线www| 国产在线专区| 国内精自线i品一区202| 国产专区综合另类日韩一区| 天堂在线www网亚洲| 在线观看国产精品一区| 国产免费看久久久| 国产在线观看精品| 欧美成人h精品网站| 91日本在线观看亚洲精品| 久久人与动人物A级毛片| A级毛片无码久久精品免费| 另类欧美日韩| 午夜不卡视频| 婷婷五月在线视频| 成人无码区免费视频网站蜜臀| 国产美女丝袜高潮| 欧洲日本亚洲中文字幕| 國產尤物AV尤物在線觀看| 精品人妻系列无码专区久久| 日本草草视频在线观看| 91视频首页| 国产精品亚洲一区二区在线观看| 国产95在线 | 呦女亚洲一区精品| 亚洲IV视频免费在线光看| 毛片在线播放a| 日本免费一级视频| 在线视频一区二区三区不卡| 亚洲成a人片| 成人午夜视频在线| 4虎影视国产在线观看精品| 午夜精品久久久久久久无码软件| 免费xxxxx在线观看网站| 亚洲三级a| 国产欧美性爱网| 亚洲欧美极品| 欧美全免费aaaaaa特黄在线| 国产人成在线视频| 在线观看欧美精品二区| 亚洲V日韩V无码一区二区| 国产欧美视频在线观看| 乱系列中文字幕在线视频| 欧美日韩免费在线视频| 亚洲国产亚洲综合在线尤物| 91精品国产无线乱码在线| 激情五月婷婷综合网| 99热这里只有免费国产精品| 97青草最新免费精品视频| 永久成人无码激情视频免费| 久久免费精品琪琪| 免费一级α片在线观看| 亚洲美女久久|