999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DB-SMOTE及多層堆疊用于心律失常識別

2021-09-02 06:27:40波,鄧
西安電子科技大學學報 2021年4期
關鍵詞:分類信號模型

王 波,鄧 科

(西安交通大學 智能網絡與網絡安全教育部重點實驗室,陜西 西安 710049)

心電圖用以記錄心電活動,心電異常活動會引起心律失常。文中的心電圖數據來自MITBIH數據集,選取了數據集中最多的5類作為心電圖識別的對象,分別為正常節拍(N)、左束支傳導阻滯(LBBB)、右束支傳導阻滯(RBBB)、室性早搏(PVC)和房性早搏(APB)。

目前的心電圖識別算法主要有3種,分別為基于波形形狀的識別算法[1];基于波形特征的識別算法[2]以及基于深度學習的自動特征提取算法[3]。ZHU等利用波形形態學特征,并提取RR間期和QRS波時限等特征,利用支持向量機將心電圖分為5類,最終的分類結果達到97.8%[4],該方法對心電圖質量要求較高,抗干擾能力差,需對各波形準確定位,診斷準確率也較低。呂衛等人采用S變換提取心電圖特征,然后利用支持向量機作為分類器的識別方法,將心電圖分為8類,最終的識別效果達到96.4%[5],該方法訓練時間較短,但高維心電圖信號是復雜的,單一的分類器不能很好地完成識別任務。龐彥偉等人利用深度卷積神經網絡的方法將心電圖分為5類,準確率達到98%[6],該方法避免了人工提取特征,但訓練時間較長,識別的準確率依賴于網絡結構,不易設計出合適的卷積網絡,對數據的要求較高。

基于上述總結,由于心電圖數據失衡以及分類器單一對心電圖信息利用不充分,傳統的心律失常識別方法分類效果較差,因此筆者設計了一種新型的心律失常識別方法。

1 心律失常識別方法

圖1 心律失常識別方法

心律失常識別方法如圖1所示,由下向上主要包括預處理、聚類插值過采樣(Density-Based spatial clustering of applications with noise- Synthetic Minority Over-sampling TEchnique,DB-SMOTE)算法、特征提取及多層堆疊分類器4個部分。

由于信號采集受到干擾,首先對心電圖信號進行濾波去噪。心電圖信號中各類別數量存在嚴重的不平衡,分類效果受到極大影響,因此有必要構造少數類樣本以增強數據集。傳統合成少數類過采樣技術(Synthetic Minority Over-sampling TEchnique,SMOTE)算法未考慮噪聲樣本的干擾以及少數類數據內部的不均衡,因此提出了聚類插值過采樣算法來改善少數類樣本分布狀況。在特征提取階段,通過小波變換對心電圖信號壓縮作為提取的特征F。在分類階段,采用多層堆疊模型進行識別,第一層基模型為識別準確率高的K最近鄰(K-NearestNeighbor,KNN)、極端梯度提升樹(eXtreme gradient boosting,Xgboost)和梯度提升樹(Gradient BoostingDecision Tree,GBDT)模型,將提取后的特征F映射為新特征F′,為防止過擬合,第二層使用簡單的邏輯回歸(Logistic Regression,LR)模型識別新特征F′。

1.1 數據預處理

數據來源為美國麻省理工學院提供的研究心律失常的數據庫MITBIH。由于傳感器采集到的心電信號受肌電干擾、工頻干擾以及基線漂移等不同性質的噪聲干擾,因此需濾去信號中的噪聲,圖2為濾波去噪效果圖。然后根據Pan-Tompkins算法對處理后的心電圖信號進行QRS波定位,主要有微分、平方、滑動積分和閾值運算4個步驟[7]。采用微分放大QRS波的斜率,便于檢測QRS波群。對信號進行逐點平方,使得微分后的輸出非線性放大,有助于限制T波引起的誤差。接著利用滑動窗口積分,使得絕對振幅增大和波形進一步光滑,獲得R波斜率和其他波形信息。最后采用自適應雙閾值檢測R峰,兩個閾值中較高者用于信號的第一次分析,如果在特定的時間間隔內未檢測R峰,則使用較低的閾值[8],雙閾值的設計一定程度上就可以防漏檢。圖3為檢測R峰示意圖,紅圈標注的位置為R峰,以R峰為基準點,向左取199個采樣點,向右取100個采樣點,合計300個采樣點為一個心拍。

圖2 ECG信號預處理效果圖

圖3 QRS波R峰檢測

1.2 DB-SMOTE算法

按照機器學習數據不平衡原則,數據比例超過2∶1就屬于數據失衡。根據數據預處理后的心拍劃分,正常、左束支傳導阻滯、右束支傳導阻滯、室性早搏和房性早搏的心拍數量分別為74 962、8 068、7 254、7 034和2 545,明顯可看出各類樣本數量分布不均衡,尤其是房性早搏的心拍數量只有正常的4%。

現有大部分分類模型都是建立在數據分布均勻的基礎上,當數據不平衡時,會壓縮少數類的分類空間,造成嚴重的分類誤差。不過在現實條件中,采集和標注心電圖數據的代價是昂貴的,因此生成少數類樣本來緩解數據失衡是一種較好的替代選擇。CHAWLA等在2002年提出經典的合成少數類過采樣技術[9]。合成少數類過采樣技術主要流程如下所示:

(1) 少數類中的每一個樣本a,以歐式距離為度量,計算該樣本到少數類中其他樣本K近鄰;

(2) 根據少數類的不平衡情況設置采樣倍率N,對于每一個少數類樣本a,從其K近鄰中隨機選出若干個樣本,假設隨機選擇的近鄰為b;

(3) 隨機選擇的近鄰b與樣本a以如下的公式生成新樣本:

c=a+rand(0,1)*(a-b) 。

(1)

傳統的合成少數類過采樣技術忽略了少數類數據內部的不平衡和噪聲樣本干擾的影響,同時可能會入侵多數類樣本分類空間。針對合成少數類過采樣技術存在的問題,提出了DB-SMOTE算法。DB-SMOTE算法的主要思想是將少數類數據通過有噪空間的密度聚類(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法[10]分為m個簇,過濾噪聲樣本集合,以各個簇的邊界數據作為主體,插值合成新的樣本。

有噪空間的密度聚類算法將少數類樣本點分為3種,為核心點、邊界點和噪聲點,具體含義為:在半徑Eps內含有超過MinPts數目的點為核心點;在半徑Eps內沒有超過MinPts數目的點為邊界點;在半徑Eps內沒有相鄰點為噪聲點。

圖4 DB-SMOTE生成結果可視化

DB-SMOTE算法具體步驟如下:

(1) 對少數類樣本集Xb進行有噪空間的密度聚類,過濾不屬于任意簇的噪聲點集合Xn,根據樣本點的局部密度將簇劃分為{C1,C2,…,Cm},并獲取邊界點集合Cb;

(2) 將邊界點集合Cb中的點按邊界點在各簇{C1,C2,…,Cm}分布劃分為邊界樣本簇{Cb1,Cb2,…,Cbm};

(3) 以各簇邊界樣本的簇密度{ωb1,ωb2,…,ωbm}為比例,對各簇的邊界數據{Cb1,Cb2,…,Cbm}使用合成少數類過采樣技術構造新數據。

有噪空間的密度聚類算法設置參數半徑Eps為3.5、MinPts設為40、距離度量設置為minkowski。算法將少數類樣本分類3個簇,樣本個數分別為882、449和51,濾除的噪聲樣本個數為118,邊界點為367。根據少數類樣本失衡情況,DB-SMOTE算法生成少數類樣本1 101個。為便于直觀分析和理解,在文中利用流形學習算法t分布隨機近鄰嵌入(t-distributed stochastic neighbor embedding,tSNE)[11]實現心電圖信號的降維可視化。DB-SMOTE算法的生成結果見圖4,其中點表示原始心電圖數據,加號表示生成的數據。可以清晰看到生成的心電圖心拍主要集中在原始數據的邊界,既擴充了少數類樣本,也減少了生成樣本入侵到多數類樣本空間的風險。

在疾病類數據識別任務中,疾病被分為正常的代價比正常被認為疾病的代價大得多。正常被分為疾病可通過后期的復診糾正,而疾病被分為正常很有可能錯過最佳的治療時間,所以DB-SMOTE算法生成少數類樣本以提升少數類的識別效果很有意義。

在文中,DB-SMOTE算法生成房性早搏類1 101組心拍,每次試驗隨機劃分訓練集和測試集,有力地避免模型針對固定測試集調參。具體的訓練集和測試集劃分如下:

表1 訓練集和測試集劃分

1.3 特征提取

因心電圖信號維度較高,為克服維度災難并獲取本質特征,特征提取在心律失常識別方法中起著重要作用。小波變換是分析非平穩信號的有力工具,它能同時提供時間和頻率信息[12-13],文中采用小波變換對心電圖信號進行壓縮。小波壓縮心電圖信號利用了信號的小波域表示相對稀缺性,心電圖信號可以使用少量近似系數和一些細節系數來精確表示。小波壓縮主要有3個步驟:

(1) 分解過程:選定一種小波,對信號進行N層小波分解;

(2) 細節系數閾值選擇:對于從1到N的每個級別,選擇一個閾值,并將硬閾值應用于細節系數;

(3) 重構信號:利用N級的原始近似系數和1~N級的修正細節系數計算小波重構。

由于心電圖信號的連續性和光滑性都較好,而sym 5小波函數具有緊支撐性、良好的連續性和對稱性,因此適合對心電信號分解;小波分解層數設置為4層。利用基于Birgé-Massart策略的小波系數選擇規則確定閾值,計算公式為

(2)

其中,M和α為經驗系數,一般情況下M為第一層小波系數的長度,α取1.5,i和j分別為當前分解層數和總的分解層數。

文中使用壓縮率(Number of zeros,Nz)和保留能量作為衡量壓縮效果指標,壓縮率是指壓縮后不為零系數(L1)占原系數長度(L)的比率:

(3)

保留能量率(Retained energy,Re)是指壓縮后信號保留的能量(Compress energy,Ce)與原始信號能量(Original energy,Oe)的比率:

(4)

通過圖5原始信號和重建恢復的信號對比,可以發現無論是從壓縮后的能量保留角度,還是恢復后的視覺感知,效果都是不錯的,重建原始信號僅僅使用了14%的系數,最終心電信號的維度從300降到了47。

圖5 原始信號和重建恢復信號對比

圖6 多層堆疊分類模型結構圖

1.4 多層堆疊分類器模型

由于計算能力的提高和沒有完美的模型,多種模型融合的堆疊算法是當前分類模型中最有前途的方向之一。與bagging和boosting集成模型不同,多層堆疊模型是一種融合多個不同模型的方法。和相互獨立的單一識別模型相比,堆疊模型具有更強的非線性,能夠降低泛化誤差,識別過程如圖6所示。

為達到最優的識別效果,多層堆疊模型的基模型選取了識別準確率高和差異化的分類器,分別為K近鄰、極端梯度提升樹、梯度提升樹。為了減少過擬合,在第一層模型訓練利用5折交叉驗證找到使模型泛化的最優超參數,最終K近鄰參數K設為1,距離參數為曼哈頓距離,極端梯度提升樹的學習率為0.05,樹的個數為600,樹深為15,梯度提升樹的學習率為0.1,樹的個數為800,樹深為15。

多層堆疊模型的第二層是將各分類器的輸出概率作為特征F′識別,由于第一層采用了多個復雜的非線性分類器,為了降低過擬合的風險,第二層分類器選取了較為簡單的邏輯回歸模型,正則化參數設置為l2,優化算法為sag。

2 結果分析

2.1 DB-SMOTE對識別方法的影響

DB-SMOTE算法過濾了少數類房性早搏心拍中的噪聲,生成的樣本增強了少數類樣本集,也減少了入侵多數類樣本空間的風險。以堆疊模型中的極端梯度提升樹為例,結合合成少數類過采樣技術的極端梯度提升樹識別準確率為99.26%,結合DB-SMOTE算法的極端梯度提升樹識別準確率達99.42%。由極端梯度提升樹的對比實驗可以看出,DB-SMOTE算法濾去了噪聲樣本,生成的少數類樣本改善了樣本的空間分布,提升了最終的識別效果。

圖7 使用DB-SMOTE識別房性早搏

在5類心電圖數據中,房性早搏的心拍數量是最少的,也是識別效果最差的。DB-SMOTE算法能夠有效改善數據分布狀況。采用DB-SMOTE算法生成少數類房性早搏心拍,并結合K近鄰、極端梯度提升樹和梯度提升樹進行識別,與未使用DB-SMOTE算法進行比較,各分類器識別表現見圖7。

從圖7中可以看出:對于K近鄰、極端梯度提升樹和梯度提升樹3種分類器,使用DB-SMOTE算法均提高了房性早搏類的分類準確率。針對房性早搏類的識別情況,K近鄰的分類效果最差,結合DB-SMOTE算法后準確率提高了1.35%,較大地提高了K近鄰的分類效果;對于分類效果較好的極端梯度提升樹和梯度提升樹,結合DB-SMOTE算法后識別準確率未有較大的提升。DB-SMOTE算法對于效果較差的分類器,準確率提升較為明顯,對于分類效果較好的分類器,準確率略有提高。

2.2 多層堆疊模型對識別方法的影響

單一的分類器識別結果并未令人滿意,因此構造多層堆疊分類器來提升模型性能。實驗中為提升效果,選取單一分類器中性能較好的3個分類器K近鄰、極端梯度提升樹和梯度提升樹。基分類器類型不同,各有優點和缺點,可通過分類器之間的互補達到提升性能的作用。

多層堆疊模型的基模型融合不是簡單使用投票機制,而是通過第二層的邏輯回歸分類器將基模型的結果作為新的特征向量,再一輪訓練和預測,最后輸出識別結果。經過投票法與邏輯回歸模型融合的對比實驗,投票法的識別準確率達99.46%,而邏輯回歸模型融合的識別準確率為99.66%,明顯優于投票法的結果。從圖8的實驗結果可看出,多層堆疊模型與單獨使用一種分類器進行分類相比,在模型性能上都優于對比的單一分類器,尤其是少數類房性早搏的效果提升最為明顯。分類器的堆疊顯然會造成模型收斂時間變長;不過,實際應用多為離線學習,訓練的復雜度對模型應用影響不大。

圖8 使用多層堆疊集成分類對比

2.3 評價指標

表2 混淆矩陣

在分類任務中一般以分類的準確率來衡量任務的成功程度,但在數據不平衡的情況下,僅以準確率作為衡量指標不夠全面。在機器學習領域,常利用混淆矩陣客觀評價分類性能,它是精度評價的一種標準格式,混淆矩陣具體見表2。

其中,TP表示正確分類的正類樣本數量,TN表示正確分類的錯誤樣本數量,FP表示錯誤分類的負類樣本數量,FN表示為被錯誤分類的正類樣本數量。基于混淆矩陣,目前有一些評估指標專門用于評價不平衡的數據集。選擇F-value(Fvalue)以及G-mean(Gmean)作為評估分類器性能的指標,平均方法為宏平均(macro-average)。

(5)

(6)

(7)

Gmean=(PR)1/2,

(8)

其中,P表示查準率,R表示查全率,β為查全率對查準率的相對重要性。文中將β設置為1,代表查準率和查全率的重要性相同。

表3 各分類器F-value和G-mean實驗對比

在相同的數據集下,13層的卷積神經網絡VGG13的準確率達到98.7%,其中,學習率設為0.01,批尺寸設為256,epoch設為300;單層的LSTM網絡準確率達到99.08%,其中,學習率取為0.01,批尺寸取為64,epoch取為300,這兩種深度網絡都不如文中識別方法效果好。和傳統機器學習相比,深度學習的訓練需要更多的數據以及復雜的深度網絡,在較淺的卷積神經網絡或數據較少的情況下,傳統機器學習的表現更為突出。同樣針對MITBIH數據集,與表4總結的參考文獻給出的實驗結果對比,文中提出的算法性能更優。

表4 文中的識別方法與相關研究算法對比

3 結束語

針對心電圖信號識別性能不理想尤其是少數類房性早搏的心拍識別效果差的問題,筆者提出了一種識別心律失常的方法。其中主要包括DB-SMOTE算法濾去少數類噪聲樣本,通過構造數據緩解樣本的類別間失衡和類內失衡,以小波變換壓縮心電圖信號以及多層堆疊模型組合分類器互補提升識別性能。該方法能夠充分利用心電圖信號中的信息,整體的分類準確率達到99.66%,F-value的準確率為99.43%,G-mean的準確率為99.44%。心律失常識別方法提高了準確率、F-value和G-mean,尤其是在少數類疾病的識別上有較大提升,也優于VGG13和LSTM等深度學習網絡,對未來應用于臨床試驗具有一定意義。

猜你喜歡
分類信號模型
一半模型
分類算一算
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 久久a级片| 国产va在线观看| 欧美成人h精品网站| 四虎永久在线| 亚洲精品在线91| 欧美综合成人| 人妻少妇乱子伦精品无码专区毛片| 一级毛片免费的| 国产欧美高清| 91蝌蚪视频在线观看| 国产你懂得| 草草影院国产第一页| 国产成人精品男人的天堂下载| 国产丝袜精品| 色悠久久久久久久综合网伊人| 中美日韩在线网免费毛片视频| 黄色网在线免费观看| 真人免费一级毛片一区二区| 国产一区二区三区视频| 欧美亚洲中文精品三区| 制服无码网站| 欧美成人怡春院在线激情| 在线观看精品自拍视频| 日韩国产另类| 国产精品精品视频| 亚洲中文在线视频| 综合成人国产| 狠狠色香婷婷久久亚洲精品| 色哟哟精品无码网站在线播放视频| 99re精彩视频| 亚洲色大成网站www国产| 亚洲一区国色天香| 欧美三级不卡在线观看视频| 日韩亚洲高清一区二区| 国产欧美日韩另类精彩视频| 国产精品尹人在线观看| 黑人巨大精品欧美一区二区区| 精品91视频| 毛片在线看网站| 色婷婷色丁香| 高清不卡一区二区三区香蕉| 欧美日在线观看| 国产精品v欧美| 中文无码精品A∨在线观看不卡| 国产色婷婷| 国产波多野结衣中文在线播放| 国产福利免费在线观看| 国产农村妇女精品一二区| 成人午夜视频在线| 亚洲视频色图| 麻豆精品久久久久久久99蜜桃| 最新日韩AV网址在线观看| 国产福利一区二区在线观看| 中日韩欧亚无码视频| 精品国产www| 免费一级毛片在线观看| 97在线公开视频| 亚洲日韩精品欧美中文字幕| 色哟哟精品无码网站在线播放视频| 九九九九热精品视频| 成人福利在线看| 国产精品成人啪精品视频| 国产精品视频观看裸模| 国产一区二区在线视频观看| 精品国产免费第一区二区三区日韩| 亚洲中文字幕久久精品无码一区| 91av成人日本不卡三区| 岛国精品一区免费视频在线观看| 亚洲男人天堂2018| 91高清在线视频| 五月婷婷亚洲综合| 热久久国产| 18禁色诱爆乳网站| 国产杨幂丝袜av在线播放| 国产99热| 亚洲人成在线精品| 国内a级毛片| 视频二区欧美| 欧美一区国产| 亚洲三级影院| 毛片在线播放a| AV不卡国产在线观看|