999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的心電圖診斷研究

2020-09-08 08:12:10王官軍吳婷汪龍唐祖勝
實用心電學雜志 2020年4期
關鍵詞:模型

王官軍 吳婷 汪龍 唐祖勝

心電圖作為臨床最常用的檢查手段之一,在心肌梗死、心律失常等疾病的診斷中有不可替代的作用。但在臨床應用中,心電圖診斷易受判讀醫師個人經驗及主觀因素影響而出現差錯,因此,越來越多的研究聚焦于心電圖信號的自動判讀[1-3]。傳統心電圖輔助診斷技術易受干擾因素影響,存在魯棒性不佳、泛化性能不強的缺點,難以適用于臨床[4-5]。近年來,人工智能在醫療應用領域高度滲透[2],在圖像識別、智能診斷等方面取得了可喜的成績[3],而基于人工智能的心電診斷正是今后心電報告的發展方向[6]。中國優質醫療資源過度集中于大中型城市及大型教學醫院,偏遠落后地區及基層醫療機構診療水平較低,心電圖判讀準確性不高一直是亟待解決的問題;同時,醫院大量心電圖均依靠人工診斷,耗時費力,這種落后的心電圖判讀方式制約著中國心電事業的發展[7],因此,中國亟須建立人工智能心電診斷系統。

圖1 訓練集心電圖可視化Fig.1 Visualization of a case of training set ECG

機器學習是人工智能領域最主要的分支,通過提取數據特征進行數學建模來自動學習數據的內在規律[8-9]。常見的機器學習模型包括K-近鄰(K-nearest neighbor, KNN)、決策樹、隨機森林(random forest, RF)、支持向量機(support vector machine, SVM)、Logistic回歸等[9-10]。快速、準確的心電圖輔助診斷技術成為當前醫療領域研究的熱點[5,11-12]。然而,目前針對心電圖診斷的機器學習算法技術尚不成熟,自動報告錯漏百出,臨床應用存在局限性,很多醫院不得不關掉心電圖人工智能輔助診斷系統[7,13-14];此外,目前關于各種機器學習算法性能對比的研究很少[15-17]。鑒于上述應用及研究現狀,本文利用公共數據平臺上的大量心電圖記錄,對比4種常見的機器學習分類算法的性能,為進一步的算法研究提供理論依據。

1 研究方法

本文利用公共心電數據庫心電圖記錄,進行4種常見機器學習分類算法的心電圖診斷研究。對心電信號進行預處理并通過主成分分析(principal component analysis, PCA)降維提取特征,針對4種常見的心電圖診斷,分別采用K-近鄰算法、隨機森林、Logistic回歸和支持向量機算法進行二分類預測算法研究,并評估4種算法的預測表現。利用Python 3.7.4編程,開發環境為JupyterLab,并采用Numpy 1.18.1、Pandas 1.0.1及Sklearn 0.22.2包進行科學計算。

1.1 數據獲取

數據來源于PTB-XL心電圖數據庫。該數據庫(https://physionet.org/content/ptb-xl/1.0.1)是國際公認的大型心電數據庫,且公開免費,截至2020年7月,共包含21 837條心電圖記錄。每條心電圖記錄包含10 s的心電數據,采樣率為500 Hz;每條記錄的總樣本點為6萬,均為標準12導聯心電圖(Ⅰ—Ⅲ、aVR、aVL、aVF、V1—V6),以專有壓縮格式存儲。該數據庫2019年發布時對數據進行了簡化,提升了機器學習的可訪問性及可用性。

1.2 數據預處理

使用PTB-XL心電圖數據庫提供的Python工具提取心電圖數據,并按照推薦方案劃分訓練集(train set)、測試集(test set)。經劃分,訓練集共有19 634例(89.9%)樣本,測試集有2203例(10.1%)樣本。

1.2.1 缺失值處理 刪除訓練集中367例(1.9%)缺少標簽的心電圖數據,共得到19 267例訓練樣本;測試集數據無缺失值。對1例訓練集心電圖進行可視化處理,如圖1所示。

1.2.2 心電圖截取 心電圖波形形態的異常往往體現在每個心電導程中,因此,可以對心電信號進行逐導程分割。心電圖截取長度是影響分類結果的重要因素,截取1 s的心電數據基本可包含所有的波形特征[18]。本文以Ⅱ導聯R波最高點來確定截取范圍(R波最高點之前150個數據點,之后350個數據點),截取1 s的心電圖片段進行分類研究,如圖2所示,圖中加粗部分為下采樣后的心電圖。

1.2.3 去基線 由于基線偏移會對特征值提取造成很大障礙,尤其是在心肌梗死、ST-T改變的預測中,基線偏移會對模型預測造成很大干擾,導致特征無法被有效識別,因此,在分析心電圖數據前需要通過預處理消除信號基線。通過采用插值方法,可先在心動周期中找到基線,再用所有數據減去基線,即可得到去基線的心電圖數據[18-19]。如圖3所示(圖中虛線為基線),本研究的心電數據存在明顯的基線漂移。采用PR段作為基線,先取每個導聯PR段上10個數據點的均值作為基線的近似值,然后用所有數據減去該近似值,即可得到去基線的心電圖數據,如圖4所示。

1.2.4 主成分分析降維 心電圖數據經裁剪,合成一個6000(500×12)維的特征矩陣。由于特征維數太大,計算開銷過大,且存在過擬合風險,因此需要進一步減少特征向量維數,本文采用PCA方法。PCA通過正交線性變換進行降維,用方差來衡量信息量,可在顯著降低特征維度的同時,保留絕大部分方差,并在一定程度上降低噪音[20]。訓練集特征矩陣經PCA降維后,累積可解釋方差貢獻率曲線如圖5所示,圖中n為降維后保留的特征個數。在保留150個降維后特征的同時,僅損失少量信息(2.82%)。PCA降維前的心電圖如圖6所示。經PCA降維后,再將降維后的主成分映射到原特征矩陣所在的特征空間,并進行可視化處理(圖7)。對比降維前后的心電圖,發現降維后的心電圖保留了絕大部分原心電圖特征,僅在少數細節處與原心電圖稍有不同。后續所有心電圖數據均采用PCA方法處理,將特征矩陣降至150維。

圖2 截取1 s心電圖數據

圖3 原始心電圖信號

圖4 去基線后的心電圖信號

圖5 累積可解釋方差貢獻率曲線

圖6 主成分分析降維前心電圖

圖7 主成分分析降維后映射到原特征空間的心電圖

1.2.5 樣本不平衡問題處理 近年來,不平衡學習問題作為機器學習的研究領域之一得到密切關注,其本質是數據分布不均衡,導致很多機器學習分類算法的性能被削弱。機器學習算法在不平衡數據集上訓練時,傾向于將樣本預測為多數類。盡管如此可以得到較高的準確率,但會導致很低的召回率,從而出現預測模型無法將正樣本準確分類的情況,甚至造成預測模型完全失效。數據不平衡問題廣泛存在于機器學習的各個領域。相對于多數類樣本,少數類樣本通常攜帶更為重要的信息,具有更高的錯判代價。因此,多數情況下,我們應當更加關注少數類樣本的分類準確性。要處理樣本不平衡問題,通常是從數據、算法和集成三方面著手。數據層面的方法通常為上采樣、下采樣和混合采樣[21-22]。就醫學數據而言,很多數據集都是不平衡樣本,正負樣本比例差異較大,敏感性、特異性差異較大,導致模型的魯棒性較差,而心電數據往往存在樣本數量不平衡問題[2]。本研究存在樣本不均衡問題,所有分類中正樣本比例均顯著低于負樣本比例。欠采樣使最終的訓練集丟失部分數據;而過采樣會導致一個數據點在高維空間中出現多次,增加過擬合風險,很多研究通過在過采樣中加入少量隨機噪聲來減少這類風險。本文基于心電圖多導程特點,利用過采樣方法采集不同的心電導程,如圖8中加粗部分所示。由于心電采集過程中背景噪音的存在,不會出現完全一致的數據點,因此避免了上述簡單復制所帶來的問題。表1為訓練集過采樣前后的正樣本比例數據,經過采樣后,訓練集正負樣本比例大致相同。

圖8 利用心電圖多導程特點進行過采樣

表1 過采樣前后訓練集正樣本比例 n(%)Tab.1 Positive sample ratio of training set beforeand after oversampling

2 結果

為降低模型預測的結構風險,本研究采用K-折交叉驗證方法估計模型誤差。K-折交叉驗證是機器學習領域應用最多的泛化誤差估計方法。它通過將訓練集等分為K份,依次使用其中的K-1份數據作為訓練集訓練模型,剩下的數據作為驗證集測試模型,各得到K個訓練集和驗證集,將這K個模型的平均誤差作為泛化誤差的估計[23]。

圖9 4種算法的準確率對比

本研究采用5-折交叉驗證,通過反復繪制學習曲線,不斷優化模型超參數,選擇對驗證集平均預測準確率最高的模型。采用K-近鄰、隨機森林、Logistic回歸、高斯核函數支持向量機這4種經典的機器學習算法,分別針對傳導阻滯、心肌梗死、ST-改變和心肌肥厚進行二分類預測;通過對比測試集的模型預測準確率、召回率和精準率,評價模型的優劣。不同算法針對測試集的預測準確率、召回率和精準率分別如圖9—圖11所示。針對傳導阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖,支持向量機算法預測的準確率分別為84.8%、81.3%、82.0%和88.1%;召回率分別為55.0%、52.6%、62.9%和39.1%;精準率分別為69.8%、65.3%、64.1%和49.6%。支持向量機算法預測的準確率、召回率明顯高于其他3種算法;其精準率與K-近鄰算法相當,均明顯高于其他兩種算法。綜合來看,以預測準確率、召回率及精準率來評估模型優劣,支持向量機對上述4種常見心電圖分類的預測表現總體上優于其他3種算法。

圖10 4種算法的召回率對比

圖11 4種算法的精準率對比

為了進一步評價模型優度,選取不同的判定閾值,得到不同的假陽性率(false positive rate,FPR)、真陽性率(true positive rate,TPR),再以FPR為x軸、TPR為y軸,繪制不同算法針對不同心電圖診斷的工作者特征(receiver operating characteristic,ROC)曲線,并計算曲線下面積(area under curve, AUC)。由FPR和TPR的定義可知,曲線越靠近左上,AUC值越大,模型預測效果越好[19]。上述4種算法針對不同心電圖分類的ROC曲線對比如圖12—圖15所示。由圖12—圖15可見,支持向量機算法的ROC曲線在4種心電圖類別上均最靠近左上角,且AUC值均高于其他3種算法,因此,支持向量機算法在ROC曲線評價指標上優于其他3種算法。

圖12 4種算法針對傳導阻滯的ROC曲線對比

圖13 4種算法針對心肌梗死的ROC曲線對比

圖14 4種算法針對ST-T改變的ROC曲線對比

圖15 4種算法針對心肌肥厚的ROC曲線對比

綜合預測準確率、召回率、精準率,以及ROC曲線模型評價指標來看,支持向量機在模型預測中的表現優于其他3種算法。需要注意的是,盡管支持向量機算法的預測準確率較高,但召回率、精準率尚達不到臨床應用的要求,導致模型預測敏感性低、錯判風險高,有待通過進一步研究改進模型,提升模型的預測表現,從而更好地服務于臨床。

3 討論

本研究利用PTB-XL公共心電數據庫的21 837條心電圖記錄,進行4種常見機器學習分類算法的心電圖診斷對比研究。首先,對心電信號進行缺失值刪除、裁剪、去基線等預處理;然后,通過PCA降維提取特征,針對傳導阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖,分別采用K-近鄰算法、隨機森林、Logistic回歸和支持向量機算法進行二分類預測算法研究。具體步驟如下:先通過PTB-XL數據庫推薦的方法劃分訓練集、測試集,選擇5-折交叉驗證方法,運用上述4種分類算法,利用訓練集數據訓練模型并不斷優化模型參數,再用測試集來進行模型優度評價。研究結果表明:綜合預測準確率、召回率、精準率,以及ROC曲線模型評價指標來看,支持向量機在模型預測中的表現優于其他3種算法。

但是,本研究仍然存在局限性。雖然支持向量機算法在上述4種常見心電圖分類診斷中有較高的準確率,但因召回率不高導致診斷敏感性較低,因精準率不高造成錯判風險較大,因此,該算法尚不能直接應用于臨床診斷。鑒于此,我們需要預測精度更高的模型。在下一步研究中,可通過以下3種方法提升模型的預測表現,① 擴大樣本量:目前,中國各大醫院逐步實現了心電圖等醫療信息的電子化,心電圖獲取成本降低,使獲得海量心電圖成為可能。利用海量心電圖訓練模型可避免過擬合,從而得到魯棒性及泛化性能更佳的預測模型。② 改進數據預處理方式:心電信號的預處理直接影響到模型的預測表現,也是極為重要的環節。研究表明,小波變換在心電圖預處理中有極其重要的地位,其可以有效濾過基線漂移、工頻干擾、肌電干擾等噪聲,顯著提升模型的預測表現。③ 深度學習算法:在圖像識別領域,深度學習算法往往優于傳統的機器學習算法。近年來,深度學習運用于心電圖診斷的研究越來越多。卷積神經網絡(convolutional neural network,CNN)是深度學習的一種經典算法。CNN采用不同的卷積核提取不同心電圖的特征,通過池化層下采樣降低特征維度,并可以通過加大卷積層的深度來提取深層次特征,再將池化層降維后的特征接入全連接層,最終通過Softmax層輸出二分類結果的概率分布。CNN有平移不變性等優良特性,能夠直接處理原始信號,其魯棒性、泛化性能更好。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产亚洲精品97在线观看| 亚洲精品老司机| 亚洲人成网站18禁动漫无码| 国产青榴视频| 福利在线不卡一区| 日韩无码视频播放| 午夜视频在线观看免费网站| 日韩福利视频导航| 亚洲性视频网站| 免费人欧美成又黄又爽的视频| 国产亚洲美日韩AV中文字幕无码成人 | 精品1区2区3区| 欧美日韩午夜| 亚洲天堂久久| 美女内射视频WWW网站午夜 | 国产男女XX00免费观看| 日韩国产 在线| 国产真实自在自线免费精品| 国产成人高清在线精品| 女人天堂av免费| 亚洲天堂网2014| 国产三级a| 成人在线观看一区| 国产不卡在线看| 午夜日韩久久影院| 免费一级毛片在线播放傲雪网| 无码专区在线观看| 日本在线免费网站| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲综合片| 亚洲av无码久久无遮挡| a级毛片免费网站| 在线精品亚洲一区二区古装| 91人人妻人人做人人爽男同| 国产日韩av在线播放| 欧美成人免费午夜全| 五月婷婷综合色| 99爱视频精品免视看| 欧美日本在线| 九九热这里只有国产精品| 国产极品美女在线播放| 玖玖免费视频在线观看| 国产成人1024精品| 草草影院国产第一页| 国产91小视频在线观看| AV熟女乱| 精品自拍视频在线观看| 久久99国产视频| 97久久免费视频| 久操中文在线| 亚洲人成影院在线观看| 伊人久久久大香线蕉综合直播| 99热这里只有精品国产99| 夜夜爽免费视频| 欧美啪啪一区| 久青草网站| 国产 日韩 欧美 第二页| 永久免费av网站可以直接看的| 久久毛片免费基地| 欧美v在线| 91久久偷偷做嫩草影院电| 日韩精品久久久久久久电影蜜臀| 精品久久国产综合精麻豆| 亚洲一区二区三区国产精华液| 国产高清无码麻豆精品| 欧美中日韩在线| 国产18在线| 激情在线网| 精品中文字幕一区在线| 18禁黄无遮挡免费动漫网站| 26uuu国产精品视频| 欧美国产综合视频| 香港一级毛片免费看| h网站在线播放| 亚洲视频一区在线| 国产成人亚洲毛片| 亚洲无限乱码一二三四区| 国模粉嫩小泬视频在线观看| 亚洲av中文无码乱人伦在线r| 亚洲中文精品久久久久久不卡| 四虎在线观看视频高清无码| 久久亚洲精少妇毛片午夜无码 |