基于機(jī)器學(xué)習(xí)的心電圖診斷研究

2020-09-08 08:12:10王官軍吳婷汪龍唐祖勝

實(shí)用心電學(xué)雜志 2020年4期

關(guān)鍵詞：模型

王官軍吳婷汪龍唐祖勝

心電圖作為臨床最常用的檢查手段之一，在心肌梗死、心律失常等疾病的診斷中有不可替代的作用。但在臨床應(yīng)用中，心電圖診斷易受判讀醫(yī)師個(gè)人經(jīng)驗(yàn)及主觀因素影響而出現(xiàn)差錯(cuò)，因此，越來越多的研究聚焦于心電圖信號(hào)的自動(dòng)判讀[1-3]。傳統(tǒng)心電圖輔助診斷技術(shù)易受干擾因素影響，存在魯棒性不佳、泛化性能不強(qiáng)的缺點(diǎn)，難以適用于臨床[4-5]。近年來，人工智能在醫(yī)療應(yīng)用領(lǐng)域高度滲透[2]，在圖像識(shí)別、智能診斷等方面取得了可喜的成績(jī)[3]，而基于人工智能的心電診斷正是今后心電報(bào)告的發(fā)展方向[6]。中國(guó)優(yōu)質(zhì)醫(yī)療資源過度集中于大中型城市及大型教學(xué)醫(yī)院，偏遠(yuǎn)落后地區(qū)及基層醫(yī)療機(jī)構(gòu)診療水平較低，心電圖判讀準(zhǔn)確性不高一直是亟待解決的問題；同時(shí)，醫(yī)院大量心電圖均依靠人工診斷，耗時(shí)費(fèi)力，這種落后的心電圖判讀方式制約著中國(guó)心電事業(yè)的發(fā)展[7]，因此，中國(guó)亟須建立人工智能心電診斷系統(tǒng)。

圖1 訓(xùn)練集心電圖可視化Fig.1 Visualization of a case of training set ECG

機(jī)器學(xué)習(xí)是人工智能領(lǐng)域最主要的分支，通過提取數(shù)據(jù)特征進(jìn)行數(shù)學(xué)建模來自動(dòng)學(xué)習(xí)數(shù)據(jù)的內(nèi)在規(guī)律[8-9]。常見的機(jī)器學(xué)習(xí)模型包括K-近鄰(K-nearest neighbor, KNN)、決策樹、隨機(jī)森林(random forest, RF)、支持向量機(jī)(support vector machine, SVM)、Logistic回歸等[9-10]。快速、準(zhǔn)確的心電圖輔助診斷技術(shù)成為當(dāng)前醫(yī)療領(lǐng)域研究的熱點(diǎn)[5,11-12]。然而，目前針對(duì)心電圖診斷的機(jī)器學(xué)習(xí)算法技術(shù)尚不成熟，自動(dòng)報(bào)告錯(cuò)漏百出，臨床應(yīng)用存在局限性，很多醫(yī)院不得不關(guān)掉心電圖人工智能輔助診斷系統(tǒng)[7,13-14]；此外，目前關(guān)于各種機(jī)器學(xué)習(xí)算法性能對(duì)比的研究很少[15-17]。鑒于上述應(yīng)用及研究現(xiàn)狀，本文利用公共數(shù)據(jù)平臺(tái)上的大量心電圖記錄，對(duì)比4種常見的機(jī)器學(xué)習(xí)分類算法的性能，為進(jìn)一步的算法研究提供理論依據(jù)。

1 研究方法

本文利用公共心電數(shù)據(jù)庫(kù)心電圖記錄，進(jìn)行4種常見機(jī)器學(xué)習(xí)分類算法的心電圖診斷研究。對(duì)心電信號(hào)進(jìn)行預(yù)處理并通過主成分分析(principal component analysis, PCA)降維提取特征，針對(duì)4種常見的心電圖診斷，分別采用K-近鄰算法、隨機(jī)森林、Logistic回歸和支持向量機(jī)算法進(jìn)行二分類預(yù)測(cè)算法研究，并評(píng)估4種算法的預(yù)測(cè)表現(xiàn)。利用Python 3.7.4編程，開發(fā)環(huán)境為JupyterLab，并采用Numpy 1.18.1、Pandas 1.0.1及Sklearn 0.22.2包進(jìn)行科學(xué)計(jì)算。

1.1 數(shù)據(jù)獲取

數(shù)據(jù)來源于PTB-XL心電圖數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)(https://physionet.org/content/ptb-xl/1.0.1)是國(guó)際公認(rèn)的大型心電數(shù)據(jù)庫(kù)，且公開免費(fèi)，截至2020年7月，共包含21 837條心電圖記錄。每條心電圖記錄包含10 s的心電數(shù)據(jù)，采樣率為500 Hz；每條記錄的總樣本點(diǎn)為6萬，均為標(biāo)準(zhǔn)12導(dǎo)聯(lián)心電圖(Ⅰ—Ⅲ、aVR、aVL、aVF、V1—V6)，以專有壓縮格式存儲(chǔ)。該數(shù)據(jù)庫(kù)2019年發(fā)布時(shí)對(duì)數(shù)據(jù)進(jìn)行了簡(jiǎn)化，提升了機(jī)器學(xué)習(xí)的可訪問性及可用性。

1.2 數(shù)據(jù)預(yù)處理

使用PTB-XL心電圖數(shù)據(jù)庫(kù)提供的Python工具提取心電圖數(shù)據(jù)，并按照推薦方案劃分訓(xùn)練集(train set)、測(cè)試集(test set)。經(jīng)劃分，訓(xùn)練集共有19 634例(89.9%)樣本，測(cè)試集有2203例(10.1%)樣本。

1.2.1 缺失值處理刪除訓(xùn)練集中367例(1.9%)缺少標(biāo)簽的心電圖數(shù)據(jù)，共得到19 267例訓(xùn)練樣本；測(cè)試集數(shù)據(jù)無缺失值。對(duì)1例訓(xùn)練集心電圖進(jìn)行可視化處理，如圖1所示。

1.2.2 心電圖截取心電圖波形形態(tài)的異常往往體現(xiàn)在每個(gè)心電導(dǎo)程中，因此，可以對(duì)心電信號(hào)進(jìn)行逐導(dǎo)程分割。心電圖截取長(zhǎng)度是影響分類結(jié)果的重要因素，截取1 s的心電數(shù)據(jù)基本可包含所有的波形特征[18]。本文以Ⅱ?qū)?lián)R波最高點(diǎn)來確定截取范圍(R波最高點(diǎn)之前150個(gè)數(shù)據(jù)點(diǎn)，之后350個(gè)數(shù)據(jù)點(diǎn))，截取1 s的心電圖片段進(jìn)行分類研究，如圖2所示，圖中加粗部分為下采樣后的心電圖。

1.2.3 去基線由于基線偏移會(huì)對(duì)特征值提取造成很大障礙，尤其是在心肌梗死、ST-T改變的預(yù)測(cè)中，基線偏移會(huì)對(duì)模型預(yù)測(cè)造成很大干擾，導(dǎo)致特征無法被有效識(shí)別，因此，在分析心電圖數(shù)據(jù)前需要通過預(yù)處理消除信號(hào)基線。通過采用插值方法，可先在心動(dòng)周期中找到基線，再用所有數(shù)據(jù)減去基線，即可得到去基線的心電圖數(shù)據(jù)[18-19]。如圖3所示(圖中虛線為基線)，本研究的心電數(shù)據(jù)存在明顯的基線漂移。采用PR段作為基線，先取每個(gè)導(dǎo)聯(lián)PR段上10個(gè)數(shù)據(jù)點(diǎn)的均值作為基線的近似值，然后用所有數(shù)據(jù)減去該近似值，即可得到去基線的心電圖數(shù)據(jù)，如圖4所示。

1.2.4 主成分分析降維心電圖數(shù)據(jù)經(jīng)裁剪，合成一個(gè)6000(500×12)維的特征矩陣。由于特征維數(shù)太大，計(jì)算開銷過大，且存在過擬合風(fēng)險(xiǎn)，因此需要進(jìn)一步減少特征向量維數(shù)，本文采用PCA方法。PCA通過正交線性變換進(jìn)行降維，用方差來衡量信息量，可在顯著降低特征維度的同時(shí)，保留絕大部分方差，并在一定程度上降低噪音[20]。訓(xùn)練集特征矩陣經(jīng)PCA降維后，累積可解釋方差貢獻(xiàn)率曲線如圖5所示，圖中n為降維后保留的特征個(gè)數(shù)。在保留150個(gè)降維后特征的同時(shí)，僅損失少量信息(2.82%)。PCA降維前的心電圖如圖6所示。經(jīng)PCA降維后，再將降維后的主成分映射到原特征矩陣所在的特征空間，并進(jìn)行可視化處理(圖7)。對(duì)比降維前后的心電圖，發(fā)現(xiàn)降維后的心電圖保留了絕大部分原心電圖特征，僅在少數(shù)細(xì)節(jié)處與原心電圖稍有不同。后續(xù)所有心電圖數(shù)據(jù)均采用PCA方法處理，將特征矩陣降至150維。

圖2 截取1 s心電圖數(shù)據(jù)

圖3 原始心電圖信號(hào)

圖4 去基線后的心電圖信號(hào)

圖5 累積可解釋方差貢獻(xiàn)率曲線

圖6 主成分分析降維前心電圖

圖7 主成分分析降維后映射到原特征空間的心電圖

1.2.5 樣本不平衡問題處理近年來，不平衡學(xué)習(xí)問題作為機(jī)器學(xué)習(xí)的研究領(lǐng)域之一得到密切關(guān)注，其本質(zhì)是數(shù)據(jù)分布不均衡，導(dǎo)致很多機(jī)器學(xué)習(xí)分類算法的性能被削弱。機(jī)器學(xué)習(xí)算法在不平衡數(shù)據(jù)集上訓(xùn)練時(shí)，傾向于將樣本預(yù)測(cè)為多數(shù)類。盡管如此可以得到較高的準(zhǔn)確率，但會(huì)導(dǎo)致很低的召回率，從而出現(xiàn)預(yù)測(cè)模型無法將正樣本準(zhǔn)確分類的情況，甚至造成預(yù)測(cè)模型完全失效。數(shù)據(jù)不平衡問題廣泛存在于機(jī)器學(xué)習(xí)的各個(gè)領(lǐng)域。相對(duì)于多數(shù)類樣本，少數(shù)類樣本通常攜帶更為重要的信息，具有更高的錯(cuò)判代價(jià)。因此，多數(shù)情況下，我們應(yīng)當(dāng)更加關(guān)注少數(shù)類樣本的分類準(zhǔn)確性。要處理樣本不平衡問題，通常是從數(shù)據(jù)、算法和集成三方面著手。數(shù)據(jù)層面的方法通常為上采樣、下采樣和混合采樣[21-22]。就醫(yī)學(xué)數(shù)據(jù)而言，很多數(shù)據(jù)集都是不平衡樣本，正負(fù)樣本比例差異較大，敏感性、特異性差異較大，導(dǎo)致模型的魯棒性較差，而心電數(shù)據(jù)往往存在樣本數(shù)量不平衡問題[2]。本研究存在樣本不均衡問題，所有分類中正樣本比例均顯著低于負(fù)樣本比例。欠采樣使最終的訓(xùn)練集丟失部分?jǐn)?shù)據(jù)；而過采樣會(huì)導(dǎo)致一個(gè)數(shù)據(jù)點(diǎn)在高維空間中出現(xiàn)多次，增加過擬合風(fēng)險(xiǎn)，很多研究通過在過采樣中加入少量隨機(jī)噪聲來減少這類風(fēng)險(xiǎn)。本文基于心電圖多導(dǎo)程特點(diǎn)，利用過采樣方法采集不同的心電導(dǎo)程，如圖8中加粗部分所示。由于心電采集過程中背景噪音的存在，不會(huì)出現(xiàn)完全一致的數(shù)據(jù)點(diǎn)，因此避免了上述簡(jiǎn)單復(fù)制所帶來的問題。表1為訓(xùn)練集過采樣前后的正樣本比例數(shù)據(jù)，經(jīng)過采樣后，訓(xùn)練集正負(fù)樣本比例大致相同。

圖8 利用心電圖多導(dǎo)程特點(diǎn)進(jìn)行過采樣

表1 過采樣前后訓(xùn)練集正樣本比例 n(%)Tab.1 Positive sample ratio of training set beforeand after oversampling

2 結(jié)果

為降低模型預(yù)測(cè)的結(jié)構(gòu)風(fēng)險(xiǎn)，本研究采用K-折交叉驗(yàn)證方法估計(jì)模型誤差。K-折交叉驗(yàn)證是機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用最多的泛化誤差估計(jì)方法。它通過將訓(xùn)練集等分為K份，依次使用其中的K-1份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型，剩下的數(shù)據(jù)作為驗(yàn)證集測(cè)試模型，各得到K個(gè)訓(xùn)練集和驗(yàn)證集，將這K個(gè)模型的平均誤差作為泛化誤差的估計(jì)[23]。

圖9 4種算法的準(zhǔn)確率對(duì)比

本研究采用5-折交叉驗(yàn)證，通過反復(fù)繪制學(xué)習(xí)曲線，不斷優(yōu)化模型超參數(shù)，選擇對(duì)驗(yàn)證集平均預(yù)測(cè)準(zhǔn)確率最高的模型。采用K-近鄰、隨機(jī)森林、Logistic回歸、高斯核函數(shù)支持向量機(jī)這4種經(jīng)典的機(jī)器學(xué)習(xí)算法，分別針對(duì)傳導(dǎo)阻滯、心肌梗死、ST-改變和心肌肥厚進(jìn)行二分類預(yù)測(cè)；通過對(duì)比測(cè)試集的模型預(yù)測(cè)準(zhǔn)確率、召回率和精準(zhǔn)率，評(píng)價(jià)模型的優(yōu)劣。不同算法針對(duì)測(cè)試集的預(yù)測(cè)準(zhǔn)確率、召回率和精準(zhǔn)率分別如圖9—圖11所示。針對(duì)傳導(dǎo)阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖，支持向量機(jī)算法預(yù)測(cè)的準(zhǔn)確率分別為84.8%、81.3%、82.0%和88.1%；召回率分別為55.0%、52.6%、62.9%和39.1%；精準(zhǔn)率分別為69.8%、65.3%、64.1%和49.6%。支持向量機(jī)算法預(yù)測(cè)的準(zhǔn)確率、召回率明顯高于其他3種算法；其精準(zhǔn)率與K-近鄰算法相當(dāng)，均明顯高于其他兩種算法。綜合來看，以預(yù)測(cè)準(zhǔn)確率、召回率及精準(zhǔn)率來評(píng)估模型優(yōu)劣，支持向量機(jī)對(duì)上述4種常見心電圖分類的預(yù)測(cè)表現(xiàn)總體上優(yōu)于其他3種算法。

圖10 4種算法的召回率對(duì)比

圖11 4種算法的精準(zhǔn)率對(duì)比

為了進(jìn)一步評(píng)價(jià)模型優(yōu)度，選取不同的判定閾值，得到不同的假陽性率(false positive rate，F(xiàn)PR)、真陽性率(true positive rate，TPR)，再以FPR為x軸、TPR為y軸，繪制不同算法針對(duì)不同心電圖診斷的工作者特征(receiver operating characteristic，ROC)曲線，并計(jì)算曲線下面積(area under curve， AUC)。由FPR和TPR的定義可知，曲線越靠近左上，AUC值越大，模型預(yù)測(cè)效果越好[19]。上述4種算法針對(duì)不同心電圖分類的ROC曲線對(duì)比如圖12—圖15所示。由圖12—圖15可見，支持向量機(jī)算法的ROC曲線在4種心電圖類別上均最靠近左上角，且AUC值均高于其他3種算法，因此，支持向量機(jī)算法在ROC曲線評(píng)價(jià)指標(biāo)上優(yōu)于其他3種算法。

圖12 4種算法針對(duì)傳導(dǎo)阻滯的ROC曲線對(duì)比

圖13 4種算法針對(duì)心肌梗死的ROC曲線對(duì)比

圖14 4種算法針對(duì)ST-T改變的ROC曲線對(duì)比

圖15 4種算法針對(duì)心肌肥厚的ROC曲線對(duì)比

綜合預(yù)測(cè)準(zhǔn)確率、召回率、精準(zhǔn)率，以及ROC曲線模型評(píng)價(jià)指標(biāo)來看，支持向量機(jī)在模型預(yù)測(cè)中的表現(xiàn)優(yōu)于其他3種算法。需要注意的是，盡管支持向量機(jī)算法的預(yù)測(cè)準(zhǔn)確率較高，但召回率、精準(zhǔn)率尚達(dá)不到臨床應(yīng)用的要求，導(dǎo)致模型預(yù)測(cè)敏感性低、錯(cuò)判風(fēng)險(xiǎn)高，有待通過進(jìn)一步研究改進(jìn)模型，提升模型的預(yù)測(cè)表現(xiàn)，從而更好地服務(wù)于臨床。

3 討論

本研究利用PTB-XL公共心電數(shù)據(jù)庫(kù)的21 837條心電圖記錄，進(jìn)行4種常見機(jī)器學(xué)習(xí)分類算法的心電圖診斷對(duì)比研究。首先，對(duì)心電信號(hào)進(jìn)行缺失值刪除、裁剪、去基線等預(yù)處理；然后，通過PCA降維提取特征，針對(duì)傳導(dǎo)阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖，分別采用K-近鄰算法、隨機(jī)森林、Logistic回歸和支持向量機(jī)算法進(jìn)行二分類預(yù)測(cè)算法研究。具體步驟如下：先通過PTB-XL數(shù)據(jù)庫(kù)推薦的方法劃分訓(xùn)練集、測(cè)試集，選擇5-折交叉驗(yàn)證方法，運(yùn)用上述4種分類算法，利用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型并不斷優(yōu)化模型參數(shù)，再用測(cè)試集來進(jìn)行模型優(yōu)度評(píng)價(jià)。研究結(jié)果表明：綜合預(yù)測(cè)準(zhǔn)確率、召回率、精準(zhǔn)率，以及ROC曲線模型評(píng)價(jià)指標(biāo)來看，支持向量機(jī)在模型預(yù)測(cè)中的表現(xiàn)優(yōu)于其他3種算法。

但是，本研究仍然存在局限性。雖然支持向量機(jī)算法在上述4種常見心電圖分類診斷中有較高的準(zhǔn)確率，但因召回率不高導(dǎo)致診斷敏感性較低，因精準(zhǔn)率不高造成錯(cuò)判風(fēng)險(xiǎn)較大，因此，該算法尚不能直接應(yīng)用于臨床診斷。鑒于此，我們需要預(yù)測(cè)精度更高的模型。在下一步研究中，可通過以下3種方法提升模型的預(yù)測(cè)表現(xiàn)，① 擴(kuò)大樣本量：目前，中國(guó)各大醫(yī)院逐步實(shí)現(xiàn)了心電圖等醫(yī)療信息的電子化，心電圖獲取成本降低，使獲得海量心電圖成為可能。利用海量心電圖訓(xùn)練模型可避免過擬合，從而得到魯棒性及泛化性能更佳的預(yù)測(cè)模型。② 改進(jìn)數(shù)據(jù)預(yù)處理方式：心電信號(hào)的預(yù)處理直接影響到模型的預(yù)測(cè)表現(xiàn)，也是極為重要的環(huán)節(jié)。研究表明，小波變換在心電圖預(yù)處理中有極其重要的地位，其可以有效濾過基線漂移、工頻干擾、肌電干擾等噪聲，顯著提升模型的預(yù)測(cè)表現(xiàn)。③ 深度學(xué)習(xí)算法：在圖像識(shí)別領(lǐng)域，深度學(xué)習(xí)算法往往優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法。近年來，深度學(xué)習(xí)運(yùn)用于心電圖診斷的研究越來越多。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)是深度學(xué)習(xí)的一種經(jīng)典算法。CNN采用不同的卷積核提取不同心電圖的特征，通過池化層下采樣降低特征維度，并可以通過加大卷積層的深度來提取深層次特征，再將池化層降維后的特征接入全連接層，最終通過Softmax層輸出二分類結(jié)果的概率分布。CNN有平移不變性等優(yōu)良特性，能夠直接處理原始信號(hào)，其魯棒性、泛化性能更好。