陸浩軒, 徐瑾妍, 程可愛, 謝燕青, 王 麗, 計禮麗, 周 忠, 楊 卓, 景 勝, 何文明*
基于多因素回歸分析和機(jī)器學(xué)習(xí)算法的冠心病預(yù)測模型構(gòu)建及比較
陸浩軒1, 徐瑾妍2, 程可愛1, 謝燕青1, 王 麗1, 計禮麗1, 周 忠1, 楊 卓1, 景 勝1, 何文明1*
(1.寧波大學(xué)醫(yī)學(xué)院附屬醫(yī)院 心血管內(nèi)科, 浙江 寧波 315020; 2.寧波大學(xué)醫(yī)學(xué)院附屬醫(yī)院 神經(jīng)內(nèi)科, 浙江 寧波 315020)
本文旨在構(gòu)建基于臨床電子病歷數(shù)據(jù)的冠心病預(yù)測模型. 回顧性收集了2015年至2020年在寧波大學(xué)醫(yī)學(xué)院附屬醫(yī)院住院期間, 接受選擇性冠狀動脈造影的患者的臨床數(shù)據(jù), 分別應(yīng)用決策樹、樸素貝葉斯和邏輯回歸算法構(gòu)建冠心病預(yù)測模型, 比較3種模型的預(yù)測性能. 共收集354例患者數(shù)據(jù), 其中冠心病患者140例, 非冠心病患者214例, 根據(jù)邏輯回歸、樸素貝葉斯、決策樹算法構(gòu)建的3種預(yù)測模型的準(zhǔn)確性分別為70.6%、89.5%、90.7%; 曲線下面積分別為0.676、0.869、0.921. 所構(gòu)建的3種預(yù)測模型均具備較好的冠心病預(yù)測能力, 具有用于冠心病篩查的潛在價值.
冠心病; 機(jī)器學(xué)習(xí); 決策樹; 樸素貝葉斯
冠狀動脈粥樣硬化性心臟病(Coronary Atherosclerotic Heart Disease, CAD)是一種常見的心血管疾病, 簡稱冠心病. 一直以來, 選擇性冠狀動脈造影是診斷冠心病的“金標(biāo)準(zhǔn)”, 但其是一種有創(chuàng)操作, 且價格相對昂貴, 難以作為冠心病的篩查手段. 現(xiàn)存的一些冠心病風(fēng)險評估模型, 包括弗拉明翰風(fēng)險評分模型[1-2]等已被證明對診斷冠心病的準(zhǔn)確率有限[3], 也不適用于冠心病早期篩查.
鑒于現(xiàn)有方法的局限性, 本研究嘗試構(gòu)建無創(chuàng)冠心病預(yù)測模型, 基于相關(guān)的臨床數(shù)據(jù), 對冠心病進(jìn)行預(yù)測分類. 人工智能技術(shù)在醫(yī)學(xué)研究領(lǐng)域中被廣泛應(yīng)用于構(gòu)建疾病預(yù)測模型, 其對數(shù)據(jù)處理具有傳統(tǒng)統(tǒng)計學(xué)方法不具備的獨特優(yōu)勢[4-7]. 目前國內(nèi)外也報道了基于機(jī)器學(xué)習(xí)算法構(gòu)建冠心病預(yù)測模型的研究, Babaoglu等[8]基于支持向量機(jī)算法挖掘了23個臨床數(shù)據(jù)特征, 構(gòu)建了一種冠心病預(yù)測模型, 該模型的診斷準(zhǔn)確率達(dá)到了79.71%.
本文以包含354例患者的臨床電子病歷數(shù)據(jù)為數(shù)據(jù)源, 使用邏輯回歸分析和兩種常見的機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型, 以準(zhǔn)確性、曲線下面積(Area Under the Curve, AUC)、敏感性和特異性作為評價指標(biāo), 評估基于冠心病預(yù)測模型進(jìn)行冠心病篩查的可行性.
本研究回顧性收集了2015—2020年在寧波大學(xué)醫(yī)學(xué)院附屬醫(yī)院住院期間行選擇性冠狀動脈造影的患者資料, 收集的臨床數(shù)據(jù)包括年齡、性別、身高、體重、收縮壓、舒張壓、高血壓病史、高脂血癥史、糖尿病史、血管疾病史、腎病病史、吸煙史、飲酒史、實驗室檢查結(jié)果、心超左室射血分?jǐn)?shù). 收集的患者資料符合如下要求: ①既往無冠心病及相關(guān)疾病; ②數(shù)據(jù)資料較完整; ③年齡≥20歲. 所有患者均簽署冠狀動脈造影知情同意書.
使用單因素分析篩選與冠心病存在相關(guān)性的特征因素, 然后使用多因素邏輯回歸分析構(gòu)建冠心病預(yù)測模型. 同時, 使用兩種常用的機(jī)器學(xué)習(xí)算法(決策樹和樸素貝葉斯)構(gòu)建冠心病預(yù)測模型. 比較3種算法構(gòu)建的模型的預(yù)測性能. 模型的評價標(biāo)準(zhǔn)為準(zhǔn)確性、AUC值、敏感性和特異性.
特征選擇通過單因素分析進(jìn)行, 即將所有納入的變量進(jìn)行分析, 檢驗變量對冠心病分類結(jié)果有無顯著性影響. 單因素分析結(jié)果見表1.

表1 單因素分析結(jié)果
以<0.1作為特征篩選條件, 篩選出13個變量: 年齡、性別、吸煙史、高血壓病史、高脂血癥史、糖尿病史、血管疾病史、血鈉、血鈣、血糖、血肌酐、尿素氮、左室射血分?jǐn)?shù). 通過前向迭代法進(jìn)行多因素邏輯回歸分析并構(gòu)建預(yù)測分類模型.
決策樹算法可基于數(shù)據(jù)樣本的分布概率, 通過類似樹枝結(jié)構(gòu)形態(tài)的方式, 實現(xiàn)多層判斷, 從而判定目標(biāo)所屬類別. 決策樹有3種常用的求解方法: ID3、C4.5、CART. 本文選用ID3法求解, 其核心原理在于信息熵原理, 即通過信息熵增益選擇數(shù)據(jù)集內(nèi)對于信息增益最大的特征作為分類屬性, 逐步確定樹的分支, 最終實現(xiàn)決策樹的構(gòu)建.
信息熵用于反映隨機(jī)特征的不確定性, 信息熵越大, 樣本的不確定性越大.

計算以進(jìn)行數(shù)據(jù)劃分時的信息增益:


樸素貝葉斯算法是貝葉斯分類算法中最常用的算法之一.


樸素貝葉斯公式:


表2列出了符合條件的354名患者的人口統(tǒng)計學(xué)特征. 根據(jù)選擇性冠狀動脈造影結(jié)果顯示冠心病140例(39.5%), 非冠心病214例(60.5%).

表2 人口統(tǒng)計學(xué)特征

續(xù)表

表3 多因素邏輯回歸分析結(jié)果
多因素邏輯回歸分析允許同時分析線性變量和分類變量, 將篩選出的13個變量納入算法. 本文使用前向迭代法, 算法迭代7次后趨于平穩(wěn), 最終納入了7個變量(年齡、性別、高血壓病史、糖尿病史、血鈉、血糖、血肌酐), 多因素邏輯回歸分析結(jié)果見表3. 表4顯示了模型的迭代情況及最終的準(zhǔn)確性. 結(jié)果顯示, 迭代7次之后最終模型的準(zhǔn)確性為70.6%.

表4 回歸模型迭代情況
圖1為3種模型的受試者工作特征(receiver operating characteristic, ROC)曲線.

由圖1可知決策樹算法構(gòu)建的預(yù)測模型的AUC值最高, 為0.921, 其次是樸素貝葉斯算法, AUC為0.869, 邏輯回歸的AUC值最低, 為0.676. 不同算法的預(yù)測分類結(jié)果見表5. 可以看出, 2種機(jī)器學(xué)習(xí)算法的準(zhǔn)確率均在85%以上, 預(yù)測效果良好. 準(zhǔn)確性更高的為決策樹, 其準(zhǔn)確性達(dá)到了90.7%, 樸素貝葉斯次之, 準(zhǔn)確性為89.5%, 邏輯回歸分析的準(zhǔn)確性最低, 僅為70.6%. 3種模型的混淆矩陣即冠心病的實際預(yù)測結(jié)果見表6.

表5 3種模型的評價

表6 3種模型的混淆矩陣
冠心病因其高發(fā)病率、高住院率、高死亡率, 已然成為了倍受重視的國民健康問題[9]. 準(zhǔn)確診斷冠心病依賴冠狀動脈造影, 然而, 由于選擇性冠狀動脈造影操作的有創(chuàng)性和復(fù)雜性, 其并不適合作為臨床篩查冠心病的工具. 以弗拉明翰風(fēng)險評分為代表的心血管風(fēng)險評分工具篩查冠心病的準(zhǔn)確性十分有限, 也難以滿足臨床篩查冠心病的需求.
以人工智能算法為代表的大數(shù)據(jù)挖掘技術(shù)的興起為解決上述問題提供了新的思路. 近年來, 基于醫(yī)療大數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)算法并構(gòu)建疾病預(yù)測模型的研究不斷涌現(xiàn). Gould等[10]基于常規(guī)臨床和實驗室檢查數(shù)據(jù), 利用機(jī)器學(xué)習(xí)算法建立了肺癌預(yù)測篩查模型, 且證明了該模型相比于現(xiàn)有的篩查標(biāo)準(zhǔn)更準(zhǔn)確(AUC為0.86). Dinh等[11]基于機(jī)器學(xué)習(xí)構(gòu)建了糖尿病和心血管疾病預(yù)測模型, 所構(gòu)建的兩種預(yù)測模型的AUC分別為0.831和0.862, 表現(xiàn)出了不俗的預(yù)測性能. Krishnamurthy等[12]從臺灣健康保險研究數(shù)據(jù)庫獲得的共病和藥物數(shù)據(jù)進(jìn)行慢性腎臟病的發(fā)病預(yù)測, 使用卷積神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的預(yù)測模型在6個月和12個月預(yù)測的測試集AUC分別為0.957和0.954.
以上研究為本研究構(gòu)建冠心病預(yù)測模型提供了思路, 本研究分別應(yīng)用機(jī)器學(xué)習(xí)算法和邏輯回歸算法構(gòu)建了冠心病預(yù)測分類模型, 其中決策樹算法顯示了最高的準(zhǔn)確性和AUC, 決策樹及樸素貝葉斯算法相比于傳統(tǒng)邏輯回歸方法均表現(xiàn)出明顯的優(yōu)越性. 因此, 機(jī)器學(xué)習(xí)算法適用于冠心病分類預(yù)測, 對于冠心病的篩查可能具有一定的應(yīng)用前景.
本研究也存在一些局限性. 首先, 樣本量相對較少, 未來仍需進(jìn)一步擴(kuò)大樣本量以進(jìn)行外部驗證該預(yù)測模型的準(zhǔn)確性. 其次, 選取的變量中, 關(guān)于心血管影像學(xué)的變量只納入了心超顯示的左室射血分?jǐn)?shù), 未來將嘗試進(jìn)一步納入更多的影像學(xué)變量并構(gòu)建模型. 最后, 本研究使用的冠心病數(shù)據(jù)集存在一定程度的樣本缺失, 雖使用了均值填補(bǔ)法對缺失值進(jìn)行了填補(bǔ), 但仍可能對模型的準(zhǔn)確性產(chǎn)生了一定程度的影響.
綜上, 基于機(jī)器學(xué)習(xí)的冠心病預(yù)測分類模型是一種很有應(yīng)用前景的工具, 有利于早期篩查冠心病. 本研究初步證明了機(jī)器學(xué)習(xí)算法對預(yù)測冠心病具有較好的準(zhǔn)確性. 未來可在此基礎(chǔ)上進(jìn)一步改良機(jī)器學(xué)習(xí)算法, 同時發(fā)掘更多與冠心病具有相關(guān)性的臨床數(shù)據(jù), 隨著大規(guī)模心臟中心的建立和冠心病數(shù)據(jù)庫的完善, 這項研究的臨床應(yīng)用可推廣性將被進(jìn)一步評估.
[1] D’Agostino R B Sr, Vasan R S, Pencina M J, et al. General cardiovascular risk profile for use in primary care: The Framingham heart study[J]. Circulation, 2008, 117(6): 743-753.
[2] Pencina M J, D’Agostino R B Sr, Larson M G, et al. Predicting the 30-year risk of cardiovascular disease: The Framingham heart study[J]. Circulation, 2009, 119(24): 3078-3084.
[3] Reriani M K, Flammer A J, Jama A, et al. Novel functional risk factors for the prediction of cardiovascular events in vulnerable patients following acute coronary syndrome[J]. Circulation Journal: Official Journal of the Japanese Circulation Society, 2012, 76(4):778-783.
[4] Johnson K W, Torres Soto J, Glicksberg B S, et al. Artificial intelligence in cardiology[J]. Journal of the American College of Cardiology, 2018, 71(23):2668- 2679.
[5] Kann B H, Hosny A, Aerts H J W L. Artificial intelligence for clinical oncology[J]. Cancer Cell, 2021, 39(7):916-927.
[6] He J X, Baxter S L, Xu J, et al. The practical implementation of artificial intelligence technologies in medicine[J]. Nature Medicine, 2019, 25(1):30-36.
[7] Topol E J. High-performance medicine: The convergence of human and artificial intelligence[J]. Nature Medicine, 2019, 25(1):44-56.
[8] Babao?lu I, F?nd?k O, Bayrak M. Effects of principle component analysis on assessment of coronary artery diseases using support vector machine[J]. Expert Systems with Applications, 2010, 37(3):2182-2185.
[9] 《中國心血管健康與疾病報告2020》編寫組. 《中國心血管健康與疾病報告2020》要點解讀[J]. 中國心血管雜志, 2021, 26(3):209-218.
[10] Gould M K, Huang B Z, Tammemagi M C, et al. Machine learning for early lung cancer identification using routine clinical and laboratory data[J]. American Journal of Respiratory and Critical Care Medicine, 2021, 204(4): 445-453.
[11] Dinh A, Miertschin S, Young A, et al. A data-driven approach to predicting diabetes and cardiovascular disease with machine learning[J]. BMC Medical Informatics and Decision Making, 2019, 19(1):211.
[12] Krishnamurthy S, Ks K, Dovgan E, et al. Machine learning prediction models for chronic kidney disease using health insurance claim data in Taiwan[J]. Healthcare (Basel, Switzerland), 2021, 9(5):546.
Construction and comparison of coronary heart disease prediction models based on multivariate regression analysis and machine learning algorithm
LU Haoxuan1, XU Jinyan2, CHENG Ke’ai1, XIE Yanqing1, WANG Li1, JI Lili1, ZHOU Zhong1, YANG Zhuo1, JING Sheng1, HE Wenming1*
( 1.Department of Cardiology, Affiliated Hospital of Medical School, Ningbo University, Ningbo 315020, China; 2.Department of Neurology, Affiliated Hospital of Medical School, Ningbo University, Ningbo 315020, China )
The current study was designed to construct coronary heart disease (CHD) prediction models based on clinical electronic medical record data. The clinical data was collected from the patients who underwent elective coronary angiography during hospitalization at the Affiliated Hospital of Medical School, Ningbo University from 2015 till 2020. Decision tree, naive Bayes, and logistic regression algorithms were applied to construct prediction models for coronary heart disease. The predictive performance of these three models was compared. A total of 354 patients, including 140 CHD patients and 214 non-CHD patients, were recruited. Using logistic regression, naive Bayes, and decision tree algorithms, the accuracies of the three prediction models were 70.6%, 89.5% and 90.7% respectively. The AUCs were 0.676, 0.869, 0.921, respectively. All the three prediction models had good predictive ability for CHD and may have screening potential for CHD.
coronary heart disease; machine learning; decision tree; naive Bayes
通信作者:何文明(1981-), 男, 浙江紹興人, 副主任醫(yī)師, 主要研究方向: 心血管醫(yī)學(xué). E-mail: fyhewenming@nbu.edu.cn
R541.4
A
1001-5132(2022)03-0057-06
2021?11?02.
寧波市自然科學(xué)基金(2021J240, 202003N4231); 寧波大學(xué)人體生物力學(xué)研究院開放基金(CJ-HBIO202104).
陸浩軒(1995-), 男, 浙江杭州人, 醫(yī)師, 主要研究方向: 心血管醫(yī)學(xué). E-mail: 271621481@qq.com
寧波大學(xué)學(xué)報(理工版)網(wǎng)址: http://journallg.nbu.edu.cn/
(責(zé)任編輯 韓 超)