龔軍,杜超,鐘小鋼,向天雨,王惠來*
1重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院,重慶 400016;2重慶市涪陵區(qū)中心醫(yī)院輸血科,重慶 408000;3重慶醫(yī)科大學(xué)附屬康復(fù)醫(yī)院醫(yī)護科,重慶 400050;4重慶醫(yī)科大學(xué)附屬大學(xué)城醫(yī)院信息中心,重慶 401331
原發(fā)性高血壓患者發(fā)生冠心病的概率是血壓正常者的2~4倍,冠心病是高血壓患者的重要死因之一[1-2]。原發(fā)性高血壓并發(fā)冠心病的病程較長,早期無冠心病臨床癥狀或者癥狀不明顯[3]。因此臨床上存在漏診、誤診及診斷不及時的風險,如診斷、治療不及時,將無法及時控制疾病進程,嚴重影響預(yù)后[4-5]。近年來,許多專家學(xué)者開始基于醫(yī)療大數(shù)據(jù)及機器學(xué)習(xí)算法探索疾病診斷的新模式,在疾病的預(yù)測、診斷方面取得了良好的效果[6-9]。針對原發(fā)性高血壓并發(fā)冠心病在臨床診療中存在的上述問題,本研究利用機器學(xué)習(xí)算法建立原發(fā)性高血壓并發(fā)冠心病的個體風險分類模型,以期從醫(yī)學(xué)、數(shù)據(jù)科學(xué)及計算機科學(xué)交叉角度為原發(fā)性高血壓并發(fā)冠心病提供一種輔助診斷方法。
1.1 資料來源 選取2014年1月1日-2019年5月31日重慶醫(yī)科大學(xué)醫(yī)療大數(shù)據(jù)平臺中的原發(fā)性高血壓患者4926例,其中原發(fā)性高血壓并發(fā)冠心病2791例作為研究組,單純原發(fā)性高血壓2135例作為對照組。
1.2 納入及排除標準 研究組納入標準:①首次診斷為冠心病,既往史中無冠心病病史;②手術(shù)操作項目含有冠狀動脈造影,至少一支主支血管狹窄>50%,且出院診斷為冠心病者;③既往史或現(xiàn)病史中有確定的高血壓發(fā)病年數(shù),病案首頁中有明確的原發(fā)性高血壓診斷。排除標準:①其他疾病如糖尿病等引起的冠心病;②感染性病因如巨細胞病毒、肺炎衣原體感染等引起的冠心病;③合并其他急慢性感染性炎癥、腦腎血管病變及腫瘤等。
對照組納入標準:①電子病歷病案首頁中明確診斷為原發(fā)性高血壓;②既往史中有明確的原發(fā)性高血壓病史及患病年數(shù);③電子病歷中未發(fā)現(xiàn)心、腦、腎血管病變。排除標準:合并有急慢性感染性炎癥、骨折、腫瘤及繼發(fā)性高血壓等。
1.3 指標選取 基于高血壓及冠心病相關(guān)文獻報道和臨床診療指南[10-16]選取患者的一般信息指標及實驗室檢查指標,包括性別、年齡、血壓、吸煙史、飲酒史、既往史、生化指標、血常規(guī)指標、凝血指標、血脂指標、炎癥指標等。共獲得103項臨床資料,刪除缺失率>30%的指標,缺失率≤30%的指標采用missForest非參數(shù)填補算法填補[17-18],最終共納入70項指標進行研究。
1.4 統(tǒng)計學(xué)處理 采用Excel 2016預(yù)處理數(shù)據(jù),SPSS 25.0及R3.6.1進行統(tǒng)計學(xué)分析。單因素分析采用t檢驗及χ2檢驗,單因素分析有差異的指標進行逐步向前l(fā)ogistic回歸分析(α入=0.05,α出=0.1)。采用AMORE包、random Forest包、xgboost包分別建立3種機器學(xué)習(xí)模型:BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)模型、隨機森林(random forest,RF)模型、極限梯度上升(eXtreme gradient boosting,XGBoost)模型。采用靈敏度、特異度、精度、受試者工作特征曲線下面積(AUC)評價模型。P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 兩組70項臨床指標比較 兩組患者的吸煙、飲酒、年齡、高血壓患病年數(shù)、C反應(yīng)蛋白、D-二聚體、γ-谷氨酰基轉(zhuǎn)移酶、丙氨酸氨基轉(zhuǎn)移酶、中性粒細胞百分比、乳酸、乳酸脫氫酶、低密度脂蛋白膽固醇、凝血酶原時間、前白蛋白、大型血小板比率、天門冬氨酸氨基轉(zhuǎn)移酶、尿素、尿酸、平均紅細胞體積、平均紅細胞血紅蛋白濃度、總膽固醇、總蛋白、活化部分凝血活酶時間、淋巴細胞計數(shù)、淋巴細胞百分比、白蛋白、直接膽紅素、紅細胞計數(shù)、紅細胞分布寬度變異系數(shù)、紅細胞分布寬度標準差、肌酐、膽堿酯酶、脂蛋白a、葡萄糖、血小板分布寬度、血小板計數(shù)、血紅蛋白、超敏C反應(yīng)蛋白、載脂蛋白A1、載脂蛋白B、載脂蛋白E、鈣、鈉、高密度脂蛋白膽固醇水平差異有統(tǒng)計學(xué)意義(P<0.05,表1-3)。
2.2 Logistic回歸分析結(jié)果 以表1-3中兩組比較有差異的44項指標為自變量,以原發(fā)性高血壓是否并發(fā)冠心病為應(yīng)變量(是=1,否=0),進行l(wèi)ogistic回歸分析,結(jié)果顯示,有32項指標為原發(fā)性高血壓并發(fā)冠心病的影響因素(表4)。
2.3 機器學(xué)習(xí)模型 將表1-3中兩組比較有差異的44項指標納入3種機器學(xué)習(xí)模型,通過5折交叉驗證法對訓(xùn)練集進行訓(xùn)練,測試集評估樣本分類能力。Logistic、BPNN、RF、XGBoost模型在測試集中的性能評價指標見表5。從4種模型的性能參數(shù)來看,XGBoost模型的靈敏度、精度、AUC高于其他幾種算法,表現(xiàn)最為優(yōu)異。從44項指標在3種機器學(xué)習(xí)算法的相對重要順序來看,BPNN模型指標的相對重要性較為均衡,而XGBoost模型則是少數(shù)幾個指標就占有很高的相對重要性,前12項指標占據(jù)相對重要性的90%(圖1)。
2.4 臨床應(yīng)用 以2019年8月1日-12月20日就診于重慶醫(yī)科大學(xué)附屬大學(xué)城醫(yī)院心內(nèi)科的190例原發(fā)性高血壓患者為研究對象,從醫(yī)院HIS系統(tǒng)內(nèi)采集患者的以上44項指標,利用訓(xùn)練好的XGBoost模型判斷其是否發(fā)生冠心病,將判斷結(jié)果與醫(yī)師臨床診斷進行比較,結(jié)果顯示,XGBoost模型的靈敏度、特異度、精度、AUC分別為1.000、0.912、0.926、0.956,具有很好的實際表現(xiàn),說明XGBoost模型在判斷原發(fā)性高血壓患者是否發(fā)生冠心病方面具有可行性。

表1 研究組與對照組的一般資料比較Tab.1 Comparison of general data between research group group and control group
表2 研究組與對照組的血常規(guī)指標比較 (±s)Tab.2 Comparison of blood routine indexes between research group and control group (±s)

表2 研究組與對照組的血常規(guī)指標比較 (±s)Tab.2 Comparison of blood routine indexes between research group and control group (±s)
項目 研究組(n=2791) 對照組(n=2135) t P中性粒細胞計數(shù)(×109/L) 4.45±2.07 4.35±1.89 -1.90 0.057中性粒細胞百分比(%) 67.64±10.11 66.88±8.51 -2.88 0.004單核細胞計數(shù)(×109/L) 0.37±0.16 0.36±0.13 -1.12 0.265單核細胞百分比(%) 5.81±2.11 5.72±1.68 -1.59 0.113嗜堿性粒細胞計數(shù)(×109/L) 0.02±0.02 0.02±0.01 1.89 0.059嗜堿性粒細胞百分比(%) 0.29±0.24 0.31±0.19 1.89 0.059嗜酸性粒細胞計數(shù)(×109/L) 0.14±0.11 0.14±0.13 1.70 0.088嗜酸性粒細胞百分比(%) 2.29±1.37 2.38±1.12 1.47 0.141大型血小板比率(%) 33.15±9.83 35.24±7.82 8.33 <0.001平均紅細胞體積(fl) 91.20±6.41 89.89±5.63 -7.59 <0.001平均紅細胞血紅蛋白含量(pg) 30.28±2.46 30.15±1.89 -1.96 0.05平均紅細胞血紅蛋白濃度(g/L) 331.87±12.14 334.44±11.24 7.69 <0.001淋巴細胞計數(shù)(×109/L) 1.46±0.58 1.59±0.52 8.27 <0.001淋巴細胞百分比(%) 23.95±8.96 25.59±8.24 6.67 <0.001白細胞計數(shù)(×109/L) 6.45±2.19 6.49±1.92 0.82 0.414紅細胞計數(shù)(×1012/L) 4.33±0.58 4.49±0.43 10.94 <0.001紅細胞分布寬度變異系數(shù)(%) 13.71±1.26 13.49±0.99 -7.02 <0.001紅細胞分布寬度標準差(fl) 44.94±3.91 43.84±3.40 -10.54 <0.001血小板分布寬度(%) 14.83±2.54 14.32±2.43 -7.15 <0.001平均血小板體積(fl) 11.35±0.94 11.31±0.87 -1.35 0.179血小板計數(shù)(×109/L) 186.52±59.34 192.21±42.12 6.00 <0.001
表3 研究組與對照組的生化指標比較 (±s)Tab.3 Comparison of biochemical indexes between research group and control group (±s)

表3 研究組與對照組的生化指標比較 (±s)Tab.3 Comparison of biochemical indexes between research group and control group (±s)
臨床特征 研究組(n=2791) 對照組(n=2135) t P γ-谷氨酰基轉(zhuǎn)移酶(U/L) 39.97±39.48 30.48±25.24 -10.25 <0.001丙氨酸氨基轉(zhuǎn)移酶(U/L) 22.40±13.59 21.63±13.63 -1.98 0.048天門冬氨酸氨基轉(zhuǎn)移酶(U/L) 26.96±20.77 22.13±8.49 -11.12 <0.001乳酸(mmol/L) 2.32±0.68 2.16±0.51 -9.26 <0.001乳酸脫氫酶(U/L) 205.61±66.8 185.04±25.98 -14.87 <0.001二氧化碳(mmol/L) 25.51±2.71 25.48±2.24 -0.58 0.562

(續(xù) 表)

表4 原發(fā)性高血壓并發(fā)冠心病影響因素的logistic回歸分析Tab.4 Logistic regression analysis of the effects influencing essential hypertension complicated with coronary heart disease

(續(xù) 表)

表5 4種模型的性能評價指標Tab.5 Performance evaluation table of four models

圖1 3種機器學(xué)習(xí)模型指標的相對重要性排序Fig.1 Ranking of the relative importance of three machine learning model indicators
原發(fā)性高血壓并發(fā)冠心病是一種常見且危害性極大的慢性疾病,冠狀動脈造影能夠很好地對本病進行診斷,但冠狀動脈造影具有操作復(fù)雜、易產(chǎn)生不良反應(yīng)等缺點[19-20],且患者在患病早期易拒絕該檢查,因此臨床上一般只用于出現(xiàn)明顯冠心病癥狀后確診冠心病,無法對原發(fā)性高血壓并發(fā)冠心病進行早期篩查和診斷,導(dǎo)致了患者治療不及時、病情控制不佳等諸多問題。
本研究選取了原發(fā)性高血壓并發(fā)冠心病與單純原發(fā)性高血壓共4926例患者的70項臨床指標,用于探索原發(fā)性高血壓及原發(fā)性高血壓并發(fā)冠心病患者臨床指標與診斷結(jié)果之間的非線性關(guān)系,建立了3種機器學(xué)習(xí)模型,并以傳統(tǒng)logistic回歸模型作為對比,最終發(fā)現(xiàn)XGBoost模型表現(xiàn)最為優(yōu)異,對原發(fā)性高血壓并發(fā)冠心病有很好的判別效果(訓(xùn)練集精度=0.976)。XGBoost算法由陳天奇開發(fā),基于梯度下降樹算法改進而來,相較于其他機器學(xué)習(xí)算法,具有訓(xùn)練速度快、高效、泛化能力強等特點,在回歸及分類領(lǐng)域被廣泛應(yīng)用[21]。在指標相對重要性分析中,XGBoost模型中前12個指標占據(jù)90%的相對重要性,相較于其他兩種機器學(xué)習(xí)算法,可利用較少指標即達到很高的精度,在臨床實踐中指標收集不全或者缺失的情況下更具實用性。因此,通過對模型的各項性能評估,認為XGBoost算法構(gòu)建的原發(fā)性高血壓并發(fā)冠心病個體風險分類模型最佳。
如何利用機器學(xué)習(xí)算法進行冠心病的疾病診斷,專家學(xué)者已經(jīng)開始了一些探索。尹春燕[22]收集山東地區(qū)患者的臨床癥狀、人口學(xué)信息、生活習(xí)慣等數(shù)據(jù),利用支持向量機算法建立冠心病疾病篩查模型,模型精度為0.894。逄凱[23]收集吉林省慢性病調(diào)查數(shù)據(jù),選用支持向量機、隨機森林、神經(jīng)網(wǎng)絡(luò)3種機器學(xué)習(xí)算法建立冠心病識別模型,最優(yōu)精度為0.669。劉毅[24]采集濟南千佛山醫(yī)院受試患者的基本信息、臨床癥狀、實驗室檢查數(shù)據(jù),利用異質(zhì)集成學(xué)習(xí)方法建立冠心病篩查模型,精度為0.963。目前國內(nèi)尚未見從機器學(xué)習(xí)的角度對原發(fā)性高血壓及其導(dǎo)致的冠心病進行綜合研究。
回歸到實際醫(yī)療環(huán)境,本研究基于XGBoost算法建立的個體風險模型進一步開發(fā)成輔助診斷系統(tǒng)后可以運用到以下兩種場景:①在原發(fā)性高血壓人群體檢中,通過此系統(tǒng)對原發(fā)性高血壓并發(fā)冠心病患者進行篩查;②在原發(fā)性高血壓患者就診過程中,輔助醫(yī)師對原發(fā)性高血壓并發(fā)冠心病進行診斷,最終達到早發(fā)現(xiàn)、早控制的目的,具有很強的實用性及可行性。