












文章編號:2096-1472(2024)03-0001-06
DOI:10.19644/j.cnki.issn2096-1472.2024.003.001
摘"要:為了及早發現重癥監護室中的急性腎損傷高危患者,為其提供適當的護理,實現醫療資源的合理利用,研究建立因果貝葉斯網絡模型進行急性腎損傷高危患者死亡風險預測。從重癥監護醫學信息市場(Medical Information Mart for Intensive Care Ⅲ, MIMIC-Ⅲ)數據庫中篩選了25個研究變量和3 870條患者數據,使用因果發現算法進行特征降維。通過NO TEARS算法構建因果圖并建立因果貝葉斯網絡進行實驗,通過機器學習算法驗證重要特征的合理性,并對網絡結構進行因果效應估計,模型具有最高的受試者工作特征曲線下面積(Area Under the Receiver Operating Characteristic, AUROC)分數,為81.7%,優于邏輯回歸(Logistic Regression, LR)、隨機森林(Random Forest, RF)和極端梯度提升樹(eXtreme Gradient Boosting, XGBoost)。此外,模型的重要特征預測能力在各種建模中都很穩健,構建的因果貝葉斯網絡具有更好的預測效果并具備良好的解釋能力。
關鍵詞:急性腎損傷;因果貝葉斯網絡;因果發現;死亡風險預測
中圖分類號:TP391""文獻標志碼:A
Predicting Mortality Risk of AKI Patients Based on Causal Bayesian Network
XU Naiyue1, ZHOU Liang2, LIU Kun1, ZHOU Mengyu1
(1.School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;
2.Biomedical Engineering Fusion Laboratory, Jiangning Hospital Affiliated to Nanjing Medical University, Nanjing 211100, China)
xunaiyue21@163.com; wenzhou6@sjtu.edu.cn; lkun11111@163.com; zhou_meng_yu_66@163.com
Abstract: In order to promptly identify high-risk patients for Acute Kidney Injury (AKI) in the Intensive Care Unit (ICU), provide appropriate care, and achieve rational utilization of medical resources, this paper proposes to establish a causal Bayesian network model for predicting mortality risk in high-risk AKI patients. 25 study variables and 3 870 patient records are selected from the MIMIC-Ⅲ (Medical Information Mart for Intensive Care Ⅲ) database, and causal discovery algorithm is used for feature dimension reduction. The NO TEARS algorithm is employed to construct a causal graph and establish a causal Bayesian network for experimentation. Machine learning algorithm is utilized to validate the rationality of important features, and causal effect estimation is performed on the network structure. The model achieves the highest Area Under the Receiver Operating Characteristic (AUROC) score of 81.7%, which is superior to Logistic Regression (LR), Random Forest (RF), and eXtreme Gradient Boosting (XGBoost). Additionally, the predictive ability of important features in the model remains robust across various modeling scenarios. The proposed causal Bayesian network has better prediction performance and good interpretability.
Key words: AKI; causal Bayesian network; causal discovery; mortality risk prediction
0""引言(Introduction)
急性腎損傷(Acute Kidney Injury, AKI)是外科患者或危重患者經常出現的一種復雜的全身綜合征,具有高死亡風險[1-2]。流行病學證據表明輕度、可逆的AKI也有嚴重的臨床后果[3]。過去20年,AKI患者的死亡率高居不下,其中住院患者的死亡率為15%,重癥監護室(Intensive Care Unit, ICU)中的患者死亡率為50%[4],全球每年約有200萬人死于AKI[5-6]。
隨著臨床醫學信息學的進步和電子健康記錄完整性的提高,機器學習算法已被廣泛地應用于構建精確的風險預測模型。復雜的機器學習模型具有高復雜度和不可解釋的特征,無法在臨床中獲得醫護人員的信任。復雜模型通常依賴完備的高維數據進行預測,在病人進入ICU的初期,因為時間較短,所以難以進行較多的實驗室檢測,導致模型無法發揮出早期預測的優勢[7]。構建適用于ICU早期的AKI高風險患者的預測模型具有一定的挑戰性,但對于制定AKI治療的新策略至關重要[8]。
1""相關工作(Related work)
近年來,隨著機器學習技術的不斷發展,醫護人員對ICU中患者死亡風險的預測方法有了更多的選擇[9]。醫護人員可以使用機器學習技術和計算密集型統計建模方案快速評估大量復雜的數據,用以確定患者的死亡風險[10]。許多研究人員主張使用機器學習開發復雜臨床場景的預測模型,由于臨床特征和患者結局之間的關系多是非線性的,相較于傳統的統計學方案和最普遍的邏輯回歸(Logistic Regression, LR)算法,機器學習算法可以更好地捕獲高維數據中的非線性關系,更有效地利用電子健康病歷并挑選出高維數據中對預測貢獻顯著的數據字段,提高算法模型的預測性能[11]。
LIN等[12]使用隨機森林(Random Forest, RF)算法構建了一種死亡率預測模型,根據AKI患者的尿量、收縮壓、年齡、血清碳酸氫鹽和心率等變量預測其死亡率,避免延誤高危患者的AKI治療。AWAD等[13]使用20個變量,包括人口統計學、生命體征和實驗室測試變量構建RF模型,用于ICU患者的早期死亡率預測,他們發現RF模型在死亡率預測方面表現出良好的性能。KIM等[14]使用人口統計學、慢性健康狀況和生理學等相關變量構建用于ICU患者死亡率預測的支持向量機(Support Vector Machine, SVM)模型,并將其性能同急性生理與慢性健康評分(Acute Physiology and Chronic Health Evaluation Ⅲ, APACHE Ⅲ)的性能進行比較,發現SVM模型的性能優于APACHE Ⅲ。XU等[15]研究使用ML模型,即LR、RF和極端梯度提升樹(eXtreme Gradient Boosting, XGBoost)預測AKI患者的死亡風險,并進行分層。藺軻等[16]使用SVM算法構建ICU急性腎損傷患者的死亡風險預測模型,同時將該模型與簡化急性生理評分(Simplified Acute Physiology Score Ⅱ, SAPS Ⅱ)進行對比,表現出更好的模型性能。但是,上述方法存在以下問題:(1)它們大多針對特定模型,需要較多的預測特征,不具有普適性,需要一種精簡并具有良好魯棒性的方法,以適應日益復雜的醫學場景;(2)關于如何預測AKI風險的內部流程無法徹底呈現,僅獲得特征重要性評分無法解釋特征與結局之間如何發揮作用;(3)以上方法只能提供全局解釋,不能為每個案例提供個性化信息。
本研究基于因果層次結構[17]理論,采用因果發現和貝葉斯網絡方法構建因果貝葉斯網絡進行ICU中AKI患者的死亡風險預測研究。
2""數據與方法(Data and methods)
2.1""數據
本研究使用的患者數據來自重癥監護醫學信息市場(Medical Information Mart for Intensive Care Ⅲ, MIMIC-Ⅲ)數據庫[18],該數據庫整合了2001-2012年貝斯以色列女執事醫療中心收治患者的綜合臨床數據[19],僅限于MIMIC-Ⅲ數據庫的MetaVision信息系統中成年的患者(年齡為18~89歲)的首次ICU住院記錄。首先從國際疾病分類(International Classification of Diseases, ICD)中查找急性腎損傷疾病定義的疾病代碼;其次從MIMIC-Ⅲ數據庫中找出收集的ICU中的急性腎損傷患者的全部信息;最后使用Python對信息進行篩選,只保留進入一次ICU的病人數據。本研究所做出的預測必須基于病人是第一次入院的前提,挑選出病人入院24 h內的生理數據并對搜索過程中產生的表格進行聚合,數據獲取流程如圖1所示。
通過廣泛的文獻綜述和向ICU專業人員的咨詢,選擇以下25個特征變量進行分析。
人口統計學(2個):年齡(Age)、性別(Gender)。
生命體征(6個):體溫(Temperature, Temp)、心率(Heart Rate, HR)、呼吸頻率(Respiratory Rate, Resp)、動脈血氧飽和度(SpO2)、疼痛(Pain)、格拉斯昏迷量表(Glasgow Coma Scale, GCS)。
實驗室測量值(17個):碳酸氫鹽(HCO3)、血尿素氮(Blood Urea Nitrogen, BUN)、氯化物(Chloride, CL)、葡萄糖(Glucose, GLU)、血細胞比容(Hematocrit, HCT)、血紅蛋白(Hemoglobin, HB)、國際標準化比值(International Normalized Ratio, INR)、血小板計數(Blood Platelet Count, PLT)、鉀(Kalium, K)、凝血酶原時間(Prothrombin Time, PT)、部分凝血活酶時間(Partial Thromboplastin Time, PTT)、血清肌酐(Serum Creatinine, SCr)、鈉(Natrium, Na)、白細胞計數(White Blood Cell Count, WBC)、總膽紅素(Total Bilirubin, TBIL)、丙氨酸轉氨酶(Alanine Transaminase, ALT)、天門冬氨酸氨基轉移酶(Aspartate Aminotransferase, AST)。
從數據庫中篩選出的實驗數據存在部分缺失值,根據病人信息中的各項生理數據進行數據篩選,去除缺失率在30%以上的病人數據和異常值,并使用隨機森林算法進行數據插補,確定了25個特征變量和3 870例患者。
根據《默沙東診療手冊》,將連續數據進行離散化處理,方便模型預測與推理,變量離散信息如表1所示。
表1中,BUN、SCr、GLU的單位為mg/dL,HB的單位為g/dL,CL、HCO3的單位為mmol/L,TBIL的單位為μmol/L,ALT、AST的單位為U/L,HCT、SpO2的單位為%,K、Na的單位為mEq/L,WBC的單位為103cells/mcL,PLT的單位為103/μL,PT、PTT的單位為s,Resp、HR的單位為次/分鐘,Temp的單位為℃,INR、Pain、GCS、Age、Gender無計量單位。
2.2""方法
許多學科的基本任務是發現、建模和理解自然現象背后的因果關系,數據科學正在從當前以數據為中心的范式轉向以科學為中心的范式。通過分析純粹的觀察數據揭示因果信息,稱為因果發現,它在近年來引起了很多研究人員的關注。從數據中學到的因果關系可以從感知和認知的角度進行測量、描述和評估,學習因果關系的一種傳統且可行的方法是將貝葉斯網絡(Bayesian Network, BN)擴展到因果貝葉斯網絡,它可以通過生成因果定向無環圖表示因果關系[20]。
貝葉斯網絡可以提供基于統計學原理的、可解釋的預測結果,為獲取和表示許多領域的知識提供了一種有效方法[21]。為了將從數據中挖掘的因果知識更好地應用于ICU中AKI患者的死亡風險評估,本文基于因果層次結構理論在貝葉斯網絡學習的框架內評估因果關系并構建因果貝葉斯網絡進行預測。幫助醫生重點關注具有高風險的患者,為ICU中醫療資源的合理分配提供幫助。
因果發現算法能夠捕捉到變量之間的因果關系,因果關系算法有助于精準地進行風險預測,篩選出的特征可以更好地適用于復雜多變的醫學環境。貝葉斯網絡自身固有的有向無環圖(Directed Acyclic Graph, DAG)特征和統計學優勢,使因果發現算法和貝葉斯網絡的結合可以方便地進行預測推理和模型解釋。
采用PC(Peter-Clark)、GES(Greedy Equivalence Search)、GRASP(Greedy Randomized Adaptive Search Procedure)三種因果發現算法進行投票加權處理,從所有的特征中發現有助于預測的真正風險因素進行特征降維,篩選出特征中投票數最高的部分特征作為重要特征。本文從25個特征變量中挑選出PTT、TBIL、SCr、Resp、SpO2,為了評估所提取特征的預測能力,使用機器學習方法進行建模和預測的準確性檢查,重要特征獲取流程如圖2所示。
確定有向無環圖的結構非常具有挑戰性,這是因為DAG的搜索空間是組合的,并且會隨著節點數量的增加而進行超指數擴展。NO TEARS算法將結構學習問題表述為一個在實矩陣上的連續優化問題,避免了這種組合約束,是通過對非循環的一種新穎的描述實現的,這種描述平滑且準確,可以更好地被用來發現數據中的因果結構[22]。基于發現的因果圖結構建立因果貝葉斯網絡模型并進行分析,與建立在模式識別和相關性分析基礎上的傳統機器學習方法相比,利用貝葉斯網絡能更直觀地描述因果關系,因果貝葉斯網絡模型結構如圖3所示。
借助CausalNex軟件包為模型引入干預操作,可以對數據中的任何節點應用干預更新其分布并分析干預措施的影響。如圖4所示,當SCr和TBIL特征受到人為干預操作時,就會切斷一切指向該特征的路徑。此時,這些特征的值不再受到其他父級特征的影響,但是可以影響子級特征,同時對病人死亡風險的預測結果也會發生改變。干預操作可以幫助醫護人員驗證治療方案的結果是否符合預期,為治療方案的制訂提供參考。
3""結果(Result)
3.1""模型評估
本研究使用前人文獻中使用的LR、RF和XGBoost進行驗證。圖5和圖6分別展示了使用全部特征和重要特征建模時3種算法的十次交叉驗證的準確率,圖7對基于全部特征建模和重要特征建模的評估進行對比,可以明顯地發現特征篩選前后準確率的差距都在4%以內,選定特征的預測能力在各種建模技術中都表現得相當穩健,表明僅依靠5個選定特征的模型就可以有效地識別高危患者。
使用NO TEARS因果發現算法分別基于全部特征和重要特征進行建模預測并進行準確率(Accuracy)、精準率(Precision)、召回率(Recall)和受試者工作特征曲線下面積(AUROC)的對比,降維前后性能對比圖如圖8所示。
對全部特征和重要特征都進行因果貝葉斯網絡的建模,基于Accuracy、Precision、Recall、AUROC等評價指標進行分析。基于重要特征建模的預測性能比基于全部特征建模時的效果更好,重要特征排除了其他貢獻較低的因素成為模型預測的主要依據。通過對特征降維前后的多種機器學習算法的建模進行對比發現,使用因果發現算法降維后的重要特征具有較強的預測能力,能夠在多種不同的模型中發揮出良好的預測效果,有著優秀的泛化性能。
將因果貝葉斯網絡模型與LR、RF和XGBoost三種算法篩選后的重要特征數據進行對比,基于AUROC、Accuracy和Precision三個評價指標展開分析,模型性能評估結果如表2所示。
模型性能對比圖如圖9所示,Accuracy反映模型總體的分類準確情況,結果顯示因果貝葉斯網絡的準確率略低于LR和RF的準確率,依然有著不錯的準確度;AUROC反映的是模型對于任意一例正負樣本的區分能力,性能評估結果顯示,因果貝葉斯網絡模型的AUROC遠高于LR、RF和XGBoost,證明對于任意一例正負樣本因果貝葉斯網絡模型的正確區分結果的能力更好;Precision著重評估在預測為Positive的所有數據中,真實Positive的數據占比,結果顯示因果貝葉斯網絡模型效果最好,表明模型可以準確地發現高危患者。
3.2""模型解釋
模型可以從兩個方面進行可解釋分析。
3.2.1""模型的結構
因果貝葉斯網絡模型的結構主要通過NO TEARS因果發現算法構建,可以很好地捕捉到變量之間的因果關系。模型的網絡結構清楚地展現了模型預測過程中潛在的特征依賴關系,具有很高的透明度,這種可視化極大地簡化了對因果關系的理解。
如圖10所示,以PTT變量為例,使用微軟DoWhy因果效應估計軟件包對模型進行評估,a列表示增加一個混雜因子前后平均效應如何變化,測試該結構的魯棒性,差距越小則模型魯棒性越好;b列表示使用隨機變量替代干預變量時平均效應如何變化,在理想狀態下,新的平均效應應該為0;c列表示使用隨機子集查看平均效應如何變化,說明模型具有很好的泛化能力。模型網絡結構在a、b、c這3種情況下的因果效應估計都有著很好的表現,說明具有可信的因果效應。
3.2.2""預測的依據
因果貝葉斯網絡模型的本質依然是一種概率圖模型,在具有因果特性的圖結構中支持使用概率推理的方式進行預測,各變量的不同取值概率可以推理出不同的預測結果,解釋預測結果的推理依據。因果貝葉斯網絡模型不僅可以基于各變量取值預測死亡風險概率,還可以通過逆向推理當死亡風險最大時各變量取值的概率,用來進行診斷推理,概率推理演示如圖11所示。
4""結論(Conclusion)
為了實現ICU中AKI高危患者的及早發現、及早治療,本研究開發了一個患者死亡風險預測模型,通過患者進入ICU 24 h內的生命體征進行可解釋的預測。使用因果發現算法尋找到的PTT、TBIL、SCr、Resp、SpO2五個特征變量在LR、RF和XGBoost三種機器學習模型的驗證下都表現出優異的預測性能,這五個特征變量可以作為ICU中AKI患者死亡風險預測研究的重要特征。基于重要特征構建的因果貝葉斯網絡模型在微軟的DoWhy因果效應估計中也表現出良好的因果效應和魯棒性,因果貝葉斯網絡模型結構透明的天然優勢,使因果貝葉斯網絡模型的預測流程易于理解,同時因果貝葉斯網絡模型具備初步的干預能力,對于醫學研究有著重要意義。通過學習因果發現算法選擇的特征和因果關系,可以提高分類準確性。在研究中沒有考慮患者的合并癥和治療措施,基于以上研究結果,有望進一步擴展NO TEARS等因果發現算法,從更廣泛的醫療數據中挖掘影響患者結局的關鍵因素。未來的研究工作將著眼于探究影響ICU急性腎損傷患者的真正風險因素的同時,尋找合適的干預措施,降低患者最終死亡概率。此外在接下來的研究中還需要通過對因果理論的深入研究賦予模型更為準確的解釋方法和推理手段,以更有效地助力醫學決策。
參考文獻(References)
[1] KELLUM J A,PROWLE J R. Paradigms of acute kidney injury in the intensive care setting[J]. Nature reviews nephrology,2018,14:217-230.
[2] BANG J Y,LEE J B,YOON Y,et al. Acute kidney injury after infrarenal abdominal aortic aneurysm surgery:a comparison of AKIN and RIFLE criteria for risk prediction[J]. British journal of anaesthesia,2014,113(6):993-1000.
[3] KELLUM J A,LAMEIRE N,for the KDIGO AKI Guideline Work Group. Diagnosis,evaluation,and management of acute kidney injury:a KDIGO summary (Part 1)[J]. Critical care,2013,17:1-15.
[4] WALD R,MCARTHUR E,ADHIKARI N K J,et al. Changing incidence and outcomes following dialysis-requiring acute kidney injury among critically ill adults:a population-based cohort study[J]. American journal of kidney diseases,2015,65(6):870-877.
[5] WANG Y,BELLOMO R. Cardiac surgery-associated acute kidney injury:risk factors,pathophysiology and treatment[J]. Nature reviews nephrology,2017,13:697-711.
[6] HOSTE E A J,KELLUM J A,SELBY N M,et al. Global epidemiology and outcomes of acute kidney injury[J]. Nature reviews nephrology,2018,14:607-625.
[7] BHATRAJU P K,ZELNICK L R,KATZ R,et al. A prediction model for severe AKI in critically ill adults that incorporates clinical and biomarker data[J]. Clinical journal of the American society of nephrology,2019,14(4):506-514.
[8] MEERSCH M,SCHMIDT C,HOFFMEIER A,et al. Prevention of cardiac surgery-associated AKI by implementing the KDIGO guidelines in high risk patients identified by biomarkers:the PrevAKI randomized controlled trial[J]. Intensive care medicine,2017,43:1551-1561.
[9] LIU V X,PRESCOTT H C. Precision delivery in critical care:balancing prediction and personalization[C]∥VINCENT J L. Annual U pdate in Intensive Care and Emergency Medicine 2019. Cham:Springer,2019:15-27.
[10] NEMATI S,HOLDER A,RAZMI F,et al. An interpretable machine learning model for accurate prediction of sepsis in the ICU[J]. Critical care medicine,2018,46(4):547-553.
[11] POUCKE S V,ZHANG Z,SCHMITZ M,et al. Scalable predictive analysis in critically ill patients using a visual open data analysis platform[J]. PLOS ONE,2016,11(1):e0145791.
[12] LIN K,HU Y H,KONG G L. Predicting in-hospital mortality of patients with acute kidney injury in the ICU using random forest model[J]. International journal of medical informatics,2019,125:55-61.
[13] AWAD A,BADER-EL-DEN M,MCNICHOLAS J,et al. Early hospital mortality prediction of intensive care unit patients using an ensemble learning approach[J]. International journal of medical informatics,2017,108:185-195.
[14] KIM S,KIM W,PARK R W. A comparison of intensive care unit mortality prediction models through the use of data mining techniques[J]. Healthcare informatics research,2011,17(4):232-243.
[15] XU Z X,LUO Y,ADEKKANATTU P,et al. Stratified mortality prediction of patients with acute kidney injury in critical care[J]. Studies in health technology and informatics,2019,264:462-466.
[16] 藺軻,謝俊卿,胡永華,等. 支持向量機在ICU急性腎損傷患者住院死亡風險預測中的應用[J]. 北京大學學報(醫學版),2018,50(2):239-244.
[17] SHPITSER I,PEARL J. Complete identification methods for the causal hierarchy[J]. Journal of machine learning research,2008,9:1941-1979.
[18] JOHNSON A E W,POLLARD T J,SHEN L,et al. MIMIC-Ⅲ,a freely accessible critical care database[J]. Scientific data,2016,3(1):1-9.
[19] 徐良辰,郭崇慧. 基于時間序列特征表示與信息融合的ICU患者死亡風險預測[J]. 系統工程理論與實踐,2022,42(10):2815-2828.
[20] KONG H,SHI X H,WANG L M,et al. Averaged tree-augmented one-dependence estimators[J]. Applied intelligence,2021,51:4270-4286.
[21] JIANG L X,ZHANG L G,YU L J,et al. Class-specific attribute weighted naive Bayes[J]. Pattern recognition,2019,88:321-330.
[22] ZHENG X,ARAGAM B,RAVIKUMAR P,et al. DAGs with NO TEARS:continuous optimization for structure learning[J]. Advances in neural information processing systems,2018,31:9472-9483.
作者簡介:
徐乃岳(1999-),男,碩士生。研究領域:醫療數據分析。
周"亮(1981-),男,博士,副教授。研究領域:數據建模與優化計算,醫療大數據分析與決策支持。本文通信作者。
劉"坤(1998-),男,碩士生。研究領域:醫療數據分析。
周夢雨(1999-),女,碩士生。研究領域:醫學圖像分割。
收稿日期:2023-06-08
基金項目:南京醫科大學附屬江寧醫院醫工融合實驗室資助項目(JNYYZXKY202107);國家自然科學基金項目:基于貝葉斯網絡預測ICU術后患者死亡風險的方法研究(82072228);科技部國家重點研發計劃“主動健康和老齡化科技應對”重點專項(2020YFC2008700)