Development of risk prediction model for venous thromboembolism in elderlycriticallyill patient based on machine learning
JIN Jiel, XU Qing2,LU Jie', ZHAO Jiayue',ZHANG Qing1,KONG Yang1* , XU Hongmeil* 1.Binzhou Medical Colege,Shandong 25660o China;2.Binzhou Medical College Yantai Affiliated Hospital *Corresponding AuthorKONG Yang,E-mail: kongyang@ bzmc.edu.cn; XU Hongmei,E-mail: hmx58@163.com
AbstractObjective:Todeveloprisk prediction modelforvenous thromboembolism(VTE)inelderlycriticalyillpatients basedon machineleatotaflillltoeUtee hospitalsinShandongprovincewereselectedasstudysubjectsfromJanuary2O2OtoJune2O23.Andclinicaldatawerecolected.The patients wererandomlydivided intotrainigset36cases)andvalidationset273cases)at7:3ratio.heocurrenceofVTEduringICU hospitalizationwasused as theoutcome variable.Predictionmodels wereconstructed using 4machinelearing,namelyrandomforest, extremegradientbosting,supportvectormachines,andgadientbostigdecision tre.Modelperformancewas evaluatedusingmetrs suchasareaunderthecure(AUC)ofreceiveoperatorcharacteristicandBrierscoreandteoptialmodelwasselected.Inteeability analysisfthebestperformingmodelasconductedusingteSHAPlgorithmResults:Amongthe909elderlyrticallillpatients58 developed VTE, with incidence of 28.4% .Among the 4 models,the random forest achieved the higher AUC(O.8O3),accuracy(0.733), senitivity(.662),ndspecificiy(0.76),alongiththelowestBrierScore(O.171).onclusions:TheriskpredictionmodelforE inelderlycriallyillpatientsdevelopedbasedonandomforestdemonstratedstrongpredictiveperformance.Itouldproideeference for optimizing VTE management in elderly critically ill patients.
Keywordsmachine learming; elderly;critical illess;venous thromboembolism; prediction model; random forest
doi:10.12102/j.issn.1009-6493.2025.14.002
靜脈血栓栓塞癥(venousthromboembolism,VTE)包括深靜脈血栓形成(deepvenousthrombosis,DVT)和肺栓塞(pulmonarythromboembolism,PE),是僅次于心肌梗死和腦卒中的第三大常見心血管疾病,具有發病率高、病死率高以及復發率高的特點,是重癥監護室(intensivecareunit,ICU)病人常見的并發癥之一[1-2]。受合并癥復雜、營養狀況差以及年齡相關的器官結構和功能變化等因素影響,ICU中的老年病人更容易發生VTE,且因其恢復較慢,由VTE引起的致殘率和死亡率也更高[3。已有研究結果顯示,65歲以上人群的VTE發生率約為 60% ,老年重癥病人占50% 以上[5-6]。鑒于此,早期識別老年重癥病人VTE發生的危險因素,采取針對性預防措施,對降低VTE發生率有重要意義。相關指南推薦不同病人應使用不同工具進行VTE風險評估,但目前針對老年重癥病人的VTE風險評估工具較缺乏。臨床常用的評估工具(如Caprini評分和Padua評分涉及的ICU病人VTE相關高危因素不足,傳統評分工具建立的預測模型評估效率及臨床實用性較低。機器學習作為人工智能驅動的健康技術之一,近年來被廣泛應用于臨床實踐[%,其在疾病預測和診斷方面優勢顯著,可為VTE風險評估提供更精準的方式。本研究基于機器學習算法構建老年重癥病人VTE風險預測模型,比較各模型性能,并采用Shapley加性解釋(Shapley additive explanation,SHAP)[11算法對最優模型的總體決策方向進行解釋,旨在為醫護人員快速評估和識別VTE高危病人、及時采取針對性的干預措施提供參考。
1對象與方法
1. 1 研究對象
選取2020年1月—2023年6月山東省3所三級甲等綜合醫院ICU收治的909例老年重癥病人作為研究對象。納入標準:1)年齡 ?65 歲;2)入住ICU時間≥48h;3) 病人電子病歷資料完整。排除標準:1)入院前或入住ICU48h內診斷為VTE;2)患有凝血功能障礙;3)缺少彩超多普勒或靜脈造影檢查結果。本研究已通過濱州醫學院煙臺附屬醫院倫理委員會審批(編號:2023383)。
1. 2 VTE診斷標準
1)DVT診斷標準:依據《深靜脈血栓形成的診斷和治療指南(第三版)》2制定DVT診斷標準,即靜脈管壁不能被壓縮或僅部分被壓縮;靜脈管腔內血流信號消失或僅能見部分血流信號。2)PE診斷標準:依據《肺血栓栓塞癥診治與預防指南》[13]制定PE診斷標準,即靜脈造影檢查為充盈缺損或閉塞不顯影。
1.3 調查工具
在文獻回顧的基礎上,通過咨詢專家和課題小組討論自行設計老年重癥病人VTE危險因素調查表,包括5個部分。1)病人一般資料:包括年齡、性別、制動時間、格拉斯哥昏迷評分、急性生理與慢性健康狀況評分等;2)既往史:包括冠心病史、心房顫動史、炎性腸病史、近期手術史等;3)合并疾?。喊ǜ腥?、多發傷、糖尿病、高血壓、腦卒中、惡性腫瘤等;4)特殊治療措施:包括使用鎮靜劑、血管收縮藥物、輸注紅細胞、輸注血小板、使用機械通氣、使用經外周靜脈置入中心靜脈導管(PICC)、使用體外循環生命支持系統(ECMO)等;5)實驗室檢查指標:包括紅細胞計數、白細胞計數、血小板計數、D-二聚體、凝血酶時間、活化部分凝血活酶時間等。
1.4資料收集方法
病人一般資料、既往史及合并疾病以調查對象入院時的病歷記錄為準,通過醫囑記錄和護理記錄獲取病人特殊治療措施信息,實驗室檢查指標以病人入住ICU后的第1次檢驗結果為準。
1.5 質量控制
3所醫院均使用相同的血常規檢驗設備(SysmexXE-5000血液分析儀)和凝血功能檢測設備(SysmexCA-7000凝血分析儀),且執行相同的檢驗流程。機械通氣均使用PB840型號呼吸機,對病人的評估均由接受規范化培訓的ICU護士完成。為保證數據收集格式及方法標準化,資料收集前由經驗豐富的病案統計員及影像學專家對小組成員進行同質化培訓,內容包括院內電子病歷系統的使用方法、VTE結局指標的確定、數據收集和錄人等。為確保數據錄人的準確性,使用EpiData3.1軟件雙人錄人數據。
1.6 數據預處理
為了減少缺失數據引起的偏倚,對缺失比例≥30% 的變量進行刪除,缺失比例 lt;30% 的變量使用多重插補法進行填補??紤]到不同實驗室指標的波動范圍較大,對連續性變量進行Z-score標準化處理。基于SMOTE(syntheticminorityoversamplingtechnique)過采樣技術進行數據采樣,解決數據集樣本的不均衡問題。
1.7 模型的開發與驗證
按照7:3比例將數據集隨機劃分為訓練集(636例)和驗證集(273例)。訓練集數據用于模型訓練,驗證集數據用于評價和選擇模型。將單因素分析和LASSO回歸篩選出來的特征變量作為輸人變量,以VTE發生情況作為結局變量,基于機器學習算法構建4種老年重癥病人VTE風險預測模型,分別為隨機森林(randomforest,RF)、極端梯度提升(extreme gradient boosting,XGBoost)、支持向量機(supportvectormachines,SVM)和梯度提升樹(gradientboostingdecision tree,GBDT)。模型構建過程中采用網格搜索對超參數進行優化。采用10折交叉驗證對模型進行訓練,即將訓練集數據分成10等份,輪流將其中9份作為訓練集,1份作為驗證集,進行訓練和驗證。最終模型評估結果取10次訓練結果的平均值,以更準確地評估模型的預測性能。計算受試者工作特征(receiveroperatorcharacteristic,ROC)曲線下面積(AUC)準確度、靈敏度、特異度和Brier分數評價模型的預測效能并選出最優模型。使用SHAP算法分析特征變量對最優預測模型的具體影響。
1.8 統計學方法
采用SPSS27.0及Python3.9軟件進行統計分析和建模。符合正態分布的定量資料以均數士標準差 表示,組間比較采用獨立樣本檢驗;不符合正態分布的定量資料以中位數(四分位數) [M(P25,P75) ]表示,組間比較采用非參數檢驗。定性資料采用頻數、百分比(%) 表示,組間比較采用 χ2 檢驗、Fisher精確概率法或非參數檢驗。以 Plt;0.05 表示差異有統計學意義。
2結果
2.1老年重癥病人VTE發生影響因素的單因素分析
909例老年重癥病人年齡65~107[75(70,83)]歲,發生VTE者258例 (28.4% ),未發生VTE者651例1 71.6% 。單因素分析結果顯示,VTE組和非VTE組病人既往VTE史、近期手術史、感染、多發傷、高脂血癥、使用鎮靜劑、使用血管收縮藥物、輸注紅細胞、輸注血小板、使用機械通氣、機械通氣時間、制動時間、格拉斯哥昏迷評分、D-二聚體、活化部分凝血活酶時間比較,差異均有統計學意義(均 Plt;0.05 )。見表1。
2.2特征篩選
以病人是否發生VTE為因變量,將單因素分析中有統計學意義( ?Plt;0.05? 的自變量通過LASSO回歸進行篩選,見圖1、圖2。為使模型精簡,更適用于臨床,選擇lambda.1se作為模型的最優值。最終篩選的變量包括制動時間、格拉斯哥昏迷評分、既往VTE史、近期手術史、感染、高脂血癥、使用血管收縮藥物、輸注血小板、使用機械通氣、機械通氣時間、D-二聚體、活化部分凝血活酶時間12項。
2.3各模型預測性能比較
在驗證集中對4種模型的預測能力進行評估,結果顯示,隨機森林的區分度( AUC=0.803 最高,其次是極端梯度提升( AUC=0.788 ),支持向量機的區分度(A .UC=0.748 最差。隨機森林的準確度、靈敏度和特異度均較高,提示其對樣本預測正確的比例和對陽性樣本的識別能力較優,能更準確、靈敏地識別VTE高危病人。采用Brier分數評估模型校準度,值越低表示模型的校準度越好。隨機森林Brier分數最低,提示其校準度最好。各模型性能指標見表2。綜合比較發現,隨機森林預測效能最佳,其性能最優時的參數設置為:n_estimators ,max_depth 1=18 min_samples_leaf
,min_samples_split =2 ,max_features ?3 ,與傳統Logistic回歸方法不同,隨機森林無法通過具體公式展現每種變量對預測結果的具體影響,因此需進一步對其進行SHAP分析使其決策過程可視化。
2.4基于SHAP算法的可解釋性分析
2.4.1全局樣本特征解釋分析
采用SHAP算法對隨機森林進行解釋分析,SHAP重要性排序見圖3,制動時間在老年重癥VTE發生風險預測中起關鍵作用?;罨糠帜蠲笗r間是影響VTE發生的重要變量之一,隨后為D-二聚體和機械通氣時間。預測VTE發生的關鍵信息集中在權重排名前3位的預測因子中。為了進一步明確各特征相對于目標變量的正/負關系,生成隨機森林的SHAP摘要圖,見圖4。圖中每行代表1個特征,每個點代表1個樣本,橫坐標顯示了每個樣本的SHAP值,該值越大表示特征對于模型輸出的影響越大(正值代表正向影響,負值代表負向影響),點的顏色代表特征值高低(紅色代表特征值較高,藍色代表特征值較低)。結果顯示,制動時間、D-二聚體、機械通氣時間、近期手術史、既往VTE史等因素對預測結果存在不同程度的正向影響,而活化部分凝血活酶時間產生了負向影響。
2.4.2個性化特征歸因分析
在SHAP摘要圖的基礎上進一步輸出對模型影響前3位的臨床特征SHAP依賴圖,解釋預測變量對預測結果的具體影響。SHAP依賴圖的橫軸為該臨床特征的變化范圍,縱軸為臨床特征的SHAP值,SHAP值 gt;0 表示病人發生VTE的風險增加。本研究根據SHAP依賴圖結果并結合臨床專家意見,對制動時間、D-二聚體和活化部分凝血活酶時間預警范圍進行界定,結果顯示,3項特征在達到特定閾值(制動時間 gt;10d ,活化部分凝血活酶時間 lt;34: s,D-二聚體 gt;2.8mg/L 時病人發生VTE的風險增加,見圖 5~ 圖7。
2.4.3 單樣本預測特征解釋分析
單樣本解釋分析有利于明確單個樣本中各特征對于病人發生VTE的貢獻值、影響方向以及預測值,從而判定病人VTE的發生風險,見圖8、圖9。真陽性病人預測過程結果顯示,影響病人VTE發生結果權重高的紅色特征為制動時間,藍色特征為活化部分凝血活酶時間。病人預測值為0.69[大于平均預測值(0.5)],判定病人為高風險,該預測結果與實際相符。
3討論
重癥病人是發生VTE的高危人群。近年來,隨著社會老齡化趨勢加強,ICU中老年病人比例呈增長趨勢[14]。受年齡增長、基礎疾病復雜等因素影響,老年重癥病人發生VTE的風險更高,由VTE導致的傷殘率、死亡率以及醫療費用也較高。如能早期預測VTE發生情況并提前給予針對性的規范化預防措施,有利于降低傷殘率和死亡率,提高病人護理質量。
近年來,學者們已開發了多種VTE評估量表及臨床預測模型[15-17],但其非針對老年重癥病人。在技術層面,既往研究多采用傳統Logistic回歸分析建模,其普適性較強,但對于重癥病人VTE的預測針對性較弱,同時難以避免納入風險因素有限、后續改進空間小等不足[18]。隨著互聯網以及大數據行業的快速發展,機器學習作為一種新的數據分析工具進入醫療行業,并在疾病診斷、醫藥圖像識別等領域應用廣泛[19]。其在處理大樣本數據、復雜任務等方面具有獨特優勢,已成為分析大量醫療健康數據、提高臨床決策能力的強大工具[20]。本研究利用機器學習算法開發了老年重癥病人VTE發生風險預測模型,具有一定優勢:1)本研究為多中心研究,收集了3所三級甲等綜合醫院909例病人的臨床資料,建立模型的數據相對充足,數據集具有一定的多樣性,有利于產生更穩定、可靠的統計推斷結果,提高模型的預測精度、準確性和泛化能力,降低了研究機構單一造成研究結果外推受限的局限性。2)老年重癥病人VTE的發生受多種因素影響,本研究納入了病人一般資料、既往史、合并疾病、特殊治療措施及實驗室檢查指標多方面指標,綜合探討了老年重癥病人潛在的VTE預測因子,涵蓋指標廣泛,使得模型可以更好地捕捉VTE發生的潛在風險因素及交互作用,能更深入地挖掘數據背后的信息,增強模型對復雜現象的預測能力。此外,使用多個指標可以減少模型對單一特征和數據源的依賴,提高模型的魯棒性和穩定性。
不同機器學習算法的學習方式和適用場景不同,因此,需要比較各種模型的預測性能,從而選擇最適合的模型。通過分析4種模型的綜合表現發現,隨機森林的AUC、靈敏度、準確度、特異度均較高,校準度較好,展現了出色的預測性能。從機器學習算法的特性分析,隨機森林是一種集成算法,其本質是將若干個決策樹進行組合分析,能夠有效捕捉數據中的線性關系。老年重癥病人VTE的預測因素可能存在復雜的線性關系。其次,研究數據的規模可能影響模型的預測性能,隨機森林在處理多維度特征和大規模數據方面更適用[21]。
在機器學習模型中,“黑盒”特性會使模型內部的決策過程缺乏可解釋性。為增強模型決策過程的透明度,本研究通過SHAP方法對隨機森林進行可視化分析,結果顯示,對模型輸出結果影響較大的前3位臨床變量分別為制動時間、活化部分凝血活酶時間和D-二聚體,可作為預測病人VTE發生的重要指標。既往研究表明,較長的制動時間是VTE發生的重要危險因素,尤其是對70歲以上的老年病人影響更為顯著[22-23],與本研究結果相似。老年重癥病人病情嚴重,常處于臥床制動狀態,長時間制動可導致病人靜脈回流較少,血液淤滯,更易發生VTE。因此,對于無禁忌證的老年重癥病人,醫護人員可適當幫助其進行活動,改善肌力,減少VTE發生風險?;罨糠帜蠲笗r間縮短提示內源性凝血途徑的激活或某些凝血因子增加,血液呈高凝狀態[24]。李麗麗等[25]以120例住院病人為研究對象,發現活化部分凝血活酶時間對血栓有較高的診斷價值。本研究發現,當活化部分凝血活酶時間 lt; 34s時,老年重癥病人容易發生VTE。D-二聚體是纖溶酶溶解交聯纖維蛋白凝塊的特異性降解產物,常用于反映機體凝血-纖溶系統功能,是凝血相關的實驗室檢查項目之一[26]。老年重癥病人年齡較大、合并癥復雜,D-二聚體往往高于常規臨界值 (0.5mg/L [27]。本研究進一步發現,D-二聚體 gt;2.8mg/L 時老年重癥病人VTE發生風險增高。提示醫護人員在臨床工作中應該動態監測老年重癥病人D-二聚體濃度和活化部分凝血活酶時間,未來需進一步探索更合理的范圍以提高D-二聚體和活化部分凝血活酶時間在老年重癥病人VTE診斷中的準確性。
本研究根據篩選出的12個重要預測因子,基于4種機器學習算法構建了多個老年重癥病人VTE發生風險預測模型。比較多個指標發現,隨機森林具有良好的區分度和校準度,預測結果較為可靠。醫護人員可利用該模型評估老年重癥病人的VTE發生風險,加強對老年重癥病人VTE的風險管理,實施精準干預,減少VTE帶來的不良后果,從而減輕病人經濟負擔,改善病人預后。此外,基于SHAP算法對隨機森林進行解釋,增強了模型決策過程的透明度和可靠性,便于臨床醫護人員更好地理解模型預測過程,進行臨床決策。
4小結
本研究構建的隨機森林預測性能較好,為早期評估老年重癥病人VTE發生風險、指導預防性治療提供了理論基礎。本研究的不足之處在于回顧性研究設計結果可能存在一定偏倚;僅對模型進行內部驗證,未來將進行前瞻性研究以檢驗模型的臨床適用性,并進一步優化風險預測模型。
參考文獻:
[1]DI NISIO M,VAN ESN,BULLERHR.Deepvein thrombosis
auu punoIaIy eImvunsILJJ.Lancet,zuiu,ooo(Ivvuo):ovuv ovio.
[2]HEIT JA.Epidemiology of venous thromboembolism[J].Nature Reviews Cardiology,2015,12(8):464-474.
[3]PALARETI G,POLI D.The prevention of venous thromboembolism recurrence in the elderly:a still open issue[J].Expert Review of Hematology,2018,11(11):903-909.
[4]吳洲鵬,李鳳賀,戴貽權,等.老年人靜脈血栓栓塞癥防治中國專家 共識[J].中國普外基礎與臨床雜志,2023,30(10):1173-1187.
[5]LEBLANC G,BOUMENDIL A,GUIDET B.Ten things to know about critically ill elderly patients[J].Intensive Care Medicine,2017, 43(2):217-219.
[6]MITTEL A,HUA M.Supporting the geriatric critical care patient: decision making,understanding outcomes,and the role of palliative care[J].Anesthesiology Clinics,2019,37(3):537-546.
[7]DARZI AJ,REPP AB,SPENCER F A,et al.Risk-assessment models for VTE and bleeding in hospitalized medical patients:an overview of systematic reviews[J].Blood Advances,2O2O,4(19): 4929-4944.
[8]CAPRINI JA.Thrombosis risk assessment as a guide to quality patient care[J].Dis Mon,2005,51(2/3):70-78.
[9]BARBAR S,NOVENTA F,ROSSETTO V,et al.A risk assessment model for the identification of hospitalized medical patients at risk for venous thromboembolism: the Padua Prediction Score[J].Journal of Thrombosis and Haemostasis,20lo,8(l1):2450- 2457.
[10]SANCHEZ-PINTOLN,LUOY,CHURPEKMM.Big data and datascience in critical care[J].Chest,2018,154(5):1239-1248.
[11]LUNDBERG S M,ERION G,CHEN H,et al.From local explanations to global understanding with explainable AI for trees [J].Nature Machine Intelligence,2O2O,2(1):56-67.
[12]李曉強,張福先,王深明.深靜脈血栓形成的診斷和治療指南(第 三版)[J].中國血管外科雜志,2017,9(4):250-257.
[13]中華醫學會呼吸病學分會肺栓塞與肺血管病學組,中國醫師協會 呼吸醫師分會肺栓塞與肺血管病工作委員會,全國肺栓塞與肺血 管病防治協作組.肺血栓栓塞癥診治與預防指南[J].中華醫學雜 志,2018,98(14):1060-1087.
[14]LIU X L,HU P,YEUNG W,et al.Ilness severity assessment of older adults in critical illness using machine learning(ELDER-ICU): aninternational multicentre study with subgroup bias evaluation[J]. TheLancet Digital Health,2023,5(1O):e657-e667.
[15]NAFEE T,GIBSON C M,TRAVIS R,et al.Machine leaming to predict venous thrombosisin acutely ill medical patients[J]. Research and Practice in Thrombosis and Haemostasis,2020,4(2): 230-237.
[16]WILLAN J,KATZ H,KEELING D.The use of artificial neural network analysis can improve the risk -stratification of patients presenting with suspected deep vein thrombosis[J].British Journal of Haematology,2019,185(2):289-296.
[17]STEVENS H,PETERK,TRAN H,et al.Predicting the risk of recurrent venous thromboembolism: current challenges and future opportunities[J].Journal of Clinical Medicine,2O2o,9(5):1582.
[18]朱坤,林宏遠,龔嘉淼,等.基于多種機器學習算法的老年瓣膜性 心臟病患者術后院內死亡風險因素分析[J].中國循環雜志,2024, 39(3):249-255.
[19]LEVIN S,TOERPER M,HAMROCK E,et al.Machine-leaming-based electronic triage more accurately differentiates patients with respect to clinical outcomes compared with the emergency severity index [J].Annals of Emergency Medicine,2018,71(5):565-574.
[20]馮心語,田凌云,羅慧,等.信息化技術應用于靜脈血栓栓塞癥護 理的研究進展[J].護理學雜志,2022,37(16):106-110.
[21]張妮瀟.肥厚型心肌病患者的臨床預后及其預測因素[D].北京: 北京協和醫學院,2021.
[22]MALATOA,DENTALIF,SIRAGUSA S,et al.The impact of deepvein thrombosisincriticallyill patients:a meta-analysis of major clinical outcomes[J].Blood Transfusion,2015,13(4):559-568.
[23]GELDHOFV,VANDENBRIELE C,VERHAMMEP,etal. Venous thromboembolism in the elderly:efficacy and safety of non-VKA oralanticoagulants[J].Thrombosis Journal,2Ol4,12:21.
[24]WANG H J,ROSENDAAL F R,CUSHMAN M,et al.D-dimer, thrombin generation,and risk of a first venous thrombosis in the elderly[J].Research and Practice in Thrombosis and Haemostasis, 2021,5(5):e12536.
[25]李麗麗,劉洋,屠海霞,等.D-二聚體聯合凝血四項指標對下肢深 靜脈血栓的診斷價值[J].血管與腔內血管外科雜志,2022,8(7): 856-860.
[26]XUKY,DE WIT K,GEERSING G,et al.A simplified decision rule to rule out deep vein thrombosis using clinical assessment and D-dimer[J].Journal of Thrombosis and Haemostasis,2O21,19(7): 1752-1758.
[27]HAASE C,JOERGENSEN M,ELLERVIK C,et al.Age-and sex dependent reference intervals for D-dimer:evidence for a marked increase byage[J].ThrombosisResearch,2013,132(6):676-680. (收稿日期:2024-04-16;修回日期:2025-04-27)