機器學習在預測重癥急性胰腺炎發生急性呼吸窘迫綜合征中的作用

2023-12-27 12:18:00鄒康任文森蒲鑫鑫呂應琴徐勁史孝敏石蕾彭燕湯小偉

中華胰腺病雜志 2023年6期

鄒康任文森蒲鑫鑫呂應琴徐勁史孝敏石蕾彭燕湯小偉

西南醫科大學附屬醫院消化內科,瀘州 646000

【提要】回顧性分析214例SAP患者的資料,構建5種SAP并發急性呼吸窘迫綜合征(ARDS)的機器學習預測模型,并篩選出最優模型。結果顯示,5種機器學習模型中,極端梯度提升(XGBoost)為最優模型。XGBoost在測試集中的AUC值為0.851(95% CI 0.739～0.963),靈敏度為0.840,特異度為0.793,陽性預測值為0.842,陰性預測值為0.743。最重要的4個預測變量為呼吸頻率、血清淀粉酶、年齡和總蛋白。表明機器學習模型能夠很好地預測SAP相關ARDS的發生,為臨床早期識別高危患者提供了思路。

AP是消化系統最常見的疾病之一,大約20%的AP患者因持續性器官功能衰竭發展為SAP[1]。急性呼吸窘迫綜合征(acute respiratory distress syndrome,ARDS)是SAP最常見和最嚴重的并發癥之一,大約1/3的SAP患者會并發ARDS,約占SAP第1周死亡人數的60%[2]。盡管近年來ARDS的治療取得了一些進展,但其預后仍不樂觀,早期識別高風險患者并及時采取干預措施以阻斷ARDS的發生發展對改善其預后至關重要。目前,機器學習已廣泛應用于不同類型的臨床研究,在AP的嚴重程度和并發癥預測中展示出了良好的效果[3]。本研究旨在利用SAP患者的臨床資料開發和驗證多個機器學習模型,并篩選出最優模型對SAP并發ARDS進行預測,為臨床早期識別SAP相關性ARDS提供思路。

一、資料與方法

1．研究對象:收集2013年7月至2022年4月間西南醫科大學附屬醫院住院治療的214例SAP患者的臨床資料。其中79例發生ARDS(ARDS組),135例未發生ARDS(非ARDS組)。SAP的診斷基于2012年修訂的亞特蘭大分類共識[4];ARDS的診斷標準符合柏林定義[5]。排除標準:(1)年齡<18歲;(2)SAP合并慢性肺部疾病;(3)SAP合并妊娠;(4)SAP合并惡性腫瘤;(5)起病時間超過48 h;(6)首診醫院非西南醫科大學附屬醫院;(7)數據缺失者。本研究經醫院倫理委員會批準(20210223-146)。

2．觀察指標:記錄患者的性別、年齡、病因、吸煙史、飲酒史、體溫、脈搏次數、呼吸頻率、白細胞、中性粒細胞、中性粒細胞率、紅細胞、血紅蛋白、紅細胞比容(hematocrit,HCT)、紅細胞分布寬度變異系數(coefficient of variation of red cell distribution width,RDW-CV)、血小板、丙氨酸氨基轉移酶(alanine aminotransferase,ALT)、天冬氨酸氨基轉移酶(aspartate aminotransferase,AST)、AST/ALT、總蛋白、白蛋白、總膽紅素、血淀粉酶、尿素、肌酐、腎小球濾過率(glomerular filtration rate,GFR)、血清鈣、凝血酶原時間(prothrombin time,PT)、活化部分凝血酶原激酶時間(activated partial thromboplastin time,APTT)和降鈣素原。所有臨床資料均為入院后24 h內的首次結果。

3．機器學習多模型篩選:比較ARDS組和非ARDS組的臨床資料,將所有臨床特征納入為輸入變量以觀察模型的最高效能,以是否并發ARDS作為輸出變量。所有患者按照8∶2的比例隨機分為訓練集和驗證集。通過訓練集構建極端梯度提升(extreme gradient boosting,XGBoost)、logistic回歸、隨機森林、多層感知器神經網絡(multilayer perceptron,MLP)、支持向量機(support vector machine,SVM)共5種分類模型。繪制各個模型的受試者工作特征曲線(receiver operating characteristic,ROC),并計算Brier分數,通過5次重復采樣計算各個模型的ROC曲線下面積(area under curve,AUC)的均值,比較各模型訓練集及驗證集的AUC值及Brier分數,挑選出最優模型。

4．最優模型預測性能評價:采用Lasso CV回歸對上述輸入變量進一步進行特征篩選,以提高最優模型的精簡性與臨床實用性。隨后,將篩選出的特征作為預測變量,同樣以是否并發ARDS作為結局變量,在總體樣本中隨機抽取20%作為測試集,剩余樣本作為訓練集進行5折交叉驗證,并在測試集中對模型的預測性能進行評價。繪制該模型簡化后的ROC曲線,并計算AUC值、cutoff值、準確度、靈敏度、特異度、陽性預測值及陰性預測值。此外計算SHAP(SHapley Additive exPlanations)值并繪制SHAP特征重要度圖對模型進行局部解釋。

二、結果

1．一般資料:ARDS組與非ARDS組的臨床特征比較見表1。相較于非ARDS組,ARDS組年齡更大,有更高的呼吸頻率、脈搏次數,RDW-CV、AST、AST/ALT、總膽紅素、血淀粉酶、尿素、肌酐、血清鈣、PT、降鈣素原水平更高,但血小板、總蛋白、白蛋白、GFR水平更低(P值均<0.05)。兩組間其余指標差異無統計學意義。

表1 ARDS組與非ARDS組患者臨床特征比較

2．多模型篩選結果:以訓練集構建的XGBoost、logistic回歸、隨機森林、MLP、SVM 5種分類模型預測SAP相關性ARDS的ROC曲線見圖1。除MLP和SVM模型外,其余3個模型均表現良好。5種模型的Brier分數分別為0.145、0.147、0.151、0.226、0.221。XGBoost在訓練集和驗證集中的AUC值均最高,且Brier分數最小,故其為最優模型。

圖1 5種模型在訓練集(1A)和驗證集(1B)的受試者工作特征曲線圖2 XGBoost模型在訓練集(2A)、驗證集(2B)、測試集(2C)的受試者工作特征曲線圖3 XGBoost模型的特征重要度圖(注:ALT為丙氨酸氨基轉移酶;AST為天冬氨酸氨基轉移酶;GFR為腎小球濾過率)

3．XGBoost模型預測結果:XGBoost模型在訓練集、驗證集、測試集中的ROC曲線見圖2。其AUC值均超過0.8,表明XGBoost模型在訓練集、驗證集、測試集中均有良好的區分度。XGBoost 模型在測試集中的特征重要度圖見圖3,其最重要的4個預測變量分別是呼吸頻率、血淀粉酶、年齡和總蛋白。無論在訓練集、驗證集還是測試集,XGBoost模型均展示出了出色的預測價值。當剔除呼吸頻率再次分析時,其整體預測性能明顯下降(表2)。

表2 XGBoost預測模型在訓練集、驗證集、測試集中的預測性能

討論ARDS不是一種原發疾病,它是各種直接或間接因素引起肺損傷的最終結果。AP是ARDS最常見的間接因素之一[6]。目前沒有治療ARDS的特異性藥物,患者預后受到干預時機的影響。盡管近年來ARDS的治療方案有所發展,但其死亡率卻未明顯改善,中度及重度ARDS患者的病死率可達40.3%和46.1%[7]。研究表明,針對ARDS高風險患者,采取降低潮氣量及限制液體輸入[8]、抗血小板[9]、霧化肝素[10]等干預措施可顯著降低ARDS的發生率。但是,缺乏有效評估發生ARDS風險的方法仍是改善患者預后的重大阻礙。

雖然目前已開發出一些早期預測ARDS的方法,但均存在一定局限性。肺損傷預測(LIPS)評分[11]可用于早期診斷ARDS患者,但涉及變量多且計算復雜。此外,一項多中心研究采用LIPS評分識別ARDS高危患者,其陰性預測值雖然為97%,但陽性預測值僅為18%[12],這可能會導致相當程度的誤診。logitic回歸作為臨床最常用的統計學方法之一,可以探索ARDS的危險因素并進行預測[13]。logistic回歸是一種線性分類器,容易受到預測變量之間非線性關系的干擾,并且當數據的維度較高時,其準確性不如機器學習[3]。隨著記錄的患者特征越來越多,機器學習可以充分利用高維數據,分析多個特征之間的復雜關系,從而達到最佳預測效果[14]。Fei等[2]已經開發了一種人工神經網絡模型來預測ARDS的嚴重程度,但該模型需要納入基于CT計算的胰腺壞死率,而大多數AP患者早期胰腺壞死并不明顯。此外,一些新的生物標志物例如P物質、IL-18、胰腺炎相關蛋白、microRNA-127等也可用于預測ARDS[15-16],但這些指標均不是臨床常規檢查,加重了患者的醫療負擔,限制了其在臨床上的應用。因此,需要一種預測變量簡單且可快速獲取、不依賴影像學結果的模型來評估SAP患者發生ARDS的風險。

本研究通過比較5種機器學習模型,篩選出最優的XGBoost模型預測SAP相關性ARDS,并且采用Lasso CV回歸進行特征篩選,該模型最終納入15個預測變量,且所有指標均為入院常規血液檢查結果。XGBoost是一個優化的分布式梯度增強庫,它集合了多種學習算法的性能,因而比任一單獨的算法表現更佳。XGBoost也因其運算速度快、可調參數多、適用于大樣本數據計算等特點而廣泛應用于多種領域[17]。一項基于多種機器學習模型預測AP患者發生急性腎損傷的研究指出,在SVM、隨機森林、分類和回歸樹、logistic回歸和XGBoost 5種機器學習模型中,XGBoost預測性能最優,其AUC值達到0.919[18]。Luo等[19]在預測ICU患者的死亡率時,比較了SVM、logistic回歸、人工神經網絡、樸素貝葉斯法和XGBoost 5種機器學習模型,最終同樣XGBoost表現最佳,其AUC值為0.81。因此,在眾多機器學習模型中,XGBoost可能具有獨特的優勢。

本研究最終的XGBoost模型中,呼吸頻率、血淀粉酶、年齡和總蛋白是最重要的4個預測因素。研究表明,呼吸頻率>30次/min是SAP患者發生ARDS的獨立危險因素[20]。但是呼吸頻率變化較快,并且在未進行心電監護的患者中,呼吸頻率的記錄有很強的主觀性。本研究去掉呼吸頻率進行敏感性分析后顯示,XGBoost的總體預測性能明顯下降,可見呼吸頻率的確對預測SAP相關性ARDS十分重要。因此,加強記錄生命體征相關的醫護人員的教育,提高呼吸頻率記錄的準確性對早期發現SAP并發ARDS有很大幫助。

本研究為首次采用多種機器學習模型預測SAP相關性ARDS的研究,共比較了5種機器學習分類模型,挑選出最優的XGBoost模型,并對其預測性能進一步評估,同時繪制了SHAP特征重要度圖對機器學習的“黑盒模型”進行解釋。本研究所有的預測指標均為入院常規血液檢查,并且不涉及影像檢查結果,可在患者入院后快速獲取,達到早期預測、早期干預的效果。本研究也存在一些局限性。首先,研究模型是基于單中心數據建立的回顧性研究,樣本量較少。其次,雖然本研究采用了五折交叉驗證提高模型可靠性,但仍需外部驗證以提升證據水平。

利益沖突所有作者聲明無利益沖突