機器學習DNN和XGBoost算法對危重患者預后預測模型效能評估

2020-04-20 13:07:32李惠萍胡安民

實用醫學雜志 2020年4期

關鍵詞：模型

李惠萍胡安民

南方科技大學第一附屬醫院（深圳市人民醫院）1呼吸與危重癥醫學科，2麻醉科（廣東深圳518020）

重癥患者病情復雜，變化快，且存在多種因素包括年齡、基礎疾病等影響患者預后。研究發現老年患者的1年病死率約為19%[1]，而老年癡呆的患者病死率則高達65%[2-3]。準確的評估重癥患者預后有利于醫護人員制定更合適的治療方案，因此亟需開發可準確預測患者死亡風險的工具。目前臨床上使用的預后評分模型需要預測變量和對應結果間呈線性關系[2]，但是很多影響患者預后的因素與死亡風險之間無法建立簡單的線性關系。機器學習（machine learning，ML）技術是計算機通過數據構建概率統計模型并運用模型對數據進行預測并分析的學科，目前已廣泛用于醫學研究領域，如醫療診斷輔助、醫學圖像分析、計算藥物發現和藥物效能等[4-6]。通過機器學習算法的非線性關系規則建立預測模型可以改善模型的效能[7-9]。本研究使用公用重癥監護醫學信息數據庫（Medical Information Mart for Intensive Care，MIMIC-Ⅲ）的臨床數據，采用機器學習中深度神經網絡（deep neural network，DNN）和極限梯度提升（eXtreme gradient boosting，XGBoost）算法構建重癥患者1年內全因病死率的預測模型，使用10 折交叉驗證法對模型效能進行驗證，并與簡化急性生理評分-Ⅱ（simplified acute physiology score-Ⅱ，SAPS-Ⅱ）預后模型進行比較，從而尋找更準確預測重癥患者預后的模型。

1 材料與方法

1.1 資料來源本研究采用的是重癥醫學大數據研究常用數據庫MIMIC-Ⅲ（V1.4版）的患者數據。該數據庫收錄美國波士頓貝斯以色列女執事醫療中心的危重患者數據[10]，存儲了46 520例重癥患者的臨床信息，3 億多條結構化數據，包括每例患者人口學信息、診斷編碼、實驗室檢查、醫療干預事件等。經哈佛大學醫學院倫理審查委員會與麻省理工學院共同批準后，通過“保護人類受試者培訓”的研究人員方可下載數據庫中已通過嚴格去隱私化的患者數據。數據由筆者提取（證書編號：26450451）。

1.2 納入和排除標準納入標準：納入首次進入ICU 治療的重癥患者。排除標準：患者年齡＞18歲或＜89歲，ICU 住院時間＞24 h。

1.3 研究結局與預測變量主要研究結果是危重患者在進入ICU 后1年內的病死率。研究納入患者進入ICU 首日可能影響預后的103項變量，包括性別、年齡、身體質量指數、種族、入ICU 類型、進入ICU的時間、生命體征最大值和最小值（心率、收縮壓、舒張壓、脈搏血氧飽和度、體溫）、液體出入量、尿量、血氣分析最大值和最小值（酸堿度、碳酸氫根濃度、堿剩余、血鉀離子濃度、血鈣離子濃度、鈉離子濃度、氯離子濃度、陰離子間隙、動脈血氧分壓、動脈血二氧化碳分壓、肺動脈-氧壓力梯度、血乳酸）、血常規最大值和最小值（血紅蛋白、血細胞比容、白細胞計數、中性粒細胞百分比、血小板）、凝血常規最大值和最小值（國際標準化比值、凝血酶原時間、活化部分凝血活酶時間）、肝腎功能檢查最大值和最小值（血清白蛋白、血清總膽紅素、丙氨酸氨基轉移酶、天冬氨酸氨基轉移酶、內生肌酐清除率、血清尿素氮、血清肌酐）、C-反應蛋白最大值、心肌標志物最大值（肌酸激酶同工酶、肌鈣蛋白T、肌鈣蛋白I）、腦利鈉肽最大值、GCS 評分最小值、合并癥（高血壓、糖尿病、充血性心衰、肺循環疾病、慢性肺部疾病、心律失常、瓣膜疾病、糖尿病并發癥、外周血管疾病、肝病、腎病、中風、其他神經系統疾病、消化性潰瘍、艾滋病、淋巴瘤、實體腫瘤、轉移性癌癥、類風濕關節炎、凝血功能障礙、體重下降、電解質紊亂、失血性貧血、缺鐵性貧血、酒精濫用、藥物濫用、精神病、抑郁）。這些臨床變量經過特征變量篩選后用于機器學習算法的預后模型建立。

1.4 模型評價與統計分析數據提取與清洗使用PostgreSQL 數據庫。采用R v.3.6.0軟件進行數據分析、構建模型并評估。連續性變量的比較采用t檢驗和單因素方差分析，分類資料的比較采用χ2檢驗。基于SAPS-Ⅱ評分構建邏輯回歸模型。基于Boruta 包進行影響預后的特征變量篩選[11]。存在缺失值的特征變量通過隨機森林多重插補算法依次進行建模插補[12]。依次分別構建DNN 模型和XGBoost 模型。模型效能的評估采用十折交叉驗證。

在完成模型構建后，采用真陽性率（True Positive Rate，TPR）、陽性預測值（Positive predictive value，PPV）、F 值（F-score）、受試者工作特征（Receiver Operation Characteristic，ROC）曲線下面積（Area Under the ROC Curve，AUC）進行模型的評估。其中，TPR是指所有實際為陽性的樣本中，被正確地判斷為陽性結果的比率；PPV是指正確預測到的正例數和預測正例總數的比值；F 值是TPR和PPV的加權調平均，用于綜合反映模型整體性能的指標。此外，ROC 曲線以靈敏度為縱軸，以假陽性率為橫軸。AUC 值是ROC 曲線下的面積，AUC 值越大則說明模型的預測能力越好。

2 結果

2.1 危重患者數據的基本特征篩選出符合條件的危重患者30 833例，平均年齡65歲，女性患者17 873例（占58.0%），平均住院時間約為7.5 d。在ICU 后的1年內發生死亡的患者7 866例（占25.5%）。相對于存活的患者，死亡患者具有年齡大、女性占比多、急診納入ICU 比例高、SAPS-Ⅱ評分更大、ICU 治療時間和住院時間均更長的特點。患者的臨床信息可見表1。

2.2 特征變量篩選和多重插補患者信息經過數據清洗后，進行特征篩選，最后得到66個特征變量。依次對含有缺失值的特征變量通過隨機森林算法構建多重插補模型，然后插補存在的缺失值。

2.3 模型評估通過10 折驗證對SAPS-Ⅱ、DNN、XGBoost 構建的3種模型進行預測性能評估。在SAPS-Ⅱ、DNN、XGBoost 模型中，TPR 分別為（0.65±0.04）、（0.61±0.23）和（0.62±0.04），差異無統計學意義（P＞0.05，圖1A）。PPV分別為（0.41±0.06）、（0.42 ± 0.41）和（0.67 ± 0.05），差異無統計學意義（P＞0.05，圖1B）。SAPS-Ⅱ、DNN、XGBoost 模型的F值依次為（0.51 ± 0.05）、（0.37 ± 0.27）和（0.64 ±0.03），見圖1C，XGBoost 模型的F 值明顯高于DNN模型。AUC 值在三個模型中依次為（0.75±0.04）、（0.64±0.18）和（0.80±0.02），XGBoost模型的AUC值顯著高于SAPS-Ⅱ模型和DNN 模型，提示XGBoost模型的預測效能優于其他兩種模型（P＜0.05，圖1D）。

表1 數據集人口學特征和進入ICU1年內存活和死亡的患者特征Tab.1 Data Set Population Characteristics and Characteristics of Patients who survived and died in 1 yearafter admitting to ICU

圖1 DNN 模型和XGBoost 模型在測試數據集中的預測性能Fig.1 Predictable performance for DNN model and XGBoost model run on the test

3 討論

危重患者通常存在危及生命的器官或系統功能障礙，盡早評估并給予合理救治對挽救患者生命，提高生存質量至關重要。危重患者病情復雜，臨床醫生僅通過主觀經驗來評估患者的死亡風險精確度有限。因此能夠準確預測危重患者預后的預測模型對臨床工作至關重要。目前臨床上使用的SAPS-Ⅱ評分預后模型的實際預測結果并不理想。這是因為SAPS 模型要求預測變量和相應結果之間呈線性關系[13]，對多元共線性數據、缺失數據和非平衡數據敏感難以實現高階交互作用[14]。SAPS 評分模型未得到充分校準，預測病死率仍需改進[15-18]。

機器學習技術是計算機使用大數據構建概率統計模型，并運用模型對數據進行預測和分析的學科，現已廣泛用于醫學研究領域[6，18]。機器學習算法的非線性關系規則可彌補SAPS 模型的不足。因此本研究使用機器學習中的DNN和XGBoost算法，分別構建了危重患者1年內病死率的預測模型。DNN是一種模仿動物神經網絡行為特征來進行分布式并行信息處理的數學模型[8-9]，通過調整內部大量節點之間相互連接的關系達到處理信息的目的。該類模型可以自動識別預測變量與結局之間的非線性關系。DNN的架構主要包括三部分：輸入層、多個隱藏層和輸出層。輸入層接受預測變量，而輸出層提供預測結果。隱藏層和輸出層中的每個神經元都接收上一層的輸出值與相關權重的乘積和。DNN 利用多個隱藏層逼近極端復雜的決策函數。與邏輯回歸相比，神經網絡模型的顯著優點是構建模型不需要過多的前提假設。此外，神經網絡可同時納入大量預測變量，而不用考慮共線性。神經網絡特別適合對復雜臨床場景進行建模。神經網絡算法在對危重患者死亡的預測優于邏輯回歸模型[7]。

XGBoost算法通過一堆分類回歸樹的預測分數相加作為最終的預測值。樣本數據分別通過分類樹，然后根據不同葉節點進行打分，最后再分別計算出不同樣本在一群樹中的總分。XGBoost算法具有運算速度快、可調參數多的特點，適用于大樣本數據的計算，而本研究發現XGBoost 模型預測性能整體優于傳統的SAPS-Ⅱ模型和另一種機器學習算法DNN 模型。DNN 算法構建模型也可以納入大量數據，但本研究發現DNN 算法構建的危重患者預后模型性能不穩定，容易出現數據的過擬合。這可能和算法本身存在陷入局部極小值的缺點有關。

本研究尚存在不足之處，例如使用的數據是國外單中心的臨床數據，可能存在人種、疾病譜、治療策略等差異，由此建立的預測模型在應用于國內患者預后評估時仍需要調整以提高預測性能。此外，本研究納入的數據為首日的臨床數據，未納入危重患者的所有臨床信息包括連續性變量，因此應用于動態評估危重患者死亡概率時存在一定局限性。

綜上，機器學習算法建立的預測模型較傳統的SAPS 模型具有更多優勢，在基于臨床數據對危重患者1年病死率的預測上，XGBoost 模型比DNN 算法、SAPS 模型更準確。XGBoost 模型可用于協助臨床醫生制定醫療方案，同時也為今后的危重患者預后預測系統部署到重癥監護室提供數據支持。