孫悅,陳廣新,于淼,郭金興
(1. 牡丹江醫學院附屬紅旗醫院,黑龍江牡丹江 157011;2. 牡丹江醫學院醫學影像學院,黑龍江牡丹江 157011)
新冠肺炎自2019年12月爆發以來,嚴重威脅全球人類健康,其影響波及192個國家和地區[1]。2022年底世界衛生組織宣布2022年有100萬人死于新冠肺炎,在具備防止死亡的所有手段的情況下,這是個“悲劇性里程碑”[2]。目前,新冠肺炎的快速診斷治療依然是保護人民健康的重中之重,尤其是對重癥、危重癥患者病情的綜合救治與分析。隨著新冠病毒的不斷變異,目前,大多數新冠肺炎患者會出現輕微至中度呼吸系統疾病,無須治療便可康復,一些老年人以及有心血管疾病、糖尿病、慢性呼吸系統疾病和癌癥等潛在疾病的人更容易發展至危重甚至死亡[3]。在新冠肺炎大流行的整個過程中,衛生保健提供者面臨的主要問題之一是醫療資源短缺和有效分配醫療資源[4-8]。因此對新冠肺炎疾病風險的快速、精準預測對合理分配醫療資源與救治危重癥患者具有重要的意義[9-10]。
目前,已有很多學者基于深度學習構建了新冠肺炎的疾病預測模型,但更多的模型是基于新冠肺炎圖像的。基于臨床診斷結構化信息的研究比較少見。本研究采用及機器學習算法建立新冠肺炎風險預測模型,有效預測新冠肺炎患者死亡風險,為臨床決策提供支持。
數據集來自于Kaggle的新冠肺炎數據集。數據集包括大量的匿名信息,有1 048 576個患者樣本,每條記錄都有一個結局標簽。數據具體情況如表1所示,結局變量為死亡事件。

表1 特征描述性統計
2.2.1 數據預處理
(1) 缺失值插補。對缺失值采用眾數填補策略。
(2) 數據集平衡處理。由于臨床結局變量death的標簽具有不平衡性(死亡組:13 085;存活組:330 639),為了減少訓練模型中產生的偏倚,對原始數據集進行了平衡處理。目前常用的平衡數據集的方法有上采樣和下采樣[9-15]。本研究基于SMOTE(Synthetic Minority Oversampling TEchnique)算法對原始數據進行了平衡。
(3) 數據歸一化處理。本研究采用線性函數歸一化方法對新的平衡的數據集進行歸一化處理。歸一化處理的目的是消除不同數據量綱引起的計算誤差,將數據壓縮在[0,1]范圍內。
(4) 數據集劃分。將歸一化后的數據集按照7:3的比例平均劃分數據集和測試集。劃分后的數據集訓練集為18 319例,測試集為7 851例。
(5) 特征變量篩選。由于本研究的變量較少,重要性較低的變量也會對模型的訓練帶來增益效果,因此在訓練模型時納入全部的特征變量。
本文研究采用GradientBoosting、lightGBM、Catboost、NeuralNet、LinearDA、LogisticRegression、SupportVectors、xgboost、Adaboost、RandomForest、NaiveBayes、DecisionTree、NearestNeighbors等13個算法模型,其中包括集成學習算法與非集成學習算法。
為提升預測模型的診斷效能,本文研究采用了網絡搜索自動調參法對每一個模型進行調整參數優化模型,進一步提升模型預測準確性。
預測評估指標選用準確度(accuracy)、靈敏度與特異度ROC(Receiver Operating Characteristic)曲線及曲線下面積AUC(Area Under the Curve)、召回率(recall)、精確度(precision)、F1分數、混淆矩陣等指標對模型進行評估。
機器學習的算法模型經過訓練后可以得到預測精度較高的模型,但是機器學習算法模型的可解釋性較差。本文采用SHAP(SHapley Additive exPlanation)值對模型中對臨床結局影響因素進行解釋分析。SHAP基本的思想來源于博弈論中的Shapley value,其思想設計為:首先計算一個特征加入到模型中的邊際貢獻,然后計算該特征的SHAP值,即該特征所有邊際貢獻的均值。不同于預測模型本身的特征重要性,SHAP值計算的最大優勢在于能夠反映出樣本每一個特征對預測的影響力,而且還可以指出其影響程度的正負性。
如表2所示,使用準確度、精確度等指標對13種模型的預測性能進行評價。評價最高的模型依次為light GBM、GradientBoosting、Catboost。上述三個模型均為集成學習算法模型,整體上看三種預測模型性能最高的為lightGBM模型,準確率達到92.05%,ROC曲線下面積為0.96,召回率0.96,精確度0.89,F1分數0.92。圖1為lightGBM模型的混淆矩陣圖,由圖可見預測模型使用測試集預測的效果。

圖1 lightGBM模型的混淆矩陣

表2 模型性能評價
3.2.1 全局可解釋性分析
圖2 顯示了lightGBM模型的整體特征分析圖,該圖根據臨床特征對結局的影響重要性進行了排序分析。SHAP以特征重要性為基礎,在中線進行排列,中線左側表示Shapley值為負值,即該位置樣本使模型預測結果趨于陰性,中線右側表示Shapley值為正值,即促使模型的預測結果趨于陽性。同時,每個樣本以彩色表示,紅色表示其特征值大,藍色表示其特征值小[2]。結合兩者便可解釋樣本的每個特征對于模型預測結果的影響。

圖2 SHAP特征分析
根據lightGBM模型的樹狀圖可以看到,特征重要性中,pneumonia對模型的預測結果影響最為重要。pneumonia作為最重要的特征,其特征值越小,模型預測診斷結果為陽性的傾向也越大;其特征值越大,模型預測診斷結果為陰性的傾向也越大。
3.2.2 局部可解釋性分析
從局部層面對單個樣本是否感染新冠病毒的影響因素進行解釋性分析。圖3為某一預測結果為陰性(0)的特征貢獻,圖3(a)為某一預測結果為陰性的特征貢獻,圖3(b)為某一預測結果為陽性的特征貢獻,其中紅色表示對預測結果有正向影響的特征,藍色表示對預測結果有負向影響的特征[3-6]。白色箭頭表示特征之間的分割線,相鄰分割線之間的距離則表示所對應的特征及其特征值對預測結果的影響程度,距離越長,則影響程度越大。

圖3 SHAP特征貢獻
圖3(a)中,該樣本的預測概率f(x)為4.00,遠大于整個數據集的基準值,表示用此模型預測為陽性樣本的可能性很大,被預測為陽性的最大影響因素為pneumonia,其他影響因素為patient_type、Chance、age。
圖3(b)中,該樣本的預測概率值f(x)為-0.41,遠小于整個數據集的基準值,表示用此模型預測結果(新冠肺炎)可能為陰性,被預測為陰性的最大影響因素為age,其他影響因素為Chance。
新冠肺炎疾病的智能輔助診斷對醫療精準防控與治療具有重要的作用,精準的預測患者是否有新冠肺炎且分析新冠肺炎的關鍵影響因素能有效的提高醫療服務的質量與效率。本文通過構建13個機器學習預測模型,并通過超參數優化方法對比調參,進一步提高了模型的性能[8-12]。篩選出預測效能最好的模型lightGBM,并結合SHAP方法對預測模型從全局與局部兩方面進行了解釋性分析,綜合分析了影響新冠肺炎疾病診斷結果的關鍵因素。
由于本文數據集來自于公開數據集,目前缺少臨床數據集作為對照,下一步的工作主要是在公開數據集進行建模的遷移實驗,以及考慮更加有效的模型優化方法和模型解釋方法,進一步提高模型的精度、可解釋新價格及其實際應用價值。