李麗娟,曹曉均,陳飛燕,樊慧峰,劉廣建
1.廣州市婦女兒童醫療中心 a.醫院質量管理科;b.信息中心;c.重癥監護室;d.呼吸科,廣東 廣州 510623;2.深圳市帝邁生物技術有限公司 大數據中心,廣東 深圳 518107
膿毒癥是ICU 常見的急危重癥,是全球感染患者死亡的主要原因之一,是由病原體感染導致宿主反應失調而引起的多器官功能障礙[1-4],早期識別及早期干預將大大改善患者預后并降低死亡率[5]。目前用于評估膿毒癥死亡風險的評分系統包括:急性生理學和慢性健康評分(APACHE Ⅰ-Ⅳ)、簡化急性生理評分(SAPSⅠ-Ⅲ)、序貫器官衰竭評估評分(SOFA)和死亡概率模型(MPM Ⅰ-Ⅲ)等[6],但都并非膿毒癥專用評分,缺乏個體使用所需的精確度。
隨著信息技術的快速發展,基于機器學習等信息技術為膿毒癥、嚴重膿毒癥和膿毒性休克患者開發的死亡預測模型[6-10],表現出比傳統的評分系統更好的辨別能力,但未有研究提出臨床樣本類別不平衡問題。實際上臨床死亡病例遠遠少于存活病例,因此樣本類別分布高度不平衡,會對模型的性能產生較大影響[11-12],導致現有的模型敏感度相對較低,漏診率高,死亡風險預警能力差。前期大部分預后研究僅限于入院時或入院后最初24 h 的數據。Meiring 等[13]使用機器學習算法來預測ICU 患者隨時間推移的死亡風險,發現模型的預測性能在第2 天(48 h)才達到了峰值,并在引入趨勢變化數據后性能得到進一步提升。因此,將入住ICU 后48 h內生理指標隨時間的變化用于膿毒癥預后的預測有其重要意義。
本文針對膿毒癥患者院內死亡風險預測中樣本類別不平衡導致敏感度低的弊端,解決預測模型在臨床上的實用性問題,提出使用ICU 膿毒癥患者48 h 臨床指標數據,提取指標時間序列數據的多維統計特征,使用更加合理的模型超參調優指標,基于隨機森林算法構建的機器學習模型來預測個體病例的院內死亡風險,并在開源數據集上驗證了模型的良好預測能力。
本研究的數據來自開源的MIMIC-Ⅲ數據庫,該數據庫包含2001—2012 年間在貝斯以色列女執事醫療中心(BIDMC)的61532 次ICU 住院患者健康數據[14],包括人口學數據、生命體征、實驗室檢查情況、操作國際疾病分類(International Classification of Diseases,ICD)編碼、診斷ICD 編碼、生理波形數據和出院數據等。本研究提取膿毒癥患者入住ICU 后最初48 h 的臨床數據。
納入標準:① 入住ICU 時年齡≥18 歲;② 符合膿毒癥-3.0 的診斷標準[15]。具體標準如下:患者SOFA 評分≥2 且疑似感染,則診斷為患有膿毒癥。疑似感染的判斷標準為:服用抗生素后24 h 內抽取了體液培養物,或者抽取體液培養物后72 h 內服用了抗生素。
排除標準:① 多次入住ICU 或在不同ICU 病區之間轉科的患者,② 住院天數未知或住院時間少于48 h的ICU 患者。
BIDMC 的機構審查委員會和麻省理工學院已批準任何符合要求的研究人員使用MIMIC- Ⅲ數據庫,所有研究均按照赫爾辛基宣言要求開展,即符合人類受試者的醫學研究倫理原則。
本文研究的預測結果是ICU 膿毒癥患者院內死亡的概率,并對患者的死亡時間與出院時間進行比對來確定是否屬于院內死亡。
本文通過文獻回顧和專家共識會議,最終確定數據集包括17 個生理特征時間序列,這也是Physionet/CinC Challenge 2012 數據集[16]的一個子集。這些變量與患者的預后密切相關,適合在臨床實踐中使用,方便預測模型的部署。本文截取了入住ICU 后最初48 h 的數據,選取的17 個變量如下:① 人口統計學特征:身高、體重;② 生命體征:舒張壓、收縮壓、平均血壓、心率、呼吸頻率、溫度;③ 實驗室檢查:吸入氧濃度、血糖、血氧飽和度、pH;④ 體格檢查:毛細血管再充盈時間、Glascow 昏迷量表睜眼反應評分、Glascow 昏迷量表運動反應評分、Glascow 昏迷量表語言反應評分、Glascow昏迷量表總分。
每個變量都提取該序列的7 個時間子序列和6 個統計特征,其中時間子序列包括全時間序列、前10%時間、前25%時間、前50%時間、后50%時間、后25%時間、后10%時間;統計特征包括最小值、最大值、平均值、標準偏差、偏斜和測量次數。因此,本研究總共獲得了17×7×6=714 個特征。變量的異常值被剔除,缺失值使用最近鄰插補算法進行填充。
整個數據集被隨機分為訓練集和測試集,使用85%的數據集作為訓練數據,其余15%用于測試。模型構建和超參調優都在訓練集上進行,最終模型性能比較在測試集上進行。
隨機森林(Random Forest,RF)算法因其簡單、易于實現、計算效率高的特點,并在很多實際應用中可以取得較好的性能[17],被譽為集成學習的代表。然而,傳統的RF 算法并不擅長處理樣本類別不平衡的數據。2004 年,Chen 等[18]針對不平衡數據分類問題對其進行了改進,取得了良好的性能,并將其稱為平衡隨機森林(Balanced Random Forest,BRF)算法。BRF 算法與傳統RF 算法的主要區別在于獲取樣本的方法不同,后者通過bootstrap 抽樣得到所有的訓練樣本,而前者首先從少數類中抽取bootstrap 樣本,然后從多數類中有放回隨機抽取相同數量的樣本。這樣基分類器(決策樹)就是在類別平衡的樣本上進行訓練的。Lema?tre 等[19]已經在不平衡學習Python 工具箱中實現了BRF 算法,它與scikit-learn 機器學習工具箱完全兼容。
本文基于這種改進的BRF 算法構建了新的預測模型。同時,使用傳統的RF 和邏輯回歸(Logistic Regression,LR)算法構建對照預測模型進行性能比較。
在超參調優時,使用10 倍交叉驗證進行性能驗證,并非固定的驗證數據集。同時搜索所有參數,而不是僅搜索某一個。對于LR 算法模型,使用網格搜索來找到合理的正則化項并調整懲罰因子C。對于RF 和BRF 算法模型,使用網格搜索找到決策樹的分割標準、估計器的數量、樹的最大深度以及尋找最佳分割時要考慮的特征數量。當然,這些值的范圍需要先通過粗搜索來確定。
目前,最經常使用的性能指標包括準確度、曲線下面積(Area Under Curve,AUC)等。但是,當數據集樣本類別不平衡時,這些指標無法反映模型的真實性能[20-21],而幾何平均值(Geometric Mean,GM)作為優化方法被提出為性能評估指標。然而,Batuwita 等[22]指出在某些現實情況限制條件下,GM 指標仍然可能會導致次優模型。為了克服這個問題,他們提出了一種新的性能評估指標,即改進的幾何平均值(Adjusted Geometric Mean,AGM),其定義如公式(1)所示。
式中,SE 為敏感度;SP 為特異性;Nn為數據集中負例的比例。結果表明,當數據集樣本類別不平衡時,AGM 指標可有效地用于模型參數選擇[22]。因此,本文分別使用AUC 和AGM 作為研究中超參調優的性能指標,并進行對比研究。
為了得到95%的置信區間,本文使用bootstrap 法對測試集重采樣10000 次,在重采樣數據集上得到預測性能,并使用這些預測性能值的2.5 和97.5 個百分位數作為置信區間估計值。
本文的研究隊列共包括10270 例患有膿毒癥的ICU住院患者。平均年齡為66.02 歲,女性占44.06%。在該隊列中,18.04%(1853)的住院患者最終院內死亡,死亡病例遠少于存活病例,樣本類別嚴重不平衡。研究隊列隨機分為2 組:訓練集有8757 例(數據集的85%),測試集有1513 例(數據集的15%)。測試集中保持了死亡病例和存活病例之間的總體比例,以保證研究結果的普適性。
模型超參調優結果如表1 所示,其中LR-AUC 和LR-AGM 分別表示使用AUC 和AGM 作為超參調優的性能指標的LR 模型。RF-AUC、RF-AGM、BRF-AUC和BRF-AGM 模型的命名方式相同。從表1 中可以看出,對于LR-AUC 和LR-AGM 模型,得到的超參數值差異很大。當正則化參數不同時,懲罰因子的值差異很大,達到了100 倍。與LR 類似,RF-AUC 和RF-AGM 的超參值也差別較大。然而,對于BRF 模型,獲得的超參值差別很小,只有樹的最大深度max_depth 和尋找最佳分割時要考慮的特征數max_features的數值相差不到1.5倍,這表明BRF 算法對性能指標不敏感,是因為在重采樣訓練集后樣本類別分布實際上變得平衡了。

表1 超參調優結果
如表2 和圖1 所示,模型性能統計結果包括6 個預測模型的AUC、AGM、敏感度和特異性,其中敏感度代表正確預測死亡病例占總死亡病例的比率,對于膿毒癥患者死亡風險預測具有重要意義。同時給出了通過bootstrap 重采樣測試集獲得性能結果的95%置信區間。所有6 個模型都獲得了相似的高AUC 性能,從最低的0.7846(95%CI:0.7529~0.8155)到最高的0.8041(95%CI:0.7751~0.8328)。但是,LR-AUC、LR-AGM、RF-AUC和RF-AGM 的敏感度比較低,甚至低至0.1826(95%CI:0.1351~0.2322)。這表明傳統的LR 和RF 模型僅能正確預測出較少膿毒癥患者的死亡風險,不適合院內死亡風險預測臨床應用。雖然LR-AGM 將敏感度提高到0.4300(95%CI:0.3682~0.4919),但仍然很難滿足臨床要求。

圖1 重采樣測試集上院內死亡預測的AUC、AGM、敏感度、特異性的箱線圖

表2 6個模型性能統計結果
結果可得,BRF-AUC 和BRF-AGM 模型的敏感度分別大大提高到0.7069(95%CI:0.6496~0.7642)和0.7110(95%CI:0.6537~0.7677),說明有70%以上的高風險患者能夠及時預警,若預警患者能夠得到有效治療,將對膿毒癥患者預后具有非常積極的影響。顯然,這2 個模型更適合于臨床使用,但也帶來了一定的負面影響,2 個模型的特異性降低了,說明敏感度和特異性之間存在固有的矛盾。此外,BRF-AGM 模型的AUC 和AGM性能值都比BRF-AUC 模型的略高,這也說明性能指標AGM 更加適合用于對樣本類別不平衡數據集進行超參調優和模型性能評估。
測試集預測結果的混淆矩陣如圖2 所示。混淆矩陣中的對角線單元格對應于正確分類的結果,其中,TP表示真陽性,TN 表示真陰性,FP 表示假陽性,FN 表示假陰性,FP 和FN 表示錯誤預測結果。圖中給出了正確預測和錯誤預測的樣本數,同時給出了相應的比率。混淆矩陣以一種更方便的方式說明,BRF 模型在多數類(存活病例)和少數類(死亡病例)上都實現了更加準確的分類。以BRF-AGM 模型為例,對于少數類(死亡類)的分類,175/246 是正確的。BRF-AGM 模型預測的死亡病例比RF-AGM 模型多130 例。另,該模型對少數樣本的錯誤分類率與多數樣本的錯誤分類率相當,分別為28.86%、26.52%。可以看到,絕大部分樣本均被預測為真實的類別。因此,RBF-AGM 模型顯著提高了少數類樣本的預測正確率,這也反映了模型對樣本類別不平衡的膿毒癥患者數據集的良好預測能力。

圖2 6個模型在測試集上的預測結果的混淆矩陣
本研究針對符合膿毒癥3.0 標準的ICU 住院患者,構建了基于BRF 算法的院內死亡預測模型,并與傳統的基于LR 和RF 算法的模型進行比較。在開源數據集上的性能測試結果表明,膿毒癥患者死亡風險預測問題中存在嚴重的樣本類別不平衡問題,死亡病例僅占18.04%。本文提出的BRF-AGM 模型在所有6 個模型中表現出最好的預測性能,并且BRF 模型在敏感度上相對于LR 和RF 有數倍的提高,達到了0.7110(95%CI:0.6537~0.7677),較好地解決了預警能力差、漏診率高的問題,有良好的臨床應用前景。此外,BRF-AGM 模型在AUC 和AGM 方面也有第二好的表現。
準確評估患者預后是臨床醫學的核心,尤其是在重癥監護環境中。對于院內死亡預測,本文主要關注的是死亡病例能否被盡可能多地正確預測出來。從機器學習的角度來看,死亡類的敏感度尤為重要。因為如果一名面臨死亡的患者被錯誤地歸類為生存類,患者可能會錯過治療機會,最終失去生命。事實上,在醫學中,對異常類別的錯誤預測比對正常類別的錯誤預測付出的代價更大[23]。通過使用BRF-AGM 模型,本文成功地預測出了比其他代表性方法更多的死亡病例。因此,本研究認為該模型在ICU 膿毒癥患者的院內死亡預測方面具有巨大潛力。
前期部分研究使用機器學習來預測膿毒癥患者的預后。Taylor 等[9]提出的預測膿毒癥患者院內死亡模型,AUC 性能為0.86。但該模型使用500 余個臨床變量來構建,若在沒有足夠能力收集這些變量的醫療機構中運用,會妨礙該預測模型的適用性。Garcia-Gallo 等[24]通過模型預測膿毒癥患者1 年內死亡情況,AUC 性能達到了0.8039。Ward 等[25]預測了感染膿毒癥患者30 d 的死亡率,AUC 性能達到0.79。Jaimes 等[10]提出了一個預測急診科疑似膿毒癥患者28 d 死亡率的模型,AUC性能為0.8782。而這些模型都有不同的用途,但是在相對較小的數據集上開發的,亦沒有評估敏感度的性能。
本研究使用了時間序列變量的統計特征(比如最小值、最大值、平均值和標準差)和子序列(如前10%、25%和50%的時間子序列)。這些特征不僅是臨床醫生在危重癥中需要關注的指征(包括入院狀態、集中趨勢、極端情況、變異性和隨時間的變化趨勢),而且已被證明可以有效地提高模型的預測性能[26-28]。
本研究創新性融合了分類不平衡算法及時間序列構建死亡預測模型,其模型優越性及穩健性得以體現,但本研究仍存在一定的局限性:① 由于該模型是以回顧性的方式在單個中心的數據上構建的,因此需要進行前瞻性的多中心驗證來證明其泛化能力。② 模型的輸入是ICU 住院最初48 h 的數據。盡管采用較長時間序列的數據可以確保在臨床決策中獲得這些變量的值,但這意味著該模型只能在觀察的最初48 h 后才能使用,但有時必須在短時間內決定是否為患者提供最佳的維持生命的治療,因此必須在預測的準確性和及時性之間作出權衡。因此,在下一步研究中,應該嘗試使用更短時間甚至在入住ICU 之前的數據。③ 本研究只使用了一種分類算法來解決樣本類別不平衡問題,可能還有其他算法,如深度學習可能獲得更好的性能[29]。
本研究基于膿毒癥患者院內死亡預測中的樣本類別不平衡問題,構建了一種新的基于BRF 的預測模型,使用更好的性能度量指標AGM 對超參進行調優。性能比較結果表明,與傳統的LR 和RF 模型相比,膿毒癥患者死亡類的預測敏感度顯著提高,這意味著更多面臨死亡的患者將得到及時預測和妥善治療。盡管基于BRF的院內死亡預測模型的臨床實用性仍需在實際臨床實踐中進行測試,但由于出色的預測性能,相信未來其在ICU 中會有很大的應用潛力。BRF-AGM 模型可以幫助ICU 臨床醫生作出判斷,從而避免面臨死亡的膿毒癥患者被延誤治療,這對于改善高致死率膿毒癥患者的預后至關重要。