王孟,覃露,王春娟,李姣,王伊龍,趙性泉,王擁軍,李子孝
卒中是全球死亡率最高的疾病之一[1]。根據全球疾病負擔研究最新估計,2017年我國卒中死亡率為106/10萬,居我國疾病死因首位[2]。腦出血是致殘率、死亡率最高的一類卒中亞型,分別占卒中發病、死亡的30.1%和50.0%[1,3]。卒中相關肺炎(stroke-associated pneumonia,SAP)是腦出血常見并發癥之一,是導致卒中患者死亡的獨立危險因素[4-6],增加患者住院時間和醫療費用[7-8]。因此,探索SAP的危險因素,建立風險預測模型,是發現高危人群、預防SAP、降低卒中死亡率的有效手段。
研究證明,年齡、性別、吸煙、糖尿病、高血壓、心房顫動、心力衰竭、慢性阻塞性肺疾病、吞咽困難、高血糖等可能是導致SAP的危險因素[9-12]。目前,應用于腦出血相關肺炎的預測模型較少。冀瑞俊等[13]在中國國家卒中登記人群中,首次建立了腦出血相關肺炎預測模型。
機器學習能夠對大數據深度挖掘與分析,目前已在疾病發病、預后預測等方面有廣泛應用[14-15]。然而,目前尚未有基于機器學習的疾病風險預測模型,應用于腦出血相關肺炎的早期診斷。本研究采用基于機器學習的Logistic回歸、CatBoost、XGBoost、LightGBM四種算法,建立、評價腦出血相關肺炎預測模型。
1.1 研究對象 本研究基于中國國家卒中登記Ⅱ(China National Stoke Registry Ⅱ,CNSRⅡ)數據庫,以2012年5月-2013年1月連續登記的發病7 d內的急性腦出血住院患者為研究對象,研究覆蓋我國219家醫院。
納入標準:①年齡>18歲;②根據世界衛生組織診斷標準診斷為腦出血[16];③腦出血診斷經CT或MRI確診;④經門診或急診住院;⑤入院后經吞咽功能評價;⑥患者或法定代表人簽署知情同意。排除臨床信息不完整的患者。
1.2 研究方法
1.2.1 患者基本信息 采用病例報告表收集患者的人口統計學信息(年齡、性別、吸煙、飲酒)、既往病史(高血壓、糖尿病、血脂異常、心房顫動、周圍血管疾病、心肌梗死、心力衰竭、慢性阻塞性肺疾病、腦血管病)、入院后臨床檢查結果(吞咽功能障礙、NIHSS評分、白細胞計數)。病例報告表中數據的完整性、準確性由獨立的數據專家進行核查。
1.2.2 卒中相關肺炎的診斷標準 患者出現呼吸道感染的臨床表現和實驗室指標異常(如發熱、咳嗽、聽診呼吸音粗或啰音、新的膿性痰或痰培養陽性),同時有典型的胸部X線或CT檢查結果支持,臨床診斷為SAP[17]。
1.2.3 機器學習算法 CatBoost在2017年被Yandex[15]首次提出,它采用對稱樹的方式,并且用特殊的方式來處理分類特征,從而有效地避免了過擬合的問題,提高了泛化能力,提高了模型的魯棒性,特別適合樣本量小、數據不平衡的情況。
XGBoost是華盛頓大學陳天奇[18]于2016年開發的Boosting庫,兼具線性規模求解器和樹學習算法。傳統的梯度提升迭代決策樹(gradient boosting decision tree,GBDT)方法只利用了一階的導數信息,XGBoost則是對損失函數做了二階的泰勒展開,并在目標函數之外加入了正則項,整體求最優解,用于權衡目標函數的下降和模型的復雜程度,避免過擬合,提高模型的求解效率。
LightGBM是微軟2015年提出的新的Boosting框架模型,該算法在傳統的GBDT基礎上引入了兩個新技術:梯度單邊采樣技術(gradient-based one-side sampling,GOSS)和獨立特征合并技術(exclusive feature bundling,EFB)。GOSS可以剔除很大一部分梯度很小的數據,只使用剩余的數據來估計信息增益,從而避免低梯度長尾部分的影響。EFB實現互斥特征的捆綁,以減少特征的數量[18]。
1.3 統計學方法 數據分析應用SAS軟件(版本9.4,SAS Institute Inc,Cary,NC)完成。計量資料采用中位數(四分位數間距)表示,組間比較采用Wilcoxon檢驗;計數資料用頻數和百分比表示,組間比較采用卡方檢驗。將SAP組和非SAP組隨機分為訓練集(80%)和測試集(20%)。在訓練集中,采用非條件Logistic回歸,建立預測模型,選擇納入模型的預測指標。首先采用單因素Logistic回歸,以P<0.1為納入多因素分析的標準;將單因素分析選擇出的危險因素納入多因素分析,采用逐步回歸法,以P<0.05為最終納入多因素模型的標準,建立腦出血相關肺炎風險預測模型;用測試集人群對訓練集建立的模型進行內部驗證。最后,使用多因素Logistic回歸模型納入的指標,采用Logistic回歸、CatBoost、XGBoost和LightGBM四種機器學習方法,在訓練集、測試集分別建立、驗證預測模型,用ROC曲線下面積(area under the curve,AUC)、靈敏度、特異度和正確率比較4種方法預測價值。以上統計均采用雙側檢驗,以P<0.05為差異具有統計學意義。
2.1 患者一般特征 本研究共納入符合研究條件的腦出血住院患者2303例,平均年齡62.1±12.7歲,男性占62.1%。住院期間肺炎發生率為15.7%(3 61/2 3 03)。非SAP組年齡[61(53~71)歲 vs 67(58~76)歲,P<0.001]、NIHSS評分[6(3~10)vs 10(5~16),P <0.0 0 1]和周圍血管疾病史(2.6% vs 5.8%,P=0.001)、慢性阻塞性肺疾病史(1.1% vs 3.9%,P<0.001)、腦血管病史(22.9% vs 31.6%,P<0.001)、吞咽功能障礙發生率(10.6% vs 50.1%,P<0.001)均顯著低于SAP組;而白細胞計數[7.6(6.0~9.7)×109/L vs 9.3(7.2~12.4)×109/L,P<0.001]顯著高于SAP組;其余人口學信息、既往病史等,兩組無統計學差異(表1)。
2.2 Logistic回歸單因素和多因素分析結果在訓練集中(SAP患者288例,非SAP患者1553例),單因素Logistic回歸結果顯示年齡、周圍性血管疾病、慢性阻塞性肺疾病、腦血管疾病史、吞咽功能障礙、NIHSS評分、白細胞計數可納入多因素分析。多因素Logistic回歸結果顯示年齡、吞咽功能障礙、NIHSS評分、白細胞計數可作為候選預測因子來構建預測模型(表2)。
2.3 Logistic回歸、CatBoost、XGBoost、LightGBM四種模型結果比較 選擇Logistic回歸選出的4個危險因素,在測試集(SAP患者73例,非SAP患者389例)驗證模型效果,并建立CatBoost、XGBoost、LightGBM預測模型。結果顯示ROC曲線下面積Logistic回歸、XGBoost、LightGBM模型較高,分別為0.776、0.736、0.767;XGBoost和LightGBM模型靈敏度較高,分別為80.82%和80.82%;Logistic回歸和CatBoost模型特異度較高,分別為69.15%和86.12%;其余結果見表3和圖1。

表1 根據住院期間是否發生肺炎分組的患者基線特征

表2 單因素與多因素Logistic回歸分析結果
本研究建立并驗證腦出血相關肺炎預測模型,可用于腦出血患者肺炎發生風險預測。結合患者基本信息、疾病史、臨床檢查、血液檢查等指標,使用Logistic回歸、CatBoost、XGBoost、LightGBM四種算法構建預測模型,以期能夠輔助臨床醫生診斷、預測肺炎發生。
機器學習是人工智能領域中一種新方法,可以對大量輸入數據的特征標識進行有效學習,為精準預測提供了新的研究思路和方法。機器學習算法有傳統的邏輯回歸、決策樹,以及在此基礎上延伸出的隨機森林、LightGBM、XGBoost等。已有學者利用這些模型開展疾病預測研究,且取得較好效果。曹文哲等[19]采用BP神經網絡(back-propagation neural network)、Logistic回歸和隨機森林3種機器學習算法,納入年齡、游離前列腺癌特異抗原等4種危險因素,建立診斷預測模型,并比較3種模型對前列腺癌的診斷價值,結果證明機器學習建立的多因素預測模型預測效果,優于任意一種單因素建立的預測模型,所建立模型可納入前列腺癌診斷決策,協助臨床醫生對患者的診斷和治療,減少不必要的活檢。Heo等[20]在回顧性隊列中,采用深度神經網絡、隨機森林、Logistic回歸3種算法,建立急性卒中良好結局預測模型,與洛桑急性卒中登記分析(acute stroke registry and analysis of Lausanne,ASTRAL)模型[21]進行比較,結果表明,深度神經網絡效果較好(AUC=0.888),能夠顯著提高模型預測效果;作者同時證明,當選擇和ASTRAL評分相同變量時,機器學習并未顯著提高模型預測效果。與此結果類似,本研究中,當選擇相同變量時,盡管在訓練集中XGBoost(AUC=0.844)、LightGBM(AUC=0.822)模型效果顯著高于Logistic回歸(AUC=0.778)模型,但測試集中,Logistic回歸(AUC=0.776)模型效果略優于XGBoost(AUC=0.736)、LightGBM(AUC=0.767)。

表3 Logistic回歸、CatBoost、XGBoost、LightGBM四種模型結果比較

圖1 Logistic回歸、CatBoost、XGBoost、LightGBM四種模型ROC曲線結果比較
為了盡早識別發生肺炎的高風險患者,優化預警和干預措施,可改善患者預后,近年來國內外已經建立多個SAP預測量表[12,22-25],但多為腦梗死相關肺炎預測。冀瑞俊等[13]建立首個腦出血相關肺炎預測模型,研究采用Logistic回歸,納入年齡、吸煙、飲酒、慢性阻塞性肺疾病、mRS評分、NIHSS評分、GCS評分、吞咽困難等11個指標,結果表明,該模型AUC為0.76,預測效果較好。然而,該模型未納入實驗室檢查的指標,已有研究證明超敏反應蛋白、白細胞計數等指標與SAP嚴重程度正相關[26-27];同時,該模型納入指標過多,在臨床使用時,增加臨床醫生工作負擔。本研究納入實驗室檢查指標,使用白細胞計數作為預測因子,結果顯示,白細胞計數對于SAP發生的影響(OR 1.11,95%CI 1.07~1.16)高于年齡(OR 1.03,95%CI 1.02~1.04)和NIHSS評分(OR 1.02,95%CI 1.00~1.04);同時本研究只納入4個預測因子,Logistic回歸(AUC=0.776)和LightGBM(AUC=0.767)兩個模型的預測效果均高于上述研究的預測效果,預測結果更準確。
本研究的優勢有以下三點:首先,腦出血相關肺炎預測模型較少,本研究嘗試在腦出血患者中,使用機器學習的方法預測SAP發生風險,研究方法可供后續研究使用;其次,白細胞計數在臨床上容易獲得,并且與SAP發生關聯較高,因此模型只納入4個預測因子,取得較好的預測效果,方便臨床醫生的實際應用;最后本研究將人群隨機分為兩部分,對建立的模型進行了內部驗證,保證了模型結果的可靠性。同時,本研究也有不足之處,模型未進行外部驗證,仍需在大樣本、多中心的外部人群中進行驗證,以保證模型的準確性與可靠性。
綜上,基于機器學習方法建立的腦出血相關肺炎風險預測模型有較高的診斷價值,年齡、NIHSS評分、白細胞計數和吞咽功能障礙為候選預測因子,可將模型納入腦出血相關肺炎診斷決策。本研究結果的臨床應用價值有待于更大樣本的外部隊列進行驗證。
【點睛】基于機器學習的方法,結合實驗室檢查指標,可優化腦出血相關肺炎預測模型。