宋 明 劉蕓宏 吳曉慧 李 倩 王書會△
【提 要】 目的 基于決策樹卡方自動交互檢測(CHAID)算法和神經網絡分析腦卒中手術患者醫院感染危險因素,為早期篩查醫院感染高危人群提供科學依據。方法 前瞻性收集2016年1月-2019年12月某三級甲等醫院進行腦卒中手術患者的臨床資料,應用CHAID算法和神經網絡分析腦卒中患者醫院感染的危險因素,并與多元logistic回歸分析進行比較。用受試者工作特征曲線(ROC)下面積(AUC)比較不同模型的預測效果。結果 共納入腦卒中手術患者1124例,醫院感染269例,醫院感染發生率為23.93%;決策樹和神經網絡分析均顯示留置胃管、住院時間和靜脈血栓是腦卒中手術患者醫院感染的危險因素,決策樹模型預測的正確率為81.1%,ROC曲線下面積為0.821(95%CI:0.799~0.848);神經網絡模型預測的正確率為86.2%,ROC曲線下面積為0.874(95%CI:0.852~0.894);通過比較,兩模型預測效果好,存在的差異有統計學意義(Z=5.565,P<0.001)。結論 神經網絡分析模型預測效果優于決策樹模型,兩模型分別從不同層面探究腦卒中患者醫院感染的危險因素,便于早期篩查醫院感染的高危患者,開展有效的預防控制措施,降低醫院感染的發生率。
腦卒中是一種常見的臨床急癥,迅速出現局限性或彌漫性腦功能缺失癥狀和體征,具有發病率高和死亡率高等特點[1]。中國每年新發腦卒中患者1600萬例,死亡率為114.8/10萬[2]。醫院感染作為腦卒中患者術后常見的并發癥,越來越引起人們的關注。醫院感染不僅威脅患者健康,延長其住院日,還會進一步增加患者直接經濟負擔[3-5]。國內報道顯示,腦卒中患者醫院感染經濟負擔為53946.21元[6]。所以,早期識別腦卒中患者醫院感染高危人群并采取相應的應對措施顯得尤為重要。機器學習集統計學、數據挖掘、人工智能等為一體,越來越多地被運用到疾病預測中[7-8]。但是關于機器學習在腦卒中患者醫院感染中的運用相對較少,所以本文將基于機器學習中的決策樹卡方自動交互檢測算法和神經網絡建立腦卒中患者醫院感染模型,從不同層面確定腦卒中手術患者醫院感染的危險因素,并對模型進行比較,制定相應的預防策略來降低醫院感染發生率。
1.對象
采用整群抽樣的方法,選取2016-2019年某三級甲等醫院1124例腦卒中手術患者為研究對象,將發生醫院感染的患者作為病例組,未發生醫院感染患者作為對照組。本研究經過醫院倫理委員會審批。
按照《醫院感染診斷標準(2001)》[9]確定醫院感染病例。納入標準:(1)CT或MRI確診為腦卒中[10];(2)住院時間>48h;(3)患者年齡≥18歲;(4)進行手術治療。排除標準:(1)僅行腦血管造影術者;(2)自動出院或死亡;(3)病例資料缺失者。
2.方法
采用目標性監測方法,收集腦卒中手術患者人口學和臨床相關資料,包括:患者年齡,卒中類型,住院時間,手術類型,手術方式,是否機械通氣、深靜脈置管、留置胃管、氣管切開,是否發生靜脈血栓和患有高血壓,入院美國國立衛生研究院卒中量表(National institute of health stroke scale,NIHSS)評分,Glasgow昏迷量表(Glasgow coma scale,GCS)評分,NNIS風險指數(NNIS risk index)等。
3.模型建立與評價
決策樹采用CHAID算法,用Pearson卡方檢驗篩選最佳分類結果,最大生長深度為3,父節點和子節點的最小樣本量為100和50,檢驗水準α=0.05。神經網絡隱含層激活函數為雙曲正切,輸出層激活函數為softmax,系統自動優化隱含單元數。多元logistic回歸分析采用Back-Wald法。以ROC曲線下面積(AUC)來評價模型預測效果。用MedcalcV 15.2軟件對模型的ROC曲線進行繪制與比較。
4.統計分析
1.患者基本情況
選取1124例某三級甲等醫院腦卒中手術患者,其中269例發生醫院感染,感染發生率為23.93%,87.73%感染患者為出血型腦卒中。
2.腦卒中患者醫院感染危險因素單因素分析
單因素分析顯示,住院時間,卒中類型,手術類型,氣管切開,機械通氣,深靜脈置管,靜脈血栓,高血壓,留置胃管,NIHSS評分,GCS評分,NNIS評分與腦卒中患者醫院感染有關(P<0.05),見表1。

表1 腦卒中患者醫院感染單因素分析
3.腦卒中患者醫院感染危險因素多元logistic回歸分析
多元logistic回歸分析顯示,卒中類型,住院時間,機械通氣,靜脈血栓,NIHSS評分,留置胃管是醫院感染的獨立危險因素(P<0.05),見表2。

表2 腦卒中患者醫院感染多元logistic回歸分析
4.腦卒中患者醫院感染危險因素的決策樹模型
將單因素分析有統計學差異的變量納入決策樹中,得出的模型共3層,共有11個節點,終端6個節點,篩選出4個解釋變量,分別為置入胃管、住院時間、GCS評分、靜脈血栓。結果顯示,置入胃管是腦卒中患者醫院感染最重要的影響因素,置入胃管患者醫院感染發生率為52.0%,高于未置入胃管患者(11.3%);對于置入胃管患者,另外一個重要預測變量為住院時間,住院時間≥15天患者醫院感染發生率為62.3%,高于住院時間≤14天的患者(31.6%);對于未置胃管患者,另外一個預測變量為GCS評分,中重度昏迷患者醫院感染發生率為29.8%,高于輕度昏迷患者(8.5%)。
5.腦卒中患者醫院感染危險因素的神經網絡模型
神經網絡模型采用多層感知器神經網絡設置,輸入單因素分析有統計學差異的變量,輸出變量為是否發生醫院感染,自動優化隱含層神經元數。腦卒中患者醫院感染的前五名重要危險因素為住院時間(100%)、卒中類型(65.2%)、靜脈血栓(63.7%)、深靜脈置管(49.9%)、置入胃管(47%),見圖2。

圖2 腦卒中患者醫院感染危險因素神經網絡分析
6.腦卒中患者醫院感染模型預測結果及評價
用logistic回歸模型進行統計分析,根據腦卒中患者醫院感染發生率預測值和真實值繪制ROC曲線,以約登指數最大值為最佳診斷界值,本模型為0.571,即P≥0.571時個體判別為醫院感染。logistic回歸模型預測正確率(84.1%)、靈敏度(76.8%)、特異度(80.3%)和約登指數(0.571)均高于決策樹模型(81.1%,75.5%,77.3%,0.528),但神經網絡模型預測正確率(86.2%)、特異度(85.4%)和約登指數(0.582)均高于logistic回歸模型,靈敏度(72.8%)低于logistic回歸模型。
對logistic回歸、決策樹和神經網絡模型繪制ROC曲線,結果顯示logistic回歸模型的AUC為0.858,決策樹模型AUC為0.821和神經網絡模型AUC為0.874。模型的預測價值好[11],見圖3。運用DeLong[12]方法對不同模型的AUC進行比較,結果為不同模型預測價值有統計學差異(P<0.05)。

圖3 logistic回歸、分類樹和神經網絡模型ROC曲線圖
研究結果顯示,腦卒中手術患者醫院感染率為23.93%,與以往的研究類似[13]。腦卒中手術患者醫院感染以出血型最為常見,主要原因可能為出血型腦卒中患者病情進展快,大多數患者進行手術治療,手術時間長,且患者多伴有肢體功能障礙,所以醫院感染發生率高[14-15]。
決策樹模型顯示置入胃管的腦卒中患者醫院感染發生率高,其中患者住院時長≥15天且患有靜脈血栓時,醫院感染發生率最高,為74.00%,說明置入胃管、住院時間長且患有靜脈血栓的患者是醫院感染的高危人群。未置入胃管的患者,GCS評分為中重度昏迷的患者醫院感染發生率高。GCS作為判斷患者昏迷程度的指標,得分越低,昏迷程度越嚴重,昏迷的患者會因為誤吸和吞咽功能障礙,易發生醫院感染。這與以往研究類似[16-17]。

圖1 腦卒中患者醫院感染危險因素的決策樹模型
神經網絡模型預測腦卒中患者醫院感染危險因素的前五位重要變量依次為住院時間、卒中類型、靜脈血栓、深靜脈置管、置入胃管。住院時間是腦卒中患者醫院感染重要的影響因素,長期住院的患者暴露于復雜的醫院環境中,增加了與病原菌接觸的機會,此外,住院時間長可能是患者病情復雜的表現,因而住院時間越長,醫院感染發生率高[18]。出血性腦卒中相較腦梗患者醫院感染發生風險更高,可能與大多數患者進行手術治療,且患者多伴有肢體功能障礙有關[14-15]。既往研究顯示,感染與靜脈血栓具有相關性,靜脈血栓的形成影響病人血液循環,降低病人的抵抗力[19-20],增加感染風險。深靜脈置管為有創操作,破壞了正常的生理屏障,留置時間長,易發生感染。胃管置入則會損傷患者賁門括約肌功能,導致胃液返流,最終患者因誤吸增加肺部感染的機會[21]。
決策樹和神經網絡模型都篩選出置入胃管、住院時間和靜脈血栓是腦卒中手術患者醫院感染的危險因素,但是同時他們也篩選出不同的影響因素,如決策樹中未置入胃管患者中,GCS評分是醫院感染的影響因素;神經網絡模型篩選出卒中類型和深靜脈置管是醫院感染的影響因素。這種差異可能是因為決策樹模型采用了卡方檢驗的方法,形成樹形圖的過程中不斷地分層,所以樣本量會逐漸減少[22]。而且決策樹模型會顯示各變量間的交互作用[23],篩選有意義的變量。logistic回歸模型展現了自變量和因變量之間的依存關系,但是當自變量間高度相關時則不能得出有效的分析結果[24]。而神經網絡模型是一種類似于大腦神經突觸連接的結構進行信息處理的數學模型。神經網絡通過建立輸入和輸出神經元,識別變量間的非線性關系,具有很強的學習反饋能力[25],高速找尋最優解。此外,神經網絡對數據分布沒有要求,但決策樹可能對連續變量擬合效果欠佳。綜上所述,決策樹和神經網絡從不同層面預測腦卒中患者醫院感染危險因素,并以可視化的形式展現,預測結果更加直觀、明了。本研究發現,神經網絡模型分析效果優于決策樹和logistic回歸模型,差異具有統計學差異,這與以往研究類似[26]。