張 蕾,田利遠,李 芹,李清濤,張 曼,王亞坤
(河北省兒童醫院呼吸一科,河北 石家莊 050031)
流行性感冒是一種急性呼吸道傳染病,是人類面臨的主要公共衛生問題之一[1]。其中甲型流行性感冒病毒通過抗原漂移每1~2年會發生局部爆發,經過抗原轉變,每10~20年就會出現世界范圍內的大流行,故甲型流行性感冒病毒危害最大[2-3]。高危人群患病后預后多較差,兒童因全身免疫功能及器官發育不成熟,機體抵抗力低,感染甲型流行性感冒后容易發生嚴重并發癥,其中最常見的為并發肺炎[4]。臨床上兒童甲型流行性感冒并發輕度/重度肺炎患兒已有較為成熟的診療方案,但并發危重癥肺炎的患兒因具有病情危重、預后差等特點仍是臨床醫師關注的重點,及早診斷治療對改善患兒預后非常重要[5]。但臨床醫師多基于臨床經驗主觀進行相關診斷,仍有較多患兒貽誤病情;目前臨床上沒有針對兒童甲型流行性感冒并發危重癥肺炎的客觀診斷預測模型及危險因數分析報道,近年隨著機器學習技術的發展為構建兒童甲型流行性感冒并發危重癥肺炎個體化診斷預測模型及個體化高危因素挖掘提供了契機,本課題開展相關研究,現報告如下。
1.1一般資料 選擇2014—2017年我院收治的兒童甲型流行性感冒H1N1肺炎患兒。流行性感冒的診斷標準以2015版兒童流行性感冒診斷與治療專家共識為準[6]。兒童甲型流行性感冒并發輕癥、重癥肺炎病例診斷標準參考WHO規定的診斷標準[7],危重癥病例指出現以下情況之一者:呼吸衰竭、感染中毒性休克、多臟器功能不全、出現其他需要臨床監護的癥狀[8]。
本研究經醫院醫學倫理委員會批準通過。
1.2方法
1.2.1數據采集及預處理 收集全部臨床數據,進行清洗及預處理,包括處理數據缺失值、屬性編碼,進行數據標準化正則化、特征選擇等內容。全部維度包括性別、年齡、流行性感冒病毒H分型、發熱時間、發熱程度、咳喘程度、合并先天性疾病、白細胞、中性粒細胞、淋巴細胞、單核細胞、C反應蛋白(C-reactive protein,CRP)、降鈣素原(procalcitonin,PCT)、氣管鏡、呼吸衰竭、心力衰竭、胸腔積液、胸部X線片、痰培養、混合菌或病毒、總T細胞(CD3)、輔助T細胞(CD4)、抑制T細胞(CD8)、CD4/CD8、總B細胞、NK細胞(CD56),共25個維度。納入兒童甲型流行性感冒并發肺炎患兒的臨床資料見表1。
1.2.2機器學習XGBoost算法模型的構建 分別基于臨床全指標和臨床常用指標構建全指標預測模型和臨床常用指標預測模型,均采用CART分類回歸樹作為學習器構建XGBoost算法。XGBoost的目標函數由損失函數和正則化項2個部分和1個常數項組成[9]。公式為:Obj(θ)=L(θ)+ Ω(θ)+C。基于XGBoost算法的兒童甲型流行性感冒并發危重癥肺炎的診斷預測模型構建示意圖,見圖1。全指標預測模型和臨床常用指標預測模型構建過程中的機器學習參數為,SET params as:booster=gbtree,bjective=binary:logistic,eta=0.3,gamma=5,max_depth=6,min_child_weight=1,subsample=1,colsample_bytree=1。
1.3觀察指標 比較2套診斷預測模型的準確度、敏感度、特異度、陽性預測值、陰性預測值,比較ROC曲線下面積(area under curve,AUC);確定2套預測模型中預測因子的重要性排名。解讀并分析2套診斷預測模型的個體化應用及危險因素。采用R語言進行機器學習XGBoost算法模型構建兒童甲型流行性感冒并發危重癥肺炎診斷預測模型。

表1 173例兒童甲型流行性感冒并發肺炎患兒臨床資料分析Table 1 Analysis of clinical data of 173 children with influenza A complicated with pneumonia

圖1 兒童甲型流行性感冒并發危重癥肺炎的XGboost模型
2.1模型結局變量及自變量的選擇及及設定 采用機器學習XGBoost算法對納入的記錄進行學習并構建預測模型。納入的記錄要求為:結局變量不缺失,自變量可部分缺失。結局變量(Y):全指標預測模型和臨床常用指標預測模型的結局變量均為病情分度。自變量預測因子(X):①全指標預測模型的自變量預測因子(X),將收集的患者數據各維度全面納入為預測因子,包括性別、年齡、流行性感冒病毒H分型、發熱時間、發熱程度、咳喘程度、合并先天性疾病、白細胞、中性粒細胞、淋巴細胞、單核細胞、CRP、PCT、氣管鏡、呼吸衰竭、心力衰竭、胸腔積液、胸部X線片、痰培養、混合菌或病毒、總T細胞(CD3)、輔助T細胞(CD4)、抑制T細胞(CD8)、CD4/CD8、總B細胞、NK(CD56),共25個維度。②臨床常用指標預測模型的自變量預測因子(X),基于臨床常用判斷兒童甲型流行性感冒病情嚴重程度指標構建模型,包括年齡、合并先天性疾病、白細胞、CRP、氣管鏡、呼吸衰竭、胸部X線片、混合菌或病毒,共8個維度。
2.2診斷預測模型結果與觀察結果的四格表及統計檢驗結果 全指標預測模型的準確度、模型診斷結果與觀察結果一致性判斷指標Kappa值、ROC曲線下面積、敏感度、陽性預測值、陰性預測值均優于臨床常用指標預測模型。全指標預測模型四格表見表2;臨床常用指標預測模型的四格表見表3;兩模型相關統計指標見表4,ROC曲線見圖2,3。

表2 全指標預測模型的四格表Table 2 Four-gridTable of the full index prediction model (例數)

圖2 基于全指標的診斷預測模型ROC曲線

圖3 基于臨床常用指標的診斷預測模型ROC曲線
2.32個預測模型各預測變量的重要性排名 基于全指標的診斷預測因子主要有呼吸衰竭、咳喘程度(重度喘息)、總B細胞、單核細胞、發熱時間(>15 d)、輔助T細胞(CD4)?;谂R床常用指標的診斷預測因子主要有呼吸衰竭、胸部X線片(肺實變)、混合菌或病毒(無)、混合菌或病毒(支原體感染)。且全指標預測模型的各指標增益值(橫坐標)明顯優于臨床常用指標預測模型的指標。見圖4,5。

圖4 基于全指標診斷預測因子重要性排名

圖5 基于臨床常用指標的診斷預測因子重要性排名
2.4基于機器學習技術構建的個體化診斷預測模型應用展示 基于機器學習技術針對真實世界兒童甲型流行性感冒并發重癥肺炎患兒臨床數據進行分析挖掘,可構建個體化診斷預測模型,并可對每例患兒出具預測圖。以2個模型中隨機患者為示范,展示個體化預測結果。全指標診斷預測模型顯示其中1例兒童甲型流行性感冒并發危重癥肺炎的可能性是59%,呼吸衰竭、咳喘程度(重度喘息)、總B細胞、發熱時間(>15 d)、輔助T細胞(CD4)是危險因素,單核細胞是保護因素(圖6)。臨床常見指標診斷預測模型顯示其中1例兒童甲型流行性感冒并發肺炎患兒是危重癥的可能是42%,其中呼吸衰竭、混合菌感染(肺炎支原體)、胸部X線片提示肺炎是危險因素,無混合菌感染是保護因素(圖7)。臨床應用時,直接將新入院患兒臨床數據直接錄入機器學習軟件中可直接展示對應的預測圖,可知甲型流行性感冒患兒發生危重癥肺炎的概率,并可針對危險因素進行相對應的預防措施,從而改善預后。

圖6 基于全指標的診斷預測模型個體化預測結果

圖7 基于臨床常用指標的診斷預測模型個體化預測結果
甲型流行性感冒因具有變異、進化速度快、抗原多變、感染性和致病性強等特點,可造成廣泛流行,以冬季最為常見。臨床主要表現為發熱、咳嗽、呼吸困難,較少出現喘息癥狀,重癥病例病情進展迅速,可出現呼吸窘迫綜合征甚至死亡[10];影像學表現中早期胸部X線片無特征性表現,進展期以肺實變為主[11],也可出現磨玻璃影[12],有學者報道并發重癥肺炎的甲型流行性感冒患兒可出現支氣管塑型[13]。目前臨床上對于甲型流行性感冒并發輕度/重度肺炎的診斷、治療已經較為熟練,且患兒療效較好;但兒童甲型流行性感冒并發危重癥患兒因病情重、預后差等特點,開展及時有效預防治療非常重要[14],目前仍是臨床醫師關注研究的重點。且我省地處北方,冬季容易爆發流行性感冒,再加上自2015年開始我國全面開放二胎政策,兒童數量基數大,有必要深入研究做好兒童甲型流行性感冒并發危重癥肺炎的診治工作。
目前,臨床上關于兒童甲型流行性感冒并發危重癥肺炎的臨床特征分析或危險因素分析研究報道非常少,內容上主要是根據臨床醫師經驗、基于臨床常見指標(年齡[15]、白細胞、CRP、氣管鏡[16]、呼吸衰竭、胸部X線片[17]、混合菌或病毒[18]、合并先天性疾病[13])開展初步診斷,缺乏較為客觀診斷依據;更是沒有兒童甲型流行性感冒并發危重癥肺炎的診斷模型及危險因素分析挖掘的研究報道?;诩仔土餍行愿忻安l肺炎患兒的真實世界臨床數據存在維度高、缺失值多等特點[19],傳統Logistic回歸分析無法較好地處理兒童甲型流行性感冒并發肺炎的真實世界結構復雜的臨床數據,機器學習技術的出現為構建兒童甲型流行性感冒并發危重癥肺炎的個體化診斷預測模型及危險因素分析挖掘提供了契機。XGBoost是一種基于梯度Boosting的集成學習算法,通過弱分類器的迭代計算實現準確的分類效果;XGBoost算法兼具線性模型和Boosted Tree模型的一種優化模型被廣泛應用于人工智能、數據分析和統計學習等領域[20-21]。本課題組基于機器學習XGBoost算法技術,以CART回歸樹作為學習器,以是否診斷為兒童甲型流行性感冒并發危重癥肺炎作為結局變量,以所納入的臨床全部指標為預測因子,對全部兒童甲型流行性感冒并發肺炎患兒真實世界臨床數據進行訓練和測試,并調整XGBoost主要參數,構建了兒童甲型流行性感冒并發危重癥肺炎的個體化診斷預測模型及危險因素分析;同時為說明基于全臨床指標作為預測因子構建的個體化診斷預測模型的價值更優,設計與單純采用臨床常用指標構建的模型進行比較,結果顯示全指標預測模型的敏感度、準確度、Kappa值、AUC、陽性預測值、陰性預測值均優于臨床常用指標預測模型。且基于全指標的診斷預測模型得出的主要預測指標的增益值高于基于臨床常用指標構建診斷預測模型的主要預測指標,進一步證實了基于全指標的兒童甲型流行性感冒并發危重癥肺炎的個體化診斷預測模型的價值。在應用上,基于機器學習XGBoost算法構建的兒童甲型流行性感冒并發危重癥肺炎個體化診斷預測模型可對新入院的甲型流行性感冒并發肺炎患兒進行個體化診斷預測給出具體的發生危重癥肺炎的概率,并可個體化挖掘該患兒的危險因素,從而針對性地指導臨床及早預防治療,實現開展精準預防治療,最終改善療效和預后。
綜上所述,本課題組基于甲型流行性感冒并發肺炎患兒臨床真實世界數據,采用機器學習技術,構建個體化診斷預測模型的應用價值較好,且可挖掘個體危險因素并進行精準預防治療,從而改善預后,值得臨床推廣應用。另一方面,由基于臨床全指標挖掘的高危因素可知,免疫指標總B細胞、單核細胞、輔助T細胞(CD4)與兒童甲型流行性感冒并發危重癥肺炎關系密切,提示細胞免疫水平可能是是否發生危重癥肺炎的關鍵,本課題組后續將繼續開展相關研究探索并證實,一起進一步為兒童甲型流行性感冒并發危重癥肺炎的治療提供臨床依據。