王 斌,馮慧芬,黃 平,趙 敬,易佳音
1)鄭州大學第五附屬醫院消化內科 鄭州450052 2)鄭州大學第五附屬醫院感染科 鄭州450052
手足口病(hand-foot-mouth disease,HFMD)是一種好發于5歲以下兒童的常見腸道傳染病,以腸道病毒71型(EV71)和柯薩奇A組16型(CoxA16)多見[1]。HFMD在我國北方發病高峰主要集中在6月,而南方為0.5 a一次,集中在5月和9~10月[2]。大多數HFMD患兒發病后表現輕微,但臨床上有極少數容易發展為重癥,伴隨各種嚴重并發癥,如病毒性腦炎,甚至心肺衰竭等[3]。隨機森林是機器學習中的一種集成學習算法,其基本單元為決策樹,通過集成學習獨立地訓練一些相對弱的學習模型,最后整合結果,進而實現整體預測[4]。集成算法相比于其他算法,屬于近年來發展起來的比較強大的算法,大致分為兩大流派,Boosting技術和Bagging技術。Boosting技術的特點是不同弱的學習器之間存在依賴關系,而Bagging技術則不存在依賴關系,可以實現各個弱學習器之間的并行擬合。隨機森林算法是在Bagging技術的基礎上進化而來的,而與之類似的梯度提升樹算法則起源于Boosting技術[5]。兩種新型算法在近年來的機器學習中占有重要的地位,都具有很高的預測精度和許多普通算法不可比擬的優勢。本研究旨在通過回顧性分析臨床病例資料,來探究隨機森林模型在預測和評估重癥HFMD方面的應用價值。
1.1臨床資料收集2016年8月至2017年11月鄭州大學附屬兒童醫院感染科診治的HFMD患兒病例資料,所有納入病例的確診均參考文獻[6]的診斷標準。納入標準:①初次發病的HFMD患兒,根據出院診斷結果來判定屬于輕癥或重癥,對于入院時診斷為輕癥的患兒,其進展為重癥的時間限定為1周內。②從發病到就診病程不超過半個月。排除標準:①病例資料不完整,缺失必要的病史信息及實驗室檢查結果。②入院前存在多種基礎疾病或除HFMD外的其他傳染病。③來醫院診治時,已經處于HFMD恢復期。
1.2數據收集通過復習文獻及查詢相關資料,結合病例資料,設計一個標準化的問卷調查表,用Epi-
Data 3.1對所有符合條件的HFMD患兒病例資料進行手動提取及錄入,最后導出到Excel表格中,進行數據的分析和處理。
1.3統計學處理數據的處理和分析使用R 3.4.4軟件。用到的主要R包有 “rattle”“stats”“randomForest”“ggplot2”“ROCR”等,其中“rattle”包是一個可視化的熱門數據挖掘包,其使用時需先安裝“GTK+”“GGobi”軟件[7]。首先將Excel數據導入到R軟件,對連續性變量進行重新編碼。對數據進行相關質量分析,去除重復和缺失個案,同時繪制箱型圖,去除離群值。輕癥組、重癥組年齡、發病時間的比較采用兩獨立樣本的t檢驗,其他基本信息的比較采用χ2檢驗。將數據打亂,重新分割為70%的訓練樣本和30%的驗證樣本。構建隨機森林模型和logistic回歸模型;用驗證樣本進行預測,繪制ROC曲線,分析模型預測性能。當AUC<0.7時,診斷價值較低;0.7~0.9時,診斷價值為中等;>0.9時具有較高診斷價值。同時輸出錯分矩陣比較兩者的整體預測精確度。檢驗水準α=0.05。
2.1納入病例的基本信息共計納入1 352例病例,其中輕癥組760例,年齡(2.91±1.09)歲,發病時間(2.37±1.92) d;重癥組592例,年齡(2.98±1.05)歲,發病時間(2.84±1.83) d,兩組發病時間和性別構成比較,差異均無統計學意義。納入病例的基本信息見表1。
2.2模型參數隨機森林模型的相關模型參數設置如下:隨機種子數為42,要構建的模型數量為500個,而每一棵樹的節點分支處所選擇的變量個數為3。對于logistic模型,使用逐步回歸法和主效應建模參數。
2.3模型預測性能評價輸出隨機森林模型的預測變量重要性,見圖1,其中一個圖像為根據精確率平均減少值計算得出的重要值所繪制;另一個圖像為根據節點不純度(用基尼系數測量)減少平均值計算得出的重要值所繪制,其余兩個則是分別從輕癥和重癥兩個方面判斷得出。繪制隨機森林模型各
類別誤判率圖像,見圖2,分別代表了重癥的誤判率、輕癥的誤判率以及根據袋外數據計算而得到的誤判率。
使用相關函數,計算兩個模型的總體預測正確率,其中隨機森林模型為82.5%,logistic模型為77.3%。繪制ROC曲線,見圖3,隨機森林模型的AUC為0.87,敏感度65.9%,特異度94.5%;而logistic模型的AUC為0.75,敏感度67.3%,特異度83.7%。兩種模型的提升圖、精確率與召回率圖分別見圖4、5,從這些模型評估圖中可以看出隨機森林模型優于logistic模型。

表1 納入病例的基本信息 例(%)

圖1 隨機森林模型的預測變量重要性

圖2 隨機森林模型各類別誤判率

圖3 兩種模型的ROC曲線圖

圖4 兩種模型的提升圖

圖5 兩種模型的精確率與召回率
本研究通過回顧性分析HFMD的臨床病例資料,使用較新的隨機森林算法來構建一個可以用于重癥HFMD預測的機器學習模型。既往在預測重癥HFMD及探究預測變量方面,國內較多研究[8-10]都采用的是logistic模型。為了客觀地對比兩種模型優劣,本研究同時完成隨機森林和logistic兩個模型的構建,并通過多種性能指標,結合可視化圖形來實現多方面對比。預測正確率是評估模型性能最常用的指標,通常追求更高的預測正確率來保證模型有較高的判斷正確力,但是這個指標有一定的局限性,容易受樣本比例的影響。雖然本研究中輕癥和重癥的比例差距不是很大,但是作者可能更關注樣本中例數較少的分類,來評估模型對重癥的預測能力,即常用的敏感度、特異度等指標。在對比中可看到隨機森林模型的這兩項指標也高于logistic模型,但值得注意的是隨機森林模型的敏感度不到70%,模型仍有待改進優化參數。由于樣本中輕癥多于重癥例數,因此輕癥屬于正性樣本,重癥屬于負性樣本,即敏感度為模型識別輕癥的能力,特異度則為識別重癥的能力。而臨床中需要的是能正確識別出重癥病例,因此作者對兩個模型的特異度比較關注,而敏感度次之,因此隨機森林模型可以更好地識別出重癥。類似的,作者使用AUC來評估兩個模型的診斷價值,此外還使用了其他指標,在對比中也可以發現,隨機森林模型均優于傳統logistic模型。通常隨機森林模型有以下優點:①處理大樣本數據方面有優勢。②對缺失數據特征的不敏感。③可以克服過度擬合的問題[11]。Liu等[12]構建的隨機森林模型,其預測精確性達到91.6%,AUC為0.916,同時論證了隨機森林模型比兒科重癥監護病房最常用的疾病嚴重程度評分系統,在識別臨床重癥HFMD方面更有效,再次證明了該模型的優越性。
通過隨機森林模型篩選的預測變量,其重要性處于前3位的依次為白細胞計數、血糖和EV71。林克武等[13]研究認為血糖增高具有提示HFMD合并腦炎的價值,這與本研究結論一致。目前多認為,促炎因子參與了HFMD重癥化的過程[14],當患兒合并有腦干等損傷時,可引起機體的一系列功能紊亂[15],進而導致外周血中白細胞及血糖的增高[16],但其具體機制仍待后續深入研究。相比于Liu等[12]構建的隨機模型,該研究加入了病原學中EV71結果,可以看到其居預測變量重要性第3位。目前認為EV71是導致所有重癥HFMD的重要原因,因此EV71變量的重要性比較符合臨床實際,此外,提取的其他重要預測變量均與既往研究[17-18]較為一致。
本研究尚有以下不足:①研究只篩選了一些較為常見的預測變量來對模型進行擬合,由于樣本量和預測變量的限制,對模型整體擬合效果有一定的影響,表現為構建的模型在敏感度方面較低,因此后續研究在篩選變量方面應注意兼顧模型的敏感度和特異度。②雖然在建模前進行了相關數據預處理,但是使用的異常值檢查方法較為單一,相應地降低了模型預測性能。③在模型性能構建方面,涉及很多參數調整,本研究僅使用了相應函數的默認設置,尚未進行更深入的參數調試。
綜上所述,隨機森林模型在預測重癥HFMD方面具有較大價值,其模型預測性能表現較佳。隨著更多復雜算法的開發,同時結合流行病學大樣本量數據的分析,更優秀的預測模型及其他一些潛在的預測指標有望被發現,從而為臨床指南的修訂及醫學決策提供更充足的參考依據。