陳曉瑾 陳海哨 周紅萍
腸道病毒引起的手足口病(hand-foot-mouth disease,HFMD)是5歲以下兒童常見的傳染病,其病原體以腸道病毒71型(EV71)和科薩奇病毒A組16型(Cox A16)最為常見。嚴重的進行性HFMD主要由EV71型導致,病情兇險,病死率高[1]。早期識別EV71型HFMD重癥傾向,對提高重癥HFMD患兒的救治成功率、降低病死率具有重要意義。HFMD危險因素復雜,通常呈非線性關系,難以用傳統方法如線性回歸或logistic回歸擬合。誤差反向傳播(back propagation,BP)神經網絡在處理復雜非線性關系時的分析正確率較高[2-4]。遺傳算法(genetic algorinthm,GA)遵循自然界“優勝劣汰”的選擇規律,以進化權值和閾值作為最優解,增強了網絡的全局搜索能力,靈敏度、特異度和準確度均優于BP神經網絡[5-7]。本研究以HFMD患兒住院資料為基礎,采用MATLAB R2016b神經網絡工具箱構建多層前饋的BP神經網絡,利用GA工具箱優化初始權值和閾值,構建遺傳算法優化誤差反向傳播(genetic algorinthm back propagation,GABP)神經網絡模型并預測HFMD重癥化傾向,以期為重癥EV71型HFMD的早期識別和臨床早期干預提供參考。
1.1 研究設計 參照《2010版手足口病診療指南》[8],回顧性分析杭州市兒童醫院在2014年1月—2016年12月收治的確診為EV71型的469例HFMD患兒信息,其中HFMD重癥病例385例(重癥組),普通型(輕癥)病例84例(普通組)。以入院時臨床表現、檢查檢驗結果、發病過程等臨床相關指標作為模型輸入參數,以是否具有重癥化傾向作為輸出指標,根據ROC曲線和AUC、靈敏度、特異度和均方根誤差評價GABP模型,并進行驗證。以2014年1月—2015年12月收治的352例患兒作為訓練組,用于構建GABP模型,其中重癥288例,輕癥64例;以2016年1月—2016年12月收治的117例患兒作為驗證組,用于模型的驗證和評價,其中重癥97例,輕癥20例。限定患兒發病自入院時間≤3 d。
1.2 資料收集和處理 綜合文獻報道和兒童感染科醫師臨床經驗,從病例資料中提取發病和臨床經過、人口學情況,選取可能的影響因素如兒童職業(散居/托幼)、性別、月齡、體質量、熱峰、發熱(≥37.4℃)/高熱(>39.0℃)天數、發病至就診時間、發病至入院時間、皮疹分布(手、足、口腔)、呼吸系統和神經系統情況(咳嗽、呼吸節律不齊、易驚、驚跳天數、手足抖動、頸強直、嗜睡、精神差、驚厥、嘔吐、煩躁)、入院FPG水平以及WBC、中性粒細胞、淋巴細胞、CRP、EV71病毒載量、通用型病毒載量、機體免疫功能(IgA、IgM、IgG水平)、心肌酶譜(肌酸激酶,creatine kinase,CK;肌酸激酶同工酶,creatine kinase-MB,CK-MB)水平等34個指標作為模型輸入參數。采用ACESS數據庫雙人錄入和核查建立預測、驗證數據庫。
1.3 GABP神經網絡的構建 應用MATLAB軟件R2016b中mapminmax函數對469例HFMD患兒數據歸一化,非數值型參數用0或1表示,歸一化至[-1,1]。以34個危險因素作為輸入變量,重癥和輕癥作為輸出變量(重癥為1,輕癥為0),建立BP模型。隱含層和輸出層的傳遞函數分別采用tansig和purelin。網絡的訓練函數采用函數trainlm。最大訓練步數1 000步,訓練誤差角度目標0.000 1,學習速率為0.01。通過計算危險因素的平均影響值(mean impact values,MIV)對輸入變量進行優化,除去冗余變量,建立GABP模型。采用五折交叉驗證法驗證模型的適用性和準確性,每折所構建的模型均運行3次。
1.4 GABP模型預測效能的評價 比較AUC,評價BP模型和GABP模型的特異度和靈敏度。當0.7≤AUC<0.8,認為模型的預測能力可以接受;0.8≤AUC<0.9,認為模型的預測能力很好;AUC≥0.9,認為模型的預測能力杰出;AUC越接近1,說明預測效果越好。統計不同條件下MATLAB軟件的運行步數和運行時間,比較BP模型和GABP模型的運行性能。通過均方根誤差衡量模型的擬合精度,其值越小說明模型擬合精度越高。
1.5 統計學處理 采用SPSS 13.0統計軟件。正態分布的計量資料以±s表示,非正態分布的計量資料以M(P25,P75)表示,計數單位以例數表示。計量資料采用兩獨立樣本t檢驗或Mann-WitneyU檢驗,計數資料采用χ2檢驗。P<0.05為差異有統計學意義。
2.1 兩組患者危險因素比較 HFMD重癥組385例,其中男234例(60.8%),女151例(39.2%),平均年齡(31.85±16.21)個月;普通組84例,其中男51例(60.7%),女33例(39.3%),平均年齡(31.49±15.34)個月。重癥組和普通組患兒年齡、性別比較,差異均無統計學意義(均P>0.05),最高體溫、發熱(≥37.4℃)天數、高熱(>39.0℃)天數、口腔皰疹、FPG、中性粒細胞、淋巴細胞、驚跳天數、精神差、易驚、手足抖動、嘔吐和呼吸節律不齊等比較,差異均有統計學意義(均P<0.05),見表1。

表1 重癥組和普通組危險因素的單因素比較
2.2 BP神經網絡輸入變量的優化 34個危險因素中,MIV絕對值排名前20位的依次為驚跳天數、通用型病毒載量、最高體溫、EV71病毒載量、IgM、精神差、CK-MB、FPG、易驚、咳嗽、發熱(≥37.4℃)天數、頸強直、職業(散居/托幼)、IgA、性別、呼吸節律不齊、高熱(≥39.0℃)天數、發病至入院時間、手足抖動、體質量,見表2。將BP模型的輸入變量由34個參數調整為20個后,AUC從0.630增加到0.723,可見模型擬合度提高,見圖1。因此,選取以上20個危險因素作為BP神經網絡的輸入變量。

表2 危險因素的MIV絕對值

圖1 不同輸入變量的ROC曲線
2.3 隱含層神經元數的優化 網絡性能指標的均方根誤差預設為0.01,MATLAB最大步數限定1 000,考察不同隱含層神經元數下網絡實際運行情況和AUC,結果可知,隱含層神經元數目為10和20時,BP神經網絡和GABP神經網絡均無法滿足均方根誤差≤0.01的要求,所需的運行步數均已達到預設最大值。隨著神經元數的增加,模型達到預設誤差范圍的運行步數和運行時間均減少,AUC值增加,可見在一定范圍內增加隱含層神經元數可提升網絡的運行性能和預測能力。相對于BP神經網絡,GABP神經網絡構建模型擬合性能更好,效率更高。當隱含層神經元個數為40時,GABP模型網絡性能和預測能力均為最佳。由此,最終GABP模型的網絡結構為20→40→1,即輸入層變量為20,隱含層和輸出層的神經元數分別為40和1,見表3。

表3 隱含層神經元數對BP模型和GABP模型性能的影響
2.4 GABP模型預測能力評估 采用五折交叉驗證法比較兩種預測模型的ROC曲線參數,GABP模型的靈敏度和特異度均高于BP模型(P<0.05),說明BP模型經GA優化后,真陽性率更高,假陽性率更低。結合均方根誤差和AUC,相對于BP模型,GABP模型的網絡穩定性和預測準確性更高,差異有統計學意義(P<0.05),見表4。

表4 BP模型和GABP模型預測效果比較
HFMD重癥化的危險因素是臨床的研究熱點。根據BP神經網絡輸入變量的MIV值篩選出前20位危險因素,其中驚跳天數、手足抖動、最高體溫、發熱天數、FPG、精神差、易驚、高熱天數和呼吸節律不齊在單因素分析中也顯示出有統計學差異,提示這些指標與重癥化具有高度相關性,與文獻報道一致[9-10]。但是仍有部分危險因素的單因素分析結果與MIV排序不同,如中性粒細胞比例在單因素分析中有統計學差異(P<0.01),而在MIV排序中位列29位。這可能是BP模型與單因素分析對數據處理和統計方式的不同導致。t檢驗或χ2檢驗通過對單個危險因素進行比較,判斷各危險因素在兩組之間是否存在統計學差異。BP神經網絡主要分析危險因素與預測結果之間的內在聯系,根據MIV絕對值的大小判斷各危險因素對網絡預測性能的影響程度,從而實現危險因素的篩選。在GABP神經網絡中,CK-MB位列MIV排序第7,而單因素分析中無統計學差異。心肌組織是EV71容易侵犯的部位,心肌損傷也是HFMD患兒常見的臟器并發癥,目前已經發現CK-MB對HFMD的重癥化產生影響[11-13]。對輸入變量的MIV分析可見,CK-MB在HFMD的重癥化中發揮著重要的作用。GABP模型中,IgM在MIV排序中位居第8位,推測免疫功能可能影響HFMD的發生和發展。也有文獻指出EV71型HFMD重癥組患兒IgM水平顯著高于普通組[14-16],而IgM在t檢驗中并未表現出統計學差異。同樣,MIV分析顯示通用型病毒載量和EV71型病毒載量分別列第2和第4位,說明病毒載量在GABP重癥化預測模型中具有重要的地位。
利用危險因素構建風險預測模型,可提早發現重癥傾向,常見的構建HFMD重癥化危險模型多采用logistic回歸模型[17-19]。馬曉梅等[20-21]首次使用HFMD重癥化相關因素構建BP模型,獲得了較好的擬合效果。但BP神經網絡的算法存在學習效率低、全局搜索能力弱等問題,在模型擬合過程中容易陷入局部極小導致無法收斂。本研究建立的GABP重癥化預測模型,在網絡性能上,滿足均方根誤差所需要的系統運行時間,運行步數少于BP模型,解決了BP模型計算量大、耗時長的問題;在預測能力上,靈敏度和特異度顯著優于BP模型,AUC達0.8以上,說明GABP模型具有很好的預測能力,能更準確、特異地識別HFMD的重癥化風險。
迄今文獻報道的HFMD重癥化預測模型均未對腸道病毒進行分類,而重癥HFMD最常見的病毒為EV71型,因此針對EV71型HFMD構建的預測模型更接近臨床實際。本研究基于GABP神經網絡建立的EV71型HFMD重癥預警模型,為臨床醫師實現HFMD患兒早期評估提供了一個新工具。