隋美麗,申遠方,黃學(xué)勇,楊海燕,馬曉梅,李 懿,馮慧芬,段廣才#
1)鄭州大學(xué)公共衛(wèi)生學(xué)院流行病學(xué)教研室 鄭州450001 2)鄭州市兒童醫(yī)院感染科 鄭州450053 3)河南省疾病預(yù)防控制中心傳染病所 鄭州450016 4)鄭州大學(xué)第五附屬醫(yī)院感染科 鄭州450052
手足口病(hand-foot-mouth disease,HFMD)是由小RNA 腸道病毒引起的兒童常見傳染病,該病發(fā)病急、傳染性強。近年來,HFMD 在東南亞及我國大陸較為流行,報告病例、重癥病例和死亡病例均增多,其中HFMD 的重癥病例病死率較高,危害嚴重[1]。因此,對HFMD 重癥化預(yù)警指標的掌握有助于該病的防治。在對疾病危險因素進行分析及對癌癥進行輔助診斷時,分類樹模型已有應(yīng)用[2-4],該模型可將因素間的交互作用和層次關(guān)系進行有效處理和展現(xiàn),并可提示具有哪些特征的患者有較高的發(fā)病風(fēng)險或更易重癥化,實現(xiàn)早期預(yù)警并對具有該特征的人群實施及時的干預(yù)。該研究分析2013年4月至6月在鄭州市某醫(yī)院感染科住院的HFMD 患兒的一般臨床資料和常規(guī)的實驗室檢查資料,使用分類樹模型探討重癥HFMD 的危險因素,構(gòu)建風(fēng)險模型,并對模型的應(yīng)用價值進行評價。
1.1 對象 所有患兒均來源于2013年4月至6月鄭州市某醫(yī)院感染科,納入該研究的重癥病例和輕癥病例均符合《手足口病診療指南(2010年版)》[5]。納入標準:①臨床確診的HFMD 患兒。②月齡≤36個月。③發(fā)病時間≤72 h。排除標準:①患有先天性疾病者。②患有急性或慢性肝炎者。③排除其他疾病引起的心臟損害者。④同時合并其他腸道疾病者。共221例,其中重癥組147例(男89例,女58例),月齡(18.18±7.20)個月,發(fā)病時間(1.40 ±0.50)d;輕癥組74例(男46例,女28例),月齡(16.41 ±8.02)個月,發(fā)病時間(1.32 ±0.47)d。2組患兒的性別構(gòu)成、年齡及發(fā)病時間比較,差異均無統(tǒng)計學(xué)意義(P均>0.05)。該研究經(jīng)鄭州市兒童醫(yī)院和鄭州大學(xué)第五附屬醫(yī)院倫理委員會批準。
1.2 資料收集 以《手足口病預(yù)防控制指南(2009版)》附件3《手足口病重癥或死亡病例個案調(diào)查表》為基礎(chǔ)[6],經(jīng)過多次預(yù)調(diào)查及專家論證后,制定統(tǒng)一的調(diào)查問卷。對該院221例住院患兒展開個案調(diào)查,主要收集患兒及家庭的一般人口學(xué)特征、疾病史、臨床癥狀及體征以及生化檢查的相關(guān)資料。調(diào)查表由經(jīng)統(tǒng)一規(guī)范化培訓(xùn)的專業(yè)人員現(xiàn)場分別對病例組和對照組的家長進行訪談,并結(jié)合患兒實際情況填寫。同一調(diào)查員填寫同一調(diào)查問卷并在3 d 內(nèi)完成所有項目。從調(diào)查問卷中選取其中26個因素進行危險因素分析,分別為:發(fā)熱、熱程≥3 d、熱峰≥39℃、心率≥140 min-1、呼吸≥30 min-1、血糖升高、精神差、煩躁不安、頸強直、抽搐、易驚、意識障礙、手足抖動、肢體無力、呼吸節(jié)律不齊、肺部啰音、皮膚顏色、四肢發(fā)涼、嘔吐、胸部X 線片改變、心電圖異常、白細胞、中性粒細胞比率、淋巴細胞比率、C反應(yīng)蛋白、降鈣素原。
1.3 分類樹分類變量的分級與數(shù)量化的方法 在資料的統(tǒng)計學(xué)處理中,對HFMD 患兒的臨床診斷類型及上述26個因素進行了定義及量化編碼,見表1。

表1 主要變量定義及量化編碼
1.4 統(tǒng)計分析
1.4.1 運算法則 分類樹模型對目標變量進行分類和預(yù)測時是根據(jù)解釋變量來實現(xiàn)的,較著名的分類樹方法包括CHAID 和分類回歸樹(CART),預(yù)測和分類是該類方法的主要用途。其中,最常用的方法是CHAID,但該法對目標變量的要求很嚴格:即獨立變量(目標變量)只能為分類變量,即離散型變量,而CART 則可以直接對數(shù)值型變量進行處理。基本原理:以目標變量自我分層的樹狀結(jié)構(gòu)為基礎(chǔ),根結(jié)點代表因變量,預(yù)測變量父結(jié)點和子結(jié)點的不斷生成是以卡方檢驗顯著性程度為依據(jù)的,即卡方值越大,越先成為預(yù)測根結(jié)點的變量,程序自動歸并以實現(xiàn)變量的不同類的預(yù)測,使之成為卡方顯著性,程序根據(jù)預(yù)先設(shè)定的水平數(shù)停止[7-8]。當預(yù)測變量的數(shù)量較多且變量類型均為分類變量時,最適宜的分類方法即為CHAID。此外,CART 法的原理是內(nèi)部同質(zhì)性,而CHAID 法是以列聯(lián)表卡方計算為基礎(chǔ)的運算法則,兩者的原理不同。與CART 法相比,CHAID 更易被醫(yī)務(wù)工作者理解。
1.4.2 模型的評價 索引圖、錯分概率Risk 統(tǒng)計量均可對模型的分類結(jié)果進行評價,同時受試者工作特征曲線(ROC 曲線)下面積亦可對模型效果進行評價。
1.4.3 模型參數(shù) 拆分及合并的檢驗水準α =0.05,最大生長深度5 層,為實現(xiàn)重癥HFMD 潛在影響因素的充分挖掘,父結(jié)點和子結(jié)點中最小樣本含量設(shè)為10 和5。
1.4.4 數(shù)據(jù)分析 采用SPSS 13.0 進行重 癥HFMD 發(fā)生風(fēng)險的分類樹模型構(gòu)建。
2.1 重癥HFMD 分類樹發(fā)生風(fēng)險模型的建立 根據(jù)上述生長和修剪規(guī)則,所建立分類樹模型共包括3 層,共9個結(jié)點。其中終末結(jié)點5個,共篩選出4個解釋變量:精神差、易驚、熱峰≥39℃、手足抖動,見圖1。分類樹模型圖結(jié)果顯示,樹型結(jié)構(gòu)的第一層是按照精神進行拆分的,所以,在該研究中,重癥HFMD 發(fā)生風(fēng)險最大的影響因素為精神,其中,精神差的個體重癥HFMD 發(fā)生概率為90.7%,高于精神正常的人員(3.1%),成為重癥HFMD 的高危人群。在精神差的人群中,篩選出的主要影響因素為易驚,在這組人員中,如果同時合并易驚,則重癥HFMD的發(fā)生概率為97.1%,高于未合并易驚的人群(61.1%);對于精神差同時合并易驚的人群,若同時合并熱峰≥39℃,則重癥HFMD 的發(fā)生概率為99.1%,高于未合并熱峰≥39℃的人群(89.7%);而對精神差未合并易驚的人群研究發(fā)現(xiàn),若同時合并手足抖動,則重癥HFMD 的發(fā)生概率為100.0%,高于未合并手足抖動的人群(36.4%)。

圖1 重癥HFMD 發(fā)生風(fēng)險分類樹模型圖
2.2 模型的結(jié)點增益分析 見表2。結(jié)點表的增益展示了模型中端點的匯總信息。其中,N 為每個端點的總個案數(shù),每個結(jié)點的總個案數(shù)除以根結(jié)點的總個案數(shù)即為結(jié)點百分數(shù)。增益中的N 表示每個端點在目標分類中所標記的個案數(shù),其百分比是目標分類的個案數(shù)除以該類在總分類的個案數(shù)。該研究以重癥為所要研究的分類,因此,重癥的個案數(shù)與百分數(shù)即為增益,如結(jié)點6 重癥的個案數(shù)為108,而根結(jié)點重癥的總個案數(shù)為147,所以,結(jié)點6 的百分數(shù)108/147 =73.5%。目標分類中個案的百分數(shù)即為響應(yīng)百分比;目標分類的響應(yīng)百分比與總樣本中該類的響應(yīng)百分比的比值即為索引,由上所述可知,結(jié)點6 的響應(yīng)百分比為99.1%,根結(jié)點響應(yīng)的百分比為66.5%(147/221),所以結(jié)點6 的索引為99.1% /66.5% = 149.0%。由上可知,如果索引值>100%則表示各端點的重癥組的百分比大于根結(jié)點的重癥組的百分比。

表2 分類樹模型的結(jié)點增益表
2.3 分類樹模型的評價
2.3.1 索引圖 見圖2。

圖2 發(fā)生風(fēng)險分類樹模型索引圖
2.3.2 樹型模型的錯分矩陣和Risk 統(tǒng)計量 見表3。Risk 統(tǒng)計量為0.045,表示該模型在對重癥HFMD 發(fā)病風(fēng)險進行預(yù)測時其預(yù)測正確率達95.50%,提示該模型具有較好的擬合效果。

表3 分類樹模型錯分矩陣
2.3.3 ROC 曲線的繪制 根據(jù)此模型所得到的預(yù)測概率進行ROC 曲線的繪制,所得到的ROC 曲線下面積為0.953(95%CI:0.917~0.988),標準誤為0.018,與0.5 相比,差異有統(tǒng)計學(xué)意義(P<0.05),因此,分類樹模型在對重癥HFMD 發(fā)生風(fēng)險進行預(yù)測時,價值較高。見圖3。

圖3 預(yù)測概率的ROC 曲線
分類樹的最具顯著性的切分是通過結(jié)點純度的計算來實現(xiàn)的。CHAID 具有前向修剪和多向分叉的特征。該算法的基礎(chǔ)是卡方或似然卡方檢驗,對眾多自變量進行比較篩選時,最佳分類變量和最佳分類結(jié)果經(jīng)由P 值來實現(xiàn),因此,當變量屬性為分類變量時,該算法更為合適。對連續(xù)型的變量而言,如要進行決策樹分析,需首先對輸入變量進行相應(yīng)的離散化處理。當預(yù)測變量均為分類變量且數(shù)量較多時,此時應(yīng)用CHAID 分類法更為合適[3,9]。CART算法的基本思路是采用雜質(zhì)縮減最大化,對CART而言,只能二部分叉,后向修剪,基尼系數(shù)是其分割標準。樹分為分類樹和回歸樹,前者是指應(yīng)變量為分類屬性時,后者是指應(yīng)變量為連續(xù)變量時[10-11]。
以往的研究[12-14]結(jié)果表明:36個月以內(nèi)的兒童為重癥HFMD 的高發(fā)人群,且HFMD 的流行呈現(xiàn)出一定的季節(jié)性,鑒于我國幅員遼闊,HFMD 在我國大陸的流行時間因地而異[15],河南省HFMD 的流行高峰一般為每年的3~6月[7-8,16]。由于HFMD 的高發(fā)性及重癥患兒潛在的重癥化風(fēng)險性,疾病的早期預(yù)警顯得尤為重要。重癥HFMD 的影響因素較多,因素間存在著復(fù)雜的關(guān)系,以往對于多因子疾病危險因素的分析常采用多元統(tǒng)計分析方法進行,如logistic 回歸、Cox 回歸等,但這些方法在處理變量之間的共線性時顯示出局限性,因而在一定程度上降低了統(tǒng)計分析的效能,甚至對有些結(jié)果無法進行合理的解釋。最好的解決方案是選用非參數(shù)回歸模型來處理,其中包括分類樹與回歸樹,該方法近年來在國內(nèi)外逐步推廣使用[17-19]。該方法最重要的一個特點是不要求預(yù)測變量的數(shù)據(jù)分布類型,即任意分布資料均可。分類樹分析有著相當復(fù)雜的中間過程,其過程大致包括種樹和剪枝,即以一棵完整的樹的建立為起點,然后運用交叉印證法從末梢開始剪枝,剪枝后的模型明顯變差為終點。在模型建立的過程中,每一種可能的組合在模型建立之初就已被詳細地考查,結(jié)果顯示出的模型是優(yōu)化后的模型,且分類樹分析以樹型圖的方式將其分析過程以及多水平變量間復(fù)雜的相互作用關(guān)系得以展現(xiàn),而傳統(tǒng)的分析方法如logistic 回歸等則很難實現(xiàn)這一點。
該研究應(yīng)用分類樹模型對重癥HFMD 患兒的門診指標和一般臨床資料進行綜合匯總,從而進行風(fēng)險模型的構(gòu)建,結(jié)果顯示:共從26個候選變量中篩選出4個重要解釋變量:精神差、易驚、熱峰≥39℃、手足抖動,說明該4個變量可以影響重癥HFMD的發(fā)病風(fēng)險,同以往的logistic 回歸結(jié)果基本相同[20],并且還提供了更多有意義的信息。此外,采用CHAID 法構(gòu)建的分類樹模型對于離散化的連續(xù)性變量和具有2種以上分類的指標,會將沒有統(tǒng)計學(xué)意義的分層類別重組為具有統(tǒng)計學(xué)意義的新的類別,相比于人為分層設(shè)計,該法更為科學(xué)和合理[9]。在流行病學(xué)研究中,應(yīng)用分類樹所確定的指標分界基礎(chǔ)是顯著的統(tǒng)計學(xué)意義而不是借助于個人經(jīng)驗或臨床觀察,因此,根據(jù)重組后的分界點可以將變量重新分割并作進一步分析[4],該研究并未將該特點顯現(xiàn),可能與對原始數(shù)據(jù)進行錄入時已對定量資料進行定性處理有關(guān)。
任何一種模型都有一定的局限性,分類樹模型亦如此。當解釋變量數(shù)目和自身分類都較多時,最初有可能生成規(guī)模較龐大的樹,此時對樹型模型的適當修剪必不可少,但修剪之后的樹如何實現(xiàn)兼具精簡和信息完整是目前尚需解決的問題之一。此外,鑒于該研究樣本量有限,尚需擴大樣本量以驗證該模型,同時如何實現(xiàn)分類樹模型和傳統(tǒng)的統(tǒng)計學(xué)分析方法的有機結(jié)合,以期兩者能夠互相補充,從而實現(xiàn)重癥HFMD 影響因素的全面挖掘是需要進一步探討的內(nèi)容。
[1]Li W,Teng GJ,Tong HF,et al.Study on risk factors for severe hand,foot and mouth disease in China[J].PLoS One,2014,9(1):e87603
[2]Mu?oz-Moreno JA,Pérez-álvarez N,Mu?oz-Murillo A,et al.classification models for neurocognitive impairment in HIV infection based on demographic and clinical variables[J].PLoS One,2014,9(9):e107625
[3]何其棟,魏小玲,張紅巧,等.基于“優(yōu)選腫瘤標志群”建立的決策樹模型對肺癌輔助診斷的價值[J].鄭州大學(xué)學(xué)報:醫(yī)學(xué)版,2014,49(1):37
[4]劉建平,程錦泉,張仁利,等.應(yīng)用分類樹模型構(gòu)建缺血性腦卒中發(fā)病風(fēng)險的預(yù)測模型[J].中國慢性病預(yù)防與控制,2012,20(3):254
[5]俞蕙.兒童手足口病重癥病例的臨床早期識別[J].中華兒科雜志,2012,50(4):284
[6]手足口病預(yù)防控制指南:2009 版[J].全科醫(yī)學(xué)臨床與教育,2010,10(2):125
[7]Goto Y,Maeda T,Nakatsu-Goto Y.Decision tree model for predicting long-term outcomes in children with out-of-h(huán)ospital cardiac arrest:a nationwide,population-based observational study[J].Crit Care,2014,18(3):R133
[8]Tobiasz-Adamczyk B,Galaá A,Zawisza K.Socio-demographic differences in the prevalence of cardiovascular diseases among women and men in Poland:results from the Courage in Europe Project[J].Przegl Lek,2014,71(3):122
[9]Gietzelt M,F(xiàn)eldwieser F,G?vercin M,et al.A prospective field study for sensor-based identification of fall risk in older people with dementia[J].Inform Health Soc Care,2014,39(3/4):249
[10]Chao CM,Yu YW,Cheng BW,et al.Construction the model on the breast cancer survival analysis use support vector machine,logistic regression and decision tree[J].J Med Syst,2014,38(10):106
[11]Malehi AS.Diagnostic classification scheme in Iranian breast cancer patients using a decision tree[J].Asian Pac J Cancer Prev,2014,15(14):5593
[12]聶軼飛,王海峰,李孟磊,等.應(yīng)用集中度和圓形分布法探討河南省2010年手足口病流行規(guī)律[J].中國衛(wèi)生統(tǒng)計,2013,30(3):410
[13]孫建偉,王彥霞,許汴利,等.河南省2009~2010年手足口病發(fā)病的時間分布特征[J].中國衛(wèi)生統(tǒng)計,2012,29(3):365
[14]Liu N,Xie J,Qiu XL,et al.An atypical winter outbreak of hand,foot,and mouth disease associated with human enterovirus 71,2010[J].BMC Infect Dis,2014,14:123
[15]隋美麗,馬曉梅,段廣才,等.重癥手足口病患兒實驗室指標的判別分析[J].西安交通大學(xué)學(xué)報:醫(yī)學(xué)版,2014,35(4):504
[16]Feng H,Duan G,Zhang R,et al.Time series analysis of hand-foot-mouth disease hospitalization in Zhengzhou:establishment of forecasting models using climate variables as predictors[J].PLoS One,2014,9(1):e87916
[17]Lee MY,Yang CS.Entropy-based feature extraction and decision tree induction for breast cancer diagnosis with standardized thermograph images[J].Comput Methods Programs Biomed,2010,100(3):269
[18]趙文波,李明,唐驊,等.應(yīng)用分類樹模型構(gòu)建糖尿病腎病蛋白尿進展的風(fēng)險預(yù)測模型[J].第三軍醫(yī)大學(xué)學(xué)報,2013,35(11):1144
[19]馬瑾,孫穎,劉尚輝.決策樹模型在住院2 型糖尿病患者死因預(yù)測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2013,30(3):422
[20]可秋萍,婁瑩,劉傳振,等.危重癥手足口病患兒的早期預(yù)警指標[J].實用兒科臨床雜志,2011,26(10):804