分類樹模型在重癥手足口病風(fēng)險預(yù)測中的應(yīng)用*

2015-12-04 07:28:34隋美麗申遠方黃學(xué)勇楊海燕馬曉梅馮慧芬段廣才

鄭州大學(xué)學(xué)報(醫(yī)學(xué)版) 2015年1期

關(guān)鍵詞：分類模型

隋美麗，申遠方，黃學(xué)勇，楊海燕，馬曉梅，李懿，馮慧芬，段廣才#

1)鄭州大學(xué)公共衛(wèi)生學(xué)院流行病學(xué)教研室鄭州450001 2)鄭州市兒童醫(yī)院感染科鄭州450053 3)河南省疾病預(yù)防控制中心傳染病所鄭州450016 4)鄭州大學(xué)第五附屬醫(yī)院感染科鄭州450052

手足口病(hand－foot－mouth disease，HFMD)是由小RNA 腸道病毒引起的兒童常見傳染病，該病發(fā)病急、傳染性強。近年來，HFMD 在東南亞及我國大陸較為流行，報告病例、重癥病例和死亡病例均增多，其中HFMD 的重癥病例病死率較高，危害嚴重［1］。因此，對HFMD 重癥化預(yù)警指標的掌握有助于該病的防治。在對疾病危險因素進行分析及對癌癥進行輔助診斷時，分類樹模型已有應(yīng)用［2－4］，該模型可將因素間的交互作用和層次關(guān)系進行有效處理和展現(xiàn)，并可提示具有哪些特征的患者有較高的發(fā)病風(fēng)險或更易重癥化，實現(xiàn)早期預(yù)警并對具有該特征的人群實施及時的干預(yù)。該研究分析2013年4月至6月在鄭州市某醫(yī)院感染科住院的HFMD 患兒的一般臨床資料和常規(guī)的實驗室檢查資料，使用分類樹模型探討重癥HFMD 的危險因素，構(gòu)建風(fēng)險模型，并對模型的應(yīng)用價值進行評價。

1 對象與方法

1．1 對象所有患兒均來源于2013年4月至6月鄭州市某醫(yī)院感染科，納入該研究的重癥病例和輕癥病例均符合《手足口病診療指南(2010年版)》［5］。納入標準:①臨床確診的HFMD 患兒。②月齡≤36個月。③發(fā)病時間≤72 h。排除標準:①患有先天性疾病者。②患有急性或慢性肝炎者。③排除其他疾病引起的心臟損害者。④同時合并其他腸道疾病者。共221例，其中重癥組147例(男89例，女58例)，月齡(18．18±7．20)個月，發(fā)病時間(1．40 ±0．50)d;輕癥組74例(男46例，女28例)，月齡(16．41 ±8．02)個月，發(fā)病時間(1．32 ±0．47)d。2組患兒的性別構(gòu)成、年齡及發(fā)病時間比較，差異均無統(tǒng)計學(xué)意義(P均＞0．05)。該研究經(jīng)鄭州市兒童醫(yī)院和鄭州大學(xué)第五附屬醫(yī)院倫理委員會批準。

1．2 資料收集以《手足口病預(yù)防控制指南(2009版)》附件3《手足口病重癥或死亡病例個案調(diào)查表》為基礎(chǔ)［6］，經(jīng)過多次預(yù)調(diào)查及專家論證后，制定統(tǒng)一的調(diào)查問卷。對該院221例住院患兒展開個案調(diào)查，主要收集患兒及家庭的一般人口學(xué)特征、疾病史、臨床癥狀及體征以及生化檢查的相關(guān)資料。調(diào)查表由經(jīng)統(tǒng)一規(guī)范化培訓(xùn)的專業(yè)人員現(xiàn)場分別對病例組和對照組的家長進行訪談，并結(jié)合患兒實際情況填寫。同一調(diào)查員填寫同一調(diào)查問卷并在3 d 內(nèi)完成所有項目。從調(diào)查問卷中選取其中26個因素進行危險因素分析，分別為:發(fā)熱、熱程≥3 d、熱峰≥39℃、心率≥140 min－1、呼吸≥30 min－1、血糖升高、精神差、煩躁不安、頸強直、抽搐、易驚、意識障礙、手足抖動、肢體無力、呼吸節(jié)律不齊、肺部啰音、皮膚顏色、四肢發(fā)涼、嘔吐、胸部X 線片改變、心電圖異常、白細胞、中性粒細胞比率、淋巴細胞比率、C反應(yīng)蛋白、降鈣素原。

1．3 分類樹分類變量的分級與數(shù)量化的方法在資料的統(tǒng)計學(xué)處理中，對HFMD 患兒的臨床診斷類型及上述26個因素進行了定義及量化編碼，見表1。

表1 主要變量定義及量化編碼

1．4 統(tǒng)計分析

1．4．1 運算法則分類樹模型對目標變量進行分類和預(yù)測時是根據(jù)解釋變量來實現(xiàn)的，較著名的分類樹方法包括CHAID 和分類回歸樹(CART)，預(yù)測和分類是該類方法的主要用途。其中，最常用的方法是CHAID，但該法對目標變量的要求很嚴格:即獨立變量(目標變量)只能為分類變量，即離散型變量，而CART 則可以直接對數(shù)值型變量進行處理。基本原理:以目標變量自我分層的樹狀結(jié)構(gòu)為基礎(chǔ)，根結(jié)點代表因變量，預(yù)測變量父結(jié)點和子結(jié)點的不斷生成是以卡方檢驗顯著性程度為依據(jù)的，即卡方值越大，越先成為預(yù)測根結(jié)點的變量，程序自動歸并以實現(xiàn)變量的不同類的預(yù)測，使之成為卡方顯著性，程序根據(jù)預(yù)先設(shè)定的水平數(shù)停止［7－8］。當預(yù)測變量的數(shù)量較多且變量類型均為分類變量時，最適宜的分類方法即為CHAID。此外，CART 法的原理是內(nèi)部同質(zhì)性，而CHAID 法是以列聯(lián)表卡方計算為基礎(chǔ)的運算法則，兩者的原理不同。與CART 法相比，CHAID 更易被醫(yī)務(wù)工作者理解。

1．4．2 模型的評價索引圖、錯分概率Risk 統(tǒng)計量均可對模型的分類結(jié)果進行評價，同時受試者工作特征曲線(ROC 曲線)下面積亦可對模型效果進行評價。

1．4．3 模型參數(shù) 拆分及合并的檢驗水準α =0．05，最大生長深度5 層，為實現(xiàn)重癥HFMD 潛在影響因素的充分挖掘，父結(jié)點和子結(jié)點中最小樣本含量設(shè)為10 和5。

1．4．4 數(shù)據(jù)分析采用SPSS 13．0 進行重癥HFMD 發(fā)生風(fēng)險的分類樹模型構(gòu)建。

2 結(jié)果

2．1 重癥HFMD 分類樹發(fā)生風(fēng)險模型的建立根據(jù)上述生長和修剪規(guī)則，所建立分類樹模型共包括3 層，共9個結(jié)點。其中終末結(jié)點5個，共篩選出4個解釋變量:精神差、易驚、熱峰≥39℃、手足抖動，見圖1。分類樹模型圖結(jié)果顯示，樹型結(jié)構(gòu)的第一層是按照精神進行拆分的，所以，在該研究中，重癥HFMD 發(fā)生風(fēng)險最大的影響因素為精神，其中，精神差的個體重癥HFMD 發(fā)生概率為90．7%，高于精神正常的人員(3．1%)，成為重癥HFMD 的高危人群。在精神差的人群中，篩選出的主要影響因素為易驚，在這組人員中，如果同時合并易驚，則重癥HFMD的發(fā)生概率為97．1%，高于未合并易驚的人群(61．1%);對于精神差同時合并易驚的人群，若同時合并熱峰≥39℃，則重癥HFMD 的發(fā)生概率為99．1%，高于未合并熱峰≥39℃的人群(89．7%);而對精神差未合并易驚的人群研究發(fā)現(xiàn)，若同時合并手足抖動，則重癥HFMD 的發(fā)生概率為100．0%，高于未合并手足抖動的人群(36．4%)。

圖1 重癥HFMD 發(fā)生風(fēng)險分類樹模型圖

2．2 模型的結(jié)點增益分析見表2。結(jié)點表的增益展示了模型中端點的匯總信息。其中，N 為每個端點的總個案數(shù)，每個結(jié)點的總個案數(shù)除以根結(jié)點的總個案數(shù)即為結(jié)點百分數(shù)。增益中的N 表示每個端點在目標分類中所標記的個案數(shù)，其百分比是目標分類的個案數(shù)除以該類在總分類的個案數(shù)。該研究以重癥為所要研究的分類，因此，重癥的個案數(shù)與百分數(shù)即為增益，如結(jié)點6 重癥的個案數(shù)為108，而根結(jié)點重癥的總個案數(shù)為147，所以，結(jié)點6 的百分數(shù)108/147 =73．5%。目標分類中個案的百分數(shù)即為響應(yīng)百分比;目標分類的響應(yīng)百分比與總樣本中該類的響應(yīng)百分比的比值即為索引，由上所述可知，結(jié)點6 的響應(yīng)百分比為99．1%，根結(jié)點響應(yīng)的百分比為66．5%(147/221)，所以結(jié)點6 的索引為99．1% /66．5% = 149．0%。由上可知，如果索引值＞100%則表示各端點的重癥組的百分比大于根結(jié)點的重癥組的百分比。

表2 分類樹模型的結(jié)點增益表

2．3 分類樹模型的評價

2．3．1 索引圖見圖2。

圖2 發(fā)生風(fēng)險分類樹模型索引圖

2．3．2 樹型模型的錯分矩陣和Risk 統(tǒng)計量見表3。Risk 統(tǒng)計量為0．045，表示該模型在對重癥HFMD 發(fā)病風(fēng)險進行預(yù)測時其預(yù)測正確率達95．50%，提示該模型具有較好的擬合效果。

表3 分類樹模型錯分矩陣

2．3．3 ROC 曲線的繪制根據(jù)此模型所得到的預(yù)測概率進行ROC 曲線的繪制，所得到的ROC 曲線下面積為0．953(95%CI:0．917～0．988)，標準誤為0．018，與0．5 相比，差異有統(tǒng)計學(xué)意義(P＜0．05)，因此，分類樹模型在對重癥HFMD 發(fā)生風(fēng)險進行預(yù)測時，價值較高。見圖3。

圖3 預(yù)測概率的ROC 曲線

3 討論

分類樹的最具顯著性的切分是通過結(jié)點純度的計算來實現(xiàn)的。CHAID 具有前向修剪和多向分叉的特征。該算法的基礎(chǔ)是卡方或似然卡方檢驗，對眾多自變量進行比較篩選時，最佳分類變量和最佳分類結(jié)果經(jīng)由P 值來實現(xiàn)，因此，當變量屬性為分類變量時，該算法更為合適。對連續(xù)型的變量而言，如要進行決策樹分析，需首先對輸入變量進行相應(yīng)的離散化處理。當預(yù)測變量均為分類變量且數(shù)量較多時，此時應(yīng)用CHAID 分類法更為合適［3，9］。CART算法的基本思路是采用雜質(zhì)縮減最大化，對CART而言，只能二部分叉，后向修剪，基尼系數(shù)是其分割標準。樹分為分類樹和回歸樹，前者是指應(yīng)變量為分類屬性時，后者是指應(yīng)變量為連續(xù)變量時［10－11］。

以往的研究［12－14］結(jié)果表明:36個月以內(nèi)的兒童為重癥HFMD 的高發(fā)人群，且HFMD 的流行呈現(xiàn)出一定的季節(jié)性，鑒于我國幅員遼闊，HFMD 在我國大陸的流行時間因地而異［15］，河南省HFMD 的流行高峰一般為每年的3～6月［7－8，16］。由于HFMD 的高發(fā)性及重癥患兒潛在的重癥化風(fēng)險性，疾病的早期預(yù)警顯得尤為重要。重癥HFMD 的影響因素較多，因素間存在著復(fù)雜的關(guān)系，以往對于多因子疾病危險因素的分析常采用多元統(tǒng)計分析方法進行，如logistic 回歸、Cox 回歸等，但這些方法在處理變量之間的共線性時顯示出局限性，因而在一定程度上降低了統(tǒng)計分析的效能，甚至對有些結(jié)果無法進行合理的解釋。最好的解決方案是選用非參數(shù)回歸模型來處理，其中包括分類樹與回歸樹，該方法近年來在國內(nèi)外逐步推廣使用［17－19］。該方法最重要的一個特點是不要求預(yù)測變量的數(shù)據(jù)分布類型，即任意分布資料均可。分類樹分析有著相當復(fù)雜的中間過程，其過程大致包括種樹和剪枝，即以一棵完整的樹的建立為起點，然后運用交叉印證法從末梢開始剪枝，剪枝后的模型明顯變差為終點。在模型建立的過程中，每一種可能的組合在模型建立之初就已被詳細地考查，結(jié)果顯示出的模型是優(yōu)化后的模型，且分類樹分析以樹型圖的方式將其分析過程以及多水平變量間復(fù)雜的相互作用關(guān)系得以展現(xiàn)，而傳統(tǒng)的分析方法如logistic 回歸等則很難實現(xiàn)這一點。

該研究應(yīng)用分類樹模型對重癥HFMD 患兒的門診指標和一般臨床資料進行綜合匯總，從而進行風(fēng)險模型的構(gòu)建，結(jié)果顯示:共從26個候選變量中篩選出4個重要解釋變量:精神差、易驚、熱峰≥39℃、手足抖動，說明該4個變量可以影響重癥HFMD的發(fā)病風(fēng)險，同以往的logistic 回歸結(jié)果基本相同［20］，并且還提供了更多有意義的信息。此外，采用CHAID 法構(gòu)建的分類樹模型對于離散化的連續(xù)性變量和具有2種以上分類的指標，會將沒有統(tǒng)計學(xué)意義的分層類別重組為具有統(tǒng)計學(xué)意義的新的類別，相比于人為分層設(shè)計，該法更為科學(xué)和合理［9］。在流行病學(xué)研究中，應(yīng)用分類樹所確定的指標分界基礎(chǔ)是顯著的統(tǒng)計學(xué)意義而不是借助于個人經(jīng)驗或臨床觀察，因此，根據(jù)重組后的分界點可以將變量重新分割并作進一步分析［4］，該研究并未將該特點顯現(xiàn)，可能與對原始數(shù)據(jù)進行錄入時已對定量資料進行定性處理有關(guān)。

任何一種模型都有一定的局限性，分類樹模型亦如此。當解釋變量數(shù)目和自身分類都較多時，最初有可能生成規(guī)模較龐大的樹，此時對樹型模型的適當修剪必不可少，但修剪之后的樹如何實現(xiàn)兼具精簡和信息完整是目前尚需解決的問題之一。此外，鑒于該研究樣本量有限，尚需擴大樣本量以驗證該模型，同時如何實現(xiàn)分類樹模型和傳統(tǒng)的統(tǒng)計學(xué)分析方法的有機結(jié)合，以期兩者能夠互相補充，從而實現(xiàn)重癥HFMD 影響因素的全面挖掘是需要進一步探討的內(nèi)容。

［1］Li W，Teng GJ，Tong HF，et al．Study on risk factors for severe hand，foot and mouth disease in China［J］．PLoS One，2014，9(1):e87603

［2］Mu?oz－Moreno JA，Pérez－álvarez N，Mu?oz－Murillo A，et al．classification models for neurocognitive impairment in HIV infection based on demographic and clinical variables［J］．PLoS One，2014，9(9):e107625

［3］何其棟，魏小玲，張紅巧，等．基于“優(yōu)選腫瘤標志群”建立的決策樹模型對肺癌輔助診斷的價值［J］．鄭州大學(xué)學(xué)報:醫(yī)學(xué)版，2014，49(1):37

［4］劉建平，程錦泉，張仁利，等．應(yīng)用分類樹模型構(gòu)建缺血性腦卒中發(fā)病風(fēng)險的預(yù)測模型［J］．中國慢性病預(yù)防與控制，2012，20(3):254

［5］俞蕙．兒童手足口病重癥病例的臨床早期識別［J］．中華兒科雜志，2012，50(4):284

［6］手足口病預(yù)防控制指南:2009 版［J］．全科醫(yī)學(xué)臨床與教育，2010，10(2):125

［7］Goto Y，Maeda T，Nakatsu－Goto Y．Decision tree model for predicting long－term outcomes in children with out－of－h(huán)ospital cardiac arrest:a nationwide，population－based observational study［J］．Crit Care，2014，18(3):R133

［8］Tobiasz－Adamczyk B，Galaá A，Zawisza K．Socio－demographic differences in the prevalence of cardiovascular diseases among women and men in Poland:results from the Courage in Europe Project［J］．Przegl Lek，2014，71(3):122

［9］Gietzelt M，F(xiàn)eldwieser F，G?vercin M，et al．A prospective field study for sensor－based identification of fall risk in older people with dementia［J］．Inform Health Soc Care，2014，39(3/4):249

［10］Chao CM，Yu YW，Cheng BW，et al．Construction the model on the breast cancer survival analysis use support vector machine，logistic regression and decision tree［J］．J Med Syst，2014，38(10):106

［11］Malehi AS．Diagnostic classification scheme in Iranian breast cancer patients using a decision tree［J］．Asian Pac J Cancer Prev，2014，15(14):5593

［12］聶軼飛，王海峰，李孟磊，等．應(yīng)用集中度和圓形分布法探討河南省2010年手足口病流行規(guī)律［J］．中國衛(wèi)生統(tǒng)計，2013，30(3):410

［13］孫建偉，王彥霞，許汴利，等．河南省2009～2010年手足口病發(fā)病的時間分布特征［J］．中國衛(wèi)生統(tǒng)計，2012，29(3):365

［14］Liu N，Xie J，Qiu XL，et al．An atypical winter outbreak of hand，foot，and mouth disease associated with human enterovirus 71，2010［J］．BMC Infect Dis，2014，14:123

［15］隋美麗，馬曉梅，段廣才，等．重癥手足口病患兒實驗室指標的判別分析［J］．西安交通大學(xué)學(xué)報:醫(yī)學(xué)版，2014，35(4):504

［16］Feng H，Duan G，Zhang R，et al．Time series analysis of hand－foot－mouth disease hospitalization in Zhengzhou:establishment of forecasting models using climate variables as predictors［J］．PLoS One，2014，9(1):e87916

［17］Lee MY，Yang CS．Entropy－based feature extraction and decision tree induction for breast cancer diagnosis with standardized thermograph images［J］．Comput Methods Programs Biomed，2010，100(3):269

［18］趙文波，李明，唐驊，等．應(yīng)用分類樹模型構(gòu)建糖尿病腎病蛋白尿進展的風(fēng)險預(yù)測模型［J］．第三軍醫(yī)大學(xué)學(xué)報，2013，35(11):1144

［19］馬瑾，孫穎，劉尚輝．決策樹模型在住院2 型糖尿病患者死因預(yù)測中的應(yīng)用［J］．中國衛(wèi)生統(tǒng)計，2013，30(3):422

［20］可秋萍，婁瑩，劉傳振，等．危重癥手足口病患兒的早期預(yù)警指標［J］．實用兒科臨床雜志，2011，26(10):804