999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹模型在2型糖尿病患病風險預測中的應用*

2017-01-10 03:46:30侯玉梅朱亞楠朱立春吳頌高秋燁
中國衛(wèi)生統(tǒng)計 2016年6期
關鍵詞:分類糖尿病模型

侯玉梅朱亞楠朱立春吳 頌高秋燁

決策樹模型在2型糖尿病患病風險預測中的應用*

侯玉梅1△朱亞楠1朱立春2吳 頌2高秋燁3

目的探究決策樹模型在2型糖尿病患病風險預測中的應用,為預防和控制2型糖尿病的發(fā)生和發(fā)展提供臨床指導。方法收集數(shù)據(jù)并進行預處理,采用C5.0算法構建分類模型,之后對其預測結果進行評估。結果采用決策樹構建的三個模型的訓練集準確率分別為79.98%、98.26%、99.55%,測試集的準確率分別為81.27%、98.16%、98.16%,預測準確率都較高。結論采用C5.0算法構建決策樹模型,對預測糖尿病的患病風險具有一定的應用價值。

2型糖尿病 決策樹 風險預測

隨著我國人民生活水平的普遍提高以及生活節(jié)奏的加快,我國糖尿病患者數(shù)量正在以驚人的速度增長,且向低齡化發(fā)展[1]。最新調(diào)查顯示,我國成年人中的糖尿病患者高達1.14億,并呈現(xiàn)發(fā)病率高,知曉率、治療率和達標率低的現(xiàn)象,同時也給家人和社會帶來了沉重的經(jīng)濟負擔。因此,預防2型糖尿病的發(fā)生,對于控制糖尿病發(fā)病人數(shù)具有重要意義。本文利用數(shù)據(jù)挖掘C 5.0算法構建簡單個人水平預測、簡單臨床預測以及復雜臨床預測模型,以此發(fā)掘糖尿病患病的得病風險規(guī)律,為健康人群的預防和醫(yī)生臨床診斷提供指導。

資料與方法

1.資料來源

本文中資料數(shù)據(jù)來源于河北省秦皇島市某醫(yī)院糖尿病患者病例以及健康人群的體檢數(shù)據(jù)共1922例,內(nèi)容包括與2型糖尿病患病相關的各項指標,分別為性別、年齡、吸煙情況、家族史情況(包括糖尿病家族史和高血壓家族史[2-3])、既往病史情況(包括心腦血管病史和冠心病史[4-5])、入院體檢與實驗室檢查情況(身高、體重、空腹血糖、舒張壓、收縮壓、甘油三酯、總膽固醇、低密度脂蛋白)等。

2.分析方法

(1)數(shù)據(jù)預處理

數(shù)據(jù)清洗 對原始數(shù)據(jù)進行分析整理,對超出取值范圍的不合理數(shù)據(jù)或個別有缺失值的變量用指定值替代[6]。Flag(標志)型變量用False對應的值替代,Set(集)型變量用第一個變量值替代,數(shù)值型變量,大于上限的用上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。

數(shù)據(jù)變換 數(shù)據(jù)變換將數(shù)據(jù)轉換成統(tǒng)一的格式,以適合數(shù)據(jù)的再處理[7]。在原始數(shù)據(jù)中,需要轉換的屬性有身高。一般身高是以厘米度量的,但是我們需要利用BMI指數(shù)變量,需要對身高變量進行轉換,轉換函數(shù)為:f(V)=V/100。

數(shù)據(jù)規(guī)約 規(guī)約后的數(shù)據(jù)不但保證了原始數(shù)據(jù)的完整性,而且減少了數(shù)據(jù)量,使得數(shù)據(jù)挖掘的效率和性能大大提高[8]。例如:將身高和體重變量進行規(guī)約,計算BMI指數(shù)(kg/m2)=體重/(身高×身高),然后根據(jù)中國體重指標標準將BMI指數(shù)進行離散化生成新屬性BMI_set。類似地,本文生成年齡_set、舒張壓_set、收縮壓_set等其他新屬性。之后直接刪除原始數(shù)據(jù)中的冗余屬性。預處理后的數(shù)據(jù)不僅可以保持原始數(shù)據(jù)的完整性,而且提高了數(shù)據(jù)挖掘的運算效率。

(2)算法選擇

本文使用決策樹來建立分類模型,該方法可以很直觀地看出分類規(guī)則,且擅于處理非數(shù)值型數(shù)據(jù);具有效率高、分類精度高等優(yōu)點。目前,常用的決策樹算法有ID3、C5.0、CHAID、QUEST、CART等,它們的主要區(qū)別是“不同的決策樹算法的分枝策略不同”[9],其中C5.0是以信息論為指導,以信息增益率為標準確定最佳分組變量和分割點,采用后修剪方法從葉節(jié)點向上逐層剪枝;C5.0算法可以生成推理規(guī)則集,更重要的是它采用Boosting方式,提高了預測準確率和分類精度,所以本文采用C5.0算法。

(3)算法實現(xiàn)

本研究中C5.0算法由軟件Clementine 12.0實現(xiàn),通過分區(qū)將現(xiàn)有樣本集隨機分割成兩部分:訓練集70%和測試集30%,有效地實現(xiàn)了決策樹模型的構建。模型運行前,設置使用分區(qū)數(shù)據(jù),輸出類型選擇決策樹,并利用ChiMerge分箱法檢查當前分組變量,使得到的分類樹較精簡,采用Boosting技術試驗10次和交叉驗證折疊10次建立模型,提高模型預測的穩(wěn)健性,Mode選用Expert,修剪純度設為75,采用全局修剪。

結 果

1.模型建立

(1)簡單個人水平模型

當只考慮性別、年齡、身高、體重、生活習慣(煙齡)、家族史、既往病史等基本個人水平因素時,生成10個相關聯(lián)的模型,各模型的預測精度不同,最高為82.33%,最低為65.29%,應用Boosting技術后,預測精度為84.1%,分類精度提高。其相關聯(lián)的變量重要性排序如圖1所示,表明糖尿病患病風險與家族史和既往病史有著密切的關系。其中部分模型圖如圖2所示,這對于個人在簡單分析自己的身體水平及生活習慣方面,起著重要的作用。

圖1 簡單個人水平模型變量重要性排序

(2)簡單臨床模型

在簡單個人水平模型下,加入簡單臨床數(shù)據(jù)(包括空腹血糖、舒張壓、收縮壓等),也生成10個相關聯(lián)的模型,模型最高預測精度達到98.11%,最低為79.76%,相比簡單個人水平模型預測精度大大提高,應用Boosting技術后,預測精度達到了99.2%。其中變量重要性排序如圖3,表明空腹血糖與糖尿病患病的關系尤為密切,并指出空腹血糖的臨界值為6.09mmol/L或6.08mmol/L,與醫(yī)學知識大體一致,這對分析簡單臨床數(shù)據(jù)具有指導意義。其中部分模型圖如圖4所示。

圖2 部分簡單個人水平模型圖

圖3 簡單臨床模型變量重要性排序

圖4 部分簡單臨床模型圖

(3)復雜臨床模型

在簡單臨床模型下,加入檢驗數(shù)據(jù)(包括甘油三酯、低密度脂蛋白、總膽固醇),形成復雜臨床模型,模型最高預測精度達到98.79%,最低為91.36%,相比簡單臨床模型預測精度有所提高,說明數(shù)據(jù)越多,變量越多,預測越準確。其中變量重要性排序如圖5所示,綜合三個模型發(fā)現(xiàn),空腹血糖、糖尿病家族史、心腦血管病史、年齡這四個變量對是否患有糖尿病有重要作用。其中部分模型圖如圖6所示。

圖5 復雜臨床模型變量重要性排序

2.模型評估

(1)采用Analysis節(jié)點進行模型準確性評價,決策樹對各個模型的訓練集和測試集的預測結果準確率如表1所示。

由表1可知,三個模型的預測準確率都較高,而且訓練集和測試集的結果相近,說明不存在訓練集過度擬合的現(xiàn)象。通過比較發(fā)現(xiàn),考慮的輸入變量越多,模型預測精度越高,但是從測試集的準確率來看,簡單臨床模型和復雜臨床模型基本一致,說明通過簡單臨床模型也可以發(fā)揮預測作用,方便居民隨時監(jiān)測身體狀況,從而及時預防2型糖尿病的發(fā)生。

圖6 部分復雜臨床模型圖

表1 三種模型的預測結果

(2)采用Kappa檢驗對三個決策樹模型進行一致性分析,其預測分類與實際分類的吻合情況如表2所示。

表2 三種模型的決策樹分類結果

通過比較三種模型的預測分類和實際分類,簡單個人水平模型的Kappa值為0.621,小于0.75,說明該模型的一致性一般。簡單臨床模型的Kappa值為0.964,復雜臨床模型的Kappa值為0.982,均高于0.75,說明兩種模型的一致性較高,預測結果與實際分類基本吻合,模型預測分類效果較佳。

(3)在預測模型的評價過程中,靈敏度、特異度和約登指數(shù)是其中重要的指標,指標越高預示著該模型具有較強的預測判別性能[10]。本研究通過比較三種模型總的預測分類和實際分類,計算三種模型的靈敏度、特異度、錯判率和約登指數(shù)(見表3),比較發(fā)現(xiàn)簡單個人水平模型特異度遠遠高于靈敏度,說明簡單個人水平模型預測非患者的能力遠遠高于預測患者的能力。綜合比較發(fā)現(xiàn),復雜臨床模型的靈敏度和約登指數(shù)均較高,錯判率最低,說明復雜臨床模型的預測性能最好。但在簡單臨床條件下,三種指標已經(jīng)達到了很高的水平,說明在此條件下進行預測和篩查就能達到很好的效果。

表3 三種模型的靈敏度、特異度、錯判率、約登指數(shù)的比較

討 論

糖尿病發(fā)病原因一直是世界糖尿病研究的重要課題。目前,國內(nèi)在糖尿病患病風險預測中使用較多的方法有神經(jīng)網(wǎng)絡預測法、Markov預測法、C 4.5決策樹算法等[10-12]。與國內(nèi)預測方法不同的是,本文將決策樹C 5.0算法應用到2型糖尿病的發(fā)病規(guī)律研究中,根據(jù)不同的預測條件,得出多個決策樹模型。其中與神經(jīng)網(wǎng)絡預測法[10]相比,本文利用決策樹算法建立的模型簡單明了,可以更好地提取發(fā)病規(guī)則;與Markov預測法[11]相比,Markov預測能夠有效地預測2型糖尿病未來幾年內(nèi)的發(fā)病概率,而本文是根據(jù)目前的身體條件,及時準確地預測本人的發(fā)病情況,更具有實效性;與C 4.5決策樹算法[12]相比,本研究加入Boosting技術,提高了模型準確率和分類精度,并指導居民在不同生理水平條件下,做出相應的風險評估,從而為個人自我保健提供準確的指導,同時也為醫(yī)生的臨床診斷提供一定的幫助。從模型中可以明顯看出空腹血糖值、糖尿病家族史、心腦血管既往病史、年齡等因素在2型糖尿病發(fā)病規(guī)律中的重要性。此外,對模型的評估表明,預測的準確性、可靠性以及一致性都比較高,說明該方法的應用為探討不同條件下2型糖尿病的發(fā)病規(guī)律提供了一種新的手段。

由于在Clementine 12.0中沒有編程界面,因此,要獲得理想的預測模型,需要對相關窗口中的參數(shù)反復進行調(diào)整[13]。此外訓練集和測試集的大小,缺失值和不合理數(shù)據(jù)的預處理方法,數(shù)據(jù)庫的質(zhì)量以及模型參數(shù)的調(diào)整,對決策樹模型的穩(wěn)定性和預測效果都有一定的影響。但是由于時間和人力資源有限,所采集的數(shù)據(jù)無法涵蓋研究所需要的所有信息,使得收集和處理過程經(jīng)常脫節(jié)[14],所采集的醫(yī)學數(shù)據(jù)也不是很完整,因此所建立的預測模型還有待進一步完善。本文貢獻在于為不同情況下2型糖尿病患者患病風險提供一種風險預測工具,同時提取出不同情況下影響2型糖尿病發(fā)病的重要因素。相信隨著數(shù)據(jù)挖掘技術的不斷改進,數(shù)據(jù)庫數(shù)據(jù)的不斷擴大,應用C 5.0算法對糖尿病患病風險預測的準確性將不斷增加,從而對糖尿病高危人群的預防和醫(yī)生臨床診斷起到一定的指導和參考作用。

[1]王海鵬.我國診斷糖尿病疾病經(jīng)濟負擔趨勢預測研究.山東大學,2013.

[2]吳雪霽,潘冰瑩,陳雄飛,等.廣州市家系高血壓與2型糖尿病和血脂異常關系的研究.中國熱帶醫(yī)學,2014,14(11):1343-1346.

[3]胡靜,楊亞明,陳凱,等.宜興市居民2型糖尿病危險因素分析.江蘇預防醫(yī)學,2012,23(5):11-12.

[4]劉茂玲,劉禮錦,鄒宇華.2型糖尿病危險因素病例對照研究.華南預防醫(yī)學,2008,34(4):49-52.

[5]鄒宇華,張弛,張冬梅,等.2型糖尿病危險因素的非條件Logistic回歸分析.中國慢性病預防與控制,2004,12(1):12-14.

[6]薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法及應用.電子工業(yè)出版社,2010.

[7]羅森林,成華,張鐵梅,等.多維2型糖尿病實測數(shù)據(jù)的預處理技術.計算機工程,2004,30(17):178-181.

[8]元昌安.數(shù)據(jù)挖掘原理與SPSS Clementine應用寶典.電子工業(yè)出版社,2009.

[9]馬瑾,孫穎,劉尚輝.決策樹模型在住院2型糖尿病患者死因預測中的應用.中國衛(wèi)生統(tǒng)計,2013,30(3):422-423.

[10]郭奕瑞,李玉倩,王高帥,等.人工神經(jīng)網(wǎng)絡模型在2型糖尿病患病風險預測中的應用.鄭州大學學報:醫(yī)學版,2014(2):180-183.

[11]羅森林,郭偉東,張笈,等.基于Markov的Ⅱ型糖尿病預測技術研究.北京理工大學學報,2011,31(12):1414-1418.

[12]羅森林,成華,顧毓清,等.C4.5算法在2型糖尿病分類規(guī)則建立中的應用.計算機應用研究,2004,21(7):174-176.

[13]于長春.決策樹模型在2型糖尿病患者腦梗死風險預測中的應用.中國衛(wèi)生統(tǒng)計,2011,28(6):683-684.

[14]張銘.數(shù)據(jù)挖掘技術及在中醫(yī)藥領域中的應用.全國商情·經(jīng)濟理論研究,2009(18):136-138.

(責任編輯:劉 壯)

2015年河北省研究生創(chuàng)新資助項目(00302-6370027);秦皇島市科技支撐計劃項目(201601B044)

1.河北省秦皇島市燕山大學經(jīng)濟管理學院(066004)

2.河北省秦皇島市中醫(yī)醫(yī)院

3.東華軟件股份有限公司

△通信作者:侯玉梅,E-mail:hym_1220@163.com

猜你喜歡
分類糖尿病模型
一半模型
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: 一级做a爰片久久毛片毛片| 国产91av在线| 激情無極限的亚洲一区免费| 国产女主播一区| 亚洲有无码中文网| 亚洲精品天堂在线观看| 国产亚洲精品97在线观看| 日本精品中文字幕在线不卡| 日韩欧美国产成人| 成人精品亚洲| 亚洲久悠悠色悠在线播放| 国产成人高清精品免费5388| 国产成人综合久久精品尤物| 国产三级国产精品国产普男人 | 欧美性久久久久| 亚洲日韩在线满18点击进入| 2022国产无码在线| 九九热这里只有国产精品| 国产爽歪歪免费视频在线观看 | 日韩黄色大片免费看| 日韩欧美国产中文| 国产精品主播| 重口调教一区二区视频| 99久久99这里只有免费的精品| 无码丝袜人妻| 伦精品一区二区三区视频| 亚洲男女在线| 中文字幕欧美日韩| 91久草视频| 精品人妻一区无码视频| 亚洲欧美日韩成人高清在线一区| 日韩av电影一区二区三区四区| 国产激情在线视频| 日韩第一页在线| 国产99视频精品免费视频7| 国产一区亚洲一区| 国产乱子精品一区二区在线观看| 国产欧美日韩免费| 69视频国产| 亚洲欧洲自拍拍偷午夜色| 啪啪啪亚洲无码| 国产毛片片精品天天看视频| 欧美国产日本高清不卡| 国产精品手机在线观看你懂的| 国产乱码精品一区二区三区中文 | 亚洲精品日产AⅤ| 97精品久久久大香线焦| 日本三级欧美三级| 精品人妻系列无码专区久久| 国产亚卅精品无码| 亚洲一区毛片| 国产亚洲高清视频| 国产成人1024精品| 国产AV无码专区亚洲A∨毛片| 天天色综网| 伊人中文网| 中日无码在线观看| 国产精品无码久久久久AV| 91精品视频播放| 久久性视频| 在线免费观看AV| 日韩小视频在线观看| 亚洲国产精品久久久久秋霞影院| 欧美午夜久久| 国产精品主播| 国产永久无码观看在线| 一本大道香蕉久中文在线播放| 91成人在线观看| 色窝窝免费一区二区三区 | 婷婷伊人久久| 先锋资源久久| 欧洲免费精品视频在线| 国产91熟女高潮一区二区| 亚洲精品动漫| 亚洲AV无码久久精品色欲| 国产免费人成视频网| 色综合狠狠操| 热久久这里是精品6免费观看| 久久精品国产精品青草app| 日韩免费毛片| 日韩美一区二区| 91综合色区亚洲熟妇p|