999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹算法在老年性癡呆病因病機分析中的應用

2013-04-23 05:16:54山西中醫學院醫藥管理學院
電子世界 2013年2期
關鍵詞:分類模型

山西中醫學院醫藥管理學院 楊 婕

老年性癡呆,又叫阿爾茨海默病(Alzheimer’s Disease,AD)是一種多發于老年人的神經退行性疾病,臨床特征主要有知功能障礙和記憶損害。據報道,老年期癡呆中AD是全世界最致殘和最累贅的疾病之一[1],除了脊髓損傷和晚期癌癥以外,AD致殘加權顯著高于任何其他健康情況[2],但目前為止AD的早期防治卻難以落實。這主要是因為其發病的特殊性,且存在地域性差異,而以往研究又缺乏對AD證候類型、證候診斷的統一標準,所以想要研究AD的病因和發病機制就頗有難度。

如何對AD的中醫病因進行科學分類和識別,進而總結提煉歸類出可疑癡呆及確診癡呆各自不同期的中醫病機演化規律、致病危險因素以及證候類型的分布規律,已成為AD的有效防治迫切需要解決的問題。

本文的主要工作就是深入研究決策樹C5.0算法,并利用太原市迎澤區、萬柏林區、杏花嶺區三個市區共計1500條數據進行多次實驗,根據結果的準確性不斷修正算法,最后得到老年性癡呆病因病機的分析模型,用來對太原市人口數據進行患病預測。

1.決策樹C5.0算法

決策樹(Decision Tree)算法是使用最為廣泛的分類預測方法之一,可實現數據內在規律的探究和新數據對象的分類預測。它既可以處理例如“年齡”、“家庭收入”等數值型數據,又很擅長處理如“受教育程度”、“家族遺傳史”等非數值型數據,避免了許多數據預處理工作,因此非常適合于研究中醫病因分析。

決策樹的概念最早出現在CLS(Concept learning system)中,它是由Hunt等人在1996年提出的[3]。現在很多算法都是CLS算法的改進,最經典的算法之一便是C5.0算法。該算法通過計算輸入變量的信息增益率確定最佳分組變量和分割點。

將輸出變量作為信息源發出的信息U,輸入變量看成信宿接收到的一系列信息V。其信息增益為:

Gains( U ,V)=Ent(U)-Ent(U|V)

Ent( U )是平均不確定性:

Ent( U |V)是條件熵:

C5.0根據能夠帶來最大信息增益的字段拆分樣本。第一次拆分確定的樣本子集隨后再根據另一個字段進行拆分,直到樣本子集不能再拆分為止。最后檢驗最低層次的拆分,采用后修剪法從葉節點向上逐層判斷錯誤率,剔除或者修建對沒有顯著貢獻的樣本子集。

2.基于決策樹C5.0算法的老年性癡呆病因病機預測模型

2.1 數據收集

本文采用流行學的方法在太原市迎澤區、萬柏林區、杏花嶺區三個市區的醫院和社保中心進行調查,收集共計1500條有效信息作為數據集合。其中每條記錄由23個字段組成。其中前22個字段是對調研者信息的描述,包括:id、性別、年齡、民族、職業、文化程度、婚姻狀況、居住方式、飲食偏嗜、是否飲酒、是否吸煙、是否癡呆、有無腦血管意外、有無帕金森病、有無精神疾患、有無心血管疾病、有無神經系統疾病、有無呼吸系統疾病、有無消化系統疾病、有無內分泌系統疾病、有無血液系統疾病、有無其他系統疾病。最后一個字段是對調研者是否患病的判斷,分為:“老年性癡呆(AD)”、“血管性癡呆(VD)”、“混合型癡呆(MD)”和“未患病”四個類別。我們對前22字段進行了分類,如表1所示。

這22個字段是除了id字段,其他都是現代醫學的高危因素。在模型建立初期,我們先將其都納入分析體系中,作為輸入變量。

表1 樣本字段分類

表2 各樣本中患病情況比率

表3 第一層節點各字段信息增益

表4 初次建模分類結果的正確率

表5 初次建模分類結果與字段病型重合矩陣(行表示實際值)

我們對1500條樣本記錄進行分區處理,隨機抽取約80%(1191條)作為訓練樣本,約20%(309條)作為測試樣本。分區后,總樣本、訓練樣本和測試樣本中患病情況的分布如表2。

2.2 數據處理

對已采集到的樣本數據進行預處理,除噪、除冗余以及連續型屬性概化為區間,我們將其儲存到計算機之中,得到最終用于建模的樣本數據集合。

2.3 初步構建決策樹

數據數理完畢后開始構建決策樹。首先將輸出變量(病型)看成是發出信息的U,共計1191條數據,AD有117條,VD有109條,MD有18條,未患病947條,所以其平均不確定性為

之后分別計算除id之外其他字段的條件熵。以T2(性別)為例,分類有2個,其中男性580條,AD有46條,VD有53條,MD有8條,未患病472條;女性611條,AD有71條,VD有55條,MD有10條,未患病475條,所以條件熵為:

于是T2的信息增益為:

Gains(U,T2)=Ent(U)-Ent(U|T2)=0.999-0.996=0.003

以此類推,分別計算其他20個字段的信息增益,具體信息增益見表3。

發現最大的為飲食偏嗜,說明該字段消除信源的平均不確定性最強,因此選用它作為最佳分組變量。由于該變量為分類型變量,所以按照其取值,分為6組,形成決策樹除根節點外的第一層,是一個六叉樹。之后重復上面的過程,形成一棵決策樹。

決策樹構建之后,為了避免該決策樹與訓練樣本的過度擬合,開始對其修剪。修剪方法是從葉節點向上逐層計算節點的真實誤差的估計上限ei。

如果葉節點的誤差估計大于父節點的誤差估計,則剪掉該葉節點。由于數據龐大,在這里我們借助Clementine12.0完成決策樹的構建。對初次形成的決策樹進行評估分析,具體數據見表4,表5。

從上表的數據可以看出,對已患病的數據錯判率較高,為了便于實際中為預防AD的發生,我們通過調整參數對決策樹進行修正。

2.4 決策樹的修正

為了保證該模型能有效監控AD的發生,我們在誤判成本中,考慮盡量避免將AD判為其他取值。

同時為了更好的反應數據規律,減少預測結論的偏差,我們采用Boosting技術對現有訓練樣本反復抽樣以增加樣本集。在這里我們迭代了5次,也就是建立了5個模型。之后對這5個模型進行投票,計算其權數的總和。總和最高的就是決策樹的最終分類結果。

2.5 最終結果及分析

經過參數修正,我們從5個模型中選取權數和最大(91.27%)的一個模型最為最終結果。對其進行評估分析,得到表6,表7。

從表6和表7中的數據可以看出,最終的模型總正確率和錯誤率與初次建模的結果基本一致,但是對于患病的判斷率明顯提高,這符合我們建立模型的初衷。

3.結論

本文介紹了C5.0算法構建決策樹的方法,并利用該算法對老年性癡呆建立判斷模型,之后用太原市迎澤區、萬柏林區、杏花嶺區三個市區的醫院和社保中心共計1500條數據進行驗證。通過剪枝、損失成本矩陣和Boosting技術對得到的模型進行修正,最終得到可信度較高,并具有風險成本低的模型。這說明決策樹C5.0算法建立的老年性癡呆判斷模型對實際分析具有一定的指導意義,能夠為預防老年性癡呆的發生提供決策支持。

表6 最終模型分類結果的正確率

表7最終模型分類結果與字段病型重合矩陣(行表示實際值)

[1]田金洲,時晶,苗迎春等.阿爾茨海默病的流行病學特點及其對公共衛生觀念的影響[J].湖北中醫學院學報,2009,11(1):3-7.

[2]WorldHealth Organization.WorldHealth Report2003-Shaping the future[J].Geneva:WHO,2003.

[3]季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣場,2007(1):9-12.

[4]郭蕾,王永炎,張俊龍,等.關于證候因素的討論[J].中國中西醫結合雜志,2004,24(7):643-644.

[5]Quinlan J R."C5"[J]-http://rulequest.com 2007.

[6]Rastogi R;Shim K Public:A decision tree classi fi er that integrates building and pruning[J].1998.

[7]張偉,張素貞.粗糙決策樹生成方法及應用[C].1999.

[8]石金彥,李旻辰,海燕.基于決策樹的數據挖掘方法在故障診斷中的應用[J].水利電力機械,2006,28(4).

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 永久毛片在线播| 色婷婷在线影院| a国产精品| 亚洲精品无码AⅤ片青青在线观看| 91精品国产91欠久久久久| 国产欧美又粗又猛又爽老| 毛片网站在线看| 国产综合网站| 一区二区日韩国产精久久| 人妻21p大胆| 日本成人在线不卡视频| 亚洲 日韩 激情 无码 中出| 国产成人精品视频一区视频二区| 91丨九色丨首页在线播放 | h视频在线播放| 久久伊伊香蕉综合精品| 久久9966精品国产免费| 亚洲毛片一级带毛片基地| 999在线免费视频| 亚洲视频在线青青| 午夜啪啪网| 国产爽妇精品| 91麻豆国产在线| 99热这里只有成人精品国产| 国产福利2021最新在线观看| 91亚洲免费| 2020久久国产综合精品swag| 五月天香蕉视频国产亚| 喷潮白浆直流在线播放| 精品综合久久久久久97| 精品无码国产一区二区三区AV| 欧美高清日韩| 日日噜噜夜夜狠狠视频| 亚洲开心婷婷中文字幕| 国产91全国探花系列在线播放| 亚洲大尺度在线| 久久亚洲日本不卡一区二区| 亚洲成肉网| 尤物国产在线| 青青久视频| 人妻精品久久无码区| 四虎免费视频网站| 99精品国产自在现线观看| 一级高清毛片免费a级高清毛片| AV在线麻免费观看网站| 99久久国产综合精品2023| 最新国产你懂的在线网址| 美美女高清毛片视频免费观看| 久久影院一区二区h| 国产日韩欧美视频| 婷婷六月综合网| 国产欧美日韩va另类在线播放| 国内毛片视频| 国产精品免费p区| 免费国产小视频在线观看| 在线欧美一区| 伊人久久精品无码麻豆精品| 九九久久精品免费观看| 五月天久久综合| 亚洲综合在线最大成人| 亚洲午夜久久久精品电影院| 色老头综合网| 国产高清无码第一十页在线观看| 中文字幕亚洲精品2页| 狠狠色噜噜狠狠狠狠奇米777| 91精品最新国内在线播放| 欧美综合区自拍亚洲综合绿色| 国产后式a一视频| 欧美黄色a| 一级全黄毛片| 黄色网站在线观看无码| 无码福利日韩神码福利片| 91无码人妻精品一区二区蜜桃| 久视频免费精品6| a在线观看免费| 日韩av无码DVD| 91精品视频播放| 国产一区在线视频观看| 中文无码伦av中文字幕| 亚洲一区二区成人| 国产99在线| 成人av手机在线观看|