999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于C4.5分類的呼吸系統疾病危險因素定量分析方法

2016-03-21 11:40:56,,
中華醫學圖書情報雜志 2016年8期
關鍵詞:方法模型

, ,,

隨著環境污染問題日益凸顯,呼吸系統疾病發病人數隨之增加,意味著呼吸系統發病與暴露在環境空氣污染中存在某些關聯,尤其是PM10、二氧化硫(SO2)和二氧化氮(NO2)。如果環境污染問題得以控制,呼吸系統發病率也將隨之降低。

目前,歐洲和北美在這一領域已開展了大量的研究[1]。歐洲空氣污染與健康項目(Air Pollution andHealth: A European Approach,APHEA)研究表明

在溫暖季節中,臭氧濃度每小時增加10μg/m3,這種情況會引起每天死亡人數增加0.33%,心血管疾病死亡人數增加0.45%,呼吸系統疾病死亡人數增加1.13%[2-3]。而且在北美90個大城市開展的NMMAPS(National Morbidity, Mortality, and Air Pollution Study)研究指出,前一天空氣中PM10濃度每增加10μg/m3將導致日死亡率大約增加0.2%[4]。亞洲PAPA(Public Health and Air Pollution in Asia)項目研究表明,采用時間序列方法研究上海2001-2004年4年中室外空氣污染與死亡率的關系[5]。環境污染在不同人群中的影響存在差異性,因此本文的重點是分析在特定人群中引發呼吸系統疾病的危險因素。

在不同的人群中,定量分析各自對應的呼吸系統疾病危險因素和進行重要因素選擇,有利于提升分類準確率。因此本文基于C4.5分類方法分析特定人群的呼吸系統疾病發生的危險因素,其結果可以應用于預防和控制呼吸系統疾病發生。

1 數據來源

本文的數據來自于2009年1月1日至2011年12月31日北京3家大型綜合醫院的135 008例急診、診呼吸系統疾病數據,包括患者就診日期,患者性別、年齡、就診科室、診斷結果及對應的ICD編碼等(表1)。

門診數據資源(均為急診門診的呼吸系統疾病數據)中有76 359例男性數據(占56.56%),58 649例女性數據(占43.44%)。按照性別和年齡劃分的疾病數據資源如表2所示。

表1 門診數據實例

表2 按性別和年齡劃分的急診門診呼吸系統疾病數據資源

從2009年1月1日到2011年12月31日的環境監測數據來自北京環境監測中心,共采集1 095天,主要包括空氣污染物和氣象指標兩部分。其中已監測的空氣污染物包括二氧化氮(NO2)、二氧化硫(SO2)、PM10,氣象指標包括24小時平均溫度、相對濕度、風速、氣壓、日照時長和降水量等(表3)。

表3 環境數據實例

2 方法

本文中的危險因素是指從不同人群的眾多因素中發現引發呼吸系統疾病的重要危險因素。利用急診門診數據和環境記錄數據,確定一種危險因素定量分析方法,采用數據挖掘方法構建算法模型。首先在數據預處理階段將急診門診數據分成兩類(一類是急性上呼吸道感染,另一類是流感、肺炎、慢性下呼吸道疾病等),并采用SMOTE(Synthetic Minority Over-sampling Technique)方法解決數據不平衡問題[6-8],然后將按照性別和年齡全體人群分成9組,再采用C4.5分類算法構建危險因素定量分析模型。整個過程主要包括數據預處理、解決數據不平衡問題、人群劃分和危險因素定量分析四部分。

2.1 數據預處理

2.1.1 數據清洗

由于在門診數據中存在空缺值、噪聲和語義不一致等問題,可能會對實驗結果帶來一些不利影響。本文首先通過填充空缺值、識別孤立點、降噪、糾正不一致數據等逐一進行處理,然后去除重復數據和空缺值過多的因素,最終得到30維135 008條數據資源。這些數據包含疾病情況、患者自身情況(如性別、年齡)和環境因素(如二氧化氮、二氧化硫、PM10、24小時平均氣溫、日最高氣溫、日最低氣溫、相對濕度、風速、日最高風速、日最低風速、氣壓、日平均氣壓、日最高氣壓、日最低氣壓、日照時長、降水量和季節等)。

2.1.2 數據分類

根據患者病情,采用ICD-10編碼對呼吸系統疾病的診斷結果進行編碼,如急性上呼吸道感染(J00-J06)、流感和肺炎(J09-J18)、慢性下呼吸道疾病(J40-J47)等[9]。依據呼吸道系統疾病病理及診斷結果,把本文中急性上呼吸道感染(J00-J06)定義為類型I[10],占整個數據量的87.74%;流感和肺炎(J09-J18)(占5.99%)、慢性下呼吸道疾病(J40-J47)(占4.12%)和其他疾病定義為類型II,共占12.26%。類型I和類型II的比例為7.16:1。因此,類型I類型II間存在數據不平衡問題。

2.2 數據平衡

為了解決數據不平衡問題,本文采用SMOTE采樣方法[6-8]。SMOTE方法是一種改進的采樣方法,通過對少數類樣本的人工合成,來提高少數類樣本所占的比例,從而降低數據集中過度傾斜的問題。文中通過SMOTE方法增加少數類的樣本量,提升分類器的性能,消除或減少少數類的不平衡問題。

比較采用SMOTE方法前后分類器的性能詳見表4。從表4可以看出,采用SMOTE方法之后分類器的性能普遍提升,類型I與類型II的比例基本接近1:1。

表4 采用SMOTE 前后分類器性能對比

注:AUC :ROC曲線下面積,可以直觀的評價分類器好壞,介于0.1~1之間,值越大越好

2.3 人群劃分

為了在不同人群中定量分析危險因素,本文根據性別和年齡將全體人群分成8個子組。并根據C4.5算法原理,距離決策樹根節點越近的因素對急性呼吸系統疾病的影響越大。全體人群決策樹的上半部分如圖1所示,在決策樹中年齡和性別距離根節點最近,且年齡在49歲、11歲和68歲幾個節點處被分開[11-12]。因此我們按性別和年齡將全體人群劃分成8個子組,具體包括年齡>49歲、≤49歲、男性>49歲、女性>49歲、11<男性≤49歲、11<女性≤49歲、男性≤11歲和女性≤11歲,連同全體人群在一起共9組。

圖1 全體人群決策樹的上半部分

2.4 危險因素定量分析

在每組人群中發現的危險因素原理圖如圖2所示,主要包括C4.5模型訓練、危險因素作用程度 (如公式1)計算、作用程度分析3個步驟。

圖2 危險因素定量分析的原理圖

2.4.1 C4.5 模型訓練

由于C4.5算法用信息增益率來選擇重要因素,且在決策樹構造過程中對只有幾個元素的節點采取剪枝處理,避免出現過擬合,同時提升分類準確率。因此文中采用C4.5決策樹算法訓練分類器模型,利用十折交叉法驗證分類器。以>49歲組為例,首先通過訓練集數據訓練C4.5模型,再用十折交叉法驗證,同時分析分類器模型的性能,得到決策樹。利用 Weka 3.5.8軟件訓練分類器模型,訓練參數分別為置信因子0.25,每個節點至少有兩個子節點。類似地,利用全體人群和其他7組子人群分別訓練各自的分類器模型,各組C4.5分類器模型的性能如表5所示。

表5 各組C4.5模型的性能

2.4.2 因素作用程度計算

通過全體人群和8個子組人群分別訓練得到各自決策樹,根據決策樹前4層結構分別計算各個危險因素的作用程度,具體計算公式如公式(1)所示。

其中,L 是某一危險因素位于決策樹第L層,n是該危險因素在第L層出現次數。

2.4.3 作用程度分析

分別對各組人群危險因素的作用程度進行統計分析發現,共有年齡(age)、性別(gender)、二氧化硫(SO2)、二氧化氮(NO2)、PM10、風速(wind speed)、降水量(rainfall)、濕度(humidity)、溫度(temperature)、氣壓(air pressure)、光照時長(sunshine)、季節(season)等12個危險因素出現在9個決策樹的前4層,具體分析結果在結果部分展示。

3 結果

3.1 危險因素作用程度

各組人群危險因素引發急性呼吸系統疾病的作用程度如圖3-圖5所示。

圖3 年齡>49人群環境危險因素作用程度對比結果

圖4 11<年齡≤49人群環境危險因素作用程度對比結果

圖5 年齡≤11人群環境危險因素作用程度對比結果

結合圖3-圖5對不同人群中環境危險因素作用程度進行分析,得到如下結果。一是NO2、PM10和SO2對11<年齡≤49男性的影響要大于11<年齡≤49女性;在11<年齡≤49人群中,NO2和PM10對男性的影響明顯大于女性,這兩種污染物對女性的影響很小;SO2對男性的影響是女性的2倍;日照時長對11<年齡≤49女性的影響較大,而對11<年齡≤49男性基本沒有影響;氣壓對11<年齡≤49女性的影響是11<年齡≤49男性的3倍(圖4)。二是SO2對 >49歲女性的影響遠大于>49歲男性,>49歲男性比>49歲女性更易受NO2和PM10影響 (圖3)。三是日照時長對≤11歲女孩的影響要遠大于≤11歲男孩,但≤11歲男孩比≤11歲女孩更易受NO2的影響(圖5)。四是年齡≤49歲人群比>49歲老年人更容易受空氣污染的影響,尤其是NO2和SO2;NO2對≤49歲人群中的作用程度是>49歲老年人的5倍多;濕度和溫度對>49歲老年人的作用程度比≤49歲要大,但≤49歲人群的影響很小。

3.2 對比分析

為了評價本文中所用分析方法的有效性,采用元分析方法開展對比實驗,元分析方法是該研究領域通常采用的方法[13-15]。同樣利用Weka 3.5.8訓練元分析模型。以全體人群為例,通過元分析模型得到年齡、NO2和降水量是位于前3位引發呼吸系統疾病的危險因素,與C4.5模型前3位危險因素一致。但是該模型的準確率比C4.5模型低12.70%,如表5和表6所示,且ROC曲線下面積AUC值比C4.5模型要小。構建其他子人群的元分析模型,各模型性能如表6所示。

表6 各人群元分析模型的性能表

4 討論

本文定量分析了引發呼吸系統疾病的危險因素,該方法結合不同人群的特征分別給出各自的危險因素,以及這些危險因素對呼吸系統疾病影響程度的排序,并在因素之間進行了定量對比分析,結果可應用于挖掘空氣污染與呼吸系統疾病發生之間的關聯關系,有助于臨床醫生了解暴露于空氣污染環境與呼吸系統疾病就診情況的關系,以制定在不同的環境條件下相應的接診應對措施。

本文采用基于C4.5決策樹的計算方法,以生成決策樹的形式展示分類規則,直觀易于理解,且算法準確率較高。與元分析方法對比分析發現9組人群C4.5模型的準確率都有提升(如表3和表4所示)。但C4.5方法在構造決策樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的計算效率較低。同時本文中按性別和年齡細化人群的方法,對不同人群進行有針對性的定量分析。之前相關研究中普遍使用元分析[16]、時間序列方法[17-18]和病歷交叉方法[19-20],如APHENA(Air Pollution and Health: A Combined European and North American Approach)研究中應用元回歸方法和多城市的時間序列方法研究空氣污染對公眾健康的影響[2,21];Ling Tong采用時間序列分析方法研究空氣污染與心血管疾病發病率的關系[22];Valerie B Haley基于時間分層的病歷交叉方法估計PM2.5的短期影響對美國紐約地區心血管疾病住院人數的影響[23]。

Francesca Dominici等人研究了北美地區空氣中PM10對全人群呼吸系統疾病死亡率的影響[4],Kan H等人研究了上海地區空氣污染與全人群中死亡率的關系[5],本文群在按年齡和性別劃分在人群的基礎上,進一步細化了污染物因素對呼吸系統疾病的影響。

由于從2013年1月1日起,環保部正式將PM2.5列入空氣監測指標中,本文暫未能獲取2009-2011年間PM2.5監測數據,文中未涉及PM2.5的分析。又因急診患者多由短期暴露在空氣污染中引發疾病,本文暫不考慮長期暴露于污染物對慢性病患者的影響,因此空氣污染物累積的長期影響在本文中沒有涉及。患者自身吸煙史、慢性病史等在急診門診中尚未采集,也是本文不足之處。

本文定量分析了不同人群發生呼吸系統疾病的危險因素,但這些危險因素的敏感區間尚未知,如何發現敏感區間是下一步研究的重點。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 色哟哟国产精品一区二区| 经典三级久久| 精品无码专区亚洲| 在线播放精品一区二区啪视频| 欧洲成人免费视频| 日韩精品无码免费专网站| www.狠狠| 精品国产99久久| 国产噜噜噜视频在线观看 | 伊人久久久久久久| 五月婷婷丁香综合| 99re在线免费视频| 亚洲第一页在线观看| 天堂av综合网| 国产91精品久久| 欧美精品成人一区二区在线观看| 在线精品自拍| 国产成人毛片| 在线一级毛片| 日本免费福利视频| JIZZ亚洲国产| 日本精品视频| 亚洲水蜜桃久久综合网站| 欧美在线导航| 国产激情无码一区二区免费| 欧美 亚洲 日韩 国产| 欧美激情网址| 在线va视频| 国产午夜福利片在线观看 | 欧美区一区| 亚洲精品欧美重口| 国产精品香蕉| 免费AV在线播放观看18禁强制| 欧类av怡春院| 国产精品青青| 在线色国产| 九九线精品视频在线观看| 国产亚洲视频在线观看| 2021国产乱人伦在线播放 | 热久久国产| 国产乱人伦偷精品视频AAA| 国产精品亚洲天堂| 国产男人天堂| 久久semm亚洲国产| 都市激情亚洲综合久久| 国产浮力第一页永久地址| 成人在线观看不卡| 国产SUV精品一区二区| 国产手机在线ΑⅤ片无码观看| 99re热精品视频中文字幕不卡| 国产精品九九视频| 熟妇无码人妻| 久青草网站| 国产成年女人特黄特色毛片免 | 国产丝袜91| 国产精品一区二区在线播放| 日韩不卡免费视频| 久996视频精品免费观看| 亚洲无码91视频| 99精品这里只有精品高清视频| 成人福利在线视频| 国产成人综合在线观看| 国产精品密蕾丝视频| 欧美一区二区精品久久久| 久草网视频在线| 视频二区亚洲精品| 色综合五月| 久久久成年黄色视频| 亚洲精品无码AⅤ片青青在线观看| 久久中文无码精品| 无码一区中文字幕| 国产手机在线ΑⅤ片无码观看| 青青操视频免费观看| 国产十八禁在线观看免费| 国产视频自拍一区| 国产91久久久久久| 中国国产高清免费AV片| 老司机精品一区在线视频 | 久久久久青草大香线综合精品| 国产极品嫩模在线观看91| 天天综合网亚洲网站| 一区二区理伦视频|