999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹模型與回歸模型在天津市某區(qū)公務(wù)員健康狀況分析中的應(yīng)用與比較*

2013-12-04 03:00:04魏鳳江李長平宋春華劉媛媛
中國衛(wèi)生統(tǒng)計(jì) 2013年1期
關(guān)鍵詞:分析方法模型

魏鳳江 崔 壯 李長平 宋春華 朱 寶 劉媛媛 馬 駿△

公務(wù)員是國家黨政機(jī)關(guān)管理公共事務(wù)的中堅(jiān)力量,隨著社會(huì)的發(fā)展,工作壓力的增大,其健康狀況越來越受到關(guān)注。logistic回歸是分類數(shù)據(jù)統(tǒng)計(jì)分析的一種重要方法,流行病學(xué)上常用于研究疾病與致病因子間的聯(lián)系,以疾病發(fā)生與否為應(yīng)變量,影響疾病發(fā)生的因子為自變量,估計(jì)各因子的相對(duì)危險(xiǎn)度或比數(shù)比。決策樹是一種非線性的判別分析的方法,是一種類似于流程圖的結(jié)構(gòu)圖,其中,每個(gè)內(nèi)部節(jié)點(diǎn)(非樹節(jié)點(diǎn))表示在一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,而每個(gè)樹葉節(jié)點(diǎn)(或終結(jié)點(diǎn))存放一個(gè)類標(biāo)號(hào)。本研究應(yīng)用SAS 8.2建立logistic回歸模型和決策樹模型對(duì)公務(wù)員健康狀況的預(yù)測(cè)性能進(jìn)行比較分析。

材料與方法

1.調(diào)查對(duì)象 本次調(diào)查對(duì)象為天津市某區(qū)的公務(wù)員,采用整群抽樣的方法,以該區(qū)所有具有公務(wù)員待遇的單位為抽樣群體,抽取民政局(44人)、教育局(66人)、國稅局(131人)、財(cái)政局(66人)、市政公司(160人)、衛(wèi)生防疫站(62人)、法院(99人)、工程管理處(112人)8家單位作為調(diào)查單位,共發(fā)放調(diào)查問卷740份。

2.調(diào)查方法 根據(jù)調(diào)查目的自編“天津市公務(wù)員健康狀況調(diào)查表”,對(duì)天津市公務(wù)員的一般情況、健康狀況、膳食習(xí)慣、生活方式等內(nèi)容進(jìn)行現(xiàn)況調(diào)查。問卷中慢性病主要包括:高血壓、高血脂、脂肪肝、腦血管疾病、糖尿病、慢性阻塞性肺病、哮喘、腎臟疾病、肝臟疾病、惡性腫瘤等〔1-2〕,共計(jì)21 種慢性疾病。

3.信度與效度分析 結(jié)合調(diào)查目的,參考焦慮自評(píng)量表、抑郁自評(píng)量表和心理健康癥狀自評(píng)量表?xiàng)l目?jī)?nèi)容,在調(diào)查表中納入反映亞健康狀況和心理健康狀況各10項(xiàng)條目。亞健康狀況各題賦分方法為一直如此“1分”、經(jīng)?!?分”、有時(shí)“3分”、沒有“4分”;心理健康狀況各題賦分方法為否“1分”、是“2分”。最后將心理健康和亞健康各題相加得到總分。對(duì)心理健康和亞健康問卷部分進(jìn)行信度和結(jié)構(gòu)效度分析。信度分析克朗巴哈系數(shù)為0.80。Kaiser-Meyer-Olkin檢驗(yàn)其值為0.899,Bartlett檢驗(yàn)結(jié)果P<0.01差別有統(tǒng)計(jì)學(xué)意義,說明適合用因子分析方法進(jìn)行結(jié)構(gòu)效度分析。經(jīng)分析提取出的主成分累積方差貢獻(xiàn)率達(dá)到85%,說明對(duì)各個(gè)題目提取的信息較充分,信度與效度符合要求。

4.數(shù)據(jù)整理與分析 采用Epidata 2.0建立數(shù)據(jù)庫,應(yīng)用SAS 8.2 Enterprise Miner模塊建立logistic回歸模型和決策樹模型。

結(jié) 果

1.調(diào)查對(duì)象的一般情況 本調(diào)查共發(fā)放調(diào)查問卷740份,收回720份,回收率為97.3%,有效問卷705份,有效率為97.9%。其中男性公務(wù)員488人占69.2%,女性公務(wù)員217人占30.8%。調(diào)查人群年齡中位數(shù)為45.49歲(P25~P75:38.43~51.85歲)。通過調(diào)查顯示,該區(qū)公務(wù)員總體患病率為47.0%,患病率相對(duì)較高的前四種疾病分別為高血壓(17.87%),高血脂(17.73%),脂肪肝(15.89%),頸、腰椎疾病(12.77%)。

2.影響因素賦值情況 以是否患有高血壓、高血脂、脂肪肝等慢性病為應(yīng)變量,以年齡、性別、體質(zhì)指數(shù)(BMI)、家庭月收入、文化程度、婚姻狀況、吸煙、被動(dòng)吸煙、飲酒、體育鍛煉花費(fèi)時(shí)間、睡眠時(shí)間、按時(shí)吃飯情況、按時(shí)吃早餐情況、公務(wù)員類別、心理健康分值、亞健康分值為自變量,見表1。

3.決策樹模型的建立及結(jié)果 由于本研究樣本量較小,為了充分利用數(shù)據(jù)信息,多方面綜合考慮,采用CHAID方法與CART方法相結(jié)合進(jìn)行建模。對(duì)所選的16個(gè)變量進(jìn)行重要性篩檢,篩檢出在建模過程中用到的變量按重要性由大到小的順序?yàn)?年齡、吸煙、按時(shí)吃飯情況、心理健康分值、體質(zhì)指數(shù)、睡眠時(shí)間、被動(dòng)吸煙、公務(wù)員類別、體育鍛煉花費(fèi)時(shí)間、性別、文化程度、亞健康分值、飲酒。建立的決策樹模型見圖1,決策樹可以生成一些容易理解的規(guī)則,在樹狀圖中可以給出作為每一次分支的變量和變量的測(cè)試,如是否吸煙、年齡的大小等。同時(shí),在每一個(gè)節(jié)點(diǎn)上會(huì)列出相應(yīng)的患病人數(shù)和正常人數(shù),并計(jì)算出相應(yīng)的患病率和未患病率。例如,在本研究中,如果年齡小于41.9411歲,并且能夠按時(shí)吃飯,并且不吸煙者,那么他患病的概率只有7.5%。

表1 天津市某區(qū)公務(wù)員健康狀況影響因素的賦值

圖1 決策樹模型生成的樹形圖

4.logistic回歸模型分析結(jié)果 本文應(yīng)用逐步選擇法對(duì)方程中引入的變量進(jìn)行篩檢,建立的方程中共有影響因素12個(gè),根據(jù)回歸系數(shù)值可知:年齡、體質(zhì)指數(shù)、吸煙、被動(dòng)吸煙、飲酒、按時(shí)吃飯情況、文化程度、婚姻狀況、心理健康分值是患病與否的危險(xiǎn)因素;睡眠時(shí)間、體育鍛煉花費(fèi)時(shí)間、亞健康分值為患病與否的保護(hù)性因素。結(jié)果見表2。

5.決策樹和logistic回歸模型比較

接受者工作特征曲線(receiver operating characteristic):簡(jiǎn)稱ROC曲線。評(píng)價(jià)一種診斷技術(shù)的傳統(tǒng)方法是使用靈敏度、特異度、準(zhǔn)確率等指標(biāo)。但這些指標(biāo)受到診斷界點(diǎn)的影響,難以反映診斷方法的優(yōu)劣。為了更全面地評(píng)價(jià)診斷方法的診斷價(jià)值,必須考慮各種可能的診斷界點(diǎn)。而ROC曲線可通過改變?cè)\斷界點(diǎn),將靈敏度和特異度結(jié)合起來,通過計(jì)算ROC曲線下面積(AUC),根據(jù)曲線的形狀和面積對(duì)診斷技術(shù)做出定量分析,總體評(píng)價(jià)診斷的準(zhǔn)確性。因此在本研究中評(píng)價(jià)模型泛化的性能時(shí)采用ROC面積作為評(píng)價(jià)兩種模型預(yù)測(cè)性能的指標(biāo)。目前ROC分析已經(jīng)成為廣泛應(yīng)用于臨床診斷和人群篩檢研究的一種統(tǒng)計(jì)方法〔3-4〕。ROC曲線最佳工作點(diǎn)的確定:一個(gè)診斷系統(tǒng)中,同時(shí)使用誤診率和漏診率較小,特異度和靈敏度同時(shí)最大的臨界點(diǎn)即為最佳工作點(diǎn)。本研究采用較常用的做法,選取使Youden指數(shù)最大的那一點(diǎn)〔5〕作為最佳工作點(diǎn)。

本文建立的兩種模型ROC曲線下面積:logistic模型為0.8706(95%CI:0.8431~0.8982),準(zhǔn)確度為78.8%;決策樹模型為 0.8881(95%CI:0.8643~0.9119),準(zhǔn)確度為80%。對(duì)二者ROC曲線面積進(jìn)行假設(shè)檢驗(yàn)差別無統(tǒng)計(jì)學(xué)意義(χ2=1.6073,P=0.2049)。兩種模型ROC曲線下面積比較見圖2。

表2 非條件logistic回歸分析結(jié)果

圖2 兩種模型ROC曲線下面積圖

討 論

1.健康狀況的影響因素分析

本研究結(jié)果顯示,該區(qū)公務(wù)員人群健康狀況不容樂觀,一些常見慢性病患病率較高,如高血壓,脂肪肝,頸、腰椎病等疾病患病率均高于普通人群。對(duì)健康狀況影響因素進(jìn)行分析,年齡、體質(zhì)指數(shù)、吸煙、被動(dòng)吸煙、飲酒、按時(shí)吃飯情況、文化程度、婚姻狀況、心理健康分值是患病與否的危險(xiǎn)因素;睡眠時(shí)間、體育鍛煉花費(fèi)時(shí)間、亞健康分值為患病與否的保護(hù)性因素,這與其他健康相關(guān)影響因素研究報(bào)道的結(jié)果相一致〔6-9〕。

2.決策樹和logistic回歸模型比較

兩種模型對(duì)數(shù)據(jù)的要求不同:進(jìn)行分析時(shí),決策樹模型對(duì)變量量綱的差異、離群值的存在以及有偏分布不太敏感,也就是說對(duì)數(shù)據(jù)準(zhǔn)備要求不高。決策樹為確定某一事例類別的序貫決策方法提供了清晰的陳述,一棵小的具有簡(jiǎn)單檢驗(yàn)的決策樹是最受歡迎的,因?yàn)槿藗兒苋菀桌斫庥伤鼘?dǎo)出的規(guī)則〔10〕。但有些情況下決策樹模型處理數(shù)值型輸入變量的方式會(huì)造成一些有價(jià)值信息的損失和破壞。而logistic回歸分析要求因變量滿足獨(dú)立性,且原因變量與logitP的關(guān)系是線性等。

對(duì)數(shù)據(jù)量的要求不同:當(dāng)每一類的訓(xùn)練樣本數(shù)較小時(shí),決策樹模型容易出錯(cuò),且決策樹模型對(duì)輸出結(jié)果的密度很敏感。有的研究表明〔11〕,logistic回歸模型樣本量選擇中,當(dāng)各組樣本含量大于原因變量數(shù)的20倍時(shí),參數(shù)估計(jì)的偏差是可以接受的。模型的應(yīng)用不同:因?yàn)闆Q策樹模型方法能產(chǎn)生一些可以理解的規(guī)則所以經(jīng)常被選用。對(duì)于某一個(gè)已經(jīng)分過類的記錄來說,只要簡(jiǎn)單地沿著從根到葉的路徑走就可以了;另外,決策樹模型建立的模型是把最勝任的拆分變量放在樹的根節(jié)點(diǎn),因此在進(jìn)行預(yù)測(cè)時(shí),很容易發(fā)現(xiàn)哪些變量最勝任預(yù)測(cè)工作,可為logistic回歸模型進(jìn)行變量篩選和決策時(shí)提供指導(dǎo)。logistic回歸模型的回歸系數(shù)具有可解釋性,在流行病學(xué)研究中,常采用一些危險(xiǎn)度指標(biāo)(如暴露優(yōu)勢(shì)比、相對(duì)危險(xiǎn)度等)來衡量因素與發(fā)病(或死亡)的聯(lián)系程度或?qū)θ巳喊l(fā)病的致病作用的大小,這些危險(xiǎn)度指標(biāo)可通過logistic回歸模型的回歸系數(shù)求得。

3.對(duì)logistic回歸、決策樹模型比較結(jié)果的分析

在本次研究中,對(duì)兩種模型的準(zhǔn)確度和ROC曲線下面積比較,決策樹模型的分析結(jié)果均略高于logistic回歸分析的結(jié)果,但差別無統(tǒng)計(jì)學(xué)意義。產(chǎn)生這種結(jié)果的原因主要是數(shù)據(jù)特點(diǎn)決定的。本文針對(duì)的是小樣本,而我們本次研究的數(shù)據(jù),原因變量與結(jié)果變量之間的線性關(guān)系的偏離程度不大,導(dǎo)致了兩種模型結(jié)果差別不大,但隨著樣本量的增加,原因變量與結(jié)果變量之間的線性關(guān)系的偏離程度就會(huì)變大,原因變量與logitP的線性關(guān)系變?nèi)酰敲礇Q策樹模型的優(yōu)越性會(huì)更好的體現(xiàn)出來。

目前普遍認(rèn)為不存在某種方法能適合于任何特點(diǎn)的數(shù)據(jù)。由于數(shù)據(jù)內(nèi)部變量間關(guān)系錯(cuò)綜復(fù)雜,建立的模型之間存在不同的差異是肯定的。只要明確了試驗(yàn)設(shè)計(jì)類型、研究目的、各種建模方法特點(diǎn)等,將不同的建模方法的結(jié)果進(jìn)行合理的比較,挑選出較優(yōu)的模型是完全可能的。當(dāng)對(duì)數(shù)據(jù)進(jìn)行分析時(shí),如想要建立起預(yù)測(cè)模型時(shí),可選擇的方法有很多種,應(yīng)根據(jù)實(shí)際情況對(duì)數(shù)據(jù)嘗試用不同的方法建立起模型,必要時(shí)可將不同的建模技術(shù)相結(jié)合,例如當(dāng)遇到的數(shù)據(jù)量大、涉及到的變量多時(shí),變量之間的關(guān)系有可能會(huì)錯(cuò)綜復(fù)雜,可先用決策樹模型模型進(jìn)行變量的挑選,生成一些規(guī)則便于發(fā)現(xiàn)變量間的交互作用等,將變量挑選后的結(jié)果進(jìn)行下一步logistic回歸等的建模過程;如果變量較少,且原因變量與logitP的線性關(guān)系較好,進(jìn)行危險(xiǎn)因素分析時(shí)可以直接選用logistic回歸分析即可。

1.趙艷芳,王睿,閻小妍,等.上海居民慢性病與生命質(zhì)量關(guān)系的研究.中國衛(wèi)生統(tǒng)計(jì),2010,27(1):28-34.

2.陳海光,楊清萍,楊愛紅.老年慢性病住院患者調(diào)查分析.中國衛(wèi)生統(tǒng)計(jì),2007,24(1):99-100.

3.喬友林,侯俊,楊玲,等.我國太行山高發(fā)區(qū)食管癌流行趨勢(shì)及防治策略.中國醫(yī)學(xué)科學(xué)院報(bào),2001,23(1):10-14.

4.黃俊,周申范,唐婉瑩.TNT生化降解時(shí)間序列人工神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)模型.環(huán)境科學(xué)研究,2000,13(2):3-5.

5.陳衛(wèi)中,潘曉平,宋興勃,等.ROC曲線中最佳工作點(diǎn)的選擇.中國衛(wèi)生統(tǒng)計(jì),2006,23:157-158.

6.黃昌華,孫仕強(qiáng),付孟清,等.深圳市公務(wù)員BMI與高血壓、高膽固醇、高血糖關(guān)系.中國熱帶醫(yī)學(xué),2005,5(6):1369-1370.

7.Perlstein TS,Lee RT.Smoking,metalloproteinase,and vascular disease.Arterioscler Thromb Vasc Biol,2006,26:250-256.

8.Bjartveit K,Tverdal A.Health consequences of smoking 1-4 cigarettes per day.Tobacco Control,2005,14:15-320.

9.Taylor R,Najafi F,Dobson A.Meta-analysis of studies of passive smoking and lung cancer:effects of study type and Continent.International Journal of Epidemiology,2007,36:1048-1059.

10.張洋,陳培友.基于粗糙集理論的決策樹方法在貸款客戶信用評(píng)估中的應(yīng)用.科技和產(chǎn)業(yè),2008,8(1):57-60.

11.陳峰.醫(yī)用多元統(tǒng)計(jì)分析方法.北京:中國統(tǒng)計(jì)出版社,2001:83-111.

猜你喜歡
分析方法模型
一半模型
隱蔽失效適航要求符合性驗(yàn)證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久久久夜色精品波多野结衣| 日韩欧美色综合| 亚洲视频二| 日韩欧美国产另类| 麻豆精品在线播放| 欧洲一区二区三区无码| 99视频在线观看免费| 亚洲综合片| 欧美一级大片在线观看| 永久免费av网站可以直接看的 | 在线色国产| 77777亚洲午夜久久多人| 五月婷婷导航| 日韩免费成人| www.av男人.com| 视频二区亚洲精品| 国产精品无码影视久久久久久久| 国产精品网址你懂的| 国产一区二区精品福利| 中文字幕乱码二三区免费| 日本不卡在线播放| 亚洲国产在一区二区三区| 国产精品刺激对白在线| 欧美日本在线一区二区三区| 国产日韩欧美精品区性色| 高清乱码精品福利在线视频| 国产va欧美va在线观看| 青青青国产视频| 亚洲精品黄| 国产夜色视频| 亚洲成a∧人片在线观看无码| 精品丝袜美腿国产一区| 亚洲日韩日本中文在线| 99性视频| 欧美日韩亚洲综合在线观看| 亚洲av综合网| 欧美在线精品怡红院| 久久视精品| 亚洲无码熟妇人妻AV在线| 波多野结衣AV无码久久一区| 久久一日本道色综合久久| 中文毛片无遮挡播放免费| 她的性爱视频| 成人欧美在线观看| 婷婷激情亚洲| 老司机久久99久久精品播放| 欧美日本二区| 91福利一区二区三区| 亚洲日韩每日更新| 国产综合亚洲欧洲区精品无码| 亚洲无码高清免费视频亚洲 | AV不卡无码免费一区二区三区| 日韩av电影一区二区三区四区 | 午夜a视频| 伊人福利视频| 国产精品免费露脸视频| 国产人人射| 国产高清免费午夜在线视频| 99这里只有精品免费视频| 九九九精品成人免费视频7| 色婷婷视频在线| 91视频青青草| 亚洲精品第一页不卡| 热99精品视频| 久久黄色视频影| 特级做a爰片毛片免费69| 久久精品日日躁夜夜躁欧美| 国产精品吹潮在线观看中文| 无码粉嫩虎白一线天在线观看| 国产v精品成人免费视频71pao| 久久熟女AV| 欧美一级专区免费大片| 五月综合色婷婷| 制服丝袜 91视频| 日本免费一级视频| 亚洲 成人国产| 精品国产中文一级毛片在线看 | 国产www网站| 日韩在线网址| 国产粉嫩粉嫩的18在线播放91| 国产激情无码一区二区三区免费| 久久精品丝袜|