崔夢晶,郭海健,李洋,曲晨,陳宇,胡潔,龐媛媛,李小寧,張徐軍
(1.東南大學 公共衛(wèi)生學院,江蘇 南京 210009;2.江蘇省疾病預防控制中心 健康教育所,江蘇 南京 210009)
?
·論 著·
應用分類與回歸樹篩選慢性非傳染性疾病健康素養(yǎng)影響因素的研究
崔夢晶1,郭海健2,李洋1,曲晨2,陳宇1,胡潔1,龐媛媛1,李小寧2,張徐軍1
(1.東南大學 公共衛(wèi)生學院,江蘇 南京 210009;2.江蘇省疾病預防控制中心 健康教育所,江蘇 南京 210009)
目的:探討分類與回歸樹(C&RT)在篩選慢性非傳染性疾病健康素養(yǎng)相關(guān)影響因素中的應用。方法:收集2013年宿遷市105例慢性病患者組成病例組,對地區(qū)、年齡、性別進行成組匹配選取210例非慢性病患者組成對照組。結(jié)果:分類樹模型從納入慢性病健康素養(yǎng)相關(guān)的19個變量中篩選出就醫(yī)行為素養(yǎng)、運動素養(yǎng)、對健康的理解素養(yǎng)、心理調(diào)節(jié)素養(yǎng)、家庭年收入、BMI值是否正常以及成癮行為素養(yǎng)等7個有統(tǒng)計學意義的影響因素,并且說明了不同人群各自的影響因素。模型的錯分概率Risk值為0.270,ROC下曲線面積為0.763,模型擬合效果較好。結(jié)論:應用分類與回歸樹能較好地篩選出慢性病健康素養(yǎng)影響因素,同時能顯示變量之間的相互作用,還可以研究變量科學定義分界點。
分類樹;分類與回歸樹;慢性非傳染性疾病;健康素養(yǎng)
世界衛(wèi)生組織(WHO)報告指出,2008年全球約有3 610萬人(占總死亡人數(shù)的63%)死于慢性病,其中80%發(fā)生在中低收入國家[1-3]。2012年,我國已有超過2.6億的慢性病患者,慢性病導致的死亡占總死亡人數(shù)的85%[4]。慢性病的患病率和死亡率逐年增高且增長快速。因此,慢性病作為全球性重要的公共衛(wèi)生問題不容忽視[5]。然而,我們可以采取有效的措施遏制這種增長[6]。個人健康觀念和生活行為習慣是慢性病發(fā)生的重要影響因素,因此在防治慢性病的過程中,患者的主動參與以及自我管理十分必要,而患者的健康素養(yǎng)水平對治療效果有著關(guān)鍵性的作用[7]。健康素養(yǎng)是指在衛(wèi)生保健環(huán)境下完成基本的閱讀和計算的能力,以及個人獲得和理解健康信息,并運用這些信息維護和促進自身健康的能力[8]。健康素養(yǎng)的高低在一定程度上影響著健康行為[9]。提高居民慢性病健康素養(yǎng),不但有利于遏制我國慢性病發(fā)病率快速上升的趨勢,也可以有效地改善慢性病患者的不良健康結(jié)局[10]。本研究通過分類與回歸樹(classification and regression tree,C&RT)算法分析慢性病健康素養(yǎng)影響因素,為提高慢性病患者的健康素養(yǎng)、降低慢性病發(fā)病率、改善慢性病患者健康結(jié)局提供依據(jù)。
C&RT由Brieman等在1984年提出[11]。此法屬于非參數(shù)分類和回歸方法,構(gòu)建二叉樹的過程包括構(gòu)建樹—修剪樹—評估樹。若因變量為連續(xù)變量,則生成回歸樹;若因變量為分類變量,則生成分類樹。
1.1 模型的構(gòu)建
1.1.1 樹的生長及變量處理
1.1.1.1 連續(xù)型變量 首先對變量的值按照從小到大的順序排列,然后計算每個值作為臨界點所產(chǎn)生的子節(jié)點的異質(zhì)性統(tǒng)計量。目標值為最終葉子的均值或者中位數(shù)。
1.1.1.2 分類型變量 首先列出變量兩兩組合的所有可能性,然后計算每種組合下所生成子節(jié)點的異質(zhì)性。目標值為最終葉子中概率最大的類。
1.1.2 分支變量及拆分點的選擇
分類樹最終結(jié)果是使樹形模型中每一個葉節(jié)點成為純節(jié)點或者差異很小。對于分類樹,判斷指標有Gini指標(Gini值越小數(shù)據(jù)越純)、Twoing指標、Order Twoing等;對于回歸樹,判斷指標有最小平方殘差(使組內(nèi)方差最小,組間方差最大)、最小絕對殘差等。通過以上指標,分別計算每個變量的各種切分/組合情況,找出該變量的最佳值組合/切分點;再比較各個變量的最佳值組合/切分點,最終找出最佳變量和該變量的最佳值組合/切分點。
1.2 樹的修剪
1.2.1 前剪枝(pre-pruning)
為了防止分類樹的過度擬合,可通過設(shè)定樹的深度以及節(jié)點中的樣本個數(shù)來停止樹的構(gòu)造,從而對樹進行剪枝。
1.2.2 后剪枝(post-pruning)
構(gòu)造完整的決策樹之后,采用代價-復雜度剪枝法(cost-complexity pruning)自下而上逐層進行剪枝。代價(cost)主要指樣本錯分率;復雜度(complexity)主要指樹的葉節(jié)點數(shù)。此法同時度量錯分風險和樹的復雜程度,使兩者越小越好。
1.3 模型評價
1.3.1 錯分概率Risk統(tǒng)計量
利用測試樣本數(shù)據(jù)選擇出平均錯分代價最小的子樹,主要方法有兩種:測試樣本評估法(test sample estimates)和交叉驗證評估法(cross-validation estimates)。
1.3.2 受試者工作特征曲線(receiver operating characteristic curve,簡稱ROC曲線)
ROC曲線的橫坐標為假陽性率(1-特異度),縱坐標為真陽性率(靈敏度),根據(jù)計算出的ROC曲線下面積說明模型的預測價值。
以下應用江蘇省宿遷市健康素養(yǎng)調(diào)查數(shù)據(jù)為例,介紹C&RT算法建立分類樹模型并對其進行評價。
2.1 對象與方法
2.1.1 調(diào)查對象
江蘇省宿遷市15~69歲居住≥6個月的居民。
2.1.2 調(diào)查方法
采用分層整群隨機抽樣法,抽取宿遷市的2個區(qū),共調(diào)查930人,由經(jīng)統(tǒng)一培訓并考試合格的調(diào)查員在社區(qū)工作人員的陪同下進行入戶調(diào)查。
2.1.3 調(diào)查內(nèi)容
采用《全國居民健康素養(yǎng)監(jiān)測調(diào)查問卷》,問卷內(nèi)容包括基本知識和理念、健康生活方式與行為以及基本技能3個方面。慢性病定義為由醫(yī)療機構(gòu)確診的高血壓、糖尿病、腦血管病、慢性阻塞性肺病等疾病。具備健康素養(yǎng)定義為答題正確率80%及以上。
2.1.4 統(tǒng)計方法
用EpiData 3.1軟件建立數(shù)據(jù)庫并進行數(shù)據(jù)錄入,用SPSS 18.0統(tǒng)計軟件進行統(tǒng)計分析。105例慢性病患者組成病例組;采用單純隨機抽樣技術(shù),從數(shù)據(jù)庫中按照地區(qū)、性別、年齡進行成組匹配(P>0.05),抽取210例非慢性病患者組成對照組。建立分類樹模型并計算ROC曲線下面積。
2.2 分類樹模型建立
2.2.1 模型構(gòu)建參數(shù)
采用Gini指標;最大生長深度設(shè)置為8;父節(jié)點和子節(jié)點中的最小樣本含量分別為40和20。變量設(shè)置如下:(1) 因變量:是否患有慢性病(1=患有慢性病,0=未患慢性病);(2) 自變量(19個):對健康的理解素養(yǎng)、運動素養(yǎng)、個人衛(wèi)生習慣素養(yǎng)、健康相關(guān)態(tài)度素養(yǎng)、成癮行為素養(yǎng)、生理衛(wèi)生常識素養(yǎng)、心理調(diào)節(jié)素養(yǎng)、慢性病相關(guān)知識素養(yǎng)、保健與康復素養(yǎng)、理解溝通能力素養(yǎng)、法規(guī)政策素養(yǎng)、自我保健技能素養(yǎng)、營養(yǎng)與膳食素養(yǎng)、利用基本公共衛(wèi)生服務的能力素養(yǎng)、獲取信息能力素養(yǎng)、就醫(yī)行為素養(yǎng)等(1為具備健康素養(yǎng),0為不具備健康素養(yǎng))、BMI是否正常(1為正常,0為不正常)、文化程度(1為小學及以下,2為初中,3為高中,4為大專/本科及以上)以及家庭年收入(1為0~9 999元,2為10 000~49 999元,3為50 000~99 999元,4為≥100 000元)。
2.2.2 模型結(jié)果解釋
根據(jù)上述模型參數(shù)的構(gòu)建,所建立的分類樹模型共包含4層,16個節(jié)點。該模型共篩選出7個解釋變量。
從分類樹模型圖中可見,樹形結(jié)構(gòu)的第1層是對就醫(yī)行為素養(yǎng)進行拆分的,所以就醫(yī)行為素養(yǎng)是慢性病發(fā)病的重要影響因素。不具備正確就醫(yī)行為素養(yǎng)的人群慢性病發(fā)病率為48.4%,約為具備正確就醫(yī)行為素養(yǎng)人群的2.5倍。影響不同就醫(yī)行為素養(yǎng)人群的慢性病健康素養(yǎng)因素各不相同。在不具備正確就醫(yī)行為素養(yǎng)的人群中,運動素養(yǎng)成為主要影響因素,具備運動素養(yǎng)人群慢性病的發(fā)病率(13.2%)顯著低于不具備運動素養(yǎng)人群(30.4%),說明具備運動素養(yǎng)是慢性病發(fā)病的保護因素。而在具備正確就醫(yī)行為素養(yǎng)的人群中,篩選出的主要影響因素為對健康的理解素養(yǎng)。不具備對健康的理解素養(yǎng)人群會增加慢性病的發(fā)生率。隨后,不具備心里調(diào)節(jié)素養(yǎng)、家庭年收入過高或過低以及BMI值異常均是慢性病的危險因素。最后,在分類樹的末端顯示不具備成癮行為素養(yǎng)及不具備對健康的理解素養(yǎng)的人群慢性病發(fā)生率高(圖1)。
2.3 分類樹模型評價
2.3.1 錯分矩陣和Risk統(tǒng)計量
模型評價方法為交叉驗證評估法。此分類樹模型對慢性病發(fā)病預測正確率為73%,其中Risk統(tǒng)計量為0.270,標準誤(St)為0.025,可見模型擬合效果較好。
2.3.2 ROC曲線
分析結(jié)果顯示ROC曲線下面積為0.763(95%CI:0.708~0.818,P<0.001),標準誤(St)為0.028,說明該模型預測價值較高,可以有效地篩選出慢性病健康素養(yǎng)相關(guān)的影響因素(圖2)。
2008年我國首次對居民健康素養(yǎng)進行調(diào)查,結(jié)果顯示我國居民健康素養(yǎng)的總體水平為6.48%,而其中慢性病預防素養(yǎng)僅有4.66%,為最低[12]。研究表明低健康素養(yǎng)水平人群發(fā)生不良結(jié)局的可能性是高健康素養(yǎng)水平人群的1.5~3倍[13]。故進行慢性病健康素養(yǎng)的研究十分必要。
目前國內(nèi)外對健康素養(yǎng)的研究方法多為卡方檢驗、多元線性回歸法及Logistic回歸分析[14-16]。上述方法對分析資料的類型和分布都規(guī)定嚴格,故降低了分析效能;且這些統(tǒng)計分析方法無法處理變量間的共線性影響以及交互作用關(guān)系[17]。同時國內(nèi)缺乏對慢性病健康素養(yǎng)影響因素的研究,其研究人群集中在大學生、流動人口、老年人、一般居民等[7]。且納入的影響因素多為人口學特征;基本知識和理念、健康生活方式與行為以及基本技能三大內(nèi)容;科學健康觀、傳染病預防素養(yǎng)、慢性病預防素養(yǎng)、安全與急救素養(yǎng)、基本醫(yī)療素養(yǎng)以及行為素養(yǎng)6個維度,未能全面細致地分析各類健康素養(yǎng)影響因素[15-16]。
分類與回歸樹模型已被廣泛應用于各類疾病及傷害危險因素的篩查[17-19]。本研究應用C&RT算法,納入19個變量,對慢性病患者健康素養(yǎng)影響因素進行分析,與多元線性回歸法、多因素Logistic回歸分析等經(jīng)典方法相比,分類與回歸樹模型不僅能分析出各類危險因素,而且具有如下特點:(1) 分類與回歸樹模型以樹形圖作為直觀的表現(xiàn)形式,不受變量間共線性的影響且能顯示出多水平變量間復雜的相互作用關(guān)系,易于理解[17,20]。本研究不僅能說明就醫(yī)行為素養(yǎng)、運動素養(yǎng)、對健康的理解素養(yǎng)、心理調(diào)節(jié)素養(yǎng)、家庭年收入、BMI值是否正常以及成癮行為素養(yǎng)等7個變量是慢性病健康素養(yǎng)影響因素,而且可以看出對具備不同就醫(yī)行為素養(yǎng)、不同對健康理解素養(yǎng)等人群各自的影響因素。針對不同慢性病患者采取不同干預措施,提高其健康素養(yǎng)具有重要的指導意義。(2) 分類與回歸樹模型可將無統(tǒng)計學意義的分類自動重組為有統(tǒng)計學意義的分類,使分析結(jié)果更科學合理[18]。本研究將家庭年收入分為4個等級,結(jié)果顯示差異無統(tǒng)計學意義,而模型將其自動合并成有統(tǒng)計學意義的2個等級。與其它主要的分類樹的算法(CHAID、QUEST)相比,C&RT算法的應用范圍更為廣泛,變量類型既可以是連續(xù)型,也可以是分散型[11]。

圖1 慢性病健康素養(yǎng)影響因素分類樹模型圖
Fig 1 Classification tree model diagram of health literacy factors on chronic diseases
綜上所述,本研究采用C&RT算法篩選出慢性病健康素養(yǎng)的7個影響因素。可以針對不同人群采取不同策略,提高慢性病患者的健康素養(yǎng),以減少慢性病的發(fā)病率并改善慢性病的發(fā)病結(jié)局。同時,將C&RT與經(jīng)典的健康素養(yǎng)研究方法結(jié)合起來,運用針對慢性病患者的健康素養(yǎng)調(diào)查問卷,可更加全面深入地挖掘出慢性病健康素養(yǎng)影響因素。

圖2 分類樹預測概率ROC曲線
Fig 2 ROC curve of classification tree predicted probability
與此同時,本研究也存在一定的局限性。C&RT模型適用于大樣本量的統(tǒng)計分析,對小樣本量數(shù)據(jù)進行統(tǒng)計分析時不夠穩(wěn)定,對結(jié)果影響較大[17]。同時,當樹形模型中解釋變量較多時,須進一步研究怎樣處理變量及修剪二叉樹才能保證模型的簡潔又不會損失有用的信息[17]。
[1] New WHO report:deaths from non communicable diseases on the rise,with developing world hit hardest[J].Cent Eur J Public Health,2011,19(2):114-120.
[2] AlWAN A,MACLEAN D R,RILEY L M,et al.Monitoring and surveillance of chronic non-communicable diseases:progress and capacity in high-burden countries[J].Lancet,2010,376(10):1861-1868.
[3] World Health Organization.Global status report on non-communicable diseases 2010[R].Gevana:World Health Organization,2011:9-31.
[4] 程懷志,郭斌,謝欣,等.我國慢性病患病率的社會人口學分析[J].醫(yī)學與社會,2014,27(3):4-6.
[5] World Health Organization.Preventing chronic diseases:a vital investment.WHO Global Report[R].Geneva:WHO,2005.
[6] 徐懷伏,王雅珍.南京市某社區(qū)老年人慢性病及生活方式調(diào)查[J].現(xiàn)代醫(yī)學,2015,43(4):485-488.
[7] 張慶華,黃菲菲,朱愛群,等.國內(nèi)外慢性病健康素養(yǎng)的研究進展[J].中國全科醫(yī)學,2014,17(7):814-817.
[8] PARKER R M,WILLIAMS M V,WEISS B D,et al.Health literacy:report of the Council on Scientific Affairs[J].JAMA,1999,281(6):552-557.
[9] 孫浩林,彭慧,傅華.慢性病患者健康素養(yǎng)量表信效度的研究[J].復旦學報:醫(yī)學版,2012,39(3):268-272.
[10] 林豐,楊克志,劉國棟,等.深圳某街道居民慢性病預防健康因素影響因素[J].職業(yè)與健康,2014,30(18):2649-2653.
[11] 張超.分類樹中C&RT算法與判別分析的比較及其醫(yī)學應用[J].數(shù)理醫(yī)藥學雜志,2008,21(2):139-141.
[12] 衛(wèi)生部統(tǒng)計信息中心.2008中國衛(wèi)生服務調(diào)查研究,第四次家庭健康詢問調(diào)查分析報告[M].北京:中國協(xié)和醫(yī)科大學出版社,2009.
[13] DEWALT D A,BEKMAN N D,SHERIDAN S,et al.Literacy and health outcomes:a systematic review of the literature[J].J Gen Int Med,2004,19(12):1228-1239.
[14] MIHSIU W.The associations between health literacy,reasons for seeking health information,and information sources utilized by Taiwanese adults[J].Health Edu J,2014,73(4):423-434.
[15] 嚴麗萍,魏南方,安家璈,等.中國農(nóng)村職業(yè)人群健康素養(yǎng)現(xiàn)狀及影響因素分析[J].中國公共衛(wèi)生,2012,28(7):902-905.
[16] 郭海健,李小寧,黃明豪,等.江蘇省居民健康素養(yǎng)影響因素回歸分析研究[J].江蘇預防醫(yī)學,2012,23(1):12-14.
[17] 張勇晶,陳坤,金明娟,等.應用分類樹模型篩選惡性腫瘤危險因素研究[J].中華流行病學雜志,2006,27(6):540-543.
[18] 杜琳,劉偉佳,劉偉,等.SPSS中的分類樹模型在分析傷害影響因素中的應用[J].中國衛(wèi)生統(tǒng)計,2010,27(5):546-548.
[19] TURE M,TOKATLI F,KURT I.Using Kaplan-Meier analysis together with decision tree methods (C&RT,CHAID,QUEST,C4.5 and ID3) in determining recurrence-free survival of breast cancer patients[J].Expert Syst Appl,2009,36(2):2017-2026.
[20] 趙自強,鄭明.應用分類樹模型篩選logistic回歸中的交互因素 [J].中國衛(wèi)生統(tǒng)計,2007,24(2):114-116.
Study on health literacy factors of chronic non-communicable diseases by using classification and regression trees
CUI Meng-jing1,GUO Hai-jian2,LI Yang1,QU Chen2,CHEN Yu1,HU Jie1,PANG Yuan-yuan1,LI Xiao-ning2,ZHANG Xu-jun1
(1.SchoolofPublicHealth,SoutheastUniversity,Nanjing210009,China; 2.HealthEducationInstitute,JiangsuProvinceCenterforDiseasePreventionandControl,Nanjing210009,China)
Objective: To explore C&RT methods in screening health literacy factors of chronic non-communicable diseases.Methods: Database was created from Suqian in 2013.Case group composed by 105 patients with chronic diseases.Control group composed of 210 staff without chronic diseases matched by region,age and sex.Results: Seven out of 19 affecting factors were selected,which were willingness to see a doctor,exercise,understanding of health,psychological adjustment,annual family income,BMI index and addictive behaviors.Influence factors of different groups were also explained.The Risk value of model error probability was 0.270,and the area under the ROC curve was 0.763,suggesting that the classification tree model fit the actuality well.Conclusion: The classification tree model can screen out the major affecting factors quickly and effectively and could also identify the cutting-points for continuous and ordinal variables,as well as revealing the complex interaction among the factors at many levels.
classification tree; classification and regression tree; chronic non-communicable diseases; health literacy
2016-03-08
2016-04-26
全國健康素養(yǎng)現(xiàn)狀評估與結(jié)果推廣項目(1311206600002)
崔夢晶(1988-),女,江蘇南通人,助理工程師,醫(yī)學碩士。E-mail:573426350@qq.com
李小寧 E-mail:395777673@qq.com;張徐軍 E-mail:xjzhang@seu.edu.cn
崔夢晶,郭海健,李洋,等.應用分類與回歸樹篩選慢性非傳染性疾病健康素養(yǎng)影響因素的研究[J].東南大學學報:醫(yī)學版,2016,35(5):704-708.
R195
A
1671-6264(2016)05-0704-05
10.3969/j.issn.1671-6264.2016.05.012