劉雁



摘要:本文以桂林市雁山區(qū)524名居民為研究對(duì)象,運(yùn)用CHAID分類樹模型和Logistics逐步回歸方法比較和分析影響居民健康素養(yǎng)的重要因素。研究表明,兩種模型在分析影響因素時(shí)均取得一致結(jié)果,同時(shí)二者各有優(yōu)勢(shì)。
關(guān)鍵詞:分類樹;Logistics回歸;健康素養(yǎng);影響因素
1 數(shù)據(jù)來源
數(shù)據(jù)來源于雁山區(qū)衛(wèi)生和計(jì)劃生育局的當(dāng)?shù)鼗鶎有l(wèi)生人員對(duì)雁山區(qū)居民的實(shí)地抽樣調(diào)查,所得數(shù)據(jù)僅用于統(tǒng)計(jì)分析,問卷采用國(guó)家衛(wèi)生計(jì)生委統(tǒng)一編制的2018年全國(guó)居民健康素養(yǎng)監(jiān)測(cè)調(diào)查問卷,根據(jù)雁山區(qū)的實(shí)際情況及研究?jī)?nèi)容做適當(dāng)刪改。
2 基本情況
調(diào)查對(duì)象為桂林市雁山區(qū)15—69歲的居民,共發(fā)放問卷540份,回收有效問卷524份,有效率97.04%。在調(diào)查的性別成分中,男性272名,占51.9%,女性252名,占48.1%,男女的性別比例為 1.08:1。在年齡構(gòu)成中,調(diào)查對(duì)象的年齡范圍在15~69歲,年齡分布以[55,69]歲組最多,占26.7%,其次為[45,54]歲組,為21.6%,最少為[25,34]歲組,占13.2%。在婚姻情況下,大多數(shù)已婚人士,其次是未婚,占24.2%,其余的小部分是分居,離婚或喪偶狀態(tài)。教育比例最大的是初中水平,占42.4%,其次是小學(xué),占25.4%。大專/本科僅占2.5%。在職業(yè)構(gòu)成上,大多數(shù)調(diào)查對(duì)象以務(wù)農(nóng)為主,占比為72.9%;其次是學(xué)生組,占16.4%,而企事業(yè)單位等其他職業(yè)占比很小。在鄉(xiāng)鎮(zhèn)劃分上,三個(gè)鄉(xiāng)鎮(zhèn)的構(gòu)成比接近1:1:1。
3 討論
關(guān)于性別,年齡段,婚姻狀況,教育水平,職業(yè),鄉(xiāng)鎮(zhèn)劃分等因素進(jìn)行統(tǒng)計(jì)學(xué)分析,發(fā)現(xiàn)只有年齡段、婚姻狀況、文化程度以及鄉(xiāng)鎮(zhèn)劃分與是否具備健康素養(yǎng)之間存在相關(guān)關(guān)系,且各因素之間的相關(guān)程度較低。因此,根據(jù)不同特征下的總體健康素養(yǎng)特點(diǎn),將相關(guān)分析中具有顯著相關(guān)的變量作為解釋變量放入模型中,是否具備健康素養(yǎng)作為被解釋變量。每個(gè)變量的賦值如表1所示。
采用CHAID分類樹模型對(duì)數(shù)據(jù)進(jìn)行分析,以尋找居民健康素養(yǎng)較高人群和顯著影響因素,因變量是整體健康素養(yǎng)水平,自變量是年齡組、婚姻情況、教育水平和鄉(xiāng)鎮(zhèn)分布。父節(jié)點(diǎn)的默認(rèn)數(shù)量為100,子節(jié)點(diǎn)數(shù)為50,最大樹深度為3,拆分節(jié)點(diǎn)和合并類別的顯著性水平α=0.05,卡方檢驗(yàn)選擇Pearson卡方。健康素養(yǎng)水平按照影響因素貢獻(xiàn)大小依次差分,第一層的貢獻(xiàn)度最大,逐層減少。若在某節(jié)點(diǎn)不存在統(tǒng)計(jì)學(xué)差異的拆分,則停止分層。結(jié)果見圖1。
由圖1可知,最終生成的分類樹有2個(gè)父節(jié)點(diǎn),3個(gè)子節(jié)點(diǎn)(終端節(jié)點(diǎn)),樹深度為2。影響雁山區(qū)居民健康素養(yǎng)的兩個(gè)重要因素分別為文化水平和鄉(xiāng)鎮(zhèn)。圖中第一級(jí)是文化程度,表明受教育程度對(duì)居民健康素養(yǎng)的貢獻(xiàn)度最大。這一層中,高中至本科學(xué)歷的健康素養(yǎng)水平高于初中以下學(xué)歷的健康素養(yǎng)水平,說明教育水平越高,越具備健康素養(yǎng)。對(duì)于初中及以下學(xué)歷,第二層為鄉(xiāng)鎮(zhèn)劃分,雁山鎮(zhèn)具備健康素養(yǎng)的比例比柘木和草坪鎮(zhèn)的要好。
表2的Logistic回歸分析的結(jié)果表明,模型中顯著性水平α<0.05的自變量為文化水平和鄉(xiāng)鎮(zhèn)劃分。受教育程度以及居住地理位置對(duì)整體健康素養(yǎng)水平產(chǎn)生重要影響。健康素養(yǎng)總體水平隨著學(xué)歷的上升而不斷提高,偏遠(yuǎn)地區(qū)的農(nóng)村地區(qū)的健康素養(yǎng)水平相對(duì)較低。
采用逐步尋優(yōu)剔除變量,分別剔除了年齡段和婚姻情況,最終構(gòu)建的模型包含的變量為常量,文化程度和鄉(xiāng)鎮(zhèn)劃分。詳見表3。
Logistics回歸模型為:
ROC曲線可以直觀的比較二者模型的優(yōu)缺點(diǎn)。“1-特異度”與“敏感度”分別代表橫縱軸。模型的合適度與否可以根據(jù)曲線下面積的大小作為判斷標(biāo)準(zhǔn)。ROC曲線下的面積(縮寫為AUC)介于0.5和1.0之間,當(dāng)AUC>0.5時(shí),AUC越接近1,說明診斷效果越好[9] 。如圖2所示,Logistics回歸和分類樹的預(yù)測(cè)曲線遠(yuǎn)離參考線。由表4知,其AUC均大于0.77,表明模型具有一定的準(zhǔn)確性。
CHAID分類樹模型在樹圖形上能夠分析總體健康素養(yǎng)水平的各個(gè)影響因素,還能顯示出變量間的交互作用關(guān)系,具有直觀、簡(jiǎn)潔、明了的表現(xiàn)形式。作為非參數(shù)方法,其邏輯性很強(qiáng),輸出結(jié)果明確,適用范圍較廣泛。作為參數(shù)方法的Logistics回歸可以得到一個(gè)回歸方程,用于預(yù)測(cè)新加入的數(shù)據(jù)健康素養(yǎng)具備率,相較于分類樹模型,更容易操作。在分析影響因素上,兩種模型都算得上比較好的分析方法,二者結(jié)合可以取長(zhǎng)補(bǔ)短,發(fā)揮各自的優(yōu)勢(shì)。
4 結(jié)論
結(jié)果顯示,影響雁山區(qū)居民健康素養(yǎng)的兩大重要因素是教育水平和鄉(xiāng)鎮(zhèn)分布。許多研究表明[2] [3] ,高學(xué)歷的人群更樂于主動(dòng)去獲取健康知識(shí),從而對(duì)不利于健康的行為做出規(guī)避。政府部門應(yīng)加強(qiáng)居民文化教育,尤其是相對(duì)落后的貧困地區(qū)的居民的文化教育。同時(shí),還應(yīng)對(duì)不同教育水平的人采取不同的干預(yù)活動(dòng),開展健康促進(jìn),努力提高個(gè)人健康素養(yǎng)。
參考文獻(xiàn):
[1] 楊宏輝,朱利杰,高傳玉.分類樹模型與logistic回歸在高血壓危險(xiǎn)因素預(yù)測(cè)中的應(yīng)用分析[J].中國(guó)衛(wèi)生標(biāo)準(zhǔn)管理,2017,8(24):7-10.
[2] 單詩(shī)洋.2014年遼寧省居民健康素養(yǎng)調(diào)查分析[D].吉林大學(xué),2017.
[3] 胡鴻寶,茍莉莉,石呈,黃芩,黃永康,李金山.2016年南京市居民健康素養(yǎng)調(diào)查結(jié)果[J].職業(yè)與健康,2017,33(22):3070-3073+3077.
(作者單位:廣西師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院)