決策樹與回歸技術在居民就診影響因素中的應用研究*

2012-03-11 14:02:12劉海霞鐘曉妮

中國衛生統計 2012年4期

關鍵詞：分類服務模型

劉海霞王玖林林鐘曉妮

兩周就診率是了解居民門診衛生服務利用情況的一個重要指標，通過重慶西部擴點地區衛生服務調查資料，將決策樹與回歸技術結合應用到居民衛生服務利用領域，研究居民就診情況的影響因素，為衛生服務決策提供參考。

資料與方法

1.資料來源

資料來源于國家第四次衛生服務調查——重慶西部擴點地區調查數據，根據全國第四次衛生服務調查方案的要求，采用分層多階段整群隨機抽樣的方法，調查了11 570名居民，經統一培訓調查員進行入戶調查。

2.分析方法

用Epidata軟件進行原始數據錄入、整理及邏輯檢錯;應用SPSS17.0軟件包，通過決策樹和logistic回歸分別對居民就診的影響因素進行分析。

(1)決策樹原理與算法

決策樹(decision tree)是一種主要解決實際應用中分類問題的數據挖掘方法，通過訓練樣本集建立目標變量關于各輸入變量的分類預測模型，全面實現輸入變量和目標變量不同取值下的數據分組，進而用于對新數據對象的分類和預測〔1〕。一個決策樹由一系列節點和分支組成，而節點和子節點之間形成分支，節點代表著決策過程中所考慮的屬性，而不同屬性值形成不同分支，在決策樹的葉節點得到結論，且從根節點到葉節點的每一條路徑對應著一條決策規則，當利用所建決策樹對一個新數據對象進行分析時，決策樹能夠依據該數據輸入變量的取值，推斷出相應目標變量的分類或取值〔2〕。

目前比較流行的決策樹算法主要有C4.5、CART、CHAID，這些算法主要是根據數據的特點建立相應的函數來盡可能地正確分類所有的觀察〔1，3〕。其中，C4.5是目前最有影響力的算法，是 ID3的改進算法〔4〕，輸入變量的類型可以是兩分類、多分類名義型和區間型變量，目標變量可以是為兩分類或多分類名義型;CART即classification and regression tree(分類與回歸樹)，允許輸入的變量類型可以為名義型、有序型，目標變量可以為名義型或區間型〔5〕;CHAID即Chi-squared automatic interaction detector(卡方自動交互探測)，允許輸入的變量類型可以為名義型、區間型，如果是有序型，則可以當做區間型變量處理，目標變量可以為兩分類、多分類名義型、區間型和有序型變量〔6〕。

(2)非條件二分類logistic回歸原理

logistic回歸是一種處理目標變量為分類變量的非線性回歸方法，按照反應變量的類型分為二分類logistic回歸、有序多分類logistic回歸和無序多分類logistic回歸;按照研究設計類型分為條件與非條件logistic回歸，條件logistic回歸模型引入條件概率乘法定理構造對數似然函數，非條件logistic回歸模型引入二項分布概率構造對數似然函數對參數進行估計。自變量可以是連續性變量、分類變量和等級變量，連續變量需離散化，分類變量則需要轉化成啞變量〔7〕。

結果

1.居民就診基本情況

本次調查共3 970戶11 570名居民，其中農村和城市各1 985戶，分別為5 968、5 602名居民，男性占49.3%，女性占50.7%。居民合計兩周就診2 447人次，兩周就診率21.15%(城市為12.58%、農村為29.19%)，男女就診率分別為18.41%、23.84%，差異有統計學意義(P＜0.05)。

2.居民就診影響因素變量整理與賦值

將兩周內是否就診作為目標變量，可能影響患者就診的性別、民族、年齡、婚姻狀況、文化程度、職業類型、就業狀況、醫療保險情況、居民類型、家庭人口數、家庭收入、自感病情和是否患慢病等因素作為自變量，構建決策樹模型與logistic回歸模型。其中，將家庭收入和年齡兩個自變量進行離散化，家庭收入按四分位數間距分為低、中、高等收入，對缺失值進行最常頻數或均數處理，具體賦值見表1。

表1 變量及其賦值表

3.居民就診衛生服務利用的決策樹與logistic回歸分析

(1)決策樹模型及變量重要性排序

根據數據特點選擇CART樹增長法，模型構建過程中進行樹的修剪以自動控制樹的過增長，并對各解釋變量的重要性進行排序，樹模型和變量重要性排序分別見圖1和表2。從樹模型可以看出，樹的根節點為年齡，說明年齡是就診最重要的因素，樹狀圖的其他節點還包括自感病情、家庭收入、居民類型、職業類型和家庭人口數，共6層、13個節點，對應13條分類規則，以最右側一條規則來看，在年齡為“4、5、6、7、8”，且自感病情為“1和3”時，患病居民選擇就診的可能性概率為98.1%，其他規則解釋類似;而從篩選出變量的重要性來看，自感病情是居民選擇就診的最重要的因素，其次為年齡，解釋變量的重要性大，說明增加該變量進入決策樹時，整個系統不確定程度減少的多;而模型的錯誤分類率為0.174，具體是指被分錯的例數占全部例數的比例。

表2 就診衛生服務利用各解釋變量的重要性排序

(2)居民就診的logistic回歸模型

以是否就診為目標變量，以表1中各變量為自變量，其中婚姻狀況和職業類型為多分類無序變量，轉化成啞變量，在0.05和0.1標準以及啞變量同進同出原則下進行變量的入選與剔除，模型粗無分類率為0.267，分析結果見表3。

(3)決策樹與logistic回歸模型分析結果顯示，兩模型篩選出的錯誤分類率，分別為0.174與0.267，決策樹的錯誤分類率稍低，且篩選出的變量稍多，兩模型前五位重要解釋變量中都有年齡、家庭收入和居民類型三個變量，綜合考慮，選擇決策樹模型作為最終模型來考察就診的影響因素。

討論

根據兩模型的比較，選擇決策樹模型多為居民就診多因素分析的最終模型，CART樹模型共6個層次、13個節點，根節點為年齡，說明年齡這個因素在眾多輸入變量中相對影響最大，此時與其競爭根節點還有自感病情、家庭收入、居民類型和醫療保險，變量“年齡”將樹分為左右兩枝，左枝終止，右枝又先后被變量“自感病情”、“家庭收入”、“居民類型”、“醫療保險”依次分割;從決策樹的分支還可以看出，所選出的影響因素對不同人群的影響不同，以第三層的根節點“自感病情”為例來看，自感病情為“一般”的居民與自感病情“較輕”、“嚴重”的居民的影響因素不同，居民類型對自感病情一般的居民有影響，而對自感病情為較輕和嚴重的沒有影響。因此，我們在制定衛生政策的時候，應根據不同人群的影響因素提出針對性的衛生政策，以不同的方式方法摸清不同人群的衛生服務、需求狀況及其衛生服務供給狀況，分析環境和資源，擬定衛生服務規劃的目標與戰略，提高衛生服務利用率，減少重復性和浪費性衛生活動，實現資源的合理優化配置。

圖1 居民就診衛生服務利用CART樹形圖

表3 民就診因素的多元logistic逐步分析結果(只列出有統計學意義的因素)

重慶作為一個地域廣闊、人口眾多(貧困農村人口較多)、各區域社會經濟發展不平衡的直轄市，由于各種因素的影響，衛生服務利用程度、服務水平和公平性有待提高。綜合有四點，首先應提高居民的生活質量和收入水平，提高居民的健康意識和抵抗疾病風險的能力;其次，建立健全覆蓋城鄉居民的醫療保障體系，提高并穩定城鄉三項基本醫療保險參保率，提高政策范圍內的醫保基金支付水平，以實現衛生服務的公平性;再次，低年齡組和高年齡組的兩周患病率高，對衛生服務的需求較多，相應的就診率就會高〔8〕，合理優化重慶地區的人口年齡結構，針對不同年齡人群的健康特點，重點發展一些特色科室;最后，針對不同居民類型的人群提出相應的衛生政策，根據城市與農村居民不同的就診特點，提高基層醫療服務水平，完善鄉村衛生服務一體化管理和提高城市社區衛生服務水平，提高城市居民醫療保險和農村地區新農合報銷比例，滿足不同居民的醫療服務需求，實現衛生服務的良好效益及其利用的公平性。

1．中國人民大學統計學系數據挖掘中心．數據挖掘中的決策樹技術及其應用．統計與信息論壇，2002，2:4-10．

2．Quinlan JR．Induction of decision Tree．Machine Learning 1，1986:81-106．

3．但小容，陳軒恕，劉飛，等．數據挖掘中決策樹分類算法的研究與改進．軟件導刊，2009，9(8):41-43．

4．Quinlan JR．Induction of decision Tree．Machine Learning，1986，1(1):81-106．

5．Breiman L，Friedman JH，Qlshen RA，et al．Classification and regression trees:modern applied statistics with S-plus．2nd ed ．California:Wadsworth international group，1984:6-9．

6．Jordan MI．Learning in graphical models．Cambridge(Massachusetts):MIT Press，1998:7-8．

7．徐天和、柳青、余松林，等．中國醫學統計百科全書:多元統計分冊第2版．人民衛生出版社，2004:195-201．

8．李魯，盧祖洵，梁萬年，等．社會醫學．人民衛生出版社，2006:128-153．

決策樹與回歸技術在居民就診影響因素中的應用研究*

資料與方法

結 果

討 論

結果

討論