張 波,黃啟風(fēng),代魯燕,沈其君
(寧波大學(xué) 醫(yī)學(xué)院預(yù)防醫(yī)學(xué)系,浙江 寧波 315211)
Logistic回歸模型中自變量的秩優(yōu)勢(shì)比圖
張 波,黃啟風(fēng),代魯燕,沈其君
(寧波大學(xué) 醫(yī)學(xué)院預(yù)防醫(yī)學(xué)系,浙江 寧波 315211)
文章提出一種可視化圖示法,評(píng)價(jià)logistic回歸模型中自變量相對(duì)重要性。方法是對(duì)變量值排序后進(jìn)行[0,1]區(qū)間的秩比例尺度變換,并作關(guān)于相對(duì)于中位數(shù)的優(yōu)勢(shì)比的函數(shù)關(guān)系圖——秩優(yōu)勢(shì)比圖。秩優(yōu)勢(shì)比圖有很多實(shí)際應(yīng)用,可作為評(píng)價(jià)logistic回歸模型中自變量相對(duì)重要性的可視化工具。
logistic回歸模型;相對(duì)重要性;秩優(yōu)勢(shì)比圖;可視化
在流行病學(xué)的分類資料分析中,多數(shù)研究者常用相對(duì)危險(xiǎn)度和優(yōu)勢(shì)比及人群歸因比例來衡量因素與事件發(fā)生間存在的聯(lián)系及聯(lián)系程度,也通過估計(jì)偏回歸系數(shù)或標(biāo)準(zhǔn)偏回歸系數(shù)來評(píng)價(jià)因素的影響大小即自變量的相對(duì)重要性。標(biāo)準(zhǔn)偏回歸系數(shù)消除各自變量的量綱影響,卻也混雜了自變量獨(dú)特效應(yīng)和其本身的變異對(duì)效應(yīng)的影響,即可因標(biāo)準(zhǔn)差不同而得出不同的結(jié)論[1],容易導(dǎo)致不合理或錯(cuò)誤的推論,它們的濫用經(jīng)常存在爭議和批判[2]。
Logistic回歸模型中,有學(xué)者提出相對(duì)危險(xiǎn)函數(shù)RRF(Xi)=exp[β(Xi-Xi?)],即通過比較分析各因素 Xi的任一水平相對(duì)于參考水平產(chǎn)生的相對(duì)危險(xiǎn)來估計(jì)相對(duì)重要性[3]。對(duì)相對(duì)危險(xiǎn)函數(shù)取對(duì)數(shù)后,模型中所有自變量都將獲得一條決定于回歸系數(shù)符號(hào)的遞增或遞減的半對(duì)數(shù)直線圖。但是每個(gè)自變量有各自特點(diǎn),如變量的衡量單位和尺度不同,故不能將獲得的函數(shù)圖合并到同一個(gè)圖形中。實(shí)際研究中也常會(huì)遇到這種情況,模型擬合良好,但是現(xiàn)有數(shù)據(jù)中有些變量值的指標(biāo)估計(jì)不是很理想。2009年Juha Karvanen提出一種可視化工具——秩風(fēng)險(xiǎn)圖[4],即在比例風(fēng)險(xiǎn)模型中通過對(duì)自變量值進(jìn)行秩比例尺度轉(zhuǎn)換后作關(guān)于相對(duì)危險(xiǎn)度的函數(shù)關(guān)系圖,正好解決了這些問題。
本文就可比性和可視化目的應(yīng)用秩風(fēng)險(xiǎn)圖的主要思想提出秩優(yōu)勢(shì)比圖,并應(yīng)用于具體實(shí)例評(píng)價(jià)logistic回歸模型中自變量相對(duì)重要性。

現(xiàn)用logistic回歸模型研究性別(sex,男=1,女=0)、心電圖(ecg,ST段壓低<0.1(毫伏)=0,0.1(毫伏)≤ ST段壓低<0.2(毫伏)=1,0.2(毫伏)≤ ST段壓低=2)、年齡(age,year)與冠狀動(dòng)脈疾病(CAD)的關(guān)系[5],通過模型擬合最后得到回歸方程中含有sex、ecg和age,它們的估計(jì)優(yōu)勢(shì)比和 95%的置信區(qū)間分別為 3.882(1.330,11.330)、2.395(1.127,5.086)和1.097(1.024,1.175)。現(xiàn)以年齡為例作相對(duì)優(yōu)勢(shì)比函數(shù)圖,橫軸表示變量值,縱軸表示相對(duì)優(yōu)勢(shì)比,將得到一條決定于估計(jì)回歸系數(shù)符號(hào)的遞增或遞減的半對(duì)數(shù)直線圖,其中中位數(shù)的優(yōu)勢(shì)比是1,如圖1所示。同樣模型中其他所有自變量都可進(jìn)行此操作,但各自變量的分布特征如衡量單位和尺度不同,不能直接比較,也不能在同一圖形中展現(xiàn)所有變量的分布。為了提高可比性而比較同一水平上的優(yōu)勢(shì)比,如將數(shù)據(jù)的整個(gè)范圍劃分四等分即通過比較最小值(0%)、第一四分位數(shù)(25%)、中位數(shù)(50%)、第三四分位數(shù)(75%)和最大值(100%)處的優(yōu)勢(shì)比。如圖2所示,通過變量值的秩比例尺度變換函數(shù)圖被一條曲線所代替,這時(shí)橫軸上的尺度轉(zhuǎn)換為在[0,1]區(qū)間的秩次水平,各變量間的比較不受衡量單位和尺度關(guān)系的影響,故可以在一個(gè)圖形中獲得多條曲線。如圖3所示,可以快速地比較模型中變量間的相互關(guān)系。據(jù)圖可知,AGE的兩個(gè)極值處分別獲得最小和最大相對(duì)優(yōu)勢(shì)比,第一、三四分位處的相對(duì)優(yōu)勢(shì)比都比其他變量高,AGE與CAD的關(guān)系比ECG和SEX更為危險(xiǎn)。SEX和ECG是以二值和三值的形式納入模型的,我們把其函數(shù)圖看作是一個(gè)閾值函數(shù)發(fā)現(xiàn),男性要比女性更易患CAD;ECG異常可增加患CAD的危險(xiǎn),而且ST段壓低值越大,與CAD的關(guān)系越密切。

圖1

圖2
秩優(yōu)勢(shì)比圖可作為一種工具比較幾種可選擇的變量和模型,核查模型中自變量極值是否合理,或者對(duì)變量采取何種處理更合理,或者是納入哪個(gè)變量擬合模型更合理。如圖4所示,對(duì)變量(age)值進(jìn)行對(duì)數(shù)變換和樣條轉(zhuǎn)換后分別進(jìn)入模型,或把年齡分成四類后擬合模型,再作相關(guān)秩優(yōu)勢(shì)比圖,發(fā)現(xiàn)經(jīng)過變換所得相對(duì)優(yōu)勢(shì)比與未經(jīng)變換獲得的相對(duì)優(yōu)勢(shì)比很相似,但是對(duì)數(shù)變換后的相對(duì)優(yōu)勢(shì)比在極值處有所下降,經(jīng)分類后顯示極小值處優(yōu)勢(shì)比有所提高外其余降低,且在極大值處下降幅度稍大。如果研究者認(rèn)為通過資料數(shù)據(jù)獲得的年齡的最高優(yōu)勢(shì)比不合理,那這一模型就不能應(yīng)用或先對(duì)變量進(jìn)行處理后再進(jìn)行建模。

圖3

圖4
本文資料來源于2010年金華市磐安縣新型農(nóng)村合作醫(yī)療專項(xiàng)入戶調(diào)查的數(shù)據(jù)。本調(diào)查采用分層整群隨機(jī)抽樣的方法抽取了磐安縣4個(gè)鄉(xiāng)鎮(zhèn)的500戶農(nóng)戶,調(diào)查內(nèi)容包括家庭一般情況、合作醫(yī)療意識(shí)和意愿性情況和住戶成員健康與衛(wèi)生服務(wù)利用情況。通過整理和Epidate3.1建立數(shù)據(jù)庫獲得495戶有效數(shù)據(jù),現(xiàn)應(yīng)用logistic回歸模型對(duì)農(nóng)戶是否愿意參加新農(nóng)合的意愿性及其相關(guān)影響因素進(jìn)行分析。進(jìn)行分析的因素有農(nóng)戶的家庭人口數(shù)X(1人)、家庭兼業(yè)類型X(2以純農(nóng)業(yè)戶=1為參照,農(nóng)業(yè)兼業(yè)戶=2,非農(nóng)業(yè)兼業(yè)戶=3,純非農(nóng)業(yè)戶=4,其他戶=5)、家庭主要?jiǎng)趧?dòng)力數(shù)量X(3人)、文化程度X(4以沒上過學(xué)=1為參照,小學(xué)=2,初中=3,高中=4,中專=5,大專=6,大學(xué)及以上=7)、年齡X5(以<30歲=1為參照,31~40歲=2,41~50歲=3,51~60歲=4,>60歲=5)、人均年收入X(6元)、人均年支出X(7元)、是否知道新農(nóng)合X(8是=1,否=0為參照)、是否參加過新農(nóng)合X(9是=1,否=0為參照)等相關(guān)因素。
調(diào)查的495戶農(nóng)戶中,463戶家庭表示愿意參加新農(nóng)合(占93.54%),32戶表示不要愿意參加(占6.46%),說明絕大多數(shù)農(nóng)戶是愿意參加新農(nóng)合的。
應(yīng)用SAS統(tǒng)計(jì)分析軟件分析各因素間的關(guān)系,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并建立logistic回歸方程為Y=3.2302-0.6135Χ1+0.7558Χ4+1.0029Χ9,經(jīng)檢驗(yàn)?zāi)P蛿M合良好(χ2=178.2,p=1.0000)。研究數(shù)據(jù)的logistic回歸分析顯示,影響農(nóng)戶參合意愿的相關(guān)因素有家庭人口數(shù)、主要?jiǎng)趧?dòng)力文化程度和是否參加過新農(nóng)合,各因素的OR點(diǎn)估計(jì)和 95%置信區(qū)間分別為 0.541(0.362,0.809)、2.129(1.279,2.050)和2.726(2.050,3.625)。
對(duì)觀察數(shù)據(jù)排序后利用進(jìn)入模型的觀察數(shù)據(jù)和估計(jì)優(yōu)勢(shì)比,應(yīng)用SAS9.2統(tǒng)計(jì)軟件作各變量的秩優(yōu)勢(shì)比圖,結(jié)果見圖5。對(duì)家庭人口數(shù)和主要?jiǎng)趧?dòng)力的文化水平進(jìn)行再次分類變換(<3人=1為參照,3人=2,>3人=3;未上過學(xué)=1為參照,小、初中=2,高中及以上=3),所得秩優(yōu)勢(shì)比圖見圖6。我們可以從圖形中直觀地看到自變量與因變量之間的關(guān)系。圖5顯示家庭人口數(shù)呈一條下降的曲線,其取值與優(yōu)勢(shì)比成負(fù)向變化關(guān)系,文化程度與優(yōu)勢(shì)比成正向變化關(guān)系。之前是否參合對(duì)于今后是否愿意參合的影響很大,之前參合的人群還是愿意繼續(xù)參合。圖6顯示這三個(gè)變量的秩優(yōu)勢(shì)比均為閾值函數(shù),之前是否參合的優(yōu)勢(shì)比變化幅度即閾值范圍最大,對(duì)參合的意愿性影響最大。在之前參合的人群中,最大和最小相對(duì)優(yōu)勢(shì)比在文化水平變量的極值處獲得,文化水平對(duì)參合意愿的影響相較于人口數(shù)更重要,且高中及以上教育的人群更愿意參合。家庭人口數(shù)是另一重要影響因素,人口數(shù)小于三人的人群參合意愿性更強(qiáng)。這與通過比較標(biāo)準(zhǔn)回歸系數(shù)的結(jié)果一致,三者的標(biāo)準(zhǔn)回歸系數(shù)分別為-0.3382、0.4167、0.5529。

圖5

圖6
秩優(yōu)勢(shì)比圖有很多實(shí)際應(yīng)用,它通過模型中變量的分布,快速直觀地概述自變量的相對(duì)重要性,幫助處理現(xiàn)有診斷方法不能完全解決的一些問題。通過[0,1]區(qū)間的秩比例尺度轉(zhuǎn)換,自變量間的比較不再受衡量單位或尺度的限制,在同一圖形中作多條曲線以幫助解釋變量的流行病學(xué)特征。另外秩優(yōu)勢(shì)比圖可對(duì)多個(gè)可選擇的變量或變換方式進(jìn)行比較分析,幫助獲得最佳擬合模型,也可作為一種工具核查整個(gè)數(shù)據(jù)范圍內(nèi)logistic回歸模型假設(shè)的合理性。
秩優(yōu)勢(shì)比圖還可以用來描述估計(jì)優(yōu)勢(shì)比由于添加或刪除其他變量情況下的變化量,它和標(biāo)準(zhǔn)回歸系數(shù)一樣試圖提高變量間的可比性,但兩者也有不同點(diǎn)。標(biāo)準(zhǔn)回歸系數(shù)假設(shè)方差為1都能合理衡量變量的變異而對(duì)變量進(jìn)行標(biāo)準(zhǔn)化,但對(duì)于不對(duì)稱分布資料這個(gè)方差可能導(dǎo)致回歸系數(shù)比例尺度的任意性,并且連續(xù)性變量和分類變量標(biāo)準(zhǔn)化的假設(shè)方差不同。將變量轉(zhuǎn)換為[0,1]區(qū)間的秩比例尺度可避免這一任意性,并可比較分析序數(shù)分類變量和連續(xù)性變量,而且秩優(yōu)勢(shì)比圖還是一種可視化工具,在描述上更清晰。秩優(yōu)勢(shì)比圖中參考水平的選取存在任意性,這里建議用能使估計(jì)對(duì)數(shù)優(yōu)勢(shì)的標(biāo)準(zhǔn)誤和置信帶寬度最小的變量觀測的中位數(shù)。
農(nóng)戶是否積極參合是新型農(nóng)村合作醫(yī)療制度建立的關(guān)鍵。通過本調(diào)查分析,我們看到新型農(nóng)村合作醫(yī)療制度的實(shí)施深受廣大農(nóng)民群眾的支持,利于進(jìn)一步深化改革和推廣,但還有一小部分人不愿意參加新農(nóng)合,主要受文化水平、家庭人口數(shù)和是否參合過的影響。隨著教育層次的提高愈傾向參合,人口數(shù)多的家庭參合意愿性反而下降,這是由于人口越多經(jīng)濟(jì)負(fù)擔(dān)越重,人群更不愿意參合。我們建議要加大新型農(nóng)村合作醫(yī)療的宣傳工作,積極引導(dǎo),采取切實(shí)可行的方式解決多人口家庭和低文化水平群眾的參合問題,提高農(nóng)民參合的意識(shí)和積極性。相信隨著制度的不斷完善和受益范圍的不斷擴(kuò)大,將會(huì)有越來越多的人群參加新型農(nóng)村合作醫(yī)療。
[1]Greenland S,Schlesselman JJ,Criqui MH.The Fallacy of Employing Standardized Regression Coef fi cients and Correlations as Measures of Effect[J].American Journal of Epidemiology,1986,123(2).
[2]Bring J.How to Standardize Regression Coef fi cients[J].The Ameri?can Statistician,1994,48(3).
[3]Zhao LP,Kristal A,White E.Estimating Relative Risk Function in Case-control Studies Using a Nonparametric Logistic Regression[J].Am.J.Epidemiol,1996,(144).
[4]Karvanen J,Frank E,Harrell J.Visualizing Covariates in Proportional Hazards Model[J].Statistic in Medicine,2009,(28).
[5]沈其君主編.SAS統(tǒng)計(jì)分析[M].北京:高等教育出版社,2005.
C815
A
1002-6487(2012)24-0087-02
國家自然科學(xué)基金資助項(xiàng)目(81172771)
(責(zé)任編輯/易永生)