高文龍劉小寧顏 虹
一種logistic回歸率比估計(jì)方法的SAS實(shí)現(xiàn)*
高文龍1,2劉小寧1顏 虹2△
在流行病學(xué)中,對(duì)于發(fā)病率較低的疾病,OR可以作為相對(duì)危險(xiǎn)度或率比(RR:relative risk/rate ratio)的近似估計(jì),因此能夠被用來(lái)評(píng)估某一因素風(fēng)險(xiǎn)的大小。但是,對(duì)于一些發(fā)病率較高的疾病來(lái)說(shuō),此時(shí)用OR值會(huì)高估風(fēng)險(xiǎn)大小[1],此時(shí)宜用RR值來(lái)評(píng)估風(fēng)險(xiǎn)的大小更為合適。本文在SAS軟件中利用logistic回歸實(shí)現(xiàn)Schouten等人提出的擴(kuò)充原始數(shù)據(jù)集估計(jì)率比的方法[2],為科學(xué)工作者準(zhǔn)確地評(píng)價(jià)某一因素對(duì)疾病的風(fēng)險(xiǎn)提供了新的思路。
對(duì)于發(fā)病率較低的疾病而言,比值比可以作為相對(duì)危險(xiǎn)度(RR)的近似估計(jì)。因此,在logistic回歸中,當(dāng)?shù)玫侥骋灰蛩氐幕貧w系數(shù)估計(jì)值后,便可以得到危險(xiǎn)因素不同水平下RR的近似估計(jì)值。此時(shí)如下式(2)所示:

但是,很多情形下疾病的發(fā)病率較高,此時(shí),須采用RR值來(lái)評(píng)價(jià)因素風(fēng)險(xiǎn)的大小。下面擴(kuò)充數(shù)據(jù)集后采用logistic回歸的方法能夠直接得到某一因素RR值的精確估計(jì)。
擴(kuò)充數(shù)據(jù)集估計(jì)率比的原理:Schouten等人提出了一種擴(kuò)充原始數(shù)據(jù)集利用logistic回歸來(lái)實(shí)現(xiàn)率比估計(jì)方法[2]。擴(kuò)充數(shù)據(jù)集(EDS:expanded data set)的產(chǎn)生過(guò)程如下:在原始數(shù)據(jù)集(ODS:original data set)中每一個(gè)病例組數(shù)據(jù)復(fù)制后設(shè)置成非病例數(shù)據(jù)。此時(shí),新的數(shù)據(jù)集由三部分構(gòu)成:原始病例,原始非病例和新非病例。設(shè)ODS中病例發(fā)生的概率為p,在EDS中,觀察落入上面三個(gè)部分中的概率分別是因此,在EDS中病例觀察到的概率應(yīng)為:

此時(shí),在EDS中進(jìn)行結(jié)局變量Y的logistic回歸時(shí):

即p*的OR等于p的RR值。
設(shè)存在某一ODS,包含結(jié)局變量Y(Y=1為病例,Y=2為非病例)和分類自變量X1,X2,X3,…,Xn。根據(jù)EDS估計(jì)率比的原理,利用logistic回歸估計(jì)這些分類變量RR值的SAS程序如下:
第一步:建立原始病例集和非病例集
data example1;set ODS;/*數(shù)據(jù)集example1中包含了原始病例集和原始非病例集*/
第二步:建立新非病例集
data example2;set ODS;
if Y=1;/*選取結(jié)局變量為1的數(shù)據(jù)集*/
Y=2;/*將結(jié)局變量取值由1變?yōu)?,建立了新非病例集example2*/
第三步:合并兩個(gè)數(shù)據(jù)集,組成擴(kuò)充數(shù)據(jù)集example。
data example;set example1 example2;
第四步:利用logistic回歸估計(jì)自變量X1-Xn的率比
proc logistic data=example;/*在擴(kuò)充數(shù)據(jù)集example上直接進(jìn)行l(wèi)ogistic回歸*/
class X1 X2...Xn;/*設(shè)定分類變量X1...Xn */model Y=X1-Xn;/*實(shí)現(xiàn)logistic回歸,得到EDS中X1-Xn的OR值及其可信區(qū)間*/run;
由此,可得ODS中X1-Xn的RR值及其可信區(qū)間。值得注意的是,在SAS中,logistic回歸分類變量X默認(rèn)的參照取值為last,如果改變參照值,可在class語(yǔ)句后增加參照設(shè)定語(yǔ)句/para=REF REF=(first or last)。如果設(shè)定回歸的類型,如前進(jìn)法,后退法等,可在第四步中增加/SELECTION參數(shù)進(jìn)行選擇。
以2005年西安交通大學(xué)醫(yī)學(xué)院開(kāi)展的農(nóng)村初級(jí)衛(wèi)生保健服務(wù)項(xiàng)目(2001-2005年)終期調(diào)查的家庭數(shù)據(jù)為例,分析嬰幼兒兩周腹瀉患病率和產(chǎn)前檢查率的風(fēng)險(xiǎn)因素。具體的抽樣方法和調(diào)查內(nèi)容在相關(guān)的研究中己經(jīng)做了詳細(xì)的描述[4]。調(diào)查結(jié)果顯示,三歲以下兒童兩周腹瀉患病率為7.37%,孕產(chǎn)婦產(chǎn)前檢查率為98.03%。本研究選取嬰幼兒兩周腹瀉患病和產(chǎn)前檢查為結(jié)局變量,利用ODS的logistic回歸、EDS的logistic回歸和ODS的log二項(xiàng)回歸三種方法來(lái)探索腹瀉患病率和產(chǎn)前檢查率的風(fēng)險(xiǎn)因素。本研究?jī)H對(duì)兩個(gè)結(jié)局有顯著性(α=0.05)的部分變量(腹瀉患病率:民族和兒童年齡;產(chǎn)前檢查率:家庭社會(huì)經(jīng)濟(jì)狀況和母親教育年限進(jìn)行單因素回歸分析,來(lái)比較三種方法評(píng)估因素對(duì)結(jié)局風(fēng)險(xiǎn)的差異,對(duì)于多因素回歸分析方法與之相似。
本研究數(shù)據(jù)分析采用SAS9.1.3軟件進(jìn)行。ODS的logistic回歸、EDS的logistic回歸和ODS的log二項(xiàng)回歸三種方法評(píng)估結(jié)果見(jiàn)表1。由表1可見(jiàn),三種方法估計(jì)的民族和兒童年齡對(duì)兩周腹瀉患病率的風(fēng)險(xiǎn)差別并不很大,但ODS的Logistic回歸嚴(yán)重高估了家庭社會(huì)經(jīng)濟(jì)狀況和母親教育年限對(duì)產(chǎn)前檢查率的風(fēng)險(xiǎn),但EDS的Logistic回歸與ODS的log-binomial回歸對(duì)該結(jié)局的估計(jì)結(jié)果相近。

表1 利用ODS的logistic回歸,EDS的logistic回歸和ODS的log-binom ial回歸估計(jì)嬰幼兒兩周腹瀉患病率和產(chǎn)前檢查率的風(fēng)險(xiǎn)
在流行病學(xué)調(diào)查中,logistic回歸分析由于能夠很容易得到患病風(fēng)險(xiǎn)的近似估計(jì)值OR,因此得到廣泛的應(yīng)用。但是,OR值評(píng)估因素的患病風(fēng)險(xiǎn)一般認(rèn)為疾病的患病率應(yīng)該小于0.10[5]。當(dāng)這個(gè)條件不滿足,即疾病的患病率>0.10,此時(shí),直接利用Logistic回歸分析結(jié)果來(lái)評(píng)價(jià)因素的患病風(fēng)險(xiǎn)并不恰當(dāng),它能高估該因素風(fēng)險(xiǎn)的大小[1]。此時(shí),計(jì)算RR值來(lái)評(píng)估患病風(fēng)險(xiǎn)的大小更為準(zhǔn)確。王靜等人的研究推薦采用Cox回歸方法來(lái)獲得RR值[5]。Poisson回歸[6]和log-binomial回歸方法[7]也能夠獲得因素的RR值估計(jì)。但是利用Cox風(fēng)險(xiǎn)回歸和Poisson回歸估計(jì)RR值,有時(shí)會(huì)出現(xiàn)預(yù)測(cè)的概率出界問(wèn)題[8],而且它們能夠使得估計(jì)參數(shù)的標(biāo)準(zhǔn)誤太大,尤其是疾病的患病率很高的時(shí)候[3];log-binomial回歸估計(jì)RR值時(shí),當(dāng)自變量中具有連續(xù)性變量的時(shí)候,往往會(huì)導(dǎo)致模型不能收斂[7]。但是,對(duì)于概率出界問(wèn)題在logistic回歸分析中一般不會(huì)出現(xiàn),連續(xù)性變量導(dǎo)致模型不收斂的問(wèn)題在logistic回歸中發(fā)生率較log-binomial回歸更低。本文提供了一種直接利用logistic回歸來(lái)獲得因素的RR值的估計(jì)方法,并提供了SAS實(shí)現(xiàn)的程序。這個(gè)研究為豐富統(tǒng)計(jì)方法實(shí)現(xiàn)的途徑增添了新的內(nèi)容。
1.Localio AR,Margolis DJ,Berlin JA.Relative risks and confidence intervals were easily computed indirectly from multivariate logistic regression.JClin Epidemiol,2007,60(9):874-888.
2.Schouten EG,Dekker JM,Kok FJ.Risk ratio and rate ratio estimation in case-cohort design:hypertension and cardiovascularmortality.Stat Med,1993,12(18):1733-1745.
3.Skov T,Deddens J,Petersen MR,et al.Prevalence proportion ratios:estimation and hypothesis testing.Int JEpidemiol,1998,27(1):91-95.
4.Gao W,Dang S,Yan H,et al.Care-seeking pattern for diarrhea among children under 36 months old in ruralwestern China.PLoSOne,2012,7(8):e43103.doi:10.1371/journal.pone.0043103.
5.王靜,朋文佳,何倩,等.患病率比PRR和優(yōu)勢(shì)比OR的關(guān)系.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(1):149-150.
6.ZocchettiC,ConsonniD,BertazziPA.Estimation of prevalencerate ratios from cross-sectional data.Int JEpidemiol,1995,24(5):1064-1065.
7.葉榮,郜艷暉,楊笠,等.log-binomial模型估計(jì)的患病比及其應(yīng)用.中華流行病學(xué)雜志,2010,31(5):576-578.
8.Yu B,Wang Z.Estimating relative risks for common outcomeusing PROC NLP.ComputMethods Programs Biomed,2008,90(2):179-186.
(責(zé)任編輯:丁海龍)
*:國(guó)家自然科學(xué)基金(81230016);蘭州大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(lzujbky-2014-156)
1.蘭州大學(xué)公共衛(wèi)生學(xué)院(730000)
2.西安交通大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院(710061)
△通信作者:顏虹