高文龍劉小寧顏 虹
Log-binom ial回歸在社區干預效果評價中的應用*
高文龍1,2劉小寧1顏 虹2△
目的介紹利用log-binomial回歸評價社區干預效果的原理與方法。方法通過在log-binom ial模型中增加干預變量和時間變量的交互項,獲得相對率比(RRR)的估計值,來進行社區干預效果評價,并以實例進行分析。結果通過“兒童關愛”干預措施對嬰幼兒腹瀉患病率影響的實例分析了在有無協變量的log-binom ial回歸在社區干預效果評價中的應用效果,并與Poisson回歸模型做了相應的比較。調整混雜因子后的log-binomial回歸模型是在控制了個體因素后對干預效應的有效估計,因此,評價的結果更為可靠。結論log-binomial回歸模型是社區干預研究的一種有效方法。
log-binom ial回歸 社區干預 效果評價
Log-binomial回歸模型是廣義線性模型的一種特殊類型,由于它很容易得到某一因素率比(rate ratio,RR)的最大似然估計值,因此,能夠作為干預效應評價的選擇方法。
假定反應變量服從二項分布,連接函數為對數連接的這樣一種廣義線性模型類型通常被稱為log-binom ial回歸模型。它一般的模型結構如式(1)表示:

式(1)中,p為結局出現的概率,誤差項ei是隨機項。該模型利用最大似然估計參數β時需要在SAS軟件中,該模型能夠通過PROC GENMOD程序,在模型參數中設定DISTRIBUTION=bin LINK=log來實現log-binomial回歸。
在社區干預研究中,通常存在兩個基本變量:反映干預實施狀態的變量(區別了干預和對照)和時間指示變量(區別了干預的前后)。實際上,干預對結局變量的影響是這兩個變量的交互效應。具體的評價模型可以由式(1)擴展為式(2)。此時,Log-binomial回歸評價干預效應的模型結構如式2所示:

式(2)中,P(Y=1|int,time,X)為int,time和X不同取值時結局出現的概率,int為干預變量(int=1表示干預,int=0表示對照),time為時間變量(time=1表示干預后,time=0表示干預前),X是需要調整的協變量或混雜因素,ei是誤差項。由式(2),可以看到exp(β3)實際上就是干預對結局影響的效應估計值,它是干預下結局的率比(RR)在時間點上的比值,即(RR1為干預后結局的率比;RR0為干預前結局的率比),為了與主效應RR相區別,此處稱它為相對率比(RRR:relative rate ratio)。當RRR>1時,說明干預提高了結局的發生率,當RRR=1時,說明干預對結局的發生沒有影響,當RRR<1時,說明干預降低了結局的發生率。在SAS程序中,社區干預效應評價的擬合模型式(2)與式(1)相比,僅在自變量中增加了int*time項。
本文以西安交通大學醫學院在2001年和2005年中國農村初級衛生保健項目(2001-2005年)執行前后開展的兩次斷面調查數據為例,評價“兒童關愛”的干預措施對三歲以下兒童腹瀉兩周患病率的影響。在兩次共同調查的34個縣中,9個縣接受了“兒童關愛”干預措施,視為干預組;25個縣沒有接受這一干預措施,被視為對照組。“兒童關愛”的干預措施從2001年開始到2005年結束,兩次調查的抽樣方法均是在各縣中采用多階段按人口比例抽樣法(PPS)獲得鄉和村樣本單元,家庭和兒童的抽樣采用完全隨機抽樣方法。
2001年共調查符合要求的兒童10829名,其中對照組7936名,干預組2893名;2005年共調查10682名,其中對照組7885名,干預組2797名。表1顯示了2001年和2005年“兒童關愛”干預組和對照組嬰幼兒兩周腹瀉患病率和樣本特征。從表1可見,2001年,對照組嬰幼兒兩周腹瀉患病率為17.72%,干預組為17.01%,干預組和對照組無統計學差異,2005年兩者分別為6.84%和4.85%,兩者間有顯著的統計學差異;無論2001年還是2005年,樣本特征很不平衡。

表1 2001年和2005年“兒童關愛”干預組和對照組兩周腹瀉患病率和樣本特征
本實例采用SAS9.1.2軟件分別擬合了有和無協變量的log-binom ial回歸和Poisson回歸兩種模型。表2顯示了log-binomial回歸和Poisson回歸兩種模型估計“兒童關愛”干預對嬰幼兒腹瀉患病率影響的效應。由表2可知,log-binomial回歸和Poisson回歸兩種模型有相同的預測值:當未調整混雜因素時,“兒童關愛”干預降低了嬰幼兒腹瀉患病率26%,當調查了混雜因素后,預測值提高了2%。但無論是否調整了混雜因素,Poisson回歸較log-binomial回歸模型預測值的可信區間均稍大。

表2 “兒童關愛”干預對嬰幼兒腹瀉患病率影響的效應估計
本研究結果顯示,log-binom ial回歸由于能夠在調整可能的混雜因素的前提下,通過增加干預變量和時間變量的交互項來實現不同時間點上社區干預對結局影響的效果評價。但log-binomial回歸中,當存在連續自變量時,最大似然估計的參數通常在參數所限制范圍的邊界上,最大似然估計方法得不到似然函數的導數為零時的極大值,導致模型不能收斂。此時,無法得到各參數的最大似然估計值[1]。Deddens等人提出了COPY方法對原始數據集調整擴充后再擬合logbinomial回歸模型,能夠解決這樣的問題[2]。這種COPY方法在SAS軟件中,可以在數據步通過設定權值按照一定比例和規則擴充數據集,并在PROC GENMOD程序中增加相應的weight語句很方便地實現[1]。Log-binom ial回歸模型是在乘法效應的假設下建立了正確的似然結構,因此是率比和可信區間估計最合適的方法[3]。當然,還有其它模型,如Poisson回歸,Cox風險回歸,也能夠得到率比的估計值[4],但它們經常會出現概率越界問題[5],同樣導致模型不能收斂,而且,在概率較大的情形下,能夠使得估計值的標準誤很大[6],從而使得統計檢驗結果趨于保守。有些研究針對Poisson回歸和Cox風險回歸中出現的概率越界或標準誤大的問題,提出了adjusted Poisson回歸和具有穩健方差估計的Cox風險回歸等,能夠一定程度上解決了這些模型自己的缺陷問題[7]。有研究者也將雙重差分模型,多水平發展模型用于社區干預性研究中[8-9]。當然,對于模型的選擇問題,應該結合研究的特點、數據特征和模型的優缺點來綜合分析,從而更好地選擇使用這些模型,來解決社區干預研究中效果的評價問題。
1.葉榮,郜艷暉,楊翌,等.log-binom ial模型估計的患病比及其應用.中華流行病學雜志,2010,31(5):576-578.
2.Deddens JA,Petersen MR,Lei X.Estimation of prevalence ratios when proc genmod does not converge.Proceedings of the 28th Annllal SAS Users Group Intemational Conference.Cary.NC:SAS Institute Inc,2003:270.
3.Traissac P,Martin-Prevel Y,Delpeuch F,et al.[Logistic regression vs other generalized linear models to estimate prevalence rate ratios][in French,English summary].Rev Epidem iol Sante Publique,1999,47:593-604.
4.ZocchettiC,ConsonniD,BertazziPA.Estimation of prevalencerate ratios from cross-sectional data.Int JEpidemiol,1995,24:1064-1065.
5.Yu B,Wang Z.Estimating relative risks for common outcome using PROC NLP.ComputMethods Programs Biomed,2008,90(2):179-186.
6.Skov T,Deddens J,Petersen MR,et al.Prevalence proportion ratios:estimation and hypothesis testing.Int JEpidemiol,1998,27:91-95.
7.Zou G.A modified Poisson Regression Approach to prospective studies with binary data.Am JEpidemiol,2004,159:702-706.
8.劉小寧,高文龍,顏虹.雙重差分模型在社區干預研究效果評價中的應用.中國衛生統計,2013,30(1):21-22.
9.高俊嶺,傅華.多水平發展模型在社區干預性研究中的應用.中國衛生統計,2009,26(2):459-461.
(責任編輯:劉 壯)
*:國家自然科學基金(81230016);蘭州大學中央高校基本科研業務費專項資金(lzujbky-2014-156)
1.蘭州大學公共衛生學院(730000)
2.西安交通大學醫學部公共衛生學院(710061)
△通信作者:顏虹