濰坊醫學院公共衛生學院(261053) 孟維靜 王素珍 呂軍城 石福艷
隨機對照試驗(RCT)被認為是臨床試驗研究最理想的金標準。但受一些研究條件及倫理學因素的限制,隨機化受到很大限制〔1-2〕。當隨機化不能夠實現或者遭到破壞時,治療效果的判斷變得非常復雜,因為我們無法判定組間的差異是由于治療或暴露所引起的,還是由于組間的分配不平衡而造成的。多元模型和傾向指數等方法是解決該問題的常用研究方法〔3〕。而且傾向指數方法易于理解、研究步驟標準化程度高,近年來應用傾向指數處理非隨機化數據得到了更多的關注,有越來越多的研究者開始應用此方法來平衡組間的不均衡〔4〕。本文應用SAS程序模擬研究傾向指數分層法處理非隨機化試驗數據的效果。
傾向指數法是均衡組間偏倚的有效方法,由Rosenbaum 和Rubin在1983年首次提出〔5〕,其主要目的是通過均衡組間各個混雜因素變量來降低偏倚,其實質是將多個協變量的影響因素用一個傾向指數來表示(相當于降低了協變量的維度),根據傾向指數進行不同治療組間的匹配,對觀測性數據的混雜因素進行類似隨機化的均衡處理。傾向指數的具體定義是:按照給定的一組特征變量(xm)將任意一個研究對象i(i=1,2,…,N)劃分到治療組(Zi=1)的條件概率,第i個研究對象被分配到治療組的概率可以表達為:e(xi),即P,被稱為傾向指數。

假設從治療組選出研究對象i,則e(X)=pri(Z=1|X=xi),再從對照組選出一個研究對象j,那么e(X)=prj(Z=1|X=xj);如果 Pri=Prj,則必然有xi=xj,如果盡量使Pri無限地接近Prj,則 xi和 xj必然十分接近〔6〕。因此,經過傾向指數調整的組間個體,除了處理因素和結果變量分布不同外,其他協變量應當均衡可比,相當于“事后隨機化”,使觀察性數據達到“接近隨機分配數據”的效果。應用較多的傾向指數方法包括匹配(matching)、分層(stratification)和回歸校正(regression adjustment)等〔7-8〕。
傾向指數分層法是把傾向指數作為分層的唯一標準,通過模型估計傾向指數后,按傾向指數進行分層,層內組間協變量應該是均衡的,將各層處理效應賦予權重后相加起來估計處理效應,并檢查各層內暴露組和對照組間每個協變量的均衡性〔9〕。
在新藥臨床試驗以及流行病學研究中,一般可以運用logistic回歸方法來估計傾向指數,數學模型如下:

其中,e(xi)為傾向指數,α,β為模型的參數,其中α即組間效應,β為回歸系數,X為協變量。
1.SAS生成數據過程
在上述假定的基礎上,模擬生成A、B兩組隨訪數據。由線性模型Y=Zδ+X'β+ε生成模擬數據,其中δ代表組間效應。首先生成協變量X,假定模型中有三個自變量:連續型變量X1,二分類變量X2,X3。為了模擬兩組中協變量的不同分布情況,分別對處理組A和對照組B生成不同的協變量:對于處理組A(Z=1),假定 X1~N(d,σ21),X2~Bernoulli(p2t)和 X3~Bernoulli(p3t);對于對照組 B(Z=0),假定 X1~N(0.2),X2~Bernoulli(p2c)和 X3~Bernoulli(p3c)。通過控制 d和二項分布的概率 p2c,p2t,p3c和 p3t,可以模擬各種不同水平的協變量分布的情況。然后根據協變量X和處理分配Z,使用預先設定的δ、β和獨立產生的正態分布誤差ε~N(0,σ2ε)生長Y變量。根據上述模型和設定的參數值,由SAS模擬產生帶有協變量的兩組隨機數,設定協變量的系數(β1,β2,β3)=(0.5,0.4,0.4)。其他參數值的設定為(σ1,δ,d,p2c,p3c,p2t,p3t,σε)=(0.6,0.1,0.5,0.3,0.7,0.5,0.9,1.0)。
用分組變量作因變量,協變量X1,X2,X3做自變量,建立logistic回歸模型,并計算傾向指數,根據傾向指數進行五等分。分層前后分別對兩組進行比較,對處理效應做出評價。同時,對分層前后協變量的均衡性進行比較,進而得出最終結論。在既定的參數設置下,程序每循環一次對一個總樣本量為1000的兩組數據完成一次模擬,SAS程序循環1000次后,模擬完成。
2.模擬結果
(1)處理效應的估計
分層之前,對于A、B兩組間的處理效應,每次模擬的數據采用兩樣本t檢驗,循環1000次,1000次均有P<0.05,無P>0.05的情況出現,總體上表明兩組間差異有統計學意義。

處理效應^δ的方差估計值可以用下面的公式計算〔10〕:

樣本量較大時,^δ服從正態分布〔10〕,以此來估計處理效應。因此,五分層之后,對于A、B兩組間的處理效應,用公式(6)進行統計推斷。

對既定的樣本,循環1000次,其中有948次P<0.05,有52次P>0.05,表明在平衡了協變量之間的不均衡后,兩組間差異有統計學意義。
(2)協變量的均衡性比較
本文采用假設檢驗評價分層前后層內協變量的均衡性。循環1000次后,結果見表1。

表1 分層之前兩組間協變量的均衡性
由表1可以看出,分層之前,對X1進行兩樣本t檢驗,循環1000次,1000次均為 P<0.05,表明變量X1兩組間差異有統計學意義。對于變量X2,X3采用四格表χ2檢驗,循環1000次,其中P<0.05的次數均為1000次,總體上表明變量X2,X3在兩組間均差異有統計學意義。說明變量 X1,X2,X3,在兩組間都不均衡。

表2 分層之后層內兩組間協變量的均衡性
分層之后,分別對X1,X2,X3層內進行檢驗,循環1000次,P<0.05的次數如表2,除第1層和第5層,由于兩組間的樣本含量太小而導致I型錯誤的概率大于0.05外,其余的2、3、4層 P<0.05的次數均小于5%,說明2、3、4 層中兩組中 X1,X2,X3之間的差別均無統計學意義。表明變量X1,X2,X3在層內兩組間基本達到了平衡。
在隨機化無法實現的試驗研究中,傾向指數能很好地平衡協變量引起的組間不均衡性〔6〕。分層法是傾向指數應用較多的方法之一,Rosenbaum和 Rubin認為按傾向指數分為5層就能減少90%的偏倚〔11〕。而且傾向指數分層法簡單易行,在大樣本量的情況下,不會損失樣本信息,因此得到廣泛的應用。
雖然傾向指數分層法越來越多的被人們應用,但是它也有一定的局限性:(1)傾向指數分層法只能平衡可觀測的變量,對于潛在的混雜因素無能為力〔12〕。(2)傾向指數分層法對大樣本數據平衡能力較好,對小樣本數據,很難達到滿意的均衡效果。因為較少的樣本量會導致某些特殊的情況出現,分層后組間協變量在最高層和最低層可能是不平衡的。(3)分層法協變量的均衡性只能在層內比較,不能直接比較研究樣本的均衡性。因此,要注意考慮傾向指數分層法的應用范圍。
本模擬研究結果表明,傾向指數分層法是一種很好的處理非隨機化數據的方法,為以后非隨機化臨床試驗數據的處理提供了理論基礎。
1.Guo SY,Barth RD,Gibbons C.Propensity score matching strategies for evaluating substance abuse services for child welfare clients.Children and Youth Services Review,2006,28(4):357-383.
2.Concato J,Shah N,Horwitz RI.Randomized,controlled trials,observational studies,and the hierarchy of research designs.N Engl J Med,2000,342(25):1887-1892.
3.王永吉,蔡宏偉,夏結來,等.傾向指數的基本概念和研究步驟(第一講).中華流行病學雜志,2010,31(3):99-100.
4.Stürmer T,Joshi M,Glynn RJ,et al.A review of the application of propensity score methods yielded increasing use,advantages in specific settings,but not substantially different estimates compared with conventional multivariable methods.Journal of Clinical Epidemiology,2006,59(5):437-447.
5.Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70(1):41-55.
6.鄭亮,夏結來,王素珍,等.非隨機化臨床試驗中傾向指數的應用.現代預防醫學,2009,36(15):2805-2809.
7.Hullsiek KH,Louis TA.Propensity score modeling strategies for the causal analysis of observational data.Biostatistics,2002,3(2):179-193.
8.Austin PC,Mamdani MM.A comparison of propensity score methods:a case-study estimating the effectiveness of post-AM statin use.Stat Med,2006,25(30):2084-2106.
9.王永吉,蔡宏偉,夏結來,等.傾向指數常用研究方法(第二講).中華流行病學雜志,2010,31(5):104-105.
10.Tu WZ,Zhou XH.A bootstrap confidence interval procedure for the treatment effect using propensity score subclassification.Health Services and Outcomes Research Methodology,2002,3(2):135-147.
11.Rosenbaum PR,Rubin DB.Reducing bias in observational studies using subclassification on the propensity score.Journal of the American Statistical Association,1984,79(387):16-524.
12.Brookhart MA,Schneeweiss S,Rothman KJ,et al.Variable selection for propensity score models.Prac Epidemiol,2006,163(12):1149-1156.