何孟霜,夏文俊,孫靜茹,來 鵬
(南京信息工程大學數學與統計學院,南京 210044)
ACTG175是一個比較治療艾滋病藥物zidovudine(齊多呋定)或didanosine(去羥肌苷)的單藥治療,與zidovudine和didanosine的聯合治療或zidovudine和zalcitabine(扎西他賓)的聯合治療的隨機臨床試驗.1995年研究的初步結果表示,ACTG175和CPCRA007被NIAID首次宣布已經在定義治療艾滋病感染者的標準和塑造后續臨床研究抗逆轉錄病毒藥物方面發揮了重要作用[1].
HIV病毒對人體有CD4+受體的淋巴細胞,主要是CD4+T淋巴細胞進行攻擊,它同時也會侵襲神經細胞.HIV病毒對人體細胞的感染有兩大特點:變異和潛伏.這也是感染艾滋病后的潛伏期比較長以及艾滋病疫苗很難研制成功的最大原因.CD4+細胞是人體免疫系統中的一種重要免疫細胞,其數量體現了藥物對HIV的抑制效果[2].CD4+計數的升高是由于藥物有效抑制了病毒復制,機體有機會產生新的未被病毒感染的CD4+細胞,從而增強人的免疫系統并減少各種機會性感染,所以其檢測結果對艾滋病治療效果和對患者免疫功能的判斷有重要作用.
在流行病學文獻中,平均治療效果是評估治療效果并被廣泛接受的一種方法.但是需要注意的是,療效平均值的估計會受到分布的有偏性、重尾或異常值等的影響,有可能導致療效判定的誤判.所以,更穩健的基于中位數的平均治療效果評判方法是迫切需要的.此外,在藥物臨床試驗中,由于試驗對象只能包含在一個測試組內,這導致該對象的其他測試組數據是缺失的,所以藥物臨床試驗數據本身是一個缺失數據問題.對該信息的有效利用,有助于提高藥效對比分析的準確性.Firpo[3]利用Nadaraya-Watson核估計得到傾向得分函數,通過Horvitz-Thompson逆概率加權方法研究了基于中位數的治療效果對比.更進一步的,Wang和Lai[4]提出了一種利用經驗似然技術[5]對設定的參數工作模型進行改進的方法,能夠有效計算藥物療效的中位數差.考慮到方法的靈活有效性,本文引入該方法到藥物療效評價的研究中.為此,本文針對ACTG175的艾滋病藥物臨床試驗數據,在治療對象相對數據缺失的情況下使用經驗似然方法及中位數差對其進行療效對比研究,以期給出切實可行、有效的藥物療效對比分析方法,并可廣泛應用于藥品療效分析中.
ACTG175數據主要包含下列解釋變量:age(年齡)、wtkg(體重千克)、hemo(血友病,0=無,1=有)、homo(同性戀活動,0=無,1=有)、drugs(藥物靜脈注射毒品史,0=無,1=有)、karnof(卡氏評分0~100)、oprior(開始研究治療前無zidovudine抗逆轉錄病毒療法,0=否,1=是)、z30(治療開始前30天使用zidovudine,0=否,1=是)、zprior(治療開始前使用zidovudine,0=否,1=是)、preanti(之前接受了抗逆轉錄病毒治療的天數)、race(種族,0=白人,1=非白人)、gender(性別,0=女,1=男)、str2(抗逆轉錄病毒治療歷史,0=無,1=有)、strat1(抗逆轉錄病毒治療歷史,1=是“未經過抗逆轉錄病毒療法”,0=否)、strat2(1=是“經過2到52周的抗逆轉錄病毒療法”,0=否)、symptom(癥狀指標,0=無癥狀,1=有癥狀)、treat(治療指標,0=zidovudine,1=其他療法)、offtrt(退出治療在96±5周,0=否,1=是)、r(CD4+T細胞在96±5周的計數是否缺失,0=失蹤,1=有觀察)、days(直到第一次出現病癥的天數):1) CD4+T細胞的數目至少下降50,2)事件顯示為艾滋病,或者(3)死亡).為了方便后續計算,分別將上述變量定義為(x1,x2,…,x19,x20).
ACTG175數據中四種藥物治療方案分別是:arms=0為zidovudine單獨用藥,arms=1為zidovudine和didanosine聯合用藥,arms=2為zidovudine和zalcitabine聯合用藥,arms=3為didanosine單獨用藥.本文通過研究在arms=0、1、2、3這四種不同的藥物治療方案下,經過20周后CD4+T細胞的數量差異來觀察這四類不同的藥物治療方案是否顯著不同.
為了比較藥物療效,以arms=0和arms=1這兩種方案的比較為例,設Y0i和Y1i分別表示arms=0和arms=1時的第i個病人在第20周時的CD4+T細胞數目,Y1i-Y0i即為方案1和方案0的療效差異.但是由于病人只存在這兩種方案之一的情況,接受其中一種用藥方案時,另外一種用藥方案的情況則是缺失的,因此令δi表示病人所在分組情況:
整個數據集可分為arms=0和1兩種情況.觀察到的數據集可表示為(Yi,Xi,δi),i=1,2,…,N,其中Yi=δiY1i+(1-δi)Y0i,Xi=(x1i,…,x20i)T表示第i個觀測向量.
對于傳統的基于均值差來反映藥效療效的方法,可以通過已知的(Y1i,Xi)和(Y0i,Xi)來計算.記不同藥物下隨機向量的聯合分布分別為F1(y,x)和F0(y,x),那么Y1i和Y0i的邊緣分布分別為F1(y)和F0(y),顯然療效期望差表示為:

考慮到自變量過多,而過多的自變量容易導致擬合模型產生冗余信息,變量間也可能出現強相關關系.因此,本文通過研究因變量與自變量之間的相互影響,應用逐步回歸檢驗方法篩選出不同藥物治療方案下的重要變量,即原始多元線性回歸模型:
y=β0+β1x1+β2x2+…+β20x20+ε,
利用逐步篩選得到的重要變量構建多元線性回歸模型:


ψ(x,β,t)=F1(t|x,β)-1/2,

逆概率加權方法最早是由Horvitz和Thompson[6]提出,通過對觀測的yi進行加權,從而改進建模效果.arms=0和1兩種方案表明在觀察其中一種用藥方案時,另外一種用藥方案的情況是缺失狀態,即20周的CD4+T細胞數據缺失.不妨設這種缺失是隨機缺失,也就是
P(δ=1|Y1,Y0,X)=P(δ=1|X)=ω(X,θ).
(1)

前面所給出參數模型中假設了正態分布模型作為工作模型進行計算,但該假設的正確性需要對四種用藥方案下20周的CD4+T數目進行正態性檢驗.如果拒絕正態性假設,則無論是在F1還是F0的工作模型下,上述采用的基于參數模型的中位數回歸比較的結果都會有較大偏差,而逆概率加權法,從公式(1)可以發現利用到的X的信息不充分.
本文將采用經驗似然方法對條件正態分布F1和F0下的結果進行修正,通過對缺失概率和偽似然函數的模型改進,獲取更多信息,來確定不同方案的中位數.Owen[7-8]首次系統地提出了經驗似然法,并用來處理非參數統計問題.經驗似然方法作為一種非參數統計方法有很多優點,除置信區間的域保持性、變換不變性及由數據決定置信域的形狀外,還有Bartlett糾偏性及無需構造樞軸統計量等優點[9].
已知(y1i,xi),i=1,2,…,m和(y0i,xi),i=1,2,…,n,定義如下的偽似然函數:
其中,F1(y1i,xi)和F0(y0i,xi)具有共同的邊緣分布F(x),則arms=1時第i個個體的抽取概率為pi=dF1(y1i,xi),i=1,2,…,m,而arms=0時第i個個體的抽取概率為qi=dF0(y0i,xi),i=1,2,…,n.由E(ω(X,θ)-η)=0,E[ψ(X,β,ξ)]=0,η=E[ω(X)]=p(δ=1),可構建帶約束的對數似然函數為:
(2)
其中,pi,qi滿足以下條件:
為求對數似然函數的最大值,引進拉格朗日乘子λ1,λ2,τ1,τ2,得到:
(3)
其中,λ1,λ2,τ1,τ2滿足下面四式:

將λ1,λ2,τ1,τ2的估計值代入(3)式,可求得針對arms=1中每個個體的缺失率pi,i=1,2,…,m和針對arms=0中每個個體的缺失率qi,i=1,2,…,n.則經驗似然調整后的兩個分布下的中位數,可通過求解下列方程組得到:
(4)
在參數模型下,假設20周的CD4+T細胞數目服從條件正態分布,通過逐步回歸檢驗方法篩選出不同藥物治療方案下與目標變量具有較大聯系的自變量.篩選結果顯示F1的均值和x11,x12,x13,x16,x20相關,F0的均值和x13,x16,x20相關,即條件分布函數為:
F1(y|X,β)~N(β1+β2x11+β3x12+
β4x13+β5x16+β6x20,1),
F0(y|X,γ)~N(γ1+γ2x13+γ3x16+γ4x20,1),
其中F1,F0分別代表arms=1和arms=0時20周的CD4+T細胞數目的分布函數,β1,…,β6和γ1,…,γ4為未知參數.由極大似然估計法,可得arms=1和0兩種方案中的20周的CD4+T細胞數目服從的正態條件分布函數如下:
F1(y|X,β)~N(335.009-44.87x11->35.2x12-80.107x13-46.067x16+0.18x20,1),F0(y|X,γ)~N(243.122- 53.453x13-40.145x16+0.163x20,1).

表1 四種方案的正態性檢驗結果Tab.1 Normality test results of four schemes
然而,對四種方案下20周的CD4+T細胞數目進行正態性檢驗(表1),可以看出各方案下的Shapiro-Wilk檢驗統計量的值均接近1,p值顯著小于0.05,表明四種方案都拒絕了正態性的原假設,即不服從正態分布.故考慮引入逆概率加權及經驗似然的中位數回歸模型調整分布,結合式(1)、(3)、(4)計算不同方案的中位數差,將所求中位數兩兩組合進行比較,結果見表2.
從表2可以看出,樣本中位差、逆概率加權和經驗似然等方法估計中位數之差時發現,arms=0時20周的CD4+T細胞數目明顯少于其它3種方案,arms=1時20周的CD4+T細胞數目多于arms=2和3,arms=2和3之間20周的CD4+T細胞數目幾乎沒有差異.可以初步判斷,arms=1的療效優于其它3種方案,arms=0的療效劣于arms=2和3,arms=2和3的療效幾乎沒有差異.而在基于參數模型的中位數回歸比較時觀測到的療效差異和其它方法相比差距較大,尤其體現在arms=3和1的比較中,該方法所得結果arms=3的療效要優于arms=1的療效,與另外三種比較方法結果相反,其它比較結果同另外三種比較方法類似.由于比較中位數之差沒有利用協變量的信息,參數模型的中位數回歸基于很強的正態分布假設,逆概率加權方法未利用全部信息,而經驗似然估計修正了這三種比較方法的缺陷,其結果最貼近真實情況,即arms=1的療效優于其它3種方案,arms=0的療效劣于arms=2和3,arms=2和3的療效幾乎沒有差異.為了對這種差異的顯著性進行驗證,本文采用Bootstrap來估計中位數之差的置信區間并進行檢驗判斷.

表2 四種比較方法下療效中位數差異的綜合結果Tab.2 The comprehensive results of the difference in the median efficacy of the four comparison methods
Bootstrap是非參數統計中一種重要的估計統計量方差進而進行區間估計的統計方法,也稱為自助法[10].取顯著性水平為0.05,得到4個用藥方案抗艾滋的療效差異對比的置信區間見表3.

表3 中位數之差的置信區間Tab.3 Confidence interval for the difference between the medians
表3給出了在四種中位數比較方法下,對arms=0、1、2、3這幾種治療方案相互比較的結果,顯著性水平取0.05.縱向觀察經驗似然法下兩兩比較的結果,發現arms=0和arms=1、2、3中20周的CD4+T細胞數目的中位數之差的置信區間都在零點右側,說明arms=0時20周的CD4+T細胞數目顯著小于其它3種方案20周的CD4+T細胞數目,表明zidovudine單獨用藥的抗艾滋效果顯著最差.而arms=2、3和arms=1時20周的CD4+T細胞數目的中位數相比,20周的CD4+T細胞數目的中位數之差的置信區間都在零點左側,因此認為arms=1時20周的CD4+T細胞數目顯著大于arms=2、3時20周的CD4+T細胞數目,表明zidovudine和didanosine聯合用藥的抗艾滋效果要顯著優于zidovudine、zalcitabine聯合用藥和didanosine單獨用藥的效果.而arms=2和3中位數差的置信區間包含零值且關于零值幾乎對稱,因此認為zidovudine與zalcitabine聯合用藥和didanosine單獨用藥的抗艾滋效果沒有顯著差別.綜上,arms=1即zidovudine和didanosine聯合用藥能有效提高20周的CD4+T細胞數量,從而抑制病毒復制,表現出較好的的抗艾滋療效.
通過觀察表3,比較arms=1和3、arms=2和3這兩組的中位數之差時,基于參數模型的中位數回歸比較法的置信區間相較其它幾種比較方法,結果粗糙且可信度低,而經驗似然方法下的置信區間與其它幾種方法的置信區間相比差異更顯著且可信度更高.
本文根據ACTG 175的數據分析不同用藥方案下的抗艾滋療效差異.基于參數模型的中位數回歸建立在正態分布模型假設之下,計算簡便快速,但是由于假設條件過強,導致結果偏差較大.為此采用經驗似然調整分布,根據缺失數據的特點,定義偽似然函數并引進拉格朗日乘子,結合極大似然法求解出中位數之差.最后利用Bootstrap抽樣方法得到置信區間以觀察各組方案的療效差異.對結果分析,得到結論:zidovudine和didanosine聯合用藥的抗艾滋效果顯著最優,zidovudine單獨用藥的抗艾滋效果要顯著劣于zidovudine、zalcitabine聯合用藥和didanosine單獨用藥,zidovudine和zalcitabine聯合用藥和didanosine單獨用藥的抗艾滋效果沒有顯著差別,zidovudine單獨用藥的抗艾滋效果顯著最差.