李玉森 夏結來△ 王 陵△ 陳 東 蔣志偉 王永吉
在抗腫瘤新藥臨床試驗中,近期療效評價標準〔1〕(依據WHO頒布的實體瘤近期療效評價標準)即藥物治療后瘤體的變化,主要由四個指標表示:PR-腫瘤部分消失,CR-腫瘤完全消失,SD-腫瘤穩定或NC-腫瘤無變化(SD和NC算為同一指標),PD-腫瘤進展。主要的遠期療效評價標準〔2〕(根據美國FDA《關于批準抗腫瘤化學藥和生物制劑臨床試驗終點指標的產業指南》),主要有六個指標:ORR(overall response rate有效率)、臨床獲益率、OS(overall survival生存時間)、PFS(progress free survival無進展生存期)、TTP(time to progression進展時間)、CR等指標。OS指標容易觀察且不存在觀察偏倚,并且可以直接評估臨床獲益,被認為是金標準終點指標。抗腫瘤藥物的評價方法主要是生存分析,即通過比較受試者的生存時間、生存率、無進展生存期等判斷藥物是否有效。
在抗腫瘤新藥的臨床試驗中,受試者在試驗開始時被隨機分為試驗組和對照組。當試驗進行若干周期后,經療效評價發現試驗藥物有效,若對照組受試者要求接受新藥治療,依倫理學要求該受試者應轉到試驗組繼續治療;或者試驗組的受試者認為此種治療方法缺乏療效,提出退出試驗或轉到其他方法治療。對這些轉換組別的受試者,其生存時間由單一的對照組變為對照組和其他治療的混合,試驗設計時的隨機化就被破壞了。在這種情況下,傳統的分析方法進行OS的計算會產生偏移。
對于臨床試驗中存在轉換組別的受試者,即選擇性交叉的受試者,傳統的處理方法有四種:(1)不對交叉的受試者的數據做任何的適應性調整,直接進行意向性分析。(2)把交叉的受試者的數據看作缺失值處理。(3)把交叉的受試者的數據作為刪失值處理。(4)進行Cox回歸時,把是否交叉治療當作一個隨時間變化的變量來處理。但是,使用傳統的處理方法解決問題時,會出現以下問題:當采用意向性方法分析時,統計分析結果會低估試驗藥的療效。而把交叉患者的數據當作刪失值處理或把刪失時間放入Cox模型來估計藥物效果時,若交叉的受試者與未交叉的受試者死亡率不同,則會出現偏倚,結果會夸大試驗藥的療效。國外學者Robins與Rotnitzky在1994年針對單向交叉數據提出的一種處理方法,即逆概率刪失加權方法〔3〕(inverse probability of censoring weighted method),簡稱 IPCW 法。英國的 NICE(national institute for health and clinical excellence)機構認為IPCW法是矯正單向交叉導致的偏倚的有效統計方法〔4〕,近年來被廣泛用于新藥臨床試驗的數據處理。
在抗腫瘤藥物隨機對照臨床試驗中,ICPW法的應用主要是在出現受試者刪失或單向交叉時,調整受治療或暴露因素影響的、隨時間變化的混雜因素所造成的偏倚。
該方法的主要原理是通過加權,建立一個假設未出現單向交叉的虛擬數據集,然后對該數據集進行統計分析。具體來說,如果一個對照組的受試者轉到試驗組,IPCW方法指定一個大于1的權重,對該受試者的前幾個訪視日期加權,作為該受試者的總生存時間(OS),代替該受試者轉組后的生存時間,重新建立一個相當于未出現過轉組的虛擬數據集。對虛擬數據集進行Cox回歸分析,通過比較OS來評價試驗藥與安慰劑或對照藥的療效差異。
IPCW法的流程圖如圖1(假定訪視三周期后出現轉組):
根據訪視和治療情況,把每個受試者從隨機化開始到出現終止性事件(刪失、死亡或者轉組)的整個研究時間劃分為幾個周期。在每個周期,計算可以標識終止性事件的指示性變量(如實驗室指標、轉移灶的出現、不良事件的發生、疾病進展的日期等)的值及從隨機化開始到該周期的時間(一般以周數計),同基線資料合并,建立面板數據集。
IPCW法第二步是權重的計算。每周期權重的計算需要兩個模型,計算時以是否轉換組別為因變量,以基線數據和轉組指示變量為自變量,擬合logistic回歸模型,算得權重。第一個模型是把基線特征作為自變量納入,以是否出現終止性事件(刪失、死亡或者轉組)為因變量,擬合logistic回歸可得轉組受試者理論上未出現終止性事件的概率P1。第二個模型中,以基線特征和標識轉組的指示性變量為自變量同時納入模型,以是否終止性事件(刪失、死亡或者轉組)為因變量,進行logistic回歸,求得理論上未出現終止性事件的概率P2。從隨機化開始到該周期結束,由第一個模型得到的概率P1(若在第一周期后則為累積概率)作為分子,由第二個模型得到的概率P2(若在第一周期后則為累積概率)作為分母,兩個累積概率的比值即為該周期的權重。

圖1 IPCW法應用流程圖
受試者i在周期j的權重SW(j)i,其計算公式為〔6〕:

公式(1)中,C(k)i表示在周期k末期是否存在單向交叉或刪失的函數,1表示存在單向交叉或刪失,0表示不存在單向交叉或刪失。
X(0)i:表示受試者的基線數據。
Y(k)i:表示在周期k開始前,隨時間變化的變量的數據。
P[C(k)i=0|C(k -1)i=0,X(0)i]:表示在已知基線特征X(0)i數據的條件下,k周期前未單向交叉的受試者,在周期k末期可能不會出現單向交叉的概率。
P[C(k)i=0|C(k - 1)i=0,X(0)i,Y(k)i]:表示在已知基線特征X(0)i數據及受試者轉組的指示變量Y(k)i數據的條件下,在k周期前未出現單向交叉的受試者在周期k末期可能不會出現交叉的概率。
在受試者單向交叉的時間點,根據步驟2算出的權重對原始數據進行加權。對于隨機化分到試驗組的受試者,權重定為1,即療效評價指標總生存期不變;對于對照組轉到試驗組的受試者,在轉組后生存時間的權重定為0,根據步驟2中所算得的權重,對該受試者的前幾個訪視周期進行加權,加權后的時間作為該受試者的總生存期;對照組中未轉組受試者的總生存期不變。對加權后的數據進行Cox回歸,因變量為受試者的總生存期,自變量為分組變量,基線數據特征,及轉組指示變量(如ECOG評分),可算得風險比HR。
通過Cox回歸算得HR,從而比較總生存時間的差異時,未調整HR的95%的置信區間由于權重的引入會有偏倚,所以通要過Bootstrap法估計HR的95%的置信區間。
本次研究采用Monte Carlo模擬產生試驗組與對照組的數據,比較三種方法(IPCW法、ITT法、把轉組的受試者數據作為刪失數據處理(censored)方法)之間的檢驗效能與假陽性率差異。
模擬假定試驗組中位生存期為400天,對照組中位生存期為360天,分別模擬產生指數分布的兩組生總生存期(OS)數據;模擬產生正態分布的協變量年齡的數據,模擬產生Bernoulli分布的協變量性別的數據;模擬產生正態分布的轉組指示變量ECOG評分的基線數據,分別模擬產生第一二周期試驗組和對照組ECOG評分的增長量,第一二周期ECOG評分即為基線值加上各周期的增長量。該評分隨著試驗進行而增加,當在第二周期末該評分大于或等于4時,對照組受試者轉到試驗組。設定樣本量從100增加到600,每一個設定的樣本量模擬1000次。比較三種方法的檢驗效能,模擬結果見圖2。

圖2 三種方法檢驗效能比較
由圖2可知,當模擬假設試驗組的OS大于對照組,樣本量從100增加到600時,三種方法的檢驗效能隨樣本量的增加而增大。censored法的檢驗效能最優,其次是IPCW法,ITT法檢驗效能最低。censored法檢驗效能雖然較好,但應用該方法分析時會高估試驗藥的療效,因此不適合處理出現轉組的生存分析數據。
模擬假定試驗組和對照組中位生存期都為400天,即假設試驗組與對照組OS沒有差異,其他變量模擬同檢驗效能模擬實驗。設定樣本量從100增加到600,每一個設定的樣本量模擬1000次。模擬比較三種方法的假陽性率。模擬結果見圖3。

圖3 三種方法假陽性率的比較
由圖3可知,當模擬假設試驗組和對照組的OS相等,樣本量從100增加到600時,ITT法和IPCW 法的假陽性率在0.05左右,而censored法的假陽性率在樣本量為100時假陽性率大于0.05,并隨樣本量的增加而增加。出現這種情況是因為censored法會高估試驗藥的療效,當模擬假設試驗組和對照組中位生存期相等時,censored法處理時把轉組受試者轉組后的生存時間當作刪失數據,使得試驗藥的OS高于對照藥,樣本量較大的情況下,即使試驗藥和對照藥沒有差異,也會得出試驗藥有效的錯誤結論。
模擬試驗表明,當試驗組與對照組OS有差異時,IPCW法檢驗效能優于傳統分析方法ITT法。censored法雖然檢驗效能較高,但該方法會高估試驗藥的療效,與新藥臨床試驗傾向使用保守統計方法的傳統做法相悖,且當兩組OS相同時其假陽性率較高,因此不適合轉組數據的分析。綜上,IPCW法相較于ITT法陽性率控制良好且有較高的檢驗效能,是一種分析轉組數據的較好的統計方法。
本次模擬研究的局限在于模擬時僅僅考慮了兩個協變量(性別和年齡),作為轉組指示變量ECOG評分設置較為簡單,且對受試者轉組前的方式周期僅僅劃分為兩個周期。探索增加協變量、增加訪視周期、改變轉組指示變量及轉組條件對IPCW法檢驗效能的影響,將會是下一步研究的重點。
以1998年至2009年國際乳腺癌研究組織(BIG)進行的一項比較試驗藥來曲唑與對照藥它莫西芬臨床試驗為例〔5〕,闡述IPCW法的應用。
受Novartis公司委托,國際乳腺癌組織進行了一項以評價新藥來曲唑療效為目的的臨床試驗。整個試驗為隨機雙盲平行對照設計,在2003年完成入組,其中對照組它莫西芬組病例2459例,試驗組來曲唑組2463例,試驗共入組4922例。數據管理與統計分析委托美國國立癌癥研究中心(NCI)進行。
2005年對受試者的數據進行統計分析,評價指標為無病生存期(DFS),統計結果表明:來曲唑與它莫西芬的比較中,HR=0.81(95%CI=0.70 ~0.93)),即來曲唑的療效優于它莫西芬。根據倫理學原則,若患者要求,則可以由它莫西芬組轉到來曲唑組。該評價結束后,對照組有25%的受試者選擇轉到試驗組,隨訪繼續。試驗設計由隨機對照臨床試驗變為觀察性研究,并隨訪至2009年。
統計分析采用3種方法,主要分析指標為OS(O-verall Survival總生存期)。
1.應用ITT分析,按試驗設計時的分組進行分析,比較來曲唑組與它莫西芬組的OS的差異,分析結果顯示,HR=0.87,差異沒有統計學意義(P>0.05);
2.把轉組的受試者數據作為刪失數據處理,分析結果表明,來曲唑與它莫西芬相比,HR=0.81,經檢驗差異有統計學意義(P<0.05);
3.逆概率刪失加權方法(IPCW),數據處理時,納入所有影響轉組和試驗結果的因素:基線數據(包括受試者年齡、病灶狀態和腫瘤分級)、隨時間變化的變量(即轉組指示變量:體質狀況評分)、標識是否出現終止性事件的二分類變量。通過擬合logistic回歸模型,算得權重,以此權重給原數據中OS加權。對加權后的數據進行統計分析,比較試驗組與對照組OS的差異;經分析,來曲唑與它莫西芬相比,HR=0.83,經統計學檢驗差異有統計學意義(P<0.05)。具體結果見表1、圖 4。
由表1和圖4可知,在2005年對受試者數據進行第一次統計分析,分析結果表明來曲唑的療效優于它莫西芬,對照組(它莫西芬組)有25%的受試者出現了轉組,因此最終進行ITT分析時,對照組中轉組的受試者的生存時間包括接受來曲唑治療的生存時間和轉組后接受它莫西芬治療的生存時間,分析時低估了試驗藥的療效,以致兩個藥的差異結果沒有統計學差異。而把轉組的受試者數據當作刪失數據處理時,對照組25%轉組的受試者的數據作為刪失數據,高估了試驗藥的療效。應用逆概率刪失加權法分析時,把轉組受試者的數據剔除,對于與對照組轉組的受試者相似者加權,建立一個相當于未出現轉組的“虛擬數據集”,對該虛擬數據集進行統計分析,分析結果更為準確。

表1 三種方法分別對OS的分析結果

圖4 三種方法分別對OS的分析結果
在抗腫瘤藥物的臨床試驗中,由于試驗條件限制,同時要考慮到受試者受益的原則,理論上的最優設計通常無法在現實中實現。因此,數據收集與分析時,往往要損失部分信息〔4〕。如本文例子中所提,若腫瘤臨床試驗出現轉組時,則試驗設計時的隨機化被破壞,傳統分析方法分析會出現偏倚:如果按ITT原則分析時,因為試驗藥優于對照藥才產生轉組,對照組中發生轉組的受試者的生存時間,是轉組前在對照組觀察時間與轉組后在試驗組的觀察時間之和,因此統計分析會低估試驗藥的療效;如果把發生轉組的受試者的數據當作刪失數據處理時,則會損失許多有用信息,同時對照組受試者在轉組后實際生存時間大于試驗開始到出現轉組的時間點,會高估試驗藥的療效。
針對上述情況提出和應用的一些新的統計方法如IPCW法、RPSFT法等,對轉組的受試者的觀察數據挖掘使用,信息利用更加充分,分析結果更為準確。本文所介紹的IPCW法,其實質是對轉組受試者生存時間的填補,并且對于缺失數據的要求由MCAR(完全隨機缺失)放松為SMAR〔7〕(連續性隨機缺失)。該方法利用了轉組受試者的數據資料,減少了信息的損失,同時考慮到了試驗藥和對照藥的療效差異,通過對原始數據的加權,衍生了新的相當于未轉組的虛擬數據集,通過對虛擬數據集的統計分析來評價試驗藥與對照藥的療效差異,與傳統的方法按ITT原則分析和把轉組的受試者當作刪失相比,更加客觀。
IPCW法的應用也有一些局限:一是該方法要求試驗設計是隨機對照實驗,并且與計算每個周期的權重有關的變量都已被準確計量〔8〕,否則權重計算錯誤,結果會出現偏倚。二是要求交叉判定必須準確,本方法的應用前提就是對受試者出現交叉或脫落做出準確判定。只有判定準確,應用才會有意義,評價判定準確與否的方法采用敏感性分析。
總之,IPCW法在臨床試驗數據分析中的應用會更加廣泛,但是在應用時一定要注意它的適用條件。
1.陳智偉,廖美琳.RECIST標準在腫瘤治療療效評價中的應用.中國腫瘤,2004,13(10):616-618.
2.唐健元,馬莉,張磊.歐美腫瘤藥物評價策略簡介及思考.中華腫瘤雜志,2008,30(10):798-800.
3.Hubbard AE,Vanderlaan MJ.Nonparametric Survival Estimation when Death is Reported with Delay.Lifetime Data Analysis,2000,6:237-250.
4.Finkelstein DM,Schoenfeld DA.Correcting for Discretionary Treatment Crossover in an Analysis of Survival in the Breast International Group BIG 1-98 Trial by Using the Inverse Probability of Censoring Weighted Method Satoshi Hattori.Mai Kato,2011:1093-1095.
5.Adjusting for Selective Crossover in Analyses of Letrozole Versus Tamoxifen in the BIG 1-98.Trial.http://www.ibcsg.org/Sitecollection Documents/Presentations/1-98_SABCS_2009_FINAL_SLIDES.pdf.
6.Pazopanib(Votrient(r))for the first-line treatment of patients with advanced renal cell carcinoma(RCC)ADDENDUM to GSKS SUBMISSION TO NICE 20 JULY 2010.http://www.nice.org.uk/nicemedia/live/12032/52299/52299.pdf.
7.Satoshi Hattori,Mai Kato.Approximate subject-deletion influence diagnostics for Inverse Probability of Censoring Weighted(IPCW)method,2009,79:1833-1838.
8.Karnon J,Kaura S.Updated Survival Based Analysis Using Inverse Probability of Censoring Weighted Analysis(IPCW)to Estimate the Cost-Effectiveness of Letrozole and Anastrozole,Versus Tamoxifen as Adjuvant Therapy in Postmenopausal Women with Early Breast Cancer.ASCO2010.http://www.asco.org/ascov2/Meetings/Abstracts?&vmview=abst_detail_view&confID=74&abstractID=52339.
9.Michael Branson,John Whitehead.Estimating a treatment effect in survival studies in which patients switch treatment.Statistics in Medicine,2002,21:2449-2463.
10.Honore BS.Khan J,Powell L.Handling drop-out in longitudinal studies.Stat.Med,2004,23:1455-1494.
11.孫振球,徐勇勇.醫學統計學.第2版.北京:人民衛生出版社,2006,364-376.