曾 新 姚 晨,△ 郭 翔 閻小妍
·論著·
臨床試驗中救助治療對臨床效應評價的影響研究*
曾 新1姚 晨1,2△郭 翔3閻小妍2
目的 本文引入秩方法對含有救助治療的臨床試驗療效結果進行分析,并與目前國內常用方法進行比較,為分析該類數據選擇合適的方法提供統計學依據。方法 采用Monte Carlo模擬的方法,考慮調整患者不同時點觀測值之間的相關系數和救助閾值,分析療效評價的Ⅰ型錯誤和檢驗效能,并與目前國內常用的完整案例分析和末次觀測結轉法進行比較。結果 Ⅰ型錯誤方面,當救助比例在20%左右時,不同方法差異較小,當救助比例較大時,按時間和末次觀測值調整的秩方法是最佳的方法。效能方面,當救助比例小于40%時,所有方法效能均大于0.8,當救助比例較大時,按末次觀測值調整的秩方法是最佳的方法。結論 在實際研究過程中,需要根據實際情況選擇合適的分析方法,而不是直接采用完整案例分析和末次觀測結轉法,以得到更有效的結果。救助治療的分析方法可以為安慰劑對照試驗提供一種新的設計和分析思路。
救助治療 秩方法 Ⅰ型錯誤 檢驗效能
在臨床試驗中,有時為保護受試者,在方案中會規定可合并的治療(或者用藥),一類是基礎治療,還有一類是在受試者指標達到警戒時的緊急救助治療。在臨床研究中,如果藥物療效不佳,患者可能會發生危險,這時需要研究者事先規定好一個閾值,一旦患者的主要指標達到該閾值,就對該患者采用預先規定好的救助方式進行治療。
顯然,救助治療后的試驗觀測值無法準確反映試驗藥物的真實效果,因為反映的是試驗藥物和救助藥物的療效總和。一般而言,救助治療會使得觀察到的治療效果比未經救助時的結果更好,救助治療對療效帶來的有利影響會減弱組間差異[1]。
在試驗規模較大或救助治療比例較小時,研究者可能忽略救助治療對結果的影響,直接分析觀測到的數據。如果研究者認為救助治療會對療效分析產生影響,一般的思路是將救助治療后的數據視為缺失值,因此處理救助治療的辦法也就是常見的處理缺失數據的辦法。如果將救助治療之后的數據看作缺失,可以發現這種缺失往往屬于隨機缺失(missing at random,MAR)[2],因為救助治療的發生與救助前的觀測值密切相關,但與救助后的觀測值無關。
在救助治療數據處理上,目前國內廣泛采用的方法是完整案例分析(complete case analysis,CC)和末次觀測結轉法(last observation carried forward,LOCF)[3]。這兩種方法都簡單易行,但都是基于完全隨機缺失(missing completely at random,MCAR)的機制[4-5],用來分析救助治療并不合適。多重填補法(multiple imputation,MI)和重復測量的混合模型(mixed-effects model repeated measures,MMRM)是兩種適用MAR機制的缺失數據處理的方法[6-8],但處理方式相對復雜,在國內使用較少。
目前國內外針對救助治療數據處理的研究文獻很少,White提出了一種秩方法的思路[1]。在臨床試驗中,救助治療本身有時可以被看作是一種“壞”的結果,因為暗示著試驗藥物的真實治療效果并不樂觀。為此,一個合理的思路是給接受救助治療的患者安排一個相對靠后的秩[9]。
1.改進的秩方法
對于未經過救助治療的患者,他們的觀測值都能反映所用藥物的真實療效。在最壞秩假設中,所有接受過救助治療的患者的秩是一樣的,這樣并不合理。所以改進的思路在于給這些患者排序。在最壞秩方法的基礎上還可以進一步提出三個假設。
對于所有接受過救助治療的患者:
1.末次觀測值越大,說明潛在結果越壞;
2.救助之前最后一次觀測的值越大,說明潛在結果越壞;
3.救助時間越早意味著潛在結果越壞。
2.模擬研究方法
本研究共模擬比較以下幾種方法:
(1) 完整案例分析(CC);
(2) 末次觀測結轉(LOCF);
(3) 秩方法。
下面通過模擬一項降血糖的研究來比較各方法。數據模擬的一個優勢在于,我們事先知道試驗藥物和對照藥物的實際療效,因此可以將前面提到的方法的結果與真實數據(REAL)的結果進行比較。設該研究共有10個訪視點,主要指標是末次訪視點的糖化血紅蛋白(HbA1c)。
數據模擬由計算機完成,模擬數據的軟件采用R 2.15.0。組間比較均采用Wilcoxon秩和檢驗。本研究設定的模擬次數為5000次,樣本量設定為100人,兩組各50人。
假定沒有救助治療時,各組患者不同時點的HbA1c值服從多元正態分布。根據以往試驗得到的數據,糖尿病患者基線時的HbA1c均值為9,同一患者不同時點HbA1c值之間的相關系數約為0.7,不同患者HbA1c值的標準差約為1.2,據此可以設置分布的均值向量和協方差矩陣。
我們規定,從第4個訪視點開始,如果某位患者的HbA1c值大于設定的救助閾值,將對其采取指定的救助治療。同樣假設各訪視點HbA1c的下降值服從正態分布,通過設置均值向量和標準差可以模擬該分布。
1.Ⅰ型錯誤的模擬比較
(1) 參數設置
在比較Ⅰ型錯誤時,模擬比較的兩組在末次訪視點的療效應無差異,為此設在末次訪視點兩組的HbA1c均值為9.5。檢驗一類錯誤率時的具體參數見下表1。
對模擬產生的數據集用各方法進行分析,計算所有的模擬檢驗中出現陽性結果(P≤α)的比例即該方法的Ⅰ型錯誤水平[10]。
(2) 模擬結果
從表2可以看出,隨著同一患者不同時點HbA1c值之間的相關系數增大,按時間和末次觀測值調整的秩方法(ARTLV)始終是最佳的方法,因為該方法的Ⅰ型錯誤最小且最接近真實數據(REAL)的結果;完整案例分析(CC)的Ⅰ型錯誤在相關系數為0.9時突然增大;末次觀測結轉法(LOCF)的Ⅰ型錯誤有逐漸減小的趨勢;在相關系數為0.9時除CC和按救助前最后一次觀測值調整的秩方法(ARLV-BR)之外其余方法的Ⅰ型錯誤都很接近。
從表3可以看出,隨著救助閾值的增大,按時間和末次觀測值調整的秩方法(ARTLV)始終是最佳的方法,該方法的Ⅰ型錯誤保持在0.05~0.06之間;完整案例分析(CC)的Ⅰ型錯誤在0.05~0.07之間波動;末次觀測結轉法(LOCF)的Ⅰ型錯誤逐漸減?。辉诰戎撝禐?1時各方法的Ⅰ型錯誤都很接近。
從表2和表3可以看出,從控制Ⅰ型錯誤的角度看,按時間和末次觀測值調整的秩方法(ARTLV)始終是最佳的方法,但是當救助閾值達到11或者相關系數達到0.9時,LOCF方法和秩方法的Ⅰ型錯誤差異不大。同時,隨著救助閾值的增大和相關系數的增大,不同方法Ⅰ型錯誤的變化情況是相似的。事實上,救助閾值的增大和相關系數的增大,都將導致患者的救助比例減小,當救助比例足夠小時,不同方法之間的自然不會有明顯差異。進一步分析救助比例與Ⅰ型錯誤的關系見表4。可以發現,當救助比例在20%左右時,LOCF方法得到的 Ⅰ 型錯誤和其他方法與秩方法差異不大,從簡單易行的角度考慮,LOCF是更合適的方法。
2.檢驗效能的模擬比較
(1) 參數設置
在比較檢驗效能(1-β)時,模擬比較的兩組在末次訪視點的療效應有差異,為此設在末次訪視點試驗組的HbA1c均值為8.5,對照組為9.5。檢驗檢驗效能時的具體參數見下表5。
對模擬產生的數據集用前文所述的方法進行分析,計算所有的模擬檢驗中出現陽性結果(P≤α)的比例即該方法的檢驗效能。
(2) 模擬結果
由表6可以看出,隨著同一患者不同時點HbA1c值之間的相關系數的上升,除真實數據(REAL)的結果外,按末次觀測值調整的秩方法(ARLV)始終保持效能最大,是最佳的方法,其次是按時間和末次觀測值調整的秩方法(ARTLV);CC是效能最低的方法,這是因為CC會減少樣本量,自然導致效能降低;其他秩方法和LOCF的檢驗效能差異很小。
不同方法的檢驗效能與救助閾值的關系和與相關系數的關系類似,見表7,最佳方法是按最后一次觀測值調整的秩方法(ARLV),其次是按時間和最后一次觀測值調整的秩方法(ARTLV),CC最差,其余方法差異很小。
不同方法的檢驗效能與救助閾值的關系和與相關系數的關系類似,見表7,最佳方法是按最后一次觀測值調整的秩方法(ARLV),其次是按時間和最后一次觀測值調整的秩方法(ARTLV),CC最差,其余方法差異很小。
從效能最大的角度看,最佳方法始終是按末次觀測值調整的秩方法(ARLV),其次是按救助時間和末次觀測值調整的秩方法(ARTLV)。同樣地,當救助比例很小時,不同方法得到的檢驗效能差距不大,見下表8。當救助比例小于40%時,所有方法的檢驗效能均大于0.8,從檢驗效能的角度看,這時所有方法均可以選擇。
如前所述,國內大多直接采用處理缺失數據的方法處理救助治療數據。然而救助治療不同于一般的缺失數據,首先救助治療不符合完全隨機缺失的假定,而這是目前國內常用處理方法CC的基本假設[11]。更重要的是,救助后的觀測值并不是缺失,而是確實存在的,只是其中混雜了很多信息救助藥物的信息。如果能從中提取出試驗藥物的信息,就可以最大化的利用所有數據。然而,缺失數據的分析方法,無論是簡單的LOCF還是復雜的MMRM都不可能利用到救助后的信息。
Ⅰ型錯誤和檢驗效能是反映一種檢驗方法是否合理的兩個重要指標。筆者考察了預先設定的救助治療對臨床效應評價的影響,模擬比較了完整案例分析、末次觀測結轉和秩方法。模擬結果說明,當救助治療的比例在20%左右時,從方便實施的角度考慮,LOCF方法是可行的;當救助治療比例大于30%時,使用筆者提出的按末次觀測值調整的秩方法(ARLV)和按救助時間和末次觀測值調整的秩方法(ARTLV)是更好的選擇。考慮到一類錯誤率的上升意味著認為假藥有效的可能性上升,而檢驗效能說明的是有效的藥物不能上市的風險,藥監局往往更關心前者。從這個角度看,按救助時間和末次觀測值調整的秩方法(ARTLV)是最佳方案。
預設救助治療的思路可以被應用到安慰劑對照試驗中。對于有公認療法的疾病,不顧拖延治療的后果,采用安慰劑對照的做法常常被認為是不符合倫理的[12]。一個臨床試驗如果能夠顯示出試驗藥優于對照藥,便能為試驗藥的有效性提供足夠證據,不需要外部信息的支撐。而一個陽性對照的“等效性”試驗本身并不能證明新療法的有效性,因為“等效性”也可以指兩種藥均無效,為了得出結論還需要外部信息證明陽性對照藥的有效性[12]。
因此,從療效評價的角度,安慰劑對照試驗比陽性藥對照試驗更可靠。但正如前文所說,安慰劑對照常常被認為是不倫理的[13]。因為安慰劑組的患者,很有可能出現病情加重的情況,特別是對于亟需及時治療的疾病。這時為了保護患者,可以預先在臨床試驗中設計救助治療機制,如果出現問題便會采用救助治療。預設救助治療的安慰劑對照試驗是符合倫理的,但是目前國內常用的分析方法并不合適。常用方法之一是將救助治療的患者視為脫落,最后比較兩組的脫落率,這樣的分析方式會降低樣本量,進而降低檢驗效能。同時,如果救助治療比例大于20%,脫落率也將大于20%,高脫落率可能導致整個試驗設計被質疑。
本研究討論的救助治療的分析方法可以為安慰劑對照試驗提供一種新的設計和分析思路。對于安慰劑對照試驗,如果預先設定好救助治療機制,并在試驗過程中詳細記錄各時間點信息,對于救助后的患者,也不將其視為脫落,而是繼續記錄其各時間點的數值,最后,在分析階段,就可以選擇恰當的方式對結果進行分析。我們希望通過本研究能夠促進大家對于救助治療的理解,期待同行的后續深入研究和探討。
[1]Ian RW,Christina B,Pollyanna H,et al.Randomized clinical trials with added rescue medication:some approaches to their analysis and interpretation.Statistics in Medicine,2001,20(20):2995-3008.
[2]唐健元,楊志敏,楊進波,等.臨床研究中缺失值的類型和處理方法研究.中國衛生統計,2011,28(3):338-343.
[3]陳淵成,張菁.確證性臨床試驗中數據缺失的處理指南.中國新藥雜志,2012,21(7):732-736.
[4]European Medicines Agency.Guideline on missing data in confirmatory clinical trials.Committee for Medical Product for Human Use:London,2010.
[5]龐新生.缺失數據處理方法的比較.統計與決策,2010(24):152-155.
[6]Ohidul S,HM James Hung,Robert O′Neill.MMRM vs.LOCF:a comprehensive comparison based on simulation study and 25 NDA datasets.Journal of Biopharmaceutical Statistics,2009,19(2):227-246.
[7]Ohidul S.MMRM versus MI in dealing with missing data-a comparison based on 25 NDA data sets.Journal of Biopharmaceutical Statistics,2011,21(3):423-436.
[8]Donald BR.Multiple imputation for non-response in surveys,vol.307.New York:Wiley,2009:15-17.
[9]John ML.Worst-rank score analysis with informatively missing observations in clinical trials.Control Clin Trials,1999,20(5):408-422.
[10]Andrea B,Douglas GA,Patrick R,et al.The design of simulation studies in medical statistics.Statistics in Medicine,2006,25(24):4279-4292.
[11]Roderick JA Little,Donald BR.Statistical analysis with missing data,vol.539.New York:Wiley,1987:7-10.
[12]Temple R,Ellenberg SS.Placebo-controlled trials and active-control trials in the evaluation of new treatment.中美生物醫學和健康研究倫理學高級研修培訓班論文集,2005.
[13]王曉敏.安慰劑對照試驗的倫理辯護.論理學研究,2013(2):124-127.
(責任編輯:郭海強)
Research on the Impact of Rescue Therapy to the Evaluation of Clinical Effects in Clinical Trials
Zeng Xin,Yao Chen,Guo Xiang,et al.
(Medical Statistics office,Peking University First Hospital,Peking University(100034),Beijing)
Objective Author introduces and improves rank method to analyze the results of clinical trials containing rescue therapy,compares it with the conventional methods and provides statistical basis for the analysis of such data to select the appropriate method.Methods Through Monte Carlo simulation,consider adjusting the correlation coefficient of the observed values of the same patient at different points and rescue threshold,compare type I error and power of efficacy evaluation among rank method and conventional methods (complete case analysis (CC) and last observation carried forward (LOCF)).Results In terms of type I error,when the rescue proportion is about 20%,the difference between different methods is small;when the rescue proportion is large,rank method adjusted with time and last visit (ARTLV) is the best choice.In terms of power,when the rescue proportion is less than 40%,the power of all methods is larger than 0.8,when the rescue proportion is large,rank method adjusted with last visit (ARLV) is the best choice.Conclusion Researchers should select appropriate method based on actual situation to get accurate results.It′s ethical to set rescue therapy in placebo-controlled trials,so analysis method of rescue therapy can provide a new idea for the design and analysis of placebo-controlled trials.
Rescue therapy;Rank method;Type I error;Power
自身免疫性疾病和病毒性肝炎等重大疾病的國際化新藥臨床評價研究技術平臺建設(2012ZX09303019001)
1.北京大學第一醫院醫學統計室(100034)
2.北京大學臨床研究所
3.默沙東研發(中國)有限公司
△通信作者:姚晨,E-mail:13801378685@139.com