哈爾濱醫科大學衛生統計教研室(150081) 吳 瑩 侯 艷 李 康
近年來,生命科學技術的革命性進展為許多疾病的治療帶來了新的希望,而相應的藥物開發卻因花費巨大面臨風險,在很大程度上延緩了科學成果造福于人類的進度,美國FDA亦在2004年提出,藥物開發亟須提高其效率與效益〔1〕。針對這一需求,具有Ⅱ/Ⅲ期無縫設計的適應性臨床試驗應運而生,這類設計可以有效縮短藥品的開發時間〔2-4〕。本文針對臨床試驗的Ⅱ/Ⅲ期無縫設計及其研究進展進行介紹。
傳統的藥品開發過程包括Ⅰ至Ⅳ期的一系列獨立臨床試驗,其中,Ⅱ期試驗通常將幾個不同處理組(如同種新藥的不同劑量組)與對照組進行比較,考察研究藥物療效是否值得繼續進行Ⅲ期試驗,如果繼續進行,需要選出進入Ⅲ期試驗的處理組(如最佳劑量組),隨后進行獨立的確證性臨床試驗〔5〕。適應性的Ⅱ/Ⅲ期無縫設計是指將Ⅱ期的探索性試驗與Ⅲ期的確證性試驗融為一體的方法,即作為同一試驗的兩個不同階段,在第1階段完成后依據所得結果,決定是否進行第2階段;同時可以選擇最佳處理組,并對試驗方案的不合理之處進行調整,從而降低研究成本,縮短研究周期〔6〕。圖1為包含劑量篩選過程的傳統Ⅱ、Ⅲ期臨床試驗與Ⅱ/Ⅲ期無縫設計臨床試驗的示意圖,后者在第1階段結束后需進行期中分析,目的是根據第1階段的分析結果,判斷試驗是否可以繼續。如果繼續進行第2階段,需要選擇進入第2階段的處理組,最常見的是最佳劑量組的選擇,也可以是選擇具有更好療效的特定患者亞組等〔7〕。未被選中的處理組將中止繼續納入新的受試者,但已納入的受試者可以繼續隨訪至整個研究結束。此外,期中分析時還允許在一定范圍內對試驗進行適應性調整,如樣本量,檢驗假設等方面,調整的內容只適用于后續的新受試者。第2階段結束后,利用對照組與多個處理組兩個階段的所有數據進行分析,得出最終結論。
適應性Ⅱ/Ⅲ期無縫設計實際上屬于適應性二階段設計,與成組序貫設計(group sequential design,GSD)的不同之處在于以下幾方面:
(1)GSD只有某一處理組在療效上與對照組無顯著差異時才被提前中止;而適應性二階段設計中,期中分析決定是否中止某一處理組試驗不僅基于療效,也可以因為安全性問題而被排除。

圖1 包含劑量篩選過程的傳統Ⅱ、Ⅲ期設計與適應性Ⅱ/Ⅲ期無縫設計示意圖
(2)適應性設計在期中分析時可以使用所有關于療效與安全性的數據,在允許范圍內對下一階段試驗方案的不合理之處進行適當的調整。
(3)成組序貫設計各階段的指標均相同,而適應性二階段設計可以在第1階段規定并分析能在短期內獲得的中間結果指標,整個試驗結束后再分析主要終點指標,避免造成兩階段間隔較大的問題。
適應性Ⅱ/Ⅲ期無縫設計的期中分析與最終分析均應采用合適的統計方法,需要考慮的統計學問題主要集中在多重比較、期中分析,以及兩階段數據的合并等方面,使試驗同時滿足適應性設計的原則及多重比較的封閉原則(closure principle,CP),下面對適應性設計原則及封閉原則進行簡單的介紹。
適應性Ⅱ/Ⅲ期無縫設計的第1階段是探索階段,除對照組外,一般有多個處理組,每個處理組都對應一個原假設,但這些原假設的適應性檢驗原則是相同的。為敘述簡單,下面僅考慮其中一個處理組與一個對照組的情況,其他處理組與此同理。設H0為原假設,H1為備擇假設,P1、P2分別代表第1階段與第2階段檢驗統計量對應的值,則適應性檢驗的實施步驟如下 :
(1)界定第1階段,確定期中分析的中止法則,預先指定最終分析時P1與P2的合并函數C(P1,P2);
(2)實施試驗至第1階段結束,得到P1,根據P1決定是否提前中止試驗;
(3)若期中分析同意繼續進行試驗,在開始進入第2階段之前,可以利用第一階段所得信息(也可以是試驗外的信息)調整第2階段的試驗方案,如重新估計樣本含量等;
需注意,利用第1階段的信息對試驗進行調整可能會引起I類錯誤概率增大,目前已有許多相關研究成果,如調整嚴格的拒絕域,降低第二階段權重,以及保持條件I類錯誤與條件檢驗效能等方法,國內亦有學者對此做出了詳盡介紹〔9〕;
(4)繼續實施試驗至第2階段結束,得到P1,P2獨立于P1;
(5)利用預先指定的合并函數,得到C=C(P1,P2),將C與其相應界值進行比較,決定是否拒絕H0,得出最終結論。
適應性Ⅱ/Ⅲ期無縫設計在最終分析時,需將第1階段與第2階段的獨立分析結果進行合并,對此目前已有多種方法〔10,11〕。其中,最常用的是 Fisher合并檢驗(Fisher's combination test)方法與加權逆正態方法(weighted inverse normal method)〔12-13〕。
Fisher合并檢驗的合并函數為C(P1,P2)=P1P2,最終分析如果

則拒絕H0,其中 χ2v,1-α表示自由度為 v 的 χ2分布的(1-α)分位點。若中止法則規定的提前中止界值為 α0與 α1,即 P1≤α1時可提前拒絕 H0,中止試驗,得出有效結論。同理,若P1≥α0時亦可提前中止試驗,得出無效結論。只有在α1<P1<α0情況下繼續下一階段的試驗,Fisher合并檢驗流程如圖2所示。對于給定的檢驗水平α,應滿足

以保證將Ⅰ類錯誤概率控制在α水平下。

圖2 適應性Ⅱ/Ⅲ期無縫設計中單個處理組檢驗流程示意圖
加權逆正態方法的合并函數為

其中,Φ為標準正態分布函數,若C(P1,P2)<α,則拒絕H0;w1和w2為兩個階段各自的權重(0<wi<1,i=1,2),且應滿足w21+w22=1。wi的確定方法有多種,如兩階段各自的樣本量百分比或信息量百分比等〔11〕。
實際中,適應性Ⅱ/Ⅲ期無縫設計在試驗開始時通常有多個處理組,現假設有幾個處理組,對應的原假設為Hi,i=1,…,n,此時需要對每一個處理組的原假設進行檢驗。由于涉及多重檢驗的問題,應保證FWER(familywise error rate),即至少拒絕了一個正確原假設的錯誤概率,被控制在預先確定的α水平上〔14-15〕。對此的常規做法是采用封閉原則〔16-17〕,即:
(2)為m個假設確定各自的檢驗方法及檢驗水平αl;
(3)對于任一Hi,若所有包含i∈I的Hl均在其al水平被拒絕,才能拒絕Hi,此時FWER被控制在預先確定的α水平上。
根據封閉原則,對所有新構建的假設進行檢驗,并用上述適應性原則對兩階段結果進行合并,得出最終結論,若某處理組在期中分析被中止,令其第2階段的P2=1即可。封閉原則可以給試驗帶來較大靈活性,對于不同假設,具體的統計檢驗方法也可以不同。
適應性Ⅱ/Ⅲ期無縫設計為試驗帶來了一定程度的靈活性,縮短了藥品上市所需時間,但同時增加了研究的復雜性,需要注意以下幾個問題。首先,適應性調整內容、試驗的決策過程及有關人員須仔細計劃并預先確定,防止過大的靈活性導致試驗質量下降。第二,與受試者的納入速度相比,期中分析占用的時間不能過長,否則可能會導致試驗不得不暫停,等待期中分析結果。因此,如果主要終點指標不能較快獲取,在期中分析時,應采用與主要終點指標相關的中間結果指標(如抗腫瘤新藥研究中,用無進展生存率代替總生存率),盡快進行期中決策〔18〕。第三,試驗的主要終點指標應定義明確且被廣泛接受,如果Ⅱ期試驗的目的還包括探索合適的終點指標,則不適宜采用適應性Ⅱ/Ⅲ期無縫設計。最后,如果試驗中需要期中決策確定的問題較多,試驗將變得十分復雜,這可能給研究帶來額外成本,有時甚至大于適應性無縫設計節省的成本,因此,如果某項新藥或新療法的未知問題較多,則先進行獨立的Ⅱ期試驗更為合適[19]。
適應性Ⅱ/Ⅲ期無縫設計可以有效縮短藥品開發時間,所面臨的統計問題已有部分解決方案,但實施之前應特別注意妥善計劃,并對其帶來的收益與風險進行權衡。總結近二十年來有關適應性Ⅱ/Ⅲ期無縫設計的探討與實際應用,可以看到這一新型臨床試驗設計的作用與地位在不斷增強。除文中所述內容外,在期中分析時對最終檢驗的優效性與非劣效性的取舍,以及融合多臂多階段設計等相關問題上亦有一些研究成果〔20-21〕。對這些問題的繼續研究與完善將進一步開闊適應性無縫設計的應用前景,從而促進有效新藥物或新療法盡早地服務于人類。
1.Anonymous(2004).Innovation/Stagnation:Challenge and Opportunity on the Critical Path to New Medical Products.FDA report from March 2004.
2.Lurdes YTI,Peter FT,Donald AB.Seamlessly expanding a randomized phase II trial to phase III.Biometrics,2002,58:823-831.
3.Nigel S,Susan T.Sequential designs for phase III clinical trials incorporating treatment selection.Statistics in Medicine,2003,22:689-703.
4.Peter B,Meinhard k.Combining different phases in the development of medical treatments within a single trial.Statistics in Medicine,1999,18:1833-1848.
5.WHO及ICH相關文件中文譯文.見:鄭筱萸 編.《藥品臨床試驗管理規范》培訓教材.北京:中國醫藥科技出版社,2000,161.
6.Frank B,Heinz S,Franz K,Amy R,Willi M.Confirmatory seamless phase II/III clinical trials with hypotheses selection at interim:general concepts.Biometrical Journal,2006,48(4):623-634.
7.Heinz S,Frank B,Amy R,Willi M.Confirmatory seamless phase II/III clinical trials with hypotheses selection at interim:applications and prac-,2006,48(4):635-543.
8.Bauer PKhne K.Evaluation of experiments with adaptive interim analyses,1994,50.
9.顏虹,夏結來,于莉莉.臨床試驗中適應性設計研究進展.中華預防醫學雜志,2008,42(z1):16-25.
10.Proschan MA,Hunsberger SA.Designed extension of studies based on conditional power.Biometrics,1995,51:1315-1324.
11.Cui L,HMJ H,Wang S.Modification of sample size in group sequential clinical trials.Biometrics,1999,55:321-324.
12.Lehmacher W,Wassmer G.Adaptive sample size calculations in group sequential trials.Biometrics,1999,55:1286-1290.
13.Bauser P,Kieser M.Combining different phases in the development of medical treatments within a single trial.Statistics in Medicine,1999,18:1833-1848.
14.Shaffer JP.Multiple hypothesis testing.Annual Review of Psychology,1995,46:561-584.
15.Benjamini Y,Hocheberg Y.Controlling the false discovery rate:a practical and powerful approach to multiple testing.Journal of the Royal Statistical Society.Series B(Methodological),1995,57(1):289-300.
16.Hommel G.Tests of individual hypotheses for experiments with interim analyses and adaptive choice of hypotheses.Paper given at the Biometric Colloquium of the German Region of the International Biometric Society,Munich,1997.
17.Hommer G.Adaptive modifications of hypotheses after an interim analysis.Biometrical Journal,2001,43:581-589.
18.Buyse M,Molenberghs G.Criteria for the validation of surrogate endpoints in randomized experiments.Biometrics,1998,54:1014-1029.
19.Bauer P,Einfalt J.Application of adaptive designs-a review.Biometrical Journal,2006,48:1-14.
20.Ohrn F,Jennison C.Optimal group-sequential designs for simultaneous testing of superiority and non-inferiority.Statistics in Medicine,2010,29:743-759.
21.Parmar M,Barthel F,Sydes M,et al.Speeding up the evaluation of new agents in cancer,2008,100:1204-1214.