吳振強(qiáng) 李 衛(wèi) 孫業(yè)桓 王 楊
存在共同終點(diǎn)的優(yōu)效性臨床試驗(yàn)樣本量問(wèn)題探討
吳振強(qiáng)1,2李 衛(wèi)1Δ孫業(yè)桓2Δ王 楊1
目的 探討當(dāng)優(yōu)效性臨床試驗(yàn)存在多個(gè)共同終點(diǎn)時(shí),各終點(diǎn)分別計(jì)算樣本量取最大值的樣本量計(jì)算方法的合理性。方法 運(yùn)用蒙特卡洛模擬的方法,驗(yàn)證實(shí)踐中常用的多個(gè)主要終點(diǎn)分別計(jì)算取最大值的樣本量計(jì)算方法的合理性;并進(jìn)一步探討主要終點(diǎn)間相關(guān)性與檢驗(yàn)效能之間的關(guān)系。結(jié)果 當(dāng)多個(gè)終點(diǎn)分別計(jì)算的樣本量相等時(shí),分別計(jì)算取最大值的方法不能達(dá)到預(yù)期的檢驗(yàn)效能(80%);當(dāng)相關(guān)系數(shù)小于0時(shí),檢驗(yàn)效能在60%左右波動(dòng);大于0時(shí),隨著相關(guān)系數(shù)的增加,檢驗(yàn)效能逐漸增大。結(jié)論 當(dāng)多個(gè)主要終點(diǎn)算得樣本量相當(dāng)時(shí),取最大值的樣本量計(jì)算方法并不適用于優(yōu)效性臨床試驗(yàn);當(dāng)多個(gè)主要終點(diǎn)算得的樣本量差距較大時(shí),可以達(dá)到試驗(yàn)所需的檢驗(yàn)效能。因此,運(yùn)用時(shí)需要考慮其適用條件。
臨床試驗(yàn) 樣本量計(jì)算 檢驗(yàn)效能 相關(guān)性 蒙特卡洛模擬
1.中國(guó)醫(yī)學(xué)科學(xué)院,北京協(xié)和醫(yī)學(xué)院,國(guó)家心血管疾病中心,阜外心血管病醫(yī)院,心血管疾病國(guó)家重點(diǎn)實(shí)驗(yàn)室,醫(yī)學(xué)研究統(tǒng)計(jì)中心(100037)
2.安徽醫(yī)科大學(xué)公共衛(wèi)生學(xué)院
△通信作者:李衛(wèi),E-mail:liwei@mrbc-nccd.com;孫業(yè)桓,E-mail:sun611007@163.com
臨床試驗(yàn)中,病人的反應(yīng)可能是多種多樣的,很多疾病機(jī)理并不清楚,因此某些臨床研究并不能找出唯一的主要終點(diǎn)指標(biāo)來(lái)證明藥物或器械的有效性,此時(shí)通常需要設(shè)置多個(gè)主要終點(diǎn)〔1,2〕。根據(jù)試驗(yàn)設(shè)計(jì)的不同,多終點(diǎn)臨床試驗(yàn)大致可分為兩類〔3,4〕:(1)多個(gè)主要終點(diǎn)中一個(gè)有統(tǒng)計(jì)學(xué)意義,整個(gè)臨床試驗(yàn)就是成功的;(2)多個(gè)主要終點(diǎn)必須同時(shí)有統(tǒng)計(jì)學(xué)意義,整個(gè)臨床試驗(yàn)才是成功的,此時(shí)稱為多個(gè)共同終點(diǎn)的臨床試驗(yàn)。臨床實(shí)踐中,類型(1)主要存在Ⅰ類錯(cuò)誤膨脹的問(wèn)題〔4-6〕。審評(píng)機(jī)構(gòu)〔7〕和科學(xué)期刊〔8〕通常建議用多重調(diào)整的方法解決這類問(wèn)題(如:Bonferroni法、Holm法、Hochberg法和James等方法)。其中Leon和 Heo在2007年運(yùn)用隨機(jī)模擬對(duì)這些方法的Ⅰ類錯(cuò)誤的膨脹情況進(jìn)行了比較,得出終點(diǎn)指標(biāo)間的相關(guān)性r≤0.5時(shí)Hochberg調(diào)整具有更高的檢驗(yàn)效能,當(dāng)r>0.5時(shí)James的方法更為合理〔5〕。類型(2)成功解決了Ⅰ類錯(cuò)誤膨脹的問(wèn)題,但是隨之而來(lái)的是Ⅱ類錯(cuò)誤的膨脹〔2〕,通常解決這類問(wèn)題的方法是增加樣本量〔3,9〕。存在共同終點(diǎn)的臨床試驗(yàn)中,對(duì)每個(gè)主要終點(diǎn)分別計(jì)算樣本量,然后取最大值作為臨床試驗(yàn)所需的樣本量是一種實(shí)踐中常用的方法;但是有些外文文獻(xiàn)對(duì)這種樣本量計(jì)算方法的合理性提出質(zhì)疑,認(rèn)為這種方法不僅沒有考慮指標(biāo)間的相關(guān)性,而且可能會(huì)出現(xiàn)檢驗(yàn)效能不足的問(wèn)題。目前國(guó)內(nèi)并無(wú)相關(guān)研究報(bào)道。因此本研究將結(jié)合臨床實(shí)踐中的實(shí)際數(shù)據(jù),運(yùn)用隨機(jī)模擬的方法對(duì)此樣本量計(jì)算方法的合理性進(jìn)行探討。
在共同終點(diǎn)的臨床試驗(yàn)中,為了更加清晰直觀地探討分別計(jì)算取最大值樣本量計(jì)算方法的合理性,本研究?jī)H對(duì)實(shí)踐中常用的兩個(gè)共同終點(diǎn)的優(yōu)效性臨床試驗(yàn)進(jìn)行模擬分析。
其中假設(shè)臨床試驗(yàn)要驗(yàn)證試驗(yàn)藥物T優(yōu)效于對(duì)照藥物C,需要兩個(gè)共同主要終點(diǎn)指標(biāo)P1和P2(高優(yōu)指標(biāo)),其中P1和P2均是來(lái)自正態(tài)總體的連續(xù)性指標(biāo),為了使得模擬的結(jié)果更加貼近實(shí)際,因此本模擬研究假定指標(biāo)間存在一定相關(guān)性。
基于以上假設(shè),本研究將根據(jù)兩個(gè)終點(diǎn)指標(biāo)計(jì)算的樣本量相同和不相同分別進(jìn)行蒙特卡洛模擬。具體步驟如下:
(1)假定兩個(gè)共同終點(diǎn)間存在相關(guān)性,根據(jù)終點(diǎn)指標(biāo)的均值和標(biāo)準(zhǔn)差,產(chǎn)生具有一定相關(guān)性的正態(tài)分布隨機(jī)數(shù)作為研究樣本,并對(duì)其進(jìn)行統(tǒng)計(jì)分析;
(2)將組間差異95%的可信區(qū)間下限與0比較,并將所得情況記錄下來(lái);
(3)若兩個(gè)指標(biāo)的下限同時(shí)小于0,即拒絕零假設(shè),則將結(jié)論記為“正確”;若下限至少有一個(gè)大于等于0,即不拒絕零假設(shè),則將結(jié)論記為“錯(cuò)誤”;
(4)重復(fù)步驟(1)至(3)1000次,并記錄下得到“正確”結(jié)論的次數(shù),其中正確比例即為在此總體特征和參數(shù)設(shè)置下的檢驗(yàn)效能。其中進(jìn)行多次模擬試驗(yàn)的主要目的是保證結(jié)果的穩(wěn)定性;
(5)根據(jù)共同終點(diǎn)間相關(guān)程度的不同重復(fù)步驟(1)至(4),并作相應(yīng)的記錄。
(1)基本指標(biāo)
試驗(yàn)組和對(duì)照組的基本數(shù)據(jù)均來(lái)自某臨床試驗(yàn)報(bào)告,基本指標(biāo)如下:

基于以上指標(biāo),根據(jù)樣本量的計(jì)算公式:

可以得到兩個(gè)主要指標(biāo)所需的樣本量n1和n2相等,其中n1=n2=51×2,即臨床試驗(yàn)所需的樣本量為51對(duì)。
(2)隨機(jī)模擬的結(jié)果
①研究的實(shí)際檢驗(yàn)效能
基于隨機(jī)模擬步驟,我們將在不同相關(guān)系數(shù)r(-1.0,-0.9,…,0,…,0.9,1.0)下,研究臨床試驗(yàn)檢驗(yàn)效能(1-β)的變化情況。結(jié)果見表1。

表1 檢驗(yàn)效能變化情況

圖1 檢驗(yàn)效能變化情況
根據(jù)模擬的結(jié)果,得出:a)當(dāng)臨床試驗(yàn)有兩個(gè)共同終點(diǎn),且主要終點(diǎn)指標(biāo)的相關(guān)性小于1時(shí),整體的檢驗(yàn)效能均不能達(dá)到80%;b)隨著相關(guān)系數(shù)的變化,檢驗(yàn)效能也會(huì)發(fā)生相應(yīng)的變化;c)相關(guān)系數(shù)在-1到0之間時(shí),整體檢驗(yàn)效能在60%左右波動(dòng);d)相關(guān)系數(shù)從0增加到1時(shí),整體的檢驗(yàn)效能從0.645增加到0.799;e)Ⅱ類錯(cuò)誤和檢驗(yàn)效能是互補(bǔ)的概念,當(dāng)檢驗(yàn)效能達(dá)不到預(yù)先設(shè)定值時(shí),相應(yīng)的Ⅱ類錯(cuò)誤也會(huì)高于預(yù)先設(shè)定的值,出現(xiàn)Ⅱ類錯(cuò)誤膨脹的問(wèn)題。
②達(dá)到方案規(guī)定檢驗(yàn)效能時(shí)所需樣本量。基于隨機(jī)模擬步驟,模擬在共同終點(diǎn)間的相關(guān)性一定時(shí),隨著樣本量增大,臨床研究檢驗(yàn)效能(1-β)的變化情況,匯總結(jié)果見表2。

表2 檢驗(yàn)效能變化情況(相關(guān)系數(shù))

圖2 檢驗(yàn)效能的變化情況
根據(jù)模擬的結(jié)果,得出:a)共同終點(diǎn)間的相關(guān)系數(shù)設(shè)定為0.7,每組的樣本量達(dá)到61時(shí),整體檢驗(yàn)效能才能達(dá)到預(yù)先設(shè)定的80%;b)當(dāng)整體檢驗(yàn)效能達(dá)到80%時(shí),對(duì)于單個(gè)終點(diǎn)計(jì)算樣本量時(shí),檢驗(yàn)效能至少需要達(dá)到85%以上,因此在用這種方法時(shí)一定要與隨機(jī)模擬方法聯(lián)合應(yīng)用,從而保證整體的檢驗(yàn)效能;c)隨著樣本量逐漸增大,單個(gè)主要終點(diǎn)的檢驗(yàn)效能和整體的檢驗(yàn)效能都是逐漸增大的,進(jìn)一步證明通過(guò)樣本量的增大可以彌補(bǔ)檢驗(yàn)效能不足的問(wèn)題;d)圖2中第一條豎線顯示,在單個(gè)終點(diǎn)達(dá)到80%的檢驗(yàn)效能時(shí),整個(gè)臨床試驗(yàn)的檢驗(yàn)效能是達(dá)不到預(yù)先設(shè)定值的,同上部分模擬結(jié)果類似。
隨機(jī)模擬的基本指標(biāo):
模擬擬次數(shù):1000;

Ⅰ類錯(cuò)誤:α1=α2=0.05;
檢驗(yàn)效能:1-β=80%。
基于以上信息,進(jìn)行隨機(jī)模擬,結(jié)果見表3:

表3 隨著Δ差距的變化,檢驗(yàn)效能的變化情況
根據(jù)模擬的結(jié)果,得出:a)兩個(gè)指標(biāo)的平均效應(yīng)差異很小時(shí),選取最大樣本作為試驗(yàn)所需樣本量并不能達(dá)到方案預(yù)先設(shè)定的檢驗(yàn)效能(圖3兩條豎線間的區(qū)域);b)兩個(gè)指標(biāo)的平均效應(yīng)差異較大時(shí)(圖3兩條豎線外的區(qū)域),選取最大樣本作為試驗(yàn)所需樣本是可以達(dá)到方案預(yù)先設(shè)定的檢驗(yàn)效能。

圖3 隨Δ變化的檢驗(yàn)效能的變化情況
本研究通過(guò)蒙特卡洛模擬的方法,對(duì)實(shí)際臨床研究中常用的多個(gè)共同終點(diǎn)分別計(jì)算取最大值的樣本量計(jì)算方法的合理性進(jìn)行了探討,驗(yàn)證了此方法的適用條件;當(dāng)運(yùn)用不當(dāng)時(shí),并不能達(dá)到試驗(yàn)方案規(guī)定的檢驗(yàn)效能,即出現(xiàn)Ⅱ類錯(cuò)誤膨脹的問(wèn)題。另外,隨機(jī)模擬的結(jié)果也充分體現(xiàn)了指標(biāo)相關(guān)性在樣本量計(jì)算時(shí)發(fā)揮的作用;考慮終點(diǎn)間的相關(guān)性可以在保證試驗(yàn)效能的情況下節(jié)省樣本量,降低病人暴露風(fēng)險(xiǎn)的可能性;因此分別計(jì)算樣本量取最大值的方法,并結(jié)合隨機(jī)模擬的方法進(jìn)行驗(yàn)證不失為一種切實(shí)可行的樣本量計(jì)算方法,但兩種方法結(jié)合的細(xì)節(jié)和具體的操作方式仍需探討。
每次隨機(jī)模擬都相當(dāng)于進(jìn)行了一次臨床試驗(yàn),又因模擬過(guò)程是隨機(jī)的,可能出現(xiàn)很多不滿足方差齊性等假設(shè)的情況,這樣的數(shù)據(jù)可能更貼近于實(shí)際應(yīng)用臨床試驗(yàn)數(shù)據(jù)〔10〕;因此可用于探討樣本量確定方法的合理性。
綜上所述,對(duì)于存在兩個(gè)共同終點(diǎn)臨床試驗(yàn)的樣本量設(shè)計(jì),每個(gè)終點(diǎn)分別計(jì)算取最大值的樣本量計(jì)算方法不適用于兩個(gè)終點(diǎn)間平均效應(yīng)差距較小的情況,運(yùn)用時(shí)要慎重。
1.Chuang-Stein C,Stryszak P,Dmitrienko A,et al.Challenge of multiple co-primary endpoints:a new approach.Stat Med,2007,26(6):1181-1192.
2.Sankoh AJ,Sr DRB,Huque MF.Efficacy endpoint selection and multiplicity adjustment methods in clinical trials with inherent multiple endpoint issues.Stat Med,2003,22(20):3133-3150.
3.Eaton ML,Muirhead RJ.On a multiple endpoints testing problem.Journal of Statistical Planning and Inference,2007,137(11):3416-3429.
4.Offen W,Chuang-Stein C,Dmitrienko A,et al.Multiple co-primary endpoints:medical and statistical solutions a report from the multiple endpoints expert team of the pharmaceutical research and manufacturers of america.Drug Information Journal,2007,41:31-46.
5.Leon AC,Heo M,Teres JJ,et al.Statistical power of multiplicity adjustment strategies for correlated binary endpoints.Stat Med,2007,26(8):1712-1723.
6.Leon AC,Heo M.A comparison of multiplicity adjustment strategies for correlated binary endpoints.J Biopharm Stat,2005,15(5):839-855.
7.U.S.Department of Health and Human Services,F(xiàn)ood and Drug Administration,Center for Drug Evaluation and Research,Center for Biologics Evaluation and Research.Guidance for Industry:E9 Statistical Principles,1998.
8.Altman DG,Schulz KF,Moher D,et al.The revised CONSORT statement for reporting randomized trials:explanation and elaboration.Ann Intern Med,2001,134(8):663-694.
9.Koch GG,Gansky SA.Statistical considerations for multiplicity in confirmatory protocols.Drug Information Journal,1996,33:523-533.
10.王楊,李衛(wèi),成小如,等.隨機(jī)模擬法驗(yàn)證非劣效臨床試驗(yàn)樣本量計(jì)算公式.中國(guó)衛(wèi)生統(tǒng)計(jì),2008(1):26-28.
Sample Size Considerations in Superiority Clinical Trials With Co - primary Endpoints
Wu Zhenqiang,Li Wei,Sun Yehuan,et al.Medical Research &Biometrics Center,State Key Laboratory of Cardiovascular Disease,F(xiàn)uwai Hospital,National Center for Cardionascular Disease,Chinese Academy of Medical Sciences and Peking Union Medical College(100037),Beijing
ObjectiveTo evaluate the method of selecting a maximum sample size of those obtained from testing individual primary endpoint.MethodsMonte Carlo simulation was used to verify the power of this sample size calculated method.Furthermore,we assessed the effect of correlation coefficient among the co-primary endpoints.ResultsWhen the mean effect sizes are equal in individual primary endpoints,the study power cannot reach 80%.Study power fluctuates around 60%if the correlation coefficient is negative.However,the power increases with the incretion of correlation coefficient when the correlation coefficient is greater than 0.ConclusionThe method of selecting a maximum sample size is under-power when the mean effect sizes are equal in individual primary endpoint.When effect sizes largely varied,the study power is enough.
Clinical trials,Simple size calculation,Power,Correlation,Monte Carlo comsimulation
(責(zé)任編輯:丁海龍)