程建成 柏建嶺,2△ 黃麗紅 趙 楊,2 于 浩,2 陳 峰,2△
臨床試驗(yàn)的樣本量估計(jì)通常取決于I類錯(cuò)誤α、Ⅱ類錯(cuò)誤β、臨床有意義的組間差別δ以及共同標(biāo)準(zhǔn)差σ等因素。在試驗(yàn)設(shè)計(jì)階段,除Ⅰ類錯(cuò)誤α、Ⅱ類錯(cuò)誤β可以指定以外,組間差別δ以及標(biāo)準(zhǔn)差σ一般是未知的。未知參數(shù)的設(shè)置常基于已發(fā)表文獻(xiàn)或預(yù)試驗(yàn),往往與實(shí)際情況存在一定偏差,從而導(dǎo)致試驗(yàn)設(shè)計(jì)階段的樣本量估算并不十分準(zhǔn)確。樣本量高估會(huì)增加研究成本,增加試驗(yàn)組受試者數(shù)量以及延長(zhǎng)研究周期;樣本量低估則會(huì)導(dǎo)致樣本量達(dá)不到預(yù)期的檢驗(yàn)效能,以至于整個(gè)試驗(yàn)失敗。因而,期中分析時(shí)樣本量再估計(jì)常常得到應(yīng)用。已報(bào)道的樣本量再估計(jì)方法,按照是否需要揭盲可分為兩類,即盲態(tài)估計(jì)和揭盲估計(jì)[1]。
盲態(tài)估計(jì)可以更大程度保持試驗(yàn)的完整性,但是無(wú)法對(duì)組間真實(shí)差異進(jìn)行估計(jì),也不能替代嚴(yán)謹(jǐn)?shù)脑囼?yàn)設(shè)計(jì),會(huì)造成假陰性的增加;揭盲估計(jì)能較準(zhǔn)確地進(jìn)行樣本量再估計(jì),但是其會(huì)在一定程度上損害試驗(yàn)的完整性。兩種估計(jì)各有利弊。
因此,本文針對(duì)正態(tài)分布資料,對(duì)揭盲狀態(tài)的條件把握度(conditional power,CP)法及盲態(tài)下的EM(expectation maximization,EM)算法進(jìn)行研究和比較,進(jìn)而探索將兩者相結(jié)合,組成更為嚴(yán)謹(jǐn)可行的樣本量再估計(jì)策略,應(yīng)用于臨床試驗(yàn)期中分析中,為實(shí)際應(yīng)用提供建議。
1.信息時(shí)間
設(shè)原定總樣本量為N,截止至期中分析時(shí),每組完成了n例受試者的治療,則目前的信息時(shí)間為:
(1)
其中,0≤τ≤1,τ=0和1分別代表試驗(yàn)開(kāi)始及試驗(yàn)結(jié)束,1-τ稱為剩余信息時(shí)間。
2.條件把握度
條件把握度,是基于當(dāng)前已經(jīng)收集到的觀察數(shù)據(jù),預(yù)測(cè)試驗(yàn)結(jié)束后組間存在真實(shí)差別的概率,由Lan和Zucker (1993)[2]及Lan和Wittes (1988)[3]等基于布朗運(yùn)動(dòng)的特性提出的一種方法,其基本思想是:通過(guò)z統(tǒng)計(jì)量的函數(shù)構(gòu)造服從布朗運(yùn)動(dòng)的統(tǒng)計(jì)量B,并根據(jù)z統(tǒng)計(jì)量的分布特性及兩者關(guān)系,推導(dǎo)出B值的分布,最后根據(jù)B分布和終止界值計(jì)算條件把握度。
(1)條件把握度的計(jì)算
條件把握度法應(yīng)用較多,本文僅其主要過(guò)程,感興趣的讀者可以參考陳建平(2010)[4],獲取詳細(xì)的數(shù)學(xué)推理過(guò)程。

(2)
期中分析時(shí)θ估計(jì)值為:
(3)
(2)樣本量再估計(jì)
根據(jù)公式(2)及公式(3)的表達(dá)式,可得:
(4)
當(dāng)條件把握度等于期望值時(shí),N即為調(diào)整后的每組樣本量。
3.EM算法
盲態(tài)下樣本量的再估計(jì)是指在第一階段受試者信息已獲取但是處理分配情況未知,即尚未揭盲時(shí)所進(jìn)行的樣本量再估計(jì)。EM算法是 Dempster,Laind,Rubin[5]于 1977 年提出的求參數(shù)極大似然估計(jì)的一種迭代算法。1992年Gould & Shih[6]提出使用EM算法進(jìn)行正態(tài)終點(diǎn)指標(biāo)的盲態(tài)下樣本量再估計(jì)。
(1)方差的再估計(jì)
假定兩組樣本量分配比例為1:1,原定總樣本量為2n1,在n1人完成試驗(yàn)時(shí)進(jìn)行樣本量再估計(jì)。n1名受試者的觀察值:Z1,Z2,…,Zn1。假設(shè)Ii=1表示受試者i屬于x組,Ii=0表示受試者i屬于y組。根據(jù)Gould & Shih[6]的研究,受試者i屬于x組的概率:
P(Ii=1|Zi)=
(5)
EM算法大體過(guò)程如下:
首先用預(yù)先根據(jù)n1個(gè)受試者的數(shù)據(jù)計(jì)算出來(lái)的初始估計(jì)值σ0,μx,0,μy,0帶入E步計(jì)算Ii的估計(jì)值。
E步:
(6)
M步:對(duì)數(shù)似然函數(shù)如下:
x組和y組均數(shù)的極大似然估計(jì)值如下:
(7)
(8)
方差的估計(jì)值如下:
(9)
重復(fù)E步和M步直至估計(jì)值趨于穩(wěn)定。隨后,使用穩(wěn)定的方差估計(jì)值進(jìn)行樣本量再估計(jì)。
(2)σ0,μx,0,μy,0初始值的設(shè)定
初始值的設(shè)置是EM算法的重要步驟,將影響到EM算法是否能正常收斂。假定初始樣本量是2n1,在n1人完成試驗(yàn)時(shí)進(jìn)行樣本量再估計(jì)。n1受試者觀察值為Z1,Z2,…,Zn1(按從小到大順序排列)。假設(shè)pi=(i-0.5)/n1(i=1,2,…,n1)。假設(shè)qi=φ-1(pi)(i=1,2,…,n1)是標(biāo)準(zhǔn)正態(tài)分布的逆函數(shù)。應(yīng)用最小二乘法對(duì){(qi,Zi),i=1,2,…,n1}擬合一個(gè)簡(jiǎn)單的線性回歸,假設(shè)b是回歸線的斜率,a是截距。
(10)
σ0,μx,0,μy,0初始估計(jì)值如下:
σ0=b,μx,0=a-b/c,μy,0=a+b/c
(11)
根據(jù)Gould & Shih[6]的研究,c=5.71。
(3)樣本量再估計(jì)
假定原設(shè)計(jì)時(shí)初始樣本量是2n1,標(biāo)準(zhǔn)差是σ0,在n1個(gè)人完成試驗(yàn)時(shí)進(jìn)行樣本量再估計(jì)。再估計(jì)后算出的樣本量是N,標(biāo)準(zhǔn)差是σ1。
根據(jù)Gould & Shih[7]的研究,
N=2n1*(σ1/σ0)2
(12)
4.樣本量調(diào)整策略
通常情況下,需要事先定義一個(gè)常數(shù)λ,如果再估計(jì)樣本量/初始樣本量>λ,則認(rèn)為此時(shí)的估計(jì)值與試驗(yàn)之初的估計(jì)值相差較大,需要重新計(jì)算樣本量。如果再估計(jì)樣本量/初始樣本量<λ,就可能不值得增加額外的人力物力財(cái)力來(lái)招募更多的受試者并獲得更多的數(shù)據(jù),這樣也會(huì)造成試驗(yàn)期延長(zhǎng)。
Gould[7]建議,如果λ<1.33,那么繼續(xù)選擇初始樣本量;如果λ>1.33,那么選擇再估計(jì)樣本量;如果λ≥2,那么用初始樣本量的2倍作為新的樣本量;如果λ>>2,就終止試驗(yàn)。
1.模擬試驗(yàn)一
(1)目的
針對(duì)相同的數(shù)據(jù)分別使用揭盲狀態(tài)的條件把握度法以及盲態(tài)的EM算法進(jìn)行樣本量再估計(jì),比較兩種方法的再估計(jì)效能。
(2)試驗(yàn)設(shè)計(jì)
假設(shè)有一個(gè)雙盲隨機(jī)對(duì)照臨床試驗(yàn),設(shè)置兩組均數(shù)分別為9.5,10,總體標(biāo)準(zhǔn)差是1.78,試驗(yàn)組與對(duì)照組樣本分配比例為1:1 ,按α=0.05和β=0.2估算得到初始樣本量N0為400,每組200。設(shè)計(jì)1次中期分析,在200例受試者完成試驗(yàn)時(shí)分別采用條件把握度和EM算法進(jìn)行樣本量再估計(jì)。假定200例受試者完成試驗(yàn)時(shí)的數(shù)據(jù)分別是:Z1,Z2,…,Z200。實(shí)際的組間差別δ1,標(biāo)準(zhǔn)差σ1,
樣本量再估計(jì)最小是400(初始樣本量),最大是1200(再估計(jì)樣本量的上限,本研究設(shè)為初始樣本量的3倍),少于400將被設(shè)置為400,大于1200時(shí)認(rèn)為可以直接終止試驗(yàn)并設(shè)為缺失值。
擬采用兩種標(biāo)準(zhǔn)評(píng)價(jià)樣本量再估計(jì)方法效果:
標(biāo)準(zhǔn)1: 1000次模擬中再估計(jì)樣本量與實(shí)際需要樣本量誤差不超過(guò)20%或者都超過(guò)1200的次數(shù),即0.8≤再估計(jì)樣本量/初始樣本量≤1.2或者再估計(jì)樣本量和際樣本量都超過(guò)1200的次數(shù);
標(biāo)準(zhǔn)2: 1000次模擬中再估計(jì)樣本量與實(shí)際需要樣本量誤差不超過(guò)30%或者都超過(guò)1200的次數(shù),即0.7≤再估計(jì)樣本量/初始樣本量≤1.3或者再估計(jì)樣本量和實(shí)際樣本量都超過(guò)1200的次數(shù)。
(3)參數(shù)設(shè)置

表1 模擬試驗(yàn)一參數(shù)及取值
2.模擬試驗(yàn)二
(1)目的
在模擬試驗(yàn)一結(jié)果的基礎(chǔ)上,探索兩種方法相結(jié)合的樣本量再估計(jì)策略。模擬試驗(yàn)采用SAS 9.4編程完成。
(2)試驗(yàn)設(shè)計(jì)
基于模擬試驗(yàn)一的假設(shè),我們進(jìn)一步探索當(dāng)實(shí)際總體均數(shù)差值大于原假設(shè)并且實(shí)際標(biāo)準(zhǔn)差大于原假設(shè)標(biāo)準(zhǔn)差時(shí)將兩種方法相結(jié)合的設(shè)計(jì),提高再估計(jì)的效能。如果樣本量超過(guò)初始樣本量一定程度時(shí)再采用條件把握度的方法進(jìn)行非盲的樣本量再估計(jì)。試驗(yàn)設(shè)計(jì)如下:
設(shè)計(jì)1:當(dāng)EMsize/400>1.4 時(shí)用CPsize代替EMsize,獲得合并設(shè)計(jì)的再估計(jì)效能。
設(shè)計(jì)2:當(dāng)EMsize/400>1.5 時(shí)用CPsize代替EMsize,獲得合并設(shè)計(jì)的再估計(jì)效能。
設(shè)計(jì)3:當(dāng)EMsize/400>1.6 時(shí)用CPsize代替EMsize,獲得合并設(shè)計(jì)的再估計(jì)效能。
設(shè)計(jì)4:當(dāng)EMsize/400>1.75 時(shí)用CPsize代替EMsize,獲得合并設(shè)計(jì)的再估計(jì)效能。
設(shè)計(jì)5:當(dāng)EMsize/400>2.0 時(shí)用CPsize代替EMsize,獲得合并設(shè)計(jì)的再估計(jì)效能。
(3)參數(shù)設(shè)置
基于模擬試驗(yàn)一的結(jié)果,我們調(diào)整了總體組間差異以及標(biāo)準(zhǔn)差的取值(表2),其他參數(shù)和模擬試驗(yàn)一相同。

表2 模擬試驗(yàn)二參數(shù)及取值
模擬試驗(yàn)均在SAS9.4下進(jìn)行。
1.CP法及EM算法再估計(jì)的效能
(1)使用20%以及30%兩種標(biāo)準(zhǔn)獲得的再估計(jì)效能差異不大,考慮到試驗(yàn)設(shè)計(jì)修改增加的成本因素,建議后續(xù)模擬試驗(yàn)采用30%。
(2)使用條件把握度的方法在大多數(shù)情況下可以獲得較高的再估計(jì)效能。
(3)實(shí)際總體均數(shù)(9.5,10)與原假設(shè)一致的情況下,使用EM算法進(jìn)行樣本量再估計(jì)可以獲得超過(guò)90%的再估計(jì)效能。
(4)由于模擬試驗(yàn)設(shè)計(jì)的影響,當(dāng)實(shí)際樣本量接近400或者1200時(shí),可能會(huì)出現(xiàn)異常結(jié)果。通過(guò)調(diào)整再估計(jì)效能標(biāo)準(zhǔn),已經(jīng)驗(yàn)證了這個(gè)情況。當(dāng)總體樣本量為502時(shí),由于400×120%<502<400×130%,標(biāo)準(zhǔn)1的再估計(jì)效能很低,標(biāo)準(zhǔn)2的再估計(jì)效能正常。
(5)模擬試驗(yàn)一結(jié)果顯示,當(dāng)實(shí)際總體均數(shù)差值大于原假設(shè)并且實(shí)際標(biāo)準(zhǔn)差大于原假設(shè)標(biāo)準(zhǔn)差時(shí),使用條件把握度的方法獲得的再估計(jì)效能高于使用EM算法獲得的再估計(jì)效能(表3)。

表3 CP法及EM算法再估計(jì)的效能
2.CP法及EM算法結(jié)合的樣本量再估計(jì)策略
模擬試驗(yàn)二結(jié)果顯示(表4):
(1)均數(shù)差異大于初始值時(shí)越早使用條件把握度的方法,再估計(jì)效能越高。
(2)當(dāng)標(biāo)準(zhǔn)差一定時(shí),組間差異越大,合并設(shè)計(jì)的再估計(jì)效能越大。實(shí)際總體標(biāo)準(zhǔn)差為2時(shí)接近初始標(biāo)準(zhǔn)差1.78,受EM方法的再估計(jì)效能較大影響,會(huì)有一點(diǎn)異常趨勢(shì)。

表4 CP法及EM算法相結(jié)合的樣本量再估計(jì)
EM算法可以更大程度的保持試驗(yàn)的完整性,但是無(wú)法對(duì)組間真實(shí)差異進(jìn)行估計(jì),也不能替代嚴(yán)謹(jǐn)?shù)脑囼?yàn)設(shè)計(jì),會(huì)造成假陰性的增加;條件把握度法能較準(zhǔn)確地進(jìn)行樣本量再估計(jì),但是其會(huì)在一定程度上損害試驗(yàn)的完整性。兩種方法各有利弊。因此,本研究提出一個(gè)新的設(shè)計(jì),揚(yáng)長(zhǎng)補(bǔ)短,同時(shí)包含盲態(tài)下EM算法和非盲態(tài)下條件把握度法兩種樣本量再估計(jì)方法。適用于初始樣本量較大、費(fèi)用較高、參考數(shù)據(jù)不完整或者不可靠的臨床研究。綜合表4的數(shù)據(jù)來(lái)看,考慮到要獲得較高的再估計(jì)效能盡量減少對(duì)試驗(yàn)完整性的破壞,按照模擬試驗(yàn)二設(shè)計(jì)2的標(biāo)準(zhǔn),即大于初始樣本量1.5倍采用條件把握度的方法進(jìn)行樣本量再估計(jì),再估計(jì)效能均超過(guò)50%,絕大部分超過(guò)60%,在獲得較高的再估計(jì)效能的同時(shí),可以避免隨意使用非盲態(tài)的方法,造成對(duì)試驗(yàn)完整性的破壞,也能減少一部分假陰性的發(fā)生以及社會(huì)資源的浪費(fèi)。在適應(yīng)性設(shè)計(jì)計(jì)劃的期中分析中,保持申辦者和研究者的盲態(tài)非常重要,通常需要一個(gè)獨(dú)立的數(shù)據(jù)監(jiān)查委員會(huì)(Independent Data Monitoring Committee,IDMC)來(lái)通知申辦者是否按照事先擬定的方案修改進(jìn)一步進(jìn)行試驗(yàn)。
科學(xué)合理的設(shè)計(jì)是獲得客觀真實(shí)研究結(jié)果及試驗(yàn)成功的前提。對(duì)于一個(gè)新的臨床試驗(yàn),都會(huì)有不少未知因素,科學(xué)合理的樣本量是試驗(yàn)實(shí)施成功與否的最重要因素之一。過(guò)大的樣本量造成成本的增加和研究期限的延長(zhǎng),而過(guò)小的樣本量可能因試驗(yàn)的檢驗(yàn)效能過(guò)低而導(dǎo)致試驗(yàn)失敗,使好的藥物不能及時(shí)上市,無(wú)論對(duì)申辦方還是對(duì)患者,都是很大的損失。樣本量再估計(jì)方法是自適應(yīng)設(shè)計(jì)中的一種,就是在期中分析時(shí)根據(jù)正在進(jìn)行的臨床試驗(yàn)數(shù)據(jù),來(lái)調(diào)整試驗(yàn)的樣本量,以使得該試驗(yàn)擁有最合適的樣本量,得出應(yīng)有的結(jié)論。
EM算法在期中分析時(shí)不需要對(duì)累積數(shù)據(jù)進(jìn)行揭盲的情況下,對(duì)數(shù)據(jù)的方差等進(jìn)行在評(píng)估并重新估算樣本量,以保證試驗(yàn)具有足夠的把握度;更大程度的保證試驗(yàn)的完整性,同時(shí)無(wú)法對(duì)組間真實(shí)差異進(jìn)行估計(jì),受到美國(guó)FDA的青睞[8]。Gould & Shih[6]的研究顯示對(duì)于I類錯(cuò)誤的影響微乎其微,甚至可以忽略不計(jì)。這也就意味著這種調(diào)整能夠以對(duì)α很小的犧牲為代價(jià),換得試驗(yàn)可進(jìn)行調(diào)整樣本量以達(dá)到比較理想的檢驗(yàn)效能。這也契合ICH E9須保持盲法以及控制I類錯(cuò)誤的要求[9]。目前CFDA新版《藥物臨床試驗(yàn)的生物統(tǒng)計(jì)學(xué)指導(dǎo)原則》已經(jīng)描述了盲態(tài)下樣本量再估計(jì)的方法并建議可由IDMC[10-11]來(lái)執(zhí)行。同時(shí)也需要注意,EM算法估計(jì)獲得的樣本量顯著大于初始樣本量的時(shí)候就需要終止試驗(yàn)。這樣做忽略了實(shí)際組間差異與初始組間差異的變異,會(huì)增加假陰性的概率。
條件把握度的方法顯著的優(yōu)點(diǎn)就是可以及時(shí)監(jiān)測(cè)、及時(shí)調(diào)整,保證臨床試驗(yàn)按預(yù)期順利完成。按照期中分析結(jié)果預(yù)測(cè)試驗(yàn)結(jié)束時(shí)檢出真實(shí)差異的把握度或者概率,并且可以根據(jù)期望把握度,調(diào)整樣本含量,既保證試驗(yàn)的檢驗(yàn)效能,又可以避免不必要的資源浪費(fèi)。同時(shí)也要注意到,本方法需要試驗(yàn)中期揭盲,可能破壞試驗(yàn)的完整性,引起Ⅰ類錯(cuò)誤增大,必須在試驗(yàn)數(shù)據(jù)揭盲之前在試驗(yàn)方案中進(jìn)行明確嚴(yán)謹(jǐn)?shù)谋硎觯苊饨颐?duì)試驗(yàn)的Ⅰ類錯(cuò)誤及科學(xué)完整性的影響。
本研究只關(guān)注了一次期中分析,沒(méi)有考慮I類錯(cuò)誤的調(diào)整。如果研究計(jì)劃進(jìn)行多次期中分析,需要與成組序貫試驗(yàn)結(jié)合應(yīng)用,I類錯(cuò)誤率會(huì)隨著多重比較的次數(shù)增多而增長(zhǎng),因此必須嚴(yán)格控制α水準(zhǔn)。常用的有Bonferroni法,Pocock法[12],O’Brien-Fleming法[13]和Lan and DeMets法[14]等。
實(shí)際應(yīng)用時(shí)還應(yīng)該考慮到,盲態(tài)下能夠看出總體療效高于對(duì)照組預(yù)計(jì)療效或者一定的療效趨勢(shì),并且由獨(dú)立數(shù)據(jù)監(jiān)察委員會(huì)(IDMC)[10-11]來(lái)判定是否進(jìn)行非盲的樣本量再估計(jì)。不能僅僅根據(jù)數(shù)字大小下結(jié)論,破壞試驗(yàn)的完整性,這就要求初始樣本量設(shè)計(jì)應(yīng)該盡量科學(xué)合理,即使試驗(yàn)中可以進(jìn)行樣本量再估計(jì)。
[1] 于莉莉,薛富波,王素珍,等.臨床試驗(yàn)中自適應(yīng)設(shè)計(jì)的樣本量再估計(jì)方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(6):657-659
[2] Lan KK,Zucker DM. Sequential monitoring of clinical trials: The role of information and Brownian motion. Stat Med,1993,12:753-765.
[3] Lan KK,Wittes J. The B-value: A tool for monitoring data. Biometrics,1988,44(2):579-85.
[4] 陳建平,魏永越,陳峰,等.期中分析的條件把握度及樣本含量再估計(jì).中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(4):361-363
[5] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the EM algorithm (with discussion). Journal of the Royal Statistical Society,1997,B39:1-38.
[6] Gould AL,Shih WJ,Sample size re-estimation without unblinding for normally distributed outcomes with unknownvariance,Commun. Stat. Theory 2,1992:2833-2853.
[7] Gould AL. Planning and revising the sample-size for a trial. Stat Med,1995,14:1039-1051.
[8] FDA:Adaptive Design Clinical Trials for Drugs and Biologics(Draft Guidance) 2010.
[9] ICH E9:Statistical Principles for Clinical Trials 1998.
[10]CFDA:藥物臨床試驗(yàn)的生物統(tǒng)計(jì)學(xué)指導(dǎo)原則2016.
[11]FDA:Establishment and Operation ofClinical Trial Data MonitoringCommittees 2006.
[12]Pocock SJ. Group Sequential Methods in the Design and Analysis of Clinical Trials. Biometrika,1977,64(2):191-199
[13]O’Brien PC,Fleming TR. A Multiple Testing Procedure for Clinical Trials. Biometrics,1979,35(3):549-556.
[14]DeMets DL,Lan KK. Interim Analysis: The Alpha Spending Function Approach. Stat Med,1994,15-30;13(13-14):1341-1352; discussion 1353-1356.