南方醫科大學公共衛生學院生物統計學系(510515) 劉偉杰 譚旭輝
【提 要】 目的 比較隨機縮減法中條件功效和不同先驗分布下的預測功效兩類指標的優劣。方法 以試驗組和對照組的兩樣本均數比較的統計優效性檢驗為分析目的,在拒絕型O’Brien & Fleming(OBF法)成組序貫設計的條件下,通過設定不同SCP的拒絕閾值γ,在每個期中分析階段計算CP及不同先驗下的PP,并計算各指標相應的Ⅰ類錯誤、檢驗功效Power、平均樣本量以及平均階段數。結果 當SCP終止條件為γ=0.80,無信息先驗PP的Ⅰ類錯誤能穩定在0.05處左右,而CP和enthusiastic先驗PP的Ⅰ類錯誤則出現明顯膨脹;當SCP終止閾值為0.85和0.90,能明顯抑制CP和不同先驗下的PP的Ⅰ類錯誤的膨脹;當五階段OBF功效設定在90%及SCP終止閾值為0.80的條件下,CP、無信息先驗PP以及enthusiastic先驗PP功效分別為87.6%、84%和86.5%。結論 在期中分析次數較多的OBF成組序貫設計條件下,無信息先驗PP效果優于CP;在陽性研究中,SCP能大幅減少成組序貫試驗所需的期望樣本量和期望階段數。隨著SCP終止閾值的增大以及期中分析次數的減少,CP和不同先驗PP的功效均會出現明顯的下降,而CP和不同先驗PP的Ⅰ類錯誤的膨脹則會被抑制。隨機縮減法相關指標對于臨床試驗有效性監測具有較高的參考價值。
臨床試驗數據的安全性和有效性的期中監測成為了現代臨床試驗重要組成部分,成組序貫設計因其期中分析的靈活性成為藥物臨床試驗設計方法的較好選擇。為了在試驗過程中,能夠對未來的結局進行預測,由Lan,Simon & Halperin[1]基于序貫設計的思想提出的隨機縮減法(stochastic curtailment procedure,SCP)則是可以有效降低樣本量的試驗數據監測方法。此外,在Ⅲ期臨床試驗有效性評價中,成組序貫設計通常會選擇O’Brien & Fleming(下稱OBF法)法[2]。因此,在OBF法成組序貫設計條件下結合隨機縮減法的各個指標,能否進一步提高試驗效率亟待明確。故本文主要以OBF法作為經典期中分析方法,在參數θ的先驗分布取“客觀性”較強的幾種先驗分布條件下,對隨機縮減法的條件功效(conditional power,CP)和預測功效(predictive power,PP)進行比較和評估,為該方法在成組序貫設計中的應用提供理論參考。
1.成組序貫設計
成組序貫設計(group sequential design)是一種在試驗正式結束前,能提供多次期中分析的設計。在該設計中,因其能較早的終止試驗,從而明顯減少試驗所需樣本量以及時間。從設計角度來說,成組序貫設計是將整個試驗劃分成K個階段,每個階段內都有一定量的受試者加入,當第k個階段(k=1,2,…,K)結束后,將之前各個階段試驗結果累積起來進行一次分析。對于拒絕型的成組序貫設計,如果拒絕H0則試驗結束,否則繼續下一階段試驗。在最終試驗階段,其結果不是接受H0,就是拒絕H0[2]。
期中分析(interim analysis)[3-4]是根據事先制訂的分析計劃,對累積數據進行分析并比較處理組間的有效性和安全性。期中分析可提早終止試驗并縮短試驗周期,同時可保證患者以較少的花費得到最佳的治療。由于該過程實際上是對已累積數據進行重復性檢驗,為防止Ⅰ類錯誤膨脹,成組序貫設計在各階段校正檢驗水準,各階段的Ⅰ類錯誤被稱為名義顯著性水準(nominal significance level)[5]。
2.隨機縮減法
在臨床試驗中,如果試驗在某階段累積的信息可保證在整個試驗完成時有較大可能性得到拒絕或接受零假設的結論,那么試驗即可在此階段結束。基于以上規則,由Lan[1]提出的隨機縮減法(SCP),可在試驗過程中的任意一個階段,通過計算SCP的相關指標來判斷試驗是否可以提前終止。SCP指標有如下兩類[6]:
(1)條件功效(CP),即以當前所納入樣本提供的信息推測最終階段拒絕原假設的概率:
CPk(θ)=P(RejectH0|θ,accumulated data)
(1)
對于每一階段k=1,…,K-1,在Zk條件下的最后階段ZK的條件分布為:
那么第k階段的CP為

(2)
CP的計算取決于未知的真實效應差別θ,一般取現階段的最大似然估計值θMLE[6]。
(2)預測功效(PP),即依據θ的先驗信息,并結合樣本似然函數,以后驗分布作為權重對θ進行積分[7-8]。
(3)
PP相對于CP,有效地避免了直接選擇參數θ估計值進行計算,并以θ的后驗分布作為權重,計算加權平均的條件功效。該方法在計算中用θ的后驗分布反映了對θ的不確定性,從而需要事先指定θ的先驗分布。

P(θ|accumulated data)~
(4)
則根據公式(3)、(4),第k階段的預測功效為
PPk=
(5)

本研究中所采用的幾種“客觀性”較強的先驗分布如下[9-11]:
Non-informative先驗(無信息先驗):若假設臨床試驗開始前我們缺少試驗相關歷史信息。在這種情況下,先驗參數會在一個區間內取值沒有任何傾向;
Enthusiastic先驗:當臨床試驗結局支持陰性結果(Negative Study)時,我們選擇Enthusiastic先驗來計算預測功效PP,并以此推斷試驗數據支持陰性結果的強度;對于正態Enthusiastic先驗分布,要求其先驗均值取為θalternative,取Prob{θ≤0}≤α成立時的方差;
Skeptical先驗:當臨床試驗結局支持陽性結果(positive study)時,我們選擇Skeptical先驗來計算預測功效PP,并以此來判斷試驗是否終止。對于正態Skeptical先驗分布,要求其先驗均值取為0,取Prob{θ≥θalternative}≤α成立時的方差;
本文通過隨機模擬,對拒絕型OBF法成組序貫設計下條件功效CP和預測功效PP作為試驗監測指標的優劣性進行比較,并評估各種先驗分布對PP的影響;比較不同SCP終止閾值γ對CP和PP監測效果的影響。
我們以兩樣本均數比較的成組序貫為設計框架,采用SAS 9.3隨機產生每個階段的模擬試驗數據。在期中分析中,通過計算CP和PP的I類錯誤、檢驗功效Power、平均樣本量(average sample number,ASN)以及平均終止階段數(average stage,AS)等指標,綜合評價CP和PP的優劣性。在模擬過程中,試驗是否終止的判斷是由經典OBF期中分析的結果來決定。
在模擬過程中,以優效性假設檢驗H0:θ=0,H1:θ>0(θA=2),單側α=0.05,β=0.1(即Power=0.9),經典OBF法成組序貫設計階段數K=3,4,5為設計框架;效應差值θA=2,共同標準差σ=8,試驗組均值Μt=4或6,對照組均值Μc=4;SCP閾值設定為0.80、0.85以及0.90;模擬次數為1000次。具體參數如下表1所示:

表1 模擬參數設定
1.兩總體均數相同
在兩總體均數相同條件下,按照表1的參數設置,隨機縮減法的各指標的I類錯誤如表2。由表2的陰性模擬研究結果中可以看出,在終止條件為γ=0.80的5階段和4階段情況下,隨機縮減法的各指標除Skeptical先驗PP以外均有Ⅰ類錯誤膨脹的情況,尤其是指標CP的I類錯誤出現較明顯的膨脹。另外,Skeptical先驗通常用于支持陽性試驗結局,因此在陰性模擬比較中I類錯誤較低,其實際參考意義不大。而在三個階段中的無信息先驗PP的Ⅰ類錯誤能穩定在0.05左右。
當終止條件設定為γ=0.85或γ=0.90,隨機縮減法的各指標除CP以外均能較好控制Ⅰ類錯誤膨脹的情況,Ⅰ類錯誤隨著階段數的減少而降低,當階段數降低到3階段時,指標CP的Ⅰ類錯誤概率能控制在0.05左右。
2.兩總體均數不同
在兩總體均數不同條件下,按照表1的參數設置,隨機縮減法的各指標的功效(Power)、平均樣本量(ASN)及平均終止階段數(AS)如表3。
由表3的結果可以看出,在終止條件γ=0.80的5階段情況下,CP、無信息先驗PP和Enthusiastic先驗PP的功效Power均能保持在0.85左右,SCP各指標的平均樣本量(ASN)及平均終止階段數(AS)均比OBF法有明顯的降低。在γ=0.80的各階段情況下,隨著階段數的減少,SCP各指標的功效均會比OBF法有明顯的降低。

表2 兩總體均數相等時I類錯誤
在相同階段數的條件下,隨著γ值的增大,SCP各指標的功效均會出現明顯下降。此外隨著階段數的減少,SCP各指標的功效均會有明顯的下降。在各階段情況下,SCP各指標的平均樣本量(ASN)及平均終止階段數(AS)仍然比OBF法要低。

表3 兩總體均數不等時功效(Power)、平均樣本量(ASN)及平均終止階段數(AS)
本文主要對隨機縮減法原理進行了簡單闡述,并對其在經典成組序貫設計期中分析過程中的應用效果進行了分析比較。從實際模擬效果來看,在期中分析次數較多的情況下,CP會明顯增加I類錯誤的風險[12],而無信息先驗PP和Skeptical先驗PP均能較好的控制I類錯誤。隨著期中分析次數的減少,無信息先驗PP和Skeptical先驗PP的I類錯誤控制情況依舊好于條件功效CP。因此,在陰性研究中無信息先驗的PP是優于條件功效CP的。這是由于在試驗的早期階段,參數θ的最大似然估計值θMLE通常是不太穩定的,從而使條件功效CP的計算存在較大的誤差,并由此導致在試驗的早期階段過多的拒絕零假設。對于無信息先驗的PP,由于其計算中依賴的是θ的后驗分布,所以PP的計算是比較合理和穩定的。從先驗分布的選擇角度來說,無信息先驗也是較理想的選擇。此外,隨著期中分析次數的降低,每階段所需的樣本量就會相應的增加,從而使參數θ最大似然估計值趨于穩定。這種現象恰恰說了隨著期中分析次數的減少,條件功效CP的I類錯誤膨脹情況得到明顯的抑制。
在總體均數不同以及期中分析次數較多的情況下,基于CP、無信息先驗PP以及Enthusiastic先驗PP的功效Power均能較好的接近OBF法設定的功效,而相應的平均樣本量和平均階段數均明顯的低于OBF法,尤其是CP比無信息先驗PP更加節省樣本量。但是,這并不能說明在陽性研究中條件功效CP是優于無信息先驗PP的。這是由于CP在試驗的早期階段拒絕零假設,通過放大I類錯誤,從而獲得了較高的功效Power以及較低的樣本量。隨著期中分析次數的減少,SCP各指標的功效均會出現較明顯的下降,這也就意味著SCP各指標并不適用于期中分析次數較少的設計。
通過整個模擬試驗,我們發現SCP閾值γ的增加或減少均會明顯影響各個指標的I類錯誤和功效,這是由于隨機縮減法的判斷原理造成的。Jennison[6]的研究表明,SCP閾值γ較理想的取值是在0.8到0.9,這與我們的模擬結果是一致的。
綜上所述,當在OBF法拒絕型成組序貫設計中,在期中分析次數較多的情況下,隨機縮減法中的基于無信息先驗的PP可作為臨床試驗早期決策的輔助參考指標,從而增加研究人員對未來結果預測的信心。