黃興輝 陳金寶 楊紫荊 呂晶晶 侯雅文 陳 征△
在醫學臨床研究中,組間生存率差異的檢驗是常見的研究問題之一。Log-rank檢驗[1]是目前最常用的方法,其在風險率成比例假定成立時具有較高的檢驗效能,但當不滿足比例風險假定,特別是兩條生存曲線交叉時,交叉點前后生存率高低逆轉可能導致正負差異相互抵消,從而使Log-rank檢驗的檢驗效能大幅降低。為此,Pepe和Fleming[2]提出了一類加權Kaplan-Meier檢驗,它通過兩組Kaplan-Meier估計值的累積加權差來構建統計量,同時已有研究表明[3],當風險率交叉時,加權Kaplan-Meier檢驗的檢驗效能比Log-rank檢驗高。對此Lin[4]提出一種基于兩條生存曲線間面積值大小來構造統計量的面積檢驗法,不管風險率是否成比例、生存曲線是否交叉,其統計量構造均不受影響,避免了交叉點前后正負差異相互抵消的問題;然而在原假設下其檢驗統計量假設服從標準正態分布,但經作者模擬研究發現,該檢驗法一類錯誤偏離預設的檢驗水準,且其統計量呈非正態性,檢驗結果可靠性受到影響。本文基于置換檢驗思想,對原面積檢驗法[4]進行校正,得到置換面積檢驗法,用兩條生存曲線間面積值大小構造統計量,利用置換重抽樣技術得到相應的拒絕域,而不依賴于統計量原始分布,從而校正了面積檢驗法統計量呈非正態性的問題;同時通過模擬研究和實例驗證分析,對置換面積檢驗法、Log-rank檢驗、加權Kaplan-Meier檢驗和面積檢驗法進行性能比較。

比較兩組間生存率的差異,原假設是在任意時刻t上,兩組對應的生存率相等,即H0:S1(t)=S2(t),備擇假設為:H1:S1(t)≠S2(t)。
將兩條生存曲線之間的絕對面積值大小作為衡量差異的指標[4],根據上述面積指標定義可以將其表示為:

利用正態近似的原理,面積指標Δ均值和方差可以分別估計為:

置換重抽樣的思想是根據所研究的問題構造一個檢驗統計量[5],并利用原始樣本,按照排列組合的原理,構造檢驗統計量的理論抽樣分布;然后求出從該分布中獲得原始樣本及更極端樣本的概率(P值),并界定此概率值,由此作出推論。在原假設下,本文通過計算檢驗統計量Δ*的偏度系數和峰度系數[6],同時結合正態性檢驗驗證Δ*的正態性;并且將面積檢驗法和置換思想結合提出一種置換面積檢驗法,通過999次重抽樣過程得到Δ*的拒絕域。置換面積檢驗法對原始數據分布不作要求,從而校正面積檢驗法統計量不服從正態分布而導致影響檢驗穩定性的問題。
具體步驟如下:
1.建立原假設、備擇假設;
2.將兩組原始生存數據混合起來,進行無放回重抽樣,并且計算檢驗統計量Δ*(1);
3.重復第2步999次,依次計算得到Δ*(2),Δ*(3),……Δ*(1000);
4.計算雙側概率P值:p=sum{|Δ*(n)|>|Δ*|}/1000。
本文采用Monte-Carlo模擬來比較Log-rank檢驗、加權Kaplan-Meier檢驗、面積檢驗和置換面積檢驗法的檢驗效能和I類錯誤,并且評價各種檢驗方法的穩健性和適用性。檢驗效能的比較分下列三種類型[3,8-9](包含六種模擬情形):(1)組間風險率滿足成比例假定(圖1A);(2)兩條生存曲線部分發散:前中期發散(后期收斂)(圖1B);兩條生存曲線后期發散(前中期收斂)(圖1C);(3)兩條生存曲線交叉:生存曲線交叉于前期,交叉點約位于S(t)=0.6~0.8(圖1D);生存曲線交叉于中期,交叉點約位于S(t)=0.4~0.6(圖1E);生存曲線交叉于后期,交叉點約位于S(t)=0.2~0.4(圖1F)。一類錯誤中兩組生存時間均由參數為0.25的指數分布產生,在每一種參數下都模擬設置了刪失比例為0%、15%、30%、45%的情形,同時考慮了均衡設計(N1=N2=20,50,100)以及非均衡設計(N1=20,N2=50;N1=50,N2=100)對各種檢驗方法統計性能的影響。
每一個參數組合下模擬1000次,顯著性水平α=0.05。首先產生服從于某一特定分布(如分段指數分布、威布爾分布)生存時間X,當無右刪失時,記錄生存時間T=X,狀態δ=1;當右刪失存在時,兩組刪失時間C分別由服從于U(0,a)和U(0,b)的均勻分布產生,記錄生存時間T=min(X,C),δ=I[X≤C](稱I(·)為指示函數);并通過設定參數a和b的值控制每組平均刪失比例。

圖1 模擬類型圖
在原假設下得到不同樣本量、刪失率組合下的檢驗統計量Δ*,分別計算其偏度系數和峰度系數,同時結合Shapiro-Wilk正態性檢驗判斷檢驗統計量是否服從于正態分布。通過模擬研究發現,在5種樣本量與4種刪失率的不同組合下:其檢驗統計量的偏度系數最小值和最大值分別是1.033、1.436(正態分布偏度系數為0),峰度系數最小值和最大值分別是1.206、3.290(正態分布峰度系數為3),提示檢驗統計量呈右偏態;并且Shapiro-Wilk正態性檢驗結果顯示在不同樣本量和刪失率組合下檢驗統計量均不服從正態分布(P<0.001)。
由于模擬研究中樣本量、刪失率以及模擬類型組合較多,為了更清晰展示一類錯誤率和檢驗效能,以及方便總結模擬結果,本文利用方差分析技術[10],建立以下四個模型。模型構造的思想為:在考慮控制了其他多余影響因素下,研究主要影響因素對檢驗法的影響。比如模型1,在控制刪失率(CENSORE)、不同模擬情形下(SITUATION),研究不同樣本量(NUM)組合下各種檢驗法的表現(模型2、模型3同理);對于模型4,控制所有影響因素,單純看各種檢驗方法的表現。I類錯誤評價指標:結果變量Y減去尺度水平0.05再乘以100,即評價指標為平均偏差值,方法表現越好其期望E(Y)越接近于0;檢驗效能評價指標:結果變量Y為平均拒絕率,即評價指標為平均拒絕率,方法表現越好則其期望E(Y)越大。
模型1:E(Y)=TEST×NUM+CENSORE+SITUATION
模型2:E(Y)=TEST×CENSORE+NUM+SITUATION
模型3:E(Y)=TEST×SITUATION+CENSORE+NUM
模型4:E(Y)=TEST+SITUATION+CENSORE+NUM
表1反應一類錯誤的結果,面積檢驗的I類錯誤偏離預設的檢驗水準,而基于置換面積檢驗法以及其他幾種檢驗法的I類錯誤均在0.05左右輕微波動,其中加權Kaplan-Meier檢驗相對保守;整體來看,刪失比例和不同樣本量組合對I類錯誤影響不大。

表1 四種檢驗方法的一類錯誤(平均偏差值)
檢驗效能的結果展現在表2,隨著樣本量增大,各檢驗方法的檢驗效能均有所提高;隨著刪失率增大,面積檢驗法以及置換面積檢驗法的檢驗效能都呈下降趨勢,而Log-rank檢驗、加權Kaplan-Meier檢驗均在刪失率為45%時出現反轉;情形A時,即成比例,各檢驗法的檢驗效能均在0.7以上,Log-rank檢驗表現最佳;情形D時,即生存曲線交叉于早期,面積檢驗和置換面積檢驗的檢驗效能最高;其它所有情形下,B、C、E、F,即生存曲線前中期發散(后期收斂)、后期發散(前中期收斂)、生存曲線交叉于中期或后期,置換面積檢驗法的檢驗效能均最高。
綜合一類錯誤(表1)和檢驗效能(表2),樣本量是否均衡對五種檢驗法的影響不大;置換面積檢驗法與其它檢驗法相比,既較好地控制了I類錯誤,又在生存曲線交叉、生存曲線部分發散(收斂)時提高了檢驗效能,特別是組間風險率成比例假設失效或生存曲線交叉時具有較高效能。

表2 四種檢驗方法的檢驗效能(平均拒絕率)
實例一(風險率成比例):在一項兩種藥物對治療膀胱癌患者療效的臨床試驗中[11],共收集340例患者,其中安慰劑組納入188名患者,噻替派組納入152名患者,兩組刪失率分別為38.3%和26.3%,終點事件為出現膀胱癌復發,到研究截止時間尚未發生終點事件為右刪失。經Grambsch-Therneau檢驗得到組間風險率成比例假定有效(χ2=0.07,P=0.789),其生存曲線見圖2A。兩組療效的差異檢驗顯示,Log-rank、加權KM、面積檢驗、置換面積檢驗的P值均小于0.05,提示噻替派的治療效果優于安慰劑組,具體結果見表3。
實例二(成比例假設失效且生存曲線交叉):一項兩種藥物(吉非替尼、卡鉑-紫杉醇)治療肺腺癌的臨床研究中[12],共收集1217例患者,其中吉非替尼組納入患者609例,卡鉑-紫杉醇組納入患者608例,兩組刪失率分別為25.6%和18.3%,主要終點事件為惡化或者死亡,到研究截止時間尚未發生終點事件為右刪失。由于原文數據無法獲得,因此參照Royston[13]的方法模擬產生了本例兩組樣本量均為100的模擬數據。圖2B顯示在中位生存期附近(S(t)=0.5,約隨訪至第6個月)兩條生存曲線出現明顯交叉,并經Grambsch-Therneau檢驗得到組間風險率成比例假定失效(χ2=10.00,P=0.002),置換面積檢驗結果(P=0.042)提示兩種藥物(吉非替尼、卡鉑-紫杉醇)治療肺腺癌的效果有統計學差異,與此相反Log-rank、加權KM、面積檢驗的結果均顯示差異無統計學意義(P>0.05)。由于生存曲線出現交叉,從圖2B直觀發現交叉點前卡鉑-紫杉醇組生存率可能高于吉非替尼組,但卡鉑-紫杉醇不能提供長期療效,在約第6個月后發生逆轉,吉非替尼組生存率可能會高于卡鉑-紫杉醇組。因此進一步比較短期和長期(交叉點前、后)兩組生存率的差異,隨訪至第6個月的Log-rank檢驗結果提示短期上兩組差異無統計學意義(χ2=0.272,P=0.602),而對于交叉點后的時期,基于二次型χ2檢驗[14]結果(χ2=4.098,P=0.043)發現從長期角度看,吉非替尼組能提供更好的療效。

圖2 實例的生存曲線圖(A:實例一,B:實例二)

表3 四種檢驗法在實例一、二的應用結果
在刪失率為45%的時候,Log-rank檢驗、加權Kaplan-Meier檢驗的檢驗效能出現反轉,而其他檢驗法的檢驗效能均下降,考慮到情形D(生存曲線交叉于前期)、情形F(生存曲線交叉于后期)時,隨著刪失率升高到一定比例時,可能在模擬中出現生存曲線不交叉或者近似成比例的情況,從而導致Log-rank檢驗、加權Kaplan-Meier檢驗的檢驗效能在刪失率為45%時出現反轉。
本文將置換思想與面積檢驗法結合起來,在多個樣本量和刪失率組合下,既能夠較好的控制I類錯誤,又在面積檢驗法的基礎上,提高了檢驗效能,與其他幾種檢驗方法相比,綜合表現較優;置換面積檢驗法可以用兩條生存曲線間的面積直觀反映兩組生存率的差異大小,不管成比例假定是否成立,生存曲線是否交叉均能適用。因此本文建議當兩條生存曲線滿足比例假定時,首選Log-rank檢驗法;而當兩條生存曲線風險率成比例假設失效,特別是生存曲線出現交叉時,推薦更穩健的置換面積檢驗法。