呂晶晶 巫宏基 侯雅文 陳 征△
【提 要】 目的 競爭風險數據下,統計分析方法常基于部分分布風險率(sub-distribution hazard,SDH)建立,但一般有前提條件SDH成比例,且有時無法對患者的生存情況或組間效應量部分分布風險率比(sub-distribution hazard ratio,SHR)做出直觀的解釋。因此,為了避免上述基于風險率模型的一些限制,本文介紹并研究一種新指標,限制平均損失時間(restricted mean time lost,RMTL)。方法 首先介紹RMTL的定義和估計方法;其次針對組間RMTL差值構造了差值法和權重法;最后,通過Monte Carlo模擬評價權重法的性能,并與現有方法進行比較。結果 綜合Monte Carlo模擬得到的Ⅰ類錯誤及檢驗效能結果,本文提出的權重法綜合性能相對較好,且在多種模擬情形下均具有較高的檢驗效能。結論 在分析競爭風險型數據時,RMTL的相關結果可與SHR一同給出。
競爭風險型數據是臨床隨訪研究中常見的數據類型。在隨訪過程中,患者可能經歷多種結局終點事件,其中主要觀察或研究的事件記為興趣事件,其他可能會阻礙興趣事件發生的事件即為競爭事件[1]。當競爭風險存在時,直接將數據簡化為單終點的數據類型(即競爭事件均作為右刪失處理)進行分析將會高估事件的累積發生率,甚至得出錯誤的結論[2-3]。類似單終點下Kaplan-Meier生存曲線,競爭風險下常用累積發生函數(cumulative incidence function,CIF)曲線描述患者的生存狀態或趨勢;在對組間CIF的比較中,部分分布風險率比(sub-distribution hazard ratio,SHR)常常作為效應指標隨檢驗結果一并給出。但在實際應用中,SHR有一些局限:(1)最常用的Gray檢驗[4]具有穩健效能的前提是滿足組間SDH成比例假定;(2)Gray檢驗是基于部分分布風險率(sub-distribution hazard,SDH)構造得到,與描述性指標CIF所反映的結果并不直接對應[5];(3)SHR是SDH的比值,但在描述時僅包含組1(或組2)相較于組2(或組1)的SHR,而沒有每組的描述信息,即不包含基線組的信息,因而對臨床醫生或患者而言是一個較為抽象的概念;(4)從指標定義角度來看,SDH是基于條件概率估計得到的,因此,對應的比值SHR所反映的“風險”并不是實際意義上的死亡風險(risk ratio),因而無法直觀解釋患者的生存情況[6-8]。
由于SHR的上述問題,一方面,Calkins等[9]借鑒單終點下限制平均生存時間的概念,將兩個終點事件合并為一個復合事件,提出競爭風險限制平均生存時間(restricted mean survival time under competing risks,RMSTc)。然而,采用簡單的復合終點作為結局不一定存在臨床意義[10],且從實際意義上來說,RMSTc損失了興趣事件單獨的信息。另一方面,Zhao等[11]提出限制平均損失時間(restricted mean time lost,RMTL)這一指標概念,其大小對應興趣事件CIF曲線下方的面積,表示患者在限制時間點內因興趣事件而損失的平均壽命,但是并未給出相應的假設檢驗方法。因此,本文針對競爭風險型數據,介紹了RMTL的估計方法,并基于RMTL差值提出新的假設檢驗方法。

1.RMTL的估計
在興趣事件(j=1)下,第k組的RMTL為[11]
表示患者在限制時間點內因興趣事件而損失的平均壽命,對應第k組CIF曲線下的面積。


2.假設檢驗
本文首先基于兩組間RMTL差值,構造統計量

其中,ρ為不同時刻點間的相關系數。Lyu等[12]指出,相關系數ρ的估計涉及實際數據中潛在累積發生率分布的假定,顯得復雜且難以求解得到,且進行敏感性的模擬研究得到ρ=0.5時方法具有穩健的I類錯誤。因此,取ρ=0.5作為每個時間點間的相關系數估計值。最終得到統計量
本文考慮兩組權重的選擇方法:
(1)取ω(ti)=1,則統計量中不包含任何權重,本文記為差值法;

探究上述假設檢驗法的性能,采用Monte Carlo方法比較Gray檢驗和RMTL差值法、權重法的Ⅰ類錯誤和檢驗效能,共基于6種模擬情形(圖1):(1)基于原假設;(2)兩CIF曲線滿足組間SDH成比例假定;(3)兩條CIF曲線中期發散末端收斂;(4)兩條CIF曲線前期發散后期收斂;(5)兩條CIF曲線前期收斂后期發散;(6)兩條CIF曲線交叉。考慮樣本均衡(n1,n2均為50、100或150)和不均衡(n1=50,n2=100;n1=50,n2=150)的情形,刪失率設置為兩組相同,且均約為0、15%、30%、45%。每一種參數組合下模擬5000次,顯著水平設為α=0.05。

圖1 假設檢驗模擬下的興趣事件累積發生率圖
為了評價上述檢驗法在不同情形下的綜合性能,本文采用方差分析的方法構造Ⅰ類錯誤和綜合檢驗效能結果的評價指標[15]。方差分析方法是通過控制單個或者幾個研究因素來評價感興趣因素的變化趨勢,從而匯總分析不同參數組合下的復雜結果,將復雜結果變得更簡單直觀。在本文中,共考慮4個影響因素,分別為檢驗法(test)、樣本量(n1_n2)、刪失率(cen)和模擬情形(sit),進而擬合如下4個模型:
模型1:E(Y)=test×n1_n2+cen+sit
模型2:E(Y)=test×cen+n1_n2+sit
模型3:E(Y)=test×sit+n1_n2+cen
模型4:E(Y)=test+n1_n2+cen+sit
模型1~3分別代表考慮不同樣本量,不同刪失率,不同模擬情形下的各種檢驗方法的評價,而模型4則是綜合所有影響因素,對各種檢驗方法的評價。其中,用Ⅰ類錯誤的模擬結果減去所定義的顯著水平0.05,得到平均偏差值,其值越接近0則表示Ⅰ類錯誤越穩定;檢驗效能的模擬結果用平均拒絕率評價,檢驗效能越高則平均拒絕率越大。
由表1可見,差值法的Ⅰ類錯誤最激進,Gray檢驗的Ⅰ類錯誤最穩定,而權重法的Ⅰ類錯誤相對保守。由于差值法的Ⅰ類錯誤過于激進,因此不再納入檢驗效能的比較中。

表1 各種檢驗法的平均偏差值(%)(Ⅰ類錯誤)
檢驗效能結果由平均拒絕率反映(表2)。在模擬情形C、D、F中,即當兩條CIF曲線中期發散或存在前期差異或交叉時,權重法的檢驗效能均顯著高于Gray法的檢驗效能。而在模擬情形B和E中,即兩CIF曲線滿足SDH成比例假定或存在后期差異時,權重法的檢驗效能略低于Gray。

表2 各種檢驗法的平均拒絕率(檢驗效能)
本文選取某一關于淋巴細胞白血病患者預后影響因素的研究作為實例分析,所有檢驗均為雙側檢驗,檢驗水準α=0.05。該研究共包含1400例患者,其中,未進行放療組的患者1320例,放療組的患者80例,兩組刪失率分別約為27%、36%。興趣事件為死于淋巴細胞白血病,競爭事件為死于其他原因。至隨訪結束,共389名患者發生興趣事件,425名患者發生競爭事件。經檢驗,該研究數據不滿足SDH成比例風險假定[16](P=0.009)。


圖2 興趣事件的累積發生函數圖(τ=14.9年)
在假設檢驗中(表3),Gray法(P=0.144)和差值法(P=0.052)均未發現兩組間差異具有統計學意義,而權重法得到兩組間差異具有統計學意義(P=0.026)。

表3 實例分析結果
在競爭風險型數據中,對療效的評價往往更為復雜[11]。常用的Gray檢驗往往受限于組間SDH成比例假定,此外,在實際應用中,CIF曲線圖常常會作為描述指標隨檢驗結果一并給出,但Gray檢驗是基于SDH構造得到,其假設檢驗結果與描述指標CIF并不相互對應。因此,本文針對競爭風險型數據,介紹了一個非風險率指標RMTL,并基于RMTL差值,即兩組CIF曲線下面積的差值,建立了差值法和權重法。由實例可見,RMTL可以分別給出兩組間患者的生存情況及其差異,相較于SHR,可以反映更多的患者信息。由模擬結果可見,權重法相較于差值法已經極大地校正了刪失時Ⅰ類錯誤較大的問題,且在中期發散、前期發散和曲線交叉的模擬情形下均具有較高的檢驗效能。在截斷點的選擇中,為避免截斷時間點太大或太小所造成方法的偏差[17],本文基于目前常用的截斷點選擇方法,即兩組間最后事件發生時間的較小值作為截斷時間點。但當試驗組的事件率較低時,選取該方法作為截斷點會對結果造成不同程度的影響[18]。在實際應用時,研究者往往事先確定隨訪期長度,若在隨訪期內觀察到其中一組的全部終點,則研究停止,即得到最終的截斷時間點;若直至隨訪期結束,仍未觀察到全部終點,則將隨訪期限作為最終的截斷時間點。
本文所介紹的RMTL可以直觀地展現組間生存情況的差異,相較于SHR可以反映更多的患者信息。因此,在競爭風險型數據下,為了直觀地反映組間的生存差異情況,建議RMTL的相關估計結果應隨SHR一并給出。在假設檢驗方面,可考慮使用本文提出的權重法。