陳金寶 侯雅文 陳 征△
?
左截斷右刪失數據下非參數估計方法的研究*
陳金寶1侯雅文2陳 征1△
目的 針對左截斷右刪失數據,現有的非參極大似然估計法(NPMLE)和Breslow-Fleming-Harrington估計法(BFH)都對小風險集情形極為敏感,此時生存率會出現急速下降,本文除了提出校正精度的新估計法,同時對現有方法進行比較研究。方法 基于現有NPMLE和BFH,結合Lai-Ying加權思想和條件概率,介紹加權NPMLE和條件NPMLE法,并提出加權BFH法。利用絕對誤差積分(IAE)和平均寬度積分(IAW)指標,通過模擬研究比較上述方法的估計精度。結果 模擬結果顯示NPMLE、BFH、加權NPMLE、加權BFH和條件NPMLE法的IAE值依次遞增,而IAW值顯示加權BFH法最小,NPMLE法最大,BFH、條件NPMLE和加權NPMLE法在高低刪失率下IAW大小相互逆轉。結論 結合模擬結果和實際例子,存在小風險集時推薦使用加權BFH法,其次加權NPMLE法;沒有小風險集時5種方法基本一致。
生存分析 左截斷 小風險集 非參極大似然估計法 BFH法
在生存數據的臨床研究中,生存率的計算是最重要的研究問題之一。常見的生存數據類型有壽終和右刪失,另外一種常見的是左截斷數據[1],它指個體的生存時間開始點是在試驗隨訪之前,也就是在隨訪開始時其已經度過了一段生存期,相當是延遲進入隨訪研究,一直到發(fā)生終點事件或右刪失為止,如SARS患者在剛被感染或有初期病癥時不會被觀察到,而絕大多數是在發(fā)燒等病情嚴重后才進入醫(yī)院開始隨訪的,也可以說從感染發(fā)病到隨訪之間有一段延遲的時期。傳統(tǒng)Kaplan-Meier(KM)估計法只能處理壽終數據或右刪失數據,而忽略左截斷信息的存在,此時KM法則會高估生存率,造成分析結果存在偏倚[2]。針對左截斷數據的生存率估計,常見的方法有非參極大似然估計法(nonparametric maximum likelihood estimate,NPMLE)[3],Breslow-Fleming-Harrington估計法(BFH)[4]和迭代Nelson估計法[5]。Gasparini[4]研究發(fā)現通常情況下迭代Nelson法比NPMLE法和BFH法更易出現低估生存率情形。在生存時間t較小或者較大時,此時風險集人數可能較少,甚至會出現風險集數和死亡數相等的情況,通常將這種情形稱為小風險集,這時NPMLE法估計的生存率會突然出現急速的下降,甚至下降為0,而不管之后是否還有生存者,并且這種不穩(wěn)定會傳播到整個生存曲線[1],此時BFH法估計的生存率雖然可以保持為正數,表現優(yōu)于NPMLE法估計值等于0,然而依舊無法避免出現低估生存率的情況[5],迭代INE法雖然可以較好克服小風險集情形的影響,但在早期依舊會低估生存率,綜上所述本文不再討論迭代INE法。小風險集存在時采用合理恰當的估計方法顯得極為重要。針對左截斷存在小風險集情形,一種有效且常規(guī)的方法是通過估計(t|t>u)的條件分布來計算生存率,其中u是事先定義的恰當時間點,如條件NPMLE法。除此之外,Lai和Ying[6]提出使用加權方法來計算生存率,如加權NPMLE法。加權方法在避免小風險集影響的同時,也無需定義時間點u,避免定義時間點u時主觀性帶來的影響,對此本文提出新方法加權BFH法,在克服小風險集影響的同時,也無需事先主觀性地定義時間點u,更為合理精確地估計生存率。另外,目前為止還沒有相關研究對未校正方法和校正方法一起進行模擬比較,只是從理論上加以區(qū)別說明,對此本文還會通過模擬研究,綜合評價和比較上述5種方法的估計精度,包括新方法加權BFH法,最后進行一個實例分析。

1.非參數極大似然估計法(NPMLE)

(1)

2.加權非參數極大似然估計法(加權NPMLE)
Lai-Ying[6]提出第一種校正方法,稱為加權NPMLE法。首先是先選擇常數c>0和0<α<1,n代表樣本量,則加權NPMLE法定義如下:
(2)
相比于公式(1),公式(2)設置了權重函數I{Rm(n)(s)≥cnα},即只有在風險集數Rm(s)大于等于某一設定值cnα時,權重函數設為1,否則設為0,此時加權NPMLE弱收斂于正態(tài)分布,有較強的一致性[6],則可以避免小風險集的影響。
3.條件非參數極大似然估計法(條件NPMLE)
加權NPMLE法(公式(2))使用了加權思路,另一種有效且自然的解決方法是通過估計(t|t>u)條件分布來計算生存率,其中u是事先定義的恰當時間點,則條件NPMLE定義如下:
(3)
此時的條件NPMLE法有較強的一致性[6]。通過選擇和改變不同的時間點u,可以獲得足夠的樣本信息和避免出現小風險集情形。
4.Breslow-Fleming-Harrington估計法(BFH)


(4)
BFH法雖然在Rm(s)和ΔLm(s)相等的情形下,可以固定保持為正數,表現優(yōu)于NPMLE等于0,然而依舊無法避免出現低估生存率的情況[5],也需要進行適當的校正。
5.加權Breslow-Fleming-Harrington估計法(加權BFH)


(5)
加權BFH法不論在什么情況下都可以固定保持為正數,并且可以有效避免出現低估生存率的情況。
通過Monte-Carlo模擬比較上述5種方法的表現,主要模擬情形有兩種:(1)相同樣本量下不同刪失率;(2)相同刪失率下不同樣本量。左截斷生存時間T服從威布爾分布,形狀參數和尺度參數分別設為4和25;生存時間X分布也服從威布爾分布,參數分別為3和50;研究時間窗口長度為w,則刪失時間C=T+w,通過改變w值獲得不同刪失率;模擬次數設為10000次。主要評價指標[5]有兩個:
1.絕對誤差積分(integrated absolute error,IAE)
IAE描述的是生存率估計值與生存率真實值的偏倚程度,定義如下:
其中S(t)是指t時刻上10000次模擬后生存率估計值的平均值,W(t)是指t時刻上由概率密度函數求得的生存率真實值。為了避免最后時刻t事件狀態(tài)的不確定性,設定k=50。
2.平均寬度積分(integrated average width,IAW)IAW是描述的是生存率估計值和生存率真實值的變異程度,定義如下:

其中S95(t)和S05(t)分別指t時刻上10000次模擬后生存率估計值的95%和5%分位數,W(t)是指t時刻上生存率的真實值,同樣設定k=50。
(1)相同樣本量不同刪失率
研究時間窗口長度w分別從5增加到35,對應的平均刪失率從0.926減少到0.258。從表1得出,樣本量固定時,隨著平均刪失率的遞減,5種估計法的偏倚和變異呈現遞減趨勢;在偏倚方面,NPMLE法最小,其次是BFH法,加權NPMLE法居中且略微小于加權BFH法,最大的是條件NPMLE法;在變異方面,加權BFH法最小,最大的是NPMLE法,BFH法都大于加權NPMLE法,而在刪失率大于0.890時,變異小于條件NPMLE法,小于0.890時,結果相反;同樣的在刪失率大于0.81時,加權NPMLE法小于條件NPMLE法。

表1 相同樣本量不同刪失率下5種估計法的偏倚(IAE)和變異(IAW)模擬結果
(2)相同刪失率不同樣本量
研究時間窗口長度 固定為5,對應的平均刪失率固定為0.926。從表2得出,平均刪失率固定時,隨著樣本量從250到2000遞減,5種估計法的偏倚和變異都在遞減;在偏倚方面,NPMLE法最小,其次是BFH法,加權NPMLE法居中且略微小于加權BFH法,最大的是條件NPMLE法;在變異方面,加權BFH法最小,加權NPMLE次之且略微小于加權BFH法,BFH法居中,然后是條件NPMLE,最大的是NPMLE法。
一項關于在加利福尼亞州帕羅奧多的錢寧屋退休中心老年居民壽命的研究[10],研究對象是從1964年1月到1975年7月期間入住退休中心的老年人,其中男性97例,女性365例,刪失率分別為52.6%和64.4%。每個個體必須生存到足夠年紀65歲(780個月)才能進入在退休中心,則生存時間是死亡時間,左截斷時間是進入研究時間,刪失時間是研究截止時間或者對象退出研究時間。圖1顯示的是男性老年人生存率,發(fā)現黑色點線NPMLE法在800個月之前急速下降為0,灰色點線BFH雖然避免降低為0,但依舊有突然下降的趨勢;令c=1,α=1/3,使得權重函數I{Rm(n)(s)≥cnα}中cnα男性和女性分別約為5和8,合理地避免風險集數Rm(s)過小情形,如男性Rm(800)為1,加權BFH和加權NPMLE兩條實線基本重合;點虛線條件NPMLE(t>781個月)和兩條實線都基本重合,三種方法都避免了生存率突然降低為0的情況。圖2是女性老年人的生存率,發(fā)現當不存在風險集數Rm(s)過小或Rm(s)和死亡數ΔLm(s)相等的小風險集情形,校正與未校正的估計法結果基本一致,5條圖線基本重合在一塊。

表2 相同刪失率不同樣本量下5種估計法的偏倚(IAE)和變異(IAW)模擬結果

圖1 男性老年人的累積生存率圖

圖2 女性老年人的累積生存率圖
在醫(yī)學臨床研究中,左截斷類型數據是常見的類型之一,并且其生存率的計算是最重要的研究問題之一。關于左截斷類型生存率的計算過程,常常出現風險集數Rm(s)過小或風險集數Rm(s)和死亡數ΔLm(s)相等的小風險集情形,導致生存率突然出現急速下降甚至下降為0的異常情況,有效的解決策略是采用加權思想和條件分布思想,本文相應的提出了加權BFH法。進行模擬分析,從偏倚程度和變異程度兩方面綜合評價NPMLE法、加權NPMLE法、條件NPMLE法、BFH法和加權BFH法共5種估計法的表現,根據模擬結果,可以發(fā)現NPMLE法有最小的偏倚,同時有著最大變異,說明NPMLE法存在不穩(wěn)定性;條件NPMLE同時具有較大的偏倚和變異,可能是因為模擬研究中條件t>u,其中u取時間25%分位數點,選擇時間點偏后導致的,u的選擇具有一定的主觀性;加權NPMLE法在低刪失率下比條件NPMLE法有著更高的變異程度;BFH法有較小的偏倚但有較大的變異,表現略優(yōu)于NPMLE法,5種方法只有加權BFH法基本維持較低且合理的范圍內,雖然加權方法中常數c和α都具有一定的主觀性,模擬結果顯示依舊可以很大程度地避免偏倚和變異的產生,最接近真實的生存率值。在左截斷類型數據的實際應用中,應注意是否有小風險集情形的出現,對應地采用合理的方法,避免做出錯誤的結論。
[1]Klein JP,Moeschberger ML.Survival Analysis:Techniques for Censored and TruncatedData.Second Edition.New York:Springer,2003.
[2]Nahman NS,Middendorf DF,Bay WH,et al.Modification of the Percutaneous Approach to Peritoneal Dialysis Catheter Placement UnderPeritoneoscopic Visualization:Clinical Rensults in 78 Patients.Journal of the American Society of Nephrology,1997,1992(3):103-107.
[3]Lynden BD.A method of allowing for known observational selection in small samples applied to 3CR quasars.Monthly Notices of the Royal Astronomical Society,1971,115(1):95-118.
[4]Gasparini M,Gandini M.A comparison of nonparametric estimators of survival under left-truncation and right-censoring motivated by a case study.Statistica,2011,71(3):391-406.
[5]Pan W,ChappellR.A Nonparametric Estimator of Survival Functions for Arbitrarily Truncated and Censored Data.Lifetime Data Analysis,1998,4(2):187-202.
[6]Lai TL,Ying Z.Estimating a distribution function with truncated and censored data.The Annals of Statistics,1991,19(1):417-422.
[7]Woodroofe M.Estimating a distribution function with truncated data.The Annals of Statistics,1985,13(1):163-177.
[8]Wang MC,Jewell NP,Tsai WY.Asympotic properties of the product limit estimate under random truncation.The Annals of Statistics,1986,14(4):1597-1605.
[9]Lai TL,Ying Z.Linear rank statistics in regression analysis with censored or truncated data.Technical Report,Department of Statistics,Stanford University,NO.2,March 1988.
[10]Hyde J.Testing survival under right censoring and left truncation.Biometrika,1977,64(2):225-230.
(責任編輯:郭海強)
The Study of Nonparametric Estimate Method for Left Truncated and Right Censored Data
Chen Jinbao,Hou Yawen,Chen Zheng
(DepartmentofBiostatistics,SchoolofPublicHealth,SouthernMedicalUniversity(510515),Guangzhou)
Objective Nonparametric maximum likelihood estimate(NPMLE)and Breslow-Fleming-Harrington estimate(BFH)are extremely sensitive to small risk set for left truncated and right censored data,this study aims to develop estimation methods to improve the estimation accuracy and compare the existing methods.Methods We introduced the NPMLE,weighted NPMLE,conditional NPMLE,BFH and a new weighted BFH estimate.Simulation studies were carried out to compare five methods via the integrated absolute error(IAE) and integrated average width(IAW).Results The IAE of NPMLE,BFH,weighted NPMLE,weighted BFH and conditional NPMLE is ascending in turn;The IAW of weighted BFH is the lowest and NPMLE is the largest,BFH,conditional NPMLE and weighted NPMLE is reversed under different censored rate.Conclusion According to the results of simulation and example,weighted BFH and weighted NPMLE is recommended in turn when the risk set is small.Otherwise,the results of five methods would be consistent.
Survival analysis;Left truncation;Small risk set;Nonparametric maximum likelihood estimate(NPMLE);Breslow-Fleming-Harrington estimate(BFH)
國家自然科學基金(81673268,81202288),廣州市科技計劃項目(2012J5100023),南方醫(yī)科大學科研啟蒙計劃(B1012444)
1.南方醫(yī)科大學公共衛(wèi)生學院生物統(tǒng)計學系(510515)
2.暨南大學經濟學院統(tǒng)計學系
△通信作者:陳征,E-mail:zchen@smu.edu.cn