張 華 曹志剛 莫 淼, 徐望紅△
腫瘤監測數據的生存分析方法比較*
張 華1曹志剛2莫 淼1,2徐望紅1△
腫瘤監測數據通常采用隊列法和完全法計算長期生存率,以反映不同癌種對生命的危害程度,并用于評價公共衛生決策和治療措施的遠期效果。這兩種方法計算出來的生存率有一定的局限性,不能及時反映當前的生存率信息。近幾年來,現時生存分析、分期調整現時生存分析、混合法和預測法在腫瘤監測數據分析中的應用引起了重視。本文將比較上述幾種方法的概念及原理、應用條件、優缺點及計算方法,并介紹應用實例。
分析腫瘤長期生存率(通常為5或10年),首先要確定一段研究時間,即感興趣時期(period of interest)。如以2002-2006年為感興趣時期,計算該時期腫瘤病例的5年生存率,最真實準確的方法是將2002-2006年確診的病例分別隨訪至2007-2010年,計算活滿5年的人數占所有人數的比例。此法得到的生存率稱之為“真實生存率”(如表1“真實生存率”所示)。但如果感興趣時期是當前,例如在2007年分析2002-2006年的5年生存率,則無法得到該隊列的5年隨訪資料來計算真實生存率,此時可采用其他方法進行估算。
1.隊列法(cohort method)
隊列法是目前估計長期生存率最常用的方法[1]。以5年生存率為例,它是將感興趣時期(2002-2006年)之前5年(1997-2001年)確診的病例納入隊列,隨訪至感興趣時期結束,計算活滿5年的人數占所有隊列人數的比例。計算時不涉及對右刪失數據的處理(如表1“隊列法”所示)。
隊列法估計的長期生存率能直觀有效地解釋腫瘤病例的生存情況,但其最大缺點在于納入隨訪的病例是感興趣時期之前而非感興趣時期內確診的病例,不能反映最新最及時的生存情況。如上例中隊列法計算得到的5年生存率,實際上是1997-2001年確診病例的5年生存率,而不是2002-2006年確診病例的生存狀況。隨著醫療技術的發展,癌癥的診斷和治療水平不斷提高,腫瘤生存率不斷上升,因此在腫瘤的長期監測中使用隊列法估計的生存率會低于真實情況。所研究的生存率時間越長,這種偏差越明顯。
2.完全法(complete method)
為了使估計的生存率更接近真實生存率,可在隊列法的基礎上,將感興趣時期內新確診病例同時納入研究,隨訪至感興趣時期結束,稱之為完全法[1-2]。
如感興趣時期為2002-2006年,可將1997-2006年確診的所有病例均納入隊列,隨訪至2006年止。計算時需要對右刪失數據進行處理。此方法包含了1997-2001年和2002-2006年兩個5年隊列。依此類推,在計算10年生存率時會存在三個5年隊列。因此該方法又稱為多隊列隨訪法(variable follow-up cohort method)(如表1“完全法”所示)。
相對隊列法而言,完全法納入了感興趣時期新確診病例的生存信息,因此信息更新更及時。在所有方法中,完全法納入研究病例數最多,是對已有生存信息的最大利用,因此它的穩健性和精確度最高。但由于完全法仍包含了感興趣時期之前的生存信息,因此它的及時性有待提高。
3.現時生存分析(period survival analysis)
現時生存分析由德國流行病學家Hermann Brenner于1996年首先提出,至2002年逐漸發展成熟[1,3-5]。該方法納入的研究對象一部分是感興趣時期新確診的所有病例,另一部分是在感興趣時期之前確診且在感興趣時期仍然存活的病例。以感興趣時期為2002-2006年為例,研究對象包括在2002-2006年期間新確診病例,以及2002之前確診并在2002-2006年期間仍存活的病例。計算時需要對感興趣時期之前確診的左刪失數據和該時間段截止時仍存活的右刪失數據進行處理(如表1“現時生存分析”所示)。
現時生存分析是一種類似現時壽命表的分析方法,納入的對象均在感興趣時期內進行隨訪。在感興趣時期新確診數據和隨訪數據都具備的情況下,相對于完全法,排除了感興趣時期之前的隨訪信息,僅保留了之前確診但仍存活的病例,因此更接近真實生存率。但由于現時生存分析利用的信息比完全法少,因此精確度降低,穩健性下降,生存率的方差增大。計算生存率時需要在精確度和及時性之間進行權衡。以全人群為基礎的腫瘤登記數據或多中心研究數據,由于樣本量大,精確度已得到足夠的保證,及時性顯得更為重要,此時應首選現時生存分析。此外,可通過前后移動現時生存分析感興趣時期的起始點,得到一個精確度和及時性的平衡點,前移則精確度增加、及時性降低,后移則相反。

表1 幾種生存率分析方法示意圖*
4.分期調整現時生存分析(stage-adjusted period analysis)
盡管現時生存分析比傳統方法更及時,但其納入的研究對象包括感興趣時期之前確診的病例,如果這些時段的腫瘤分期狀況因腫瘤篩查等原因而比感興趣時期的病例差,那么現時生存分析會低估生存率[6]。為了解決這個問題,Brenner等[7]于2005年提出按照腫瘤分期調整進行現時生存分析,即在腫瘤分期信息登記完善的前提下,對不同分期情況(如局限灶、局部轉移、遠處轉移、未知等)賦予不同的權重,加權后進行現時生存分析。
分期調整現時生存分析仍可能低估生存率,一方面由于腫瘤分期記錄不準確,很難完全調整分期的影響。如果腫瘤診斷不斷精化,可能會增加局部轉移和遠處轉移患者的檢出概率,使感興趣時期的分期狀況偏向于晚期,這一現象稱之為分期遷移(stage migra-tion)。此時分期調整現時生存分析會低估生存率。另一方面,分期調整現時生存分析只排除了分期變化的影響,未考慮治療方式明顯改進的效應。此外,種族、接受篩查患者的比例、接受新穎有效治療方法的病例比例等,都可能是生存分析中存在的混雜因素。因此,分期調整現時生存分析僅適用于納入對象在各時期的分期情況等可比的條件下。分期調整的另一個缺點是增加了分析的復雜性,而且結果的解釋不夠直接。
5.混合法(hybrid method)
現時生存分析雖然能夠提供及時的生存率,但它要求新確診數據和隨訪數據都完整可用。由于腫瘤新確診病例登記常存在延遲[8-9],現時生存分析的使用會受到限制。以計算感興趣時期2002-2006年的10年生存率為例(如表2所示),現時生存分析需要2002-2006年的腫瘤隨訪數據(A部分)和新確診數據(B部分),但由于腫瘤新確診病例登記延遲,導致B部分的數據不可用,因而無法進行現時生存分析。
針對這種情況,Brenner[10]于2004年提出一種將隊列法與現時生存分析法相結合的“混合法”,具體做法是將感興趣時期之前同樣時間長度的新確診病例代替感興趣時期的新確診病例。如上例中采用1997-2001年確診病例(C部分)代替2002-2006年確診病例(B部分)。這樣就包含了1997-2001年的隊列法和2002-2006年的部分現時生存分析。
由于大多數腫瘤死亡發生在確診后5年內,如果不采用C部分數據代替,而是直接舍去B部分數據,會失去大量確診后5年內的生存信息,導致計算出的生存率可靠性差。因此,雖然在登記數據都完整時混合法計算生存率不如典型的現時分析準確及時,但可應用于新確診數據登記延遲的情況下。需要注意的是,混合法要求分析的生存期長于感興趣時期,否則相當于隊列法。

表2 混合法示意圖
6.預測法(projection method)
不僅腫瘤新確診數據登記會延遲,隨訪數據登記也會延遲,再加上因數據分析和結果發表導致的延遲,生存分析結果通常超過5年才可用。為了及時獲得生存信息,Brenner于2009年提出了一種以模型為基礎的長期生存分析方法,是利用若干年之前的完整的腫瘤登記數據推算當前的生存率,稱之為預測法[11-13]。以感興趣時期為2002-2006年為例,首先按照現時分析法納入1982-1986年、1987-1991年、1992-1996年、1997-2001年四個時期的觀察對象,然后以隨訪時期以及隨訪年份為自變量,每一年的條件1年生存率為因變量,采用二項回歸(或Poisson回歸,此處尚存爭議)建立廣義線性回歸模型,預測2002-2006年的生存率(如表3所示)。預測法充分利用了先前的生存信息,及時性更好,甚至可以預測未來的生存率。
預測分析法的唯一依據是過去不同時期的生存率變化趨勢,是建立在生存率隨著時期均勻變化這一假設基礎上的,這種假設在腫瘤生存率不變或穩定增加的條件下基本成立。但在近期篩查或治療措施顯著改進時,可能會導致推算錯誤。此外,由于腫瘤登記一般從20世紀70年代開始完善,采用預測法計算5年生存率最多可用到5個時期的生存信息,如果計算10年生存率,可用到的時間段將更少,從而受到限制。這一問題會隨著腫瘤登記的發展而逐漸消失。
1.直接法
直接法僅適用于數據完整無刪失的情況,公式為:

C表示開始隨訪的病例總數,L表示隨訪滿n年尚存活的病例數。
雖然直接法計算簡單直觀、便于理解,但由于腫瘤隨訪數據通常存在刪失,直接法無法利用這些刪失數據,或者僅從分母中減去刪失數,這樣得到的生存率偏差較大。

表3 腫瘤新確診和隨訪數據登記延遲情況下的預測法示意圖
2.壽命表法
壽命表法克服了直接法不能利用刪失數據的不足,它通過對分母按照時段進行校正,將刪失數據作為半數計算加以利用。真實生存率、隊列法、完全法、現時生存分析和混合法計算生存率的方法均采用壽命表法[14],區別在于納入對象的確診時間和隨訪時間不盡相同。計算的第一步,是按照上述內容選擇研究對象和隨訪時間;第二步是將一般腫瘤登記數據整理成壽命表的形式;第三步,計算隨訪第i年的條件1年生存率ni表示隨訪第i年初人口數,di表示隨訪至第i年結束時的死亡人數,ci表示第i年內刪失人數。

最后將k年的條件1年生存率進行累乘,得到相應的k年生存率

計算5年生存率時,k=5。
壽命表法的計算方法簡單,但計算量龐大。建議先按要求篩選數據,再利用統計分析軟件中的“壽命表法”和“Kaplan-Meier法”進行分析。Brenner提供了兩段SAS宏命令程序用于現時生存分析,即“period”和“periodh”,其相對生存率分別采用EdererⅡ法和Hakulinen′s法。完全法、混合法等可以通過對該程序進行部分調整實現。相關程序可從網站http://www.imbe.med.uni-erlangen.de/issan/SAS/period/period.htm免費下載[14]。
3.加權法
主要用于計算分期調整現時生存率[14]。首先按腫瘤分期信息,將納入的病例分為4組(可按腫瘤登記詳盡程度進行調整):局限灶、局部轉移、遠處轉移、未知。用n表示研究人群的總樣本量,ri表示第i組在研究人群中所占的比例,si表示相應組在標準人群中的比例。然后對每個病例(無論是生存、死亡還是刪失)及其對暴露人數和死亡人數的貢獻,賦予權重si/ri。此步驟首先意味著加權研究的人群和標準人群在每個分組上擁有相等的權重(nri(si/ri)=nsi),其次意味著兩個人群有著相同的總權重最后利用這些加權后的數據進行現時生存分析,這樣權重就會應用到每一個病例及其對暴露人數和死亡人數的貢獻中去。分期調整現時生存分析可在加權后采用Brenner提供的SAS宏命令程序“adperiod”和“adperiodh”進行擴展分析[14]。

4.模型預測法
以表5為例,計算的第一步是按照現時生存分析的方法,納入1982-1986年、1987-1991年、1992-1996年和1997-2001年這4個時期的研究對象;第二步是計算每一年的暴露人數和死亡人數,并計算每一年的條件1年生存率;第三步將確診時期和隨訪年份作為自變量,每一年的條件1年生存率作為因變量,擬合回歸模型。Hakulinen等[11,13]提出,該模型是在二項回歸(或者Poisson回歸)的廣義線性模型的基礎上增加了log-log連接。
診斷后第j個時期隨訪第i年的條件1年生存率rij可表示為:

時期j編碼為:j=0表示第1個隨訪時期,j=1和n分別表示接下來的第2個和第n+1個隨訪時期。如上例中j=0表示1981-1985年,j=1表示1986-1990年,以此類推。i表示每個時期內隨訪第i年,如1986-1990年中,1986年的i=1,1987年的i=2,以此類推,1≤i≤k(k表示每個隨訪時期的隨訪總年數)。
用Rj表示第j個時期中隨訪累積滿k年的相對生存率

可采用SAS軟件的GENMOD過程來實現。
Brenner[15]基于芬蘭腫瘤登記機構1953-1992年的數據,采用隊列法、完全法、現時生存分析法估計了1953-1957年和1988-1992年16種常見腫瘤的5年和10年生存率,發現兩段時期真實生存率變化較小的肺癌和胰腺癌,使用三種方法估計的生存率相差不大,提示這兩種癌癥在篩查和治療上均無突破性進展;而其他腫瘤都表現為真實生存率略高于現時生存分析法的估計值,完全法居中而方差最小,隊列法得到的生存率最低。差別最大的是膀胱癌,這三種方法與真實的5年和10年生存率分別相差2.0%、4.0%、6.3%和4.8%、8.5%、13.6%,提示該腫瘤的生存率有較大的改善。
Brenner等[7]采用分期調整現時生存分析、現時生存分析和隊列法、完全法估計了美國女性1973-1996年的乳腺癌5年和10年生存率,發現隊列法和完全法與真實5年生存率分別相差0.2%~7.9%和0.5%~6.8%,而現時生存分析法和分期調整現時生存分析法與真實5年生存率的差距大都小于1.5%,最高分別為5.3%和3.7%;10年生存率也有類似的結果。可見,當腫瘤分期有變化時,分期調整進一步增強了現時生存分析提供及時生存率的優勢。
利用1973-2000年SEER數據,Brenner[10]假設1985-1989年新發病數據登記延遲,采用混合法、隊列法和完全法分析了1985-1989年兒童腫瘤及兒童白血病的10年生存率。兩者的真實10年生存率分別為66.5%和64.3%,混合法分別為61.3%和55.1%,完全法為58.1%和50.3%,隊列法為55.1%和45.5%。對于生存率明顯提高的淋巴瘤,混合法的優勢更為顯著;而對于診療無明顯進步的中樞神經系統腫瘤,三種方法計算的生存率相差不大。可見,當新發病例登記延遲時,混合法估計最接近于真實值,并可以通過與傳統生存分析方法結果的對比,反映腫瘤的診療措施是否有顯著進步。
Brenner[16]還采用隊列法、現時生存分析法和預測法估計了新確診數據與隨訪數據登記均延遲的急性成髓細胞白血病的5年生存率。隊列法估計1996-2000年、1995-1999年、1994-1998年、1993-1997年的5年生存率分別為10.2%、10.6%、9.8%和9.3%;現時生存分析法為13.0%、11.5%、10.9%和10.6%;預測法為14.9%、13.5%、12.0%和11.4%。預測法最接近各時期的真實5年生存率(15.6%、15.9%、15.4%和15.4%),現時分析法次之,隊列法最差。在腫瘤登記延遲的情況下,預測法能提供比現時生存分析更為及時準確的生存率。按照不同的年齡進行分層,比較預測法和傳統方法的差異,可以分析年齡對生存率提高的影響。
馬雅婷等[17-18]采用現時生存分析法分析了1988-2004年林州市人群胃癌和食管癌的生存狀況及不同時期的變化。張欣峰[19]進一步采用隊列法、完全法以及現時分析法分析了1997-1999年林州市食管癌和胃癌患者的5年生存率,發現隊列法估計的5年生存分別為28.00%和23.19%,完全法為32.08%和29.03%,而現時生存分析法為36.67%和33.98%,最接近36.82%和34.04%的實際5年生存率。
可見,現時生存分析、分期調整生存分析、混合法和預測法等新的生存分析方法,不僅可以提供更及時準確的生存率,更早地發現不同時期生存率的變化,還可以通過比較其與傳統方法所估計的生存率差異,反映腫瘤患者生存率的變化趨勢:如果新方法得到的生存率明顯大于傳統方法,則說明生存狀況得到明顯改善;兩種結果差異不大,說明該腫瘤在診療措施上并無突破性進展。此外,按照不同性別、年齡層、國家和地區之間等因素分層比較兩者的差別,可反映這些因素在生存率變化中的作用[4-5]。
上述幾種生存分析方法也適用于大樣本臨床數據。我們前期基于復旦大學附屬腫瘤醫院1997-2011年確診的7275例上海戶籍女性原發性乳腺癌病例數據,以感興趣時段2002-2006年為例,分別采用隊列法、完全法和現時生存分析法估計了5年生存率,并與真實的5年生存率進行比較[20]。至2011年12月31日,共有1,182例病例死亡。如表4所示,納入的乳腺癌患者2002-2006年的真實5年生存率和相對生存率分別為80.8%和92.3%,而隊列法、完全法和現時生存分析法估計的5年生存率分別是74.2%,77.6%和79.6%,5年相對生存率分別是84.7%,88.6%和90.9%。現時生存分析法的估計值與實際值最為接近,隊列法相差最大,提示近幾年來乳腺癌的5年生存率有較大的提高。此外,現時分析法與分期調整現時法所得結果差別不大,提示近幾年乳腺癌5年生存率的提高可能主要是因為治療效果改善,而非乳腺癌早發現所致。

表4 復旦大學附屬腫瘤醫院2002-2006年女性乳腺癌5年真實生存率與估計值
國內外研究已證實了現時生存分析等方法的準確性和及時性。這些分析方法值得應用于我國腫瘤監測數據,以獲得更新更及時的腫瘤生存率信息,為臨床實踐和公共衛生決策提供最新的數據依據,便于選擇更合適的臨床治療方案、指導臨床試驗、完善篩選方案、評價干預措施效果,并開展衛生經濟學評價。
[1]Brenner H,Hakulinen T.Period estimates of cancer patient survival are more up-to-date than complete estimates even at comparable levels of precision.JClin Epidemiol,2006,59(6):570-575.
[2]Brenner H,Gefeller O.Deriving more up-to-date estimates of longterm patient survival.JClin Epidemiol,1997,50(2):211-216.
[3]Steliarova-Foucher E,Arndt V,Parkin DM,et al.Timely disclosure of progress in childhood cancer survival by′period′analysis in the Automated Childhood Cancer Information System.Ann Oncol,2007,18(9):1554-1560.
[4]Brenner H.Long-term survival rates of cancer patients achieved by the end of the 20th century:a period analysis.Lancet。2002,360(9340):1131-1135.
[5]Brenner H,Francisci S,de Angelis R,et al.Long-term survival expectations of cancer patients in Europe in 2000-2002.Eur JCancer。2009,45(6):1028-1041.
[6]Sant M,Allemani C,Capocaccia R,et al.Stage at diagnosis is a key explanation of differences in breast cancer survival across Europe.Int JCancer,2003,106(3):416-422.
[7]Brenner H,Arndt V.Further enhanced monitoring of cancer patient survival by stage-adjusted period analysis.Cancer Epidem iol Biomarkers Prev,2005,14(8):1917-1921.
[8]Dickman PW,Hakulinen T,Luostarinen T,et al.Survival of cancer patients in Finland 1955-1994.Acta Oncol,1999,38(Suppl 12):1-103.
[9]Sankaranarayanan R,Black RJ,Swam inathan R,etal.An overview of cancer survival in developing countries.IARC Sci Publ,1998,(145):135-173.
[10]Brenner H,Rachet B.Hybrid analysis for up-to-date long-term survival rates in cancer registries with delayed recording of incident cases.Eur JCancer,2004,40(16):2494-2501.
[11]Brenner H,Hakulinen T.Up-to-date estimates of cancer patient survival even with common latency in cancer registration.Cancer Epidem iol Biomarkers Prev,2006,15(9):1727-1732.
[12]Brenner H,Gondos A,Pulte D.Expected long-term survival of patients diagnosed with multiplemyeloma in 2006-2010.Haematologica,2009,94(2):270-275.
[13]Mariotto AB,Wesley MN,Cronin KA,et al.Estimates of long-term survival for new ly diagnosed cancer patients:a projection approach.Cancer,2006,106(9):2039-2050.
[14]Zhang-Salomons J,Mackillop WJ.Estimating the lifetime utilization rate of radiotherapy in cancer patients:the Multicohort Current Utilization Table(MCUT)method.Comput Methods Programs Biomed,2008,92(1):99-108.
[15]Brenner H,Soderman B,Hakulinen T.Use of period analysis for providing more up-to-date estimates of long-term survival rates:empirical evaluation among 370,000 cancer patients in Finland.Int JEpidem iol,2002,31(2):456-462.
[16]Pulte D,Gondos A,Brenner H.Expected long-term survival of patients diagnosed with acutemyeloblastic leukem ia during 2006-2010.Ann Oncol,2010,21(2):335-341.
[17]馬雅婷,連士勇,劉志才,等.河南省林州市人群胃癌的現時生存分析.腫瘤,2009,29(7):650-653.
[18]馬雅婷,連士勇,劉志才,等.河南省林州市食管癌人群現時生存分析.中華預防醫學雜志,2009,43(12):1100-1104.
[19]張欣峰,婁清濤,陸建邦,等.現時生存分析方法的應用實踐與評價.中國衛生統計,2011,28(1):26-28.
[20]張華,曹志剛,柳光宇,等.隊列法、完全法和現時生存分析方法在乳腺癌隨訪研究中的應用.腫瘤,2014,34(6):550-556.
(責任編輯:劉 壯)
上海市第四輪公共衛生計劃重點學科建設課題(課題號15GWZK0801)
1.復旦大學公共衛生學院流行病學教研室,教育部公共衛生安全重點實驗室(200032)
2.復旦大學附屬腫瘤醫院乳腺外科,復旦大學上海醫學院腫瘤學系
△通信作者:徐望紅,E-mail:wanghong.xu@fudan.edu.cn