北京大學腫瘤醫院 付浩 編譯中國胸腺瘤協作組 全體成員 審校
中國胸腺瘤協作組成員單位:上海交通大學附屬胸科醫院:方文濤(胸外科)、谷志濤(胸外科),王常祿(放療科),張杰(病理科);復旦大學附屬中山醫院:譚黎杰(胸外科);華山醫院:龐烈文(胸外科);同濟大學附屬肺科醫院:陳崗(病理科);中山大學附屬腫瘤醫院:傅劍華(胸外科);鄭州大學附屬腫瘤醫院:李印(胸外科);青島大學醫學院附屬醫院:沈毅(胸外科);天津醫科大學附屬腫瘤醫院:于振濤(胸外科);四川省腫瘤醫院:韓泳濤(胸外科);北京大學附屬第三醫院:閆天生(胸外科);北京大學附屬腫瘤醫院:曹登峰(病理科),陳克能(胸外科),付浩(胸外科)(通訊作者:陳克能,E-mail: chenkeneng@bjmu.edu.cn;方文濤,E-mail: vwtfang@hotmail.com)
胸腺惡性腫瘤相對少見,發病率約2.5-3.2/100萬[1,2],病例也分散在各個醫療中心。現有文獻幾乎都是單中心的回顧性研究,為獲得足夠的病例,研究時間往往跨度幾十年,報道結果的方式和使用的定義也各不相同,不同的研究結果很難比較。加之胸腺惡性腫瘤的進展、復發模式及致死原因等都具有其一定的特殊性,如何報道其結局顯得十分重要。由于胸腺惡性腫瘤患者數量相對有限,從現有的經驗中收集信息較為困難,而且存在過度描述和錯誤結論的風險。因此,專業胸腺腫瘤學術組織(International Thymic Malignacy Interest Group, ITMIG)對臨床試驗結果的報告制定了一套標準,已被該組織承擔的合作項目采用。該標準的廣泛應用將增強不同研究結果的可比性。只有采用統一的定義和規范的結果報告,胸腺腫瘤研究才能取得重要進展。2010年以前由外科醫生、腫瘤內科醫生和統計學家組成的小組共同回顧已有文獻使用的評估方法形成初步的建議,再經過一個擴展小組審查,并最終將提煉的建議分發給所有ITMIG成員進行進一步討論。最后在2010年5月6日的紐約年會上得到ITMIG的認可并被采用。本文就ITMIG標準作一綜述。
目前,關于胸腺惡性腫瘤還沒有國際抗癌聯盟(International Union Against Cancer, UICC)和美國癌癥聯合委員會(American Joint Committeeon Cancer, AJCC)的官方分期,但已經存在一些分期系統[3],包括Masaoka分期[4]、Masaoka-Koga分期[5]、GETT分期[6]和TNM分期[7]。大多數中心和發表的文章都采用Masaoka分期系統,但自1995年后更多學者開始使用Koga改良分期系統(Masaoka-Koga分期),見表1。也是ITMIG目前建議使用的分期。Koga改良分期與以往的Masaoka分期的不同之處在于,對于包膜侵犯但未侵透,Masaoka分期歸為IIb期,而Masaoka-Koga分期歸為I期。這是因為大多數病理學家認為包膜部分侵犯沒有意義,而且生存數據似乎也證實這一點[5,8,9]。此外,該分期系統關于包膜完整胸腺瘤和侵襲性胸腺瘤的定義與ITMIG是一致的。另外一個不同之處是,與周圍結構粘連或肉眼侵犯但未侵透縱隔胸膜或心包,Masaoka-Koga歸為IIb期,而Masaoka未給出明確的定義。盡管Masaoka-Koga分期系統得到廣泛應用,但是也有很多定義不明確之處,詳見其它有關分期的介紹。ITMIG和IASLC將承擔對該分期系統的評價和統計驗證,并提出可能的替代分期方法,這就要求收集的數據不止Masaoka-Koga分期,ITMIG數據庫對此會單獨說明。
腫瘤分期的焦點一直都是病理分期。然而,在實際應用中臨床分期更為重要,因為手術切除在治療中往往不是第一步。遺憾的是,腫瘤的相關特征和分期檢查的可靠性在臨床分期中還沒有明確定義。預計這個問題在將來發表的文章中會詳細說明。在明確這些定義之前,建議作者基于自己的最佳判斷,根據Masaoka-Koga分期系統進行分期。強烈鼓勵作者不僅要報道病理分期,還要報道臨床分期。
一個標準的預后評估指標是總生存,它是一個硬性的容易驗證的指標,應該在任何胸腺瘤的臨床研究結果中予以報道。對許多其他腫瘤而言總生存是一個評估腫瘤預后的良好指標,因為多數腫瘤一旦復發其生存期一般很短,且大多死于與原發腫瘤相關的原因。然而,用總生存來評估胸腺瘤預后存在一定問題,因為胸腺瘤非常特別,尤其是許多I期和II期的胸腺瘤患者,因生存時間長常死于其他原因而非胸腺瘤本身,即使是腫瘤復發患者也能存活很多年,(圖1A,圖1B)。因此,除了總生存之外需要更多特異性指標來評估生存。這些特異性指標通常需考慮特異死亡原因或復發類型,或二者均考慮。死亡原因應準確定義避免將死亡過度歸因于癌癥,這一問題已受到廣泛關注[10-12],這可能更適用于胸腺瘤。然而,在現有胸腺瘤相關文獻中普遍存在下列問題,什么是腫瘤相關死亡原因?何謂無疾病生存、無復發生存、腫瘤相關生存及無進展生存等。每個定義都代表不同的結局事件,見表2。由于這些事件在胸腺瘤的發生率很高,這些定義對胸腺瘤的預后描述非常重要。此外,約15%-20%的胸腺瘤患者已患或可能患第二原發腫瘤[3,13,14]。圖2舉例說明了III期胸腺瘤預后評估使用的諸多不同定義。
描述特定結局事件的精算結局曲線(比如單獨計算無局部復發或特定病因的生存曲線)通常具有誤導性,產生過于樂觀的結果[15]。原因在于精算方法在統計學上要求各個事件之間相互獨立,事實上并非如此,比如局部復發時間和遠處復發時間很可能是相互關聯的[15]。根據結局事件的關聯程度不同,采用精算法預測一種結局事件的發生率容易比實際發生率低估30%-50%[15]。因此,最好的辦法是先大體上分析死亡或者其他事件,然后再分析死亡或者發生事件的原因風險比例,從而避免不同原因之間的競爭風險[15]。因此,建議報道復發類型和死亡原因的風險比例。
ITMIG推薦的評估胸腺腫瘤療效的方法是計算其發生在任何部位的復發率,控制重癥肌無力等相關疾病的能力應單獨考慮。此外,受其他因素的影響死亡原因僅是次優的評估指標,當然不混雜復發的死亡是最理想的評估指標。因此,建議以無復發生存作為根治性切除術或放療后完全緩解患者預后的最佳評估指標。對于未根治的患者,疾病進展時間是最好的評估指標,疾病進展時間也可以用于R1切除的患者,因為其存在殘余病灶,見表3。不難看出,這兩個評估指標的終點是一樣的,都是疾病復發,但選擇哪個術語取決于治療后是否仍然存在腫瘤。姑息性治療的患者選擇疾病進展時間,是腫瘤內科醫生容易接受的評估指標。根治患者選擇無復發生存而非復發時間是因為前者強調陽性結局的可能,而后者給人印象是復發僅為一種時間形式。

表 1 Masaoka-Koga分期系統Tab 1 Masaoka-Koga staging system
由于胸腺瘤的惰性生物學行為和復發后能長期存活的事實,建議對于總生存在報道5年生存后還需要報道10年生存。但對于胸腺癌仍建議采用5年生存較為合適。胸腺瘤完全切除后平均復發時間約為5年(3年-7年)[13,16-21]。一項研究表明,根據分期的不同復發時間也有所差別,I期胸腺瘤患者平均復發時間為10年,而II期至IV期胸腺患者平均復發時間為3年[22],說明腫瘤生物學行為越惰性,復發時間越長。鑒于這些原因,建議對于無復發生存使用5年生存較為合適,盡管對于I期腫瘤,它可能好于5年和10年生存率。

圖 1 胸腺瘤患者術后所有死因(A)和分期相關死因(B)。結果來自1980年至2009年樣本量大于等于100例的研究結果的平均值。Fig 1 Overall cause (A) and stage-specific (B) cause of death after resection of patients with thymoma. Results are an average of studies from 1980 to 2009 of100 patients reporting this data3.

圖 2 Ⅲ期胸腺瘤術后患者的10年特異性生存,從總生存、死因、復發和第二原發腫瘤發生的相關數據評估[3]。Fig 2 Specific outcomes for a stage III resected thymoma at 10 years, estimated from data regarding overall survival, cause of death, incidence of recurrence, and incidence of other cancers[3].
人們經常忽略這樣一個概念,因為患者可能會失訪或沒有達到研究隨訪時間,生存曲線提供的只是一個生存估計,其變異程度取決于樣本量、隨訪時間、研究時間和中位生存,如果樣本量少于50例,則變異度會很大,而且在短期研究中表現會更明顯,見圖3A、B。對于少見疾病,大樣本是不容易獲得,因此對獲得數據局限性的評估是很重要,應該提供生存估計的置信區間。建議在所有研究中報道中位隨訪時間(把患者入組到出現感興趣事件、研究結束或失訪的時間,作為整個研究的中位數)。
多因素分析表明,完整手術切除是一個主要的預后因素[3,23]。然而,如何處理標本和如何報道切緣在不同的研究中存在巨大的差異,因為解剖特征和胸腺周圍常常有疏松結締組織會誤導分期。對于胸腺腫瘤切除標本的處理流程和病理報告ITMIG已另文報道,旨在減小這種誤導分期的風險。簡而言之,在切除的過程中需標記關注區域,以減少相關區域組織的破壞,和使外科醫生和病理科醫生能清楚標本的方向以便更好的和病理科醫生交流。病理科工作人員應小心處理大體標本,對關注區域分別切片。切緣陽性提示腫瘤侵犯達到切除標本的墨水標記的表面。如果腫瘤暴露在縱隔胸膜和心包表面,但是與正常體腔有分界(無粘連表現),不能歸為切緣陽性。在胸腺瘤切除過程中存在一個問題,就是胸腺周圍的疏松結締組織很容易被破壞,從而導致腫瘤暴露,事實上腫瘤并未達到切緣表面。如果確定腫瘤暴露區域不是關注部位而且確定在處理過程中遭到破壞,那么這些區域不應該被歸為切緣陽性。
這一術語適合于所有疾病已被根治或潛在根治如R0切除術后者或根治性放療后的完全緩解者。須注意的是,當臨床高度懷疑(或證實)復發時,就定義為復發而勿需影像或活檢等特異性的檢查加以證實。因為帶瘤生存有時僅根據復查就能判斷,要求組織活檢證實或需要治療了才定義為復發,會低估復發率。復發時間應記錄為首次高度臨床懷疑的時間,即使以后有檢查(影像或活檢)進一步證實臨床診斷。當高度懷疑復發時,建議盡可能取活檢。少數情況下,可能高度懷疑復發的診斷在后來被證實為錯誤的,如活檢證實或腫瘤自行消退,對于這類病例應取消復發的診斷。但復發的首診時間不應回顧性制定,這意味著不能將復發首診時間設置為臨床懷疑診斷之前,即使回顧審閱影像片時發現原來有遺漏的異常,而且該異常在后來被證實為復發。影像隨訪檢查的頻率可能會影響首次懷疑復發的時間。我們建議在手術切除后5年內,每年復查胸部CT,之后改為每年行胸片檢查,直到11年。切除的III期或IV期胸腺瘤、胸腺癌、不完整切除,或其他高風險腫瘤,建議3年內每6個月做一次胸部CT。術后在炎癥消退后(如:術后4周-12周)做一次基線檢查對于以后比較是非常有用的。MRI在圖像分辨率或降低放射劑量上優于CT。PET不作為常規檢查手段,但在某些情況可能從中獲益,如臨床或影像懷疑有復發者。有人提出頻率更高的隨訪方案,如終生每年做CT檢查,但這在世界不同的醫療機構并沒有得到廣泛認可。

表 2 生存評估方法Tab 2 Survival measures

圖 3 隊列樣本量不同,持續10年的研究(A)和持續5年的研究(B)在精確估算生存上存在差異。豎線代表根據標準的指數生存模型(研究過程中患者是固定的并且零失訪)估計出5年和10年生存的95%置信區間。Fig 3 Variance in actuarial survival estimates by size of cohort for (A) a 10-year study duration and ( B) a 5-year study duration. The vertical bars are 95% confidence intervals for the survival estimate at 5 and 10 years, based on a standard model of exponentially decreasing survival, a constant rate of accrual of patients during the course of the study until study termination, and no loss to follow-up. MST, median survival time.
4.1 局部復發的定義 局部復發應定義為胸腺床部位,如前縱隔或正常胸腺或胸腺瘤鄰近組織中出現的新病灶(表4)。包括原發腫瘤鄰近的受累淋巴結、胸膜或心包腫物。也包括出現在之前切除的胸膜轉移(IVa期)的部位的新病灶,但應額外注明“轉移部位復發”。最后,病灶出現在鄰近胸腺上級的下頸部時,應定義為局部復發。
4.2 區域復發的定義 區域復發定義為發生在胸腔內的復發腫瘤,但不與胸腺或原胸腺腫瘤的部分緊鄰,這包括胸膜壁層或臟層和心包結節(表4),但不包括原發腫瘤床的部位。包括葉間裂在內的鄰近的胸膜結節定義為臟層胸膜結節。區域復發也包括與胸腺或胸腺瘤不相鄰的淋巴結,如食管周圍或更遠的頸部淋巴結。
4.3 遠處復發的定義 遠處復發包括胸腔外和下頸部組織,腹膜腔或腹膜后結節,但不包括起源于胸腔內結節侵透膈肌進入腹膜腔或腹膜后的部分。建議遠處復發也應該包括有明確界限的肺內結節,即病灶存在影像學或肉眼上與臟層胸膜可分辨的界限。這基于一個推理,臟層胸膜下結節的播散途徑是通過胸膜腔,而肺實質內結節是通過血行途徑。但是,沒有數據證實這一推理,也沒有數據表明這樣區分有臨床意義。為了前瞻性的研究,僅為肺內的遠處復發結節應單獨記錄,與胸腔外復發區分開。

表 3 預后評估方法推薦Tab 3 Recommended outcome measures

表 4 復發的定義(R0切除或影像學完全緩解)Tab 4 Definitions of recurrence (after R0 resection or radiographic complete response)
化療和放療常作為手術前的誘導治療,也作為不可手術切除患者的根治性治療,或者姑息性治療手段。療效評估的標準方法是RECIST標準(1.1版),用CT測量腫瘤一維徑線[24]。盡管該標準可能適合于大多數腫瘤,但胸腺腫瘤的解剖因素,包括大小、部位、邊界不規則和與周圍結構的緊密關系,很難對其做連續性的測量。無論是手測或電子卡尺測量,在觀察者內和觀察者之間都存在差異,尤其對邊界不規則或邊界模糊的腫瘤[25,26]。因此,我們建議腫瘤評估應由單人操作,理想的人選是有測量經驗的放射科醫生[25]。胸腺腫瘤治療反應還可能表現為囊性變、中心壞死和密度改變,傳統測量最大徑的方法不能涵蓋這些內容。另一個問題是,對于富含淋巴細胞型胸腺瘤化療或強的松治療就可以看到明顯的反應,但影響的可能是正常淋巴細胞,而非腫瘤細胞。其它復雜因素包括胸腺腫瘤累及胸膜的傾向,這對RECIST標準提出了很大挑戰。盡管RECIST標準將胸膜結節排除在考慮之外,但由于胸膜結節對胸腺瘤和間皮瘤都十分重要,應該包括在測量之內[27]。相比一維測量方法評估治療反應,腫瘤體積的測量可能更客觀、準確和穩定。但這些方法需要進一步研究和證實。
在新的評效方法出來之前,建議遵循新版RECIST標準(1.1版)[24]。所有可測量的病灶每個器官最多選取2個,病灶總數不超過5個,代表所有受累器官,把它們作為靶病灶,進行基線測量和記錄。靶病灶應根據它們的大小(如最大徑線LD)和適合反復準確測量來選取。計算它們的最大徑線之和,作為評估腫瘤治療反應的參考[28]。這個標準的例外是胸膜病灶,因為相比沿胸膜延伸的長軸,胸膜病灶的厚度能更明確且能被穩定的測量[27]。對于廣泛的胸膜受累病灶,在胸部CT上應對病灶垂直于胸壁或縱隔的厚度,在兩個不同位置三個層面上進行測量[27]。將6個測量結果之和規定為胸膜一維測量值。把胸膜一維測量之和與非胸膜靶向病灶之和規定為總的最大徑基線,與之后的腫瘤治療反應或進展相比較[24,27]。
疾病進展應根據1.1版RECIST標準定義[24]。當然,疾病進展的診斷時間也受評估頻率的影響。我們建議,對于III期或IV期胸腺瘤、胸腺癌,不完整切除,或高風險腫瘤,3年內每6個月行一次影像學檢查[21]。早期腫瘤按照復發定義部分的描述,每年行影像學檢查。
治療反應也可以通過化療或放療的腫瘤組織來評估。炎癥、壞死和纖維化通常被視為混有殘余腫瘤,治療反應的程度可以根據鏡下殘余腫瘤細胞的比例來定量,以10%遞增。當確定整個標本沒有殘余腫瘤細胞時,定義為完全病理緩解。切片的數量對該診斷是非常重要的。建議在腫瘤直徑上每厘米要有一張切片。

表 5 多元回歸分析所需樣本量Tab 5 Sample size needed for multiple regression analysis
統計軟件的應用很容易進行多因素分析來研究潛在的預后因素。然而,作者往往對統計學不是很了解,導致結論常被夸大。基本上目前所有的預后因素研究都是探索性的,是所謂的I期預后因素研究。這樣探索是沒有問題的,但是外部驗證是必須的[29]。例如,當應用步進式回歸分析時,可能會出現不同預測因素,這取決于使用的正演模型或向后模型和引入變量的順序。最終模型中的回歸系數通常會被高估,那么在這些研究中的P值實際上是無效的(因為用于定義變量的數據和用于評估預后的數據是一樣的)[29]。在不調整其他因素的情況下,這同樣適用于有或沒有預后因素的生存曲線。此外,當在最佳區分能力的基礎上選擇一個界值來二分連續變量,假陽性預后因素的概率約為40%,盡管P值小于0.05[30]。自舉法可以克服這些問題[31]。
在研究潛在預后因素的時候,出現假陰性結果的概率也是很高的,這主要是因為樣本量不足。當實際過程中樣本量小到不足以發現差異時,很容易得到的結論是一個因素沒有獨立的預后意義。一般估計需要的最小樣本量,可以使用一個在線的多元回歸分析工具來計算,見表5[32]。這僅僅被視為一個粗略的估計,因為隊列中其他因素(例如預后因素的不均衡分布)也起作用。更詳細的分析需要統計學家的參與。
因為在少見疾病中樣本量是主要問題,例如胸腺瘤,進行多因素分析和對結果進行解釋時一定要注意。我們建議,預后因素的多因素研究應請求統計學家的幫助。研究應包括定義選擇的分析參數(如檢驗水準和效能水平)。此外,結果應以正確的觀點說明(例如“本研究說明幾個因素可能對預后沒有重大影響,盡管樣本量不足以評估一個小的或中等影響”或“這些因素似乎沒有預后意義,但是在該有限的研究中,檢測效能僅為0.4”)。理想情況下,每個變量的風險比應報道95%置信區間。大多數情況下,在得出任何正式結論之前,研究結果必須進行外部驗證。
一種共同語言對分享來自不同中心的經驗是必不可少的,而且胸腺惡性腫瘤發病率低,多中心合作是取得足夠樣本的關鍵。ITMIG是對該疾病感興趣人士組成的組織,致力于提供平臺和方法以促進共同研究。本文為ITMIG關于如何報道結果奠定了基礎。闡明了如何定義研究終點的細節,避免因為缺乏統一性而產生歧義和無法結合現有數據。這些定義將用于ITMIG合作項目中。我們也希望這將成為胸腺惡性腫瘤一般研究實用指南。本文提出了一些有關臨床研究結果分析的統計學問題,因為它們適用于胸腺瘤這樣相對少見和惰性的疾病,從小樣本研究中得出的結論,其可信度存在局限性。這并不是不鼓勵單中心研究,相反,是有助于一般醫療機構保持現有數據的真實性。可以理解,人們常試圖從有限的經驗中盡可能多的獲取信息,但應意識到其價值是有限的,若沒有意識到其可信度的限制,則會得出錯誤的結論。