黃 凱,張長樂,吳文涌,劉省存,方昌義,余昌俊
結腸癌是世界最常見的腫瘤之一,每年導致約90萬人死亡。在中國,隨著生活方式的改變和營養水平的提升,結腸癌的發生率也呈現逐年上升的趨勢。基于長期的隨訪數據顯示,中國結腸癌患者的5年總生存率要低于美國和歐洲,這表明建立結腸癌準確而可靠的預后風險模型對改善結腸癌預后具有重要意義。特征選擇是構建預后模型重要的一步,選取有效的特征即可以去除大量冗余信息和不相關特征的干擾,又能夠降低模型的復雜度,便于研究者更好的應用于臨床中。常見的特征選擇方法包括 LASSO、隨機森林和逐步回歸等。盡管 Marisa et al建立了基于轉錄組的結腸癌分類法,從而改善了當前的預后分層,然而AJCC的病理分期仍然未能準確預測結腸癌患者的預后狀態。該研究應用逐步回歸方法篩選最優的臨床風險因素,并利用這些臨床因素構建了結腸癌預后多因素列線圖,為結腸癌患者實施個體化診療提供參考。
1.1 研究對象與處理 通過SEER*Stat 8.3.6軟件,根據腫瘤原發部位標記:C18.2(升結腸)、C18.3(結腸肝區)、C18.4(橫結腸)、C18.5(結腸脾區)、C18.6(降結腸)、C18.7(乙狀結腸),搜集 SEER數據庫中2010—2015年的結腸癌患者的相關資料。每個患者的資料包括:年齡、種族、性別、組織分級、AJCC第7版T分期、N分期、M分期、手術方式,腫瘤位置、陽性淋巴結數目、手術活檢淋巴結數目,化療和生存信息。具體納入標準如下:①病理確診的原發性結腸癌;②采用AJCC第7版分期系統對病例進行分期;③隨訪信息完整。排除標準如下:①多源性腫瘤;② 尸檢獲取的和只有死亡報告上的病例;③腫瘤分化程度及分期不完整;④30 d內死亡的病例。根據以上標準,共53 753例患者納入本項研究。本研究納入的生存時間為總生存時間(overall survival,OS),陽性淋巴結比值(lymph node ratio,LNR)根據陽性淋巴結數目除以手術活檢淋巴結數目計算得到。本研究基于SEER數據庫發布的公開數據,所有患者已去除個人標識,因此無需倫理委員會的批準,也無需患者知情同意。
1.2 基于逐步回歸的特征選擇 逐步回歸是多元線性回歸分析中一種檢查每個自變量的統計顯著性的方法,通過在模型中逐步引入或者去除一個變量實現對變量的選擇。本研究中我們使用R package‘MASS’進行逐步回歸分析,選擇 Bidirectional elimination方法。簡單來說,初始狀態下逐個加入臨床因素,評估新加入的因素是否使得模型發生顯著性變化(F檢驗),若原有的某個因素由于新加入的因素而不再顯著時,則去除該因素,重復此過程直到沒有顯著的臨床因素可以加入回歸模型,也沒有不顯著的臨床因素從回歸模型中被去除,最終得到一個最優的變量集合。逐步回歸過程中計算每一個臨床因素的信息準則值(akaike information criterion,AIC),AIC越大表明該因素對模型越重要。
1.3 統計學處理 應用 R version 3.6.1軟件對數據進行分析。設定隨機數種子=54 321,對全部樣本按照2∶1比例進行隨機分組,分別得到訓練集和校驗集。類別型變量的分組比較使用卡方檢驗,數值型變量的二分組和多分組差異顯著性分析分別使秩和檢驗和ANOVA進行,類別型變量的二分組比較使用卡方檢驗。預后生存分析使用Cox比例風險模型,Log-Rank檢驗比較生存率的差異。使用 R package‘rms’進行nomogram分析,并畫出預后預測列線圖。模型的凈獲益分析使用R package‘dca’,分別選取1、3、5年的時間點進行比較。
2.1 患者基本臨床病理資料 本研究共包含了53 753例結腸癌個體樣本,在隨訪時間內生存狀態為存活和死亡的樣本分別有39 586和14 167例。分析所用的患者特征以老年(71.27%)、白色人種(78.04%)、病理分期Ⅰ~Ⅲ(88.69%)為主。全部樣本集按照2∶1隨機分成訓練集和校驗集(隨機數種子=54 321),兩組樣本的患者生存狀態和OS差異無統計學意義,見表1。

表1 SEER數據庫結腸癌患者訓練集和校驗集樣本的臨床病理特征
2.2 結腸癌患者危險因素分析 為了確定臨床因素與結腸癌的預后關系,我們分別構建了單因素和和多因素預后風險模型。我們看到年齡、病理分期、AJCC第7版T分期、N分期、M分期、LNR、組織分級、性別、化療與否均與患者總體生存率存在相關性(P<0.01),并且 LNR具有最大的風險比(hazard ratio,HR),表明LNR對結腸癌預后的影響較其他因素更大(表2)。多因素生存分析也表明這些因素與預后存在關聯(P<0.01)。相對于其他因素而言,化療的HR<1,說明接受化療有利于患者的預后,這也與真實情況是一致的(表2)。

表2 結腸癌患者總體生存相關預后因素的單因素及多因素分析
2.3 結腸癌預后危險因素的特征選擇 為了進一步對結腸癌預后風險因素進行篩選,利用訓練集數據我們使用逐步回歸方法評估每一個臨床因素與預后的重要性,根據AIC對臨床因素進行排序,發現對結腸癌的預后影響排名前4的因素包括年齡、M分期、T分期和LNR(圖1A),提示這4個臨床因素與結腸癌預后關聯最緊密。多因素Cox風險比例模型計算的年齡、M分期、T分期和LNR 4個因素預后模型在訓練集和校驗集上均具有最大的一致性指數(concordance index,C指數),分別為0.754和0.748(圖1B,表3),表明年齡、M分期、T分期和 LNR 4個臨床因素組成的多因素模型對結腸癌預后風險評估具有較好的表現。此外,ROC曲線分析發現4個因素預后風險模型1、3、5年AUC均達到了0.7以上(圖2),進一步確認模型的可靠性。

圖1 基于逐步回歸的結腸癌預后風險因素篩選

圖2 年齡/pT/pM/LNR 4個因素預后模型1、3和5年ROC曲線

表3 臨床因素在訓練集和校驗集上一致性指數
2.4 構建基于nomogram的腸癌預后模型 逐步回歸分析篩選了4個與預后關聯最緊密的臨床因素,我們進一步構建了基于年齡/pT/pM/LNR 4個因素的結腸癌患者1、3和5年總生存率的列線圖(圖3)。通過將每個變量對應的點向“Points”軸投射獲得的分數相加,所得總分數可對應相應的預測結果。4因素的列線圖C指數為0.748,C指數越接近于1表示列線圖可信度越高。通過繪制4個因素列線圖模型的預測值與實際值校準圖,顯示列線圖預后模型的1、3以及5年OS與真實結果具有較高的一致性,平均錯誤率為1.63%(圖4)。

圖3 全部數據集的結腸癌患者的1、3、5年OS預測的列線圖

圖4 1、3、5年OS概率的校準圖
2.5 列線圖的臨床獲益分析 在評估了該模型的預測準確性之后,我們進一步評估了4個臨床因素的加入是否可以使結腸癌患者在臨床實踐中受益。列線圖的決策曲線分析(decision curve analysis,DCA)評估了患者可以的凈獲益,凈獲益率越大,預后風險模型的預測性能越好。結果表明基于4個臨床因素的預后模型較AJCC第7版TNM系統的預測模型將使得患者有更多獲益(圖5)。

圖5 結腸癌全部數據集列線圖預后風險模型的決策曲線分析
目前AJCC-TNM分期為結腸癌患者生存預測和臨床決策選擇最廣泛的系統,然而在精確區分不同階段結腸癌患者生存差異方面仍然具有局限性,事實上一些研究已經表明列線圖比傳統的tumor-nodemetastasis分期系統具有更好的預后風險預測的性能,然而大量的臨床因素被整合到預后風險模型中增加了預后判別的復雜性。本研究中我們首先對結腸癌預后風險因素進行了的篩選,保留了較少的臨床因素同時不損失預后風險模型的精確性,進一步利用這些因素構建了結腸癌的列線圖,通過整合多種臨床因素建立一個更準確而實用的預測模型。
在本研究,我們看到年齡是結腸癌非常重要的預后風險因素(圖1A,HR=1.178),說明高齡的結腸癌患者預后風險較年輕患者更高,更應該注意預后監控和隨訪。另一方面也提示高齡患者的治療,比如手術切除等創傷影響較大的方案可能需要更謹慎選擇。此外,我們也觀察到SEER數據庫結腸癌患者的年齡以≥60歲為主,而中國結腸癌患者則更加年輕,60歲以下的患者占大多數,這也預示著年齡因素可能對中國結腸癌患者的影響異于西方的結腸癌患者。
淋巴結轉移是結腸癌發生轉移的主要形式之一,同時也是影響患者預后的重要因素。雖然由AJCC定義的淋巴結分期已被廣泛接受,但這種以陽性淋巴結數量為基礎的分期方法明顯受到切除的淋巴結總數影響,導致N分期存在一定偏差。本研究中,我們使用LNR作為結腸癌預后因素,單因素和多因素預后生存分析均表明LNR是結腸癌患者預后的重要風險因子(HR>1,P<0.01)。在訓練集和校驗集中,LNR的一致性指數比N分期的更大(0.630 9/0.631 6 vs0.623 1/0.625 7),也說明使用LNR來評估結腸癌的預后風險較N分期更具有優勢。
單因素和多因素生存分析顯示年齡、病理分期、AJCC第7版T分期、N分期、M分期、LNR、組織分級、性別、化療等因素均與結腸癌的總生存有關系,逐步回歸方法進一步對這些因素進行篩選,最終確定年齡、T分期、M分期和LNR 4個因素作為最重要的預后因子,由這4個因素構建的預后模型在訓練集和校驗集上一致性指數均最大,顯示出4個因素的模型具有較好的準確性。我們注意到逐步回歸分析的結果沒有納入N分期而保留了LNR,這從另一方面說明結腸癌的預后風險模型中LNR似乎可以替代N分期。盡管逐步回歸方法存在一些不足,包括建模過程中基于同一數據所帶來的偏好性、過擬合等,但其優點在于可以通過對模型進行微調以選擇最佳變量組合,同時能夠提供變量對模型的重要性信息,此外應用獨立的驗證集數據可以解決該方法的一些不足。