解瑞飛 楊梓
肺癌是全球最常見的惡性腫瘤之一,占全世界所有癌癥死亡人數的1/3[1-2],且在臨床治療中,缺少患者預后生存預測模型[3]。近年來,高通量技術發展,使得從微觀角度系統的研究基因與疾病的關系變得可能,逐步開始從基因譜角度全面研究基因、疾病和治療方法間的關系,篩選出與疾病相關的敏感基因,有助于臨床醫師制定個性化治療方案,從源頭上提高疾病控制率,建立預后模型,可以有助于醫師制定個性化治療方案,提高預后生活質量[4]。隨機生存森林(RSF)可以提取與疾病具有密切關系的基因[5],而列線圖(nomogram)可以利用敏感基因建立患者預后預測模型[6]。
1.1 臨床資料 收集杭州市腫瘤醫院117例肺腺癌,41,000個基因,均未接受輔助化療,其中男57例,女60例;年齡32~84歲。臨床T分期:Ⅰ期54例,Ⅱ期50例,Ⅲ期8例,Ⅳ期5例。臨床N分期:0期87例,Ⅰ期8例,Ⅱ期22例。未復發59例,復發58例。吸煙史:<5年57例,≥5年4例。
1.2 方法 (1)RSF原理:RSF是在Breiman的隨機森林方法中加入右刪失生存數據進行分析的方法,充分利用生存時間和生存狀態,通過生存差異測量變量的有效性。n(h)表示在樹節點h上的樣本例數,(t1,σ1)…(tn,σn)表示生存時間和生存狀態。σ=0表示樣本右截位,σ=1表示在死亡,t表示所在狀態的時間。RSF在樹的節點處,從所有變量中隨機選擇M個變量作為候選變量,采用Log-Rank方法,選擇生存差異最大的變量集,并計算變量重要性(VIMP)。VIMP大小代表變量分類能力強弱。見圖1。(2)Nomogram原理:通過構建多因素回歸模型,根據回歸模型中各因素對結局變量的貢獻程度,給每個影響因素的每個取值水平進行賦分,然后再將各個評分相加得到總評分,最后通過總評分與結局事件發生概率的函數轉換關系計算出該個體結局事件的預測值。

圖1 算法流程
1.3 統計學方法 采用R軟件,rms、randomForestSRC、survival軟件包。針對41,000個基因,使用單因素Cox回歸分析初步篩選預測變量,P≤0.05的8,166個變量作為隨機生存森林數據集。按照7∶3比例隨機10次生成訓練集和測試集,分別在測試集和訓練集中計算各變量重要性,得到8,166個變量在訓練集和測試集中累積重要性。根據基因的在訓練集和測試集中累積重要性大小,對訓練集前100個基因和測試集前100個基因取交集,得到穩定的敏感基因。
2.1 預后生存預測模型 在RSF提取敏感基因的過程中,隨著生存樹個數的增多,錯誤率趨于穩定。當決策樹個數>2,000時,分類錯誤率基本趨于穩定,而參與樣本分類的敏感基因則與樣本的結局具有密切關聯,影響患者預后。見圖2。C指數又稱一致性系數,是評估預測模型是否能將死亡患者的數據從非死亡人群中檢測出來的能力[7],C指數越接近1表明該指標預測能力越強。應用性別、年齡、T分期、N分期、吸煙時間、是否復發建立患者預后預測模型,預測模型一致性C值為0.684(95%CI:0.646~0.723),見 圖3A。3年時模型校正曲線見圖3B。在5個一般特征中,加入PSMD12、HUS1B、TIMM50后,預后預測模型的一致性指數最高,C值為0.767(95%CI:0.733~0.802),見圖4A。3年時模型校正曲線見圖4B。僅用3個基因變量建立預后預測模型的一致性指數C值為0.711(95%CI:0.671~0.751),見圖5A。3年時模型校正曲線。見圖5B。

圖2 趨勢圖

圖3 臨床一般特征建立的生存預測模型

圖4 臨床一般特征聯合敏感基因建立的生存預測模型

圖5 敏感基因建立的生存預測模型

圖6 N分期和敏感基因建立的復發預測模型

圖7 臨床一般特征建立的復發預測模型

表2 基于Logistic回歸的肺癌患者復發單因素分析
RSF是聯合基因表達譜數據,并與臨床隨訪的生存時間相結合,可以快速高效的篩選出與患者預后具有密切相關性的基因變量[8]。本質基因與一般特征聯合,應用nomogram方法,建立預后預測模型,可以有效預測患者生存情況[9]。
本資料結果顯示,在一般臨床特征中加入PSMD12、HUS1B、TIMM50基因變量后,可以明顯提高預后預測模型準確度,C值達到0.767。因此,由性別、年齡、T分期、N分期、吸煙時間、PSMD12、HUS1B、TIMM50組成的預后預測模型具有較強預測患者3年和5年死亡率的能力。應用Boot法對曲線進行校正。顯示該曲線與理想曲線有較好的重合。預測患者復發風險時,僅N分期、PSMD12、HUS1B、TIMM50即可得到較優的預測,C值達到0.795。
通過搜索GeneCards數據庫發現,PSMD12與神經發育紊亂密切相關[10],從而影響患者預后生活質量;同時,PSMD12與P53穩定密切相關,而p53突變體能與HIF-1在細胞外基質成分的轉錄調控中促進肺癌細胞的增殖[11]。此外,PSMD12同時與RET具有較強的相關性,而RET信號傳導為肺癌的驅動機制之一。目前RET作為肺癌新型靶點基因正在進行Ⅱ期臨床試驗。PSMD12可能通過引起P53突變或促進RET表達從而影響肺癌的發生、發展。HUS1B是HUS1的重要旁系同源物,而HUS1是細胞周期檢查點蛋白復合物的組成部分,參與DNA損傷的細胞周期阻滯,而細胞周期失調是包括肺癌的關鍵指標。研究發現HUS1的下調可以增強肺癌細胞對順鉑的敏感性[12]。而HUS1B可能通過上調HUS1導致細胞周期失調從而促進肺癌的生長。TIMM50作為線粒體轉運蛋白組成部分,在人類細胞中敲除TIMM5會導致細胞色素C的釋放,從線粒體釋放細胞色素C可以誘導肺癌細胞的凋亡[13]。TIMM50可能通過影響線粒體轉運引起細胞色素C的釋放失調,從而抑制肺癌細胞凋亡。研究[14]認為,對于非小細胞肺癌患者,免疫組化證明TIMM50表達與腫瘤大小、TNM分期、區域淋巴結轉移、生存率差顯著相關。TIMM50能顯著促進肺癌細胞的增殖和侵襲能力。TIMM50通過增強其下游ERK/P90RSK信號通路的磷酸化促進腫瘤的增殖和侵襲,可能是肺癌患者有用的預后指標。
RSF可以有效辨識出與疾病生存相關的敏感基因,而應用Nomogram可以整合敏感基因與生存數據,能有效構建準確性較高的患者生存預測模型。因此,RSFNomogram聯合,可以幫助臨床醫師建立患者預后預測模型,并制定個性化治療方案,提高疾病治愈率,提升患者生活質量。