包德榮 朱鑫杰 毛夢暉 陳文波 趙思哲 王琳 徐笑飛 宋斌斌*
胃腺癌(STAD)是全球第五大常見癌癥和第四大常見癌癥死亡原因[1]。在過去10 年中,雖然個體化靶向治療已在胃腺癌中取得進展[2],但已經落后于某些其他腫瘤類型(如非小細胞肺癌)[3],一些患者從靶向治療中獲益顯著,仍有較大一部分患者在接受靶向治療后效果不顯著、副作用大甚至出現不良反應,這突顯對胃腺癌預后和新治療靶點的準確預測模型的迫切需求。因此,確定潛在的胃腺癌治療靶點和建立準確的預后模型對胃腺癌個性化治療具有重要意義。RNA 編輯是指一種在RNA由聚合酶生成之后其轉錄自DNA的核酸序列又發生改變的分子生物學過程[4],其可以改變RNA序列,RNA 編輯比基因表達更具腫瘤特異性[5],且不受分離的RNA 數量和參考基因選擇的個體間差異的影響。因此,作為一種生物標志物,RNA 編輯在穩定性和可靠性方面優于基因表達。本研究應用癌癥基因組圖譜(TCGA)建立預測模型預測STAD 患者總生存期(OS),并根據ATIRE 風險評分和臨床病理特征構建預測STAD OS 的列線圖。
1.1 數據收集 從TCGA 數據庫(https://portal.gdc.cancer.gov/)下載STAD 患者腫瘤組織和正常組織的轉錄組數據和臨床信息。TCGA 胃腺癌數據庫有32 個為正常樣本,375 個為腫瘤樣本。用PERL 軟件提取臨床信息,包括:樣品名稱、生存時間、生存狀態、年齡、性別、分級、分期以及TNM 分期。從Synapse 網站(https://www.synapse.org/#!Synapse:syn2374375/files/)下載TCGA-STAD 樣品的RNA 編輯數據,采用PERL軟件刪除缺失值>30%的數據。然后將RNA 編輯數據和生存數據合并。
1.2 預后模型構建 僅有282 個樣本擁有現有的ATIRE 數據被納入本研究,并以6 ∶4 隨機分為訓練集(n=170)和驗證集(n=112)。通過單因素COX 回歸分析初篩STAD 患者預后相關RNA 編輯,再通過套索算法(least absolute shrinkage and selection operator,LASSO)回歸對訓練集的胃腺癌患者預后相關RNA 編輯進行降維,并應用多元Cox 回歸模型篩選出最優的RNA 編輯構建胃腺癌的預后模型,得到模型的公式,并獲得每個樣本的風險評分(Riskscore)。基于獲得Riskscore 的中位數,將訓練集患者分為高風險組及低風險組。同時將驗證集的樣品根據Riskscore 的中位數,將驗證集的數據也劃分為高低風險兩組。應用驗證集數據對預測模型進行檢驗,并采用ROC 曲線及校正曲線顯示預測模型在訓練集和驗證集中預測模型的效能。采用Kaplan-Meier 法對訓練集、驗證集進行生存分析。
1.3 列線圖(Nomogram)構建 采用單因素及多因素Cox 風險回歸,將上述獲得的Riskscore 與患者的臨床特征(年齡、性別、腫瘤分級、分期)進行獨立預后分析,獲得胃腺癌患者獨立預后因子并構建列線圖。采用校正曲線、ROC 曲線、決策曲線分析該聯合模型的效能及臨床實用性。
1.4 差異基因與富集分析 采用高、低風險組間的差異表達基因(DEGs)進行富集分析,包括基因本體論(GO)分析和京都基因與基因組百科全書(KEGG)分析。分析RNA 編輯與基因表達的相關性,Riskscore 與ADAR 基因表達的相關性,腫瘤組織和正常組織中選定ATIRE 位點編輯水平的差異。
1.5 統計學方法 采用R(4.2.1)語言統計軟件。差異分析使用Wilcoxon 秩和檢驗,相關性分析采用Pearson相關。P<0.05 為差異有統計學意義。
2.1 基線臨床病理特征 TCGA-STAD 病例的臨床病理特征見表1。訓練集與驗證集在年齡、性別、分級、TNM 分期等方面差異無統計學意義(P>0.05)。

表1 TCGA數據集中STAD患者臨床資料[n(%)]
2.2 預后模型的構建 通過訓練集的單變量CoxpH 分析,共發現5 個ATIRE 位點與STAD OS 相關(P<0.001)。ZNF91|chr19:23542060、RNF149|chr2:101891615、KRIT1|chr7 :91829808、ARSD|chrX :2824214、OSGEPL1|chr2:190612029 這5 個位點作為最優預后位點,并用Lasso 分析法進行ATIRE 風險評分,見圖1。利用LASSO 分析得到ATIRE 各位點的系數,得到ATIRE 風險評分:(11.98×ZNF91|chr19:23542060)+(9.77×ARSD|chrX:2824214)+(-14.13×RNF149|chr2:101891615)+(12.54×OSGEPL1|chr2:190612029)+(11.31×KRIT1|chr7:91829808)。5 個ATIRE 站點的風險評分、生存狀態和編輯水平分布,ZNF91|chr19:23542060、ARSD|chrX:2824214、OSGEPL1|chr2:190612029、KRIT1|chr7:91829808 在高風險組中高表達,RNF149|chr2:101891615 在高風險組中低表達。高風險組OS 在訓練集(P<0.001)、驗證集(P=0.0014)和所有患者組(P<0.001)中均明顯降低。高低風險組在年齡、性別、分級、分期、TNM 分期差異無統計學意義(P>0.05)。見圖2-3。

圖1 STAD患者生存相關ATIRE位點的鑒定 A. 曼哈頓圖描繪了所有ATIRE位點與STAD生存間的聯系,以單變量Cox-PH模型中-Log 10尺度的P值為x軸,以ATIRE位點的染色體位置為y軸。點橙色線表示P=0.001的顯著性截斷。B. LASSO回歸的結果;C. 選擇最佳ATIRE位點(λ)和虛線垂直線的交叉驗證

圖2 ATIRE風險評分與STAD患者預后的關系。訓練集(A)和驗證集(B)7個ATIRE位點的ATIRE風險評分、生存狀態和編輯水平的分布,以及在訓練集(C)和驗證集(D)中按風險評分分組的生存概率的可視化Kaplan-Meier圖

圖3 不同臨床特征患者ATIRE風險評分的差異,A-G:年齡、性別、分級、分期、T分期、N分期、M分期
2.3 基于ATIRE 列線圖的建立及預測性能評價 Cox單變量分析臨床特征和風險評分對患者生存率的影響。除性別、年齡、分級外,分期和Riskscore 可影響預后;多變量分析結果表明Riskscore 和分期是獨立預后因素,見圖4。根據ATIRE 風險評分和臨床病理特征,包括年齡、性別、分級、分期、T 分期、N 分期和M 分期建立列線圖。校準圖顯示出在1 年、2 年和3 年觀察到OS 率與列線圖預測OS 率之間有更好的一致性。ROC曲線和決策曲線顯示Risk(AUC=0.802)和Nomogram(AUC=0.800)遠大于單一臨床病理特征。表明建立的模型比單一臨床病理特征具有更高的凈效益,能夠更準確預測患者OS 率。見圖5。

圖5 基于ATIRE風險評分和臨床病理特征的預后列線圖的性能。A:預測STAD患者1、3、5年OS概率的列線圖;B:校正曲線顯示,在1年、2年和3年觀察到的OS率與列線圖預測的OS率一致;決策曲線(C)和ROC曲線(D)描述了簡單ATIRE風險評分、臨床病理特征以及ATIRE風險評分和臨床病理特征相結合的不同列線圖在預測1年OS率的凈效益方面的比較
2.4 富集分析 比較高低風險組中基因的表達水平,并篩選出差異表達基因(DEGs)。2 個組共鑒定出210個DEGs,高風險組中189 個基因上調,21 個基因下調。GO 功能富集分析表明,差異表達基因影響腫瘤發生發展的機制主要涉及細胞黏附及突觸相關的通路,如:突觸組織、通過質膜黏附分子的細胞-細胞黏附、細胞連接組裝、通過質膜黏附分子的嗜同質細胞黏附、突觸前、谷氨酸能突觸、不對稱突觸、神經元間突觸。KEGG 功能富集分析表明,差異表達基因富含鈣信號通路、肌動蛋白細胞骨架的調節、類固醇激素生物合成通路。見圖6。

圖6 與ATIRE風險評分相關的差異表達基因和相關生物學途徑。A. 用火山圖顯示高?;颊吲c低?;颊叩牟町惐磉_基因。B. 基于TCGA數據的ATIRE相關基因GO途徑富集分析;C. 基于TCGA數據的ATIRE相關基因KEGG途徑富集分析
2.5 RNA 編輯和基因表達相關性分析 RNA 編輯與KRIT1 存在相關性(P<0.05)。ATIRE 風險評分和ADAR1 在TCGA-STAD 腫瘤組織中的表達存在相關性(P<0.05)。RNF149|chr2:101891615 和ZNF91|chr19:23542060 在腫瘤組織和正常組織間差異有統計學意義(P<0.05)。見圖7。

圖7 ATIRE位點選擇對基因表達的影響。A-E. STAD腫瘤組織中ATIRE位點編輯水平與宿主基因表達的相關性;F. 風險評分與ADAR基因表達的相關性;G-K. STAD腫瘤組織和正常組織中選定ATIRE位點編輯水平的差異
建立胃腺癌預后預測模型不僅可以預測癌癥預后結果,還可以對治療方案進行優化。近年來,胃腺癌預后預測模型雖然有較大進展。因此,探索新的模型,特別是基于新型分子標記的模型,對于提高預測模型的可用性和準確性仍然具有研究價值和現實意義。這個研究成功確定了5 個ATIRE 位點,生成了一個ATIRE 風險評分,用于STAD 預后風險分層,與STAD OS 相關。結合風險評分和臨床病理特征的列線圖對STAD OS 具有較好的預測性能。
最近,ATIRE 越來越多被用來表征癌癥。本文通過Cox-pH 回歸和Lasso 算法,確定5 個與OS 相關的ATIRE 位點是LUSC 的最佳預后因素。除OSGEPL1 外,這些位點大多數位于已被認為與胃腺癌發展有關的基因中。ZNF91 基因被鑒定為胃腺癌新的重要突變驅動基因[6]。癌癥分泌的外體miR-21-5p 通過靶向KRIT1誘導血管生成和血管通透性[7]。此外,ARSD 表達與乳腺癌細胞中的ERα 狀態呈正相關,這與良好的預后相關,ARSD 可能作為預測預后的潛在標志物和作為治療靶點[8]。RNF149 作為E3 連接酶參與蛋白質泛素化[9],引起蛋白酶體介導的底物蛋白降解[10-11],與鼻咽癌細胞惡性進展有關[12]。這些證據是支持這些ATIRE 位點與STAD 預后間的功能基礎。
關于這些位點如何與STAD 生存相關的潛在機制仍然完全未知。據報道,ATIRE 可能導致非同義氨基酸突變、選擇性剪接的錯誤調節、密碼子偏好紊亂以及microRNA-mRNA 重定向或RNA 結合蛋白-mRNA 重定向,從而影響基因的表達或功能[13]。此外,在STAD腫瘤組織和正常組織間觀察到RNF149|chr2:101891615和ZNF91|chr19:23542060 的編輯水平差異有統計學意義,表明這些位點可能涉及STAD 發生。
GO 分析表明,可能參與GC 的DEGs 主要富含突觸、細胞黏附和囊泡的調節,這些均是腫瘤增殖,侵襲和轉移的重要參與者[14-15]。外泌體作為小細胞外囊泡(sEVs),可將生物活性分子傳遞給受體細胞,是重組腫瘤行為、重塑腫瘤微環境和賦予治療耐藥性的重要介質,為胃腺癌的診斷和治療提供新的靶點[16-17]。KEGG分析表明,可能參與GC 的DEGs 主要富含鈣信號通路和肌動蛋白細胞骨架的調節,鈣信號通路是促進癌細胞生長,侵襲和代謝的細胞內和細胞間信號傳導途徑中的關鍵第二信使[18]。
根據上述ATIRE 風險評分和臨床病理特征,包括年齡、性別、分級、分期、T 分期、N 分期和M 分期建立列線圖。列線圖和Risk 在預測STAD 的OS 方面具有中等精度,在預測OS 率方面顯示出比Stage 和Grade更好的總體凈效益。在有效性方面,之前發布的基于基因表達的列線圖的Harrell C 指數范圍為0.55~0.888[19],與之相比,基于ATIRE 列線圖展現出相對優越的性能。
總之,本研究首次生成了與STAD 患者的OS 相關的ATIRE 風險評分。結合ATIRE 風險評分和臨床病理特征的列線圖對STAD OS 具有良好的預測性能。這需要大量前瞻性集合來驗證該模型的穩健性,以評估其在臨床中的應用價值。