王振,張樂,劉虹汝,張鈺哲,2,3
(1.大理大學基礎醫學院生物化學與分子生物學教研室,云南 大理 671000;2.云南抗病原藥用植物篩選重點實驗室,云南 大理 671000;3.云南省昆蟲生物醫藥重點實驗室,云南 大理 671000)
胃癌是全球最常見的癌癥之一[1],幽門螺桿菌感染是其最主要病因[2]。雖然胃癌的預后及生存期已明顯改善,且發病率在逐步降低,但在50歲以下人群中卻呈增長趨勢[3]。N7-甲基鳥苷 (N7-methylguanosine,m7G) 修飾是最常見的RNA修飾之一[4-7],在腫瘤的發生發展過程中發揮關鍵作用[8-13]。甲基轉移酶1 (methyltransferase 1,METTL1) 是目前研究最多的m7G調控因子,可通過在微RNA (microRNA,miRNA)、轉運RNA (transfer RNA,tRNA) 和信使RNA(messenger RNA,mRNA) 中安裝m7G修飾行使其功能[14-17]。長鏈非編碼RNA (long non-coding RNA,lnc-RNA) 是一類長度超過200個核苷酸的非編碼RNA(non-coding RNA,ncRNA)[18],其差異表達與腫瘤的發生、轉移和耐藥密切相關[19-21]。目前對胃癌中m7G相關lncRNA的功能未知,故本研究擬構建m7G相關lncRNA預后模型,以評估、改善胃癌患者的預后;并通過公共數據庫進一步分析m7G相關lncRNA與胃癌的免疫功能、腫瘤免疫逃逸 (tumor immune escape,TIE)、藥物敏感性預測和腫瘤突變負荷 (tumor mutation burden,TMB)。
通過癌癥基因組圖譜 (The Cancer Genome Atlas,TCGA) 數據庫 (https://portal.gdc.cancer.gov/),獲取胃癌組織和正常胃組織的STAR-Counts數據和相關臨床數據,包括343例腫瘤及30例正常組織樣品。其中339例臨床病理數據完整,用于后續分析。見圖1。

圖1 基于m7G 相關lncRNA識別胃癌的預后及免疫特征的工作流程圖Fig.1 Workflow chart for identifying the prognosis and immune features of gastric cancer based on m7G-related lncRNAs
在Genecards (https://www.genecards.org/)、NCBI(https://www.ncbi.nlm.nih.gov/)、Gene Set Enrichment Analysis (GSEA,http://www.gseamsigdb.org/gsea/index.jsp) 數據庫中分別輸入“m7G”“N7-methylguanosine”“7-methylguanosine”,刪除重復值后共獲得143個m7G相關基因。用GENCODE注釋文件從TCGA數據庫 (http://cancergenome.nih.gov/abouttcga) 中獲取16 876個lncRNA的表達文件。應用皮爾森相關分析識別m7G相關lncRNA,基于“limma”R 包 (|coefficients|>0.5,P< 0.001)。最終篩選出805個m7G相關lncRNA用于后續分析。見圖1。
將患者從完整數據集 (n= 339) 以1︰1比例隨機分為訓練集 (n= 170) 和測試集 (n= 169),用訓練集數據構建預后模型,再用測試集數據進行驗證。首先,用單變量Cox回歸 (P< 0.05) 確定潛在的預后lncRNA;然后,通過最小絕對收縮和運算符選擇(least absolute shrinkage and selection operator,LASSO)回歸算法,每個周期隨機刺激1 000次,減少過擬合基因;最后,通過多變量Cox回歸建立胃癌的預后模型。計算風險評分=表達量 (lncRNA)×系數(lncRNA)。同時,根據打分的中位數將患者分為m7G低風險組和高風險組。用χ2檢驗驗證臨床特征與風險組的相關性。用單變量Cox和多變量Cox回歸分析確定風險評分是否為胃癌患者總生存期 (overall survival,OS) 的獨立危險因素。用受試者操作特征 (receiver operating characteristic,ROC) 曲線和一致性指數 (concordance index,C-index) 進一步評估模型的預測準確性。見圖1。
使用“rms”R語言包,根據胃癌患者的m7G風險評分、年齡、性別、腫瘤分級、T分期、遠處轉移、淋巴結播散情況和腫瘤分期結果構建了列線圖,用于預測患者1年、3年和5年的OS。并繪制了校準曲線,用于驗證列線圖模型的預測能力。見圖1。
通過PCA分析m7G相關的lncRNA表達模式為樣本進行分類。根據m7G風險特征將所有患者分為高風險組和低風險組,以log2FC>1和P< 0.05為閾值篩選2組間差異表達基因。對差異表達基因進行GO和KEGG富集分析 (P< 0.05,FDR<0.05)。見圖1。
用單樣本基因集富集分析 (single-sample gene set enrichment analysis,ssGSEA) 算法分析免疫功能,以評估m7G高、低風險組中免疫功能的差異。通過腫瘤免疫功能障礙和排除 (tumor immune dysfunction and exclusion,TIDE) 算法 (http://tide.dfci.harvard.edu/) 分析m7G高、低風險組間TIE潛能和免疫治療效果。使用R語言“pRRophetic”包,通過癌癥藥物敏感性基因組學 (Genomics of Drug Sensitivity in Cancer,GDSC)的半抑制濃度 (half-maximal inhibitory concentration,IC50) 評估m7G高風險組和低風險組患者的治療效果,見圖1。
從TCGA數據庫中獲取胃癌相關樣本的腫瘤突變數據。根據m7G突變風險評分,將患者的突變注釋格式 (mutation annotation format,MAF) 分為2組。根據2組患者的體細胞突變數據,分別計算TMB評分,比較TMB高、低風險組間生存情況的差異。見圖1。
基于143個m7G相關基因及胃癌樣本中lncRNA的表達水平,通過皮爾森相關分析,共獲取805個m7G相關lncRNA。臨床統計分析驗證結果顯示,訓練集和測試集數據之間無統計學差異 (P> 0.05),并通過訓練集數據構建預后模型。
通過單因素Cox比例風險分析,篩選出22個m7G相關的lncRNA與胃癌患者的生存率顯著相關 (P<0.05),包括2個低風險lncRNA[風險比 (hazard ratio,HR) <1]和20個高風險lncRNA (HR>1),見圖2A。通過LASSO回歸分析,找到11個與預后顯著相關的lncRNA。通過多因素Cox 回歸建立由6個lncRNA(AC090425.3,AC004817.3,AC023590.1,C3orf36,AC012055.1,LINC01854) 組成的預測性m7G相關風險模型。風險評分= [AC090425.3表達量× (-0.434 18) ]+(AC004817.3表達量×0.618 419) +[AC023590.1表達量×(-1.510 279 758)]+ (C3orf36表達量×0.636 472 436) +(AC012055.1表達量×1.367 919 436) + (LINC01854表達量×0.927 740 399)。見圖2A~2C。

圖2 m7G 相關 lncRNA預后模型的構建和訓練集、測試集、完整數據集中樣本的存活率Fig.2 Construction of m7G-related lncRNA prognostic model and survival rate of samples in training set,test set,and complete data set
根據計算風險評分的中位值,將所有患者分為低風險組或高風險組。在完整數據集、訓練集和驗證集中,高風險組患者的總生存期均顯著低于低風險組 (圖2D~2I)。Kaplan-Meier生存曲線顯示,高風險組胃癌患者的總生存時間明顯較低風險組患者縮短 (圖2J~2L),m7G低風險組胃癌患者的無進展生存期 (progression-free survival,PFS) 也顯著高于高風險組 (圖2M)。1年、3年和5年ROC曲線下面積 (area under curve,AUC) 分別為0.672、0.658和0.673 (圖3A)。風險模型中,1年ROC風險得分較其他臨床病理特征預測能力更強 (圖3B),1年期C-index為0.672(圖3C)。單因素Cox回歸分析表明,年齡 (HR:1.027,P< 0.004)、T分期 (HR:1.527,P< 0.001)、風險評分(HR:1.048,P< 0.021) 與OS顯著相關 (圖3D)。多變量Cox回歸分析顯示,年齡 (HR:1.036,P< 0.001)、T分期 (HR:1.690,P< 0.001) 和風險評分 (HR:1.063,P< 0.005) 是OS的獨立危險因素 (圖3E)。

圖3 預后風險評估模型驗證、列線圖、模型校準曲線、PCA 和功能分析Fig.3 Verification of prognosis risk assessment model,nomogram,calibration curves of the model,the PCA and functional analyses
根據風險評分和臨床病理因素,開發了用于預測胃癌患者1年、3年和5年OS的列線圖 (圖3F)。1年、3年和5年的校準曲線顯示出較好的預測準確性,表明該模型具有良好的預測能力 (圖3G)。
PCA的三維散點圖分別顯示了m7G相關lncRNA不同模式的分布情況。PCA分布結果表明,根據風險模型中m7G相關lncRNA的分組具有明顯的聚集特征 (圖3H~3K)。
根據上述風險特征將所有患者分為m7G高、低風險組,并以log2FC>1和P< 0.05為標準篩選了634個差異表達m7G相關基因。功能富集分析提供了對這些基因的生物學理解。GO分析表明,這些基因分別與肌肉系統過程、肌肉收縮、細胞外基質組織、細胞外結構、外封裝結構組織和軸突發育顯著相關 (圖3L)。KEGG富集分析顯示,這些基因與血管平滑肌收縮、ECM-受體相互作用和擴張型心肌病顯著相關 (圖3M)。
通過ssGSEA方法對腫瘤樣本進行打分,發現m7G高、低風險組間的免疫功能也存在差異,高風險組Ⅱ型干擾素 (interferon,IFN) 反應、趨化因子受體 (chemokine receptor,CCR)、抗原遞呈細胞 (antigen-presenting cell,APC) 共刺激顯著上調 (圖4A)。高風險組患者的TIE得分高于低風險組 (圖4B)。通過“pRRophetic”R包共找到88種化療藥物的IC50值在高、低風險組間有顯著差異。其中,71種藥物在低風險組敏感性更高,17種藥物則在高風險組中更敏感 (圖4C~4J)。

圖4 m7G高、低風險組的免疫特征和TMB分析Fig.4 Immune characteristics and TMB analysis of the m7G high-risk and low-risk groups
m7G高、低風險組中體細胞突變差異分析顯示,突變率最高的10個基因是TTN、TP53、MUC16、LRP1B、ARID1A、SYNE1、CSMD3、FAT4、FLG和ZFHX4(圖4K、4L)。與低風險組相比,高風險組患者TMB更低 (圖4M、4N)。此外,與其他m7G風險和TMB組相比,m7G高風險組和低TMB組的患者預后最差 (圖4O)。
胃癌的發生是環境因素與遺傳因素共同作用的結果。在基因及表觀遺傳學層面研究胃癌發生發展的機制十分重要。m7G修飾參與多種病理生理活動,尤其是腫瘤的發生和進展。目前尚未見胃癌中m7G修飾作用的相關報道。lncRNA已被證實參與腫瘤相關的細胞途徑,對腫瘤的診斷及預后具有良好的預測能力[22]。因此,本研究嘗試建立一種以m7G相關lncRNA為基礎的預測模型,并探討胃癌中m7G風險水平與生物途徑、免疫功能、TIE、免疫治療藥物敏感性和TMD之間的關系。
本研究中,使用多因素Cox風險回歸基于6個m7G相關的lncRNA構建了風險模型,通過風險評分中位值將患者分為高、低風險組,結果發現低風險組通常預后更好。通過ROC曲線和C-index曲線證實該模型準確可靠。通過m7G風險情況和臨床信息構建了線列圖,用于預測患者的生存情況,校準圖證明該模型具有良好的預測準確性,可用于預測胃癌患者生存期。
本研究還對m7G高、低風險組的差異基因進行了GO和KEGG富集分析。GO分析結果表明,肌肉系統過程、肌肉收縮、外部封裝結構組織等生物學過程在胃癌的預后方面起重要作用。KEGG富集結果顯示,m7G高、低風險組的差異基因主要在血管平滑肌收縮、ECM-受體相互作用、擴張型心肌病等通路中富集。并發現肌肉相關過程 (如肌肉系統過程、肌肉收縮、肌肉組織發育、肌細胞分化、肌肉的結構成分及心肌收縮等) 在GO和KEGG富集中均有重要作用。肌肉減少癥是一種以骨骼肌質量和力量的進行性和全身性喪失為特征的復雜綜合征[23]。衰老通常是原發性肌肉減少癥的直接原因,而繼發性少肌癥則由廢用、營養不良、器官衰竭、侵入性干預或惡性腫瘤引起[24]。已有文獻[25]報道了胃癌與肌肉減少癥之間的聯系。此外,有證據表明肌肉減少癥可作為胃癌術后并發癥和OS的獨立預后風險因素[26]。本研究發現,m7G高、低風險組間的差異基因在肌肉相關生物學過程和通路之間富集,因此推測m7G修飾可能在胃癌患者發展為肌肉減少癥中發揮作用,并且可能成為m7G高風險組患者預后較差的原因之一。
胃癌具有非常特別的腫瘤微環境 (tumor microenvironment,TME),可促進腫瘤進展和轉移[27]。通過對風險模型進行免疫功能分析發現,IFN反應、CCR、APC共刺激在高風險組中的表達均高于低風險組。其中,CCR3、CCR4、CCR5、CCR7已被證明與胃癌的不良預后有關[28],這也驗證了本研究結果的準確性和可靠性。
研究[29]發現,TME可作為免疫檢查點阻斷 (immune checkpoint blockade,ICB) 治療效果的生物標志物。TMB增加意味著參與轉錄與翻譯的基因突變的可能性也隨之增加,因此,新抗體產生的可能性也隨之增加,并誘導T細胞毒性和抗腫瘤反應,從而提高ICB治療的敏感性[30-31]。本研究發現,m7G低風險組的整體TMB高于高風險組,高TMB也預示著更好的預后,但t檢驗顯示2組TMB無統計學差異 (P=0.075)。通過高TMB和低TMB組之間的Kaplan-Meier生存曲線可以看出,高TMB組的OS顯著優于低TMB組,這表明TMB對胃癌患者的生存情況具有重要影響,但m7G風險評分與TMB沒有顯著的相關性。
TIDE 算法被認為是預測癌癥中ICB反應的方法之一[32]。TIDE評分越高,ICB反應越差,患者的免疫治療效果也越差。在本研究中,m7G高風險組TIDE評分顯著高于低風險組,表明低風險組具有更好的ICB反應,預示著免疫治療效果好于高風險組,且預后更好,這也與TMB分析結果一致。此外,本研究用“pRRophetic”R包共篩選出88種在m7G高、低風險組中治療效果具有顯著差異的藥物,其中71種藥物在低風險組中敏感性更高,只有17種藥物在高風險組中敏感性更高,這也進一步證實了本研究對TMB和TIDE的猜想,可為臨床胃癌治療提供參考。
綜上所述,本研究通過6個m7G相關lncRNA構建了1個預后模型,用于預測胃癌患者的預后,并得到了校準曲線的驗證;通過GO和KEGG富集分析預測m7G修飾在胃癌患者發展為肌肉減少癥中可能發揮潛在作用;通過TMB、TIDE和藥物敏感性分析證實m7G低風險組具有更高的ICB反應及更好的藥物敏感性。本研究存在一定的局限性,本研究為回顧性研究,數據處理和樣本選擇存在不可避免的偏差,未來仍需通過其他數據庫或體內外實驗對本研究結果進行驗證。