









【摘要】 目的通過生物信息學方法篩選有關乳腺癌的關鍵調控因子,研究其在乳腺癌治療與預后的作用。 方法利用癌癥基因組圖譜(TCGA)數(shù)據(jù)庫,提取和下載m7G RNA甲基化調控因子和乳腺癌患者數(shù)據(jù),使用基因富集分析(GSEA)數(shù)據(jù)庫查找m7G RNA甲基化相關基因。通過共識聚類分析兩種不同臨床因素的乳腺癌組織聚類,使用最小絕對值收縮和篩選算子(LASSO)與比例風險回歸模型Cox回歸分析構建預后特征,并使用高通量基因表達數(shù)據(jù)庫(GEO)進行結果驗證。 結果共篩選出33個m7G RNA甲基化相關調控因子,有27個調控因子在乳腺癌組織樣本中高表達,在共識聚類中,將樣本中的乳腺癌患者分成聚類1和聚類2,發(fā)現(xiàn)聚類1的預后比聚類2差,且大部分m7G RNA甲基化調控因子在聚類1中存在更高的表達。同時,通過構建風險模型,篩選出了IF4E、 EIF4E3、 LARP1、 NCBP1 4個預后相關關鍵調控因子,并結合臨床數(shù)據(jù)驗證其可靠性。通過單因素和多因素Cox分析,證明其是乳腺癌患者的獨立預后影響因素。 結論IF4E、 EIF4E3、 LARP1、 NCBP1這4個關鍵調控因子在乳腺癌的治療和預后的判斷上具有一定的價值。
【關鍵詞】乳腺癌;甲基化;預后價值;生物信息學;調控因子
中圖分類號: R737.9文獻標志碼: ADOI: 10.3969/j.issn.1003-1383.2024.02.003
Expression and prognostic value of N7-methylguanosine RNA methylation regulators in mammary cancer
LUO Kaidi, CHEN Jianrong
【Abstract】 ObjectiveTo screen key regulatory factors related to" mammary cancer through bioinformatics methods, and to study their roles in the treatment and prognosis of mammary cancer. MethodsN7-methylguanosine RNA (m7G RNA) methylation regulatory factors and the clinical data of patients with mammary cancer were extracted and downloaded by the cancer genome atlas (TCGA) database. Gene set enrichment analysis(GSEA) was applied to find" m7G RNA methylation-related genes. By consensus clustering analysis of breast cancer tissues with two different clinical factors, the least absolute shrinkage and screening operator (LASSO) and proportional hazard model Cox regression analysis were used to construct prognostic characteristics, and high-throughput gene expression omnibus (GEO) was used to verify the results. ResultsA total of 33 m7G RNA methylation-related regulatory factors" were selected, and 27 regulatory factors were highly expressed in mammary cancer tissue samples. In consensus cluster, mammary cancer patients in the sample were divided into cluster 1 and cluster 2, and it was found that the prognosis of cluster 1 was worse than that of cluster 2, and most m7G RNA methylation regulatory factors had higher expressions in cluster 1. At the same time, by constructing a risk model, 4 prognosis-related key regulatory factors including IF4E, EIF4E3, LARP1, and NCBP1 were screened out, and their reliabilities were verified by combining clinical data. They were proved to be independent prognostic factors in patients with mammary cancer by univariate and multivariate Cox regression analysis. Conclusion4 key regulatory factors (IF4E, EIF4E3, LARP1, and NCBP1) have certain value in the treatment and prognosis of mammary cancer.
【Keywords】mammary cancer; methylation; prognostic value; bioinformatics; regulatory molecules
目前,乳腺癌是女性最常見的惡性腫瘤之一,盡管經(jīng)過科學家數(shù)十年的研究,乳腺癌發(fā)病率仍以每年增加0.5%的速度上升[1],當前常用的治療方法明顯地減緩了乳腺腫瘤疾病的進展,但乳腺腫瘤的復發(fā)仍然具有很高的發(fā)生率,并且復發(fā)時患者的死亡率也更高。
7-甲基鳥嘌呤(m7G)是真核信使RNA(mRNA)5'帽處帶正電荷的基本修飾[2],m7G RNA甲基化參與了許多重要的細胞過程,如調節(jié)mRNA的輸出、翻譯和剪接,此外,它在mRNA穩(wěn)定性和代謝等幾個重要的mRNA過程中也起著重要作用[3]。m7G RNA甲基化相關調控因子可作為潛在的分子標志物應用于臨床診斷和治療,同時可以為肺癌、鼻咽癌、肝內膽管癌等疾病的治療提供新的見解。盡管m7G RNA甲基化相關調控因子具有廣闊的臨床醫(yī)療價值,但目前對m7G RNA甲基化修飾相關機制與乳腺癌之間的關系知之甚少。因此,需要進一步確定m7G RNA甲基化相關調控因子在乳腺癌中的預后意義。本研究探討m7G RNA甲基化相關調控因子在乳腺癌中的作用,并構建了一種風險模型,旨在為乳腺癌患者提供一種有希望的預后標志物。
1 資料與方法
1.1 數(shù)據(jù)下載
利用癌癥基因組圖譜(TCGA)數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)下載患者轉錄組數(shù)據(jù)和臨床數(shù)據(jù)。共查找和下載到1109例乳腺癌病例和113例正常鄰近腫瘤組織數(shù)據(jù)進行進一步分析。利用基因富集分析(gene set enrichment analysis,GSEA)方法查找m7G RNA甲基化修飾相關通路調節(jié)因子,目前發(fā)現(xiàn)有3個與m7G RNA甲基化修飾有關通路,包括NUDT7、AGO2、CYFIP1、CYFIP2、EIF4E在內的33個調控因子被認為與m7G RNA甲基化修飾有關。從TCGA數(shù)據(jù)庫中提取乳腺癌患者數(shù)據(jù)內有關這33個調控因子的表達數(shù)據(jù)進行后階段的分析。同時引入外部數(shù)據(jù)集進行驗證,使用從高通量基因表達數(shù)據(jù)庫 GEO(http://www.ncbi.nlm.nih.gov/geo)中下載基于GPL570平臺的 GSE61304數(shù)據(jù)集樣本數(shù)據(jù),其中包含62個組織樣本(58個腫瘤樣本,4個正常樣本),以及相對應的基因表達數(shù)據(jù)與患者生存信息。
1.2 生物信息學分析
使用R(版本R 4.0.3,https://www.r-project.org/)中的limma差異分析包,篩選乳腺癌組織和正常組織之間m7G RNA甲基化修飾的具有差異表達的調控因子。隨后,利用R中的“pheatma”和“vioplot”包繪制出熱圖,與正常樣本相比,在腫瘤樣本中表現(xiàn)顯著的大多數(shù)調控因子是NUDT7、NUDT16L1、EIF4E3、NUDT5、NUDT1、METTL1、NCBP2、LSM1、NUDT16、NUDT11、EIF4E2、EIF4A1、NCBP1、NSUN2、CYFIP2、EIF3D、NCBP3、DCPS、NUDT3、LARP1、EIF4E、EIF4E1B、CYFIP1、NUDT10、GEMIN5;然而NUDT4、NCBP2L、AGO2、EIF4G3、DCP2、NUDT4B、SNUPN、IFIT5這幾個調控因子在正常樣本和腫瘤樣本中差異無統(tǒng)計學意義。使用“corrplot”包分析在1109例乳腺癌患者樣本和113例正常相鄰樣本中25個顯著表達的m7G RNA甲基化相關調控因子的表達相關性,使用R中的“pheat map”包繪制熱圖,以方便觀察m7G RNA甲基化相關調控因子之間的關聯(lián)。
為了進一步評估m(xù)7G RNA甲基化相關調控因子表達水平與乳腺癌預后之間的關系,使用“Consensus Cluster Plus” R包將乳腺癌樣本進行共識聚類分析(consensus clustering analysis),考慮到樣本數(shù)和后續(xù)分析便利性,最終將樣本分成兩個不同的亞組。然后使用R中“ggplot2”和“l(fā)imma”R包對數(shù)據(jù)進行主成分分析(PCA)以驗證分類的結果。
利用單因素Cox回歸分析來評估m(xù)7G RNA甲基化相關調控因子與總體生存期(OS)之間的關系。為了對模型的復雜度進行更好的控制,在研究中還進行了最小絕對值收縮和篩選算子(LASSO)分析,以鑒定出起到獨立調控作用的m7G RNA甲基化相關調控因子。最后,確定了4個與m7G RNA甲基化高度相關的關鍵調控因子。利用R中的“glmnet”包進行模型構建,通過其生成的模型,形成了不同調控因子的風險評分,然后使用中位風險評分將乳腺癌患者分為低風險組和高風險組。使用“survival”R包對相關調控因子進行單因素生存分析。采用ROC曲線對該模型預后預測準確性進行可視化檢驗。評估低風險組和高風險組之間的臨床病理變化的差異,并使用可視化的熱圖展示出來。此外,運用單因素和多因素Cox回歸分析,評估該風險評分能否作為獨立預后指標的手段。
為了對這4種m7G RNA甲基化相關調控因子風險特征的預后值進行驗證,引入了GEO數(shù)據(jù)庫中的GSE61304數(shù)據(jù)集作為驗證數(shù)據(jù)。使用與上述相同的方法計算患者風險評分。應用相同的臨界標準將患者分為低風險組和高風險組。隨后,進行了單多因素生存分析,以評估預后指標。
最后,使用各種臨床因素(性別、年齡、病理分期)和風險評分來制訂預后指標圖。使用R中“rms”包預測乳腺癌患者的1年、3年和5年生存期。
1.3 統(tǒng)計學方法
所有統(tǒng)計數(shù)據(jù)均使用R(版本R 4.0.3,https://www.r-project.org/)和perl[版本Perl (64-bit) 5.32.1.1,https://www.perl.org/]進行處理。Plt;0.05是顯著性閾值。單多因素分析比較了33個調節(jié)因子在乳腺癌組織和TCGA樣品正常組織中的表達。富集分析了臨床特征與m7G RNA甲基化相關調控因子的相關性。采用帶有Wilcoxon秩和檢驗的單基因生存曲線來比較生存結果。上述代碼可從https://biowolf.cn/獲得。
2 結果
2.1 鑒定乳腺癌中差異表達的m7G RNA甲基化相關調控因子
本文對乳腺癌(n=1109)和鄰近正常組織(n=113)中的33個m7G RNA甲基化相關調控因子進行了差異表達分析。根據(jù)熱圖顯示,可以清楚地發(fā)現(xiàn),大多數(shù)m7G RNA甲基化調控因子在乳腺癌組織和正常對照組織之間的表達差異有統(tǒng)計學意義。腫瘤樣本中調控因子:EIF4E1B、LSM1、NUDT16L1、METTL1、EIF4E2、 NUDT5、DCPS、NUDT1、EIF3D、NCBP2L、NUDT4、NUDT16、EIF4E3、NUDT10、NUDT11、NUDT7、NCBP3、EIF4A1、NUDT3、NCBP2、NSUN2、CYFIP2、CYFIP1、GEMIN5、LARP1、EIF4E、NCBP1的表達水平均高于正常對照組織(Plt;0.001)。SNUPN(P=0.753)、NUDT4B(P=0.731)、AGO2(P=0.089)、IFIT5(P=0.766)、EIF4G3(P=0.197)、DCP2(P=0.521)差異無統(tǒng)計學意義。此外,為了進一步了解33個m7G RNA甲基化相關調控因子之間是否存在內在關聯(lián),還對這些調控因子進行了相關性分析。結果顯示,NUDT3和NCBP2之間的相關性最為顯著。NUDT3表達水平最有可能與NCBP2呈正相關。見圖1、圖2。
2.2 m7G RNA甲基化相關調控因子的共識聚類分析
根據(jù)聚類結果,當k=3時邊界最清晰,為了方便后續(xù)的研究,并沒有將全部乳腺癌樣本數(shù)據(jù)分成三組。分組完成后,根據(jù)TCGA數(shù)據(jù)庫中的m7G RNA甲基化相關調控因子的表達結果,將1109個乳腺癌樣品聚類為兩組(分別稱為聚類1和聚類2)。值得注意的是,從整體上看,聚類1的乳腺癌患者的預后比聚類2差,但差異無統(tǒng)計學意義(P=0.598)。此外,研究中發(fā)現(xiàn)大多數(shù)m7G RNA甲基化相關調控因子在聚類1中顯著表達。在乳腺癌中,一些臨床特征(如性別、年齡、分期、淋巴結轉移)在兩個亞組之間差異無統(tǒng)計學意義。但是,與聚類2相比,聚類1在性別、淋巴結轉移特征上相關性較高。見圖3-圖6。
2.3 基于m7G甲基化調控因子的表達水平建立預后風險模型
考慮到m7G RNA甲基化相關調控因子與乳腺癌患者預后之間的強相關性,本研究同時對4個關鍵調控因子的表達水平進行了單因素Cox回歸分析。結果顯示,4個關鍵調控因子都與總體生存曲線顯著相關(Plt;0.05)。在這4個關鍵基因中,EIF4E、LARP1、NCBP1被認為是危險基因,HRgt;1;只有EIF4E3被認為是保護基因,HRlt;1。隨后,使用LASSO分析鑒定具有最強預后能力的m7G RNA甲基化相關調控因子。最終,選擇了4個最優(yōu)基因(EIF4E、EIF4E3、LARP1、NCBP1)建立乳腺癌風險模型,以及計算風險評分的相應系數(shù)。風險評分的計算公式如下:風險評分=(EIF4E pvalue=0.084)+(LARP1 pvalue=0.410950183)+(NCBP1pvalue=0.346201462430856)-(EIF4E3pvalue=0.002521)。為了探索這4個調控因子特征模型的預后作用,根據(jù)中位風險評分將乳腺癌患者分為低風險組和高風險組。生存分析曲線顯示,與低風險組評分患者相比,高風險組評分患者的OS更差(Plt;0.01)。高風險組的5年OS為75%,低風險組OS為85%。還進行了ROC曲線的分析,并評估了1年、3年和5年的總體生存率曲線下面積(AUC)分別為0.579、0.623和0.615,這顯示出對生存結果的良好預測能力。此外,通過繪制乳腺癌患者的風險評分分布圖,顯示出每個患者的生存狀態(tài)。在熱圖中可以觀察到高風險組和低風險組人群中4個預后調控因子的表達情況,在熱圖的上方繪制了有關臨床相關性的信息。在比較低風險組和高風險組的臨床參數(shù)時,觀察到T分期、存活率和年齡差異均有統(tǒng)計學意義(均Plt;0.01)。見圖7-圖14。
2.4 使用GEO數(shù)據(jù)庫驗證預測特征
為了驗證其他數(shù)據(jù)集對4個關鍵調控因子特征是否存在生存預測的價值,研究還引入了GEO數(shù)據(jù)集(GSE61304)進行驗證。根據(jù)TCGA數(shù)據(jù)的風險評分中位值,GSE61304數(shù)據(jù)集中共有1039例乳腺癌患者被分為高風險(n=519)組和低風險(n=520)組。與TCGA數(shù)據(jù)中的結果相同,生存分析曲線表明,與高風險組患者相比,低風險組的乳腺癌患者的總體生存率曲線明顯更好(P=0.0159)。
2.5 利用4個關鍵調控因子風險特征獨立預測乳腺癌患者的預后
對臨床信息病例進行整理篩選后(去除信息不全的樣本),共有1024例樣本符合進行Cox回歸分析條件。單因素分析結果顯示,乳腺癌患者的OS曲線與4個關鍵調控因子的風險評分和腫瘤分期顯著相關(Plt;0.001)。通過多因素Cox回歸分析,證明了這4個關鍵調控因子風險特征能夠獨立于其他臨床病理學特征并作為乳腺癌的預后因素,這體現(xiàn)了乳腺癌患者的風險評分和分期與總體生存期曲線獨立相關(Plt;0.001)。以上結果表明,這4個關鍵調控因子的風險特征能夠獨立于性別、年齡、風險評分預測預后情況,該4個基因風險特征可以作為乳腺癌的獨立預后因素。
2.6 建立乳腺癌的預后列線圖
為了提供一種預測個體生存的定量方法,研究根據(jù)年齡、性別、組織學等級、病理分期和風險評分建立了一種新的預后列線圖(圖15)。結果證明,該模型可以系統(tǒng)地預測乳腺癌患者未來1年、3年和5年的生存率。
3 討論
國際癌癥研究機構最新報告顯示,女性乳腺癌的發(fā)病率已經(jīng)超過肺癌,成為目前全球癌癥發(fā)病率最高的惡性腫瘤之一[4]。另外,乳腺癌患者的總體生存率雖然與其他疾病相比較高,但復發(fā)率仍遠未令人滿意,據(jù)相關報道,女性乳腺癌患者治療后復發(fā)轉移率達30%~40%[5],大概率的復發(fā)不僅威脅患者身體健康,增加了病死率,對患者治療信心也是很大的打擊。因此,研究乳腺癌預后水平,有計劃地進行臨床干預,可能對降低乳腺癌復發(fā)率有積極的意義。要達到此目的,需要進一步闡明導致乳腺腫瘤發(fā)生的潛在分子機制。
基因調控和抑制劑近年來引起了學術界的強烈興趣,使用多基因特征的風險評分系統(tǒng)來預測人類癌癥的預后水平已經(jīng)隨著RNA-seq和微陣列技術的發(fā)展而廣泛地應用。然而,在癌癥領域中,關于m7G RNA甲基化修飾的研究仍處于初始階段。在該研究中,使用了4個m7G RNA甲基化關鍵調控因子建立了預后特征,并證明此風險評分能夠獨立預測乳腺癌患者的預后。因此,本研究中的風險特征可以幫助臨床醫(yī)生更準確地進行個性化的生存預測。
正如預后模型所示,EIF4E3是唯一與乳腺癌患者預后呈正相關的m7G RNA甲基化調控因子,這表明EIF4E3可能對乳腺癌產(chǎn)生抑制作用。EIF4E3是EIF4E蛋白的第三亞家族[6-7]。到目前為止,雖然一部分的研究結果展示了EIF4E3與人類腫瘤之間的相關性,但其生物學功能和相關分析仍然需要進一步研究。目前認為,EIF4E3在各種類型的人類癌癥中表現(xiàn)出異質性作用。例如EIF4E3過度活化可能導致c-Myc蛋白的豐度和活性增加,提示EIF4E3可能促進了髓母細胞瘤(MB)的生長和進展[8],因此,EIF4E3基因在乳腺癌中的具體作用仍然難以捉摸,需要更多的研究來證明。
根據(jù)前面的研究,除EIF4E3外,另外3個關鍵調控因子EIF4E、LARP1、NCBP1被認為是危險基因,這證明其可能對乳腺癌發(fā)展起到了促進的作用,EIF4E可以促進血管的生成和生長[9],在其他癌癥中也發(fā)現(xiàn)了類似的作用。在前人大量的研究中LARP1被證實與癌細胞的生存有關。NCBP1也被發(fā)現(xiàn)能上調cullin 4B(CUL4B)基因的表達,并在肺癌細胞增殖的基因表達上具有高表達的特征,這對肺癌的發(fā)生、發(fā)展也起到促進作用[10]。以上的研究表明EIF4E、LARP1、NCBP1這幾個基因在多種疾病中都起到促進腫瘤進展的作用,未來可以集中研究它們在癌癥預防、治療與控制的方法。
盡管如此,必須承認本研究具有一定的局限性。首先,由于本研究的數(shù)據(jù)來自TCGA和GEO數(shù)據(jù)庫,因此需要通過實驗的進一步分析來驗證這個發(fā)現(xiàn)。其次,正常組和腫瘤組之間的樣本量差異較大,這可能會導致研究結果出現(xiàn)偏差。因此,本研究的結果可能無法推廣到所有人群。
綜上所述,本研究證明了m7G RNA甲基化相關調控因子表達特征具有較大的乳腺癌預后預測潛力。研究結果為進一步探討乳腺癌中m7G RNA甲基化的相關調控因子作用提供了額外的證據(jù),不過還需要進一步的實驗和臨床研究來證實這些發(fā)現(xiàn)。
參 考 文 獻
[ 1] SIEGEL R L, MILLER K D, FUCHS H E, et al. Cancer statistics,2022[J]. CA Cancer J Clin, 2022, 72(1): 7-33.
[ 2] ZHANG L S, LIU C, MA H, et al. Transcriptome-wide mapping of internal N7-methylguanosine methylome in mammalian mRNA[J]. Molecular Cell, 2019, 74(6): 1304-1316.e8.
[ 3] WU X M, ZHANG X J, TAO L L, et al. Prognostic value of an m6A RNA methylation regulator-based signature in patients with hepatocellular carcinoma[J]. Biomed Res Int, 2020, 2020: 2053902.
[ 4] SUNG H, FERLAY J, SIEGEL R L, et al. Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA Cancer J Clin, 2021, 71(3): 209-249.
[ 5] 高娟,趙建國.乳腺癌復發(fā)轉移的相關因素分析[J].中華轉移性腫瘤雜志,2019,2(3):60-64.
[ 6] JOSHI B, CAMERON A, JAGUS R. Characterization of mammalian eIF4E-family members[J]. Eur J Biochem, 2004, 271(11): 2189-2203.
[ 7] JOSHI B, LEE K, MAEDER D L, et al. Phylogenetic analysis of eIF4E-family members[J]. BMC Evol Biol, 2005, 5: 48.
[ 8] ABDELFATTAH N, RAJAMANICKAM S, PANNEERDOSS S, et al. MiR-584-5p potentiates vincristine and radiation response by inducing spindle defects and DNA damage in medulloblastoma[J]. Nat Commun,2018, 9(1): 4541.
[ 9] YANG S X, HEWITT S M, STEINBERG S M, et al. Expression levels of eIF4E, VEGF, and cyclin D1, and correlation of eIF4E with VEGF and cyclin D1 in multi-tumor tissue microarray[J]. Oncol Rep, 2007, 17(2): 281-287.
[10] ZHANG H J, WANG A, TAN Y L, et al. NCBP1 promotes the development of lung adenocarcinoma through up-regulation of CUL4B[J]. J Cell Mol Med, 2019, 23(10): 6965-6977.
(收稿日期:2023-05-06 修回日期:2023-08-11)
(編輯:梁明佩)
基金項目: 廣西教育科學“十四五”規(guī)劃2022年度高校創(chuàng)新創(chuàng)業(yè)教育專項課題(2022ZJY2799);2022年度廣西高等教育本科教學改革工程項目(2022JGA292);右江民族醫(yī)學院2020年度校級科研課題(yy2020gcky037)
第一作者簡介: 羅凱迪,男,在讀本科生。E-mail:1442019748@qq.com
通信作者: 陳建榮。E-mail:carl204@163.com
[本文引用格式] 羅凱迪,陳建榮.m7G RNA甲基化關鍵調控因子在乳腺癌中的表達和預后價值[J].右江醫(yī)學,2024,52(2):112-120.