邵毅,沈藝,牛琛,阮曉莉,Rena Nakyeyune,劉芬
首都醫科大學公共衛生學院 北京市臨床流行病學重點實驗室,北京100069
食管癌是世界范圍內常見的消化道惡性腫瘤之一[1]。中國是食管癌的高發區,根據國家癌癥中心最新的統計數據,我國食管癌居全國惡性腫瘤發病第六位,死亡第四位[2],其中食管鱗癌(ESCC)占我國食管癌病例的近90%[3]。ESCC早期癥狀隱匿,因吞咽困難等典型癥狀而就診的多數患者已進展至中晚期,外科手術和放化療的治療效果并不理想,我國ESCC患者的5年生存率不足30%[4],是高致死性的疾病。因此,研究其發病機理,尋找早期診斷、治療及預后相關靶點是亟待解決的問題。
微小RNA(miRNAs)是一類小的非編碼RNA,可在轉錄后水平調節靶基因的表達,并參與多種生物學過程,在惡性腫瘤發生、發展和預后中發揮重要作用[5]。人類miRNAs具有成簇聚集在染色體上的特征,形成miRNA基因簇。其中,miR-17-92基因簇是最有特點的多順反子miRNA[6-7],其位于C13orf25基因的第3內含子中,可編碼為6個成熟的miR‐NAs,即miR-17-5p、miR-18a-5p、miR-19a-3p、miR-20a-5p、miR-19b-3p和miR-92a-3p[8]。最 近 研 究 表明,miR-17-92基因簇在肝癌、肺癌、結直腸癌等實體腫瘤以及B細胞淋巴瘤等血液系統腫瘤中存在差異表達[9-11]。同時也有研究報道,miR-17-92基因簇在食管癌中存在異常表達的現象[12-15],但與之相關的調節途徑及作用機制鮮有報道。因此,深入對miR-17-92基因簇的探究可能為惡性腫瘤研究提供新的思路,以期為癌癥診斷、治療及預后識別出具有潛在價值的標志物或新靶點。
本研究基于癌癥基因組圖譜(The Cancer Ge‐nome Atlas,TCGA)及基因表達綜合數據庫(Gene Expression Omnibus,GEO)篩選ESCC組織中差異的miR-17-92基因簇成員,并對其靶基因進行預測及生物學功能分析,探討表達差異的miR-17-92基因簇成員及其靶基因與患者臨床病理特征、預后的關系,以期為識別ESCC分子標志物及明確分子發病機制提供理論依據。
1.1 數據來源通過UCSC Xena網站(http://xe‐na.ucsc.edu/)下載TCGA數據庫中94例ESCC樣本的miRNA、基因表達數據及其臨床信息,同時下載12例正常食管樣本的miRNA及基因表達數據。于GEO數據庫下載ESCC miRNA表達譜數據集GSE43732,該數據集包含119對ESCC及癌旁正常食管組織樣本,下載Agilent-038166 cbc_hu‐man_miR18.0平臺及矩陣數據文件。
1.2 ESCC組織、正常食管組織、癌旁組織中miR-17-92基因簇差異表達分析應用R軟件edgeR包分析TCGA數據庫中ESCC和正常食管組織間miR-17-92基因簇差異表達情況。選用GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)分析GSE43732數據集中ESCC和癌旁組織中miR-17-92基因簇差異表達情況。將ESCC組織、正常食管組織及癌旁組織中差異表達(差異倍數[fold change,FC]>2倍,校正后P<0.05)的miR-17-92基因簇成員作為關鍵miR‐NAs,聯合pheatmap包進行可視化,繪制熱圖。
1.3 食管癌組織差異表達miR-17-92基因簇的靶基因篩選及功能分析采用miRDB 6.0(http://mirdb.org)、TargetScan 7.2(http://www.targetscan.org)及miRTarBase 8.0(http://mirtar‐base.cuhk.edu.cn)在線網站預測1.2中篩選所得關鍵miRNAs的靶基因,預測結果通過VennDiagram包取交集得到目標靶基因,并繪制韋恩圖。使用STRING 11.0數據庫(https://string-db.org/),對目標靶基因進行蛋白互作網絡(PPI network)分析,并選擇置信分數>0.9的相互作用靶基因進行后續研究。基于TCGA數據庫中基因表達數據對上述相互作用靶基因在ESCC中的表達情況進行分析,選擇其中差異表達(P<0.05)的靶基因作為關鍵靶基因。利用DAVID 6.8數據庫(https//david.ncifcrf.gov/)對關鍵靶基因進行基因本體(GO)功能富集分析。GO富集分析包括生物過程(Biological Process)、細胞組成(Cellular Component)和分子功能(Molecular Function)三個部分。利用KOBAS 3.0數據庫(http://kobas.cbi.pku.edu.cn/kobas3)對關鍵靶基因進行京都基因與基因組百科全書(KEGG)信號通路富集分析。
1.4 關鍵miRNAs及其關鍵靶基因與ESCC患者臨床病理學特征、預后的相關性分析基于TCGA數據庫中ESCC樣本數據,對關鍵miRNAs及其關鍵靶基因與ESCC患者臨床病理學特征及預后的關系進行分析。
1.5 統計學方法采用SPSS 24.0及R軟件(4.0.2版)。兩組獨立樣本的比較采用獨立樣本t檢驗或Mann-WhitneyU檢驗。采用中位數法對每個miR‐NA及靶基因的表達水平進行分組,低于中位數為低表達組,高于中位數為高表達組。基于survival包及survminer包,采用Kaplan-Meier法繪制生存曲線并進行Log-rank檢驗。P<0.05為差異有統計學意義。
2.1 ESCC組織中表達差異的miR-17-92基因簇以FC>2、校正后P<0.05為閾值,ESCC組織和正常食管組織間miR-17-92基因簇中miR-17-5p和miR-18a-5p呈現差異表達,在ESCC中表達水平上調。ESCC組織及其癌旁組織間miR-17-92基因簇中miR-17-5p和miR-18a-5p同樣存在差異表達,在ESCC組織中表達水平上調。此外,miR-19a-3p、miR-20a-5p、miR-19b-3p及miR-92a-3p在ESCC組織中均呈現高表達趨勢。
2.2 關鍵miRNAs的靶基因本研究選擇miR-17-92基因簇中最具差異表達的miR-17-5p和miR-18a-5p作為關鍵miRNAs,對其靶基因進行預測及篩選。miR-17-5p潛在靶向調控基因有67個,miR-18a-5p潛在靶向調控基因有38個(圖1a)。進一步對上述靶基因進行PPI網絡分析,最終鑒定出28個互相作用靶基因及其44個互相作用關系(圖1b)。基于TCGA數據庫中基因表達數據的分析結果表明,28個互相作用靶基因中有14個靶基因(CNOT6L、CTDSPL、ATM、FBXL5、NHLRC3、FEM1C、HIF1A、UBE2G1、CENPQ、CNOT7、RHOC、NR3C1、RUNX1、E2F3)在ESCC組織和正常食管組織間呈現差異表達(P均<0.05),被確定為關鍵靶基因。這14個差異表達的關鍵靶基因可能在ESCC發生、發展中發揮重要作用。

圖1 關鍵miRNAs的靶基因預測、篩選分析圖
2.3 關鍵靶基因的生物學功能對上述14個關鍵靶基因的KEGG信號通路及GO功能富集分析結果表明,關鍵靶基因主要參與的生物學過程為信號傳導、轉錄調控、調控細胞增殖等;主要參與的細胞組成為細胞質、細胞核等;主要參與的分子功能為蛋白質結合、轉錄因子活性等。關鍵靶基因主要富集在“Pathways in cancer”,“Cell cycle”,“Transcription‐al misregulation in cancer”和“MicroRNAs in cancer”等腫瘤相關通路。
2.4 miR-17-5p和miR-18a-5p及其關鍵靶基因與ESCC患者臨床病理學特征、預后的關系miR-17-5p和miR-18a-5p在不同ESCC分化程度間存在差異表達,即相比于低分化(G3)ESCC患者,miR-17-5p(FC=1.47,P=0.02)和miR-18a-5p(FC=1.58,P=0.04)的表達水平在高—中分化(G1/G2)患者中更高。關鍵靶基因CTDSPL在ESCC不同分化程度間(G3與G1/G2相比)存在差異表達(FC=1.12,P<0.01);關鍵靶基因ATM(FC=1.18,P=0.01)和NHL‐RC3(FC=1.09,P=0.03)在ESCC不同T分期間(T3/T4與T1/T2相比)存在差異表達;關鍵靶基因UBE2G1在ESCC不同N分期間(N1/N2/N3與N0相比)存在差異表達(FC=0.93,P=0.03)。進一步生存分析結果表明,關鍵靶基因ATM的表達水平與ESCC患者預后相關,ATM高表達組的中位生存期為48.6個月,而ATM低表達組的中位生存期為18.6個月,差異有統計學意義(P<0.01,圖2)。

圖2 基于TCGA數據庫ATM基因高、低表達水平的ESCC患者生存曲線
研究表明,人類基因組中存在300多個miRNA基因簇,其中miR-17-92基因簇因參與哺乳動物多種器官發育且與多種腫瘤的發生、發展息息相關而被廣泛關注[16]。兩個或多個miRNAs簇生排列于染色體上形成miRNA基因簇,其通過共表達影響細胞分化、增殖等生物學過程,作為一組新的癌基因或抑癌基因協同參與腫瘤相關途徑[17-18]。但到目前為止,miR-17-92基因簇在ESCC中研究較少,其在ES‐CC中的功能及作用機制尚未完全闡明。近年來,隨著高通量技術的不斷發展,大量的芯片和測序數據被收錄于各大數據庫中。基于公共數據庫挖掘及分析腫瘤相關大數據,可為腫瘤防治提供幫助。因此,本研究通過對TCGA和GEO數據庫中ESCC相關miRNAs表達、基因表達及其臨床信息數據進行分析,深入挖掘miR-17-92基因簇在ESCC中的表達情況及其靶基因功能。
已有少量研究表明,miR-17-92基因簇在ESCC中存在差異表達。XU等[13]對105對ESCC組織標本分析后發現,miR-17-92基因簇中六個成員在ESCC中的表達水平均顯著高于正常食管組織,并提出miR-17、miR-18a和miR-19a可作為ESCC潛在預后生物標志物。許瀚等[14]在ESCC組織及細胞系中均檢測到miR-17-5p的高表達,且miR-17-5p的上調與淋巴結轉移的狀態和TNM分期顯著相關。姚麗華等[15]研究表明miR-18a同樣在食管癌組織及細胞系呈現高表達,并提出其可作為食管癌診斷的生物標志物。本研究結果顯示,miR-17-92基因簇在ES‐CC中呈現表達水平上調趨勢,這與已有研究結果一致;其中miR-17-5p和miR-18a-5p表達差異最具顯著性,且這兩個miRNAs的表達水平與ESCC患者分化程度相關,表明上述兩個miRNAs可能作為關鍵miRNAs參與ESCC致病過程及癌癥進展。研究表明,miRNAs通過與靶基因3’非翻譯區特異性結合,調節靶基因的表達水平,進而發揮生物學功能[19-20]。因此本研究對上述關鍵miRNAs(miR-17-5p和miR-18a-5p)的靶基因進行預測及篩選,探討其發揮生物學作用的潛在機制。
本研究基于生物信息學在線網站預測miR-17-5p和miR-18a-5p的靶基因,并最終篩選得到14個在ESCC中呈現差異表達的關鍵靶基因。結果提示,這14個差異表達的關鍵靶基因可能受到miR-17-5p和miR-18a-5p的靶向調控,參與ESCC癌變進展過程。功能富集分析結果表明,上述差異表達關鍵靶基因主要參與了細胞質、核等細胞組成;信號傳導、轉錄調控等生物學過程;轉錄因子活性、蛋白質結合等分子功能。以上功能均是調控細胞增殖、侵襲、遷移的生物學基礎,這些生物學過程的異常可導致蛋白的異常表達和細胞的過度增殖。KEGG通路富集分析發現上述關鍵靶基因主要富集在癌癥通路、細胞周期、轉錄失調等腫瘤相關通路中,表明miR-17-5p和miR-18a-5p還可能通過改變相應靶基因表達水平,參與或間接調控以上腫瘤相關重要通路,在ESCC發生發展中發揮重要作用。
本研究結果表明,關鍵靶基因CTDSPL、NHL‐RC3和UBE2G1的表達水平與ESCC臨床病理學特征關系密切,具有重要的臨床意義。CTDSPL屬于SCP/CTDSP亞家族,被認為是磷酸酶樣腫瘤抑制基因,在腫瘤發生中發揮重要角色。有研究表明,CTDSPL表達量與胃腸道間質瘤的腫瘤大小和浸潤深度相關,且其表達水平受到miR-181a-5p的負向調控,進而對癌細胞的增殖活力和侵襲凋亡過程產生影響[20]。NHLRC3被認為通過泛素化在蛋白質修飾過程中發揮作用。既往研究發現,NHLRC3在胃癌及大腸癌中存在差異表達,并且視其為評估患者預后的獨立標志物。目前有關UBE2G1的研究較少,僅有一篇研究通過加權基因共表達網絡分析后發現UBE2G1是與髓母細胞瘤生存性狀相關性最大的核心基因。UBE2G1在腫瘤中的作用機制目前尚不十分明確,仍需進一步研究。本研究還發現,關鍵靶基因ATM不僅與ESCC臨床病理學特征(T分期)相關,與患者預后間仍存在關聯,其可能成為潛在的預后分子標志物。研究表明,ATM在結直腸癌、胃癌及腎細胞癌中呈低表達水平,且與不良預后相關。ATM屬于磷酸肌醇激酶-3(PI3K)基因家族成員,編碼具有絲/蘇氨酸激酶活性的ATM蛋白,主要發揮DNA損傷的識別、修復和細胞周期調控等功能。其機制為當細胞遭受損傷因素(化學藥物、物理輻射等)刺激時,ATM可通過自身修復功能或啟動損傷細胞凋亡途徑,以保證基因組的穩定性;但當ATM基因功能存在障礙,則會破壞其細胞自身修復能力,導致惡性腫瘤的發生發展。有研究發現,miR-100通過負向靶向ATM的表達,對急性髓細胞性白血病患者的細胞活力和凋亡過程產生影響;在肺癌細胞中觀察到miR-18a-5p可通過下調ATM的表達水平來提高肺癌細胞和CD133+干細胞的放射敏感性。結合本研究結果,ESCC中ATM的低表達水平可能受到其上游miR-18a-5p的調控,進而導致細胞自身修復能力發生障礙,促進腫瘤的發生及進展。
綜上所述,基于TCGA和GEO數據庫中ESCC樣本數據分析發現ESCC組織中miR-17-92基因簇表達上調,并識別出兩個關鍵miRNAs(miR-17-5p、miR-18a-5p)和14個關鍵靶基因(CNOT6L、CTD‐SPL、ATM、UBE2G1等)。關鍵靶基因CTDSPL、ATM、NHLRC、UBE2G1與ESCC患者臨床病理特征有關,ATM的低表達與ESCC患者的預后差有關。本研究為ESCC的發病機制及相關生物標志物研究提供了理論依據。