袁 霜, 王麗華
(上海交通大學醫學院附屬國際和平婦幼保健院上海市胚胎源性疾病重點實驗室,上海 200030)
子宮內膜癌(endometrial carcinoma,EC)發生于子宮內膜,是常見的婦科腫瘤之一。統計資料顯示,2018年全球約有38萬名女性患EC,約有9萬人死于EC[1]。EC通常基于其對雌激素的依賴性分為2種類型:Ⅰ型和Ⅱ型。Ⅰ型EC對雌激素的依賴性增加,而且預后良好,占EC的70%~80%。相比之下,Ⅱ型EC通常預后較差,經手術治療后,5年內復發率仍有10%~15%,預后差且生存期短[2]。因此,EC分型相關的潛在分子標志物的鑒定對于臨床決策至關重要。
在非編碼RNA中,目前最受關注的是微小RNA(microRNA,miRNA)和長非編碼RNA(long noncoding RNA,lncRNA)。有研究表明,miRNA通過反應元件(microRNA response element,MRE)促進降解并抑制靶標mRNA的翻譯[4],lncRNA可以參與mRNA的轉錄和轉錄后調控[5]。miRNA和lncRNA在癌癥的發生和發展中相互作用,影響腫瘤轉歸,并表現出一定的診斷和預后價值。2011年,SALMENA等[16]率先提出了內源性競爭性RNA(competitive endogenous RNA,ceRNA)的假設,認為在轉錄后水平上存在一個復雜的調控網絡,并且所有類型的RNA轉錄本都可作為天然海綿通過共享至少1個MRE限制miRNA的功能。先前的研究已經證實,lncRNA-miRNA-mRNA調控網絡在EC的發生和發展中具有至關重要的作用[7]。為此,本研究擬探討lncRNA、miRNA和ceRNA網絡在EC分型中的作用。
從TCGA數據庫(https://portal.gdc.cancer.gov/)獲得lncRNA、mRNA(407份Ⅰ型EC組織和136份Ⅱ型EC組織)和miRNA(407名Ⅰ型EC組織和131份Ⅱ型EC組織)表達譜以及臨床數據。從GEO數據集GSE17025(79例Ⅰ型EC和12例Ⅱ型EC)和GSE25405(20例Ⅰ型EC和21例Ⅱ型EC)中下載lncRNA、mRNA和miRNA相關數據。
為了分析Ⅰ型與Ⅱ型EC之間差異性表達的mRNA、lncRNA和miRNA,本研究通過R包GDCRNATools v1.2.0對原始數據進行標準化,過濾掉低表達基因(超過一半的樣本中log2CPM<1),閾值設置為|log2倍數變化(log2fold change,log2FC)|>1.0,錯誤發現率(false discovery rate,FDR)作為校正、P<0.05[8]。
為了鑒定Ⅰ型和Ⅱ型EC差異性表達的lncRNA、mRNA和miRNA構成的ceRNA網絡,本研究使用StarBase數據庫[9]、miRcode數據庫[10]和miRTarBase數據庫[11]鑒定了相互作用的miRNA-mRNA對;使用StarBase數據庫[9]、miRcode數據庫[10]和spongeScan數據庫[12]鑒定了相互作用的miRNA-lncRNA對。此外,還使用R包GDCRNATools對ceRNA網絡中相互作用的lncRNA和mRNA進行超幾何分布檢驗以測試其是否顯著共享許多miRNA,繼而檢測共享miRNA對lncRNA和mRNA的調控相似性來驗證其是否介導lncRNA和mRNA之間的相互作用。剩下的mRNA-lncRNA對通過Pearson相關分析進一步篩選。最后,使用Cytoscape v 3.7.0對ceRNA進行可視化。使用GDCRNA工具包的3個標準來確定lncRNA-mRNA之間競爭性內源性的相互作用:(1)lncRNA和mRNA必須共享大量miRNA;(2)lncRNA和mRNA的表達水平必須正相關;(3)miRNA在調節lncRNA和mRNA的表達中應發揮相似的作用。
為了深入探究ceRNA網絡的生物學功能和代謝途徑,通過clusterProfiler包對ceRNA網絡中的差異表達mRNA進行了基因本體論(Gene Ontology,GO)和京都基因與基因組數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析[13]。富集顯著性的閾值為P<0.05。
采用Kaplan-Meier生存分析(http://kmplot.com/analysis/)用于評估ceRNA網絡中關鍵基因的表達水平與患者總體生存率之間的關系。網站根據基因表達值自動將EC患者分為高表達組和低表達組,從而評估差異表達基因與EC患者預后之間的關系。
采用SPSS 25.0軟件進行統計分析。呈正態分布的數據以±s表示,2個組間比較采用t檢驗。采用超幾何分布檢驗評估lncRNA和mRNA是否顯著共享許多miRNA。采用Pearson相關分析評估mRNA與lncRNA的相關性。采用Kaplan-Meier生存分析和對數秩檢驗對不同ceRNA水平EC患者的總體生存時間(overall survival,OS)進行比較。計數資料以率表示,組間比較采用χ2檢驗。以P<0.05為差異有統計學意義。
TCGA的標準化數據標注為蛋白質編碼RNA、lncRNA、假基因、免疫球蛋白和其他非編碼RNA。根據閾值|log2FC|>1且P<0.05,在TCGA數據庫中鑒定出953個Ⅰ型EC與Ⅱ型EC有差異性表達的基因,其中lncRNA 59個(26個上調、33個下調)、miRNA 51個(22個上調、29個下調)、mRNA 843個(413個上調、430個下調)。見圖1。

圖1 差異基因的分布和火山圖
篩選出2個lncRNA、19個miRNA和11個mRNA并構建了19對lncRNA-miRNA和45對miRNA-mRNA一起參與ceRNA網絡,見圖2。其中,具有豐富連接的lncRNA分別為LINC00667(有11個節點,與11個miRNA相互作用)和H19(有8個節點,與8個miRNA相互作用)。

圖2 由lncRNA-miRNA-mRNA構成的ceRNA網絡
采用GO和KEGG富集分析進一步預測差異基因功能。GO分析由生物過程(biological process,BP)、分子功能(molecular function,MF)和細胞成分(cellular component,CC)組成。BP分析結果表明,大多數差異表達的mRNA參與 “軸突生成、糖蛋白代謝、糖蛋白生物合成、軸突導向和神經元凸起導向”,見圖3(a)。MF富集的前5個術語是“金屬離子跨膜轉運活性、DNA結合轉錄激活因子活性、RNA聚合酶Ⅱ特異性、門控通道活性、G蛋白偶聯受體結合”,見圖3(b)。最顯著富集的CC條目是細胞頂端,見圖3(c)。在KEGG富集分析中,差異表達的mRNA豐富了283條KEGG通路,包括人乳頭瘤病毒感染、軸突導向、Hippo信號通路、蛋白質消化吸收和谷氨酸能突觸等,見圖3(d)。

圖3 差異基因的功能富集分析
根據ceRNA網絡的分析結果,篩選出2個lncRNA、19個miRNA和11個mRNA進行了EC患者生存分析。Kaplan-Meier 生存曲線分析結果顯示,2個lncRNA(LINC00667和H19)均與EC患者生存率相關,其表達越高,生存率越低。在11個mRNA中,除FKBP1B外,其他mRNA(TMCC3、HOXA3、HOXA5、PXDN、WNT10A、Nr6A1、KIrrEL1、MAP7D2、WNK3和PLXNA4)均與預后密切相關,見圖4。19個miRNA中的10個miRNA與EC患者總生存時間密切相關,見圖5。


圖4 lncRNA、mRNA高表達和低表達的EC患者的生存曲線Kaplan-Meier生存曲線

圖5 miRNA高表達和低表達的EC患者的生存曲線
根據差異基因的表達方式和ceRNA網絡,共獲得了2對(LINC00667-hsa-miR-181a/hsamiR-181d-Nr6A1和LINC00667-hsa-miR-34a/hsa-miR-34c/hsa-miR-449a/hsa-miR-449b-TMCC3),并且這些差異基因均和EC的預后密切相關(r=0.200,P<0.05;r=0.266,P<0.05)。見圖6。

圖6 配對的lncRNA和mRNA的相關性
采用GEO2R分析2個GEO數據集GSE17025(79例Ⅰ型EC和12例Ⅱ型EC)和GSE25405(20例Ⅰ型EC和21例Ⅱ型EC),以驗證ceRNA網絡的有效性。結果顯示,僅LINC00667-TMCC3對的表達與TCGA數據庫中的表達一致,關于lncRNA和mRNA共享的miRNA表達中,hsa-miR-34a在GSE25405數據集中的表達差異無統計學意義(P>0.05),其他miRNA(miR-34c、miR-449a、miR-449b)的表達均與TCGA數據庫中的表達一致。見表1。

表1 驗證GSE17025和GSE25405中選定的lncRNA、mRNA、miRNA
對TCGA數據庫中EC患者的臨床資料[病理分型、年齡、分化程度和國際婦產科聯盟(the International Federation of Gynecology and Obstetrics,FIGO)分期]進行整理,剔除臨床資料不完整的病例。LINC00667、TMCC3、miR-34c和miR-449a相對表達量的中位數分別為2.27、3.94、3.47和4.00。以>中位數為高表達,≤中位數為低表達。結果顯示,LINC00667高表達與EC的病理分型、分化程度和FIGO分期有關(P<0.05),與年齡無關(P>0.05)。TMCC3高表達與EC的病理分型、年齡和分化程度有關(P<0.05),與FIGO分期無關(P>0.05)。miR-34c、miR-449a低表達與EC的病理分型、分化和FIGO分期有關(P<0.05),與年齡無關(P>0.05)。見表2、表3。

表2 LINC00667和TMCC3的表達與EC臨床病理特征的關系 例(%)

表3 miR-34c和miR-449a的表達與EC臨床病理特征的關系 例(%)

續表3
EC是女性常見的惡性腫瘤之一,術后確定腫瘤組織學類型對EC患者的生存和預后至關重要。Ⅰ型EC以子宮內膜樣腺癌為主,預后良好,5年生存率較高。Ⅱ型EC以漿液性和透明細胞癌為主,是高度惡性腫瘤,通常在晚期才被確診,預后較差,且具有較高的復發風險[2]。目前,ceRNA網絡在EC分型中的確切作用尚未明確。因此,全面研究ceRNA網絡對EC分型的影響至關重要。本研究首先從TCGA數據庫中鑒定了Ⅰ型EC與Ⅱ型EC表達有差異的lncRNA、miRNA和mRNA,以提供lncRNA-miRNA-mRNA調控網絡,并對差異表達的基因進行了功能富集分析、相關性分析和生存分析。本研究確定了1組與EC相關的ceRNA(LINC00667-miR-34c/miR-449a/miR-449b-TMCC3),可用于闡明該疾病的潛在調控機制,為EC的分型和預后評估提供依據。
有研究結果顯示,lncRNA在EC中表達失調,并且其失調與腫瘤分級、FIGO分期、肌層浸潤深度、淋巴結轉移及患者生存率有關,被認為是新興的生物標志物和EC治療的潛在靶點[14]。本研究找到了1個關鍵的lncRNA——LINC00667。CHEN等[15]的研究結果顯示,LINC00667是卵巢癌復發的獨立危險因素,且GO和KEGG富集分析表明,其參與了卵巢癌的多種發生機制。但目前尚無LINC00667與EC相關的報道。本研究結果顯示,與Ⅰ型EC相比,LINC00667在Ⅱ型EC中表達上調,與EC的病理分型、分化程度和FIGO分期有關,且表達越高,患者的5年生存率越低。提示LINC00667高表達與EC預后不良相關,因此LINC00667或可作為EC新的分子分型和預后生物標志物。
miRNA是體內高度保守的調節性單鏈小RNA,不直接編碼蛋白質,但可以促進mRNA的降解并抑制蛋白質翻譯,進而介導基因的轉錄后調控[4]。本研究發現了3個關鍵miRNA:hsa-miR-34c、hsa-miR-449a和hsa-miR-449b。miR-34c在EC細胞中的表達顯著降低,與順鉑聯合應用可通過抑制白細胞介素6受體的表達來抑制人EC細胞系Ishikawa的增殖[16]。此外,在EC中,miR-34c還可作為p53蛋白的直接靶點,通過抑制E2F3蛋白的表達,抑制細胞周期阻滯相關蛋白,從而導致細胞周期阻滯在G1期,部分誘導細胞增殖抑制和凋亡[17]。本研究結果表明,miR-34c在Ⅱ型EC中表達下調,與EC的病理分型、分化和FIGO分期有關。由此可見,miR-34c低表達可能促進了EC細胞惡性增殖,抑制凋亡,這一結果與Ⅱ型EC惡性程度較Ⅰ型EC更高的事實相一致。因此,miR-34c在EC的早期診斷、分子分型和分子治療中具有潛在的應用價值。有研究結果顯示,與Ⅱ型EC組織相比,Ⅰ型EC組織中miR-449a和miR-449b水平分別升高347倍和461倍,與本研究結果一致,這提示miR-449a和miR-449b可作為EC新的分子分型標志物[18]。另外,miR-449a和miR-449b低表達與EC的5年生存率、病理分型、分化程度和FIGO分期有關,因此兩者或許也可作為判斷EC預后的指標。有研究發現,miR-449a在晚期EC中下調,并且可以通過下調非受體酪氨酸激酶c來抑制EC細胞中蛋白激酶B(protein kinase B,PKB;又稱AKT)/細胞外調節蛋白激酶1/2(extracellular regulated protein kinase 1 and 2,ERK1/2)途徑的激活,從而抑制腫瘤轉移[19]。這表明在EC中,miR-499a可能發揮抑癌作用。但miR-449b在EC中的具體調控機制尚不清楚,需要進一步深入研究。
跨膜卷曲螺旋結構域(transmembrane-coiled coil domain,TMCC)家族具有相同的結構基序(2個跨膜結構域和2個卷曲螺旋結構域),由TMCC1、TMCC2和TMCC3組成。目前研究大多聚焦于TMCC1的功能,關于TMCC3蛋白的研究較少。TMCC3蛋白通過跨膜結構域定位于內質網中。免疫沉淀和質譜研究結果表明TMCC3蛋白與14-3-3蛋白相關,14-3-3蛋白可能影響TMCC3的功能[20]。本研究發現,TMCC3在Ⅱ型EC中表達上調,與EC的病理分型、年齡和分化程度有關,這提示TMCC3可能與腫瘤的發生、發展相關,這一發現或許能為TMCC3在EC分型和預后預測中的作用提供新的解釋。
綜上所述,本研究發現了一些與EC分型相關的lncRNA、miRNA、mRNA,并篩選出了1組關鍵的ceRNA——LINC00667-miR-34c/miR-449a/miR-449b-TMCC3,與EC的預后密切相關。但這些結論僅基于當前的分析工具和數據庫,作為ceRNA網絡中挑選出的關鍵基因,LINC00667和TMCC3在EC中的具體作用機制尚未被闡明,在未來的研究中將收集更多的臨床樣本加以驗證,并使用體外和體內實驗進一步探索這些ceRNA的功能。