李倩,盧金磊,王會新,崔馨桐,王建喬,侯曉雯,馮旭
沈陽醫(yī)學(xué)院公共衛(wèi)生學(xué)院,沈陽 110034
結(jié)腸癌是西歐、北美等發(fā)達(dá)國家最常見的惡性腫瘤,也是中國最常見的惡性腫瘤之一[1]。由于缺乏早期癥狀,且臨床常用的腫瘤標(biāo)志物缺乏對早期結(jié)腸癌的診斷效能,大部分患者確診時已處于中晚期,預(yù)后較差[2]。近些年研究發(fā)現(xiàn),長鏈非編碼RNA(long non-coding RNA,lncRNA)在腫瘤的發(fā)生、發(fā)展、預(yù)后及轉(zhuǎn)歸中發(fā)揮著重要作用,與結(jié)腸癌發(fā)生發(fā)展相關(guān)的lncRNA報道也逐漸增多[3]。加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)被廣泛用于生物基因研究中,通過聚類的方式更加快捷地找到關(guān)鍵基因,同時發(fā)現(xiàn)關(guān)鍵基因可能的功能,極大提高了研究速度及準(zhǔn)確性[4-6]。本研究通過來自癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫和GEO數(shù)據(jù)庫的數(shù)據(jù),構(gòu)建結(jié)腸癌lncRNA的共表達(dá)網(wǎng)絡(luò),篩選得到的lncRNA能夠?yàn)檫M(jìn)一步研究結(jié)腸癌的潛在發(fā)病機(jī)制提供參考,現(xiàn)報道如下。
從GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)下載GSE126092芯片中的數(shù)據(jù),包括10對結(jié)腸癌組織及癌旁組織。從TCGA數(shù)據(jù)庫(https//portal.gdc.cancer.gov/)下載結(jié)腸癌轉(zhuǎn)錄組數(shù)據(jù),其中包括結(jié)腸癌組織482例和正常結(jié)腸組織42例。分析工具主要為R軟件(R×64 4.02版本)及各類R包、Cytoscape(3.8.0版本)以及各類在線數(shù)據(jù)分析網(wǎng)站。
通過R軟件中的limma程序包,對GEO數(shù)據(jù)進(jìn)行背景校正、標(biāo)準(zhǔn)化處理以及差異表達(dá)分析,篩選標(biāo)準(zhǔn)為:|logFC|≥1.5,校正后P<0.05。差異分析的結(jié)果用R軟件中pheatmap程序包繪制的火山圖進(jìn)行可視化分析。
對TCGA數(shù)據(jù)庫下載的結(jié)腸癌組織和正常結(jié)腸組織表達(dá)譜數(shù)據(jù)進(jìn)行WGCNA分析,首先進(jìn)行離群值的篩選,隨后進(jìn)行軟閾值的確定,使用R軟件自帶的層次聚類函數(shù)hclust進(jìn)行聚類分析,使用不同的顏色標(biāo)記聚類分析中的模塊。模塊與樣本信息進(jìn)行相關(guān)性分析,從中選擇與結(jié)腸癌相關(guān)性最高的模塊,獲取該模塊基因進(jìn)行后續(xù)分析。
對GEO數(shù)據(jù)中的差異表達(dá)lncRNA和WGCNA性狀相關(guān)模塊中的lncRNA取交集,獲取關(guān)鍵lncRNA,進(jìn)行后續(xù)分析。
對上述獲得的lncRNA進(jìn)行ceRNA網(wǎng)絡(luò)的構(gòu)建,使用Starbase(http://starbase.sysu.edu.cn/)預(yù)測lncRNA的靶向miRNA,使用miRDB數(shù)據(jù)庫(http://mirdb.org/)和Targetscan數(shù)據(jù)庫(http://www.targetscan.org/)預(yù)測miRNA的靶基因mRNA。基于上述篩選出的lncRNA、miRNA、mRNA,采用Cytoscape(3.8.0版本)構(gòu)建并繪制ceRNA調(diào)控網(wǎng)絡(luò)。
使用String數(shù)據(jù)庫構(gòu)建PPI網(wǎng)絡(luò)。輸入基因集為 mRNA;種屬選擇為 Homo sapiens;combined score≥0.7。使用Cytoscape(3.8.0版本)軟件可視化PPI數(shù)據(jù)。
使用DAVID在線數(shù)據(jù)庫(https://david.ncifcrf.gov/)進(jìn)行mRNA的基因本位(Gene Ontology,GO)功能分析和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析。
2.1.1 GEO 中差異表達(dá)lncRNA的篩選GEO數(shù)據(jù)庫GSE126092芯片中共篩選出322個差異表達(dá)的lncRNA,包含113個上調(diào)基因和209個下調(diào)基因。(圖1)

圖1 GEO數(shù)據(jù)庫GSE126092芯片中差異表達(dá)的lncRNA火山圖
2.1.2 WGCNA 分析結(jié)果 經(jīng)樣本聚類分析后刪除15個離群樣本。為使得鄰接函數(shù)滿足無尺度網(wǎng)絡(luò)的條件,選取β=3進(jìn)行后續(xù)分析,此時共表達(dá)網(wǎng)絡(luò)接近為無尺度網(wǎng)絡(luò)。根據(jù)β=3進(jìn)行切割設(shè)置得到基因聚類樹,每個模塊最少基因數(shù)目設(shè)置為30,得到7個lncRNA模塊(圖2A)。對模塊與樣本特征進(jìn)行相關(guān)性分析,最終確定綠色模塊(cor=0.85,P<0.05)為與結(jié)腸癌相關(guān)性最高的模塊(圖2B)。對GEO中差異表達(dá)的lncRNA和綠色模塊中的lncRNA取交集,最終獲得6個結(jié)腸癌的關(guān)鍵lncRNA,分別為鋅指NFX1結(jié)構(gòu)1反義RNA1(zinc finger NFX1-type containing 1 antisense RNA 1,ZFAS1),β1,3-半乳糖基轉(zhuǎn)移酶5反義RNA1(beta-1,3-galactosyltransferase5antisenseRNA 1,B3GALT5-AS1),細(xì)胞色素P450家族1亞家族B成員1反義RNA1(cytochrome P450 family 1 subfamily B member 1 antisense RNA 1,CYP1B1-AS1),二肽基肽酶樣10反義RNA1(dipeptidyl peptidase like 10 antisense RNA 1,DPP10-AS1),VPS9包含域1反義RNA1(VPS9 domain containing 1 antisense RNA 1,VPS9D1-AS1)和細(xì)胞周期蛋白依賴性激酶抑制因子2B反義RNA1(cyclin dependent kinase inhibitor 2B antisense RNA 1,CDKN2B-AS1)。

圖2 WGCNA 分析結(jié)果
預(yù)測出與6個關(guān)鍵lncRNA可能相互作用的24個miRNA,以及24個miRNA可能的靶基因mRNA共346個,構(gòu)建了lncRNA介導(dǎo)的ceRNA網(wǎng)絡(luò)圖。(圖3)

圖3 構(gòu)建結(jié)腸癌的lncRNA-miRNA-mRNAceRNA網(wǎng)絡(luò)圖
構(gòu)建PPI網(wǎng)絡(luò)圖鑒定ceRNA網(wǎng)絡(luò)中mRNA蛋白質(zhì)間的相互作用關(guān)系,發(fā)現(xiàn)一些聯(lián)合評分比較高的mRNA,分別為:雌激素受體1(estrogen receptor 1,ESR1)、小窩蛋白1(caveolin1,CAV1)、間質(zhì)-上皮細(xì)胞轉(zhuǎn)化因子(mesenchymal-epithelial transition factor,MET)、鈣黏蛋白相關(guān)蛋白β1(cadherinassociated protein beta 1,CTNNB1)、磷脂酰肌醇轉(zhuǎn)移蛋白 3(phosphatidylinositol transfer protein 3,PITPNM3)和趨化因子 18(chemokine ligand 18,CCL18)。(圖4)

圖4 PPI網(wǎng)絡(luò)圖
對346個mRNA進(jìn)行GO功能分析和KEGG富集分析。GO功能分析結(jié)果顯示,生物功能主要集中在DNA模板轉(zhuǎn)錄調(diào)控、RNA聚合酶Ⅱ基因啟動子的轉(zhuǎn)錄調(diào)控和RNA聚合酶Ⅱ啟動子轉(zhuǎn)錄負(fù)向調(diào)控等;細(xì)胞功能主要集中在細(xì)胞核、突觸、神經(jīng)細(xì)胞體、突觸后密集區(qū)和微管相關(guān)復(fù)合體;分子功能主要集中在核酸結(jié)合、金屬離子結(jié)合、DNA結(jié)合等。KEGG富集分析結(jié)果顯示,基因主要富集在癌癥蛋白聚糖、磷脂酰肌醇-3-羥激酶(phosphatidylinositol 3-hydroxy kinase,PI3K)-蛋白激酶 B(protein kinase B,PKB,又稱AKT)信號通路、Rap1信號通路和局部粘連等。(圖5、圖6)

圖5 GO功能分析

圖6 KEGG富集分析
結(jié)腸癌發(fā)生與社會環(huán)境、高脂肪飲食、遺傳等密切相關(guān),具有發(fā)病率高、轉(zhuǎn)移率高、治愈率低等特點(diǎn)[7]。因此,非常有必要在分子水平上開發(fā)新的生物標(biāo)志物和潛在靶點(diǎn)以預(yù)防和治療結(jié)腸癌。WGCNA可以通過系統(tǒng)繪制個體生物網(wǎng)絡(luò)互作圖精準(zhǔn)找出與研究相關(guān)的核心基因,極大提高了研究速度及準(zhǔn)確性[4,8]。因此,本研究通過構(gòu)建結(jié)腸癌WGCNA共表達(dá)網(wǎng)絡(luò),尋找與結(jié)腸癌具有密切關(guān)聯(lián)性的lncRNA。
本研究從GEO數(shù)據(jù)庫中共篩選出322個差異基因,從TCGA數(shù)據(jù)庫中共獲得1688個lncRNA的表達(dá)矩陣,進(jìn)行WGCNA構(gòu)建后,綠色模塊為與結(jié)腸癌相關(guān)性最高的模塊,對GEO數(shù)據(jù)中差異表達(dá)的lncRNA和TCGA綠色模塊中的lncRNA取交集后最終獲得6個結(jié)腸癌的關(guān)鍵lncRNA。構(gòu)建的ceRNA網(wǎng)絡(luò)提示其在結(jié)腸癌中的可能作用機(jī)制,但仍需進(jìn)一步實(shí)驗(yàn)驗(yàn)證。
已有研究表明這6種lncRNA在腫瘤的發(fā)生發(fā)展中發(fā)揮重要作用。ZFAS1定位于人類染色體20q13,研究發(fā)現(xiàn)ZFAS1與結(jié)腸癌的分化程度、T分期及N分期有關(guān),高表達(dá)ZFAS1是結(jié)腸癌預(yù)后不良的危險因素[9-10]。馮偉[11]發(fā)現(xiàn),胃癌患者血清B3GALT5-AS1表達(dá)上調(diào),可能作為潛在的胃癌輔助診斷及預(yù)后監(jiān)測的生物標(biāo)志物。另有研究發(fā)現(xiàn),DPP10-AS1、VPS9D1-AS1和CDKN2B-AS1均具有促進(jìn)肺癌細(xì)胞增殖的作用,可促進(jìn)肺癌惡性進(jìn)展[12-14]。雖然現(xiàn)有研究表明B3GALT5-AS1、CYP1B1-AS1、DPP10-AS1、VPS9D1-AS1和 CDKN2B-AS1與腫瘤的發(fā)生發(fā)展有關(guān),但并未有研究表明它們與結(jié)腸癌相關(guān),因此如將其作為一種診斷指標(biāo),仍需進(jìn)一步研究以提供更可靠的依據(jù)。
綜上所述,本研究利用GEO數(shù)據(jù)庫和TCGA數(shù)據(jù)庫以及WGCNA方法篩選出與結(jié)腸癌可能相關(guān)的6個lncRNA,分別為ZFAS1、B3GALT5-AS1、CYP1B1-AS1、DPP10-AS1、VPS9D1-AS1和 CDKN2B-AS1,并且構(gòu)建了相關(guān)的ceRNA調(diào)控網(wǎng)絡(luò),為進(jìn)一步探索結(jié)腸癌的機(jī)制研究提供了依據(jù)。