呂 楠,潘 楠,馬太原,唐桂艷
(吉林大學(xué)第一醫(yī)院 結(jié)直腸肛門外科,吉林 長春130021)
研究發(fā)現(xiàn)胃癌是世界上癌癥死亡的第二大原因,是我國常見的惡性腫瘤,同樣胃癌是世界上發(fā)病率和死亡率較高的惡性消化道腫瘤,做到早期診斷早期手術(shù)是決定患者預(yù)后的重要因素,且胃癌患者的預(yù)后嚴重影響著患者的生存質(zhì)量,因此尋找新的預(yù)后基因?qū)ξ赴┲委熁謴?fù)有重要的意義,胃癌的發(fā)生與基因調(diào)控、環(huán)境因素、飲食習(xí)慣等都有很密切關(guān)系,且認為基因調(diào)控是發(fā)病的主要因素,同時胃癌的預(yù)后也與很多基因有密切關(guān)系,因進展期、術(shù)后復(fù)發(fā)及耐藥的患者而言,放化療效果不佳且毒副作用大,匱乏有效的治療,所以尋找早胃癌診斷的特異性分子標志物及低毒有效的治療是一件很迫切的事情[1-8],本研究利用生物信息學(xué)方法篩選TCGA數(shù)據(jù)庫中胃癌患者預(yù)后恢復(fù)的差異表達基因,對DEGs進行GO和KEGG功能富集分析,利用STRING數(shù)據(jù)庫和Cytoscape模塊分析確定調(diào)控胃癌預(yù)后不良的重要調(diào)控基因,進一步利用K-M生存分析和GEPIA中進行驗證候選DEGs是否參與胃癌預(yù)后不良的調(diào)控,進一步對候選基因進行功能富集分析,為探討胃癌預(yù)后恢復(fù)后相關(guān)基因的篩選提供理論依據(jù)和新的研究思路。
通過TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/repository)下載胃癌患者的mRNA表達譜數(shù)據(jù)和臨床數(shù)據(jù),共包含32例正常組織,375例胃癌組織。并利用R語言(R 3.6.3,https://www.r-project.org/)對數(shù)據(jù)進行提取和標準化處理。由于TCGA數(shù)據(jù)庫是公開獲取資源,因此本研究免于倫理委員會的批準。
DEGs的篩選通過GEO2R[9]在線工具識別,FDR(false discovery rate)表示錯誤發(fā)現(xiàn)率,它是通過Pvalue進行校正得到的,是DEGs篩選的關(guān)鍵指標。在篩選中,選取Pvalue<0.05且|logFC |>=2作為標準(Fold Change表示差異倍數(shù))篩選出DEGs,其中l(wèi)ogFC<0的DEGs被認為是下調(diào)基因,logFC>0的DEGs被認為是上調(diào)基因。Gene ontology(GO)[10]是一種常用的方法定義基因及其RNA或蛋白質(zhì)產(chǎn)物以識別高通量轉(zhuǎn)錄組或基因組數(shù)據(jù)的獨特生物學(xué)特性的方法;KEGG[11]是一個涉及基因組、疾病、生物途徑、藥物和化學(xué)材料的數(shù)據(jù)庫。用DAVID[12]對篩選到的DEGs進行GO和代謝通路富集分析。
PPI網(wǎng)絡(luò)信息可以通過在線工具STRING[13](檢索相互作用基因的搜索工具,string-db.org)進行評估。然后,Cytoscape[14]用于檢查這些DEG之間的潛在相關(guān)性(maximum number of interactors=0,confidence score≥0.4)。此外,Cytoscape中的MCODE應(yīng)用程序用于檢查PPI網(wǎng)絡(luò)的模塊(degree cutoff=2,max Depth=100,k-core=2,and node score cutoff =0.2)。
Kaplan-Meier繪圖儀[15]是一個常用的網(wǎng)站工具,基于TCGA數(shù)據(jù)庫用于評估大量基因?qū)ι媛实挠绊?對于候選的核心DEGs進行生存曲線的繪制,對生存率分析都顯著差異的基因進行差異表達量的分析,同時應(yīng)用GEPIA網(wǎng)站[16]對于DEGs的表達數(shù)據(jù)進行作圖分析。
TCGA數(shù)據(jù)庫中的胃癌DEGs被鑒定,共鑒定篩選到1112個上調(diào)表達的DEGs,998個下調(diào)表達的DEGs。所有2110個DEGs均通過DAVID軟件進行功能富集分析;GO分析結(jié)果表明(表1),對于生物過程(BP),上調(diào)表達的DEGs在膠原蛋白分解代謝過程(collagen catabolic process)、細胞外基質(zhì)分解(extracellular matrix disassembly)和細胞外基質(zhì)組織(extracellular matrix organization)中顯著富集,下調(diào)表達的DEGs在補體激活(complement activation)、受體介導(dǎo)的內(nèi)吞作用(receptor-mediated endocytosis)和蛋白水解(proteolysis)中顯著富集,其中蛋白水解中富集了較多的Down-DEGs(76個),同樣受體介導(dǎo)的內(nèi)吞作用富集了較多的Down-DEGs(52個);對于細胞組分(CC),上調(diào)表達的DEGs在細胞外區(qū)域(extracellular region)、細胞外間隙(extracellular space)、蛋白質(zhì)細胞外基質(zhì)(proteinaceous extracellular matrix)和血液微粒(blood microparticle)中顯著富集,其中在細胞外區(qū)域和細胞外間隙中富集了較多的Up-DEGs,分別有161和127個Up-DEGs,下調(diào)表達的DEGs在細胞外區(qū)域、細胞外外泌體(extracellular exosome)、血液微粒(blood microparticle)、質(zhì)膜(plasma membrane)和細胞外間隙中顯著富集,其中細胞外外泌體和質(zhì)膜中富集了較多的Down-DEGs,分別有211和259個Down-DEGs;對于分子生物功能(MF),上調(diào)表達的DEGs在序列特異性DNA結(jié)合(sequence-specific DNA binding)、絲氨酸型內(nèi)肽酶活性(serine-type endopeptidase activity)、胃素結(jié)合(heparin binding)、激素活性(hormone activity)、轉(zhuǎn)錄激活劑活性(transcriptional activator activity)中顯著富集,其中序列特異性DNA結(jié)合中富集了較多的Up-DEGs(78個),下調(diào)表達的DEGs在抗原結(jié)合(antigen binding)、絲氨酸型內(nèi)肽酶活性(serine-type endopeptidase activity)、免疫球蛋白受體結(jié)合(immunoglobulin receptor binding)、結(jié)構(gòu)分子活性(structural molecule activity)和鈣離子結(jié)合(calcium ion binding)中顯著富集,其中絲氨酸型內(nèi)肽酶活性和抗原結(jié)合中富集了較多的Down-DEGs,分別有53和48個Down-DEG。

表1 胃癌中DEGs的GO分析
KEGG分析結(jié)果表明(表2)上調(diào)表達的DEGs主要富集到補體和凝血級聯(lián)(Complement and coagulation cascades)、細胞因子-細胞因子-受體相互作用(Cytokine-cytokine receptor interaction)、癌癥中的轉(zhuǎn)錄失調(diào)(Transcriptional misregulation in cancer)、ECM受體相互作用(ECM-receptor interaction)和蛋白質(zhì)的消化和吸收(Protein digestion and absorption)等14個代謝通路中顯著富集,這14個代謝通路中其中細胞因子-細胞因子-受體相互作用、PI3K-Akt信號通路(PI3K-Akt signaling pathway)、癌癥中的轉(zhuǎn)錄失調(diào)、神經(jīng)活性配體-受體相互作用(Neuroactive ligand-receptor interaction)和趨化因子信號通路(Chemokine signaling pathway)這5個代謝通路中富集了較多的Up-DEGs,分別有19、17、15、15和12個Up-DEGs。下調(diào)表達的DEGs主要富集到細胞色素P450對外來生物的代謝(Metabolism of xenobiotics by cytochrome P450)、化學(xué)致癌(Chemical carcinogenesis)、脂肪的消化和吸收(Fat digestion and absorption)、藥物代謝-細胞色素P450(Drug metabolism-cytochrome P450)和胃酸分泌(Gastric acid secretion)等43個代謝通路中顯著富集,這43個代謝通路中其中代謝途徑(Metabolic pathways)、神經(jīng)活性配體-受體相互作用、細胞色素P450對外來生物的代謝、化學(xué)致癌和蛋白質(zhì)的消化這5個代謝通路中富集了較多的Down-DEGs,分別有61、23、22、20和18個Down-DEGs。

表2 胃癌中DEGs的KEGG分析
利用Cytoscape對篩選到的DEGs進行蛋白網(wǎng)絡(luò)互作分析,形成了胃癌中所有DEGs的蛋白互作圖(圖1a),共包含43個DEGs;利用Cytoscape中的MCODE應(yīng)用程序進一步分析表明,共篩選到17個DEGs可以作為胃癌預(yù)后不良的重要調(diào)控節(jié)點(圖1b),其中F5、FGG、ALB、HP和SERPIEN1顯著上調(diào)表達。

(a)所有DEGs共有的PPI網(wǎng)絡(luò) (b)通過Cytoscape軟件進行模塊分析關(guān)鍵DEGs的確定
Kaplan Meier plotter (http://kmplot.com/analysis) 用于鑒定分析17個候選DEGs的存活數(shù)據(jù)(圖2),共篩選到9個DEGs的存活率隨著時間的延長明顯降低(P<0.05),特別是SERPIEN1與MATN3的存活率極顯著相關(guān)(P<0.01)。

圖2 核心基因的預(yù)后信息。Kaplan-meier繪圖儀在線工具用于識別患者的預(yù)后信息,9個基因的存活率顯著降低(P<0.05)
為了進一步確定胃癌和正常樣本之間的基因表達水平,通過GEPIA網(wǎng)站分析了這17個候選DEGs的表達水平。與正常標本相比發(fā)現(xiàn)其中5個DEGs在胃癌樣本中具有顯著表達水平(P<0.05),其中SERPINE1、F5和AGT的表達量均顯著升高,而FGG和ALB的表達量顯著降低(圖3)。

圖3 候選基因在胃癌和正常組織中的表達
為了了解這17個候選DEGs的可能途徑,通過DAVID軟件進行KEGG途徑富集分析(P<0.05)。結(jié)果顯示,FGG、SERPINE1和F5顯著富集于補體和凝血級聯(lián)(Complement and coagulation cascades)代謝途徑(圖4)。

圖4 候選DEGs的KEGG通路分析
本研究通過生物信息學(xué)方法對TCGA數(shù)據(jù)庫中胃癌患者的mRNA表達譜數(shù)據(jù)和臨床數(shù)據(jù)進行篩選整合,首先對數(shù)據(jù)進行提取和標準化處理篩選DEGs進行功能注釋分析,結(jié)果共篩選到1112個上調(diào)表達的DEGs,998個下調(diào)表達的DEGs,GO分析發(fā)現(xiàn)這些DEGs主要參與膠原蛋白分解代謝過程,絲氨酸型內(nèi)肽酶活性,胃素結(jié)合,激素活性和轉(zhuǎn)錄激活劑活性等,下調(diào)DEGs在補體激活,受體介導(dǎo)的內(nèi)吞作用,蛋白水解,抗原結(jié)合,免疫球蛋白受體結(jié)合和鈣離子結(jié)合中顯著富集;KEGG的分析結(jié)果與GO分析結(jié)果一致,DEGs主要富集到細胞因子-細胞因子-受體相互作用,癌癥中的轉(zhuǎn)錄失調(diào),細胞色素P450對外來生物的代謝,化學(xué)致癌和蛋白質(zhì)的消化等代謝途徑。進一步通過PPI網(wǎng)絡(luò)和Cytoscape模塊化分析進行胃癌預(yù)后關(guān)鍵基因的挖掘,對核心DEGs再進行生存驗證分析和GEPIA驗證,共確定了17個DEGs可以作為胃癌預(yù)后不良的重要調(diào)控節(jié)點,其中F5、FGG、ALB、HP和SERPIEN1顯著上調(diào)表達。生存分析驗證特別是SERPIEN1與MATN3的存活率極顯著相關(guān),GEPIA驗證發(fā)現(xiàn)其中SERPINE1、F5和AGT的表達量均顯著升高,而FGG和ALB的表達量顯著降低,最后通過DAVID用于KEGG途徑富集,并發(fā)現(xiàn)FGG、SERPINE1和F5 3個基因顯著富集于補體和凝血級聯(lián)代謝途徑。
Serpin家族E成員1(SERPINE1)也稱為纖溶酶原激活物抑制劑1,許多研究已經(jīng)發(fā)現(xiàn)SERPINE1在癌癥中的異常表達,例如SERPINE1被發(fā)現(xiàn)在結(jié)直腸癌中高表達并且與腫瘤侵襲性和侵襲性有關(guān)[17],在許多其他癌癥中也發(fā)現(xiàn)了SERPINE1的過度表達,包括食道癌[18],膀胱癌[19],頭頸癌[20],膠質(zhì)瘤[21]和肺癌[22]等,它可被視為預(yù)后不良的生物標志物,本研究驗證了這一理論,SERPINE1同樣可以被視為胃癌預(yù)后不良的生物標記物。
母系蛋白3(Matrilin-3,MATN3)屬于Matrilin家族成員之一,主要存在于原代軟骨細胞中,能夠調(diào)節(jié)細胞增殖和分化過程,是軟骨細胞分化狀態(tài)的標志物[23],MATN3基因突變可能導(dǎo)致軟骨疾病的發(fā)生[24],有關(guān)MATN3基因在惡性腫瘤的研究也越來越多,其中MATN3基因的表達與骨肉瘤患者預(yù)后相關(guān)[25],MATN3作為關(guān)鍵基因之一參與了胰腺導(dǎo)管腺癌的細胞粘附過程,并且與鈣離子結(jié)合相關(guān)[26]。本研究同樣發(fā)現(xiàn)MATN3的高表達可以用作預(yù)測胃癌患者預(yù)后不良。
纖維蛋白原γ鏈(Fibrinogen gamma chain,FGG),是組成纖維蛋白原的成分之一。FGG失調(diào)也經(jīng)常在許多惡性腫瘤類型中檢測到,如食管鱗狀細胞癌[27]和前列腺癌[28],有些研究中發(fā)現(xiàn)結(jié)直腸癌[29]、胰腺癌[30]和喉癌[31]等也與FGG的表達有關(guān)。本研究同樣發(fā)現(xiàn)FGG的高表達可以用作預(yù)測胃癌患者預(yù)后不良。
綜上,FGG、SERPINE1和F5 3個基因顯著富集于補體和凝血級聯(lián)代謝途徑,推測胃癌的預(yù)后不良與補體和凝血級聯(lián)代謝途徑密切相關(guān)。