邱潔萍 孫夢雨 左瑞東 王耀群 陳 博
(安徽醫科大學第一臨床醫學院,合肥 230000)
胃癌是目前具有侵襲性和致死性的惡性腫瘤之一[1]。大多數胃癌是在晚期被診斷出來的[2]。盡管針對胃癌的療效有所改善,但晚期胃癌患者5年生存率仍低于20%,而如果早期發現胃癌,其5年生存率可高達90%,所以,胃癌的早期診斷十分重要[3,4]。研究表明,許多生化分子標志物參與腫瘤的發生發展,可用于腫瘤的早期篩查[5]。因此,有必要進一步發掘胃癌發生發展過程中新的、特異性高的診斷標志物。近年來,生物信息學已成為癌癥基因表達譜數據挖掘的一種有效工具[6]。本研究從GEO數據庫中下載原始數據,通過比較胃癌樣本與正常組織樣本的基因表達譜篩選出差異表達基因(differentially expressed genes,DEGs),對其進行生物信息學分析并結合Kaplan-Meier plotter數據庫進行預后分析,為胃癌的診斷、靶向藥物研究及預后評價提供有價值的信息。
1.1資料 基因芯片數據的獲取:根據樣本來自人胃組織標本、有病例對照組、樣本數≥20這3個條件,從NCBI的GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)中篩選出3套胃癌數據集(GSE54129、GSE29998、GSE79973),以保證數據集的代表性。其中數據集GSE79973、GSE54129基于GPL570平臺,數據集GSE29998基于GPL6947平臺。GSE54129包含癌組織21例,正常組織111例;GSE79973包含癌組織和正常組織各10例;GSE29998包含癌組織50例,正常組織49例。
1.2方法
1.2.1DEGs的篩選 利用GEO數據庫自帶的在線分析工具GEO2R處理原始數據,將數據分為胃癌組和正常組進行分析。DEGs篩選標準:①校正后P<0.05;②|logFC|>1.5。將logFC<1.5的基因作為上調差異基因(UDEGs),logFC<-1.5的基因作為下調差異基因(DDEGs)。使用在線工具Draw Venn diagram(bioinformatics.psb.ugent.be/webtools/Venn/)確定3組數據的相交部分。
1.2.2DEGs的基因本體論(gene ontology,GO)富集分析與京都基因與基因組百科全書(the kyoto encyclopedia of genes and genomes,KEGG)通路分析 GO分析是基因功能富集研究的常用方法,基因功能被分成生物過程(biological process,BP)、分子功能(molecular function,MF)和細胞組分(cellular component,CC)3類。KEGG是1個整合了大量關于基因組、疾病、生物途徑和系統功能信息的數據庫。本研究采用David(https://david.ncifcrf.gov/)數據庫對篩選出的DEGs進行GO和KEGG分析。
1.2.3蛋白互作網絡的構建和核心基因的篩選 利用String(http://string-db.org/)數據庫構建差異基因的蛋白互作網絡(PPI),互作評分>0.4作為閾值條件。將PPI網絡導入Cytoscape軟件進行可視化,計算節點的連通度。具有較高連通度的節點在疾病發生發展過程中具有更加重要的意義。本研究選取連通度前10位的DEGs作為核心基因進行后續預后分析對象。
1.3核心基因的預后分析 使用Kaplan-Meier plotter(http://kmplot.com/analysis/)數據庫評估核心基因的預后價值。每個基因根據mRNA表達值自動將癌癥患者分為高表達和低表達兩組進行比較,P<0.05為差異具有統計學意義。
2.1篩選DEGs 經篩選后得到DEGs 2 773個,其中包括1 423個UDEGs,1 350個DDEGs。3個數據集均有交集的基因共61個,其中上調基因26個,下調基因35個(見表1、2)。

表1 胃癌上調差異表達基因Tab.1 UDEGs in gastric cancer

表2 胃癌下調差異表達基因Tab.2 DDEGs in gastric cancer
2.2胃癌DEGs的生物過程分析 GO富集分析顯示,胃癌UDEGs主要分布在細胞外區、蛋白質細胞外基質、細胞外基質等組織,參與了細胞黏附、生物黏附、防御反應等生物過程,主要有細胞外基質結構成分、糖胺聚糖結合等分子功能;胃癌DDEGs主要分布在細胞頂端部分、細胞外區域等組織,參與消化、脂質分解、金屬離子反應等生物學過程,主要有類固醇結合、輔酶結合等分子功能。表3、4列出了P值最小的前10位上調及下調差異基因的GO分析結果。

表3 胃癌上調差異表達基因的GO分析Tab.3 GO analysis of UDEGs in gastric cancer

表4 胃癌下調差異表達基因的GO分析Tab.4 GO analysis of DDEGs in gastric cancer
2.3胃癌DEGs參與的信號通路分析 由KEGG分析得到的P值最小的前10位顯著富集的UDEGs和DDEGs路徑如表5、6所示。UDEGs在黏著斑、ECM受體相互作用、白細胞經內皮遷移等信號途徑中高表達,而DDEGs在細胞色素P450對異種生物的代謝、藥物代謝、視黃醇代謝等通路中富集表達。

表5 胃癌上調差異表達基因通路富集分析Tab.5 Enrichment analysis of UDEGs pathways in gastric cancer

表6 胃癌下調差異基因通路富集分析Tab.6 Enrichment analysis of DDEGs pathways in gastric cancer
2.4PPI網絡構建和核心基因鑒定 利用String數據庫預測DEGs間的相互作用,并將61個在3個數據集中都差異表達的DEGs的信息導入Cytoscape軟件進行可視化研究。PPI網絡共涉及61個節點和105條邊,如圖1所示。選取PPI網絡中連通度排序前10的為核心基因。結果表明,最具代表性的基因為COL1A1,連通度為18,其次分別為COL1A2、BGN、THBS2、COL5A2、CDH11、COL5A1、COL12A1、COL6A3、TIMP1。見圖1、表7。

圖1 胃癌差異表達基因編碼蛋白作用網絡圖Fig.1 Protein-protein interaction network for products of DEGs in gastric cancerNote:Each dot represents a protein,and interaction between proteins is indicated by a line.Orange represents UDEGs,and green represents DDEGs.Circle size is for connectivity.
2.5核心基因的預后分析 用Kaplan-Meier plotter進行預后分析,對于每個基因根據mRNA表達值自動將癌癥患者分為高表達和低表達兩組進行比較,P<0.05對胃癌患者總體生存率具有顯著影響。在Kaplan-Meier繪圖儀平臺上共有876例GC患者可用于分析總生存率。分析結果顯示,除COL5A2的上調(P=0.187 5)對胃癌患者總體存活率無顯著影響,其余9個核心基因(COL1A2、BGN、THBS2、COL1A1、CDH11、COL5A1、COL12A1、COL6A3、TIMP1)的上調差異表達均顯著影響胃癌患者的總體生存率。見圖2、表7。

表7 核心基因的連通度及探針選擇Tab.7 Degree and probe selection of core genes

圖2 胃癌核心基因的預后分析Fig.2 Prognostic analysis of core genes in gastric cancer
胃癌是中國地區癌癥患者死亡的重要原因之一,及早進行篩查和診斷治療具有重要意義。因此,探究胃癌發生發展過程中的潛在診療靶點十分必要。
本研究從GSE54129、GSE29998、GSE79973 3個數據集中共篩選出61個在3個數據集中差異表達的基因,其中有7個差異基因屬于膠原蛋白(COL)家族,且COL1A1、COL1A2、COL5A1、COL5A2、COL12A1、COL6A3均為連通度排名前10的核心基因,這表明膠原蛋白基因與胃癌的侵襲和進展關系密切,是胃癌的潛在靶點。研究表明膠原蛋白參與腫瘤細胞的黏附和細胞外基質(extracellular matrix,ECM)的形成[7]。COL1A1是Ⅰ型膠原的主要成分,研究顯示COL1A1在癌組織和細胞中的表達上調[8]。Wang等[9]認為miR-129-5p通過抑制COL1A1抑制胃癌細胞的侵襲和增殖。以往的生物信息學研究表明,COL5A1是胃癌的一個關鍵因素[10]。COL6A3通過調節hippo和wnt信號來促進腫瘤生長,且COL6A3是結直腸癌的特異性預后標志物,提示COL6A3也可能是胃癌的潛在靶點[11,12]。據報道,COL12A1與多種癌癥有關,如卵巢癌、乳腺癌和結腸癌[13-15]。Duan等[16]的研究顯示,COL12A1的高表達與胃癌患者預后不良顯著相關,這提示COL12A1也可能是胃癌的1個新的潛在標志物。
血小板反應蛋白(thrombospondins,THBS)是一種細胞外糖蛋白,在細胞間相互作用中發揮多種作用[17]。THBS2被報道與調節細胞凋亡、細胞增殖和黏附相關[18]。有研究顯示,THBS2高表達與胃癌細胞株低增殖率相關[19]。所以THBS2可能是胃癌潛在的預后因子。
細胞外基質(ECM)是一種蛋白質復合物,在細胞遷移和增殖以及癌癥發展中發揮重要作用[20]。BGN作為ECM的一個組成部分,被認為是癌細胞獲得遷移和侵襲能力的途徑[21]。有研究顯示,在GC組織中BGN的表達與相鄰正常胃組織中BGN相比明顯上調[22]。這些研究結果顯示,BGN是胃癌的1個關鍵因素,可作為胃癌早期診斷標志物。
CDH11屬于鈣黏著蛋白超家族,介導同種細胞間黏附[23]。Kalluri等[24]報道CDH11與EMT有關,這表明CDH11在癌癥進展中起著關鍵作用。Chen等[25]的研究表明,CDH11可能調節生物黏附,與GC的進展和預后相關。以上研究成果提示CDH11可能是胃癌早期診斷的1個新型標志物。
研究表明,組織抑制劑基質金屬蛋白酶1(TIMP1)在細胞增殖和抗凋亡的調節中發揮重要作用[26-28]。Wang等[29]的研究顯示,高TIMP1表達水平可能是胃癌復發的不良預后因素。以上結果顯示,TIMP1可能是胃癌篩查、診斷、預后和監測的潛在生物標志物。