董金鳳 鄭華川
承德醫學院附屬醫院中心實驗室,河北省承德市 067000
胃癌是全球最常見和癌癥致死率最高的疾病之一。尋找胃癌生物標志物對早期胃癌患者的確診、預后改善和生存率的提高具有重要意義[1]。 近年來,微陣列技術和生物信息學分析被廣泛應用于尋找腫瘤診斷、治療及預后的生物標志物[2]。本研究從GEO數據庫下載GSE79973和GSE103236兩數據集以獲得胃癌組織和鄰近非癌組織的差異表達基因(Differentially expressed genes,DEGs),并進行分析。報道如下。
1.1 下載數據集 從GEO數據庫(http://www.ncbi.nlm.nih.gov/geo)下載胃癌的基因表達譜數據集GSE79973和GSE103236。GSE79973數據集包含10個胃癌組織樣本和10個匹配的鄰近非腫瘤組織樣本;GSE103236數據集包含10個胃癌組織樣本和9個匹配的鄰近非腫瘤組織樣本。
1.2 篩選差異基因 通過GEO2R在線工具分析兩數據集中胃癌樣本和鄰近非癌組織樣本的DEGs,adj.P<0.05和|logFC|>1被作為識別DEGs的標準,并將uDEGs定義為上調基因(up-regulated DEGs),dDEGs定義為下調基因(down-regulated DEGs),并使用仙桃在線數據平臺(https://www.xiantao.love)繪制火山圖。然后,通過維恩圖在線工具(https://www.bioinformatics.com.cn)識別兩個數據集之間重疊的DEGs,并繪制維恩圖。
1.3 GO和KEGG富集分析 為更好地探索兩數據集重疊DEGs的生物學意義,通過仙桃在線數據平臺進行GO和KEGG富集分析。GO主要用于識別生物學功能, KEGG主要用于富集信號通路。
1.4 構建PPI網絡和篩選hub基因 將兩個數據集之間重疊的DEGs導入STRING在線工具(https://string-db.org)獲得重疊 DEGs編碼蛋白的PPI網絡,“minimum required interaction score”為“medium confidence (0.4)”被作為限制條件。通過 Cytoscape 軟件(3.9.1版)可視化DEGs基因的PPI網絡,cytoHubba插件篩選PPI網絡中連接度前十的hub基因。
1.5 hub基因的表達差異分析和生存分析,以及ROC曲線分析 使用GEPIA數據平臺(http://gepia.cancer-pku.cn)的TCGA-GTEx數據庫分析hub基因在胃癌樣本和鄰近非癌樣本的表達差異。利用仙桃在線數據平臺的TCGA在線數據庫繪制hub基因的ROC曲線。最后,通過Kaplan-Meier Plotter在線數據平臺(http://kmplot.com/analysis)繪制hub基因的總體生存率(Overall survival,OS)生存曲線。
2.1 差異基因的識別 在GSE79973數據集中,487個基因被上調,919個基因被下調(見圖1a)。在GSE103236數據集中,331個基因被上調,170個基因被下調(見圖1b)。兩數據集重疊的DEGs有156個,其中包括98個上調基因和58個下調基因(見圖1c)。

圖1 兩數據集DEGs的篩選與識別
2.2 重疊DEGs的GO和KEGG富集分析 為進一步探索重疊DEGs在胃癌中的生物學功能,我們通過仙桃在線數據平臺對重疊DEGs進行GO和KEGG富集分析。uDEGs的GO分析主要富集在細胞外結構組織、細胞外基質組織、膠原蛋白纖維組織、含膠原蛋白的細胞外基質、內質網腔、膠原蛋白三聚體、細胞外基質結構成分、膠原蛋白結合、賦予拉伸強度細胞外基質結構成分(見圖2a)。KEGG分析主要富集在蛋白質消化和吸收、細胞外基質受體相互作用(見圖2a)。而dDEGs的GO分析主要富集在細胞二價無機陽離子穩定、肌肉系統過程、脂質定位、肌肉收縮、p型離子轉運體活性、焦磷酸水解驅動的質子跨膜轉運體活性、兒茶酚胺結合、膽汁酸結合(見圖2b)。dDEGs的KEGG分析主要富集在鈣信號通路、胃酸分泌、組氨酸代謝(見圖2b)。

a b
2.3 構建PPI網絡和篩選hub基因 為了解兩數據集重疊DEGs編碼蛋白之間的關系,利用STRING在線工具構建重疊DEGs的PPI網絡,并通過Cytoscape軟件可視化(見圖3a)。使用Cytohubba插件識別PPI網絡中連接度前十的hub基因,分別是COL1A1、BGN、SPARC、MMP14、LOX、THBS2、TIMP1、SPP1、VCAN、COL5A2(見圖3b),且這10個hub基因均為uDEGs。
2.4 胃癌組織中hub基因的表達分析 我們使用GEPIA數據平臺的TCGA-GTEx數據庫進一步分析了胃癌組織中10個hub基因的mRNA表達水平。結果顯示,這些基因在胃癌組織中的表達水平均顯著高于胃正常組織(P<0.01),見圖4。

a b

圖4 hub基因在胃癌組織中高表達
2.5 評價hub基因的診斷價值 通過仙桃在線數據平臺的在線TCGA數據庫繪制ROC曲線評價hub基因對胃癌的診斷價值(見圖5)。結果顯示,10個hub基因的AUC 均>0.84,均具有一定診斷價值,其中COL1A1、BGN、TIMP1、SPP1、COL5A2>0.9,診斷價值較高。

圖5 hub基因的ROC曲線
2.6 生存分析 為了評估hub基因在胃癌的預后價值,我們通過Kaplan-Meier Plotter在線數據平臺進一步繪制了OS生存曲線(見圖6)。表明10個hub基因均與較差的總體生存率顯著相關 (P<0.01),提示這些基因可能是胃癌預后不良的生物標志物。
胃癌是全球腫瘤死亡的最常見原因之一。早期胃癌可以通過手術根治性切除,腫瘤生物標志物可為早期診斷提供診斷依據,并為分子治療提供靶點[1,3]。
本研究通過生物信息學方法篩選胃癌的生物學標志物。我們分析了GSE79973和GSE103236兩數據集重疊的DEGs,其中uDEGs的GO分析主要與細胞外基質及膠原蛋白相關。細胞外基質由膠原蛋白、纖連蛋白、彈性蛋白、層粘連蛋白、透明質酸、糖胺聚糖等多種成分組成[4]。在正常組織和器官中細胞外基質不僅可以發揮物理支架的作用和介導信號的轉導,還可參與細胞形狀、遷移、存活、增殖等多種細胞生物學行為的調節[5]。當細胞外基質的硬度和剛度發生病理變化時,可通過本身的物理性質和信號通路的激活促進惡性腫瘤細胞增殖、轉移和血管生成的能力,并降低放化療及靶向治療的療效[4]。膠原蛋白是細胞外基質的主要成分,與器官組織的纖維化、細胞外基質硬度增加、促進血管生成和引導腫瘤細胞的遷移和侵襲密切相關[6]。uDEGs的KEGG富集分析顯示與細胞外基質受體相互作用有關。我們通過STRING在線工具和Cytoscape軟件從兩數據集重疊的DEGs中識別的10個hub基因均為uDEGs,提示這些基因可能與細胞外基質成分及其生物學行為密切相關。據報道,細胞外基質在正常胃上皮細胞—癌前病變—胃癌—胃癌進展整個過程均具有促進作用,是胃癌發生和發展的幫兇[7]。利用GEPIA、仙桃、Kaplan-Meier Plotter在線數據平臺分析表明,hub基因在胃癌組織中均顯著上調(P<0.01),具有一定診斷價值(AUC>0.84),并預示其預后不良 (P<0.01)。因此,這10個hub基因可能是診斷胃癌和判斷預后的潛在生物標志物。
研究表明,COL1A1和COL5A2作為膠原蛋白的組成成分在胃癌組織中均高表達,對胃癌細胞的遷移和侵襲有促進作用[8-9]。BGN是一種富含亮氨酸的小蛋白,其高表達與胃癌的淋巴結轉移、血管侵犯、復發率及較差的生存期密切相關[10]。SPARC是一種糖蛋白,在胃癌中高表達,與預后不良顯著相關[11]。然而,有研究顯示SPARC在胃癌中具有抑癌作用,抑制胃癌血管生成、增殖及遷移、侵襲及遠處轉移的能力[12]。基質金屬蛋白酶是細胞外基質的蛋白水解酶,除了在侵襲和轉移中起重要作用,還參與細胞的生長、增殖、凋亡及腫瘤血管生成和免疫逃逸的調節[13]。MMP14是基質金屬蛋白酶家族成員,可通過調控細胞的增殖、侵襲、遷移和凋亡調節胃癌細胞的生長[14]。LOX是一種銅依賴性單胺氧化酶,在彌漫型胃癌細胞中高表達,與胃癌遠處轉移相關[15]。THBS2是血小板反應蛋白家族成員,在胃癌組織中表達上調,其表達下調對胃癌細胞的增殖、遷移和侵襲有抑制作用,對凋亡有促進作用[16]。TIMP-1是一種金屬蛋白酶抑制劑,據報道TIMP-1陽性患者的復發率明顯高于陰性患者,并且是不良預后的標志物[17]。SPP1(也稱骨橋蛋白)是一種基質糖蛋白,在胃癌組織中顯著高表達,其在血漿中的表達水平與胃癌向鄰近組織的浸潤和轉移,以及預后不良密切相關[18]。VCAN是一種蛋白多糖,參與細胞外基質的組成,其高表達與晚期TNM分期、淋巴結轉移、浸潤深度和腫瘤分級相關,對胃癌細胞的增殖、遷移和侵襲具有促進作用[19]。因此,我們篩選出的10個hub基因均與胃癌的發生發展密切相關。
綜上所述,本研究應用生物信息學方法從胃癌基因表達譜數據集中篩選的10個hub基因COL1A1、BGN、SPARC、MMP14、LOX、THBS2、TIMP1、SPP1、VCAN、COL5A2在胃癌中高表達,與胃癌的生物學行為及不良預后密切相關,可能是胃癌診斷和預后不良的潛在生物標志物。