




[摘要]目的篩選和鑒定胃癌預后相關的關鍵基因和通路,探討胃癌發生發展的機制。方法從基因表達數據庫中下載胃癌基因表達譜芯片數據集(GSE2685、GSE29272),通過在線分析工具GEO2R對胃癌組織和正常組織中的差異表達基因(DEGs)進行篩選;通過基因功能注釋數據庫(DAVID)進行功能富集分析;運用交互基因檢索工具數據庫(STRING)和Cytoscape軟件分析DEGs可編碼蛋白之間的相互作用網絡;利用在線生存分析數據庫(KM-plotter)分析核心候選基因和胃癌患者預后的相關性;通過免疫組化染色驗證候選基因在胃癌組織中表達情況,并分析與胃癌臨床病理參數及預后的相關性;采用Cox風險回歸模型分析患者總體生存率的影響因素。結果通過數據庫篩選得到5個與腫瘤分期及預后相關的DEGs:COL1A1、COL1A2、COL3A1、COL5A1和TFF2;免疫組化染色結果顯示,COL3A1的表達水平與患者年齡、腫瘤分化程度、脈管癌栓、淋巴結轉移、腫瘤分期及血管浸潤有關(χ2=5.480~13.830,P<0.05);COL3A1蛋白在胃癌組織中的表達升高與胃癌患者預后(總體生存率)顯著相關(P<0.05)。單因素分析顯示,腫瘤脈管癌栓、病理分化程度、分期、COL3A1表達水平與患者的總體生存率顯著相關(P<0.05);將單因素分析中具有統計學意義的指標納入多因素分析,結果顯示,COL3A1高表達與患者的總體生存率顯著相關(P<0.05)。結論COL3A1可能是胃癌診斷和預后的潛在靶標。
[關鍵詞]胃腫瘤;預后;COL3A1基因;基因表達;計算生物學;數據庫,遺傳學
[中圖分類號]R735.2;R319.1[文獻標志碼]A
Bioinformatics identification of key genes associated with the prognosis of gastric cancer" LIU Zhao, LIU Rui, FAN Haijing, SUN Hui, LYU Jing, ZHANG Zhen (Radiotherapy Department, Qingdao Central Hospital, University of Health and Rehabilitation Sciences, Qingdao 266042, China)
[ABSTRACT]ObjectiveTo screen and identify key genes and pathways associated with the prognosis of gastric cancer, and to investigate the mechanisms of the development and progression of gastric cancer. MethodsMicroarray datasets (GSE2685, GSE29272) of gastric cancer gene expression profile were downloaded from the gene expression omnibus, and the online analytical tool GEO2R was used to screen for differentially expressed genes (DEGs) between gastric cancer tissue and normal tissue. The Database for Annotation, Visualization, and Integrated Discovery was used for functional enrichment analysis. The Search Tool for the Retrieval of Interacting Genes and Cytoscape software were used to analyze the interaction network of the proteins encoded by the DEGs. The online survival analysis database (KM-plotter) was used to investigate the association between core candidate genes and the prognosis of gastric cancer patients. Immunohistochemical staining was used to verify the expression of candidate genes in gastric cancer tissue and analyze their association with the clinicopathological parameters and prognosis of gastric cancer. The Cox proportional hazards regression model was used to analyze the influencing factors for the overall survival of patients. ResultsDatabase screening obtained five DEGs that were associated with tumor staging and prognosis, i.e., COL1A1, COL1A2, COL3A1, COL5A1, and TFF2, and immunohistochemical staining showed that the expression level of COL3A1 was associated with tumor differentiation and staging, vascular tumor thrombus, lymph node metastasis, and vascular invasion (χ2=5.480-13.830,Plt;0.05). The increase in the expression of COL3A1 in gastric cancer tissue was significantly associated with the prognosis (overall survival rate) of gastric cancer patients (Plt;0.05). The univariate analysis showed that vascular tumor thrombus, the degree of pathological differentiation, staging, and the expression level of COL3A1 were significantly associated with the overall survival rate of patients (Plt;0.05). The indicators with statistical significance in the univariate analysis were included in the multiva-riate analysis, and the results showed that the high expression of COL3A1 was significantly associated with the overall survival rate of patients (Plt;0.05). ConclusionCOL3A1 can serve as a potential biomarker for diagnosis and prognosis of gastric cancer.
[KEY WORDS]Stomach neoplasms; Prognosis; COL3A1 gene; Gene expression; Computational biology; Databases, genetic
近年來胃癌的發病率呈現逐年增加的趨勢。盡管早期的胃癌患者可進行腫瘤切除手術,但生存情況并不樂觀,因此胃癌的早期確診和及時治療,是提高患者預后的關鍵,其中明確胃癌中異常表達基因和診斷及預后相關生物學標志物,對胃癌的早期精準診療具有重要意義。某些基因表達模式或表觀遺傳學修飾的異常會導致相關分子通路的改變,與胃癌的發生發展密切相關[1-2]。而應用數據挖掘技術篩選胃癌組織中的差異表達基因(DEGs),進而結合臨床資料對這些基因的診斷及預后價值進行評估,是目前鑒定胃癌相關標志物的有效手段[3-4]。
本研究采用GEO數據庫中胃癌組織表達譜芯片數據集,獲取胃癌組織與正常組織DEGs,并進行GO和KEGG分析,從而篩選出可能與胃癌發生發展相關的DEGs;通過構建蛋白互作網絡(PPI)篩選核心基因,最后在人體病理學樣本中進行驗證,明確目的基因的臨床病理學意義。通過探討胃癌發生發展的具體機制,為胃癌的早診斷、早治療和良好預后提供理論支持。
1材料與方法
1.1生物信息學分析
從GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)中下載胃癌表達譜芯片數據(GSE2685、GSE29272);使用在線分析工具GEO2R查找上述基因芯片中胃癌組織與正常組織之間的DEGs,根據調整值Val<0.05,|log2(FC)|>1,確定胃癌組織中顯著上調或者顯著下調的DEGs(差異倍數≥1.5,P<0.05)。所有差異基因結果均以文本格式下載,隨后在Morpheus中進行層次聚類分析。在基因功能注釋在線網絡工具(DAVID,https://david.ncifcrf.gov/)中[5],使用GO功能注釋對上述DEGs進行注釋,包括生物學過程、細胞成分組成、分子功能,選擇固定P值小于0.05的GO功能注釋,進行KEGG通路富集分析。采用STRING數據庫(https://string-db.org/)構建DEGs的PPI,將DEGs輸入網站,選擇人源物種,結合指數>0.4,然后將STRING數據庫構建的PPI導入Cytoscape軟件[6]中可視化,運用其插件MCODE將網絡分為不同的功能模塊,根據插件MCODE評分篩選蛋白互作網絡中的關鍵模塊。使用GEPIA數據庫[7]評估目標DEGs在癌組織與正常組織中的表達差異,并評估其在不同臨床分期癌組織中的表達差異[8-9]。將目標基因輸入到Kaplan-Meier(KM)-plotter數據庫當中,收集數據然后進行生存分析。使用KM生存曲線進行靶標基因的表達水平與患者預后的相關性分析。
1.2樣本的免疫組化染色分析
選取2016年10月-2018年10月于青島大學附屬醫院行手術治療的90例胃癌患者的新鮮癌組織及癌旁組織標本,定制組織芯片。納入標準:①均為術后經病理學檢查確診者;②臨床病理分型為腺癌者;③術前未接受過放化療者;④臨床資料及隨訪資料完整者。排除標準:①患有心、肝、腎等重要臟器的嚴重功能損害及其他疾病者;②合并有其他腫瘤者。通過免疫組織化學染色來評估組織芯片中COL3A1蛋白的表達情況,后進行染色結果獨立評估,分別由兩名高年資病理醫師完成。積分數=染色強度積分×陽性細胞百分比積分。將所有患者按照積分數進行分組,0~4分為COL3A1低表達組,5~12分為COL3A1高表達組[10]。收集患者的一般臨床資料,包括性別、年齡及腫瘤位置、大小、分化程度、分期,以及脈管癌栓情況、淋巴結是否轉移、是否存在遠處轉移等。
1.3隨訪
所有90例患者均通過電話隨訪至2020年10月30日。至隨訪結束時,共存活13例,死亡77例。存活時間定義為從手術日到隨訪結束或患者死亡的時間。
1.4統計學處理
統計分析采用SPSS 24.0軟件。兩組間計數資料的比較采用χ2檢驗,若因格子理論頻數<1,應用確切概率法計算概率;使用KM生存曲線分析患者的預后情況,采用Pearson卡方檢驗、連續性校正卡方檢驗分析胃癌患者COL3A1表達蛋白水平與臨床病理特征的關系;采用Cox風險回歸模型分析患者總體生存的影響因素。以P<0.05為差異有統計學意義。
2結果
2.1胃癌患者預后相關DEGs篩選
從GSE2685、GSE29272數據集中獲得324個腫瘤組織與正常組織的DEGs,其中有180個上調,144個下調。選取固定P值小于0.05的且富集程度最高的前5條GO功能注釋,顯示DEGs的功能主要富集于細胞外層、外基質及膠原纖維組織中。對GO功能注釋的結果進行KEGG通路富集分析,顯示富集程度最高的通路有9條,其中排在前3位的分別為細胞黏附因子與受體基質相互作用通路、PI3K-AKT信號通路和ECM受體相互作用通路。應用STRING在線工具對DEGs構建PPI,相互作用評分>4,去除無互作連線的節點后得到94個節點蛋白的相互作用關系。MCODE分析結果獲得3個相對穩定的模塊,其中核心基因有10個,分別為COL1A1、COL1A2、COL3A1、COL5A1、COL18A1、MT1G、MTIF、MT1H、TFF2以及GIF。后在KM-plotter數據庫中進行生成分析結果顯示,COL1A1、COL1A2、COL3A1、COL5A1、COL18A1和TFF2基因在胃癌組織中的表達水平與胃癌患者的總體生存較差有關。
應用GEPIA數據庫驗證其在胃癌不同分期中表達情況,結果顯示COL1A2、COL1A1、COL3A1三個核心基因與胃癌分期相關,其中COL3A1的P值最小,因此后續選擇COL3A1進一步驗證其與胃癌臨床病理參數以及預后的相關性。
2.2COL3A1在胃癌組織中的表達及其與患者臨床病理特征的相關性
90例胃癌患者腫瘤組織及癌旁組織的免疫組化結果顯示,胃癌組織中COL3A1的表達高于癌旁組織,染色陽性部位位于胞漿(圖1)。進一步分析COL3A1表達與胃癌患者臨床特征的相關性發現,COL3A1的表達水平與患者年齡及腫瘤分化程度、脈管癌栓、淋巴結轉移、腫瘤分期、血管浸潤有關(χ2=5.480~13.830,P<0.05)。COL3A1表達水平與患者性別及腫瘤位置等無關(P>0.05)。見表1。
2.3胃癌組織中COL3A1蛋白的表達水平與患者預后的相關性
KM生存曲線分析的結果顯示,胃癌組織當中COL3A1蛋白表達水平與患者的總體生存率有關(P<0.05)。見圖2。
2.4影響胃癌患者術后腫瘤復發和預后的獨立危險因素分析
在胃癌患者總體生存率影響因素的單因素分析當中,COL3A1高表達的對照為COL3A1低表達,年齡≥65歲的對照為年齡<65歲,腫塊大小<3 cm的對照為腫塊大小≥3 cm,中低分化程度的對照為高分化,有脈管癌栓的對照為無脈管癌栓,胃竇的對照為胃底體,Ⅲ~Ⅳ期的對照為Ⅰ~Ⅱ期,有血管浸潤的對照則為無血管浸潤。結果顯示,腫瘤中低分化程度、Ⅲ~Ⅳ期、有脈管癌栓以及COL3A1蛋白高表達與患者總體生存率顯著相關(P<0.05)。
見表2。將上述比較有統計學意義的指標納入多因素分析,結果顯示COL3A1蛋白高表達是影響患者預后的獨立危險因素(P<0.05)。見表3。
3討論
胃癌是一種發病率較高但治療手段相對有限且臨床預后不佳的惡性腫瘤,因此探究新的腫瘤標志物對患者的預后顯得尤為重要。近年來基因芯片技術以及生物信息學分析已廣泛應用于惡性腫瘤診斷、治療以及預后評估[11-12]。
本研究GO功能注釋分析顯示,腫瘤組織和正常組織的DEGs主要在細胞外層、外基質組織和膠原纖維組織中發揮作用,提示DEGs富集的通路及功能可能主要作用于腫瘤微環境[13]。腫瘤微環境與腫瘤免疫治療密切相關,同時也在腫瘤的復發和轉移方面也發揮著重要的作用。
為了進一步闡明兩種組織中DEGs的意義,本研究使用Cytoscape軟件構建DEGs的PPI,并獲得了核心基因,其中COL3A1和胃癌預后之間有著密切的關系。膠原蛋白α-1(Ⅲ)鏈也稱為Ⅲ型膠原蛋白的α1鏈,是一種在人類中由COL3A1基因編碼的蛋白質,需要3個α1鏈來形成具有長三螺旋結構域的Ⅲ型膠原分子。Ⅲ型膠原是一種細胞外基質蛋白,由細胞合成為前膠原蛋白,其是空心器官(例如大血管、子宮)的主要結構成分[14-15]。關于胃癌的一些研究表明,膠原蛋白的降解水平增高是腫瘤細胞進入周圍組織的關鍵因素[16-17]。過去的一些研究證實COL3A1蛋白過表達存在于多種腫瘤中。結腸癌組織中COL3A1的蛋白表達水平與正常組織相比明顯增高,而且其表達水平會隨著腫瘤細胞的惡化程度的增高而升高,提示COL3A1蛋白可能具有促進腫瘤生長的功能。一項針對膠質瘤患者組織樣本進行的檢測分析結果顯示,患者組織樣本中的COL3A1蛋白的表達水平也有顯著升高[18]。BRISSON等[19]研究通過建立乳腺癌小鼠的模型發現,COL3A1蛋白表達降低會抑制腫瘤細胞的黏附、侵襲和遷移。WANG等[20]對COL3A1表達水平與結腸癌的關系進行了分析,研究發現在結直腸癌細胞中COL3A1蛋白高表達也是影響患者生存期的危險因素[21-22]。說明了COL3A1有望被用作結直腸癌患者預后的評估指標之一。上述研究結果與本研究的結果均提示COL3A1蛋白在惡性腫瘤中的表達水平會升高。但是,COL3A1的表達水平與胃癌預后及生物行為之間的確切關系仍存在爭議。
本研究通過對胃癌標本進行檢測,發現胃癌組織中COL3A1蛋白的表達水平顯著高于正常組織,而且腫瘤組織中的COL3A1蛋白表達水平與患者年齡、腫瘤分化程度、脈管癌栓、淋巴結轉移、腫瘤分期及血管浸潤有關。王頡等[23]對結直腸癌組織中PKB/mTOR通路蛋白水平和COL3A1的變化進行了檢測,結果與本研究中COL3A1基因主要富集的通路一致。
本研究進一步對90例胃癌患者的腫瘤組織及其癌旁組織樣本進行免疫組織化學染色,以評估COL3A1蛋白的表達情況。結果表明,與癌旁組織相比,胃癌組織中的COL3A1蛋白表達水平顯著升高,且COL3A1的表達升高與脈管癌栓、血管浸潤深度、淋巴結轉移數量等預后不良因素有著密切的聯系。提示胃癌組織中COL3A1蛋白表達水平升高可能是影響患者預后的危險因素之一,也可能是胃癌診斷的標志物之一,但還需進一步研究驗證。
綜上所述,胃癌患者腫瘤組織中的COL3A1蛋白表達水平顯著高于癌旁組織,并且胃癌組織當中的COL3A1的表達水平與腫瘤分化程度、脈管癌栓、淋巴結轉移數量、血管浸潤深度有關,與患者的總體生存率也顯著相關;COL3A1高表達是影響患者預后的危險因素。提示COL3A1可能是胃癌診斷和預后的潛在靶標。
倫理批準和知情同意:本研究涉及的所有試驗均已通過青島大學附屬醫院醫學倫理委員會審核批準(文件號QYFYWZLL36735)。所有試驗過程均遵照《人體醫學研究的倫理準則》的條例進行。受試對象或其親屬已經簽署知情同意書。
作者聲明:劉釗、張真、劉睿參與了研究設計;劉釗、孫卉、范海靜、呂靜參與了論文的寫作和修改。所有作者均閱讀并同意發表該論文,且均聲明不存在利益沖突。
[參考文獻]
[1]FAGERBERG L, HALLSTRM B M, OKSVOLD P, et al. Analysis of the human tissue-specific expression by genome-wide integration of transcriptomics and antibody-based proteomics[J]. Mol Cell Proteomics, 2014,13(2):397-406.
[2]VAUPEL P. Metabolic microenvironment of tumor cells: A key factor in malignant progression[J]. Exp Oncol, 2010,32(3):125-127.
[3]GAN B L, ZHANG L J, GAO L, et al. Downregulation of miR-224-5p in prostate cancer and its relevant molecular mec-hanism via TCGA, GEO database and insilico analyses[J]. Oncol Rep, 2018,40(6):3171-3188.
[4]WANG Y M, XUE D, LI Y W, et al. The long noncoding RNA MALAT-1 is a novel biomarker in various cancers: A meta-analysis based on the GEO database and literature[J]. J Cancer, 2016,7(8):991-1001.
[5]HUANG D W, SHERMAN B T, LEMPICKI R A. Systema-tic and integrative analysis of large gene lists using DAVID bioinformatics resources[J]. Nat Protoc, 2009,4(1):44-57.
[6]SZKLARCZYK D, FRANCESCHINI A, WYDER S, et al. STRING v10:Protein-protein interaction networks, integrated over the tree of life[J]. Nucleic Acids Res, 2015,43(Database issue):D447-D452.
[7]TANG Z F, LI C W, KANG B X, et al. GEPIA: A web ser-ver for cancer and normal gene expression profiling and interactive analyses[J]. Nucleic Acids Res, 2017,45(W1):W98-W102.
[8]CERAMI E, GAO J J, DOGRUSOZ U, et al. The cBio cancer genomics portal: An open platform for exploring multidimensional cancer genomics data[J]. Cancer Discov, 2012,2(5):401-404.
[9]GAO J J, AKSOY B A, DOGRUSOZ U, et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal[J]. Sci Signal, 2013,6(269):pl1.
[10]陳碩,張明軍,王濤. KIRREI在胃癌中的表達極其對胃癌血管生成的影響[J]. 安徽醫科大學學報, 2023,58(2):248-252.
[11]LNCZKY A, NAGY , BOTTAI G, et al. miRpower: A web-tool to validate survival-associated miRNAs utilizing expression data from 2 178 breast cancer patients[J]. Breast Cancer Res Treat, 2016,160(3):439-446.
[12]JIANG P, LIU X S. Big data mining yields novel insights on cancer[J]. Nat Genet, 2015,47(2):103-104.
[13]TANG H D, QIAO J, FU Y X. Immunotherapy and tumor microenvironment[J]. Cancer Lett, 2016,370(1):85-90.
[14]COLE W G. Collagen genes: Mutations affecting collagen structure and expression[J]. Prog Nucleic Acid Res Mol Biol, 1994,47:29-80.
[15]EXPOSITO J Y, VALCOURT U, CLUZEL C, et al. The fibrillar collagen family[J]. Int J Mol Sci, 2010,11(2):407-426.
[16]GAO Y F, ZHU T, CHEN J, et al. Knockdown of collagen α-1(Ⅲ) inhibits glioma cell proliferation and migration and is regulated by miR128-3p[J]. Oncol Lett, 2018,16(2):1917-1923.
[17]SHU H, Junfeng, LV, Q W, et al. Identification of key genes and circular RNAs in human gastric cancer. Medical Science[J]. Monitor International Medical Journal of Experimental amp; Clinical Research, 2019.
[18]LIU X K, WU J R, ZHANG D, et al. Identification of potential key genes associated with the pathogenesis and prognosis of gastric cancer based on integrated bioinformatics analysis[J]. Front Genet, 2018,9:265.
[19]BRISSON B K, MAULDIN E A, LEI W W, et al. Type Ⅲ collagen directs stromal organization and limits metastasis in a murine model of breast cancer[J]. Am J Pathol, 2015,185(5):1471-1486.
[20]WANG X Q, TANG Z X, YU D, et al. Epithelial but not stromal expression of collagen alpha-1(Ⅲ) is a diagnostic and prognostic indicator of colorectal carcinoma[J]. Oncotarget, 2016,7(8):8823-8838.
[21]SHEN T D, GAO K, MIAO Y, et al. Exogenous growth factors enhance the expression of cola1, cola3, and elastin in fibroblasts via activating MAPK signaling pathway[J]. Mol Cell Biochem, 2018,442(1-2):203-210.
[22]YU A, MATSUDA Y, TAKEDA A, et al. Effect of EGF and bFGF on fibroblast proliferation and angiogenic cytokine productim from cultured dermal substitutes[J]. J Biomster Sci Polym Ed, 2012,23(10):1315-1324.
[23]王頡,劉鋒. COL3A1促進結直腸癌生長及潛在調控機制[J]. 復旦學報(醫學版), 2018,45(3):285-290.
(本文編輯耿波)