劉麗麗,朱芳來
(安徽醫科大學附屬安慶市第一人民醫院消化內科,安徽 安慶 246000)
胃癌是全球最常見的惡性腫瘤之一,據相關資料顯示,2018年全球新發胃癌1 000 000例,死亡783 000例,居全球惡性腫瘤發病率第五位,居腫瘤死亡率第三位[1]。2015年我國癌癥調查資料顯示全年新發胃癌數400 000例,居我國惡性腫瘤發病率第二位[2]。目前胃癌的診斷主要依靠胃鏡及影像學檢查,但均存在檢出率低的缺點,且多數檢出者已為進展期或晚期,錯過了最佳治療時期。近年來胃癌的發病率及死亡率均呈逐年上升趨勢[3],對我國及全球的衛生健康事業提出了巨大的挑戰。因此,發現新的標志物對于胃癌的早期診斷及干預意義重大。本文基于生物信息學分析方法,利用公共數據庫數據,篩選與胃癌生存預后的相關基因,為胃癌的早期診斷提供新的檢測標志物及新的治療方向。本次研究經過本院醫學倫理委員會同意。
1.1基因芯片數據的獲取:通過公共數據庫NCBI Gene Expression Omnibus(NCBI GEO)(https://www.ncbi.nlm.nih.gov/geo/)下載與胃癌相關的基因芯片數據,納入標準:①轉錄組數據;②物種為人類;③包含正常對照組。得到四個與胃癌相關的基因芯片數據集:GSE19826(GPL570平臺),GSE29998(GPL6947平臺),GSE54129(GPL570平臺),GSE79973(GPL570平臺)。所有芯片數據均由貢獻者上傳至GEO數據庫,GEO提供原始芯片數據和經過預處理的矩陣文件。四個胃癌芯片數據集共包含腫瘤組織樣本183例,正常胃黏膜組織標本95例。
1.2數據處理及對差異表達基因的篩選:考慮芯片數據來源于不同的處理平臺,數據處理方式存在不同,因此,在對不同芯片數據進行分析處理之前,統一采取相同標準進行標準化處理,利用RMA(Robust Multiarray Average)算法對所有數據進行標準化處理。根據疾病情況將樣本分為腫瘤組(tumor)及正常對照組(normal),利用R軟件(v.3.5.0)中的Limma包對標準化處理后的芯片數據進行差異分析,設定P value值及對數化表達倍數變化(log2 fold change,log2FC)作為篩選差異基因的閾值,整合各芯片數據集后得出各芯片數據集中的差異表達的基因。
1.3不同芯片數據集中差異表達基因的整合:利用RRA算法對四個基因芯片數據集中具有差異表達的基因進行整合分析,獲得不同芯片數據集中共有的差異表達基因。
1.4差異表達基因的GO分析及KEGG通路富集分析:DAVID(https://david.ncifcrf.gov)是基因功能分析最常用的在線分析網站,其可以對大規模的基因組數據進行功能分析。將四個芯片數據集整合后獲得的差異表達基因導入DAVID 6.8在線分析網站,以P<0.05作為篩選條件。對差異表達基因進行功能注釋,最常用的功能注釋包括GO(Gene Ontology)分析及KEGG通路富集分析。通過在線網站分析這些差異表達基因主要的生物功能以及可能涉及的信號通路。
1.5蛋白互作網絡構建:String(https://string-db.org)是研究蛋白與蛋白相互作用的在線生物信息學網站。本研究將表達差異的基因導入String 11.0在線分析網站,設置最低互作分值(minimum required interaction score)的可信度(high confidence:0.15),獲得蛋白相互作用的數據,然后通過Cytoscape軟件對結果進行可視化和進一步分析。
1.6生存分析:Kaplam-Meier Plotter(http://kmplot.com)是常用的在線生存分析網站。本研究將蛋白互作網絡構建篩選出的基因導入Kaplam-Meier Plotter在線分析網站,以P<0.05為篩選標準。
2.1不同胃癌基因芯片中差異表達的基因:利用RMA算法對四個胃癌基因數據集進行標準化處理后,通過R軟件Limma包對各數據進行處理,獲得差異表達的基因。見圖1。其中數據集GSE19826獲得上調基因376個,下調基因478個,見圖2A;數據集GSE29998上調基因879個,下調基因815個,見圖2B;數據集GSE54129獲得上調基因1 051個,下調基因1 080個,見圖2C;數據集GSE79973獲得上調基因460個,下調基因477個,見圖2D。并利用火山圖分別展示各數據集差異表達的基因。見圖2。

A GSE19826的標注化處理;B GSE29998的標準化處理;C GSE54129的標準化處理;D GSE79973的標準化處理。

A GSE19826;B GSE29998;C GSE54129;D GSE79973
2.2四個胃癌數據集差異基因的整合:本研究用RRA算法對四個芯片數據集的差異基因進行整合后獲得在四個數據集中共有的差異表達基因。最終確定了49個差異基因,其中有21個上調基因和27個下調基因。最后用R軟件heatmap包繪制了前20個上調和前20個 下調基因的熱。見圖3。

圖3 四個胃癌基因數據集的整合后獲得最具差異表達的20個上調基因以及20個下調基因
2.3差異基因的GO分析及KEGG通路富集分析:利用RRA算法獲得候選差異表達基因后,利用在線功能分析網站DAVID分析差異基因的功能及富集的信號通路。本研究限定P value<0.05為功能分析的限定條件。GO分析主要包括生物過程、細胞外組成及分子功能三部分。從分析結果可以得知,差異表達基因主要參與對膠原分解代謝、對藥物的反應、細胞黏附等過程;而細胞組成分析顯示這些基因大多參與細胞外區、細胞外基質、內質網腔等的組成;在分子功能方面,則主要與細胞外基質結構組成、蛋白酶結合、血小板衍生生長因子結合、視黃醇脫氫酶活性、內向整流鉀通道活性、鈣依賴性半胱氨酸型內肽酶活性等相關。見表1及圖4。利用DAVID富集得到四條與差異基因相關的通路,包括蛋白質的消化與吸收通路(hsa04974:Protein digestion and absorption)、細胞外基質通路(hsa04512:ECM-receptor interaction)、局部黏附通路(hsa04510:Focal adhesion)以及細胞色素P450代謝通路(hsa00980:Metabolism of xenobiotics by cytochrome P450)。利用Cytoscape對其進行可視化處理后發現下調基因富集的通路主要為細胞色素P450及蛋白質的消化與吸收通路,上調基因則與細胞的局部黏附、蛋白質消化與吸收、細胞外基質通路有關。見圖5。

表1 差異表達基因的GO分析

紅色代表信號通路;橙色代表分子功能;藍色代表細胞內組成;綠色代表生物過程

紅色代表上調基因,藍色代表下調基因,綠色代表信號通路
2.4蛋白互作網絡構建的分析:為了進一步更好地說明這些差異表達基因與胃癌之間的關系,本研究利用在線分析網站String構建了蛋白互作網絡,設定可信度為0.14后得到各差異表達基因之間的相互作用。見圖6。利用Cytoscape進行可視化,篩選出相互作用節點度大于10的候選基因15個,分別為:FNDC,CTHRC,COL1A1,COL1A2,COL6A3,COL10A1,CDH3,INHBA,SULF1,FAP,SFRP4,BGN,THBS2,THY1,TIMP1。見圖7。對這些候選基因功能分析后發現多數候選基因參與了組織器官的分化、發育過程,提示可能為胃癌發生的關鍵基因。

圖6 差異表達基因的蛋白互作網絡

紅色代表上調基因,綠色代表下調基因
2.5差異基因生存分析:對篩選出的15個候選基因利用在線分析網站Kaplam-Meier Plotter進行生存分析后發現,除FAP和CDH3外,其余13個候選基因均與胃癌的預后相關,猜測為胃癌發病的關鍵基因。見圖8。

圖8 差異表達基因與胃癌預后的關系
胃癌的發生發展是一個涉及諸多因素的復雜過程,其中包括各種原癌基因與抑癌基因之間的失衡以及與腫瘤相關的信號通路的激活[4],但具體發病機制尚不清楚,目前對于胃癌的具體發病機制也仍在不斷的研究中。目前對于胃癌的臨床診斷主要為內鏡及影像學等檢查,但檢出率均較低,且多數被檢出者均已錯過最佳治療時機,預后差;實驗室檢查指標CA72-4雖對胃癌的發病有一定提示作用,但敏感性及靈敏度均較低。近三十年來,胃癌的發病呈總體上升趨勢[3],對我國的醫療衛生事業提出了巨大挑戰,因此,對胃癌做出早期診斷及早期干預對于個人、家庭、社會都意義重大,但我國目前尚缺乏系統的早期診療規范。因此,亟需發現有助于胃癌早期診斷的新的臨床標志物。
本研究提示差異基因主要參與膠原分解代謝、組織器官的分化發育等過程,KEGG通路富集則提示差異表達基因能夠參與蛋白質的消化與吸收、細胞局部黏附、細胞色素P450代謝、細胞外基質組織信號通路;為了進一步篩選與胃癌發生的相關基因,進一步查閱相關文獻后發現,多數候選基因均與癌癥的發生發展存在一定關系,如Wang等通過相關研究認為INHBA在胃癌患者中高水平表達時提示預后差[5];一篇關于TIMP1與胃癌之間關系的綜述表明胃癌患者組織或外周血中的TIMP1水平水平升高與胃癌患者的預后不良有關[6];Zhong等同樣發現發現高水平THY1與胃癌患者的預后呈負相關[7];COL1A1、COL1A2、COL6A3、COL10A1同屬膠原蛋白家族,相關研究已經證實COL1A1與COL1A2在胃癌組織中高表達,并提示預后較差[8];而抑制COL6A3表達時可以通過PI3K-AKT信號通路抑制胃癌細胞的增殖、遷移、侵襲以及促進胃癌細胞的凋亡,從而改善胃癌患者的預后[9];而相關研究也證實COL10A1在胃癌的發展過程中扮演著重要角色,可以促進胃癌的侵襲及代謝過程[10],提示篩選出的候選基因可能為胃癌發生發展的關鍵基因。
綜上所述,本研究利用生物信息學方法對四個胃癌芯片數據集進行分析及整合,獲得差異表達基因,利用GO分析及KEGG通路富集分析對差異基因進行功能分析,揭示差異表達基因的生物功能及與之相關的信號通路,并通過構建蛋白互作網絡從分子水平篩選與胃癌相關的差異表達基因,最后利用在線分析網站對候選基因進行與胃癌生存預后的分析,獲得與胃癌發生發展的關鍵基因,為進一步的細胞水平的研究提供理論支持,并對胃癌發生機制的研究提供新的方向,并為胃癌的早期診斷提供新的檢測標記物。