曾 蕾,徐雪蓮,羅曼曼,張 凡,韓志堅,李玉民,,*
(1.蘭州大學第二醫院普外科,甘肅 蘭州730030;2.甘肅省消化系統腫瘤重點實驗室,甘肅 蘭州 730030)
胃癌是消化道最常見的惡性腫瘤,我國胃癌發病率及死亡率顯著高于其他國家,嚴重威脅人類健康[1]。由于早期胃癌無特異性改變,大多患者發現已經處于進展期[2-3],手術、輔助放化療的快速發展在一定程度上提高了胃癌患者的生存期,但由于化學藥物抗性等原因胃癌患者的5年生存率僅為5%~15%[4-5]。因此識別胃癌相關的分子標志物,為胃癌患者提供個體化治療以提高治療效果尤為重要。然而目前關于胃癌分子機制的探究仍然處于探索階段。雖然關于這些異常的分子和信號通路已被用做藥物干預的靶點來治療胃癌,但是關于胃癌的藥物治療仍然比較局限。因此,對胃癌發生發展過程中分子機制的研究至關重要。
基因芯片技術和生物信息學分析方法為疾病分子機制的研究提供了新的思路,是目前探究疾病發展過程中基因調控最好的方法[6]。因此,本文擬通過下載GEO數據庫中5個基因芯片數據集的原始數據,利用生物信息學的研究方法,分析胃癌發生發展過程中關鍵的基因和信號通路,從而為胃癌分子機制的研究提供新的方向,為胃癌的診斷和治療提供新的思路。
通過NCBI的GEO數據庫下載GSE35809、GSE54129、 GSE79973、GSE66229和 GSE51105共 5個數據集,基因芯片均基于Affymetrix Human Genome U133 Plus 2.0 Array,數據類型為Expression profiling by array,種屬為Homo sapiens;提取數據集中的基因芯片數據,并將5個數據集的的樣本分為胃癌組和正常組:胃癌組585例,正常組131例。詳見表1。

表1 各數據集中樣本分布情況
通過Transcriptome Analysis Console軟件對下載的5個基因數據集進行Robust multi-chip average(RMA)歸一化處理,然后利用R-package Combat去除批次效應(batch effects)。然后通過R語言中的Limma包分析得出胃癌組與正常組之間的差異基因。以校正后的P<0.01,|log2FC|>1為篩選標準,得到胃癌組和正常組之間的差異基因。
DAVID數據庫[7]是一個可進行差異基因功能富集分析的生物信息數據庫,可從生物過程(biological process,BP)、通過細胞組分(cellular component,CC)和分子功能(molecular function,MF)3個方面對我們分析得到的差異基因進行了全面的注釋。我們用DAVID6.8對差異基因分別進行基因本體論分析(gene ontology,GO)分析,并利用KEGG(Kyoto encyclopedia of genes and genomes)數據庫進行KEGG分析,篩選得到參與胃癌發展過程中關鍵的通路。
STRING數據庫是可以預測蛋白質間的相互作用的數據庫。利用STRING數據庫分析胃癌組和正常組之間差異基因間的相互作用,并將PPI網絡的tsv文件導出,利用Cytoscape3.7.0軟件對其進行可視化,并利用軟件中的CytoHubba插件通過MCC算法對PPI網絡中相互作用的基因進行評分以此得出Hub基因。
通過對數據集進行Q-Qplot統計分析,說明所有基因的表達符合正態分布,可以做密度圖,兩線沒有重復的部分為差異表達基因,上下兩圖為批次效應處理前后的基因表達情況,下圖的密度圖比上圖擬合程度更高,說明批次效應處理成功(如圖1)。對基因表達數據標準化,并利用主成分分析(PCA分析)表明樣本之間的相似程度,不同樣本在空間上距離越近,則說明樣本間的差異越小(如圖2),表明數據質量可靠,可進行生物信息學分析。我們利用R語言中的limma包分析得到胃癌發生發展過程中的差異基因,總共得到1205個差異基因:上調基因480個,下調基因725個,差異基因的位置如圖3所示。

圖1 不同樣本間批次效應處理前后基因表達情況

圖2 所有樣本主成分分析結果
對480個上調基因和725個下調基因分別進行GO分析和KEGG分析(如表2,表3)。480個上調基因富集結果顯示,差異基因主要參與了BP的趨化因子介導的信號通路、細胞-細胞信號傳導、炎癥反應和細胞對白細胞介素-1反應等過程;CC主要聚集于細胞外的區域;MF主要與趨化因子活性、蛋白質結合、細胞因子活性、微管運動活動和生長因子活動等相關。上調基因KEGG分析結果顯示,胃癌的發生發展主要與趨化因子信號通路、p53信號通路、Toll樣受體信號通路、ECM-受體相互作用、TNF信號通路、NF-κB信號通路、PI3K-Akt信號通路和Jak-STAT信號通路等通路相關。725個下調基因GO分析結果顯示,BP主要與異生素葡萄糖醛酸化、異生素代謝過程、細胞粘附、代謝過程和受體介導的內吞作用等過程;CC表明下調基因主要位于細胞外的區域;MF結果顯示差異基因主要富集于葡糖醛酸基轉移酶活性、細胞外基質結構成分、鈣通道調節劑活性、酶抑制劑活性、氧化還原酶活性和生長因子活動等過程。KEGG結果顯示,下調基因主要參與了抗壞血酸和新陳代謝、戊糖和葡萄糖醛酸的相互轉化、胃酸分泌、卟啉和葉綠素代謝和酪氨酸代謝等通路。

圖3 胃癌差異基因表達譜的火山圖

表2 上調基因GO分析和KEGG分析

表3 下調基因GO分析和KEGG分析
將篩選出來的1205個差異基因導入STRING數據庫,然后將所得的PPI網絡數據的tsv文件數據導入Cytoscape軟件,對其進行可視處理,結果如圖4所示。通過插件cytoHubba,利用MCC算法將差異基因按照相互作用的重要性進行排序,找出CENPE、KIF15、MELK、KIF2C、CENPF、KIF11、NUSAP1、UBE2C、TTK、AURKB、DLGAP5、TOP2A、CCNA2、CCNB1、 PBK、 TPX2、 RRM2、 KIF20A、 CDCA8、CCNB2、 BUB1B、 MAD2L1、 HMMR、 CEP55、BUB1、KIF23、NCAPG、ASPM和CDK1等29個Hub基因(圖 5)。

圖4 胃癌差異基因的蛋白質互作網絡

圖5 胃癌Hub基因網絡圖
胃癌是世界上常見惡性腫瘤之一[1],目前胃癌機制的研究表明,胃癌的發生和發展與癌基因、抑癌基因、癌細胞非整倍性和幽門螺旋桿菌感染后引起的基因改變等機制相關[8-11]。對于參與這些機制的分子進行了大量的研究,BUB1、MAD2和p53等在胃癌發生發展過程中的作用已有定論[12-14]。然而目前關于參與胃癌發生發展分子機制的研究仍然處于探索階段,因此對于胃癌靶點治療的研究仍然比較局限。本研究通過生物信息學對585個胃癌組織和131個正常組織的基因芯片數據進行分析,通過對GSE35809、GSE54129、GSE79973、GSE66229和GSE51105共5個數據集中的基因芯片數據進行標準化處理及質量控制,結果表明數據的異質性小,可用于生物信息學分析。我們通過生信分析得到了1205個差異表達的基因,包括480個上調基因以及725個下調基因。
對480個上調基因以及725個下調基因進行GO分析的結果顯示,上調基因富集結果顯示,差異基因主要參與趨化因子介導的信號通路、細胞-細胞信號傳導、炎癥反應和細胞對白細胞介素-1反應等過程。下調基因主要與異生素葡萄糖醛酸化、異生素代謝過程、細胞粘附、代謝過程和受體介導的內吞作用等過程。所有的差異基因主要位于細胞外的區域。趨化因子信號通路、炎癥反應、白細胞介素-1反應和細胞粘附等機制在胃癌發展過程中的作用均已有研究證明[15-18]。因此對于參與這些生物過程的差異基因的探究,有助于我們對胃癌分子機制的認識。KEGG通路分析結果顯示在胃癌的發生發展過程中p53信號通路、PI3K-Akt信號通路、NF-κB信號通路、細胞外基質受體相互作用通路(ECM-receptorinteraction)等有著重要的作用。研究表明[19-20],PI3K/Akt信號通路與胃癌的預后相關,抑制該信號通路后胃癌生長顯著受限,因此該通路有可能成為胃癌治療的靶點。NF-κB是一種多功能的核轉錄因子,其與胃癌細胞增殖、凋亡、炎癥反應和免疫反應等過程關系密切,抑制該信號通路促進了胃癌細胞的凋亡,在胃癌的發生發展過程中扮演著重要作用[21]。PI3K-Akt信號通路和JAK-STAT信號通路在胃癌中的作用均已有研究證明[19,22]。然而目前,Toll樣受體信號通路、TNF信號通路和HIF-1信號通路在胃癌發展過程中的作用機制尚未報道,這些信號通路為胃癌的分子機制的研究提供了新的方向。
我們從1205個差異基因的PPI網絡篩選出了CENPE、 KIF15、 MELK、 KIF2C、 CENPF、 KIF11、NUSAP1、UBE2C、TTK和TOP2A等29個Hub基因。TOP2A是Ⅱ型拓撲異構酶家族中的一員,能夠改變DNA轉錄過程中出現的DNA拓撲結構[23]。Terashima等[24]研究表明,TOP2A的高表達增加了Ⅱ/Ⅲ期胃癌患者的血源性復發的風險。此外,該基因在鼻咽癌、結腸癌和卵巢癌中也高表達,因此該分子有可能成為腫瘤診斷和治療的靶點[25-27]。泛素結合酶E2C(UBE2C)是E2家族的成員,由人染色體20q13.12的UbcH10基因編碼[28]。Zhang等[29]研究表明,UBE2C在胃癌細胞(特別是腸型胃癌細胞)呈高表達,可以通過ERK信號通路促進胃癌細胞的增殖,是腸型胃癌預后不良的分子標記物。母系胚胎亮氨酸拉鏈蛋白激酶(MELK)是絲氨酸/蘇氨酸(Ser/Thr)蛋白激酶家族中的一員,在胃癌細胞中呈高表達,通過FAK-Paxillin通路促進胃癌細胞的遷移和侵襲,是胃癌預后不良的指標[30-31]。CCNB1、CCNA2和CCNB2同屬于細胞周期蛋白這一家族,在調控真核細胞周期中扮演著重要作用[32]。相關研究表明CCNB1、CCNA2和CCNB2在胃癌中呈高表達,CCNB1的表達與胃癌患者的生存率相關[33]。PBK、TPX2、RRM2和CEP55均在胃癌中高表達,可通過PI3K-AKT和NF-κB信號通路等促進胃癌的侵襲及轉移,是胃癌預后重要的生物標志物[34-37]。紡錘體組裝檢查點(spindleassemblycheckpoint,SAC)蛋白的表達可導致有絲分裂過程中染色體的錯聚和非整倍體,該機制可能在胃癌的機制中有著重要的作用[38]。關于Hub基因CDK1、TPX2、AURKB、CDCA8、KIF11和KIF20A在胃癌中的作用機制有待進一步探究。然而,KIF15、DLGAP5、TTK、CENPF、KIF23、NUSAP1和NCAPG的研究尚未報道,為我們對于胃癌分子機制的研究提供了新的思路。
綜上所述,通過生物信息學分析確定了可能參與胃癌發生及發展的1205個差異基因及29個Hub基因,通過GO和KEGG分析確定了Toll樣受體信號通路、TNF信號通路和HIF-1信號通路可能參與胃癌的發生及發展,關于KIF15、DLGAP5、TTK、CENPF、KIF23、NUSAP1和NCAPG等基因在胃癌中的作用機制有待進一步探究。