陳秀瓊,孟凡橋,熊 華,王雅麗,周洋媚,唐雯華,鄒燕梅*
(華中科技大學同濟醫學院附屬同濟醫院腫瘤中心,湖北 武漢 430030)
胃癌是最常見的癌癥之一,在癌癥相關死亡原因中排位第2[1-2],大多數胃癌患者僅在疾病晚期才確診,中位生存期小于1年[3],胃癌確診的金標準是通過內鏡或手術病理活檢,多種血清腫瘤標志物如CA199、CA724、CEA、CA125等早已用于胃癌的早期篩查及預后評價[4],但靈敏度及特異度均欠佳。多個基因靶點也已被挖掘用于胃癌靶向治療藥物的研發,如EGFR、VEGFR、HER2等。但由于早診率低、癌細胞增殖快、分化程度低、侵襲性強,多種檢查及治療手段的聯合仍未達到預想效果。目前,高通量技術用于數據挖掘的運用,能有效、快速的篩選出在癌組織與正常組織中顯著差異表達的基因,并可利用數據庫中的臨床資料評估靶基因的預后及診斷價值。因此,在臨床可應用于挖掘新的特異性的早期診斷標志物,尋找新的治療靶點及預后評判生物標志物。
本研究運用生物信息分析的方法,從GEO數據庫下載3個不同的胃癌組織芯片表達譜GSE2685、GSE33335、GSE81948,整理芯片數據并從數據中獲取在胃癌組織及正常組織中顯著差異表達的基因,對差異基因進行GO功能注釋及KEGG通路富集分析,篩選出參與胃癌發生發展機制的差異基因。通過構建蛋白互作網絡(protein-proteininteractionnetwork,PPI)選出核心基因,最后對核心基因進行生存分析,找出可能提示胃癌患者預后、具有診斷與治療意義的靶基因。
從GEO數據庫(GeneExpressionOmnibus,GEO,http://www.ncbi.nlm.nih.gov/geo/)下載胃癌相關基因表達譜芯片(編號為GSE2685、GSE33335、GSE81948)及其相對應的平臺信息文件(GPL80、GPL5175、GPL6244),三者包含的樣本量均不低于20例,樣本分類明確,僅包含癌組織與癌旁組織。GSE2685芯片包含8例正常胃組織及22例胃癌組織,GSE33335芯片包含25例正常胃組織及25例胃癌組織,GSE81948芯片包含5例正常胃組織及15例胃癌組織。利用平臺信息文件將表達譜芯片中的探針矩陣轉換為基因矩陣。
利用R語言軟件(https://www.r-project.org/)的Limma包運行已處理的基因矩陣文件,設置差異表達基因(differentiallyexpressedgenes,DEGs)篩選標準為P<0.05,差異倍數(foldchange,FC)對數值的絕對值|Log2(FC)|≥2,分別得到3個芯片譜中正常組織與胃癌組織間差異表達的所有基因包括上調基因與下調基因,并用火山圖體現,用Funrich軟件取三者差異基因的交集,并制作韋恩圖。
基因本體分析(geneontologyanalysis,GO)是一種常用于解釋基因和基因產物以及識別高通量基因組或轉錄組數據特征生物學屬性的方法[5];京都基因與基因組百科全書(Kyotoencyclopediaofgenesandgenomes,KEGG)是一個處理基因組、生物途徑、疾病、藥物和化學物質數據庫的集合[6]。在基因功能注釋在線網絡工具(DatabaseforAnnotationVisualizationand IntegratedDiscovery,DAVID)(https://david.ncifcrf.gov/)中,對上述所得的差異表達基因進行GO功能注釋,包括生物學過程(biologicalprocess,BP)、細胞組成(cellular component, CC)、 分 子 功 能 (molecular function,MF)[7],選取校正后P值小于0.05的GO,同時也進行KEGG信號通路富集分析,用R軟件對富集分析的結果進行可視化展示。
交互基因檢索工具(SearchToolfortheRetrieval ofInteractingGenes,STRING)是一種用于評價蛋白質相互作用信息的在線工具[8]。將所得的顯著表達差異基因導入STRING網絡在線工具中(http://string-db.org),設置置信度閾值大于0.4,運行STRING,得到差異基因表達的PPI,隱藏其中未連接點。將STRING中得到的PPI文件導入Cytoscape軟件中,使用CytoHubba網絡分析插件篩選核心基因,核心基因表達的蛋白為具有調節生理功能的蛋白。
KM數據庫使用10461個癌癥樣本評估54675個基因對生存的影響,包括5143個乳腺癌,1816個卵巢癌,2437個肺癌和1065個胃癌樣本[9]。利用KM數據庫(Kaplan-Meierdatabase,KM)對核心基因進行生存分析,將排名前10的核心基因置于KM數據庫中,以檢查其基因表達水平的改變與患者的5年存活率之間的關聯。計算95%置信區間(confidence interval,CI)和對數秩P值的風險比(hazardratio,HR)并將其可視化。
整合所有的胃癌樣本及正常組織,篩選出核心基因在所有樣本中的表達量,將其分為實驗組與對照組。將兩組數據導入GraphPad軟件中,通過繪制ROC曲線(ReceiverOperatingCharacteristicCurve,ROC)將結果進行可視化展示,并計算出核心基因的ROC曲線下面積(AreaUnderCurve,AUC)。AUC>0.5表示該基因具有良好的診斷價值。利用GEPIA數據庫(Gene ExpressionProfilingInteractiveAnalysis,GEPIA)對核心基因進行皮爾遜相關性分析,相關系數用r表示,r>0.4代表兩者具有較高的相關性,r的絕對值越大表示相關性越強,同時P<0.05表示結果具有統計學意義。
在R軟件的Limma包中設置差異基因篩選條件為校正后P值<0.05,基因表達差異倍數為2,得到DEGs有1839個,上調基因851個,下調基因988個,來自GSE2685的上調基因287個,下調基因238個,來自GSE33335的上調基因104個,下調基因165個,來自GSE81948的上調基因460個,下調基因585個,見圖1;取交集后,在3個表達譜芯片中均有顯著差異表達的基因有66個,上調基因24個,下調基因42個,見圖2。
選取校正后P值即FDR<0.05,富集程度最高的前5條GO功能,結果顯示:差異基因所富集的功能主要表現在細胞外空間、細胞外外泌體、消化、細胞外基質組織、膠原纖維組織。如圖3、表1中可見以細胞外空間與細胞外外泌體功能區富集的基因數目最多。
DAVID在線工具進行差異基因KEGG通路富集分析結果顯示,按差異基因富集數目進行排序,選取富集程度最高的前9條通路,包括蛋白質消化和吸收、胃酸分泌、氮代謝、ECM-受體相互作用、礦物質吸收、AGE-RAGE信號通路等,如圖4。表1中可見差異基因富集程度最高的通路為蛋白質消化和吸收與胃酸分泌。

圖1 差異表達基因火山圖

圖2 3個表達譜芯片取交集的韋恩圖

圖3 差異表達基因的GO功能注釋圖

圖4 為差異基因的KEGG通路富集分析圖
將STRING在線數據庫構建的蛋白互作網絡PPI數據文件導入Cytoscape軟件中,得到的PPI網絡由48個基因和186條邊組成,如圖5,圖中節點為差異基因,節點之間的邊表示基因之間的聯系,與節點相連的邊越多,基因所起的作用越大。CytoHubba網絡分析插件通過計算與節點連接的邊的數量篩選出核心基因并做出顏色標記,顏色越紅,該基因在PPI網絡中所起的作用越大,由此得出相關度最高的前10個核心基因即 TOP2A、COL1A1、COL1A2、ATP4A、COL3A1、COL6A3、FN1、LUM、SPARC、SST,如表2所示,SST和ATP4A在胃癌組織中表達上調(較正常組織),TOP2A、COL1A1、COL1A2、COL3A1、COL6A3、FN1、LUM、SPARC在胃癌組織中表達下調(較正常組織)。10個核心基因在胃癌組織中表達的差異均具有統計學意義即FDR均<0.05。

表1 胃癌組織中差異表達基因的GO功能注釋和KEGG富集分析

圖5 PPI網絡圖
篩選出的核心基因在胃癌組織與正常組織的差異表達顯著,為進一步挖掘核心基因與胃癌預后的關系,我們將核心基因的表達分為低表達組和高表達組,利用KM繪圖儀在線工具繪出每個核心基因與胃癌患者生存率關系的KM曲線,并計算出P值、HR,求得95%CI。在10個核心基因中,僅COL1A1(1556499_s_at等)、FN1(210495_x_at等)的表達水平與胃癌患者總生存率的關系具有顯著的統計學意義[COL1A1,HR=1.49,95%CI(1.22, 1.81),P<0.05;FN1,HR=1.46,95%CI(1.23,1.74),P<0.05)],如圖6所示。COL1A1及FN1低表達組的預后明顯優于高表達組。

表2 胃癌基因芯片中10個核心基因表達特點

圖6 生存曲線圖
當AUC>0.5時,提示該指標具有較好的診斷價值。利用GraphPad分別計算核心基因COL1A1與FN1兩者的AUC,得出AUCCOL1A1=0.90,AUCFN1=0.93,如圖7所示,兩者的P值均<0.01。結果提示,COL1A1和FN1兩者在胃癌患者與正常人群中的差異表達具有臨床診斷意義,可用于胃癌患者的診斷及預后的提示。皮爾遜法相關系數分析得出COL1A1與FN1兩者之間的r=0.59,P=0.00,結果表明兩者具有較高的相關性,在胃癌的發生發展中可能具有協同作用。
近年來,隨著基因芯片技術的快速發展,生物信息學分析越來越多地用于尋找各種癌癥新的治療靶點和診斷標志物,實現惡性腫瘤的預后評價和精準診療[10]。本研究通過分析來自GEO數據庫的胃癌基因芯片數據表達譜,獲取胃癌組織與正常組織之間的顯著差異表達基因,包含的851個上調基因與988個下調基因說明胃癌發生發展是由多個基因表達異常或抑制基因失活的一個復雜的生物學過程。

圖7 核心基因的ROC曲線圖
差異基因的GO功能注釋表明差異基因功能主要表現在細胞外空間、細胞外外泌體、消化、細胞外基質組織、膠原纖維組織,KEGG富集分析顯示差異基因主要富集在蛋白質消化和吸收、胃酸分泌、氮代謝、ECM-受體相互作用、礦物質吸收等。由上可見,差異基因富集的通路及功能主要作用于腫瘤微環境。近年來,隨著對腫瘤微環境研究的深入,大量研究結果表明,腫瘤微環境是一個以免疫抑制機制為主,免疫激活機制為輔的位點,在腫瘤的免疫治療,治療耐藥,治療敏感性,腫瘤復發轉移等過程中起著關鍵作用[11],操縱腫瘤微環境中不同的信號通路或基因靶點可以創造比以往任何時候都更有效的治療。因此,尋找有效的靶點及通路至關重要。外泌體是由細胞分泌的小囊泡,被發現可介導相鄰或遠端細胞之間的信號轉導[12-13],而介導腫瘤細胞與微環境中基質細胞之間信號傳導的外泌體被稱為腫瘤細胞介導的外泌體(tumor-derivedexosomes,TDEs),已有研究表明TDEs通過攜帶不同的miRNA促進多種惡性腫瘤的復發轉移,如外泌體介導的miR-105通過提高血管內皮細胞的通透性促進乳腺癌細胞的遠處轉移,外泌介導的miR-25-3p促進結腸癌細胞的肝肺轉移[14-15],胃癌來源的外泌體通過引起間皮屏障破壞和腹膜纖維化介導腫瘤定向轉移[16],如通過傳遞表皮生長因子(EGFR)調控肝臟微環境,促進胃癌肝轉移[17]。有研究表明胃癌患者血清和組織中細胞外基質蛋白(ECM)通過ECM-受體相互作用誘導ITGB4/FAK/SOX2/HIF-1α信號通路調節胃癌細胞轉移和葡萄糖代謝,對于預防腫瘤轉移和復發的治療靶標的發展具有重要意義[18]。這些差異基因富集的GO功能與KEGG通路為胃癌的起始和進展的分子機制提供了深入的見解,尋找操控胃癌發生發展的信號通路及靶點、開發新的治療策略能為胃癌患者的生存預后帶來福音。
為進一步明確差異基因之間的相互作用關系,我們通過構建差異基因的蛋白互作網絡PPI,運用CytoHubba插件篩選出10個核心基因,在10個核心基因中,我們發現COL1A1、FN1與胃癌患者的預后明顯相關。COL1A1又稱I型膠原α1鏈,與I型膠原α2鏈(COL1A2)組成典型的I型膠原,I型膠原存在于大多數結締組織和胚胎組織中,是膠原家族的重要成員,是細胞外基質的關鍵結構成分[19-20]。已有研究指出膠原蛋白在胃癌組織中降解水平升高是腫瘤細胞侵襲周圍組織的關鍵步驟[21],發現胃癌組織中COL1A1的上調與胃癌侵襲性顯著相關,COL1A1的敲除可抑制癌細胞的增殖,遷移和侵襲能力,同時也發現miRNAlet-7i、miR-129-5p表達上調通過靶向下調COL1A1促進胃癌侵襲轉移[22-23]。生存分析提示,COL1A1的表達在胃癌組織中顯著降低,低表達組患者預后較差(P<0.05),同時,ROC分析顯示AUC=0.90,表明COL1A1在胃癌患者的診斷中具有一定的價值。因此,我們推測COL1A1可作為胃癌預后評價、診斷、靶向治療研究對象的靶標之一。FN1,又稱fibronectin1,編碼纖連蛋白,一種以血漿中可溶性二聚體形式存在的糖蛋白,以及細胞表面和細胞外基質中的二聚體或多聚體形式。纖連蛋白參與細胞粘附和遷移過程,通過激活MMP2/MMP9通路促進胃癌細胞增殖、遷移和侵襲[24],有研究結果指出胃癌組織中FN1蛋白的陽性表達明顯高于正常組織,尤其在淋巴結轉移陽性、分期較晚的胃癌患者中,同時也發現miRNA-200c表達上調通過靶向下調FN1促進胃癌細胞的增值、侵襲、轉移[25-26]。AUC=0.93提示FN1對胃癌患者具有良好的診斷價值,通過生存分析顯示,與正常胃組織相比,胃癌組織中的FN1明顯降低,FN1低表達組預后差(P<0.05),Cai等[27]的研究表明,在結腸癌(CRC)中,低表達的FN1通過與ITGA5相互作用促進細胞凋亡,抑制CRC細胞的存活、侵襲和遷移。而FN1在胃癌中的抗腫瘤作用仍需進一步研究加以驗證。皮爾遜相關系數R=0.59,表明COL1A1與FN1在胃癌的發生發展過程中具有協同作用。目前尚無相關基礎研究對兩者的協同作用深入探討,因此,設計進一步的實驗進行研究可能帶來新的突破。
綜上,生物信息分析方法可為未來胃癌基因組個體化診斷和治療提供有力證據,利用基因芯片表達譜數據分析得到的核心基因所富集的功能與通路說明胃癌的發生發展是一個多基因突變、表達異常導致細胞無限增殖的復雜過程。核心基因COL1A1、FN1在胃癌組織中的表達與患者預后明顯相關,未來我們將進行進一步的基礎實驗及臨床研究證實其作為評判預后、分子靶向治療靶標的價值。