周雪桐,安彩艷,張 謙
1.巴彥淖爾市醫(yī)院消化內科,內蒙古巴彥淖爾 015000;2.呼和浩特市第一醫(yī)院基礎與轉化醫(yī)學研究中心,內蒙古呼和浩特 010030;3.內蒙古醫(yī)科大學藥學院,內蒙古呼和浩特 010110
胃癌是中國乃至世界范圍內最常見的惡性腫瘤之一。有研究顯示,胃癌與肺癌和乳腺癌占據了50%的新發(fā)癌癥病例[1],已成為全球關注的焦點醫(yī)療問題[2],并且絕大多數胃癌患者在被確診時已經進入進展期,失去了最佳手術治療機會。因此,胃癌的早期診斷和預后評估意義重大。穩(wěn)健排序整合算法(RRA)是由愛沙尼亞學者Raivo Kolde等提出的一種利用概率模型整合排序列表的分析方法。該算法可以使用R語言中的核心函數“Robust Rank Aggreg”包來實現[3]。本研究利用高通量基因表達數據庫(GEO)中的7套胃癌基因芯片表達譜數據集(GSE54129、GSE63089、GSE65801、GSE66229、GSE79973、GSE118897、GSE118916),采用基于RRA算法的多步驟生物信息學分析方法鑒定差異表達基因,并分析其在胃癌發(fā)生和發(fā)展中的分子生物學功能,以期為后續(xù)胃癌早期診斷預后模型的構建、實驗驗證、機制研究和胃癌早期診斷試劑盒的開發(fā)提供理論依據。
1.1資料來源 在GEO(https://www.ncbi.nlm.nih.gov/geo/)中檢索胃癌相關基因表達譜數據。在數據庫的檢索框中,首先輸入“gastric cancer”,然后點擊“Search”進行檢索?;虮磉_芯片選擇標準如下:(1)數據集為胃癌組織樣本;(2)樣本同時包含胃癌組織及正常組織;(3)數據類型為基因表達譜;(4)數據的組織來源為人源樣本;(5)數據集的樣本量≥10例。根據以上篩選條件,最終篩選得到了7套符合要求的GEO胃癌芯片表達譜數據。這些數據集分別是GSE54129、GSE63089、GSE65801、GSE66229、GSE79973、GSE118897和GSE118916。
1.2方法
1.2.1胃癌表達譜數據預處理 胃癌基因表達譜數據通過數據清洗、標準化和轉換等步驟,獲得數據表達矩陣并進行后續(xù)的差異分析。
1.2.2差異基因篩選 使用R語言limma包,根據差異倍數(FC)的對數的絕對值|log2(FC)|>1,并且滿足錯誤發(fā)現率(FDR)<0.05分析。為了觀察FDR和FC之間的關系,利用火山圖進行可視化,并按照每個基因的變化倍數對結果進行排序,以便進行后續(xù)的分析。
1.2.3RRA分析 根據每個數據集中基因的FC對上調和下調的基因進行排名。然后,使用R包根據7套數據集中基因的排名來獲取穩(wěn)健的差異表達基因(DEGs)。
1.2.4功能富集分析 針對1.2.3中獲取穩(wěn)健的DEGs,利用R語言的clusterProfiler包進行基因本體論(GO)和京都基因和基因組百科全書(KEGG)富集分析,并生成可視化結果,如富集柱狀圖和通路圖。
1.2.5蛋白質-蛋白質相互作用(PPI)網絡構建和可視化 將穩(wěn)健的差異表達基因(robust DEGs)上傳到STRING在線數據庫,并選擇了置信度大于0.9作為篩選標準。通過Cytoscape(版本3.6.1)軟件,生成PPI網絡,使用Cytoscape插件MCODE來篩選PPI網絡中的顯著模塊。
1.2.6核心基因篩選 使用10種拓撲分析算法(MCC、DMNC、MNC、Degree、EPC、BottleNeck、EcCentricity、Closeness、Radiality、Betweenness)對前50個基因進行排名,10種算法的基因取交集得到核心基因。
1.2.7免疫細胞浸潤分析 通過CIBERSORT算法將歸一化的基因表達矩陣轉換成22種免疫細胞矩陣。根據P<0.05的標準對免疫細胞矩陣進行過濾,然后用CIBERSORT算法識別正常組織和胃癌樣本之間22種免疫細胞的相對表達,并進行主成分分析(PCA)以確定正常組織和胃癌組織之間的差異。
1.2.8癌癥基因組圖譜(TCGA)數據庫胃癌基因表達譜數據下載 在TCGA(https://cancergenome.nih.gov/)數據庫中以“gastric cancer”為關鍵詞進行檢索。對TCGA數據庫中的胃癌數據進行如下篩選:(1)病例,選擇TCGA-STAD(Stomach adenocarcinoma);(2)文件中的數據分類,選擇轉錄組譜(Transcriptome profiling);(3)數據類型,選擇基因表達定量;(4)實驗策略,選擇RNA測序(RNA-seq);(5)工作流類型,選擇HTSeq-FPKM。隨后,下載胃癌表達譜數據和臨床數據。
1.2.9統計學處理 根據|log2(FC)|>1且FDR<0.05篩選穩(wěn)定的DEGs。采用多因素COX比例風險回歸分析方法,建立具有預后價值的胃癌核心基因評估模型。利用受試者工作特征(ROC)曲線及曲線下面積(AUC)預測胃癌患者10年生存率,使用Kaplan-Meier生存曲線來比較不同組之間生存率的差異。以P<0.05為差異有統計學意義。
2.1胃癌GEO基因表達芯片數據集篩選 根據前期對GEO數據集的嚴格篩選條件,獲得7套胃癌基因表達數據,總樣本量為756例。其中,胃癌樣本為523例,正常樣本為233例。7套胃癌基因芯片表達數據中上調基因和下調基因的數量分布情況見表1。使用火山圖(圖1)顯示了差異基因在各個數據集中的分布情況,紅色表示上調基因和綠色表示下調基因。

注:Significant,顯著性;Down,下調;Up,上調;Not,不顯著。圖1 各組基因表達芯片數據火山圖

表1 各GEO基因芯片表達數據差異基因分布(n)
2.2Robust rank aggregation算法篩選胃癌差異表達基因 選擇FDR<0.05且差異變化倍數>1作為最終的差異表達基因。經過篩選,共計得到344個顯著差異表達基因,其中包括126個顯著上調基因和218個顯著下調基因。為了說明這些基因在7套胃癌數據集中的表達模式一致性,繪制了排名最顯著的前20個基因的表達譜熱圖,見圖2。

圖2 RRA算法篩選的胃癌DEGs
2.3差異基因功能及通路富集 對差異基因進行功能和通路富集分析,GO功能富集分析結果顯示,在生物學過程分類上,差異表達基因的主要富集于細胞外基質組織,在細胞組分分類上,這些基因顯著富集于細胞外基質,內質網和基底膜等,同時,這些差異表達基因在分子功能分類上顯著富集于受體和配體的調節(jié)功能;通過KEGG通路富集,分析發(fā)現,表達差異基因顯著富集于蛋白的消化和吸收、胃酸分泌、化學致癌及其他物質能量代謝途徑。
2.4DEGs的PPI網絡構建 將344個差異基因導入STRING數據庫,來觀察基因PPI網絡,并使用R語言插件MCODE進行分析構建子網絡,其中,紅色表示上調基因,綠色表示下調基因,見圖3。
2.5核心基因篩選 使用MCC、DMNC、MNC、Degree、EPC、BottleNeck、EcCentricity、Closeness、Radiality、Betweenness 10種拓撲分析算法對前50個基因進行排名,10種算法的基因取交集得到核心基因,分別是:CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC。
2.6免疫細胞浸潤分析 使用CIBERSORT算法,胃癌組織中22種免疫細胞種類(圖4A)。與其他免疫細胞相比,CD4 T細胞在胃癌組織中表達較低,而在正常胃組織中表達較高(圖4B)。以上結果表明,CD4 T細胞對于胃癌的發(fā)生發(fā)展可能起著至關重要的作用。此外,本研究還構建了可視化小提琴圖以證明上述發(fā)現(圖4C)。PCA圖(圖4D)顯示,在正常胃組織和胃癌組織中免疫細胞浸潤具有個體差異。

注:A為胃癌組織中22種免疫細胞種類;B為CD4 T細胞表達情況;C為可視化小提琴圖;D為PCA圖;Normal,正常胃組織;Tumor,胃癌組織。圖4 免疫細胞浸潤分析
2.7生存分析 使用R語言Survival包分析12個核心基因與患者總生存率的相關性,將患者樣本分為高、低表達兩組,以獲得Kaplan-Meier生存曲線。生存曲線分析結果表明,CHGB(P=0.008)、COL4A1(P=0.001)、THBS1(P=0.004)、COL3A1(P=0.002)、COL1A1(P=0.010)、COL1A2(P=0.009)、SPP1(P=0.045)、LUM(P=0.006)、FGG(P<0.001)、TIMP1(P=0.013)、VCAN(P<0.001)和SPARC(P=0.003)在高、低表達組間相比,P值均小于0.05,說明這些基因高、低表達與胃癌患者的總生存期顯著相關。
根據2015年的中國癌癥統計數據,胃癌是中國乃至世界范圍內發(fā)病率和死亡率最高的四種癌癥之一[4-5]。很多胃癌患者在被診斷時已經處于進展期,錯過了最佳的手術切除的機會,晚期和進展期胃癌患者的5年總生存率較低[6]。因此,挖掘和尋找關鍵的潛在胃癌治療和預后的標志物具有極其重要的意義。
生物信息學技術和方法的不斷發(fā)展推動了人們對惡性腫瘤大數據挖掘研究的認知和理解。通過基因芯片、RNA-seq技術及公開數據庫,如GEO和TCGA的應用,研究人員能夠從轉錄組、蛋白組和其他組學層面更深入地了解癌癥的發(fā)生和發(fā)展機制。本研究利用了GEO數據庫中的7個胃癌基因芯片表達譜數據集(GSE54129、GSE63089、GSE65801、GSE66229、GSE79973、GSE118897、GSE118916)。通過RRA算法的多步驟生物信息學分析方法,初步鑒定出344個顯著的穩(wěn)健差異表達基因,其中包括126個上調表達基因和218個下調表達基因。同時,通過經典的生物信息學注釋和富集分析方法篩選出12個核心基因(CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC)。之后,利用逐步多因素COX風險比例模型構建了胃癌核心基因的預后評估模型,結果發(fā)現這些基因在高、低表達組中P值均小于0.05,說明這些基因高低表達組與胃癌患者的總生存期顯著相關。免疫細胞浸潤結果表明,與其他免疫細胞相比,CD4 T細胞在胃癌組織中表達較低,而在正常胃組織中表達較高,表明CD4 T細胞對于胃癌的發(fā)生發(fā)展可能起著至關重要的作用[7]。在胃癌發(fā)展的過程中,CD4 T細胞的功能和數量可以受到多種因素的影響[8]。免疫系統中的CD4 T細胞可以識別和攻擊癌細胞,發(fā)揮抗癌免疫應答的作用[9];其能夠激活其他免疫細胞,如CD8 T細胞和自然殺傷細胞,增強其對癌細胞的殺傷效應[10]。此外,CD4 T細胞還可以產生細胞因子,如干擾素γ和腫瘤壞死因子,抑制癌細胞的增殖和生存[11]。癌細胞和其他免疫抑制細胞,如調節(jié)性T細胞(Treg細胞)和腫瘤相關巨噬細胞,可以釋放免疫抑制因子,限制CD4 T細胞的功能和增殖[12]。這種抑制性微環(huán)境可以導致免疫耐受和免疫逃逸,使得胃癌細胞能夠逃避免疫系統的攻擊。
CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC可能成為胃癌的早期診斷和預后的關鍵靶點。CHGB屬于一種特異性蛋白質,它在神經內分泌細胞中起到儲存和釋放激素的作用。有研究發(fā)現,高表達的CHGB基因與胃癌的惡性生物學行為如侵襲和轉移相關。此外,CHGB也被認為參與了胃癌細胞的血管生成和腫瘤微環(huán)境的調節(jié)[13]。COL4A1是編碼膠原蛋白Ⅳα1鏈的基因,可以與其他細胞外基質分子相互作用,調節(jié)腫瘤細胞與基質的相互作用,從而影響胃癌的浸潤和轉移能力[14]。THBS1是一種細胞外基質蛋白質,具有調節(jié)細胞-細胞和細胞-基質相互作用的功能,THBS1可以影響腫瘤微環(huán)境中的血管生成過程,為胃癌的生長和轉移提供支持[15];COL3A1是編碼膠原蛋白Ⅲα1鏈的基因,其在組織的彈性和穩(wěn)定性中發(fā)揮關鍵作用。COL1A1和COL1A2分別是編碼膠原蛋白Ⅰα1鏈和編碼膠原蛋白Ⅰα2鏈的基因。COL3A1、COL1A1、COL1A2與胃癌細胞的增殖、遷移、凋亡和侵襲密切相關[16]。SPP1可通過激活PI3K/AKT信號通路抑制胃癌細胞的增殖、侵襲、轉移和上皮間質轉化[17]。LUM是一種編碼骨架蛋白的基因,LUM在細胞外基質中發(fā)揮重要的調節(jié)作用,并參與多種生物學過程,是彌漫型胃癌的核心基因[18]。FGG是人類體內的一種蛋白質,屬于纖維蛋白原家族的成員之一,在腫瘤細胞中通過激活EMT信號通路,促進癌細胞的惡性侵襲,與腫瘤細胞的早期浸潤和術后復發(fā)密切相關[13]。TIMP1是一種由TIMP1基因編碼的蛋白質,TIMP1通過抑制金屬蛋白酶的活性,參與調節(jié)細胞外基質的降解和重建,血清TIMP1水平升高與胃癌患者預后不良相關,因此,高表達的TIMP1是患者預后不良的獨立衡量指征[19]。VCAN是一種編碼大分子基質蛋白的基因,在細胞外基質中起著重要的調節(jié)作用,VCAN基因的表達與特定免疫細胞CD4+T、CD8+T和免疫分子如CD2、CD3D和CD3E密切相關[20]。SPARC是一種由細胞分泌的酸性且富含半胱氨酸的蛋白質,在腫瘤進展的不同階段可參與細胞外基質的重塑過程,充當腫瘤抑制或啟動的因子[21]。
本研究在分析和篩選過程中采取了循序漸進、系統并具有邏輯性的方法,然而,在深入分析時需要注意以下問題和不足之處:首先,后續(xù)根據臨床樣本,采用實時熒光定量PCR(qPCR)和蛋白質印跡(Western blotting)來驗證上述差異表達基因的結果;其次,在臨床樣本中,應用該基因模型來評估胃癌患者的預后時,需要進行相應的檢測。這將有助于確定該基因模型在不同樣本集群中的適用性,還可以探索這些差異表達基因在胃癌發(fā)生發(fā)展中的功能和機制,從而更好地理解其生物學意義。
綜上所述,CD4 T細胞在胃癌的發(fā)生發(fā)展中起著重要作用,CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC可能為胃癌的早期診斷和預后的關鍵靶點。研究這些基因在胃癌發(fā)生和發(fā)展中的分子生物學功能,可為后續(xù)胃癌早期診斷預后模型的構建、實驗驗證、機制研究和胃癌早期診斷試劑盒的開發(fā)提供了理論依據。