郭躍 王少波 曾昊 龐志剛
潰瘍性結腸炎(UC)是一種慢性復發性腸道炎癥性疾病,其病因及發病機制尚不完全清楚。UC最嚴重的并發癥是潰瘍性結腸炎相關性結腸癌。結直腸癌是全球第三大常見癌癥,2020年全球共診斷結直腸癌1 931 590例,935 173例死于結直腸癌,死亡率位居第二[1]。據統計潰瘍性結腸炎相關性結腸癌發病率雖然只占結直腸癌的1%~2%,但卻占UC患者死亡原因的10%~15%[2]。研究顯示,UC所致的結腸癌惡性程度更高,預后更差[3]。研究表明,潰瘍性結腸炎相關性結腸癌與偶發性結直腸癌的臨床特點和發病機制不同[4]。
本研究以生物信息學方法分析基因數據集,探尋兩種腫瘤在分子水平的差異,并對得到的差異性表達基因進行功能聚類、京都基因和基因組百科全書(KEGG)途徑富集分析及基因本體(GO)功能注釋分析。構建蛋白質相互作用網絡,選擇與癌癥發病相關的中樞基因,使用網絡數據庫對所篩選的中樞基因進行生存分析,探討兩種腫瘤的差異基因及對預后的影響,以期為潰瘍性結腸炎相關性結腸癌的個體化臨床治療提供相應指導。
1.1 數據預處理 基因表達數據集來自在線Gene Expression Omnibus(GEO)數據庫(https://www.NCBI.NLM.NIH.gov/GEO/)。從數據庫中共提取100個關于炎癥性腸病的系列。檢索詞:炎癥性腸病、結腸癌。通過添加條件選擇人類基因,檢索結果69條。經過仔細對比,選擇數據集GSE39582[5]和GSE37283[6],其中GSE37283為潰瘍性結腸炎相關性結腸癌與正常組織的數據集,GSE39582為偶發性結直腸癌與正常組織的數據集。
1.2 差異基因分析 在R 4.0.3軟件中使用GEOqury包[7]獲得GSE39582和GSE37283數據集的表達矩陣,在NCBI下載GPL570平臺的注釋文件進行基因注釋。根據數據集的臨床信息分組分為癌癥組和正常組。對兩個數據集分別進行limma包[8]數據標準化處理,設置P<0.05和│log2FC│>1,選出兩個數據集中與正常組織相比表達上調或下調的基因。韋恩圖選出兩個數據集不相同的上調和下調基因進行后續分析。
1.3 富集分析 對篩選出的差異基因,采用clusterProfiler包[9]進行GO富集分析[10]及KEGG途徑分析[11]。GO富集分析主要描述與差異表達基因相關的生物學過程、細胞成分和分子功能,KEGG途徑分析揭示與差異表達基因相關的生物學途徑,以P<0.05為界值。
1.4 蛋白質相互作用網絡的構建及模塊選擇 使用STRING在線數據庫(http://string-db.org)[12]確定蛋白質相互作用網絡。單獨的點被去除,置信度得分≥0.4的交互作用被認為顯著并被保留。蛋白質相互作用網絡信息進一步導入Cytoscape 3.82軟件[13]用于后續分析。使用軟件中的分子復合物檢測(MCODE)應用程序進行模塊分析,以檢測聚類模塊,檢測到聚類最明顯的模塊后應用cytoHubb程序進行中樞基因篩選,選出排名靠前的中樞基因,顏色較深的模塊具有更強的匯聚性。
1.5 GEPIA數據庫中樞基因的驗證及生存分析 通過GEPIA數據庫(http://gepia.cancer.pku.cn/)進行腫瘤和正常組織差異基因表達分析、生存分析及基因相關性分析[14]。臨界條件設置為|Log2FC|=1,P<0.01,腫瘤為紅色模塊,正常組織為灰色模塊。
2.1 差異基因 GSE39582數據集中包含566例偶發性結直腸癌和19例正常組織樣本,GSE37283數據集中包含11例潰瘍性結腸炎相關性結腸癌和5例正常組織樣本。根據篩選標準在數據集中篩選潰瘍性結腸炎相關性結腸癌和偶發性結直腸癌差異表達基因,在GSE39582數據集中得到上調基因115個,下調基因328個;在GSE37283數據集中得到上調基因222個,下調基因444個,通過分析獲得兩個數據集中不相同的下調基因141個,上調基因396個。
2.2 差異基因的功能和途徑富集分析 為探索差異基因功能和途徑的豐富性,進行GO和KEGG分析。KEGG分析表明,代謝通路主要富集于補體途徑、細胞因子受體相互作用、利什曼原蟲相關通路、NK-κB信號通路等,見圖1。GO分析顯示,改變的細胞功能為代謝過程、細胞外泌體蛋白質異源二聚體活性、蛋白結合、信號轉導、質膜相關的分子功能等,見圖2。

圖1 KEGG富集分析

圖2 GO富集分析
2.3 蛋白質相互作用網絡構建與中樞基因識別 通過STRING在線數據庫,為重疊的差異表達基因構建蛋白質相互作用網絡,使用Cytoscape中的MCODE程序,分析基因之間的內在聯系網絡蛋白質。最重要的集群得分為26分,篩選出10個關聯性最高的基因,得分為26分,這10個中樞基因均為上調基因,見圖3。

圖3 聚類最明顯模塊及中樞基因
2.4 GEPIA數據庫中驗證中樞基因在腫瘤與正常組織表達水平差異及生存分析 在GEPIA數據庫中,再次驗證了潰瘍性結腸炎相關性結腸癌和偶發性結直腸癌組織之間中樞基因表達差異,見圖4。生存分析顯示,CCL4、CCL2、ITGAM基因對預后影響明顯,IL1B基因與預后相關,見圖5。

圖4 中樞基因在GEPIA數據庫中與正常組織的表達差異

圖5 GEPIA數據庫中樞基因生存分析
潰瘍性結腸炎相關性結腸癌與偶發性結直腸癌的臨床特點和發病機制不同。本研究基于基因數據集篩選出潰瘍性結腸炎相關性結腸癌和偶發性結直腸癌的差異表達基因,包括下調基因141個,上調基因396個。KEGG途徑分析顯示差異基因主要富集在補體途徑、細胞因子受體相互作用、利什曼原蟲相關通路、NK-κB信號通路,這些通路在細胞的代謝中具有重要作用。GO富集分析顯示下調基因富集于代謝過程、細胞外泌體蛋白質異源二聚體活性的細胞功能,上調基因富集于與蛋白質結合、信號轉導和質膜相關的分子功能。
通過STRING在線數據庫,構建了差異基因蛋白質相互作用網絡,將蛋白共作用網絡導入Cytospace軟件中的MCODE,分析兩個基因之間的內在網絡蛋白關系。最佳模塊得分為26分,采用cytoHubba軟件篩選出聚類程度排名前10的中樞基因PTPRC、TLR4、ITGAM、CD40、CD86、IL1B、CCL4、CXCL9、TLR2、CCL2,這些中樞基因均為上調基因。在GEPIA數據庫中驗證中樞基因,與正常組織表達差異明顯的基因為PTPRC、CXCL9、CD86、ITGAM、IL1B,其中在GEPIA數據庫的結腸癌中表達上調的基因有CXCL9、IL1B,下調基因有PTPRC、ITGAM、CD86。生存分析顯示,CCL4、CCL2、ITGAM基因對預后影響明顯,IL1B基因的表達與預后相關,其中ITGAM、CCL2在潰瘍性結腸炎相關性結腸癌中表達下降,CCL4、IL1B表達上升。
ITGAM參與單核細胞、巨噬細胞和粒細胞的各種粘附相互作用,研究報道,ITGAM與腫瘤轉移有明顯關系[15,16],該基因在結腸癌中下調可能與結腸癌的轉移有關。CCL2是一種趨化因子,其結合同源受體CCR2,具有多種促腫瘤發生作用,介導腫瘤生長和血管生成,促進腫瘤進展[17]。CCL4在結腸癌中的高表達可誘導腫瘤相關巨噬細胞,尤其是促腫瘤巨噬細胞的浸潤,CCL4的高表達與結腸癌患者的不良預后相關[18]。IL1B是一種抗感染促炎細胞因子,研究表明其突變增加了炎癥性腸病相關結腸癌在人群中的比例[19]。這些基因的改變將會對腫瘤的發生發展產生影響,篩選差異性基因有助于對腫瘤的發病機制有更深入的了解,也會為腫瘤的治療提供新思路。
綜上所述,本研究通過生物信息學對GEO數據集進行差異基因分析,通過蛋白質相互作用網絡確定了10個偶發性結直腸癌和潰瘍性結腸炎相關性結腸癌的差異基因,并通過在線數據庫驗證與正常組織的表達差異,選出對預后影響較大的基因,為潰瘍性結腸炎相關性結腸癌的臨床治療提供新的靶點及治療方向,為腫瘤的個體化治療提供指導。然而本研究通過公共數據庫的數據分析完成,相關結果需要進一步的實驗研究加以驗證。