王思毓, 劉珊, 劉艷艷, 郭夢玲, 張思宇, 安倩, 蔣永新
650118昆明,昆明醫科大學第三附屬醫院 分子診斷中心/云南省肺癌研究重點實驗室/教育部高原區域性高發腫瘤國際合作聯合實驗室
據最新統計數據,結直腸癌是全球第三大常見腫瘤和第二大腫瘤相關死因,每年有近180萬新發病例和近90萬與之相關的死亡,5年總體存活率不足50%[1-3]。結直腸癌的預后在很大程度上取決于能否早期發現腫瘤。Liu等[4]發現,早期診斷的結直腸癌患者5年生存率>90%,但由于患者早期無特殊癥狀,同時缺乏足夠有效的診斷方法,結直腸癌往往在晚期才被發現。近年來隨著手術及各種治療方法的進步,結直腸癌患者的治療療效有了很大的提高,然而晚期結直腸癌患者的5年生存率仍很低,不足12%[5]。因此,迫切需要了解結直腸癌發生進展的分子機制,尋找有效的生物標志物用于結直腸癌的早期診斷、預后評估和治療,以提高患者的存活率。
近年來基于基因芯片結合生物信息學的工具廣泛用于研究復雜疾病的發病機制,是識別與腫瘤發生、進展、診斷和預后相關的生物標志物的有效途徑[6-7]。在本研究中,我們整合了從GEO數據庫中篩選出的兩個數據集,以獲得結直腸癌特有的差異表達基因(differentially expressed genes,DEGs)。對DEGs進行功能和通路富集分析來揭示DEGs的功能和作用機制,構建蛋白質相互作用(protein-protein interaction,PPI)網絡以確定與結直腸癌相關的關鍵樞紐Hub基因。利用在線工具Kaplan-Meier plotter和GEPIA數據庫對篩選出的關鍵樞紐Hub基因進行生存分析,探討Hub基因與結直腸癌預后的關系,篩選出與預后相關的核心基因,并對與預后相關的核心基因的表達水平進行驗證,分析預后相關的核心基因的啟動子甲基化水平,以期為結直腸癌的早期診斷,預后評估和治療提供新的分子標志物。
本研究的工作流程如圖1所示。通過在美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)平臺下的GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)中輸入關鍵詞“colorectal cancer”“Homo sapiens”和“expression profiling by array”來進行數據集搜索。數據集需要滿足以下標準:1)數據來自臨床研究,而不是側重于細胞系或特定免疫細胞的研究;2)數據集的樣本大小必須大于100;3)比較對象必須是結直腸腫瘤組織和鄰近的正常結直腸組織。最終從搜索結果中獲得兩個數據集GSE87211[8]和GSE44076[9],其中GSE87211數據集基于GPL13497平臺(Agilent-026652 Whole Human Genome Microarray 4x44K v2),包含203例結直腸癌組織和160例正常對照組織。GSE44076數據集基于GPL13667平臺([HG-U219] Affymetrix Human Genome U219 Array)包括98例結直腸癌組織和98例正常對照組織。

圖1 研究工作流程圖
使用R軟件(3.6.3版,https://www.r-project.org/)中的GEOquery軟件包對GEO中的兩個數據集進行標準化預處理。去除沒有對應基因的探針集,根據注釋信息進一步轉換成相應的基因,同一基因有多個探針時計算其均值。R軟件中的limma軟件包分析兩數據集中結直腸癌組織和正常組織的DEGs,DEGs的篩選標準為:|logFC(fold change)|>2和adjustedP<0.01。分別用R軟件中pheatmap軟件包和ggplot2軟件包進行聚類熱圖和火山圖的繪制分析。最后為降低結果中的假陽性率,使用R軟件中的VennDiagram軟件包對兩個數據集取交集繪制Venn圖,確定共有的DEGs。
為了揭示DEGs的功能,利用Enrichr數據庫(https: //maayanlab.cloud/Enrichr/)對DEGs進行了基因本體(Gene Ontology,GO)注釋和京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,將富集結果用R軟件可視化,以同時滿足P<0.05和FDR<0.05作為顯著富集的標準。
通過向STRING數據庫網站(http://string-db.org)上傳DEGs來構建及可視化編碼蛋白之間的PPI。為了避免不準確的PPI網絡,我們設置所需的最低交互得分為0.9(cutoff≥0.9,高置信度)來獲得顯著的PPI,并去除與其他蛋白無相互作用的蛋白節點。采用Cytoscape軟件中的MCODE插件進一步分析及可視化關鍵模塊和Hub基因,Hub基因篩選的標準為:MCODE評分>10分。
Kaplan-Meier plotter(http://kmplot.com/analysis/)網站基于來自GEO、EGA和TCGA數據庫的腫瘤樣本,廣泛應用于探索基因對21種腫瘤生存的影響。GEPIA(http://gepia.cancer-pku.cn/index.html)提供了基于TCGA和GTEx數據庫的多功能分析。應用Kaplan-Meier plotter(含165名結直腸癌患者)和GEPIA(含270名結直腸癌患者)來評估Hub基因表達與結直腸癌患者總生存期(overall survival,OS)的關系,篩選與預后相關核心基因。根據Hub基因表達的中位數將結直腸癌患者分為高表達組和低表達組,以基因表達量的下限50%和上限50%作為分析標準,Log-rank檢驗P<0.05為差異有統計學意義。
應用Oncmine數據庫(https://www .oncomine.org)和GEPIA數據庫對與預后相關的核心基因在結直腸癌樣本和正常樣本中的mRNA表達量進行驗證及可視化。同時滿足|logFC(fold change)|>1和P<0.01為差異有統計學意義。
Ualcan數據庫(http://ualcan.path.uab.edu/index.html)是基于TCGA中的相關癌癥數據進行基因甲基化、相關性分析等多功能分析數據庫[10]。應用Ualcan數據庫,對結直腸癌組織和正常對照組織中核心基因的啟動子甲基化水平進行分析及可視化,設置P<0.05為差異有統計學意義。
從GEO數據庫獲取兩個符合納入標準的數據集,其中GSE87211共納入363例樣本(203例結直腸癌組織和160例正常組織),GSE44076共納入196例樣本(98例結直腸癌組織和98例正常組織)。根據篩選標準|logFC(fold change)|>2和adjustedP<0.01,從GSE87211數據集中得到853個DEGs(357個上調基因和496個下調基因),GSE44076數據集中得到467個DEGs(119個上調基因和348個下調基因)。數據集的前50個DEGs的聚類熱圖見圖2A、C,DEGs的分布火山圖見圖2B、D。Venn圖(圖2E)顯示了兩個數據集取交集的基因數,共有256個共同的DEGs,其中包括73個表達上調基因和183個表達下調基因。

圖2 結直腸癌DEGs
GO富集分析結果顯示,DEGs在生物過程方面(biological process,BP)主要富集在細胞外基質降解、分子黏附等;在細胞組分方面(cellular component,CC)主要富集在膠原蛋白類細胞外基質、基底細胞膜等;在分子功能方面(molecular function,MF)方面主要富集在受體配體相互作用、趨化因子活動等(圖3A~C)。KEGG富集分析結果顯示,DEGs主要富集在PPAR信號通路、氮代謝等(圖3D)。同時分別對上調和下調的DEGs進行了富集分析,結果見表1和表2。

表1 上調DEGs的GO和KEGG富集

表2 下調DEGs的GO和KEGG富集

圖3 DEGs的GO和KEGG富集
將DEGs上傳至STRING,設置cut off≥0.9(高置信度),構建PPI網絡。去除與其他蛋白明顯無相互作用的蛋白節點,如圖4A所示,PPI網絡中共含64個節點,286條相互作用的連線,PPI網絡富集P< 0.001運用Cytoscape軟件中的MCODE插件,設置MCODE評分>10分,篩選得到連接最緊密的1個核心模塊,共包含13個Hub基因(圖4B)。

圖4 DEGs的PPI網絡(A)和核心模塊的Hub基因(B)

(Table 1 continues on next page)

(Table 2 continues on next page)
運用GEPIA和Kaplan-Meier plotter分析與繪制生存預后曲線可視化Hub基因與結直腸癌患者生存預后的關系,設置Log-rankP<0.05為差異有統計學意義。其中CXCL2和GNG4基因在兩種網站的分析結果中均表現出與患者OS的顯著相關性(圖5),認為是與患者預后相關的核心基因。高表達CXCL2的患者相較于低表達患者預后更好,高表達GNG4的患者相較于低表達患者預后更差。其余基因與患者OS無明顯相關性,或在兩種網站分析中結果未達成一致(表3)。

圖5 基于GEPIA(A)和Kaplan-Meier plotter(B)繪制的預后相關核心基因的生存曲線

表3 基于GEPIA和Kaplan-Meier plotter的13個Hub基因的生存預后分析
采用GEPIA與Oncomine兩種數據庫分別對核心基因CXCL2和GNG4在結直腸癌樣本與正常對照樣本中的mRNA表達進行驗證,設置|log2FC|>1和P<0.01為差異有統計學意義,CXCL2和GNG4在結直腸癌組織中均顯著高表達(圖6A、B),與在GEO數據庫篩選出的GSE872211和GSE44076數據集中的表達結果一致。

圖6 基于GEPIA中TCGA和GTEx的數據、Oncomine中的7個研究和UALCAN中的TCGA數據分析驗證CXCL2和GNG4在結直腸癌和正常組織中的mRNA表達水平(A、B)和甲基化水平(C)
通過Ualcan分析CXCL2和GNG4的啟動子甲基化水平,P<0.05為差異有統計學意義。如圖6 C所示,y軸的Beta值表示甲基化水平從0(未甲基化)到1(完全甲基化),CXCL2的中位Beta值在正常組織中為0.14,結直腸癌組織中為0.09,GNG4的中位Beta值在正常組織中為0.16,結直腸癌組織中為0.15。與正常組織相比,結直腸癌組織的CXCL2和GNG4甲基化水平均顯著降低。
晚期結直腸癌患者預后極差,其5年生存率不足12%[5,11]。深入研究結直腸癌發生進展的生物學過程、分子機制、涉及的信號通路,以發現有效的生物標志物用于結直腸癌的早期診斷、預后評估和治療具有重要意義。
本研究從GEO數據庫中篩選出含大量結直腸癌和正常對照組織的基因芯片的信息數據集GSE87211和GSE44076,共包含559例樣本(301例結直腸癌樣本和258例正常對照樣本)。先對每個數據集篩選各自DEGs,再取交集得到共同的256個DEGs(73個表達上調基因和183個表達下調基因)。對DEGs進行GO和KEGG富集分析,發現DEGs主要富集參與細胞外基質降解、分子黏附等生物過程;存在于膠原蛋白類細胞外基質、基底細胞膜等細胞組分;發揮受體配體相互作用、趨化因子活動等分子功能;KEGG通路主要富集在PPAR信號通路、氮代謝等。由此,我們對DEGs的功能、作用的信號通路有了更深入的了解。進一步對DEGs的PPI分析得到13個可能在結直腸癌的發生進展中起關鍵作用的Hub基因,其中CXCL2和GNG4基因與結直腸癌患者的預后密切相關。
CXCL2是趨化因子家族的成員,屬于內源性配體,是一種小分子分泌蛋白[12]。目前多項研究表明,CXCL2作為癌基因或抑癌基因與多種腫瘤密切相關。Ding等[13]發現,肝癌組織中CXCL2的表達水平顯著低于配對正常肝組織,與肝癌的不良預后相關。其過表達對肝癌細胞的增殖和生長有明顯的抑制作用,并能通過細胞核和線粒體凋亡途徑誘導肝癌細胞凋亡,通過ERK1/2信號通路對肝癌細胞的細胞周期進行負調控。此外Subat等[14]對肝癌細胞DNA脫甲基化處理后CXCL2顯著上調,提示CXCL2的作用機制可能受甲基化調控。另有研究[15]發現,CXCL2的表達和CD33+髓源性抑制細胞(myeloid-derived suppressor cells,MDSCs)的聚集在膀胱癌中明顯增加,且與疾病分期和預后不良顯著相關。CXCL2可通過介導膀胱癌中MDSC的趨化作用募集MDSC,進而提高腫瘤的免疫抑制能力,促進腫瘤發生發展。在本研究中,相較于正常組織,CXCL2在結直腸癌中明顯過表達。但有趣的是,生存分析顯示,CXCL2高表達的結直腸癌患者表現出更好的生存預后。Acosta等[16]的報道指出,CXCR2在癌前病變和早期癌癥中表達升高,而晚期癌癥中表達缺失,抑制CXCR2能抑制衰老和DNA損傷反應,與惡性腫瘤發展中逃避衰老的觀點一致。而CXCL2信號可通過CXCR2受體在腫瘤發生的早期加強衰老,起到阻止腫瘤進一步惡性轉化的作用,從而抑制腫瘤生長,或許可以解釋CXCL2在結直腸癌發生和預后中的雙重作用。
GNG4是G蛋白復合體家族中的一員[17]。Pal等[18]的研究表明,GNG4是膠質母細胞瘤(glioblastoma,GBM)中甲基化程度最高、表達水平最低的基因之一,通過甲基化抑制劑的處理,可以逆轉GBM細胞中GNG4轉錄水平的降低。過表達GNG4可抑制GBM細胞的增殖、集落形成、遷移和侵襲,提示GNG4在GBM中具有潛在的抑癌作用。Kishibuchi 等[19]發現,GNG4在胸腺癌中也表現出高度甲基化,DNA甲基化程度較高的胸腺癌患者的無復發生存率明顯低于DNA甲基化水平較低的患者。另外,GNG4的高表達與左半結腸癌患者的病理分期密切相關[20],還是影響直腸癌患者的新輔助放化療療效的重要因素[21]。我們的研究發現CXCL2和GNG4在結直腸癌組織中過表達,處于結直腸癌PPI網絡中的核心地位,對患者生存預后存在顯著影響,但其在結直腸癌中具體的作用及作用機制有待進一步的實驗研究。
利用GEPIA和Oncomine中數據對CXCL2和GNG4在結直腸癌和正常組織中的mRNA表達進行驗證,結果與GEO數據庫兩數據集中結果一致。另外,CXCL2和GNG4在結直腸癌組織高表達,同時表現出低甲基化水平,提示CXCL2和GNG4的啟動子甲基化可能是調控兩基因表達的重要因素。
綜上所述,本研究通過生物信息學技術篩選獲得了可能影響結直腸癌發生、進展、預后的核心基因,為結直腸癌的發病和進展提供了新的見解,為探索結直腸癌的發生發展的機制提供了新的思路,并初步證實啟動子甲基化是調控CXCL2和GNG4基因表達的重要因素。但他們能否在結直腸癌中發揮具體作用以及要了解其具體作用機制需要進一步的實驗探索。
作者聲明:本文全部作者對于研究和撰寫的論文出現的不端行為承擔相應責任;并承諾論文中涉及的原始圖片、數據資料等已按照有關規定保存,可接受核查。
學術不端:本文在初審、返修及出版前均通過中國知網(CNKI)科技期刊學術不端文獻檢測系統的學術不端檢測。
同行評議:經同行專家雙盲外審,達到刊發要求。
利益沖突:所有作者均聲明不存在利益沖突。
文章版權:本文出版前已與全體作者簽署了論文授權書等協議。