張鑫浩,張濤元,李 俏,祝擷英,曹三成,吳 爽
(1.日照心臟病醫院,山東日照 276800;2.西安交通大學附屬兒童醫院,西安 710003)
肝癌是世界范圍內最常見的癌癥之一,在消化系統腫瘤中,死亡率占第 3 位,且與發達國家相比,肝癌在發展中國家的發病率和死亡率更高[1]。已有證據顯示,包括cyclin D1(CCND1)[1],表皮生長因子受體(EGFR)、c-myc 在內的基因異常表達以及Ras 基因[3]、腫瘤抑制基因的突變表達參與了肝癌的發生發展過程。然而,由于早期缺乏有效的診斷方法,在疾病的發展階段,肝癌的死亡率仍然很高。因此,揭示肝癌致癌、癌癥轉移及肝癌復發等分子機制,對研發有效的診斷和治療方法而言,是十分重要且迫切的。
在過去的幾十年里,微陣列技術和生物信息技術已被廣泛用于鑒定基因組表達水平的改變[4],幫助我們識別肝癌相關的差異表達基因和相關信號通路。然而單一芯片分析的假陽性率較高,難以獲得可靠的結果。本研究從基因表達綜合數據庫GEO 中下載三個芯片微陣列數據集,從而獲得更可靠的正常肝組織與肝癌組織之間的差異表達基因,探究更多與肝癌發生轉化相關的分子標志物。
1.1 材料 利用基因表達綜合數據庫GEO[5],在GPL570 檢測平臺下,檢索三組人源性肝細胞肝癌的基因芯片,芯片信息為Affymetrix Human Genome U133 Plus 2.0 Array,編號分別為GSE88839[6](肝癌組織3 例、正常肝組織35 例)、GSE101685[7](肝癌組織8 例、正常肝組織324 例)、GSE112790[8](肝癌組織15 例、正常肝組織3183例)。
1.2 方法與統計學分析
1.2.1 差異表達基因的篩選:利用在線分析工具GEO2R 對三組芯片的差異表達基因進行篩選,當LogFC(foldchange)>1.5,P<0.05 時,基因表達差異具有統計學意義。利用韋恩對三組差異基因取交集,獲得共同差異表達基因。
1.2.2 差異表達基因的富集分析:將差異表達基因載入DAVID 數據庫[9]進行富集分析,以人源基因為背景進行生物學功能注釋及KEGG 信號通路的富集。P<0.05 時差異具有統計學意義。
1.2.3 PPI 網絡構建與關鍵模塊的基因分析:利用STRING[10]數據庫,獲取差異表達基因的PPI 網絡數據,用Cytoscape[11]軟件可視化PPI 網絡,利用MCODE 插件,根據網絡中蛋白作用關系,確定核心基因。MCODE 設置如下:MCODE scores>5, degree cut-off=2, node score cut-off=0.2, Max depth=100 and k-score=2。利用UCSC[12]癌基因數據庫對核心基因繪制層次聚類熱圖。
1.2.4 關鍵基因的臨床數據分析:利用 Kaplan Meier-Plotter(http://kmplot.com/analysis/)網站,分析核心基因對肝癌患者總生存率的影響。根據核心基因表達值的中位數,將肝癌患者分為高表達組和低表達組兩組,計算危險比(HR)、 95%置信區間及P 值,并繪制生存曲線。利用UALCAN 數據庫,分析關鍵基因的mRNA 表達情況與肝癌患者的癌癥分期和腫瘤分級之間的相關性,T 檢驗進行數據處理,且P <0.05 時差異具有統計學意義。
2.1 篩選差異表達基因 見圖1。將三組芯片數據經過標準化處理后獲得共同差異基因74 個,其中GSE88839 共有差異基因301 個,GSE101685共有差異基因1189 個,GSE112790 共有差異基因1109 個。

圖1 肝癌差異表達基因的韋恩圖
2.2 GO 富集分析 見表1。GO 富集結果表明:上述74 個差異表達基因主要參與細胞外間隙、細胞外小體、氧化還原等生物過程。
2.3 KEGG Pathway 富集分析見表2。KEGG Pathway 富集分析顯示:差異基因主要參與代謝途徑、癌癥中的轉錄失調、p53 信號通路及氨基酸合成等相關通路。
2.4 PPI 網絡構建及核心基因篩選 去除游離的蛋白后,共得到了由 70 個點,213 條邊構成的PPI網絡,見圖 2A。用Cytoscape 軟件的MCODE 插件,獲取由15 個點,102 條邊構成的相互作用程度最高的核心基因PPI 網絡,見圖2B,15 個點的基因名分別為:ECT2, DTL, PBK, TOP2A, CDKN3,NCAPG, ANLN, HMMR, RRM2, RACGAP1,KIF20A, BUB1B, CCNA2, TYMS, ZWINT。UCSC數據庫對這15 個核心基因進行層次聚類,發現這15 個基因在正常肝組織中低表達,在大部分肝癌組織中高表達,見圖2C。
2.5 預后價值分析 見圖3。利用Kaplan Meier-Plotter 對15 個核心差異表達基因與肝癌患者的預后進行分析。結果顯示:ANLN(HR=2.14,95%CI:1.49~3.08,P=2.6E-05),ECT2(HR=2.09,95%CI:1.48~2.97,P=2.3E-05),HMMR(HR=2.29,95%CI:1.62~3.34,P=1.3E-06),KIF20A(HR=2.33,95%CI:1.63~3.32,P=1.8E-06),NCAPG(HR=2.19,95%CI:1.54~3.13,P=8.8E-06),PBK(HR=2.24,95%CI:1.5~3.34,P=4.8E-05),RACGAP1(HR=2.24,95%CI:1.44~3.5,P=2.7E-04),ZWINT(HR=2.36,95%CI:1.66~3.35,P=8.5E-07)的高表達與肝癌患者較差的總生存率存在相關性。

圖2 PPI 網絡構建及關鍵基因篩

表1 肝癌差異基因的GO 富集分析

表2 肝癌差異基因的KEGG Pathway 富集分析

圖3 ANLN, ECT2, HMMR, KIF20A, NCAPG, PBK, RACGAP1, ZWINT 在肝癌中的預后價值
2.6 核心差異表達基因與肝癌患者臨床病理參數的相關性 見圖4。分析上述8 個基因與肝癌患者臨床病理參數的相關性,結果顯示與正常肝組織相比, ECT2, KIF20A, PBK, RACGAP1 和ZWINT 的mRNA 水平在不同的肝癌分級、分期中明顯升高,且差異具有統計學意義(P<0.05)。
肝癌是世界第五大惡性腫瘤,其發病率在近年來呈現上升趨勢[13]。肝癌的主要病因包括慢性病毒性肝炎、酒精性肝病、黃曲霉毒素中毒及與之相關的基因突變、細胞損傷等[2]。細胞周期蛋白D1(CCND 1), c-myc 或ras 的突變、cyclind 2(CCDN 2)啟動子的高度甲基化以及p53 或p21 的異常表達已被證實與肝癌有關[14-15]。由于這些基因對肝癌早期診斷并不適用,因此迫切需要發現新肝癌診斷和治療的生物標志物。
本文以生物信息學分析方法為基礎,利用GEO 數據庫中的三組肝癌芯片數據,共篩選出79個與正常肝組織具有表達差異的肝癌基因。 GO 和KEGG 富集分析顯示,差異表達基因與細胞外間隙、細胞外小體、氧化還原、代謝途徑、癌癥中的轉錄失調、p53 信號通路及氨基酸合成等生物過程密切相關,提示肝癌組織中,細胞異常增殖,且細胞凋亡失常。現已證實[16]p53 通路參與了肝癌的發生,抑癌基因p53 與細胞生長、分化以及細胞凋亡的調控密切相關。 因此p53 信號通路異常,可促使肝癌細胞惡性增殖、抑制凋亡。同時本文中差異基因所聚焦的氧化還原、代謝途徑等生物過程與肝癌患者的肝功能紊亂癥狀一致。對本研究共發現與8 個基因與肝癌患者總生存率相關,5 個基因與肝癌患者的臨床病理相關,對這些基因進行文獻挖掘,證實這些基因與肝癌的發生、發展及其預后關系密切。ECT2 在肝再生過程中以細胞周期依賴的方式表達,并被認為在調節胞質分裂中起著重要作用。有文獻表明ECT2 的表達可能是包括乳腺癌、肺癌在內的多種癌癥發生、發展的主要原因之一,且ECT 2 的高表達可以作為預測預后不良的獨立因素[17]。KIF20A 是胞質分裂的重要調節因子,已有大量隊列研究表明,KIF20A 在肝癌組織中的異常表達,與其較差的總生存率密切相關[18]。PDZ 結合激酶(PBK)的大量表達常與肝癌患者預后不良相關,PBK 能通過ETV 4-uPAR 信號通路促進腫瘤的侵襲和遷移,有望成為肝癌轉移的診斷標志物和治療靶點[18]。RABGAP 家族蛋白通過使RAB 蛋白失活來調節細胞功能,如細胞骨架重塑、囊泡運輸和細胞遷移等[20],RACGAP 1 與TPR 協同作用,通過降低Hippo 和YAP 通路的激活和促進胞質分裂,促進肝癌細胞的增殖[21]。ZWINT 在有絲分裂檢查點中起著重要作用,可以保證染色體在子代細胞間平均分配。據報道,ZWINT 與包括乳腺癌、前列腺癌和肺癌等在內的十幾種癌癥密切相關,且ZWINT是肝癌術后患者預后不良的獨立預測指標[22]。
綜上,本研究應用生物信息學分析了肝細胞肝癌的基因芯片數據。希望能夠深入了解肝癌發生、發展的分子機制,為肝癌的臨床檢測、治療提供新的潛在生物標志物。但是,由于缺乏有效的分子生物學實驗,對這些基因在肝癌組織中的功能進行分析驗證,因此本研究是局限的。盡管如此,本研究仍有助于更深入地了解肝癌的分子機制,并指導后續的分子生物學實驗。