孫欣穎,李洋杰,安小成,劉洪,李權,陳曦,王正東
(1.沈陽醫學院2018級臨床醫學專業學生,遼寧 沈陽 110034;2.基礎醫學院2020級碩士研究生;3.2019級臨床醫學專業學生;4.醫學信息工程學院計算機教研室;5.2017級預防醫學專業學生;6.基礎醫學院解剖學教研室)
肝細胞癌(hepatocellular carcinoma,HCC)是消化系統最常見的惡性腫瘤之一,2021 年美國癌癥協會統計發現,肝癌作為最常見癌癥之一,其男性和女性患者的病死率分別排名為第五和第七[1]。中國2020 年原發性肝癌發病率居惡性腫瘤第5 位,新增41 萬例,其中男性30.3 萬例,年齡標化后發病率(age-standardized incidence rate,ASIR)分別為男性27.6/10 萬、女性9.0/10 萬;死亡率居第2 位,死亡39.1 萬例,死亡率為17.2/10萬。近5年全球原發性肝癌平均年發病例數為99.5 萬例,亞洲73.2 萬例,占全球73.6%,中國42.3萬例,占全球42.5%[2]。
在高危人群中篩查HCC 有助于早期發現、診斷以及治療,對于改善HCC 患者的預后至關重要。在中國,過量飲酒、非酒精性脂肪肝、長期食用受黃曲霉毒素污染食物的患者易感染乙型肝炎病毒(HBV)和/或丙型肝炎病毒(HCV)。特別是40 歲以上的中國男性罹患HCC 的風險增加[3]。肝超聲檢查和血清甲胎蛋白(AFP)檢測用于HCC 的早期篩查,對于高危人群,建議至少每6 個月篩查一次[4]。然而,血清AFP 作為肝癌篩查的主要血清學指標,由于敏感性不高導致其診斷的準確性差強人意,因此臨床上迫切需要尋找新的肝癌血清標志物[5]。
對于早期HCC 患者,通過部分肝切除手術是有可能徹底治愈的。在疾病早期進行手術治療是當前根治此病的唯一方法[6]。然而,原發性肝癌早期臨床癥狀難以被觀察到,并且病情發展快,當確診后通常已經處于中晚期階段,此時手術難度過大,甚至部分患者已經不能進行手術治療[6]。原發性肝癌越早被診斷出,治療成功率越大,對預后質量的改善有重要意義。因此,迫切需要研發有效的早期診斷和治療方法。通過生物信息學技術篩選HCC 患者組織的差異表達基因(differentially expressed genes,DEGs)來發現潛在生物標志物,對HCC 的診斷和治療具有重要意義。本研究擬通過對GEO 數據庫的表達譜芯片進行數據挖掘并進行分析,篩選在HCC 表達的關鍵基因,從而為探索HCC 的分子機制提供新線索。
1.1 原始研究數據的獲取 進入GEO數據庫網站(https://www.ncbi.nlm.nih.gov/geo),在檢索框輸入關鍵詞“hepatocellular carcinoma”進行數據檢索,對檢索結果進行限定:研究類型選擇“Expression Profilling by array”,組織來源選擇“Homo sapiens”。通過篩選獲得3 組數據集分別為GSE101728(7 例肝癌組織,7例癌旁正常組織)[7]、GSE98617(36例肝硬化合并肝癌組織,13 例無腫瘤肝硬化組織)[8]、GSE112791(183 例肝癌組織,15 例正常肝組織)[9]。
1.2 方法
1.2.1 DEGs 的篩選 通過GEO2R 在線分析工具,以|LogFC>1|且矯正后P<0.05 為篩選標準,將每個芯片的HCC 組織和正常組織進行分組,對3組數據集進行DEGs的篩選。為降低假陽性率,對3組數據的DEG進行韋恩圖繪制并取交集。
1.2.2 DAVID 數據庫富集分析 通過DAVID(The Database for Annotation,Visualization and Integrated Discovery,https://david.ncifcrf.gov/home.jsp)生物信息在線分析工具[10-11]對DEGs 進行綜合的生物學功能注釋分析。GO 一共有三個本體(ontology),包括基因的細胞組分(cellular component)、分子功能(molecular function)、參與的生物過程(biological process)。KEGG (Kyoto Encyclopedia of Genes and Genomes)數據庫擁有代謝通路數據庫和基因數據庫等,其中代謝通路數據庫應用最廣。
1.2.3 差異基因編碼蛋白質的網絡構建和分析 將DEGs 上 傳 至STRING 數 據 庫(http://string.db.org)進行蛋白質-蛋白質相互作用分析。得到蛋白互作關系對后,使用Cytoscape軟件[12]進行網絡圖可視化繪制,并使用MCODE插件[13]對PPI網絡上所有DEGs 進行分析,篩選出網絡中的關鍵模塊,并使用Cytohubba插件[14]對關鍵模塊中的DEGs進行評分,其中評分等級為最高級的DEGs選為關鍵基因。
1.2.4 關鍵基因的生存分析 通過在線數據庫Kaplan-Meier Plotter(http://kmplot.com/analysis)使用網站默認數據對關鍵基因進行后續生存分析,并繪制生存曲線。
1.2.5 基因表達程度分析 GEPIA[15](http://gepia.cancer-pku.cn/)為一種新開發的用于癌癥和正常基因表達分析和交互式分析的Web 服務器,分析功能豐富,如腫瘤/正常差異表達分析、生存分析、基因相關性分析和降維分析等。本研究將上述生存分析的21 個基因中與HCC 患者預后相關的核心基因,使用GEPIA 進行表達鑒定,初步驗證其在HCC 組織與正常肝組織之間的表達差異。
2.1 DEGs篩選結果 GEO數據庫篩選獲得的3組數據集情況見表1。通過GEO2R 對3 組數據集進行分析,得到表達上調和下調的DEGs,繪制火山圖(圖1)。在3 個芯片GSE101728、GSE98617、GSE112791 中分別篩選出DEGs 1 673 個、1 032個、1 038個。利用韋恩對3組數據取交集,獲得共同差異表達基因149個(圖1D)。在3組數據中均表達上調基因90個,均表達下調基因59個。

圖1 HCC相關DEGs的篩選

表1 數據集情況
2.2 GO 功能分析和KEGG 通路富集分析 通過DAVID數據庫對149個差異基因進行GO和KEGG分析。GO功能富集分析顯示,差異基因在生物過程中主要影響細胞的增殖、分裂;在細胞組分中主要影響胞外區;在分子功能中主要影響蛋白結合,見圖2。KEGG功能注釋主要集中于細胞周期(通路圖見圖3)、卵母細胞減數分裂、P53 信號通路(表2)。

表2 差異表達基因KEGG通路富集分析(P<0.05)

圖2 差異表達基因GO功能富集分析

圖3 細胞周期(cell cycle)通路圖(標注五角星為上調基因)
2.3 PPI網絡構建及關鍵基因篩選 將DEGs上傳至STRING 數據庫,用Cytoscape 軟件對PPI 網絡進行可視化(圖4A)。在該軟件中使用MCODE模塊化算法對PPI網絡進行進一步分析,篩選條件為degree cut-off=2,node score cut-off=0.2,Max depth=100,k score=2,獲得3 個模塊。其中模塊1 MCODE score=42.682(圖4B),模塊2 MCODE score=4(圖4C),模塊3 MCODE score=3.333(圖4D)。選模塊1 作為關鍵模塊,使用Cytohubba 插件對關鍵模塊中的DEGs 進行評分,設置算法為Degree 算法,得到評分等級最高的21 個基因作為關鍵基因,均為上調基因,分別為:RRM2、CENPF、ZWINT、ASPM、AURKA、NCAPG、CCNB1、PBK、KIF20A、CCNA2、CEP55、CDCA5、KIF4A、CCNB2、TOP2A、TPX2、AURKB、NUSAP1、CDC20、KIF15、UBE2C。

圖4 差異表達基因的PPI網絡和模塊分析
2.4 生存分析 21個關鍵候選基因的預后信息在Kaplan-Meier Plotter 繪圖數據庫中獲得。生存分析曲線結果顯示,21個關鍵基因均與HCC患者預后相關,且均為負相關關系。其中7個基因與預后顯著相關,分別是CEP55、CDC20、ZWINT、TPX2、CDCA5、NCAPG、KIF20A(圖5)。

圖5 核心基因的Kaplan-Meier預后價值
2.5 7 個與預后相關的DEGs 在HCC 組織及其癌旁組織中的表達情況 將上述7 個與預后相關的DEGs通過GEPIA進行表達量分析,表達情況見圖6。結果顯示,7 個DEGs 在HCC 組織中的表達較癌旁組織高,其中6 個基因CDC20、ZWINT、TPX2、CDCA5、NCAPG、KIF20A的結果差異有統計學意義(P<0.01)。見圖6。

圖6 基因表達譜交互分析進一步驗證預后相關DEGs在HCC組織及癌旁正常組織中的表達水平
肝癌的發病具有地方性的特點,并且與病毒性肝炎發病的地理分布相似。由于治療策略的不斷發展,在一些國家,肝癌患者的生存率有所提高。目前可用的治療策略根據肝癌分級有所不同:肝癌晚期,靶向藥物索拉菲尼是肝癌治療的新標準,除此之外還有新型療法溶瘤病毒療法以及傳統療法細胞毒化療、免疫療法等;肝癌中期的治療方法有肝動脈化療栓塞術;肝癌早期則可進行部分肝切除術,并在肝癌切除術后進行輔助治療,清除殘留的癌細胞,防止繼發性肝癌的發生[16]。近些年也出現了新型的藥物和給藥方式,但如何將藥物理想組合并設計理想的藥物聯合療法仍是一項挑戰[17]。
為深入了解其中的分子機制,篩選可用于HCC 診斷和藥物治療的靶點的關鍵基因,本研究通過GEO 數據庫選定3 個HCC 的數據集,首先在每個數據集進行DEGs的篩選,再對3個數據集的DEGs 取交集,獲得共有DEGs 149 個。GO 和KEGG富集分析顯示,DEGs在生物過程中主要影響細胞的增殖、分裂;在細胞組分中主要影響胞外區;在分子功能中主要影響蛋白結合。KEGG功能注釋主要集中于細胞周期、卵母細胞減數分裂、P53信號通路。現在普遍認為P53在對細胞周期阻滯、細胞衰老和凋亡的調控中起著重要作用,這有助于P53 在腫瘤抑制中的功能研究。p53抑癌基因的激活可導致細胞周期阻滯,其關鍵機制是介導多種細胞周期基因轉錄下調。p53-p21-DREAM-E2F/CHR 通路控制著大量的細胞周期基因,可導致細胞周期阻滯,是癌癥治療的靶點之一[18]。p53 基因的突變發生在約50%的人類癌癥中,使其成為人類癌癥中最常突變的基因之一[19]。
基于STRING 數據庫,通過構建DEGs 的PPI并分析關鍵模塊,共獲得21 個關鍵基因。通過Kaplan-Meier 在線繪圖數據庫中對21 個關鍵基因進行生存分析,獲得7個基因與預后顯著相關,分別是CEP55、CDC20、ZWINT、TPX2、CDCA5、NCAPG、KIF20A。通過GEPIA對這7個基因進行表達量分析,除CEP55外,均在HCC組織中的表達較癌旁組織高。
有研究顯示,與正常肝組織相比,CEP55 在肝癌組織中過度表達,CEP55 在肝癌組織中的表達程度與B細胞、CD4+T細胞、CD8+T細胞、巨噬細胞、中性粒細胞和樹突狀細胞的浸潤水平顯著相關[20]。CEP55的DNA甲基化可能導致其在肝癌中的過度表達[21]。CDC20在細胞周期和細胞凋亡等生物過程均有重要調控作用,除此之外,CDC20 在多種人類惡性腫瘤的發生發展中扮演重要角色,并已被證實與HCC 密切相關。一項研究顯示,與相鄰的非腫瘤肝組織相比,68.18%的HCC組織中觀察到CDC20的過度表達[22]。值得注意的是,高水平的CDC20 表達與患病性別、腫瘤分化程度和TNM 分期呈正相關[23]。ZWINT 在肝癌組織和肝癌細胞系中表達頻繁上調,且ZWINT的高表達與HCC 患者的腫瘤進展及預后不良顯著相關[24]。在肝癌細胞系中,ZWINT的缺失可能會抑制肝癌細胞的增殖和細胞周期進程[25]。有研究發現,ZWINT 與細胞周期蛋白之間存在相關性[26],但ZWINT 如何影響細胞增殖和細胞周期尚不清楚。因此,ZWINT可能是HCC進展和預后的一個新的生物標志物。肝癌組織中,TPX2 mRNA 和蛋白質的表達水平明顯高于癌旁正常肝組織[27]。研究表明,靶向沉默TPX2 可通過抑制PI3K/AKT信號轉導,降低肝癌細胞的存活率,阻斷細胞周期進程,促進肝癌細胞凋亡,因此,TPX2可能成為肝癌診斷和治療的潛在靶點[28]。NCAPG是一種有絲分裂相關的染色體凝聚蛋白,與TPX2相似的是,同樣有研究闡明了NCAPG 通過PI3K/AKT/FOXO4 通路在HCC 發病機制中的致癌作用[29]。CDCA5是細胞分裂間期黏連蛋白與染色質相互作用的重要因素。CDCA5在HCC癌變中有關鍵致癌作用,轉錄因子E2F1通過直接結合其啟動子轉錄CDCA5,同時,CDCA5 基因敲除可通過抑制AKT 信號通路抑制細胞增殖并誘導細胞凋亡,這些結果顯示CDCA5 的表達可能是HCC 患者預后不良的一個獨立因素[30]。KIF20A 是Hedgehog(Hh)信號轉導通路的重要下游靶基因,而且,Gli2-KIF20A 軸對肝癌細胞的增殖和生長至關重要。研究表明,Gli2-KIF20A軸是未來治療干預的潛在靶點,也是肝癌的獨立預后生物標志物[31]。
綜上所述,本研究運用生物信息學的方法對HCC芯片數據進行挖掘,篩選出可能參與HCC發生和發展的關鍵基因,這些基因作為潛在分子標志物將有助于HCC 的早期診斷、治療靶點選擇和預后判斷,并為后續的研究提供參考。但是本研究只局限于使用生物信息學方法對現有的數據進行二次挖掘,闡明HCC 的發生和發展機制仍需進一步臨床和實驗室驗證。