趙 藝,盧秉久
肝細胞癌(hepatocellular carcinoma,HCC)的發生是一個多因素作用的過程,早期臨床缺乏特殊癥狀,腫瘤具有侵襲性,可能發生轉移,患者就診時多已發展到晚期[1,2]。現階段,治療HCC的方法有多種,其中應用較多的包括肝移植、腫瘤切除、栓塞化療、消融等,但這些治療方法的療效不一,患者預后差。因此,從遺傳學角度研究HCC發病的分子機制,尋找新的腫瘤標志物,有助于早期診斷、高精準度的靶向治療和預防性治療[3-5]。研究肝癌的發病原因及分子機制一直是研究者們努力的方向。研究揭示了肝癌發病的分子機制及其與病理學特征之間的緊密聯系,他們發現有PRAF2和GRB2等多種類型的基因突變導致了HCC的發生[6,7],同時也有學者基于基因組學研究,利用癌癥基因圖譜(The Cancer Genome Atlas,TCGA)和基因水平綜合數據庫(Gene Expression Omnibus, GEO)等數據庫對HCC的關鍵基因組變化進行了研究[8-10],通過對TCGA數據庫的挖掘,可以發現多種HCC致癌基因和抑癌基因,這些基因與HCC的發生發展及預后關系密切,利用這些數據庫可開展基因組學相關研究。本文通過對TCGA數據庫中HCC癌組織和癌旁組織進行基因富集分析(gene set enrichment analysis, GSEA)及對京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG)的通路注釋和富集分析,篩選出HCC組織差異水平密切相關的DNTM1、PRIM1和UCK2基因,以探討這三種基因對HCC的早期診斷和臨床治療提供支持的價值。
1.1 數據采集 打開TCGA (https://cancergenome.nih.gov/)數據庫,自《癌癥基因組圖集-肝細胞癌數據集》(TCGA-LIHC)收集基因數據和臨床數據。 從TCGA數據庫中提取HCC癌組織和癌旁組織DNTM1、PRIM1和UCK2 水平的有關資料,得到癌和癌旁組織的測序數據,由MD Anderson Cancer Center對所有數據進行標準化預處理。同時,下載患者的臨床資料,其中臨床數據為Level 3 等級。在TCGA 數據庫中設定的檢索條件如下:①Cases選項,Primary Site: Liver;其余選項以系統默認的設置;②Files 選項,Data Category: Transcriptome Profiling,Biospecimen,Clinical;Data Type: Gene Expression Quantification,Biospecimen Supplement,Clinical Supplement; Experimental Strategy: RNA - Seq;Work flow type: HTSeq - Counts,其余選項以系統默認的設置。篩選得到424例有效數據文件,其中HCC組織數據374 例,癌旁組織數據50例。隨后,通過R軟件( https: / /www.r-project.org /) 對所下載的數據進行整理,篩選數據庫,進行臨床病理學參數分類,尋找相關的差異基因,并繪制火山圖和熱圖。
1.2 基因的篩選和生存分析繪制 將差異基因通過除異均值化M值法( trimmed mean of M values,TMM) 對基因水平進行標準化處理,應用edgeR包篩選差異基因,采用錯誤發現率 ( false discovery rate,FDR) 對基因的顯著性進行校正。差異水平基因的截斷點(cut-off value)設定為: fdr=0.05 ,lgFC=1。應用單因素COX分析發現差異基因對肝癌患者預后的影響,并繪制生存曲線。以基因水平的中位數為分界,定義HCC組織DNTM1、PRIM1和UCK2基因水平的高低,據此將樣本分為低水平組和高水平組,同時繪制Kaplan-Meier曲線。
1.3 統計學方法 應用R3.5.2軟件進行統計學分析和相應圖形的繪制,應用Survival包進行單因素和多因素Cox比例回歸模型的篩選,并建立多基因預后模型。應用 Survival ROC包繪制ROC曲線,并計算曲線下面積(AUC),判斷Cox回歸模型預測HCC患者5 a生存率的準確性。
1.4 差異基因的富集分析 根據基因水平將患者分成低水平組和高水平組,對兩組樣品行GSEA富集分析。我們選擇基因集“c2.cp.kegg.v6.2.symbols.gmt”行KEGG富集分析,得到KEGG富集分析結果。
2.1 差異基因的篩選 在TCGA-LIHC數據庫,收集374例HCC組織和50例癌旁組織所對應的臨床和病理學參數。同時對檢索到的153個HCC相關的差異基因 (其中51個水平下調,102個水平上調)進行了分析,應用R軟件的edgeR軟件包研究上述差異基因。對滿足以下條件:即篩選fdr=0.05和lgFC=1者,根據篩選結果繪制火山圖(圖1),圖中紅色數據點為滿足篩選條件得到的HCC相關的差異基因,并對這些基因進行生存分析。

圖1 差異水平基因火山圖橫坐標是-lg(P value),縱坐標是lgFC;綠色代表下調基因,紅色代表上調基因
2.2 生存分析 應用R軟件的 Survival軟件包對生存行單因素COX分析,對篩選得到的差異基因進行生存分析。根據生存率指標風險比值(hazard ratio, Hr),繪制得出森林圖(forest plot,圖2)。除了CYP2C9基因人群生存率降低外,其他基因人群生存率不受影響(Hr>1)。對單因素分析得到的影響預后的相關基因進行多因素逐步回歸,以風險值=∑(基因系數×基因水平)構建風險模型,將基因水平的中位數值設為閾值,根據此閾值將患者劃分為高風險組和低風險組,根據高低風險值繪制Kaplan-Meier曲線,結果高風險組HCC患者總體生存率顯著低于低風險組患者(圖3)。

圖2 生存率相關的基因森林圖P<0.001為顯著性差異

圖3 HCC患者K-M生存曲線橫坐標是生存時間,縱坐標是生存率。根據基因水平的中位值,將患者分為高低兩組。紅色代表基因高水平組,藍色代表低水平組P<0.001為顯著性差異
2.3 診斷性ROC曲線情況 根據生存分析的結果,繪制ROC曲線,基于多因素COX回歸模型預測的HCC患者預后風險因素,其AUC = 0.649,大于其他臨床因素的AUC值,進一步確認了多因素 Cox回歸模型預測HCC患者預后風險的可信性,可以為肝癌患者進行個性化治療提供參考,從而降低患者病死率,改善預后(圖4)。

圖4 多因素Cox模型分析的針對性ROC曲線
2.4 對差異基因進行GSEA富集分析的結果 通過前述研究篩選出的顯著水平性基因DNTM1、PRIM1和UCK2,進行GSEA富集分析。GSEA顯示了許多顯著豐富的信號通路,進一步證明了上述基因與HCC發生及與患者預后的顯著性關系,從而揭示了HCC組織DNTM1、PRIM1和UCK2基因水平對生存的影響(圖5)。

圖5 GSEA富集分析結果圖形的上半部分是ES值富集的過程,圖形的下半部分是基因在每個功能的分布情況。在圖形中,不同的顏色代表不同的功能
癌癥基因圖譜(TCGA)數據庫容納了比較全面的基因測序數據。在美國政府的支持下,國家癌癥研究所和人類基因組研究所聯合創建了該數據庫。在數據庫中除了包含大量腫瘤基因數據外,還有眾多多維度的基因組變化的圖譜。庫中數據涉及到一萬多名患者的病變組織和正常組織信息,其中病變組織的類型有三十多種,包括 10種罕見腫瘤類型。該數據庫收集的數據很豐富,包括miRNA 序列、mRNA 序列、基因水平和DNA 甲基化相關數據等[11,12]。
中國的肝癌發病率居于全球的前列。近年來,高通量測序技術的發展在揭示癌癥發生發展過程中基因的異常水平和識別與癌癥診斷和預后相關的生物標記物方面起到了至關重要的作用[13,14]。本研究通過篩選 GSE10186 基因芯片得到差異基因153個,其中上調基因102個,下調基因51個。其中促癌基因 UCK2、DNTM1和PRIM1在GSE10186 芯片癌組織中呈現高水平,表明UCK2、PRIM1和DNTM1基因具有促進癌變的作用。抑癌基因CYP2C9在GSE10186 芯片癌組織中呈現低水平,表明CYP2C9基因對肝癌有抑制作用。在對 89個差異水平基因進行單因素Cox回歸分析篩選出與肝癌患者預后顯著相關的基因,在對374例肝癌患者進行風險比值的評分后,將患者劃分為高風險組和低風險組并進行 Kaplan-Meier 生存分析,結果表明高風險組肝癌患者總體生存率顯著低于低風險組患者。ROC曲線確認了基于多因素COX回歸模型預測肝癌患者預后風險的可信性,可以為肝癌患者進行個性化治療提供參考,從而降低患者的病死率,改善預后。
迄今為止,已鑒定出三種人尿苷胞苷激酶基因,包括UCK1、UCKL1和UCK2,其中UCK1和UCK2共有約70%的序列同一性[15-16]。UCK1在多種正常人體組織中均有存在,如骨骼肌、心臟、肝臟和腎臟,而UCK2僅在正常人胎盤和睪丸中檢測到,但其在胰腺腫瘤組織、結直腸癌組織、神經母細胞瘤和乳腺癌組織上調[17,18]。因此,UCK2被認為是癌癥預后的生物標志物。肝癌組織UCKL1和UCK2水平比鄰近肝組織高,推斷UCK2上調可能是肝癌的一個有價值的預后指標[19]。
DNMT1是哺乳動物基因組表觀遺傳修飾中DNA甲基化的關鍵基因,其編碼的蛋白是一種分子量大且功能復雜的酶,具有多種調控功能,參與機體發育過程中干細胞生長、細胞增殖、器官發育、衰老和腫瘤發生等多個生物學過程[20]。學者在實驗中發現DNMT1蛋白的高水平能有效預測早期胃腸道癌和嚴重癌前病變,具有潛在的臨床應用價值。DNA在真核細胞中的復制是由一個復雜的染色體復制裝置完成的,其中DNA聚合酶α和DNA引物酶是兩個關鍵的酶活性成分。DNA引物酶含有PRIM1和PRIM2,前者攜帶有酶和引物,因此具有催化和延伸功能;后者則缺乏酶的活性。DNA在合成過程中,PRIM1 mRNA水平與DNA的復制進程存在著密切的相關性。在沒有PRIM1酶的情況下,DNA的復制也難以進行,故而此種物質對細胞增殖具有促進作用。目前,該領域的研究在不斷增多,一些報道中已經出現PRIM1基因在不同腫瘤細胞中作用的相關內容。
根據TCGA數據分析結果顯示,在肝癌形成過程中,我們發現了與其密切相關的信號通路,確定了UCK2、PRIM1和DNTM1這3個基因水平與肝癌的相關性,可作為預測肝癌患者預后的指標,為肝癌的理論研究和治療提供一定的參考。然而,本文也存在一定的局限性,研究僅基于生物信息學分析,以后應該同時開展一些臨床和實驗研究,從而證實這些指標的應用價值,為肝癌的診治提供支持。