(青島大學附屬醫院 肝病中心,山東 青島 266000)
膽管癌(cholangiocarcinoma,CCA)是一種起源于膽道上皮細胞的惡性腫瘤,根據其解剖起源位置可分為肝內CCA、肝門部CCA和遠端CCA[1]。手術切除仍然是CCA唯一可能治愈的方法。由于缺乏早期診斷的生物標志物,只有1/3的患者有機會手術,大多數患者通常被診斷時已接近晚期[2],且術后2年內CCA患者復發和遠處轉移的幾率仍較高[3]。此外,據文獻統計CCA的發病率和病死率正逐年上升[4-5]。
DNA甲基化是一種核心的表觀遺傳修飾,在細胞過程中起著關鍵作用,如基因組調控、機體發育和疾病發生[6]。近年來DNA甲基化模式的失調越來越被認為是腫瘤發生的起始和晚期的一個重要基因事件[7]。大量的研究已經證明抑癌基因的高甲基化和癌基因的全局低甲基化在癌癥的發生和進展中,包括在CCA中起著至關重要的作用[8]。Chen等[9]發現,O6-甲基鳥嘌呤-DNA甲基轉移酶(MGMT)啟動子高度甲基化,MGMT表達水平與CCA總生存率和組織學分級呈正相關。此外,GATA-5、ANGPTL4和DLEC1的異常甲基化已被證實參與CCA的發生和發展[10-12]。盡管在CCA中發現了幾個具有特異性的低甲基化或高甲基化基因,但是基于這些基因的甲基化譜和相關通路的綜合網絡研究還不夠深入。基因圖譜和下一代測序技術已經成為癌癥研究不可或缺的工具,其可以檢測癌癥相關的遺傳和表觀遺傳變化,如突變、拷貝數變化以及更廣泛的基因組區域DNA甲基化變化[13-14]。這些數據的生物信息學分析可以為CCA的研究提供有價值的信息。Kong等[15]基于CCA的下一代測序數據識別出三種差異表達基因(DEGs),分別是UCA1、miR-122和CLIC1,對這些失調基因的分析表明,它們可以通過調控miR-122/CLIC1和激活ERK/MAPK信號通路來促進CCA的進展。因此,差異甲基化有助于評估膽管癌的發生和預后,并可能作為CCA生物標志物。本研究旨在通過對TCGA數據庫CCA甲基化數據進行分析,挖掘與CCA生存相關的甲基化基因,尋找潛在的CCA治療靶點。現報道如下。
在TCGA數據庫下載CCA全基因組甲基化level3數據、轉錄組數據及相應的臨床信息。33例CCA樣本和8例正常樣本甲基化數據和轉錄組數據被納入研究。CCA樣本臨床信息主要包括生存信息、年齡、性別和TNM分期等。同時,在GEO數據庫下載32例CCA甲基化數據(GSE32879),作為生物標志物的外部驗證數據集。
在CCA樣本和正常樣本中進行差異甲基化基因(differential methylation genes,DMGs)篩選,甲基化值(Beta value)>0.1、差異倍數在2倍以上(|Fold Change|≥2)并且校正后的P值(FDR)≤0.05認定為DMGs。此外,|Fold Change|≥2、FDR<0.05,并且FPKM(每千個堿基的轉錄每百萬映射讀取的fragments)>1,則認定為差異表達基因(differential expression genes,DEGs)。從這些數據集中鑒定出多個DMGs和DEGs后,篩選DMGs和DEGs的共有基因。通過Cox比例風險回歸分析篩選出與生存相關的DMGs作為CCA預后標志物,建立模型,該模型能夠根據如下表達評估預后風險:

其中,N為判斷預后的DNA甲基化基因數量;Meth代表DNA甲基化值;Coef為單因素Cox回歸系數。
在甲基化數據中,風險分數平均值作為臨界值將CCA患者分為高風險組與低風險組,采用Kaplan-Meier法繪制生存曲線來預測總生存率,并使用Logrank檢驗分析高、低風險組生存曲線是否存在差異,FDR≤0.05為存在差異,值越小差異越顯著。然后使用時間依賴性ROC曲線來評估該模型的預測能力。本研究將鑒定的生物標志物與其他臨床參數共同納入多因素Cox回歸分析來評估其獨立預后價值。
通過基因本體 (gene ontology,GO)功能注釋分析所選標志物基因的功能,以進一步了解標志物基因的預測能力,設定閾值P<0.05。
33例CCA樣本包括男性患者14例,女性患者19例。I、II、III、IV期患者分別有18例、9例、1例、5例。具體臨床資料見表1。

表1 CCA樣本(n=33)的患者資料統計
通過差異基因篩選,共篩選到DMGs 600個,篩選DEGs 6 876個。DMGs與DEGs的交集基因一共94個(圖1A~C)。通過單因素與多因素Cox比例風險回歸分析鑒定出FZD10和SOX92個與患者總生存時間有顯著相關性的甲基化基因(圖1D)。
每例CCA患者的風險評分如下:

每例患者得到一個風險評分,以中位風險評分作為臨界值,將患者分為低風險組(n=17)和高風險組(n=16)。Kaplan-Meier生存分析顯示,低風險組患者總生存期明顯高于高風險組(2.07年vs0.92年,圖2A)。由2個甲基化基因構建的FZD10和SOX9組合生物標志物其AUC值為0.90,預測能力較高,且其預測效果比TNM分期或年齡更好(圖2B)。經GEO數據驗證,此組合甲基化生物標志物同樣有較高的預測能力,可以明顯觀察到低風險組比高風險組有較高的生存期(圖2C),AUC值為0.79(圖2D)。
將FZD10和SOX9組合甲基化基因生物標志物和其他臨床特征(性別、年齡、TNM分期等)進行多因素Cox回歸分析,結果表明,組合甲基化基因生物標志物是獨立的CCA預后因子(高風險組vs低風險組,HR3.53,95%CI1.74~13.40,P=0.01),見表2。
GO功能注釋顯示,與CCA預后相關的FZD10和SOX9基因顯著富集在轉錄因子和轉錄調控、腫瘤蛋白多糖調節、干細胞的調控等方面,見圖3。
膽管癌(CCA)是由膽管細胞引起的一種致命的惡性腫瘤。大多數CCA患者在診斷時由于缺乏典型癥狀和檢測指標而進展為晚期CCA或其他轉移性疾病,患者往往預后較差[16-17]。因此,鑒定新的CCA分子生物標志物并研究其潛在機制非常必要。DNA甲基化是一種核心的表觀遺傳修飾,在細胞過程中起關鍵作用,通常發生在鳥嘌呤核苷酸之前的胞嘧啶上[18]。由于許多轉錄因子的結合位點富含CpG島,因此可能會增強對轉錄起始位點的結合[19]。越來越多的證據表明,異常的DNA甲基化與腫瘤的發生和發展有關。Gao等[20]通過建立肺腺癌患者預后風險模型,研究表明關鍵基因位點異常甲基化與預后較差有關。此外,Fan等[21]通過研究GEO數據庫發現了可作為肝癌生物標志物的異常甲基化基因。更多的證據表明,表觀遺傳修飾尤其是DNA甲基化在CCA中具有重要的生物學功能,如CCA患者血清中OPCML和HOXD9的甲基化水平存在顯著差異,這兩個基因可用于膽管癌與其他膽道疾病的鑒別診斷[22]。Wang等[16]發現,DANCR可以與EZH2結合,調節FBP1啟動子的組蛋白甲基化,從而調節CCA細胞的增殖和遷移。但是,以往的研究主要集中在DNA甲基化異常的特定基因或單個基因的分析。在CCA中同時涉及基因表達和甲基化的聯合分析可能會產生更準確可靠的結果。因此,我們基于基因表達和基因甲基化數據進行了綜合生物信息學分析,以篩選CCA新的組合生物標志物,為今后的研究提供依據。

圖1 CCA預后相關的差異基因篩選

圖2 FZD10和SOX9組合甲基化基因生物標志物預測CCA預后
本研究通過差異基因分析,共鑒定出600個差異甲基化基因與6 876個差異表達基因,進而得到了94個交集基因。然后通過單因素與多因素Cox回歸分析,發現FZD10和SOX9這兩個與CCA生存相關的差異甲基化基因,并構建組合生物標志物預測模型。此組合生物標志物可以將CCA患者分為生存時間顯著不同的高風險組和低風險組,表明具有較強的預測能力。通過多因素Cox回歸分析,證實甲基化基因標志物的風險得分與總生存期保持獨立相關,不受其他臨床因素的影響。ROC曲線的AUC值是0.90,進一步證明了FZD10和SOX9組合甲基化基因標志物是一個具有較高精度的新預后標志物。
本研究通過GO功能注釋分析了作為生物標志物的甲基化基因,其功能主要集中在轉錄因子和轉錄調控、腫瘤蛋白多糖調節、干細胞調控等方面。SOX9屬于SOX轉錄因子家族[23],在胚胎發育過程中,它廣泛表達于多個器官。SOX9的表達是肝細胞最特異、最早的標志物,決定了肝內膽管形態發生的時間。在正常成人肝臟中,SOX9表達于門脈周圍小的肝內管道和大膽管內的膽道周圍腺體[24]。有研究發現,SOX9通過抑制miR-130a來增加宮頸癌細胞的化療耐藥[25]。FZD10是卷曲蛋白基因家族成員之一,編碼Wnt通路分子的細胞表面受體[26]。FZD10在滑膜肉瘤[27]、原發性結腸癌[28]、宮頸癌[29]中高度上調。有研究發現FZD10能促進WNT-β-catenin-TCF信號通路和Rac1-JNK通路的激活[30]。FZD10甲基化可能是膽管癌發生的早期事件,這值得進一步研究。
綜上所述,本研究利用生物信息學數據分析并鑒定出甲基化調控的差異表達基因,構建了一個包含SOX9和FZD10的組合生物標志物模型,對CCA預后有較好的預測價值。本研究可能為CCA的治療提供了新的靶點。

表2 FZD10和SOX9組合生物標志物與CCA患者生存關系的單因素分析和多因素Cox回歸分析

圖3 甲基化基因生物標志物GO功能分析