許瓊,查瓊芳,秦慧,劉斌,吳學玲
上海交通大學醫學院附屬仁濟醫院呼吸科,上海200127
衰老是腫瘤發生發展的重要危險因素。除黑色素瘤外,全身其他部位的腫瘤在年齡大于70 歲的老年人中發生率都明顯高于年齡小于70 歲的老年人[1],并且70%腫瘤相關的死亡都出現在年齡大于65 歲的患者中。自身合并癥多、治療藥物療效差以及治療后不良反應多、并發癥多等多種因素是老年患者診斷腫瘤后死亡率高的原因。積極探討腫瘤在老年人中的發生機制為最終降低腫瘤的發生率和死亡率提供基礎。
隨年齡增加,體細胞基因突變的逐步累積,可以促進腫瘤的發生。另外隨年齡增加,表觀遺傳學出現整體低甲基化的特點,恰好與腫瘤發生過程中基因組的甲基化水平變化一致[2],是衰老促進腫瘤發生的另一因素。因此鑒定腫瘤發生過程中驅動整體甲基化水平變化的基因,有助于理解衰老如何通過調控甲基化參與腫瘤的發生。在某些腫瘤如急性髓系白血病中,一些特定基因的突變已經證實參與調控DNA甲基化。例如DNA 甲基化酶DNMT3A(methyltransferase 3 al pha,DNMT3A)的突變在22%的成人AML 中出現[3],是髓系白血病發生的早期事件[4]。含有DNMT3AR882突變的AML 患者與野生型患者相比在182 個基因部位的甲基化水平降低[3],這可能與DNMT3AR882 突變后重頭合成的 DNMT3A 活性降低相關[5]。除DNMT3A 外,IDH1 和IDH2 突變的AML 患者呈現基因組水平的高甲基化[6]。那么,在其他類型的腫瘤中是否也存在類似于DNMT3A和IDH1/IDH2 的基因,影響腫瘤細胞整體甲基化的水平,是腫瘤甲基化的潛在驅動基因,目前還不清楚。因此,本研究分析TCGA(The Cancer Genome Atlas,TCGA)中35 種腫瘤類型的450k 甲基化數據、DNA 突變數據以及RNA 表達的數據,鑒定影響腫瘤整體甲基化水平的潛在驅動基因,為研究衰老如何參與腫瘤的發生和最終降低腫瘤在老年人中的發生率及死亡率提供思路。
1.1 腫瘤數據類型 從 Broad Firehose(https: //gdac.broadinstitute.org/)下載TCGA 項目中35 種腫瘤類別、共12 317 例腫瘤樣本的DNA 測序、RNA 測序以及450k 甲基化芯片的數據。這35 種腫瘤包括腎上腺皮質癌(ACC)、膀胱上皮尿路癌(BLACA)、乳腺浸潤癌(BRCA)、宮頸癌(CESC)、膽管癌(CHOL)、結腸腺癌(COAD)、結直腸腺癌(COADREAD)、彌漫性大B 淋巴瘤(DLBC)、食管癌(ESCA)、神經膠質瘤(GBM)、多型性膠質母細胞瘤(GBM)、頭頸鱗狀細胞癌(HNSC)、腎嫌色細胞癌(KICH)、混合腎癌(KIPAN)、腎透明細胞癌(KIRC)、腎乳頭細胞癌(KIRP)、急性髓系白血病(AML)、腦低分化神經膠細胞瘤(LGG)、肝細胞癌(LIHC)、肺腺癌(LUAD)、肺鱗狀細胞癌(LUSC)、卵巢漿液性漿液性囊腺癌(OV)、胰腺癌(PAAD)、腎上腺嗜鉻細胞瘤和副神經節瘤(PCPG)、直腸腺癌(READ)、肉瘤(SARC)、皮膚黑色素瘤(SKCM)、胃腺癌(STAD)、胃和食管癌(STES)、睪丸生殖細胞瘤(TGCT)、甲狀腺癌(THCA)、胸腺瘤(THYM)、子宮內膜癌(UCEC)、子宮肉瘤(UCS) 和視網膜黑色素瘤(UVM)。
1.2 顯著突變的基因和整體DNA 甲基化水平的關系腫瘤驅動基因由MutSigCV2 分析得出,用FDR<0.05選擇。用所有CpG 位點甲基化的中值來代表單個樣本的整體甲基化水平。以AML 為例,基于文獻報道[3,7],AML 中DNMT3A 與整體甲基化的狀態是已知的,DNMT3A 用作此分析方法的陽性對照。如圖1A 所示,AML 樣本中50%分位的DNA 甲基化水平在DNMT3A 突變組及非突變組有顯著性的差異。樣本的整體甲基化作為因變量(),驅動基因的突變狀態作為自變量(),通過多元線性回歸分析,篩選統計上顯著的變量(FDR<0.05)。
1.3 基因表達和整體DNA 甲基化水平的關系 基因表達譜定量用Log2 轉換,多元線性回歸用于分析基因的表達水平與DNA 甲基化之間的關系。在前面分析過程中已鑒定的驅動基因先納入多重回歸模型,再把基因的表達量作為獨立變量逐步加入多重回歸方程中,然后用 GRAIL (Network-based Gene Prioritization Analysis)[8]方法預測篩選在功能上與DNA 甲基化相關的基因。最后,FDR<0.05 的基因納入最后的回歸分析,并定義為甲基化驅動基因。
2.1 AML 中與基因甲基化水平相關的重要突變基因AML樣本中DNMT3A 的突變與基因組整體低甲基化水平相關(圖1A);IDH1 和IDH2 的突變與腫瘤細胞的高甲基化水平相關(圖1B),與文獻報道一致[3,6],提示分析方法的有效性。除此外,CEBPA(CCAAT enhancer binding protein alpha)的突變也與AML 基因組的整體高甲基化水平相關(圖1B)。文獻報道CEBPA突變后所致的高甲基化可能是AML 患者生存時間延長的原因[9]。

圖1 AML 樣本中與整體基因甲基化相關的突變基因


SETD2 和SMARCB1 在腎癌樣本中與DNA 的高甲基化水平相關(表1)。SETD2 是甲基化轉移酶,能促進H3 組蛋白36 位賴氨酸三甲基化(H3K36me3)形成。含有H3K36me2/H3K36me3 修飾的基因組,易結合DNA 甲基化轉移酶DNMT3A,導致基因組5mC部位的甲基化[13]。突變盡管引起甲基化轉移酶的失活,但也可導致整個基因組H3K36me3 的異位分布,從而致整體基因組水平的高甲基化,參與腎臟腫瘤的形成[14]。

圖2 AML 樣本中表達量與整體甲基化相關的基因

2.4 甲基化相關驅動基因與年齡的關系 進一步分析甲基化驅動基因突變率在年齡大于60 歲以及小于60 歲兩組患者之間的差異,兩組間有統計學差異<0.05)的基因列在表2 中。和這3個基因的突變與年齡相關,隨年齡的增加突變率增加;而參與影響神經膠質瘤甲基化的基因和以及影響皮膚黑色素瘤甲基化的基因它們的突變率與年齡呈負相關。已有文獻報道含有上述突變基因的神經膠質瘤患者或黑色素瘤患者,發病年齡小于不含有突變基因的患者[24-25]。
2.5 35 種腫瘤類型中表達量與DNA 甲基化相關的基因 通過前述方法,本研究鑒定了在功能上與DNA 甲基化相關,且表達量與其他35 種腫瘤甲基化水平相關的基因(FDR<0.05),將在多種腫瘤中重復出現的基因羅列在表3 中。其中一些基因對整體甲基化水平的影響已有報道,如組蛋白H3 精氨酸甲基轉移酶PRMT6。在乳腺腫瘤細胞株中,它的高表達影響DNA甲基化轉移酶1(DNA methyltransferase1,DNMT1)的活化因子UHRF1 在染色質的結合,導致基因組的低甲基化。在神經膠質細胞瘤中PRMT6 如何影響腫瘤細胞整體甲基化的水平需要進一步探討。甲基胞嘧啶結合域(methylcytosine-binding domain, MBD)家族是與DNA 甲基化的表現形式相關的一組基因[26],本研究發現,MBD1 和MBD4 的高表達分別與腎臟細胞癌及甲狀腺癌基因組整體低甲基水平相關。另外CBX5 的表達與腎臟腫瘤細胞及肝細胞癌細胞中的高甲基化相關,這可能與CBX5 能與DNMT1 相互作用,參與UHRF1/DNMT1 軸介導的細胞內甲基化變化相關[27]。

表3 35 種腫瘤中表達量與整體DNA 甲基化水平相關的基因
在本研究中,首先以AML 為參考數據,構建了挖掘腫瘤甲基化的驅動基因的生物信息學方法,而后應用此方法在TCGA 數據中,鑒定出其它34 種腫瘤中與基因甲基化水平相關的潛在驅動基因及表達相關基因。

終上所述,此研究通過多數據整合的方法,鑒定了與基因甲基化相關的潛在驅動基因,為后續在老年患者中研究表觀遺傳學甲基化水平的變化如何參與腫瘤發生提供基礎。本研究不足之處是沒能通過實驗方法,在相應的腫瘤模型中對文中鑒定的甲基化驅動基因進行驗證,并探討這些基因如何參與調節整體甲基化狀態。后續研究中將針對其中單個基因,在獨立的疾病模型中研究突變基因對甲基化水平的影響,特別是與衰老相關的突變基因。