鄧穎,熊安秀,劉景珍,祁閃閃,熊昊
(1. 華中科技大學同濟醫學院附屬武漢兒童醫院公共衛生科,武漢 430015; 2. 宜昌市中心人民醫院兒科,湖北 宜昌 443003; 3. 恩施州中心醫院兒童血液消化心血管腎病中心,湖北 恩施 445099; 4 .華中科技大學同濟醫學院附屬武漢兒童醫院兒童血液疾病研究室,武漢 430015; 5.華中科技大學同濟醫學院附屬武漢兒童醫院血液腫瘤科,武漢 430015)
急性髓細胞白血病 (acute myeloid leukemia,AML)約占兒童白血病的20%~25%[1]。雖然與急性淋巴細胞白血病相比,兒童AML的發病率低,預后較差。目前,AML的總生存率不到70%,復發率高達25%~35%[2-3]。細胞遺傳學被認為是AML風險分層的主要依據,然而在臨床實踐中,接近半數的AML患兒細胞遺傳學正常,疾病的轉歸卻有著顯著的差異[4]。近年來,隨著二代基因測序技術的發展,AML相關的重現性遺傳學異常逐漸被發現,并且在AML診斷、治療和預后等方面的重要性日益凸顯,但仍有部分患兒未攜帶已知的遺傳學異常。因此,探究與兒童AML相關的新的分子生物標志物有助于對AML患兒進行風險分層。本研究通過下載和整理有效治療方法適用性研究 (therapeutically applicable research to generate effective treatments,TARGET) 數據庫中兒童AML的基因表達數據和臨床信息,利用生物信息學分析手段對AML相關的致病基因進行挖掘,以期為探索AML的發病機制及分子標志物的篩選提供新的方向。
通過TARGET網站 (https://ocg.cancer.gov/programs/target) 檢索并下載兒童AML的臨床信息和基因表達數據。TARGET數據庫包含121例AML患兒的臨床信息,其中,女性患兒63例,男性患兒58例。TARGET數據庫中AML患兒的基因表達數據和臨床信息來自美國兒童腫瘤協作組 (children’s oncology group,COG) 的美國AML (America acute myeloid leukemia,AAML) 0531 Ⅲ期臨床試驗。
采用R軟件的DESeq2包對TARGET數據庫AML患兒的基因表達數據進行差異表達基因篩選,篩選條件為差異表達上調或下調≥2倍,即 | log2FC |≥1,且P< 0.05。
采用DAVID在線數據庫對篩選出的差異基因進行基因本體論 (Gene Ontology,GO) 注釋和京都基因與基因組數據庫 (Kyoto encyclopedia of genes and genomes,KEGG) 信號通路注釋,分析差異基因參與的生物學過程(biological process,BP) 以及涉及的相關通路,以P< 0.05 為入選標準。應用STRING在線數據庫構建差異基因的蛋白質-蛋白質相互作用(protein-protein interaction,PPI)網絡結構圖,然后使用Cytoscape 3.7.2 軟件進行可視化,并通過cytoHubba插件篩選hub基因。
采用SPSS 22.0軟件進行統計分析。使用R語言的survival包計算hub基因表達量的最佳cut-off值,并將表達量 TARGET數據庫中有121例AML患兒的臨床信息,除7例危險度分層未知外,其余114例患兒中48例低危,61例中危,5例高危。進一步對114例患兒初診時骨髓標本的基因表達信息進行分析。相較于低?;純海懈呶;純河? 092個差異基因,其中上調基因1 167個,下調基因925個 (圖1A)。相較初診患兒,39例復發患兒有785個差異基因,其中上調基因184個,下調基因601個 (圖1B)。繪制2組差異基因的韋恩圖,共得到差異基因96個,其中上調基因38個(圖1C),下調基因58個 (圖1D)。 圖1 TARGET數據庫AML患兒差異基因的篩選Fig.1 Screening of DEGs of childhood AML using the TARGET database 采用DAVID數據庫對96個差異基因進行GO富集分析。結果顯示,差異基因在細胞組分 (cellular component,CC) 主要富集于核小體、細胞質、晚期內體膜、核染色體、濃縮染色體外著絲粒,在BP中主要富集于核小體組裝、染色體分離、對有毒物質的反應、染色質沉默、紡錘組織,在分子功能 (molecular function,MF) 主要富集于蛋白質異二聚活性、DNA結合、染色質結合、微管結合、MAP激酶酪氨酸/絲氨酸/蘇氨酸磷酸酶活性,見圖2A。96個差異基因的KEGG通路富集分析結果顯示,差異基因在酗酒、系統性紅斑狼瘡、病毒致癌等通路聚集,見圖2B。 圖2 差異基因的富集分析Fig.2 Enrichment analysis of DEGs 通過 STRING 數據庫構建96個差異基因的PPI網絡 (圖3A)。除去孤立無關系的蛋白節點,通過Cytoscape 軟件對差異基因進行PPI 網絡的可視化(圖3B),顏色越紅,關聯性越強。在Cytoscape 軟件的cytoHubba模塊,分別使用Betweenness、EPC、MCC、Radiality、Stress等5種計算方法計算 PPI 網絡節點的前10個有較高連接度的hub基因,見表1。得到的15個hub基因分別是細胞分裂周期相關蛋白2 (cell division cycle associated 2,CDCA2)、細胞周期蛋白依賴激酶1 (cyclin dependent kinase 1,CDK1)、著絲粒蛋白E (centromere protein E,CENPE)、DNA甲基轉移酶3B (DNA methyltransferase 3 beta,DNMT3B)、二肽基肽酶4 (dipeptidyl peptidase 4,DPP4)、核酸外切酶1 (exonuclease 1,EXO1)、TTK蛋白激酶 (TTK protein kinase,TTK)、FOS原癌基因 (Fos proto-oncogene,FOS)、H2B聚集組蛋白5 (H2B clustered histone 5,H2BC5)、H3聚集組蛋白4 (H3 clustered histone 4,H3C4)、H3聚集組蛋白10 (H3 clustered histone 10,H3C10)、H2A聚集組蛋白19 (H2A clustered histone 19,H2AC19)、H2A聚集組蛋白20 (H2A clustered histone 20,H2AC20)、H2B聚集組蛋白21 (H2B clustered histone 21,H2BC21)、轉化生長因子β1誘導轉錄1(transforming growth factor beta 1 induced transcript 1,TGFB1I1)。 表1 5種計算方法的前10個hub基因Tab.1 The top 10 hub genes identified by five centrality methods 圖3 差異基因的PPI分析Fig.3 PPI analysis of DGEs 采用χ2檢驗分析AML患兒臨床病理特征 (包括性別、年齡、初診時外周血白細胞、中樞浸潤、危險度分層) 與15個hub基因表達量之間的相關性。結果表明hub基因的表達與男女比例、年齡分布、是否中樞侵犯等無相關性 (均P> 0.05)。DNMT3B、DPP4、CENPE、TTK、CDCA2、EXO1、CDK1的高表達與危險度分層呈正相關 (均P< 0.05),H2BC21、H2AC19、H3C10、FOS、H3C4、TGFB1I1、H2BC5、H2AC20的高表達與危險度分層呈負相關 (均P< 0.05)。DPP4、CENPE、TTK、CDCA2基因高表達組患兒初診時外周血WBC高于低表達組 (均P< 0.05),H2BC21、H2AC19、H3C10、FOS、H3C4、H2BC5、H2AC20基因高表達組患兒初診時外周血白細胞低于低表達組(均P< 0.05),DNMT3B、EXO1、CDK1、TGFB1I1基因高表達組和低表達組患兒初診時白細胞計數無統計學差異 (均P> 0.05)。 對15個hub基因進行單因素Cox回歸分析,結果顯示,DNMT3B、DPP4、CENPE、TTK、CDCA2、EXO1、CDK1等基因的高表達和H2BC21、H2AC19、H3C10、FOS、H3C4、TGFB1I1、H2BC5、H2AC20等基因的低表達是影響AML患兒總生存期的危險因素。對以上因素進行多因素Cox比例風險模型分析,結果顯示,15個相關聯的hub基因中DNMT3B的高表達、DPP4的高表達、CENPE的高表達、H3C10的低表達是AML患兒總生存期的獨立危險因素,見表2。 表2 hub基因的單因素和多因素分析構建預后風險模型Tab.2 Univariate and multivariate Cox regression analyses of the hub genes for constructing prognostic risk models 本研究通過分析TARGRT數據庫AML患兒的基因表達數據,篩選出與危險度分層和復發相關的96個差異基因。GO和KEGG富集分析結果顯示,差異基因編碼的蛋白主要富集于細胞核和細胞質,參與的BP主要有DNA結合、核小體組裝、染色體分離等。 在篩選出的hub基因中,DNMT3B與DNA甲基化的相關。DNMT3B負責DNA的從頭甲基化。雖然在AML中DNMT3B的突變很少見,但DNMT3B的高表達預示著高耐藥率和高復發率[5-6]。髓過氧化物酶 (myeloperoxidase,MPO) 是診斷AML的生物標志物,其高表達與更好的預后相關。據報道,DNMT3B可以上調AML細胞MPO啟動子的甲基化,抑制MPO的表達。而且DNMT3B對MPO啟動子的甲基化不受AML常見突變 (FLT3-ITD、CEBPA或NPM1突變) 的影響[7]。此外,DNMT3B高表達導致DNA超甲基化在T細胞急性淋巴細胞白血病和伯基特淋巴瘤中也有報道[8]。 DPP4表達于骨髓來源的細胞、骨骼肌細胞、血管平滑肌細胞和脂肪細胞等[9-11]。在慢性白血病,尤其是慢性B淋巴細胞白血病中,有大量研究[12-14]證明了DPP4的促癌作用。DPP4的表達影響臨床分期、治療緩解所需時間、總生存期、無病生存期,是負性的預后因素。雖然急性白血病樣本中,包括T細胞急性淋巴細胞白血病、B細胞急性淋巴細胞白血病和AML,白血病細胞膜DPP4的表達量與非白血病患者無差異,但白血病患者血漿sCD26/DPP4明顯高于非白血病患者[15]。 CENPE、CDCA2、CDK1、TTK、EXO1、FOS與細胞周期、細胞增殖密切相關。在AML中,CDK1的促癌作用相對明確,但關于CENPE、CDCA2、TTK、EXO1、FOS的報道較少。H2BC5、H2AC19、H2AC20、H2BC21、H3C4、H3C10是組蛋白H2和H3的成員,是構成核小體的重要組成部分。目前,關于TGFB1I1、H2BC5、H2AC19、H2AC20、H2BC21、H3C4、H3C10在AML致病機制中的作用少有報道。 綜上所述,本研究通過對TARGET數據庫AML患兒初治時低危組與中高危組的骨髓差異基因、初治時與復發時骨髓差異基因的綜合分析,發現CDCA2、CDK1、CENPE、DNMT3B、DPP4、EXO1、TTK、FOS、H2BC5、H3C4、H3C10、H2AC19、H2AC20、H2BC21和TGFB1I115個與兒童AML相關的hub基因。這15個基因均與預后相關,尤其是影響預后的獨立危險因素的DNMT3B、DPP4、CENPE和H3C10基因可能成為兒童AML的分子機制研究以及預后判斷的新靶點。2 結果
2.1 差異基因的篩選

2.2 差異基因的GO富集分析和KEGG富集分析

2.3 分析與AML相關的hub基因


2.4 hub基因與AML患兒臨床病理特征的相關性
2.5 hub基因與AML患兒預后的關系。

3 討論