康爭春,朱良亮,閆飛虎,于恩達(dá)
結(jié)腸癌是發(fā)病率逐年上升的我國乃至世界最常見的消化道惡性腫瘤之一[1]。隨著經(jīng)典的腺瘤-癌模型的提出,大量基因突變和轉(zhuǎn)錄組學(xué)標(biāo)志物的發(fā)現(xiàn),表觀遺傳學(xué)的提出、研究、應(yīng)用,結(jié)腸癌的分子調(diào)控機(jī)制越來越趨于完善。但目前已知的分子標(biāo)記只能部分解釋結(jié)腸癌的發(fā)生、發(fā)展、轉(zhuǎn)歸、預(yù)后。因此,繼續(xù)探索發(fā)現(xiàn)結(jié)腸癌分子標(biāo)記,以提高對結(jié)腸癌的認(rèn)識(shí),對于結(jié)腸癌的研究是非常必要的。
表觀遺傳學(xué)在不改變DNA編碼序列的情況下,對基因的表達(dá)與功能產(chǎn)生可遺傳的表型,其應(yīng)用于結(jié)腸癌的診斷、治療的前景非常廣闊。DNA甲基化是表觀遺傳修飾的一種重要形式,異常的DNA甲基化可改變?nèi)旧|(zhì)結(jié)構(gòu)及癌基因和抑癌基因的表達(dá),最終參與腫瘤的發(fā)生發(fā)展[2]。因此,通過對DNA甲基化的檢測,篩選甲基化驅(qū)動(dòng)基因,可加強(qiáng)對結(jié)腸癌表觀遺傳修飾的認(rèn)識(shí),為進(jìn)一步探索結(jié)腸癌表觀遺傳學(xué)調(diào)控機(jī)制提供借鑒。
本研究利用來自腫瘤基因組圖譜(the cancer genome atlas,TCGA)的甲基化及表達(dá)譜數(shù)據(jù),確定了甲基化驅(qū)動(dòng)基因并進(jìn)行功能富集分析,分析了甲基化驅(qū)動(dòng)基因富集的功能和通路。這些發(fā)現(xiàn)將有助于進(jìn)一步提高對結(jié)腸癌的表觀遺傳修飾機(jī)制的認(rèn)識(shí)。

表1 差異甲基化和與基因表達(dá)相關(guān)性Top20驅(qū)動(dòng)基因
1.1 組織樣本數(shù)據(jù)下載及預(yù)處理 從癌癥基因組圖譜(TCGA,https://cancergenome.nih.gov/)搜索并下載結(jié)腸腺癌450kIlluminaInfinium甲基化陣列、基因表達(dá)譜數(shù)據(jù)。去除表達(dá)譜或甲基化數(shù)據(jù)為0的基因。
1.2 甲基化驅(qū)動(dòng)基因的篩選 在R.3.5.0環(huán)境下,使用程序包MethylMix[3]進(jìn)行甲基化驅(qū)動(dòng)基因篩選,驅(qū)動(dòng)基因需要滿足的條件為:(1)基因甲基化和基因表達(dá)具有顯著相關(guān)性;(2)結(jié)腸癌組織樣本和結(jié)腸正常組織樣本的甲基化水平具有顯著性差異。過濾條件為:矯正P<0.05,相關(guān)系數(shù)r<-0.3。MethylMix進(jìn)行甲基化驅(qū)動(dòng)基因篩選的基本原理如下:(1)通過對結(jié)腸癌組織樣本基因甲基化水平和基因表達(dá)水平相關(guān)性的計(jì)算,篩選出具有顯著相關(guān)性的基因;(2)對癌組織和正常樣本的甲基化程度構(gòu)建一個(gè)混合模型,利用Wilcoxon rank test發(fā)現(xiàn)癌組織樣本和正常組織樣本之間具有顯著差異的甲基化基因;(3)對上述2者取交集,并對基因P值進(jìn)行矯正,最后取矯正P<0.05的基因?yàn)榧谆?qū)動(dòng)基因。
1.3 甲基化驅(qū)動(dòng)基因可視化 在R.3.5.0環(huán)境下,使用程序包MethylMix,對符合篩選條件的上述甲基化驅(qū)動(dòng)基因繪制差異甲基化和基因甲基化與基因表達(dá)相關(guān)性圖形,并對甲基化驅(qū)動(dòng)基因進(jìn)行聚類分析。
1.4 甲基化驅(qū)動(dòng)基因的功能通路富集分析 將甲基化驅(qū)動(dòng)基因通過DAVID Bioinformatics Resources (https://david.ncifcrf.gov/,versionn 6.8)做GO富集分析,通過KOBAS3.0 (http://kobas.cbi.pku.edu.cn/)做KEGG通路富集分析。高度富集的GO功能或KEGG通路被認(rèn)為是甲基化驅(qū)動(dòng)基因的潛在功能。
2.1 組織樣本的一般情況 共有308個(gè)結(jié)腸癌組織樣本納入研究,均含有基因甲基化及表達(dá)譜數(shù)據(jù);共有38個(gè)結(jié)腸正常組織樣本納入研究,均含有基因甲基化數(shù)據(jù)。對308個(gè)結(jié)腸癌組織樣本的甲基化數(shù)據(jù)的gene symbol和表達(dá)譜數(shù)據(jù)的gene symbol取交集,共有21 091個(gè)gene symbol納入研究。
2.2 基于MethylMix法的甲基化驅(qū)動(dòng)基因篩選結(jié)果共發(fā)現(xiàn)323個(gè)甲基化驅(qū)動(dòng)基因,其前顯著性前20的甲基化驅(qū)動(dòng)基因?yàn)閆NF43、FAM72B、CAHM、CTD-2245F17.3、AP000251.3、DPY19L2、RP11-710C12.1、AC005498.3、ZNF568、DMRTA1、FAM200A、CTC-444N24.13、ANKRD18B、ZNF614、GREB1L、HSPA1A、ZNF730、RP11-573G6.4、DOK5、CMTM3等。
2.3 甲基化驅(qū)動(dòng)基因可視化結(jié)果 代表性的甲基化驅(qū)動(dòng)基因的差異甲基化與表達(dá)相關(guān)性的代表性圖例如圖1~4所示。 AC009237.8基因在癌組織中相對于正常組織高甲基化,并且其甲基化程度與mRNA表達(dá)呈顯著性負(fù)相關(guān),揭示結(jié)腸癌該基因的高甲基化可能造成其表達(dá)降低,該基因可能為結(jié)腸癌的抑癌基因,由于其高甲基化造成抑癌基因被抑制或失活。AREG基因在癌組織中相對于正常組織低甲基化,并且甲基化程度與表達(dá)水平呈負(fù)相關(guān),揭示該基因可能作為結(jié)腸癌的原癌基因,由于其低甲基化造成原癌基因活性增高,促進(jìn)結(jié)腸癌的發(fā)生、發(fā)展。圖5為甲基化驅(qū)動(dòng)基因的聚類分析熱圖,從圖中不難看出,結(jié)腸癌癌組織與正常組織甲基化驅(qū)動(dòng)基因有著明顯的表達(dá)水平差異,在CHL1、CD34、BNIP3、SUSD5等基因表現(xiàn)的尤為明顯。

圖1 AC009237.8基因在癌組織中相對于正常組織高甲基化

圖2 AC009237.8基因甲基化程度與表達(dá)水平呈負(fù)相關(guān)

圖3 AREG基因在癌組織中相對于正常組織低甲基化

圖4 AREG基因甲基化程度與表達(dá)水平呈負(fù)相關(guān)

圖5 甲基化驅(qū)動(dòng)基因聚類分析熱圖
2.4 功能富集分析結(jié)果 為了了解甲基化驅(qū)動(dòng)基因在結(jié)腸腺癌生物學(xué)中的作用,本研究通過功能通路富集分析對甲基化驅(qū)動(dòng)基因功能進(jìn)行了富集分析。通過對甲基化驅(qū)動(dòng)基因篩選結(jié)果,對甲基化驅(qū)動(dòng)基因GO和KEGG進(jìn)行功能通路富集分析,推斷差異甲基化基因潛在的生物學(xué)過程。筆者發(fā)現(xiàn)這些甲基化驅(qū)動(dòng)基因可能與轉(zhuǎn)錄的調(diào)控、DNA模板、金屬離子鍵結(jié)合、轉(zhuǎn)錄因子活性、結(jié)合DNA、核酸結(jié)合、代謝途徑、癌癥途徑等信號(hào)有關(guān)(圖6和圖7)。這提示甲基化驅(qū)動(dòng)基因在結(jié)腸腺癌的生物學(xué)過程中起著重要作用。

圖6 GO功能富集結(jié)果

圖7 KEGG通路富集結(jié)果
當(dāng)今醫(yī)學(xué)正在進(jìn)入精準(zhǔn)醫(yī)學(xué)模式,個(gè)體化治療可以使結(jié)腸癌患者最大可能的治療獲益,結(jié)腸癌是一種分子水平異質(zhì)性很大的惡性腫瘤,分子分型的差異很大程度上決定了患者的個(gè)體化治療方案[4-7],雖然目前對于結(jié)腸的分子機(jī)制研究日新月異,但由于結(jié)腸癌調(diào)控機(jī)制的復(fù)雜性,目前對于結(jié)腸癌的精細(xì)調(diào)控通路目前尚不完善。因此需要對結(jié)腸癌發(fā)生、發(fā)展過程中的關(guān)鍵分子做更加深入的挖掘,獲得敏感性、特異性更高的生物標(biāo)志物。
經(jīng)大量研究與實(shí)驗(yàn)證實(shí),表觀遺傳學(xué)的調(diào)控在惡性腫瘤的發(fā)生發(fā)展中發(fā)揮著重要作用,尤其是DNA甲基化、組蛋白修飾、染色質(zhì)重塑、非編碼RNA等表觀遺傳學(xué)的調(diào)控。而目前DNA甲基化是最重要,也是科研工作者研究的最為廣泛的一種表觀修飾方式。大量的DNA甲基化改變在結(jié)腸癌的發(fā)生、進(jìn)展過程中出現(xiàn),直接影響結(jié)腸癌的生物學(xué)行為,并且DNA甲基化是結(jié)腸癌能夠最早分辨出的表觀改變[8]。然而,目前對于在結(jié)腸癌發(fā)揮重要作用的甲基化驅(qū)動(dòng)基因,腫瘤科研工作者的認(rèn)識(shí)仍舊很少。
目前已經(jīng)證實(shí)DNA甲基化異常在結(jié)直腸癌[9]、胃癌[10]、肝癌[11]、乳腺癌[12]、前列腺癌[13]、黑色素瘤[14]等惡性腫瘤的發(fā)生、發(fā)展中起著重要作用。CCNEI、CCNDBP1、PON3、DDX43、CHL1等目前已知的甲基化異常基因,經(jīng)證實(shí)其在重要的細(xì)胞生命活動(dòng)如增殖、分化、遷移、凋亡過程中發(fā)揮重要作用的同時(shí),也直接影響結(jié)腸癌患者疾病的進(jìn)展與預(yù)后[15-16]。但由于各種局限性,如技術(shù)水平不一致、研究分散等,所以目前對結(jié)腸腺癌整體的甲基化驅(qū)動(dòng)基因認(rèn)識(shí)尚未形成,因此要更全面地挖掘與整合結(jié)直腸癌甲基化驅(qū)動(dòng)基因。
MethylMix[3]是2015年Gevaert發(fā)現(xiàn)的一種鑒定甲基化異常基因的算法,并在R語言中整合為R包,為鑒定甲基化異常提供了一種高效的工具。其基本原理為引入β混合模型區(qū)分甲基化水平差異,進(jìn)而與正常組織的甲基化水平做差異比較,最后與基因的表達(dá)譜數(shù)據(jù)匹配,挖掘有顯著差異的甲基化異常基因。本研究主要借助MethylMix的R包,利用TCGA公共數(shù)據(jù)庫,對TCGA數(shù)據(jù)庫結(jié)腸腺癌患者組織樣本甲基化陣列及表達(dá)譜數(shù)據(jù)進(jìn)行分析研究,篩選出了如ZNF43、FAM72B、CAHM、CTD-2245F17.3等323個(gè)甲基化驅(qū)動(dòng)基因,其中高甲基化的基因共有283個(gè),如ZNF43、FAM72B、CAHM、CTD-2245F17.3、AC009237.8等,其在癌組織中相對于正常組織高甲基化,并且其甲基化程度與mRNA表達(dá)呈顯著性負(fù)相關(guān),揭示結(jié)腸癌基因的高甲基化可能造成其表達(dá)降低,可能為結(jié)腸癌的抑癌基因,由于其高甲基化造成抑癌基因被抑制或失活;其中低甲基化的基因共有40個(gè),如RP11-2C24.7、ZHX1-C8orf76、LINC00944、SLPI、AREG等,它們在癌組織中相對于正常組織低甲基化,并且甲基化程度與表達(dá)水平呈負(fù)相關(guān),揭示該類基因可能作為結(jié)腸癌的原癌基因,由于其低甲基化造成原癌基因活性增高,促進(jìn)結(jié)腸癌的發(fā)生、發(fā)展。對323個(gè)甲基化驅(qū)動(dòng)基因進(jìn)行GO功能和KEGG通路富集分析,揭示了甲基化驅(qū)動(dòng)基因的潛在功能,如轉(zhuǎn)錄的調(diào)控、DNA模板、金屬離子鍵結(jié)合、轉(zhuǎn)錄因子活性、結(jié)合DNA、核酸結(jié)合、代謝途徑、癌癥途徑等。顯示MethylMix法在甲基化驅(qū)動(dòng)基因篩選上的科學(xué)性、高效性,挖掘的甲基化驅(qū)動(dòng)基因?qū)τ谝院蟮慕Y(jié)腸癌甲基化驅(qū)動(dòng)基因的基礎(chǔ)研究起到參考意義。
綜上所述,應(yīng)用MethylMix法挖掘甲基化驅(qū)動(dòng)基因并進(jìn)行功能分析,這些發(fā)現(xiàn)有助于深入認(rèn)識(shí)結(jié)腸癌表觀遺傳學(xué)調(diào)控機(jī)制,并有可能作為診斷的生物標(biāo)志物和治療靶點(diǎn)應(yīng)用于臨床。