王麗波,王 芳,張 巖
(哈爾濱醫科大學生物信息科學與技術學院,黑龍江哈爾濱150086)
DNA甲基化是表觀遺傳的重要修飾之一,并被廣泛研究。DNA甲基化一般發生于CG相連的二核苷酸部位(CpGs),通過改變染色質結構、DNA構造和穩定性等對基因表達具有重要的調控作用[1]。隨著表遺傳學的發展,人們認識到腫瘤不僅是遺傳性疾病,同時也是由DNA甲基化異常引起的基因調控失常的表觀遺傳性疾病[2]。人類基因組DNA存在廣泛的甲基化修飾。在早期發育階段,甲基化和去甲基化的交替進行是細胞得以生長和分化的關鍵程序,且在細胞正常發育以及保持基因組穩定性中起著至關重要的作用。正常細胞內,啟動子區的CPG島呈非甲基化狀態,而大部分散在分布的CpG島二核苷酸多發生甲基化[3]。腫瘤中常伴隨基因組整體甲基化水平降低和某些基因CpG島區域甲基化水平異常升高(如抑癌基因),并且這兩種變化可在一種腫瘤中同時發生。基因組整體甲基化水平降低可導致原癌基因活化等,進一步促進了腫瘤的發生。基因啟動子區的CpG島發生異常高甲基化可導致基因轉錄沉默,使重要基因如抑癌基因等表達極度降低或不表達,進而也促進了腫瘤細胞的形成[4-5]。P16INK4a是一種細胞周期調控蛋白,通過與細胞周期蛋白依賴激酶CDK4及CDK6結合而抑制后者的蛋白激酶活性,從而抑制細胞的增殖。而P16INK4a基因啟動子5’端的CpG島甲基化或外顯子1α的CpG甲基化可導致p16表達缺失,從而導致該基因的失活,促進了癌癥的形成,這一基因的滅活主要與胃癌的發生相關[6]。隨著高通量測序技術的發展,單堿基分辨率下檢測DNA甲基化的水平已經得以實現,促進了全基因組范圍更高精度甲基化水平和模式的分析。重亞硫酸氫鈉測序技術的短序列片段中包含多個CpG位點,而且這些位點之間的甲基化水平高度連鎖,即其中一個CpG位點的甲基化改變能夠通過另一CpG位點的甲基化變化來解釋[7]。本文基于臨近CpG位點之間的DNA甲基化水平高度相關這一假設,挖掘DNA甲基化連鎖區域有助于挖掘基因組中有功能的甲基化區域,進一步理解這些區域在癌癥中的改變模式,有助于挖掘癌癥的表觀遺傳學診斷標記。
UCSC 的 encode數據庫中(http://genome.ucsc.edu/ENCODE/dataMatrix/encodeDataMatrixHuman.html)下載RRBS的DNA基甲基化數據,包括52個正常樣本(胚胎干細胞、成纖維細胞、主動脈平滑肌細胞、腎、腦、血、肝、肺、胰腺、心臟、胎盤、骨骼肌、皮膚、胃、睪丸、子宮、B-淋巴細胞、星形膠質細胞、成骨細胞)和23個癌癥樣本(白血病、肺癌組織、子宮頸癌、肝癌、乳腺腺癌、神經母細胞瘤、大腸腺癌、子宮內膜腺癌、前列腺癌、胚胎性癌、卵巢腺癌、胰腺癌、腦腫瘤、神經細胞株)[8]。在每個樣本中將多次的生物學重復進行合并,同一個CG位點的甲基化水平取均值。統計所有CG位點所在的參考基因組位置(Hg19)、覆蓋度以及相應的DNA甲基化水平。
1.2.1 皮爾森相關系數的計算
根據CpG位點所在的參考基因組的位置從小到大進行排序,然后分別提取每個CpG位點對應的正常和癌癥樣本中的甲基化水平,分別構成正常和癌癥的DNA甲基化水平向量。在正常和癌癥樣本中,基于pearson相關系數計算臨近一個CpG位點之間的相關系數,公式如下:

其中,n代表正常(癌癥)樣本的個數;xi和yi分別代表第i個正常(癌癥)樣本中CpG位點及下一個CpG的甲基化水平;和分別代表正常(癌癥)樣本中兩個CpG位點DNA甲基化水平的均值。
1.2.2 相關系數閾值的確定
為了確定臨近CpG位點之間相關系數的閾值,本文從基因組中隨機抽取兩個CpG點按照上述公式計算其相關系數。定義錯誤發現率(FDR)的公式如下:

其中,分子表示隨機情況下相關系數大于r0的數目;分母表示真實情況下相關系數大于r0的數目。根據FDR=0.01確定相關系數的閾值。當CpG對之間的相關系數高于此閾值時則認為二者的DNA甲基化水平連鎖,否則為不相關。
大量的含有少量CpG位點的區域被獲得。這些含有少量的CG位點的區域,臨近之間的相關性與樣本數量的偶然因素相關,尤其是含有兩個CG位點的區域。我們認為只有多個CG位點相鄰并且具有高度連鎖的甲基化模式的區域才具有調控的功能。為了確定區域內含有的CG位點的數目的閾值,打亂了臨近CpG位點的樣本標簽,重新計算r值。然后根據閾值篩選DNA甲基化區域,得到隨機情況下DNA甲基化block所含有的CG位點的數目的零分布。
1.2.3 DNA甲基化連鎖區域的定義
如果臨近的CpG位點之間甲基化水平的相關系數大于閾值,則將CpG連接然后向下一個CpG位點延伸,直到相關系數小于閾值則延伸停止。該區域被定義為DNA甲基化連鎖區域。計算該區域中所有CpG位點在所有樣本中的甲基化水平的均值,定義為DNA甲基化連鎖區域的甲基化水平。
本文分別從正常樣本和疾病樣本中獲得902 825,920 516個CpG位點,全基因上臨近 CpG位點之間的距離分布顯示大部分CpG位點之間的距離不超過100 bp。分別計算臨近位點的皮爾森相關系數,根據FDR=0.01確定皮爾森相關系數平方的閾值為0.75。如果臨近的CpG位點之間的相關系數超過閾值則將其相連并向下延伸,直到相關系數的平方小于0.75為止,得到的區域被認為是DNA甲基化連鎖區域。最終,737個DNA甲基化連鎖區域在正常樣本中獲得,3 384個DNA甲基化連鎖區域在癌癥樣本中獲得。DNA甲基化連鎖區域發現在正常樣本和癌癥樣本中甲基化連鎖區域的長度沒有差別(見圖1A),但是區域內所含的CG位點的數目、平均甲基化水平以及R2存在顯著差異(見圖1B,1C,1D),而且區域內的R2并沒有隨著區域長度的增加而降低(見圖1D)。意味著在癌癥中臨近的CpG位點之間傾向更強的連鎖程度,而且這種DNA甲基化連鎖區域傾向于發生在CpG密集的區域傾向發生高甲基化變異,暗示著連鎖區域內的CpG位點可能共同發生異常導致癌癥的發生。

圖1 DNA甲基化連鎖區域的特征Fig.1 Characteristic of DNA methylation block
為了進一步研究DNA甲基化連鎖區域的生物學功能及意義,分別將正常樣本和癌癥樣本的DNA甲基化連鎖區域進行基因本體論(GO)的功能富集分析。如果一個DNA甲基化連鎖區域的上下游500 bp范圍內存在基因,則該基因被認為是DNA甲基化連鎖區域的相關基因。我們在正常樣本中找到617個相關基因,在癌癥樣本中找到2 575個相關基因。將DNA甲基化連鎖區域的相關基因采用DAVID 工具(http://david.abcc.ncifcrf.gov/)進行基因功能富集分析,多重檢驗矯正之后的顯著性水平定義為0.01。癌癥樣本和正常樣本中顯著性水平最高的前10個功能(見圖2A,B),結果顯示正常和癌癥的DNA甲基化連鎖區域都富集到分化發育以及表達調控的功能,尤其是在癌癥中與神經元的發育和分化相關。此外,癌癥中DNA甲基化連鎖區域的KEGG富集分析顯示富集到癌癥通路和細胞形成通路(見圖2C)。結果表明,癌癥中DNA甲基化連鎖區域可能促使癌癥的發生。

圖2 DNA甲基化連鎖區域的功能富集Fig.2 Functional enrichment of DNA methylation block
DNA甲基化連鎖區域盡管在正常樣本和癌癥樣本中均存在很強的連鎖程度,但是在兩類樣本中呈現的不同甲基化水平和模式。以HIC1基因為例,該基因對生長調節和腫瘤的抑制具有重要作用。位于該基因中超甲基化區域的缺失與腫瘤、Miller-Dieker綜合征存在至關重要的聯系。圖3顯示,在本研究中該基因位于chromosome 17p13.3區域,在正常樣本和癌癥樣本中存在DNA甲基化連鎖區域。該連鎖區域在正常和癌癥樣本中均呈現了緊密的連鎖程度(r2=0.780,0.798),然而該區域在兩類樣本中的甲基化模式存在顯著差異。該區域的甲基化水平在癌癥樣本中顯著高于正常樣本,而且連鎖程度的變異小于正常樣本。這意味著該連鎖區域的異常甲基化可能與癌癥相關,甚至可以作為癌癥的表觀遺傳診斷標記。

圖3 位于HIC1基因內的DNA甲基化連鎖區域Fig.3 DNA methylation block located within HIC1 gene
近年來,隨著表觀遺傳學的發展,越來越多的研究表明DNA甲基化的異常與癌癥的發生發展密切相關。本文的結果顯示DNA甲基化連鎖區域與癌癥的關聯不僅僅體現在甲基化水平上而且體現在甲基化模式上。挖掘DNA甲基化連鎖區域有助于挖掘基因組中有功能的甲基化區域,而這些區域在癌癥中的改變模式有助于挖掘癌癥的表觀遺傳學診斷標記。希望能為研究者開啟一個新的角度去探索DNA的甲基化水平與癌癥發生的聯系,進而對疾病能夠更好的進行診斷和治療。
References)
[1] CHRISTOPHER G B,SARAH F,CECILIA M L,et al.Integrated genetic and epigenetic analysis identifies haplotype-specific methylation in the FTO type 2 diabetes and obesity susceptibility locus[J].PLoS One,2010,5(11):e14040.
[2] LUDVíKOVá M,PESTA M,HOLUBEC L J,et al.New aspectsoftumorpathobiology [J]. Ceskoslovenská Patologie,2009,45(4):94.
[3] BANERJEE,HIRENDRA N,MUKESH V.Epigenetic mechanisms in cancer[J].Biomarkers,2009,3(4):397-410.
[4] QURESHI,SOHAIL A,MUHAMMED U B,et al.Utility of DNA methylation markers for diagnosing cancer[J].International Journal of Surgery,2010,8(3):194-198.
[5] 吳川清,陶凱雄.內皮素B受體基因甲基化與腫瘤關系的研究進展[J].世界華人消化雜志,2010,18(23):2448-2452.WU Chuanqing,TAO Kaixiong.Research progress of endothelin B receptor gene methylation and cancer[J].World Journal of Gastroenterology,2010,18(23):2448-2452.
[6] MERLO,ADRIAN,JAMES G H,et al.5'CpG island methylation is associated with transcriptional silencing of the tumour suppressor p16/CDKN2/MTS1 in human cancers[J].Nature Medicine,1995,1(7):686-692.
[7] SHOEMAKER,ROBERT,DENG Jie,et al.Allele-specific methylation is prevalent and is contributed by CpGSNPs in the human genome [J].Genome Research,2010,20(7):883-889.
[8] ROSENBLOOM,KATE R,TIMOTHY R D,et al.ENCODE whole-genomedataintheUCSC genome browser[J].Nucleic Acids Research,2010,38(suppl 1):D620-D625.