夏 鑫,呂萬強,張 薔,劉會敏,張衛東
鄭州大學公共衛生學院流行病學教研室 鄭州 450001
炎癥性腸病(inflammatory bowel disease,IBD)是一種累及回腸、直腸、結腸的一種特發性腸道炎癥性疾病。近年來,IBD的全球發病率一直在上升,在18~20歲的歐洲后裔中,每10萬人中有100~150人發病[1]。IBD主要包括潰瘍性結腸炎(ulcerative colitis,UC)和克羅恩病(crohn′s disease,CD)[2]。CD一般情況下累及回腸和結腸,有些情況下可能影響腸道的任何區域[3]。UC主要累及結腸黏膜下層和直腸[4-5]。兩種疾病均有各自的臨床特點,同時又有著某種共同的發病機制。遺傳流行病學數據[1,3,5]表明,IBD發病的易感性是可遺傳的,迄今為止,已經超過有200個基因被識別為IBD的潛在致病基因。2015年的一項跨種族全基因組關聯研究(genome wide assiciation study,GWAS)的meta分析識別出了38個與這兩種疾病都相關的遺傳位點,但這些位點僅能分別解釋CD和UC遺傳度的13.1%和8.2%[1]。本研究利用更加高效的統計方法——條件錯誤發現率(conditional false discovery rate,cFDR)方法識別更多與歐洲人群IBD相關的遺傳變異位點。
1.1數據集來源匯總數據集由國際炎癥性腸病遺傳學協會在其官網上發布,下載地址為https://www.ibdgenetics.org/downloads.html。最新的數據集為Latest combined GWAS and Immunochip trans-ancestry summary statistics,該數據來源于歐洲人群,CD數據集來自7個GWAS數據的meta分析匯總數據;UC數據集來自8個GWAS數據的meta分析匯總數據[1]。CD相關的meta分析涉及5 956個病例和14 927個對照;UC相關的meta分析涉及6 968個病例和20 464個對照[1]。
1.2數據集的處理首先整合數據,保留UC和CD數據集中均有包含的單核苷酸多態性(SNP)位點,最終得到10 867 439個SNPs,對于每條染色體以每50個相鄰的SNPs為單位,以HapMap Phase3為參照,以歐洲人群的基因庫作為對照,計算SNPs兩兩之間的LD值(r2),如果r2大于0.2,就刪除掉MAF較小的那個SNP,重復上面的刪減過程,直到剩下的SNPs之間不再有強連鎖現象,最終剩余140 983個SNPs。由于在meta分析之前,GWAS分析已經對這些SNPs進行了相應的質量控制[1],因此,在本研究中不再考慮質量控制問題。
1.3FDR方法的簡介假設同時研究的兩個疾病分別為疾病i和疾病j,則某SNP與疾病i相關的cFDR被定義為該SNP所對應的pi和pj值均小于預先設定的閾值p0i和p0j,且在真實情況下SNPs與疾病i是沒有關聯的概率值,表示為cFDR(pi∣pj)=Pr(H0i∣pi≤p0i,pi≤p0j)。其中,pi代表某個SNP與疾病i之間關聯強度假設檢驗的P值;pj代表了該SNP與疾病j之間關聯強度假設檢驗的P值,H0i表示真實情況下該SNP與疾病i的發生沒有關系[6]。
將ccFDR定義為cFDR(CD|UC)和cFDR(UC|CD)中較大的一個[6]。如果某個SNP的ccFDR小于設定的閾值,就代表這個SNP和兩個表現型均相關。
1.4多效性的評估和曼哈頓圖利用分層Q-Q圖和分層TDR圖對UC和CD之間的多效性富集程度進行評估。分層標準,pj≤1(即所有的SNPs都納入的一組),pj≤0.1,pj≤0.01,pj≤0.001,pj≤0.000 1。如果圖中的散點向左偏離對角線則說明UC和CD之間存在多效性富集現象,而且偏離的程度越大,說明富集程度越強。
以軸遺傳變異位點的位置信息為x,以-log10cFDR或-log10ccFDR為y軸作曼哈頓圖。以y=2為基準線,基準線以上的散點對應的遺傳變異位點為與疾病相關的SNPs。
1.5統計學處理cFDR以及ccFDR的計算和曼哈頓圖的繪制均使用R3.42,SNPs的標注和修剪均使用Plink 1.07,數據分析操作過程均在Ubuntu 16.04下完成。
2.1多效性的評估見圖1。圖1A、B顯示,隨著與條件疾病對應P值的減小,SNPs對應的散點向左偏離對角線的程度逐漸增大,表明UC和CD之間存在很強的多效性富集現象。圖1C、D顯示,與CD或UC相關的多效性富集程度最強的分層(分層條件為0.000 1)TDR也最大。

A:以CD為條件的UC分層Q-Q圖;B:以UC為條件的CD分層Q-Q圖;C:以CD為條件的UC分層TDR圖; D:以UC為條件的CD分層TDR圖
圖1分層Q-Q圖和分層TDR圖
2.2UC相關位點識別結果有130個SNPs的cFDR(UC|CD)小于0.01,分別位于21條常染色體上(圖2)。有87個SNPs已被報道和UC相關[7-10],43個SNPs是新發現的關聯位點。其中有5個新發現的SNPs被報道與類風濕性關節炎(RA)或銀屑病相關[11-13]。這130個SNPs一共被標注了144個基因,有70個基因被報道與UC相關聯[1,14]。

縱坐標:以CD為條件與UC相關的SNPs的-log10cFDR;橫坐標:常染色體編號以及對應的位置;紅線以上的點:cFDR小于0.01的SNPs
圖2以CD為條件的UC的曼哈頓圖
2.3CD相關位點識別結果有174個SNPs的cFDR(CD|UC)小于0.01,分別位于22條常染色體上(圖3)。有88個SNPs已被報道和CD是相關,86個SNPs是新發現的關聯位點。有57個SNPs被報道與CD疾病相關;剩余的86個SNPs是新發現的遺傳位點,其中有6個新發現的SNPs被報道與乳糜瀉、類風濕性關節炎(RA)或多發性硬化(MS)相關[2,4,15]。這174個SNPs一共被標注了190個基因,有82個基因被報道與CD相關聯[1,16]。

縱坐標:以UC為條件下與CD相關的SNPs的-log10cFDR;橫坐標:常染色體編號以及對應的位置;紅線以上的點:cFDR小于0.01的SNPs
圖3以UC為條件的CD的曼哈頓圖
2.4UC和CD同有相關位點分析結果共有75個多效性SNPs與UC和CD均有關,分別位于19條染色體上(圖4)。其中,有22個SNPs是新識別的和53個SNPs已經被報道[1,8,13,16]。有3個新識別的SNPs被報道與RA或銀屑病(Psoriasis)有關。這75個多效性的SNPs被標注了87個基因,其中有36個基因與這兩種疾病都相關[1,3,16-17]。有11個新識別的SNPs被標注到了與UC和CD都相關的基因上,見表1。

縱坐標:與UC和CD均相關的SNPs的-log10ccFDR;橫坐標:常染色體編號以及對應的位置;紅線以上的點:ccFDR小于0.01的SNPs

圖4 CD和UC的聯合曼哈頓圖表1 新識別的UC和CD共相關位點
#:被報道和RA或銀屑病相關
利用cFDR新識別的SNPs中有一部分被標注在和IBD相關的基因上,有些SNPs位于基因間或非編碼區,有些SNPs是位于疾病相關基因的編碼區甚至是UTR3或UTR5,如果這些位點發生突變,影響基因表達的可能性就會很大,那么這一部分的SNPs和疾病真實相關的可能性就會很大,這個結果也從側面證明了cFDR方法的可靠性。例如,本研究中一個和CD相關的SNP rs1738074,它的cFDR=0.008 8,位于CHR6的BP為159465977,且被標注在基因TAGAP(Gene ID:117289)的UTR5區域,該基因和一些自身免疫性疾病是相關的,如類風濕關節炎(Rheumatoid Arthritis, RA),乳糜瀉和多發性硬化[18-19],而且這個基因被報道和CD是相關的[20],如果該位點發生突變,很可能通過影響基因TAGAP的表達進而對疾病的發生造成影響,且該基因同時和一些自身免疫性疾病相關,這與臨床數據顯示的IBD常伴有一些自神免疫性疾病相符合。同時進一步證明使用的cFDR分析方法可以更加有效的識別與疾病相關的位點。另外,有兩個SNP rs3812609和SNP rs6563在本研究中被識別出與CD和UC都相關,它們對應的ccFDR分別為0.005 6和0.000 66,這兩個位點均位于CHR 9上,BP分別為139408892和139389184,兩者的LD度量r2=0.032且rs3812609位于基因NOTCH1(Gene ID: 4851)的內含子區域,rs6563位于該基因的UTR3區域。而對于基因NOTCH1而言,它是編碼了NOTCH家族的單通道跨膜受體[21-22];NOTCH信號通路是一種高度保守的細胞間信號通路,它在及時的細胞譜系規范中扮演著重要的角色,包括內分泌和外分泌腺的胰腺和來自共同的淋巴細胞前體T細胞譜系血統繼承,而且有研究[23-24]表明NOTCH信號通路的失調或故障會對腸道的健康造成很大的影響。而且這個基因在之前的研究中已被報道與UC和CD都相關[25]。
本研究通過使用cFDR方法,識別出了22個與兩個疾病都相關的遺傳位點,這些新發現為探索UC和CD同有的致病機制提供了新的見解,并為進一步的實驗研究提供了可能的線索。但本研究也存在一定的局限性:首先,由于缺乏詳細的個人樣本數據,沒有多效性位點對表型影響方向的信息;此外,因為無法獲得樣本的臨床數據資料,無法將識別的遺傳位點與臨床結果聯系起來;最后,因為本研究中使用的是匯總數據的一個子集,所以研究的結果中并沒有包含發現所有之前已報道的與CD和UC有關的位點和基因,且由于在對SNPs進行修剪的過程中,刪除掉了那些具有較小MAF的SNPs,這會削弱cFDR方法對罕見變異的識別能力。因此,我們的這些新發現還需要更多的臨床數據資料和對應的生物實驗研究來做進一步驗證。
總之,通過利用cFDR方法將UC和CD的GWAS數據進行二次挖掘,研究發現UC和CD之間的存在很強的多效性富集現象,并且識別出22個兩者共有的多效性遺傳位點。這些識別出的UC和CD之間的多效性遺傳位點,可能會為研究這兩個疾病之間共同的遺傳機制供新的見解或線索。