呂鈺冰 林國旺 何鵬 林麗娟 方艷平 江凌曉★
肺結核是結核分枝桿菌感染引起的慢性呼吸系統疾病。據統計,全球接近1/3 人口感染過結核分枝桿菌,其中近10%感染者會進展為活動性肺結核,其余感染者則處于潛伏感染或恢復健康狀態[1]。肺結核的致病機制復雜,營養不良、擁擠的環境等因素與該疾病的發生、傳播密切相關。此外研究表明遺傳易感因素與肺結核發生也存在關聯性[2]。
目前已有多個國外人群的全基因組關聯分析(Genome-wide association study,GWAS)研究揭示ASAP1、WT1、DUSP14等基因是肺結核的易感基因[3-5],并發現主要組織相容性復合體(major histocompatibility complex,MHC)區間HLA-DQ/DR基因與該疾病存在顯著的關聯性[6]。在漢族人群中,已開展了兩項肺結核GWAS 研究,其中北京中心[7]報道的MFN2、RGS12及上海中心[8]報道的ESRRB、TGM6是漢族人的易感基因。此外,北京中心的研究也證實HLA-DR/DQ基因區間存在肺結核易感單核苷酸多態性位點(single nucleotide polymorhpsim,SNP),但上海中心的研究在該區間并未檢出與肺結核顯著關聯信號。另一項南方漢族人群HLA與肺結核關聯分析證實HLA-DRB1*14:54是該疾病風險基因,還發現HLA-A*01:01(χ2=10.79,P=0.001)與肺結核存在一定關聯性[9]。上述研究提示,不同研究間漢族人群肺結核易感HLA基因型存在較大差異,這可能與納入研究的樣本量不足或不同地域漢族群體遺傳背景差異有關,與肺結核相關聯的HLA風險基因型仍有待明確。
HLA基因編碼的蛋白在機體免疫過程中起到重要作用,經典HLA-I類和II類基因多態性與多種感染性疾病發生密切相關[10]。經典HLA分子主要負責呈遞非己抗原并由T 細胞識別,抗原結合域氨基酸多態性決定了抗原肽結合的親和力及特異性,影響抗原呈遞并直接導致機體對病原清除能力差異。在HLA易感基因相關疾病中,這種氨基酸位點被認為是疾病的因果變異。針對HLA區間,關聯分析常借助基因型插補以獲得樣本氨基酸多態性信息,并通過單倍型及精細定位分析明確易感HLA基因的關鍵氨基酸位點,為闡明疾病發生的分子機制提供更精準的依據。
本研究所用的基因型數據來自GEO 數據庫,樣本均為漢族人。病例組含1 008 個北方漢族人肺結核病例(GSE83397),使用ZhongHua-8 芯片進行基因分型,共有894 541 個SNP;對照樣本數據為12 398 個自述健康的個體(GSE131670),使用Human Exome Fine 芯片分型,包含270 241 個SNP。麻風病易感HLA基因分析用728個麻風病例及1 276個對照基因型(GSE119367)使用Human610-Quad芯片進行基因分型,含3 397 個SNP。肺結核易感基因薈萃分析還納入Ruijuan Zheng 等[8]人發表的上海地區漢族人肺結核GWAS 結果,該數據集含有833 個肺結核病例和1 220 個健康對照。
在SNP 層面舍棄次要等位基因頻率(Minor Allele Frequency,MAF)小于0.01 或總體分型率小于0.95 的SNP,并移除偏離哈迪溫伯格平衡的位點(P<1×10-6);在樣本層面,移除SNP 總體檢出率低于0.95 的樣本,同時移除基因型異質性偏差過大的個體(異質性位于均值±3 倍標準差之外);通過IBD 分析(identity by descent)鑒定樣本間情緣關系,在一級或二級情緣關系的樣本(IBD 比例大于0.185)對中只保留分型檢出率較高的個體;最后對SNP 數據進行主成分分析(principal component analysis,PCA),該分析首先將1 000 Genomes數據庫中北方漢族(Han Chinese in Beijing,CHB)和南方漢族(Han Chinese South,CHS)人群為參照,保留遺傳背景更接近北方漢族人的個體。接著再對病例與對照組進行PCA,并移除遺傳背景離群的個體。上述分析均使用Plink 1.9 完成。
本研究北方漢族人群數據質控后肺結核組保留967 個樣本(男性占64.2%)含803 621 個SNP,對照組保留7 034 個樣本(男性占51.5%)含47 982 個SNP;兩者于HLA區間共有1 389 個SNP 可用于基因型插補。對插補數據進行質控,最終得到17 397個SNP、114 個四位數分辨率HLA等位基因型及557 個氨基酸位點。結合北方漢族人肺結核關聯分析結果與上海地區發表的肺結核GWAS 于HLA區間共有12 494 個交集SNP。麻風病易感HLA基因分析包括728 個麻風病例及1 276 個對照樣本,比較肺結核與麻風病的易感HLA基因型針對麻風病隊列基因型數據進行質控,共獲得2 525 個SNP。
本研究選取數據質控后6 號染色體28 至34 Mb 區間的基因型數據,以Han-MHC 數據庫作為單倍型參考面板(含21 378 個單倍型)開展插補。樣本基因型數據的定相(phasing)及插補工具均使用默認參數條件的Beagle5.2 進行。插補后共獲得SNP、氨基酸位點、HLA等位基因型三種變異類型。插補后只保留插補INFO>0.6 的位點并將后推概率小于0.9 的變異位點設置為缺失。
本研究的遺傳易感性分析采用加性模型(additive model),即不同拷貝數的等位基因對于某一性狀的整體作用等于單獨作用之和。統計學方法層面,使用邏輯回歸模型(logistic linear regression),分析SNP、HLA等位基因型與肺結核發病的關聯性,模型納入研究人群前5 個主成分作為協變量,降低研究個體遺傳背景差異對關聯分析造成的干擾。利用薈萃分析統計本研究及已報道的肺結核關聯分析結果,薈萃分析異質性指數I2<30 時采用固定值效應模型(fixed-effects),否則采用隨機效應值模型(random-effects)。通過連鎖不平衡及條件邏輯回歸分析矯正強連鎖關聯信號,精準定位肺結核發病相關的關鍵氨基酸位點。本研究SNP 薈萃分析顯著P值為4×10-6,由單次假設檢驗顯著P值0.05 校正SNP 數量后獲得(即0.05/12494);HLA基因型顯著水平P值為6.76×10-4(即0.05/74)。上述統計學分析均采用Plink 1.9 完成。
病例與對照組樣本基因型數據PCA 結果顯示在PC1 和PC2 中無明顯的人群分層現象,且遺傳背景與1000 Genomes 數據庫北京漢族人群更為接近,見圖1A,被歸為北方漢族隊列。薈萃分析北方漢族人群隊列與中部漢族人群隊列(上海地區)兩項GWAS 結果,HLA區間檢出122 個SNP 達到顯 著 閾 值(P=4×10-6,最 顯 著SNP 為rs3135386(OR=1.39;P=1.04×10-9),見圖1B。大部分顯著易感SNP 位于HLA II類基因區間,而I類基因HLA-B區間存在兩個位點rs112974895(OR=1.35;P=6.44×10-7)、rs9266067(OR=1.34;P=1.31×10-6)與表型的關聯性達到了顯著水平。

圖1 主成分分析及薈萃分析結果Figure 1 Results of principal component analysis and meta-analysis
對兩組數據插補所得的HLA基因型進行薈萃分析,兩者交集的HLA基因型(4 位數分辨率)共74 個。基因型中達到假設檢驗顯著閾值(P=6.76×10-4)的HLA基因型共4 個,見圖1、表1。其中HLA-B*46:01與肺結核關聯性最強,當攜帶該等位基因型增加一個拷貝時,個體的肺結核風險相應增加1.44 倍(OR=1.44,P=2.98×10-7)。其余3 個顯著關聯的基因均位于HLA-DR/-DQ區間,分別為HLA-DQB1*06:01(OR=1.31,P=5.32×10-5)、HLA-DQA1*01:03(OR=1.28,P=1.36×10-4)、HLADQA1*01:04(OR=1.37,P=2.63×10-4)。基因連鎖分析發現,肺結核關聯信號最強的位點rs3135386與HLA-DQA1*01:03、HLA-DQB1*06:01存 在較強的連鎖關系,但與HLA-B*46:01及HLADQA1*01:04連鎖關系很弱,見表1。基于北方漢族隊列的插補所得數據,對HLA-B的氨基酸位點進行單倍型構建,連鎖分析發現HLA-B第66、69、76 位氨基酸構成的單倍型Lys66-Arg69-Val76 與HLA-B*46:01完全連鎖(r2=1.0),且在北方隊列中該單倍型為肺結核的發病風險因素(OR=1.53,P=1.92×10-5)。通過條件邏輯回歸模型,矯正單倍型Lys66-Arg69-Val76 的作用后發現HLA-DQB1*06:01與肺結核關聯性不再顯著。

表1 4 個HLA 基因型與肺結核的薈萃分析結果Table 1 Results of meta-analysis of four HLA genotypes and pulmonary tuberculosis
麻風病基因型數據與肺結核薈萃分析結果交集有70 個HLA等位基因,見圖2。分析發現,HLADRB1*15:01與麻風病的關聯性最為顯著(OR=3.03,P=2.0×10-33),但該基因型在肺結核薈萃分析中關聯性并不顯著(P=0.69)。此外在本次薈萃分析呈現顯著的4 個HLA基因型中,只有HLA-B*46:01同樣與麻風病存在關聯性,然而該基因在麻風病中為保護因素(OR=0.33,P=1.13×10-10)。

圖2 肺結核與麻風病的關聯分析Figure 2 Analysis of the association between pulmonary tuberculosis leprosy
肺結核是呼吸系統常見的傳染性疾病,也是影響地區醫療衛生發展的重要疾病負擔。該疾病的發生發展受環境和宿主遺傳易感性共同作用[11],因此明確漢族人肺結核的易感基因有利于實現該疾病的精準診治。
本研究通過薈萃分析,首次報道HLA-B基因與漢族人群活動性肺結核高度關聯,是新的肺結核易感基因。HLA-B基因屬于經典HLA-I類,負責向CD+8 T 細胞的表面分子呈遞內源肽,并被免疫系統識別。當細胞被病原體感染時,所呈遞的蛋白質(抗原肽)將來自病原體,并被識別為外源,CD8+細胞毒性T 細胞上的抗原受體負責這種識別,并會刺激破壞細胞的免疫反應。HLA-B位點的多態性最為復雜,研究發現HLA-B*46:01等位基因相關的CD8+T 細胞反應在HIV 感染[12]、鼻咽癌[13]、重癥肌無力[14]等疾病中發揮了重要的作用。HIV 感染是TB 的風險因素,HLA-B*46:01在兩種傳染疾病的致病機制異同值得深入研究。
麻風病和結核病是慢性肉芽腫性傳染病,除病原體和環境因素外,宿主遺傳易感因素對這兩種疾病的發生有重大貢獻。據報道,中國漢族人群麻風病與結核病之間沒有共同的易感基因座[15],但本研究發現,HLA-B*46:01與麻風病存在關聯性,然而該基因在麻風病中為保護因素,即攜帶該基因型個體其罹患麻風病風險降低。由此可見,在HLA等位基因水平,漢族人肺結核與麻風的遺傳共性并不明顯,表明兩種疾病發病機理的遺傳基礎可能差異很大。
本研究開展了目前為止樣本規模最大的漢族人群肺結核易感HLA基因分析,證實HLA-B*46:01是北方、中部漢族人群的共有易感基因,為研究肺結核的致病機理和疾病的診療提供新的參考依據。