第 10號染色體一個祖先信息標記區(qū)域的發(fā)現(xiàn)及鑒定＊

2010-09-17 05:06:58曾昭書周艷梅董子明

鄭州大學學報(醫(yī)學版) 2010年5期

關鍵詞：信息

李瓅,曾昭書,周艷梅,董子明

1)鄭州市中心醫(yī)院婦產(chǎn)科鄭州 450007 2)鄭州大學基礎醫(yī)學院法醫(yī)學教研室鄭州 450001 3)鄭州大學基礎醫(yī)學院病理生理學教研室鄭州 450001

第 10號染色體一個祖先信息標記區(qū)域的發(fā)現(xiàn)及鑒定＊

李瓅1),曾昭書2)#,周艷梅1),董子明3)

1)鄭州市中心醫(yī)院婦產(chǎn)科鄭州 450007 2)鄭州大學基礎醫(yī)學院法醫(yī)學教研室鄭州 450001 3)鄭州大學基礎醫(yī)學院病理生理學教研室鄭州 450001

△男,1973年 5月生,博士,副教授,研究方向:基因多態(tài)性及其法醫(yī)學應用,E-mail:zzs@zzu.edu.cn

祖先信息標記;單核苷酸多態(tài)性;固定系數(shù);HapMap

目的:應用第 10號染色體的 HapMap單核苷酸多態(tài)性(SNP)基因分型數(shù)據(jù)及人群聚類分析技術區(qū)分人亞群。方法:從 HapMap數(shù)據(jù)庫 (r23)獲取北京漢族人、歐裔和非裔 3個人群 225個樣本的第 10號染色體共 4 660余萬個SNPs分型結(jié)果,提取在 3個群體間等位基因頻率差值大于 0.3的 SNPs,以 Genepop 4.0軟件計算固定系數(shù)(Fst),以 Structure 2.3軟件進行聚類分析。結(jié)果:在 3個群體間得到等位基因頻率差值大于 0.3的 SNPs共 2 910個,位于該染色體長臂末端 118 000 000 bp處的 rs10510019、rs10787669、rs713252與 rs919613的 Fst均大于 0.660,平均 Fst為 0.674,該 4個SNPs處于強連鎖不平衡狀態(tài),形成一個跨度為 13 455 bp的區(qū)域。結(jié)論:包含 4個SNPs的祖先信息標記區(qū)域的發(fā)現(xiàn),可以有效提示某個人是否歸屬于歐裔、非裔或北京漢族人群,并為組建復合 PCR體系提供了備選 SNPs。

祖先信息標記也稱始祖多態(tài)位點或人群特異標記,通常是指在不同地理區(qū)域的人群之間顯示出頻率上巨大差異的一套多態(tài)性位點[1]。例如,Duffy抗原的一個等位基因 (FY＊0)在撒哈拉以南非洲人群中的頻率幾乎為 100%,但卻很少出現(xiàn)在這一地區(qū)之外的其他人群中[2],具有這一基因的個體的祖先很可能是撒哈拉以南非洲人。通過使用類似 FY＊0基因這樣的一些祖先信息標記可以推斷某人的祖先地理起源或者推斷其祖先的來源地理區(qū)域比例。以固定系數(shù)(fixation index between subpopulation and total population,Fst,也稱族群間遺傳分化指數(shù))[3]為單個單核苷酸多態(tài)性 (single nucleotide polymorphis m,SNP)的祖先信息推斷效能評價指標,通過使用均勻分布于整個基因組的一套具有高 Fst值的 SNPs可以非常經(jīng)濟有效地區(qū)分人亞群[4]。近來,Phillips等[5]公布的可以區(qū)分亞裔、歐裔或非裔的 34個祖先信息標記 SNPs和趙美樂等[6]發(fā)表的依據(jù) HapMap數(shù)據(jù)庫篩選而獲得可區(qū)分白人、黑人、漢族人或日本人的 44個祖先信息標記 SNPs,均有較大意義,獲較多關注。作者在趙美樂等[6]研究的基礎上運用更簡單方法對人第 10號染色體進行了祖先信息標記 SNPs的篩選,發(fā)現(xiàn)了 4個具有較高 Fst值、緊密連鎖的 SNPs形成的一個祖先信息標記區(qū)域,報道如下。

1 材料與方法

1.1 樣品 225人的第 10號染色體累計約 4 660萬個SNPs分型結(jié)果下載自 HapMap官方網(wǎng)站 (http://hapmap.ncbi.nlm.nih.gov/,數(shù)據(jù)版本:r23),其中含北京漢族 (CHB)45人、歐洲白人 (CEU)90人、非洲黑人 (YR I)90人,每人均檢測 207 152個SNPs。基因分型平臺為 Affymetrix、BeadArray、Invader、M IP、FP-TD I、Perlegen和 Sequenom,均為 SNPs分型標準化方法,并有分型實驗質(zhì)量控制體系保證實驗結(jié)果之間的一致性[7]。

1.2 SNPs篩選以數(shù)據(jù)庫程序打開共約 4 660萬個SNPs分型結(jié)果及頻率數(shù)據(jù),以應用程序可視化(visual basic applications,VBA)語言編寫程序[8],獲取在不同人群中等位基因頻率相差 0.3以上的所有SNPs。

1.3 Fst值計算及祖先信息推斷將提取的 SNPs基因型轉(zhuǎn)換成 Genepop 4.0的數(shù)據(jù)格式,運用 Genepop 4.0計算出每個SNP的 Fst[3],Fst最大者確定為最優(yōu)的祖先信息標記 SNPs。再運用 Structure 2.3對所選出的 SNPs進行聚類分析,計算樣本的始祖構(gòu)成[9]。Structure 2.3軟件運行條件:Burnin一萬次,MCMC迭代一萬次;使用混合模型。運用 SNPSTATS軟件 (http://bioinfo.iconcologia.net/snpstats/start.h tm)在線計算各位點之間的連鎖不平衡[3]。

2 結(jié)果

2.1 針對 CHB、CEU和 YRI人群的數(shù)據(jù)庫篩選結(jié)果共篩選出 2 910個SNPs,該 2 910個SNPs不平均分布于第 10號染色體,平均間距為 46 230 bp,平均 Fst為 0.12;根據(jù) Fst最優(yōu)原則確定 rs10510019、rs10787669、rs713252、rs919613為最優(yōu)的祖先信息標記 SNPs,此 4個SNPs的 Fst分布范圍為 0.660～0.679,平均 Fst為 0.674。

2.2 4個位點的位置與頻率分布 rs10510019、rs10787669、rs713252和 rs919613分布位置十分鄰近,均位于第 10號染色體長臂末端 118 000 000 bp處的一個跨度為 13 455 bp的區(qū)間內(nèi),4個SNPs的平均距離是 3 361 bp。等位基因頻率見表1。

表1 4個鄰近 SNPs的等位基因頻率

2.3 樣品人群歸類分析經(jīng)運用 Structure 2.3軟件進行人群結(jié)構(gòu)分析后,發(fā)現(xiàn)該 4個SNPs能夠可信地區(qū)分 CEU、CHB或 YR I,但對于 CHB的判斷意義弱于 CEU或 YR I。見圖1。

圖1 4個SNPs的人群結(jié)構(gòu)分析圖 (K=3)左側(cè)紅色條紋代表 CEU,中間紫色條紋代表 CHB,右側(cè)綠色條紋代表 YR I人群;每列代表一個個體;顏色的亮度代表始祖構(gòu)成的比例;K為假設人亞群數(shù)。

2.4 連鎖不平衡分析結(jié)果D’及r的具體數(shù)值見表2、3(一般認為D’或r2大于 0.7有連鎖關系,等于 1為完全連鎖不平衡)。可知該 4個SNPs位點間存在完全連鎖不平衡,處于連鎖狀態(tài)。

表2 4個SNPs的兩兩配對連鎖不平衡分析結(jié)果D’值

表3 4個鄰近 SNPs的兩兩配對連鎖不平衡分析結(jié)果r值

3 討論

所謂祖先信息推斷,是指對未知來源的樣品或個體通過使用一組特異的遺傳標記估算出該樣品或個體祖先的地理起源,或者推斷出其祖先中不同地理起源的構(gòu)成比例。由于我國是一個多民族國家,存在于漢、回、蒙、壯、藏、苗等民族中的特異性遺傳標記目前少有結(jié)論,所以開展祖先信息推斷研究、尋找和發(fā)現(xiàn)各民族特異的祖先信息標記具有重要的意義[10]。

祖先信息推斷早期主要依靠形態(tài)學指征和蛋白質(zhì)多態(tài)性進行推斷,可信度較低;近來常用 DNA水平的遺傳標記進行相關分析。ALU序列[11]、STR位點[12],特別是 SNP位點[5-6,10]應用已成為祖先信息推斷的主流。由于 STR的等位基因多,必須檢測較大量的人群樣本才能比較正確地推斷其等位基因在人群中的分布頻率。應用 SNP進行祖先信息推斷相對要求較低,結(jié)果更加穩(wěn)定,有更大優(yōu)勢[13]。

研究[3-4]表明,在衡量一個遺傳標記的祖先信息推斷效能上,Fst是一個非常重要的定量指標,其數(shù)值大小與各品種 (類群)間遺傳變異程度或祖先信息含量成正比,Fst越大表明該 SNP在多個人群中的變異越大,越適合作為某一人群與其他人群的區(qū)別性標志。經(jīng)應用 HapMap數(shù)據(jù)庫的第 10號染色體的 SNPs分型結(jié)果對 Phillips等[5]及趙美樂等[6]推薦的 SNPs的 Fst進行計算,發(fā)現(xiàn) Phillips等推薦的 34個SNPs的 Fst分布區(qū)間為 0.169～0.975,均值為 0.470;趙美樂等推薦的 44個SNPs的 Fst分布區(qū)間為 -0.007～0.580,均值為 0.318;而該組 4個SNPs的 Fst分布區(qū)間為 0.660～0.679,均值為0.674,說明該組 4個SNPs的基因型分布在 3個人群間具有較大的波動性,較適于區(qū)分人亞群。

由于這 4個位點緊密連鎖,雖然該區(qū)域內(nèi)的各SNPs一致具有較高的 Fst,但是當該區(qū)域在實際應用于祖先信息推斷時,仍然只能選用其中 1個SNP。這在完成祖先信息推斷需要同時對數(shù)十個SNPs進行分型的情況下具有重要意義。實驗過程中對這數(shù)十個SNPs多采用復合 PCR技術以一管擴增完畢,以節(jié)約時間和成本[5,14]。如果這些 SNPs間的引物兼容性差則將導致復合 PCR難以進行,然而由于祖先信息標記區(qū)域可提供多個備選 SNPs,故當某個SNP的引物序列存在問題時可以選用連鎖區(qū)域內(nèi)的其他 SNPs,眾多的備選 SNPs將能使數(shù)十個SNPs間的引物兼容性達到最大化。

另外,由于該 4個SNPs均位于胰酯酶相關蛋白3基因[15]的區(qū)域內(nèi),所以該結(jié)果還提示胰酯酶相關蛋白 3基因的功能可能在 CEU、CHB、YR I人群中有較大差別。這方面的差異尚待進一步研究。

[1]EnochMA,Shen PH,Xu K,et al.Using ancestry-infor mativemarkers to define populations and detectpopulation stratification[J].J Psychophar macol,2006,20(4 Suppl):19

[2]HultA,HellbergA,Wester ES,et al.Blood group genotype analysis for the quality improvementof reagent test red blood cells[J].Vox Sang,2005,88(4):265

[3]曾昭書,王黎,方宇,等.高個體識別力通用單核苷酸多態(tài)性位點篩選及檢測[J].鄭州大學學報:醫(yī)學版,2010,45(3):378

[4]Holsinger KE,Weir BS.Genetics in geographically structured populations:defining,estimating and interpreting F(ST)[J].Nat Rev Genet,2009,10(9):639

[5]Phillips C,SalasA,Sánchez JJ,et al.Inferring ancestral origin using a singlemultiplex assayof ancestry-infor mativemarker S NPs[J].Forensic Sci Int Genet,2007,1(3/4):273

[6]趙美樂,齊守文,劉良,等.中國漢族、日本、歐裔和非裔人群 SNP始祖多態(tài)位點的鑒定 [J].鄭州大學學報:醫(yī)學版,2007,42(3):540

[7]International HapMap Consortium.The International Hap-Map Project[J].Nature,2003,426(6 968):789

[8]Shikaze SG,Crowe AS.An Excelmacro for generating trilinear plots[J].GroundWater,2007,45(1):106

[9]Pritchard JK,StephensM,Donnelly P.Inference of populationstructure using multilocus genotype data[J].Genetics,2000,155(2):945

[10]Xu S,HuangW,Qian J,et al.Analysis of genomic admixture in Uyghur and its implication in mapping strategy[J].Am J Hum Genet,2008,82(4):883

[11]TerrerosMC,Alfonso-SánchezMA,Novick GE,et al.Insights on human evolution:an analysisofAlu insertion polymorphis ms[J].J Hum Genet,2009,54(10):603

[12]Barnholtz-Sloan JS,Pfaff CL,Chakraborty R,et al. Informativeness of the COD IS STR loci for admixture analysis[J].J Forensic Sci,2005,50(6):1 322

[13]曾昭書.SNPs的法醫(yī)學應用研究 [D].鄭州:鄭州大學基礎醫(yī)學博士后流動站,2009.

[14]Podini D,Vallone PM.SNP genotyping using multiplex single base primer extension assays[J].MethodsMolBiol,2009,578:379

[15]Aoki J,Inoue A,Makide K,et al.Structure and function of extracellular phospholipase A1 belonging to the pancreatic lipase gene family[J].Biochimie,2007,89(2):197

(2009-10-23收稿責任編輯徐春燕)

Finding and confir mation of an ancestor infor mative marker region on chromosome 10

L I L i1),ZENG Zhaoshu2),ZHOU Yanm ei1),DONG Zim ing3)
1)Depar tment of Obstetrics and Genecology,Zhengzhou Central Hospital,Zhengzhou 4500072)Depar tment of ForensicMedicine,College of BasicMedical Sciences,Zhengzhou University,Zhengzhou 4500013)Depar tment of Pathology and Physiology,College of BasicMedical Sciences,Zhengzhou University,Zhengzhou 450001

ancestry informative marker;single nucleotide polymorphism;fixation index;HapMap

A im:To distinguish the population substructure with the HapMap SNP genotyping data of chromosome 10 and the ancestry information reconstructing strategy.Methods:More than 46.6 million SNP genotypes on chromosome 10 of 225 individuals from Han Chinese in Beijing,European-American and African were obtained from the HapMap database(r23).Computer programs edited with Visual Basic Application(VBA)languages were used to extract SNPs with allele frequency variations greater than 0.3 between any two of the three populations.Fixation Index(Fst)valueswere calculated with Genepop 4.0.Cluster analysiswas perfor med with Structure 2.3.Results:A total of 2 910 SNPs were found to have allele frequency variations greater than 0.3 between any two of the three populations,among which rs10510019,rs10787669,rs713252 and rs919613 were found to have high Fst values greater than 0.660 and an average Fst value at 0.674.Further analysis showed that theywere in strong linkage disequilibrium,forming a region of 13 455 bp.Conclusion:The identification of such an ancestry infor mative region containing 4 SNPs could be used efficiently to disclose whether a person belongs to European orAfrican or Han Chinese,and will be able to provide more candidate SNPs for the developing of a multiplex PCR system.

R394.5

＊國家自然科學基金資助項目 30700966;31071100