楊 晴,鞏 靜,趙雪艷,朱曉東,耿立英,張傳生*,王繼英*
(1.河北科技師范學(xué)院動(dòng)物科技學(xué)院,秦皇島 066600;2.山東省農(nóng)業(yè)科學(xué)院畜牧獸醫(yī)研究所 山東省畜禽疫病防治與繁育重點(diǎn)實(shí)驗(yàn)室,濟(jì)南 250100;3.農(nóng)業(yè)農(nóng)村部畜禽生物組學(xué)重點(diǎn)實(shí)驗(yàn)室,濟(jì)南 250100;4.棗莊黑蓋豬養(yǎng)殖有限公司,棗莊 277100)
隨著高密度芯片和測序技術(shù)的高速發(fā)展,生物全基因組范圍內(nèi)檢測出的標(biāo)記數(shù)量逐漸增多,大量的遺傳標(biāo)記信息使基因組遺傳變異分析得以更為準(zhǔn)確和精準(zhǔn)的實(shí)施。當(dāng)前,SNP芯片與測序技術(shù)已成為動(dòng)植物進(jìn)行遺傳變異信息分析工作的主要工具,被廣泛應(yīng)用于遺傳多樣性分析[1-2]、選擇信號(hào)檢測[3-4]、全基因組關(guān)聯(lián)分析[5-6]、基因組選擇等[7-8]。SNP芯片具有自動(dòng)化、成本低、效率高等優(yōu)點(diǎn),但其存在檢測位點(diǎn)較少、特異性強(qiáng)、無法發(fā)現(xiàn)新功能位點(diǎn)等缺點(diǎn)[9]。測序不受參考基因組的限制,甚至可通過提高測序深度來獲得所測樣本的全部遺傳變異信息,包括覆蓋低、中、高密度甚至全基因組范圍內(nèi)的所有已知或未知的SNP位點(diǎn)信息[10],但其存在數(shù)據(jù)量大、分析復(fù)雜、成本較高的缺點(diǎn)[11]。實(shí)際研究中,還是要根據(jù)研究目的選擇適當(dāng)?shù)姆中头椒ākm然增加SNP檢測密度會(huì)提高分析結(jié)果的準(zhǔn)確度,但在實(shí)際應(yīng)用中,高密度分型會(huì)帶來高昂的經(jīng)濟(jì)成本,極大地限制了高密度標(biāo)記在基因組遺傳變異分析中的應(yīng)用空間,所以根據(jù)研究目的探索適當(dāng)?shù)臉?biāo)記密度和經(jīng)濟(jì)的分型方法,保證分析結(jié)果的準(zhǔn)確性,成為近年來SNP標(biāo)記分析的熱點(diǎn)研究內(nèi)容之一。
已有報(bào)道顯示,低密度面板的基因組選擇,通過基因型填充等方法能夠達(dá)到中高密度,甚至測序數(shù)據(jù)相似的基因組預(yù)測精確程度,是一種低成本且高效的遺傳評(píng)估方法[12-14]。但是分析不同分型方法或不同SNP密度對(duì)全基因組遺傳變異分析結(jié)果是否存在影響且影響是否較大的報(bào)道仍較少。因此,本研究以35頭棗莊黑蓋豬的高密度SNP芯片數(shù)據(jù)和重測序SNP數(shù)據(jù)為基礎(chǔ),利用重測序信息構(gòu)建不同密度的SNP面板,以探究不同SNP分型方法和不同SNP密度對(duì)遺傳變異分析的影響,找到適用于遺傳變異分析的低成本、高效的分型方法和SNP密度,為今后豬及其他畜禽遺傳特性分析中適宜的基因分型技術(shù)和標(biāo)記密度的選擇提供重要參考。
本研究所用的35頭棗莊黑蓋豬均采自山東省棗莊黑蓋豬養(yǎng)殖有限公司,包括16頭母豬和19頭公豬。采集試驗(yàn)豬耳組織樣品存放于裝有75%酒精的2 mL凍存管內(nèi),放入-20 ℃低溫冰箱中保存?zhèn)溆谩?/p>
取樣本耳組織0.5 g左右,采用血液/細(xì)胞/組織基因組DNA提取試劑盒(DP304,TIANGEN公司,北京)進(jìn)行基因組DNA的提取。利用NanoDrop 2000和瓊脂糖凝膠電泳對(duì)DNA的濃度和質(zhì)量進(jìn)行檢測,濃度>50 ng·μL-1,1.8 使用CAUPorcineSNP50芯片(北京康普森生物技術(shù)有限公司)對(duì)35個(gè)個(gè)體進(jìn)行SNP分型,SNP檢出率平均為97.97%。基于華大-MGISEQ-T7技術(shù)測序平臺(tái),利用雙末端測序(paired-end)的方法對(duì)35個(gè)個(gè)體進(jìn)行基因組重測序,平均測序深度為13X,Q20為98.18%。原始數(shù)據(jù)質(zhì)控后,使用BWA軟件[15]的BWA-MEN算法將質(zhì)控?cái)?shù)據(jù)與參考基因組(Ensembl Sus Scrofa11.1)進(jìn)行比對(duì),使用GATA[16]進(jìn)行重比對(duì),最后使用Samtools軟件[17]和Bcftools軟件[18]檢測基因組范圍內(nèi)的SNP。 使用Plink(V1.90)[19]對(duì)SNP芯片和重測序中的數(shù)據(jù)按如下標(biāo)準(zhǔn)進(jìn)行質(zhì)量控制,標(biāo)準(zhǔn)如下:1)僅保留位于常染色體上的SNP位點(diǎn);2)芯片數(shù)據(jù)刪除檢出率(call rate)<90%的SNP位點(diǎn),重測序數(shù)據(jù)刪除檢出率<95%的SNP位點(diǎn);3)刪除檢出率<90%的個(gè)體;4)刪除最小等位基因頻率(MAF)<0.05的SNP位點(diǎn)。 基于重測序檢測的SNP位點(diǎn),利用R語言CVrepGPAcalc包(https://github.com/SmaragdaT/CVrep/)構(gòu)建不同密度的SNP面板[20],依據(jù)SNP芯片密度共設(shè)計(jì)了3個(gè)梯度,分別為34K、340K和3 400K。面板的構(gòu)建有兩種方法,第一種是在整個(gè)基因組中隨機(jī)抽樣來選擇SNP,第二種是根據(jù)特定步長的物理距離均勻的選擇SNP。其中,34K面板選擇兩種方法分別進(jìn)行構(gòu)建,340K和3 400K面板均采用第二種方法進(jìn)行構(gòu)建。 使用Plink(V1.90)計(jì)算群體的最小等位基因頻率(minor allele frequency, MAF)、觀察雜合度(observed heterozygosity,HO)、期望雜合度(expected heterozygosity,HE)、群體內(nèi)遺傳距離等遺傳多樣性指標(biāo),使用Plink(V1.90)將數(shù)據(jù)格式轉(zhuǎn)化為vcf格式,再利用vcf2phylip和Phylip通過鄰接法(neighbor-joining, NJ)構(gòu)建系統(tǒng)發(fā)生樹[21-22],最后利用FigTreev1.4.4軟件(http://tree.bio.ed.ac.uk/software/figtree/)將計(jì)算結(jié)果可視化。使用Plink(V1.90)計(jì)算狀態(tài)同源距離(identity by descent distance, IBS距離),隨后計(jì)算個(gè)體間遺傳距離(1-IBS距離),并利用BioLadder在線軟件(https://www.bioladder.cn/web/#/chart/6)繪制個(gè)體間遺傳距離熱圖。 使用R語言CMplot軟件包對(duì)SNP在染色體上的分布進(jìn)行可視化,使用R語言detectRUNS軟件包[23]對(duì)基因組進(jìn)行長純合片段(runs of homogeneity,ROH)檢測并計(jì)算各分組內(nèi)的群體內(nèi)近交系數(shù)(FROH),參數(shù)設(shè)置[24-26]為:SNP密度最小為每1 000 kb必須有1個(gè)SNP;連續(xù)兩個(gè)SNPs的間隔最大為1 000 kb;滑窗大小為50個(gè)SNPs;ROH滑窗中允許有1個(gè)SNP位點(diǎn)為雜合;ROH滑窗中允許有5個(gè)SNPs位點(diǎn)缺失;滑動(dòng)窗口重疊比例至少為5%;ROH最少個(gè)數(shù)為40個(gè)SNPs。 利用CAUPorcineSNP50 芯片和基因組重測序?qū)?5頭棗莊黑蓋豬進(jìn)行基因組SNP檢測,分別獲得了43 832個(gè)和31 437 418個(gè)SNPs位點(diǎn)。芯片的SNP檢出率平均為0.979 8,重測序的檢出率平均為0.997 0。各質(zhì)控條件下芯片和重測序數(shù)據(jù)SNP位點(diǎn)的詳細(xì)剔除數(shù)量見表1。經(jīng)過數(shù)據(jù)質(zhì)控后,芯片和測序數(shù)據(jù)剩余位點(diǎn)的比例分別為78.69%和65.76%。 表1 SNP質(zhì)控結(jié)果匯總Table 1 Summary of SNP quality control results 通過質(zhì)控標(biāo)準(zhǔn)的芯片SNP位點(diǎn)個(gè)數(shù)為34 494個(gè)。依據(jù)芯片密度(34K)設(shè)置梯度,以重測序數(shù)據(jù)為“原材料”構(gòu)建不同密度SNP面板。芯片和各密度SNP面板的SNP位點(diǎn)數(shù)目、MAF和相鄰SNP間距詳見表2。可以看出,芯片標(biāo)記MAF均值為0.292,高于測序各組標(biāo)記的MAF均值(0.244~0.245)。密度同為34K的3組相比,芯片SNP間距均值最大(70 809.82 bp),均勻34K的次之(65 819.90 bp),隨機(jī)34K的最小(63 359.20 bp)。但是,隨機(jī)34K組SNP間距的標(biāo)準(zhǔn)差最大(80 185.61 bp),遠(yuǎn)高于芯片(57 626.21 bp)和均勻34K(1 771.16 bp)。綜合來看,芯片的SNP位點(diǎn)在染色體上的分布均勻度介于隨機(jī)34K和均勻34K之間。與圖1密度分布圖所示結(jié)果一致。不同密度測序SNP面板(均勻34K、均勻340K和均勻3 400K)相比較,均勻34K的SNP間距均值約為均勻340K的10倍,基本與構(gòu)建面板時(shí)采用的步長大小(10×)相一致,標(biāo)準(zhǔn)差大小隨SNP密度的增加而減小。 表2 芯片和各測序面板SNP數(shù)目、最小等位基因頻率和間距Table 2 SNP number, MAF and space of adjacent SNPs of array and sequencing panels 利用芯片和各測序SNP面板的SNP標(biāo)記分析棗莊黑蓋豬的遺傳多樣性結(jié)果見表3。可以看出,利用芯片SNP標(biāo)記分析的HO、HE、遺傳距離均高于測序各組,利用各測序面板SNP標(biāo)記分析的HO、HE、遺傳距離基本相同,特別是均勻分布的3組SNP(34K、340K和3400K)的遺傳多樣性指標(biāo)更為接近。圖2展示了使用芯片和測序各組數(shù)據(jù)分析的35頭棗莊黑蓋豬樣本間遺傳距離矩陣熱圖,與表3結(jié)果一致,芯片與隨機(jī)34K及均勻分布SNP組間的差別最為明顯。 A. 芯片;B. 隨機(jī)34K;C. 均勻34K。矩陣中每一個(gè)小方格代表樣本兩兩之間的遺傳距離值,該值越大越接近紫色,越小越接近黃綠色A. Array; B. Random 34K; C. Even 34K. Each small square in the matrix represents the genetic distance value between two samples, the larger the value, the color is closer to purple, and the smaller the value, the color is closer to yellow-green圖2 樣本間遺傳距離熱圖Fig.2 Heat map of genetic distance between samples 表3 芯片和各測序面板遺傳多樣性參數(shù)值Table 3 Values of genetic diversity analyzed based on array and sequencing panels 利用芯片和各測序SNP面板的SNP標(biāo)記構(gòu)建了棗莊黑蓋豬群體鄰接法系統(tǒng)發(fā)生樹,詳見圖3。系統(tǒng)發(fā)生樹是表示個(gè)體間親緣關(guān)系的樹狀圖,相同分支上的個(gè)體具有相近親緣關(guān)系,為同一個(gè)家系。可以看出,基于芯片和各測序SNP面板的SNP標(biāo)記構(gòu)建的系統(tǒng)發(fā)生樹均將35頭棗莊黑蓋豬劃分為3大分支,每個(gè)大分支又可進(jìn)一步細(xì)分成1~3個(gè)小分支。仔細(xì)對(duì)比分支上的個(gè)體,芯片與隨機(jī)34K、芯片與3組均勻SNP數(shù)據(jù)均存在一定的差別,而3個(gè)均勻分布的SNP數(shù)據(jù)(34K、340K和3 400K)構(gòu)建的系統(tǒng)發(fā)生樹基本一致。 A. 芯片;B. 隨機(jī)34K;C. 均勻34K;D. 均勻340KA. Array; B. Random 34K; C. Even 34K; D. Even 340K圖3 鄰接法構(gòu)建的系統(tǒng)發(fā)生樹Fig.3 Phylogenetic trees constructed by neighbor-joining method 利用芯片和各測序SNP面板的SNP標(biāo)記分析了棗莊黑蓋豬ROH和基因組近交系數(shù),詳見表4。可以看出,芯片與隨機(jī)34K相比,芯片檢測的ROH數(shù)目少(723vs. 784),但ROH長度大(14.86 Mbvs. 12.85 Mb),二者的FROH相近(0.125vs.0.127);均勻34K與隨機(jī)34K相比,均勻34K數(shù)據(jù)檢測到ROH數(shù)目更多(789vs. 784),長度更大(13.51 Mbvs. 12.85 Mb),FROH近交系數(shù)更高(0.134vs. 0.127)。3個(gè)均勻分布的數(shù)據(jù)組相比,隨著標(biāo)記密度增加,檢測的ROH數(shù)目逐漸增多,ROH長度逐漸降低,估計(jì)的FROH近交系數(shù)也逐漸增加。 表4 芯片和各測序面板ROH及基因組近交系數(shù)值Table 4 ROH and genomic inbreeding coefficients based on array and sequencing panels 單核苷酸多態(tài)性(SNPs)是人類和其他動(dòng)物可遺傳的變異中最常見的一種,在基因組中廣泛存在,作為第三代分子標(biāo)記在畜禽遺傳多樣性分析、選擇信號(hào)檢測、全基因組關(guān)聯(lián)分析、基因組選擇等方面發(fā)揮著重要作用。近來的研究表明,人類基因組上SNP總數(shù)可達(dá)3 800萬個(gè)[27],目前已鑒定出的豬SNP已經(jīng)超過四千余萬個(gè)[28]。基因組測序可以獲得所測樣本的全部SNP信息,因此,WGS數(shù)據(jù)有望可以用來更好地估計(jì)個(gè)體之間的真實(shí)關(guān)系[29]。SNP芯片僅包含了鑒定出的SNP位點(diǎn)的一個(gè)子集,SNP芯片的覆蓋率和密度適當(dāng)?shù)那闆r下,在估計(jì)基因組關(guān)系、遺傳多樣性分析等方面與測序技術(shù)一樣有價(jià)值[30]。 本研究中,35頭棗莊黑蓋豬基因組重測序共檢測到3 143.7萬個(gè)SNPs位點(diǎn),經(jīng)過數(shù)據(jù)質(zhì)控后,測序數(shù)據(jù)剩余位點(diǎn)的比例(65.76%)小于芯片數(shù)據(jù)(78.69%),這與基因組重測序檢測到的SNPs中含有大量的(6 976 769個(gè),占位點(diǎn)總數(shù)的22.19%)低MAF位點(diǎn)(MAF<0.05)有關(guān)。與本研究結(jié)果一致,Wang 等[31]、Eynard等[29]在對(duì)大約克豬、荷斯坦牛的基因組測序數(shù)據(jù)分析中也發(fā)現(xiàn)基因組測序包含了20%左右的低MAF(MAF<0.05)位點(diǎn)。與基因組測序相比,芯片基因組SNP在設(shè)計(jì)過程中,優(yōu)先選擇測序樣本中發(fā)現(xiàn)的高M(jìn)AF的SNP位點(diǎn)[32]。本研究所用的CAUPorcineSNP50 芯片整合現(xiàn)有重要經(jīng)濟(jì)功能基因公開報(bào)道的候選位點(diǎn),并加入部分地方豬種全基因組重測序鑒定的特有SNP綜合優(yōu)化研制而成,所以該芯片SNP位點(diǎn)平均MAF值(0.292)高于各測序面板(0.244~0.245)。 利用芯片SNP標(biāo)記分析的HO、HE、遺傳距離等遺傳多樣性各指標(biāo)值均高于測序各組,利用芯片SNP標(biāo)記構(gòu)建的系統(tǒng)發(fā)生樹與測序各組也存在較大不同,而測序各組SNP標(biāo)記分析的遺傳多樣性各指標(biāo)值基本相同,構(gòu)建的系統(tǒng)發(fā)生樹基本相似。本研究結(jié)果說明,分型方法對(duì)遺傳多樣性、遺傳距離和系統(tǒng)發(fā)生樹分析存在影響。以往的研究表明,芯片SNP位點(diǎn)由于傾向于選擇高M(jìn)AF位點(diǎn)、位點(diǎn)群體代表性不全面等原因(即確定偏倚(ascertainment biases))會(huì)影響遺傳多樣性、群體分化、連鎖不平衡等分析的結(jié)果[33-35]。據(jù)此推測,本研究中芯片與測序?qū)z傳距離分析結(jié)果的不同可能是由于芯片和測序標(biāo)記MAF差異所致。在測序方法下,不同SNP密度對(duì)遺傳多樣性、遺傳距離和系統(tǒng)發(fā)生樹分析結(jié)果影響較小,說明3.4萬個(gè)標(biāo)記已經(jīng)能充分滿足系統(tǒng)發(fā)生樹分析所需的標(biāo)記數(shù)量,增加標(biāo)記數(shù)目和增加數(shù)據(jù)運(yùn)算量并不能進(jìn)一步提高遺傳多樣性和系統(tǒng)發(fā)生樹的分析精確性。 本研究以重測序數(shù)據(jù)為“原材料”構(gòu)建了不同密度SNP面板,利用芯片和各測序SNP面板的SNPs標(biāo)記分析棗莊黑蓋豬的遺傳多樣性、系統(tǒng)發(fā)生樹和基因組近交系數(shù)。結(jié)果表明,利用芯片SNP標(biāo)記分析的HO、HE、遺傳距離等遺傳多樣性指標(biāo)值均高于各測序組,利用芯片SNP標(biāo)記構(gòu)建的系統(tǒng)發(fā)生樹與各測序組也存在較大不同,此外,芯片數(shù)據(jù)檢測出的ROH長度較測序組大,基于ROH計(jì)算的近交系數(shù)偏小。各測序組的不同SNP密度對(duì)遺傳多樣性和系統(tǒng)發(fā)生樹分析結(jié)果影響較小,但對(duì)ROH及基于ROH計(jì)算的基因組近交系數(shù)影響很大。因此,在研究初期進(jìn)行試驗(yàn)設(shè)計(jì)時(shí),要根據(jù)研究目的選擇適宜的基因分型技術(shù)和標(biāo)記密度,以降低成本和提高結(jié)果的準(zhǔn)確性。1.3 基因分型和質(zhì)控
1.4 不同密度SNP面板的構(gòu)建
1.5 數(shù)據(jù)分析
2 結(jié) 果
2.1 SNP分型與質(zhì)控

2.2 不同密度SNP面板的構(gòu)建

2.3 遺傳多樣性和遺傳距離分析


2.4 系統(tǒng)發(fā)生樹

2.5 基于ROH的基因組近交系數(shù)分析

3 討 論

4 結(jié) 論