張 瑞,馬 鈞,陳 燕,張天留,范婷婷,朱 波,張路培,徐凌洋,高會江,李俊雅,高 雪
(中國農業科學院北京畜牧獸醫研究所,牛遺傳育種創新團隊,北京 100193)
串聯重復序列(tandem repeats sequence,TRs)是指核心重復單元以首尾相連的方式多次重復所組成的序列,對細胞有絲分裂和減數分裂過程中染色體的分離及結構穩定起到至關重要的作用[1-2]。根據重復單元的長度不同,TRs可分為3大類,即衛星DNA(satellite DNA)(>100 bp)、微衛星DNA(microsatellite DNA)(≤6 bp)和小衛星DNA(minisatellite DNA)(7~100 bp)[3-4]。微衛星和小衛星DNA為中度串聯重復,主要位于基因組非編碼區、內含子和常染色質區域,具有高度多態性,因此常被用來構建個體DNA指紋圖譜[5]、評估遺傳多樣性[6-9]、分析種群結構[10-11]或鑒定個體間親緣關系[12-14];而衛星DNA為高度串聯重復序列,是異染色質的重要組成部分,主要集中在著絲粒區、端粒區附近以及Y染色體上[15-16]。研究表明,著絲粒區的衛星DNA參與牛科物種染色體融合[17];衛星DNA序列變化加速物種和群體分化[18];因此,可用衛星序列在組成、物理位置的變化來推斷物種及染色體的進化關系[19-20]。
TRs的堿基改變、擴張收縮和大片段復制都會影響著絲粒和近著絲粒區序列快速進化[21]。Melters等[22]利用生物信息學方法對不同物種的TRs進行比較分析,結果表明,幾乎所有動植物基因組的著絲粒區都存在高拷貝的衛星序列,且在物種間快速進化,但當分化時間超過5 000萬年,其序列相似度迅速降低。1978年,Macaya等[23]利用密度梯度離心法從牛基因組中分離出包括1.709、1.715、1.723、1.720a、1720b、1.711a、1.711b、1.706在內的8種衛星DNA,其中1.720、1.711、1.706衛星序列相似性較高。1982年,Taparowsky和Gerbi[24]提出了衛星序列進化的假設模型,并將衛星DNA分成了A、B兩大家族,家族A包括1.706、1.711a、1.720,家族B則包括1.715、1.711b。1996年,Modi等[25]對偶蹄目下46個物種分析發現,著絲粒區特異性衛星序列-1.715衛星家族和bovine-Pst廣泛存在反芻動物中。Kopecna等[26]通過激光顯微技術研究了10個牛科種群著絲粒區衛星DNA-1.715,并分析了它們之間的親緣關系,發現野牛和普通牛、非洲水牛和亞洲水牛4個物種親緣關系更加緊密。2013年,Melters等[22]對282個動植物基因組研究發現,著絲粒區存在大量的TRs;瘤牛、普通牛、水牛、歐洲野牛等物種著絲粒區存在1 410 bp(1.715)和680 bp(1.723)衛星家族,但兩者序列無相似性,且前者的密度更小,豐度更低;普通牛中,1 410 bp 序列達到了71%,而680 bp序列僅為29%。
目前,已報道的牛亞科基因組有普通牛、獨龍牛、非洲水牛、歐洲野牛等,它們的重復序列占比分別為48.81%[27]、48.13%[28]、37.21%[29]、47.03%[30]。2009年,Adelson等[31]分析了普通牛基因組中轉座子和簡單重復序列(simple sequence repeats,SSR)的分布和特征,發現其與GC含量和基因密度等有一定的相關性。2012年,趙芳芳[32]研究了牦牛部分基因組(占全基因組9.51%)中微衛星重復序列的特征。但目前關于串聯重復序列特征研究較少,且在普通牛及其他牛亞科物種中尚未有相關報道。本研究基于普通牛、瘤牛、水牛、牦牛、野牛、獨龍牛6個 牛亞科物種的基因組序列,通過TRF和RepeatMsker 軟件鑒別了6個牛亞科物種基因組中的TRs,研究了TRs在其基因組中的組成、分布及結構特征,并分析了6個牛亞科物種染色體著絲粒區衛星序列的進化,為牛亞科物種TRs的研究提供理論和數據支撐,也為進一步研究牛亞科物種的進化提供重要依據。
本研究以普通牛、瘤牛、牦牛、水牛、野牛和獨龍牛的基因組序列為研究對象,其中普通牛、瘤牛、牦牛、水牛和野牛的參考基因組序列來源于NCBI基因組數據庫(https://www.ncbi.nlm.nih.gov/genome/),下載版本分別為普通牛(Bostaurus, ARS-UCD1.2)、瘤牛(Bosindicus, Bos_indicus_1.0)、水牛(Bubalusbubalis, UOA_WB_1)、野牛(Bisonbison, Bison_UMD1.0)、牦牛(Bosmutus, BosGru_v2.0);獨龍牛基因組序列使用本團隊組裝版本。
通過TRF(tandem repeats finder,V4.09)[33]和RepeatMasker(V4-0-9)兩個軟件對串聯重復序列進行鑒定,重復單體的長度在1~2 000 bp之間。1)TRF:參考Melters等[22]的方法,具體參數設置為1、1、2、80、10、200、2 000,分別表示匹配(match)、插入缺失(indel)、匹配概率(probability of match,PM)、插入缺失的概率(probability of indel,PI)、最大周期(maxperiod)、錯配(mismatch)、最低得分(minscore)。2)RepeatMasker:將不同物種的基因組分別與數據庫(Dfam_Consensus和RepBase)中的序列進行比對查找。運行命令為time RepeatMasker -parallel 2 -species ‘name’ -gff -dir repeat fasta_sequence,輸入文件格式為fasta序列,其中-parallel 2表示并行的線程數為2,-species ‘name’表示所對應物種的名字為’name’,-gff 表示輸出格式為gff,-dir repeat表示將結果輸出repeat文件夾中。3)數據整合與處理:將TRF和RepeatMasker兩個軟件鑒定的TRs進行整合。本研究中對于重疊部分的序列,只保留重復單元較短的序列。
根據重復單體的長度,將TRs分為3類:1)衛星DNA:重復單體長度>100 bp;2)小衛星DNA:重復單體長度在7~100 bp之間;3)微衛星DNA:重復單體長度≤6 bp。
參考Castoe等[34]的方法,具體為:對于單堿基、二堿基、三堿基、四堿基微衛星,總長度≥12 bp;對于五堿基和六堿基微衛星,其總長度≥15 bp。根據起始堿基順序差異和堿基互補配對原則,對不同的拷貝類別進行歸類處理。例如單堿基A及其互補堿基T歸為同一類;二堿基重復單元AC、CA其互補序列TG、GT歸為同一類;三堿基重復單元AAC、ACA、CAA及其互補序列TTG、TGT、GTT歸為同一類。
根據Melters等[22]的報道,牛亞科物種著絲粒區衛星DNA主要有1.723(680 bp)和1.715(1 410 bp)兩類。因此,本研究主要對1.723和1.715衛星DNA進行分析。1)衛星DNA下載:從NCBI中的核酸數據庫(https://www.ncbi.nlm.nih.gov/nucleotide/)中下載這兩個序列,登錄號分別為M36668.1和J00036.1;2)建庫:建立6個物種基因組序列的本地數據庫(makeblastdb -in fasta -parse_seqids -hash_index -dbtype nucl);3)比對:將1.723和1.715衛星序列分別作為參考序列,結合本地BLAST進行核酸比對(Blastn);4)候選序列提取:根據比對結果中衛星序列的位置信息,利用 Perl程序提取得分> 800的序列作為候選衛星序列,進行后續分析。
首先,將6個物種基因組中的1.723和1.715衛星序列整合到一個文件中;然后,利用ClustalW程序進行序列比對,采用默認參數,輸出結果為phylip格式;之后,利用 Phylip軟件構建系統發育樹(NJ樹),重復1 000次,其他為默認參數,輸出文件為tree文件;最后,利用FigTree軟件(V1.4.3,http://tree.bio.ed.ac.uk/software/figtree/)可視化進化樹。
通過TRF和RepeatMasker軟件鑒定出單元長度在1~2 000 bp的TRs,并將其分為微衛星DNA、小衛星DNA和衛星DNA進行比較分析(表1)。由表1可知,TRs在6個物種基因組中的平均占比為2.03%,平均長度為54.93 Mb,其中普通牛所占比例最高,3.42%(93.00 Mb),瘤牛比例最低1.42%(37.88 Mb)。這些TRs中,微衛星DNA在6個物種基因組中的平均比例略高,為0.76%(20.46 Mb),而小衛星DNA和衛星DNA在基因組中的比例相差不大,分別為0.65%(17.69 Mb)和0.62%(16.78 Mb)。
同時,本研究還統計分析了每個物種基因組中TRs位點數,如表2所示,6個物種基因組中,TRs總位點數為523 165~592 305,均值為564 611。微衛星DNA在基因組中分布最廣泛,位點數最多(453 378~508 830),占其總數的85.64%。小衛星和衛星DNA在基因組中的位點數較少,其均值分別為43 026(7.62%)和38 180(6.75%),但每個位點的平均長度卻明顯高于微衛星DNA(圖1),表明重復單元較短的序列每個位點的重復序列長度可能也較短。

圖1 串聯重復序列平均每個位點的序列長度Fig.1 The sequence length of each locus in tandem repeats sequence
由表1、表2可知,衛星DNA在6個牛亞科物種基因組中平均長度為16.78 Mb,其中獨龍牛的衛星DNA最長,為24.65 Mb,野牛則最短,為11.86 Mb;而衛星DNA在6個牛亞科物種基因組中平均位點數為38 180(6.75%),其中獨龍牛衛星DNA位點數最多,為46 908(8.09%);野牛的位點數最少,為31 144(5.53%),略低于6個物種衛星DNA位點平均比率6.75%。這表明,在衛星DNA中,基因組中的位點數越多,其序列長度也越高。
由表1、表2可知,小衛星DNA在6個牛亞科物種中比例為0.26%~1.98%,平均位點數為43 026,占TRs位點總數7.62%。6個物種中小衛星DNA位點數相差不大,其中位點數最多的是野牛,為45 349, 占8.06%;而瘤牛最少,為37 708,占比7.21%。6個物種小衛星DNA平均長度為17.69 Mb,占0.65%,其中瘤牛小衛星DNA長度最短,為7.07 Mb,占瘤牛基因組總長的0.26%;普通牛則最長,為53.79 Mb,占普通牛基因組總長的1.98%。表明小衛星DNA長度在6個物種間變化較大,可能是由物種間差異造成的,也有可能與不同基因組的組裝效果有關。

表1 串聯重復序列在6個牛亞科物種基因組中的長度及比例

表2 串聯重復序列在6個牛亞科物種基因組中的位點數及比例
由表1、表2可知,微衛星DNA在6個牛亞科物種中的比例為0.67%~0.85%,總長度在18.03~23.05 Mb之間,總數量在50萬左右,遠遠大于小衛星和衛星DNA;其中水牛的微衛星位點數最高(508 830個),其次是普通牛(490 638個),牦牛的數量最少,為474 360個。通過對一至六堿基微衛星序列的豐度和長度分析發現,6個牛亞科物種中,二堿基微衛星序列的豐度最高(圖2a),在基因組中分布最廣泛;三、五、六堿基微衛星則相應較低,這與其他真核生物中的結果一致[35]。其中,二堿基微衛星DNA豐度在牦牛中最高,為70.93 loci/Mb,但平均位點長度以普通牛的六堿基最高(圖2a, 2b)。
在單堿基微衛星中,A/T的含量高于G/C的含量。在二堿基微衛星中,牛亞科基因組中豐度最高的

loci/Mb表示每Mb序列所對應的重復序列位點數,bp/locus表示每個位點的序列平均長度;圖中紅色越深表示相應的值越高,藍色越深表示相應的值越低;1~6分別代表單堿基、二堿基、三堿基、四堿基、五堿基和六堿基。下同loci/Mb represents the locus number of microsatellites per Mb, and bp/locus represents the average sequence length of each locus. In the figure, the deeper the red, the higher the value, the darker the blue, the lower the value. 1-6 represents mononucleotide, dinucleotide, trinucleotide, tetranucleotide, pentanucleotide, hexanucleotide, respectively. The same as below圖2 微衛星豐度(a)和每個位點的平均長度(b)Fig.2 The abundance of microsatellites(a) and the average length of each loci(b)
是AC拷貝(31.51~38.16 loci/Mb)(圖3a),然后依次是AT、AG、CG,這與人及其它哺乳動物研究結果一致,在植物中以AT最豐富[36]。同時,由圖3b看出,AT拷貝的位點平均長度(52.79~56.53 bp/locus)均高于其他3種,尤以普通牛最高;而且無論是豐度還是位點平均長度,AT拷貝均高于CG。這可能與AT由兩個氫鍵相連,而CG由3個氫鍵連導致微衛星的復雜度增加相關。

圖3 二堿基微衛星豐度(a)和每個位點的平均長度(b)Fig.3 The abundance of dinucleotide microsatellites(a) and the average length of each loci(b)
圖4顯示,在三堿基微衛星中,TAA為重復最多的拷貝類別(4.91~6.17 loci/Mb),該類別在其他脊椎動物中出現的頻率也較高[35]。而每個位點的平均長度,普通牛的TAG(82.73 bp/locus)和GCC(73.62 bp/locus)高于其他拷貝類別。四堿基微衛星中,AAAT和AAAC的豐度最高,而CGAT和ACCT的平均長度高于其他類型。五堿基和六堿基微衛星中,含量較高的分別為TTTAT和TATACA。在不同的重復類型中,豐度高的拷貝類別其平均長度不一定處于較高水平,該結果與Adams等[35]對71個脊椎動物的研究結果類似。在一至六堿基微衛星中,GC的比例低于AT,這可能由微衛星的豐度和密度與GC含量呈負相關而引起的[37]。
在牛亞科物種的衛星序列中,著絲粒區衛星DNA在基因組中高度保守且具有物種特異性,主要包括1.723和1.715序列,后者廣泛存在于反芻動物中[25]。因此,本研究分別構建了衛星序列1.723和1.715在6個物種中的系統發育樹,如圖5a和5b所示。由圖5a可見,1.715衛星DNA普遍存在于6個牛亞科物種中,序列在物種間存在分化,但分化不明顯。普通牛、獨龍牛、水牛各自的1.715衛星序列較明顯聚在一起,表現出物種的特異性。由圖5b可見,衛星序列1.723在牦牛中不存在,而其他5個 物種明顯分成兩支,獨龍牛和野牛聚在一起,普通牛、瘤牛、水牛聚在一起,但每個物種表現出較明顯的物種特異性。表明即便在近緣物種中,著絲粒衛星DNA也是不斷進化的。
為進一步了解著絲粒區衛星DNA在同一物種中不同染色體上的進化情況,本研究分別構建了普通牛和瘤牛不同染色體上1.715衛星DNA的系統發育樹,如圖5c和5 d所示。由圖5c和5d可以看出,普通牛1.715序列主要分布于2、4、11、15、19號染色體上,而瘤牛則主要分布在2和7號染色體上,而且發現在普通牛的2和4號染色體,瘤牛的2和7號染色體仍存在一些共享序列。由此表明,即便是同一物種,衛星序列在不同染色體上既發生著進化,也存在著共享。
串聯重復序列在過去被認為是“垃圾”、“自私”、“寄生”的DNA,但隨著越來越多的研究表明,TRs對物種進化、基因遺傳變異、轉錄調控等具有重要的意義[38],在基因組中扮演著重要的角色[39]。本研究分析了6個牛亞科基因組中TRs的分布特點,并著重研究了微衛星1~6堿基重復單元的序列特征以及著絲粒區衛星序列的進化。結果表明,TRs在6個物種基因組中的平均占比為2.03%,總位點數為564 611,平均長度為54.93 Mb,其中以微衛星含量最高,分布最廣,微衛星(483 405/85.64%)>小衛星(43 026/7.62%)>衛星序列(38 180/6.75%)。其中水牛的微衛星數量最高,為508 830個,其次是普通牛(490 638個),牦牛的微衛星數量最少(474 360個)。 趙芳芳[32]研究了牦牛部分基因組(占全基因組9.51%)中微衛星重復序列的特征,發現在9.51%牦牛基因組中有43 409個微衛星位點,全基因組則約有微衛星位點456 456個,本研究結果與其基本一致。Wang和Glanzmann等[28-29]通過TRF鑒定出獨龍牛的串聯重復序列含量為0.62%、非洲水牛為1.41%,而本研究中獨龍牛串聯重復序列含量2.1%,非洲水牛為1.96%,整體占比偏高。可能與基因組組裝情況及重復序列統計方法有關,由于TRs的序列相似性較高,給基因組測序和組裝帶來巨大困難,導致TRs在基因組中組裝不完全,同時鑒定方法的不同,也會造成結果的差異。本研究使用自己組裝的獨龍牛基因組序列,組裝指標Contig N50和Scaffold N50都較Wang等[28]發表的獨龍牛基因組有較大的提升,這為鑒定出更多的TRs提供了可能。同時本研究使用TRF和RepeatMasker兩個軟件來鑒定和篩選TRs,會比單純使用TRF軟件鑒定出較多的序列。
早期研究表明,幾乎所有動植物基因組著絲粒區都存在高拷貝的衛星序列,對細胞有絲分裂和減數分裂中染色體的分離及結構穩定性起到至關重要的作用[1-2]。Melters等[22]發現,在普通牛、瘤牛、歐洲野牛和水牛等物種著絲粒區普遍存在1.723(680 bp)和1.715(1 410 bp)兩類衛星家族,且后者的豐度更高,密度更大;在普通牛中,1 410 bp序列占比達到了71%,而680 bp僅為29%。因此,本研究構建了1.723和1.715衛星DNA在6個牛亞科物種中的系統發育樹,發現牛亞科6個物種基因組中均存在1.715衛星DNA,而牦牛中不存在1.723衛星DNA。1.715和1.723衛星DNA分布在不同的分支上,存在較明顯的分化,表明即便在近緣物種中,著絲粒衛星序列也是在不斷進化的,具有物種特異性,這與Fry等[40]的研究結果一致。普通牛、獨龍牛、水牛各自的1.715序列較明顯聚在一起,而其他幾個物種的1.715序列變異較大。衛星序列1.723在普通牛、瘤牛、水牛、獨龍牛和野牛5個 物種明顯分成兩支,獨龍牛和野牛聚在一起,普通牛、瘤牛、水牛聚在一起,表明獨龍牛和野牛的關系較近;而普通牛、瘤牛、水牛關系較近。這與Naji等[41]利用古等位基因AA和變異等位基因DA構建的9個牛科物種系統進化樹結果較一致,獨龍牛和班騰牛、印度野牛、美洲野牛關系較近。另外,衛星DNA一般不發生轉座,但仍有部分衛星家族可以從一條染色體上傳播到另一條染色體,使非同源染色體的著絲粒區衛星DNA高度相似[42]。研究發現,人類基因組中的衛星DNA可以在1、5和19號染色體,13和21號染色體以及14和22號等不同染色體上共享[43-45]。本研究構建了1.715衛星DNA在普通牛和瘤牛不同染色體上的系統發育樹,發現1.715序列主要分布于普通牛的2、4、11、15、19號 染色體上,而瘤牛中則主要分布在2和7號染色體上,且2、7號染色體存在共享片段,這與人類的研究結果相似。

a、b、c、d分別表示三堿基、四堿基、五堿基和六堿基微衛星重復類型的分布,其中b、c、d選取排名前30的微衛星序列進行分析a,b,c,d represent distribution of trinucleotide, tetranucleotide,pentanucleotide, hexanucleotide, respectively, and the top 30 microsatellite sequences are selected for analysis in b,c,d圖4 三至六堿基微衛星豐度和每個位點的平均長度Fig.4 The abundance of 3-6 base microsatellites and the average length of each loci

a和b分別表示1.715和1.723衛星DNA在不同物種間的進化,不同顏色代表不同物種;c和d分別表示1.715衛星序列在普通牛和瘤牛中的進化,不同顏色代表不同染色體a and b represent phylogenetic trees of 1.715 and 1.723 satellite sequence in different species,respectively, the different colors represent different species; c and d represent phylogenetic trees of the 1.715 satellite sequence in Bos taurus and Bos indicus, respectively, the different colors represent different chromosomes圖5 牛亞科物種著絲粒區衛星DNA系統發育樹Fig.5 Phylogenetic trees of centromeric satellite sequence in the 6 bovinae genomes
本研究發現,TRs在牛亞科6個物種中平均占比為2.03%,微衛星為TRs主導序列,占比85.64%;且二堿基微衛星豐度最高,并以AC拷貝類別為主;1.715衛星DNA普遍存在于6個牛亞科物種的基因組中,但在物種間或染色體間存在不同程度分化。本研究結果將為研究牛亞科物種間TRs的進化關系提供重要理論支撐。