趙毓昊,王金朋,王希胤
生命科學(xué)與技術(shù)
雙子葉植物共同祖先基因組的拼接及應(yīng)用
趙毓昊,王金朋,王希胤
(華北理工大學(xué) 生命科學(xué)學(xué)院,河北 唐山 063210)
以葡萄基因組數(shù)據(jù)為基礎(chǔ),結(jié)合雙子葉植物7條祖先染色體的推斷過程,重新整合拼接了雙子葉植物共同祖先全基因組加倍前后的氨基酸和核苷酸序列。用拼接后的雙子葉植物共同祖先基因組數(shù)據(jù)作為參照物種,選取毛果楊作為雙子葉植物的代表進(jìn)行基因組比較研究,結(jié)果顯示,拼接后的雙子葉植物共同祖先作為參照物種更加有利于雙子葉植物中的比較基因組學(xué)研究。
祖先染色體;比較基因組學(xué);葡萄基因組;參照物種
比較基因組學(xué)分為種間比較基因組學(xué)與種內(nèi)比較基因組學(xué),是在全基因組測(cè)序結(jié)果的基礎(chǔ)上,通過比較已測(cè)序的基因組序列和基因組結(jié)構(gòu),獲得物種基因組的差異信息,推斷所比較基因的功能種類、表達(dá)過程以及和物種進(jìn)化過程的關(guān)系。通過物種間或物種內(nèi)的全基因組序列比對(duì),還可以幫助預(yù)測(cè)基因位置、定位基因進(jìn)而研究推斷物種的進(jìn)化過程。由現(xiàn)代基因組重構(gòu)出祖先染色體核型進(jìn)化過程,探索基因和染色體功能進(jìn)化的機(jī)制,也都需要物種間的基因組信息比較才能實(shí)現(xiàn)[1,2]。
現(xiàn)有研究表明,雙子葉植物共同祖先共有7條染色體[3],約1億年前,雙子葉植物祖先經(jīng)歷了一次全基因組三倍乘事件[4]。已被測(cè)序的擬南芥、葡萄、薔薇科植物(蘋果、草莓、桃、梅花)、楊柳科植物(毛果楊)基因組信息均揭示了這些雙子葉植物起源于一個(gè)共同的六倍體祖先[5,6]。物種基因組經(jīng)歷多倍化之后發(fā)生了染色體數(shù)目加倍、復(fù)雜的染色體重排、部分同源染色體間的重組、大量基因丟失等遺傳過程[7,8],因此,現(xiàn)代物種基因組結(jié)構(gòu)十分復(fù)雜。
在已測(cè)序的雙子葉植物中,葡萄基因組進(jìn)化速度較慢,祖先遺傳信息的保留相對(duì)完整,因此,在重構(gòu)過程中常被作為參考基因組[9]。但研究中發(fā)現(xiàn),多數(shù)雙子葉植物與葡萄進(jìn)行基因組比較時(shí),染色體結(jié)構(gòu)差異較大,在可視化的同源結(jié)構(gòu)點(diǎn)陣圖中的同源片段非常散亂,這給重構(gòu)過程造成了困難。
JAILLON O等人根據(jù)葡萄基因組信息推斷出了雙子葉植物共同的祖先的基因組,但沒有給出祖先基因組的遺傳序列信息,所以,雙子葉植物的比較基因組學(xué)研究中,仍選取葡萄為參考物種[3]。
本文以葡萄基因組數(shù)據(jù)為基礎(chǔ),結(jié)合雙子葉植物7條祖先染色體的推斷過程,整合、拼接了雙子葉植物共同祖先加倍前后的氨基酸和核苷酸序列。分別以雙子葉植物祖先加倍后的基因組和葡萄基因組作為參考基因組,繪制毛果楊基因組和參考基因組的同源結(jié)構(gòu)點(diǎn)陣圖,評(píng)價(jià)雙子葉植物共同祖先基因組作為參考基因組的合理性。
從公共數(shù)據(jù)庫(kù)JGI(https://genome. jgi. doe. gov/portal/)下載研究所需的葡萄、毛果楊、毛果楊的核苷酸序列(CDS文件)、氨基酸序列(PEP文件)以及基因在染色體上的位置相關(guān)注釋文件(GFF文件)。對(duì)下載的數(shù)據(jù)進(jìn)行預(yù)處理,刪除大量多余的基因組注釋信息。
利用BLAST軟件做基因信息比對(duì)[10],搜索共線基因?qū)Α@胮erl語言編寫代碼,繪制同源結(jié)構(gòu)點(diǎn)陣圖。

圖1 葡萄19條染色體同源關(guān)系
參考相關(guān)文獻(xiàn)[3],繪制葡萄19條染色體的同源關(guān)系,如圖1所示。
圖1中共有7種顏色,表示雙子葉植物的7條祖先染色體,幾乎每一種顏色都出現(xiàn)了3次,這說明雙子葉植物的共同祖先發(fā)生了一次全基因組三倍乘事件。
1.3.1 加倍前的7條祖先染色體基因組數(shù)據(jù)整合過程
從葡萄的19條染色體中,每種顏色選一條完整且基因保留數(shù)量最多的染色體作為祖先染色體。本文選取葡萄的1、2、5、8、9、12、18號(hào)染色體作為雙子葉植物的7條祖先染色體,并對(duì)這7條染色體的基因位置文件進(jìn)行重新命名、排序。這7條染色體的氨基酸序列與核苷酸序列則與基因位置文件的新基因名保持一致。
1.3.2 加倍后的21條祖先染色體基因組數(shù)據(jù)拼接過程
比較完整的染色體如2、15、16號(hào)同源染色體以及6、8、13號(hào)同源染色體的處理方法與上步驟一致;而發(fā)生重組、交叉互換的染色體,如14號(hào)染色體,則需要借助同源片段搜索軟件ColinearScan[11]搜索葡萄14號(hào)染色體與葡萄14號(hào)染色自身的同源片段,借助搜索到的同源片段信息找出染色體發(fā)生交叉互換的基因位置,體依照?qǐng)D示的顏色將其分割為兩條染色體;同理切割葡萄的4號(hào)和7號(hào)染色體。
從圖1中可見,深綠色出現(xiàn)了4次而不是3次,這說明代表深綠色的祖先染色體三倍乘后產(chǎn)生的3條子染色體中,其中一條發(fā)生了斷裂。在葡萄染色體中,2號(hào)、18號(hào)都是完整的染色體,因此推斷4號(hào)、7號(hào)染色體的深綠色部分是由一條染色體斷裂而來的,應(yīng)把深綠色部分連接在一起組成一條染色體,因此總共得到了21條染色體,這與預(yù)期一致。
圖2為葡萄與毛果楊物種之間的基因組同源結(jié)構(gòu)點(diǎn)陣圖。其中,橫軸表示葡萄基因組,葡萄基因組的19條染色體按照從左向右的順序進(jìn)行排列。圖中縱軸表示的是毛果楊的全基因組數(shù)據(jù),毛果楊基因組的19條染色體按照從上而下的順序進(jìn)行排列。圖中的每一個(gè)點(diǎn)表示BLAST軟件搜索到的一對(duì)同源基因,匹配最佳的同源基因?qū)τ眉t色點(diǎn)標(biāo)識(shí)出來,匹配較好的用藍(lán)色點(diǎn)標(biāo)識(shí),其它同源基因?qū)t用灰點(diǎn)標(biāo)識(shí)。
圖3為雙子葉植物共同祖先與毛果楊物種之間的基因組同源結(jié)構(gòu)點(diǎn)陣圖。其中,橫軸表示雙子葉植物共同祖先基因組,ABCDEFG分別表示雙子葉植物的7條祖先染色體,A1A2A3表示雙子葉植物祖先全基因組三倍乘事件產(chǎn)生的三套子基因組,圖中縱軸表示的是毛果楊的全基因組數(shù)據(jù),毛果楊基因組的19條染色體按照從上而下的順序進(jìn)行排列。圖中的每一個(gè)點(diǎn)表示BLAST軟件搜索到的一對(duì)同源基因,匹配最佳的同源基因?qū)τ眉t色點(diǎn)標(biāo)識(shí)出來,匹配較好的用藍(lán)色點(diǎn)標(biāo)識(shí),其它同源基因?qū)t用灰點(diǎn)標(biāo)識(shí)。

圖2 葡萄和毛果楊基因組間同源性點(diǎn)陣圖
從圖2可見,毛果楊18號(hào)染色體與葡萄的4、9、11號(hào)染色體具有較完整的同源性,但葡萄的4、9、11號(hào)染色體間隔較遠(yuǎn)。這會(huì)給大規(guī)模的染色體結(jié)構(gòu)推斷過程中帶來一定程度上的困難,同時(shí),也難以判斷葡萄4、9、11號(hào)染色體的同源關(guān)系。從圖3可見,A1、A2、A3分別與毛果楊的4、8、10、12、15、17染色體都具有較完整的同源片段。由于A1、A2、A3是由同一個(gè)祖先染色體A三倍乘而來,因此A1、A2、A3具有明顯的同源關(guān)系。
從圖3中可見,其它同一個(gè)字母下的3條染色體也具有十分顯著的同源關(guān)系,這說明對(duì)祖先染色體的拼接過程是正確的。
從圖3還可見,毛果楊18號(hào)染色體與雙子葉植物祖先染色體F1、F2、F3的同源關(guān)系非常明顯,很容易看出毛果楊的18號(hào)染色體是由7條染色體中的F號(hào)染色體演變而來的。比較圖2、圖3不難發(fā)現(xiàn),雙子葉植物祖先基因組作為參考基因組時(shí),獲得的同源片段更加緊湊和完整。以雙子葉植物祖先基因組作為參考基因組得到的同源片段的完整性遠(yuǎn)遠(yuǎn)優(yōu)于以葡萄作為參考基因組的情況。
雙子葉共同祖先7條染色體加倍后,應(yīng)該有21條祖先染色體,而葡萄僅僅有19條染色體,這說明雙子葉植物共同祖先演變成葡萄過程中,染色體發(fā)生了一定程度的融合。由于葡萄與雙子葉植物共同祖先存在較大的差異,因此,在比較基因組學(xué)研究中,用葡萄作為外類群參考不如用本文拼接的雙子葉植物21條祖先染色體作基因參考組的效果好。

圖3 雙子葉植物祖先和毛果楊基因組間同源性點(diǎn)陣圖
按照文獻(xiàn)方法拼接的雙子葉植物共同祖先基因組是合理的,相對(duì)于葡萄基因組,染色體結(jié)構(gòu)更加接近于目前的雙子葉植物染色體結(jié)構(gòu)。選取本文提供的雙子葉植物共同祖先基因組序列作為參照,可降低可視化同源結(jié)構(gòu)點(diǎn)陣圖中同源片段的散亂程度,為現(xiàn)代基因組重構(gòu)出祖先染色體核型進(jìn)化過程提供極大便利。
[1] Wang X, Guo H, Wang J, et al. Comparative genomic de-convolution of the cotton genome revealed a decaploid ancestor and widespread chromosomal frac- tionation[J]. New Phytologist, 2016, 209(3): 1252- 1263.
[2] Wang X, Jin D, Wang Z, et al. Telomere-centric genome repatterning determines recurring chromosome number reductions during the evolution of eukaryotes[J]. New Phytologist, 2015, 205(1): 378-389.
[3] Jaillon O, Aury J M, Noel B, et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla[J]. Nature, 2007, 449(7161): 463.
[4] Jiao Y, Wickett N J, Ayyampalayam S, et al. Ancestral polyploidy in seed plants and angiosperms[J]. Nature, 2011, 473(7345): 97-100.
[5] Liu Y, Wang J, Ge W, et al. Two Highly Similar Poplar Paleo-subgenomes Suggest an Autotetraploid Ancestor of Salicaceae Plants[J]. Frontiers in Plant Science, 2017, 8(12): 571.
[6] Tuskan G A, Difazio S, Jansson S, et al. The genome of black cottonwood, Populus trichocarpa (Torr & Gray) [J]. Science, 2006, 313(5793): 1596-1604.
[7] Wang X, Shi X, Hao B, et al. Duplication and DNA segmental loss in the rice genome: implications for diploidization[J]. New Phytologist, 2005, 165(3): 937.
[8] Wang J P, Yu J G, Li J, et al. Two Likely Auto- Tetraploidization Events Shaped Kiwifruit Genome and Contributed to Establishment of the Actinidiaceae Family[J]. iScience, 2018,10(7):230-240.
[9] Wang X, Tang H, Bowers J E, et al. Comparative inference of illegitimate recombination between rice and sorghum duplicated genes produced by polyploi- dization[J]. Genome Research, 2009, 19(6): 1026.
[10] Eric S D, Nicholas T K D D, Theophilus K A. Bioinformatics with basic local alignment search tool (BLAST) and fast alignment (FASTA)[J]. Journal of Bioinformatics & Sequence Analysis, 2014, 6(1): 1-6.
[11] Wang X, Shi X, Li Z, et al. Statistical inference of chromosomal homology based on gene colinearity and applications to Arabidopsis and rice[J]. BMC Bioinfor- matics, 2006, 7(1): 1-13.
Application of Ancestor Chromosomes of Dicotyledons in Comparative Genomics
ZHAO Yu-hao, WANG Jin-peng, WANG Xi-yin
(College of Life Sciences, North China University of Technology, Tangshan 063210, China)
Based on the grape genome data and the inference process of seven ancestral chromosomes of dicotyledons, the protein sequences of the triploid common ancestor (21 ancestral chromosomes) of dicotyledons were reconstructed and spliced, and the spliced common ancestral genome data of dicotyledons were used as reference species in comparative genomics with dicotyledons. The results showed that the common ancestors of the spliced dicotyledons as the reference species were more conducive to the comparative genomics study in dicotyledons.
ancestor chromosome; comparative genomics; grape genome; reference species
Q941.2
A
1009-9115(2019)06-0051-04
10.3969/j.issn.1009-9115.2019.06.013
2019-05-0
2019-05-15
趙毓昊(1993-),男,河北唐山人,碩士研究生,研究方向?yàn)楸容^基因組學(xué)。
(責(zé)任編輯、校對(duì):李春香)