張哲 黃建勛 戚繼
(復旦大學生命科學學院 植物科學研究所 遺傳與發育協同創新中心,上海 200433)
基于低拷貝核基因的組分特征研究十字花科植物的系統發生關系
張哲 黃建勛 戚繼
(復旦大學生命科學學院 植物科學研究所 遺傳與發育協同創新中心,上海 200433)
近年來人們在十字花科物種系統發生關系方面開展了大量工作,研究發現十字花科可分為3個主要類群,但是這些類群內部以及類群間的進化關系還不明確。旨在快速準確地解決十字花科物種系統發生關系,通過選取39個十字花科物種及兩個外類群物種作為研究材料,使用系統發生基因組學方法獲得了覆蓋所選物種的低拷貝同源基因集合。進一步通過CVTree方法分析低拷貝核基因的組分特征,得到了高度支持與穩定的十字花科系統發育關系。結果顯示,十字花科被分為6個主要的類群,其中3個主要類群的劃分與前人的分類結果高度一致,并且增加了兩個新類群,此外,前人研究中存在爭議的第二類群在本研究結果中成為有穩定支持的單系群。表明基于大量低拷貝同源基因集合并結合組分矢量分析,可以較為準確地反映十字花科物種的系統發生關系。因此,CVTree方法不僅適用于研究原核生物、真菌等微生物的系統發生關系,也可以用來探究十字花科植物等高等生物的親緣關系。
十字花科;系統發生關系;組分矢量;低拷貝核基因
在真核生物的系統發生研究中,由于線粒體、葉綠體等細胞器基因較易獲得而被廣泛使用,例如,Zhu等[1,2]利用線粒體基因matR研究薔薇科的系統發育關系。由于線粒體基因組在不同植物類群中差異較大(300-600 kb),并且部分寄生類群植物的線粒體基因組中存在核基因的插入[3,4],這些特點在一定程度上限制了線粒體基因在植物系統發生研究中的應用。不同物種的葉綠體基因具有組成和排列相似、大都是直系同源基因且基因序列比較保守等特點[5],同時已有大量的植物葉綠體基因組信息被測序發表,這些因素使得葉綠體基因成為研究植物系統發生關系的常用材料之一[6-8]。然而,由于葉綠體基因屬于單系遺傳,攜帶的進化信息有限,難以揭示大類群內部深層次的系統發生關系。隨著高通量測序技術的發展,快速、準確及大規模獲取植物的核基因序列成為可能,因此目前越來越多的研究人員開始采用屬于雙親遺傳、攜帶更多遺傳信息的核基因來研究植物的親緣關系[9,10]。近年來大量有關工作通過轉錄組測序手段獲取被子植物或陸地植物的編碼序列,在多種尺度開展植物的系統發生關系研究[11-13]。
與細胞器基因相比,核基因具有復雜的進化模式,包括基因重復和基因丟失。研究表明,被子植物在進化過程中經歷過多次全基因組重復事件(Whole genome duplication,WGD)[14];十字花科祖先經歷過α和β兩次全基因組重復事件[15-17];還存在一定數量的種、屬特異的全基因組重復事件。例如,白菜近期經歷過獨立的基因組三倍化[18],大豆也被證實近期發生過一次全基因組重復事件。祖先基因組多倍化事件導致的全基因組重復,可能在后代類群中存在丟失不同基因拷貝的現象[19],使得部分基因退回到單拷貝狀態,這可能導致不同物種間保留的基因為旁系同源關系。由于旁系同源基因無法提供正確的物種分化信息,因此在一定程度上限制了核基因在植物親緣關系研究中的應用。面對這一挑戰,研究人員不斷開發新的生物信息學方法,從大量物種的測序數據中獲取可能具有直系同源關系的單拷貝或低拷貝基因來構建真實反映物種關系的進化樹,并且已經取得了一定的進展[20,21]。
十字花科(Brassicaceae)是一個公認的自然大科,全科分為338個屬,共有3 700多個種[22],主要分布于地中海及西北美等北溫帶地區,同時也廣泛分布于我國西南、西北及東北的高山區及丘陵區[23]。十字花科中不僅存在白菜、油菜等具有重要應用價值的作物,還包含多種適應干旱、鹽堿、低溫等不同極端環境的植物,被廣泛用于分子生物學研究的模式植物擬南芥也屬于這一類群,因此該科具有重要的經濟和研究價值。目前已經公布了十字花科中19個物種的基因組測序信息[2,24-33]。十字花科祖先以及物種分化以后等不同演化階段發生過多次基因組多倍化并可能導致一定程度的物種輻射[34-37],使得十字花科具有豐富的物種多樣性,為植物系統發生有關研究提供了優良的素材。
近年來發表的關于十字花科植物族屬的界定及科內系統演化關系方面的工作主要依靠葉綠體基因和少量核基因提供的進化信息。Beilstein等[38]利用來自113個十字花科物種的葉綠體基因ndhF序列信息,將十字花科劃分為主要的3個類群(I、II、III);同時Franzke等[39]定義了擴展的類群II(Extended II,EII),該類群包含了原類群II以及部分類群II的并系類群中的物種。由于類群EII的物種親緣關系還存在爭議,因此在十字花科進化樹上EII的內部關系經常以梳狀結構呈現。最近Huang等[10]利用113個核基因將十字花科分為6個主要類群,在得到與前人研究一致的3個主要類群的基礎上,同時較好地解決了類群EII的系統發育關系。
在十字花科以及其它被子植物系統發生關系的研究中,少數基因集合所包含的物種演化信息不能反映一致的物種親緣關系。為了消除少數核基因的具體選擇在十字花科系統發生關系分析中的影響,本研究通過使用系統基因組學方法,從34個物種的轉錄組及7個物種的基因組中篩選出大量低拷貝核基因,并使用組分矢量方法分析氨基酸序列片段中所包含的共同祖征、演征信息,以期獲得穩定的十字花科物種系統發生關系,為深入研究十字花科以及其它類群物種的系統發生關系提供新的視角。
1.1 材料
本研究采用了34個物種的轉錄組數據和7個物
種的基因組數據,其中轉錄組數據包括來自于本實驗室測序的33個物種的轉錄組信息以及公共數據庫下載的1個物種的轉錄組信息(包括33個十字花科物種和1個醉蝶花科的Cleome serrulata作為外類群物種);基因組數據部分包括公共數據庫下載的7個物種的基因組信息(包括6個十字花科物種和1個番木瓜科的番木瓜作為外類群物種),41個物種的具體信息及數據來源信息,見表1。
1.2 方法
在西方文化的優點和缺點的縫隙中中艱苦生活的藤尾不能平衡西洋文化的優點、短處和封建性。這是藤尾死亡的主觀原因,藤尾自己在這個情況下,以死亡逃避現實。藤尾的母親迷女意識到自己的壞事也于事無補了。藤尾想擁有純粹的愛情,也不能舍棄以利益和個人為中心的本位意識。也不知道面對愛情被背叛的方法。實際上,這是一個非常大的西方化女性的狀況。
1.2.1 數據處理 利用Trinity軟件對轉錄組測序數據進行拼接[40](參數為默認參數),使用TGICL軟件(參數:-p 0.98,-l 40,-v)來獲得更長的cDNA序列[41]。使用CD-HIT軟件對基因組或轉錄組數據中相似度高的序列進行過濾處理[42]。最后進行序列比對及同源基因簇構建。為了準確識別41個物種的同源基因簇,我們對任意兩物種間的蛋白質序列進行了all-against-all blastP比對分析,隨后利用Inparanoid計算蛋白質序列全局比對相似性并舍去比對相似性低于40%的比對結果[43]。接下來利用OrthoMCL整合分析41個物種所包含的1 149 041個基因之間的蛋白質序列比對結果[44],最終得到35 948個同源基因簇,每個同源基因簇平均約包含29個基因,平均物種覆蓋度為41.88%。
1.2.2 低拷貝基因的篩選標準 以同源基因簇中單拷貝基因的物種數占總物種數的85%、80%及75%(對應35、33及31個具有單拷貝基因的物種數)作為閾值得到3個低拷貝同源基因簇集,作為后續分析的3個數據集。同時刪除低拷貝同源基因簇中其它物種的多拷貝基因,保證每個低拷貝同源基因簇中所有物種均為單拷貝同源基因。
1.2.3 十字花科親緣關系預測 在每個數據集中分別提取每個物種的所有氨基酸序列組成該物種的“縮略基因組”。使用CVTree構建各個物種的組分矢量,同時計算兩物種組分矢量間的夾角余弦值并將其轉換為物種距離,最后使用鄰接法(Neighbor Joining Method,NJ)構建十字花科物種系統發生樹。
2.1 物種基因組/轉錄組概況
本研究選擇來自于十字花科的39個物種(涵蓋了18個族及兩個未定族)和兩個外類群物種。首先對其中34個物種的轉錄組數據進行了轉錄本拼接處理,得到了每個物種約25 000-35 000個轉錄本(表1),每個轉錄本的平均氨基酸長度約為313(圖1)。由于高度相似的序列會對后續篩選低拷貝同源基因造成影響,因此對基因組數據以及拼接后的轉錄組數據中高度相似的序列進行了過濾處理。結果保留了平均每個物種約28 025個基因或轉錄本序列用于后續的相關分析。

表1 41個物種的物種信息、基因組或轉錄組信息及數據來源

圖1 41個物種的基因或轉錄本平均氨基酸長度分布
2.2 同源基因聚類
本研究對41個物種的氨基酸序列進行了allagainst-all blastP序列比對分析,得到了兩兩物種間的同源基因對分布情況。隨后,整合了所有物種的比對結果信息,進一步分析得到了41個物種間共計35 948個同源基因簇,其中平均每個同源基因簇中約含有來自17個物種的29個基因。通過觀察以上這些同源基因簇中基因數目的分布情況,得到了兩個較為集中分布的同源基因簇集,分別對應直方圖上的兩個峰值(圖3-A)。其中第一個峰值周圍的同源基因簇中約含有0-15個基因,這部分同源基因簇集代表十字花科內部分支部分物種的祖先基因;第二個峰值周圍的同源基因簇中約含有40-50個基因,這部分同源基因簇集則代表十字花科物種分化前的祖先基因,因此這部分同源基因簇保留了更全面的十字花科物種的遺傳信息。

表2 41個物種同源基因及孤兒基因的分布情況
2.3 單拷貝同源基因篩選
前期研究結果表明十字花科祖先在經歷了兩次全基因組重復后,其產生的復制基因迅速丟失。其中有約4 000對重復基因在十字花科物種分化前仍
然保留了兩個以上拷貝。由于重復基因在不同類群中可能保留了不同的拷貝,使得建樹過程中可能采用了旁系同源基因而無法反映正確的物種關系(圖2)。為了盡量避免全基因組或基因重復事件對構建十字花科系統發育關系的影響,從同源基因簇中挑選滿足一定物種覆蓋度且各物種同源基因為單拷貝的基因集。以物種覆蓋度為85%、80%及75%(對應35、33及31個物種數)作為閾值得到3個數據集合,分別包含2 058、3 047和4 001個單拷貝基因簇。在3種數據集中,大部分同源基因簇約包含40-50個基因(圖3-B),并且總物種覆蓋度約為98%(表3),表明3種數據集幾乎覆蓋所有物種,為后續的系統發生研究提供了較為充足的遺傳信息。
2.4 構建十字花科系統發生關系

圖2 基因選擇對物種樹正確性的影響

圖3 總同源基因簇(A)及3個同源基因簇子集(B)的基因數分布情況

表3 三種同源基因簇集的基本信息
利用CVTree方法及3種同源基因簇集合分別構建了十字花科系統發生樹。隨后整合分析了3種系統發育關系結果并最終得到了高度支持與穩定的十字花科系統發生樹。如圖4所示,十字花科分為六大類群(類群A-F),與前人研究得到的十字花科六大類群的分類結果高度一致。其中類群A與類群B和C的結合類群互為姐妹類群,類群D為類群A、B、C結合類群的姐妹群,同時類群E為類群A、B、
C、D結合類群的姐妹群,Aethionemeae族為基部類群F。在大尺度上,我們的結果與前人構建的十字花科三大類群(類群I、II、III)的系統發育關系基本一致,即類群A和類群B分別對應類群I和類群II,同時類群III中的大部分物種被劃分至類群E中。在兩個小類群C、D中,分別包含了類群EII及類群III中的部分物種。此外,我們還較好地解決了類群EII的系統發育關系,將類群EII中的大部分物種劃分至類群B中(與類群II互為姐妹類群),其它物種則被劃分至類群C和類群D中。總體來說,基于CVTree方法得出的十字花科系統發育關系與前人利用葉綠體基因以及核基因構建的系統發育關系在大類群的親緣關系上基本一致。在我們構建的系統發生樹上(圖4),節點處的實心圓點代表該拓撲結構得到3種同源基因簇集合的共同支持,空心圓點代表該拓撲結構得到兩種同源基因簇集合的共同支持。本研究系統發生樹中幾乎所有的節點都得到了高度支持,這也證明了該系統發育關系不隨基因集合的變化而改變,因此具有較高的穩定性。
基于大量低拷貝核基因集合和CVTree方法構建的十字花科系統發生樹在族、屬等尺度上與前人的研究結果高度一致,在一些個別分支的系統發生關系上存在一定程度的差異。例如,本研究結果與Kagale等[12]的研究結果相一致,認為Lepidieae族的分化晚于Cardamineae族。而Huang等[10]的研究結果則認為Lepidieae族的分化時間較早,屬于類群I的基部分支。有研究表明Lepidieae族經歷過異源多倍化事件[45],因此采用不同的同源基因集合可能會對正確反映Lepidieae族的分化位置造成影響。其次,在類群I中Physaria newberryi的位置也與前人的研究結果存在差異,Huang等的研究結果中Physaria newberryi分支在c分支分化之后、b分支分化之前出現(圖4),而在我們的研究結果中Physaria newberryi位于類群I的基部。我們發現Huang等[10]構建的系統發生樹中,Physaria newberryi在類群I物種中的枝長最長,表明該物種具有較快的進化速率,這可能會對不同的構樹方法造成不同的影響。另外Huang等的研究認為Turritis glabra位于a類群基部(圖4),而在本結果中Turritis glabra與Boechera canadensis的親緣關系更接近,并且為a類群的姐妹群,這可能與Huang等的結果中包含Alyssopsis mollis、Murbeckiella pinnatifida等Turritis glabra的近鄰物種有關。
由于Schrenkiella parvula和Eutrema salsugineum均為耐鹽植物,早期研究認為這兩個物種同屬于鹽芥屬(Thellungiella)。Kagale[12]和Huang等[10]的研究結果均認為Schrenkiella parvuls的分化早于Eutrema salsugineum和其它EII-B類群物種,暗示這兩個物種的抗鹽性狀為物種分化后單獨獲得。而本研究結果與早期的分類保持一致,即Schrenkiella parvula和Eutrema salsugineum的親緣關系更接近,傾向于支持兩個物種鹽適應能力的獲得發生在物種分化之前。此外,本研究結果穩定支持Lunaria annua與類群II和EII的結合類群互為姐妹類群,即該物種在d分支分化之后出現(圖4),而Huang等的研究結果顯示Lunaria annua在d分支分化之前、e分支分化之后出現。由于d和e兩個分支的進化關系較近,這也在一定程度上加大了正確反映Lunaria annua系統發生關系的難度,因此可能需要加入其它近鄰物種才能確定Lunaria annua的進化位置。
基因重復和丟失等因素可能在一定程度上對依賴于直系同源基因比較的進化研究造成影響。在本研究結果中Brassiceae族物種約含有3萬-4萬個編碼基因(表1),顯著高于十字花科其它族物種的平均基因數目。這與Brassiceae族祖先經歷過近期基因組多倍化事件相符,表明Brassiceae族物種在全基因組重復后保留了大量的旁系同源基因。與前人的研究結果相比,本研究結果中Brassica nigra和Brassica rapa的位置發生了調換,這可能與Brassiceae族物種中普遍存在的旁系同源基因的保留、丟失模式有關,因此需要進一步深入研究才能為Brassiceae族構建出正確的系統發生關系。
綜上所述,基于CVTree方法我們得到了穩定支持的十字花科物種系統發育關系。我們將十字花科劃分為六大類群,其中類群A、B和E基本與前人研究結果中的類群I、II和III一一對應,同時還增加了兩個新類群(類群C、D)。此外,我們將EII類群中大部分物種劃分至類群B中,并且與類群II
互為姐妹類群,其它之前被認為屬于類群EII的物種則分布在類群C和類群D中。本研究結果在分類情況、各個類群內及類群間的系統發生關系上與前人的研究結果基本一致,同時較好地解決了類群EII分類的爭議。以上結果表明,在全基因組尺度上進行同源基因聚類以及低拷貝同源基因篩選,將在一定程度上減少使用少數基因構建進化樹研究中面臨的基因選擇問題,使得快速準確地獲得物種進化關系成為可能。快速發展的高通量測序技術使得CVTree方法不僅適用于原核生物、真菌等微生物的
系統發生分析[46],也可以被應用在十字花科或更多類群物種的進化研究中。

圖4 十字花科系統發生樹
本研究采用39個十字花科物種及兩個外類群物種,利用系統基因組學方法篩選低拷貝核基因并基于組分矢量方法得到了高度支持與穩定的十字花科系統發育關系。本結果在分類情況、各個類群內及類群間的系統發生關系上與前人研究結果基本一致,同時較好地解決了類群EII分類的爭議,為使用低拷貝核基因深入分析十字花科系統發生關系提供了框架。
[1]Zhu XY, Chase MW, Qiu YL, et al. Mitochondrial matR sequences help to resolve deep phylogenetic relationships in rosids[J]. BMC Evol Biol, 2007, 7:217.
[2]Anderson JT, Wagner MR, Rushworth CA, et al. The evolution of quantitative traits in complex environments[J]. Heredity(Edinb), 2014, 112(1):4-12.
[3]Bergthorsson U, Adams KL, Thomason B, et al. Widespread horizontal transfer of mitochondrial genes in flowering plants[J]. Nature, 2003, 424(6945):197-201.
[4]Westwood JH, Yoder JI, Timko MP, et al. The evolution of parasitism in plants[J]. Trends Plant Sci, 2010, 15(4):227-235.
[5]Olmstead R, Palmer J. Chloroplast DNA systematics:a review of methods and data analysis[J]. American Journal of Botany(USA), 1994, 81(9):1205-1224.
[6] Moore MJ, Soltis PS, Bell CD, et al. Phylogenetic analysis of 83 plastid genes further resolves the early diversification of eudicots[J]. Proc Natl Acad Sci USA, 2010, 107:4623-4628.
[7]Jansen RK, Saski C, Lee SB, et al. Complete plastid genome sequences of three Rosids(Castanea, Prunus, Theobroma):evidence for at least two independent transfers of rpl22 to the nucleus[J]. Mol Biol Evol, 2011, 28(1):835-847.
[8]Weng ML, Ruhlman TA, Gibby M, et al. Phylogeny, rate variation, and genome size evolution of Pelargonium(Geraniaceae)[J]. Mol Phylogenet Evol, 2012, 64(3):654-670.
[9]Zimmer EA, Wen J. Using nuclear gene data for plant phylogenetics:Progress and prospects II. Next-gen approaches[J]. Journal of Systematics and Evolution, 2015, 53(5):371-379.
[10]Huang CH, Sun R, Hu Y, et al. Resolution of Brassicaceae phylogeny using nuclear genes uncovers nested radiations and supports convergent morphological evolution[J]. Molecular Biology and Evolution, 2016, 33(2):394-412.
[11]Zeng L, Zhang Q, Sun R, et al. Resolution of deep angiosperm phylogeny using conserved nuclear genes and estimates of early divergence times[J]. Nature Communications, 2014, 5:4956.
[12] Kagale S, Robinson SJ, Nixon J, et al. Polyploid evolution of the Brassicaceae during the Cenozoic era[J]. Plant Cell, 2014, 26(7):2777-2791.
[13]Yang Y, Moore MJ, Brockington SF, et al. Dissecting molecular evolution in the highly diverse plant clade Caryophyllales using transcriptome sequencing[J]. Molecular Biology and Evolution, 2015, 32(8):2001-2014.
[14]Jiao Y, Wickett NJ, Ayyampalayam S, et al. Ancestral polyploidy in seed plants and angiosperms[J]. Nature, 2011, 473(7345):97-100.
[15]Bowers JE, Chapman BA, Rong J, et al. Unravelling angiosperm genome evolution by phylogenetic analysis of chromosomal duplication events[J]. Nature, 2003, 422(6930):433-438.
[16]Barker MS, Vogel H, Schranz ME. Paleopolyploidy in the Brassicales:analyses of the Cleome transcriptome elucidate the history of genome duplications in Arabidopsis and other Brassicales[J]. Genome Biol Evol, 2009, 1:391-399.
[17]Tang H, Bowers JE, Wang X, et al. Synteny and collinearity in plant genomes[J]. Science, 2008, 320(5875):486-488.
[18]Wang X, Wang H, Wang J, et al. The genome of the mesopolyploid crop species Brassica rapa[J]. Nat Genet, 2011, 43(10):1035-1039.
[19]Xu G, Ma H, Nei M, et al. Evolution of F-box genes in plants:different modes of sequence divergence and their relationships with functional diversification[J]. Proc Natl Acad Sci USA, 2009, 106(3):835-840.
[20]Fulton TM, Van der Hoeven R, Eannetta NT, et al. Identification, analysis, and utilization of conserved ortholog set markers for comparative genomics in higher plants[J]. Plant Cell, 2002, 14(7):1457-1467.
[21]Wu F, Mueller LA, Crouzillat D, et al. Combining bioinformatics and phylogenetics to identify large sets of single-copy orthologous
genes(COSII)for comparative, evolutionary and systematic studies:a test case in the euasterid plant clade[J]. Genetics, 2006, 174(3):1407-1420.
[22] Warwick SI, Al-Shehbaz IA, Sauder CA. Phylogenetic position of Arabis arenicola and generic limits of Aphragmus and Eutrema(Brassicaceae)based on sequences of nuclear ribosomal DNA[J]. Botany, 2006, 84(2):269-281.
[23]Zhou TY, Lu LL, Yang G, et al. Brassicaceae(Cruciferae)[J]. Flora of China, 2001, 8:1-200.
[24]Gong Q, Li P, Ma S, et al. Salinity stress adaptation competence in the extremophile Thellungiella halophila in comparison with its relative Arabidopsis thaliana[J]. Plant J, 2005, 44:826-839.
[25]Amasino R. Floral induction and monocarpic versus polycarpic life histories[J]. Genome Biol, 2009, 10(7):228.
[26]Dassanayake M, Oh DH, Haas JS, et al. The genome of the extremophile crucifer Thellungiella parvula[J]. Nat Genet, 2011, 43(9):913-918.
[27] Hu TT, Pattyn P, Bakker EG, et al. The Arabidopsis lyrata genome sequence and the basis of rapid genome size change[J]. Nat Genet, 2011, 43(5):476-481.
[28]Rushworth CA, Song BH, Lee CR, et al. Boechera, a model system for ecological genomics[J]. Mol Ecol, 2011, 20:4843-4857.
[29]Wu HJ, Zhang Z, Wang JY, et al. Insights into salt tolerance from the genome of Thellungiella salsuginea[J]. Proc Natl Acad Sci USA, 2012, 109(30):12219-12224.
[30]Slotte T, Hazzouri KM, Agren JA, et al. The Capsella rubella genome and the genomic consequences of rapid mating system evolution[J]. Nat Genet, 2013, 45(7):831-835.
[31]Verbruggen N, Juraniec M, Baliardini C, et al. Tolerance to cadmium in plants:the special case of hyperaccumulators[J]. Biometals, 2013, 26(4):633-638.
[32]Halimaa P, Blande D, Aarts MG, et al. Comparative transcriptome analysis of the metal hyperaccumulator Noccaea caerulescens[J]. Front Plant Sci, 2014, 5:213.
[33]Vekemans X, Poux C, Goubet PM, et al. The evolution of selfing from outcrossing ancestors in Brassicaceae:what have we learned from variation at the S-locus?[J]. J Evol Biol, 2014, 27(7):1372-1385.
[34]Vision TJ, Brown DG, Tanksley SD. The origins of genomic duplications in Arabidopsis[J]. Science, 2000, 290(5499):2114-2117.
[35]Simillion C, Vandepoele K, Van Montagu MC, et al. The hidden duplication past of Arabidopsis thaliana[J]. Proc Natl Acad Sci USA, 2002, 99(21):13627-13632.
[36]Couvreur TL, Franzke A, Al-Shehbaz IA, et al. Molecular phylogenetics, temporal diversification, and principles of evolution in the mustard family(Brassicaceae)[J]. Mol Biol Evol, 2010, 27(1):55-71.
[37]Edger PP, Heidel-Fischer HM, Bekaert M, et al. The butterfly plant arms-race escalated by gene and genome duplications[J]. Proc Natl Acad Sci USA, 2015, 112(27):8362-8366.
[38]Beilstein MA, Al-Shehbaz IA, Kellogg EA. Brassicaceae phylogeny and trichome evolution[J]. Am J Bot, 2006, 93(4):607-619.
[39]Franzke A, Lysak MA, Al-Shehbaz IA, et al. Cabbage family affairs:the evolutionary history of Brassicaceae[J]. Trends Plant Sci, 2011, 16(2):108-116.
[40]Grabherr MG, Haas BJ, Yassour M, et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nat Biotechnol, 2011, 29(7):644-652.
[41]Pertea G, Huang X, Liang F, et al. TIGR Gene Indices clustering tools(TGICL):a software system for fast clustering of large EST datasets[J]. Bioinformatics, 2003, 19(5):651-652.
[42]Li W, Godzik A. Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics, 2006, 22(13):1658-1659.
[43]O'Brien KP, Remm M, Sonnhammer EL. Inparanoid:a comprehensive database of eukaryotic orthologs[J]. Nucleic Acids Res, 2005, 33(Database issue):476-480.
[44]Li L, Stoeckert CJ, Roos DS. OrthoMCL:identification of ortholog groups for eukaryotic genomes[J]. Genome Res, 2003, 13(9):2178-2189.
[45]Lee JY, Mummenhoff K, Bowman JL. Allopolyploidization and evolution of species with reduced floral structures in Lepidium L.(Brassicaceae)[J]. Proc Natl Acad Sci USA, 2002, 99(26):16835-16840.
[46]Qi J, Luo H, Hao B. CVTree:a phylogenetic tree reconstruction tool based on whole genomes[J]. Nucleic Acids Res, 2004, 32(Web Server issue):45-47.
(責任編輯 李楠)
Revealing Deep Phylogeny of Brassicaceae Using Composition Analysis of Low-copy Nuclear Genes
ZHANG Zhe HUANG Chien-hsun QI Ji
(Collaborative Innovation Center of Genetics and Development,Institute of Plant Biology,School of Life Sciences,Fudan University,Shanghai 200433)
Brassicaceae,as many vegetable crops and important model plants,is one of the most successful and economically valuable angiosperm families. Recent phylogenetic studies revealed that plants of Brassicaceae were classified into 3 major lineages(I,II,and III),however,detailed evolutionary relationships among them and intra-lineage still remain unknown. In order to quickly and accurately understand the phylogeny of Brassicaceae species,39 Brassicaceae species and two species of other family were chosen as research materials,and a set of low copy orthologous genes covering all the selected species was acquired via phylogenetic genomics. Further,the composition characteristics of low copy nuclear genes were analyzed by CVTree,the phylogeny of Brassicaceae in highly supported and stable relationship was obtained. The results revealed that Brassicaceae could be classified into 6 major lineages,and 3 of which agreed well with the classification by the priors,and 2 new major lineages were defined. Moreover,lineage II that was in dispute in previous studies was confirmed as the single lineage with stable supports. This indicated that a large number of low copy orthologous genes set combined with the analysis of composition vector may more accurately reflect phylogeny of Brassicaceae species. Therefore,CVTree not only is suitable for studying the phylogeny of microorganisms such as prokaryotic organisms and fungi,but also for exploring the genetic relationship of higher organisms such as Brassicaceae plants
Brassicaceae;phylogeny;composition vector;low-copy nuclear gene
10.13560/j.cnki.biotech.bull.1985.2016.12.015
2016-04-08
國家自然科學基金項目(91131007)
張哲,男,研究方向:基因組遺傳變異和功能分化,E-mail:zhangzhe1020@126.com;黃建勛為本文并列第一作者
戚繼,男,博士,研究方向:基因組遺傳變異和功能分化;E-mail:qij@fudan.edu.cn