摘要:以蕓薹屬的3個物種(甘藍型油菜Brassica napus、白菜B. rapa、甘藍B. oleracea)的BAC末端序列為研究對象,對其重復序列的組成和比例、GC含量做了初步的比較研究。3個物種中BAC末端重復序列所占的比例分別是18.98%、19.37%和19.45%。3個物種的BAC末端重復序列均可分為反轉座子、轉座子、小RNA、微衛星、簡單重復序列和低復雜度序列6種類型,其中反轉座子所占比例最大,甘藍型油菜rDNA的含量明顯高于其他兩個物種中該重復類型的含量。
關鍵詞:甘藍型油菜(Brassica napus);親本種;BAC末端;重復序列
中圖分類號:S565.4 文獻標識碼:A 文章編號:0439-8114(2011)19-4073-04
BAC End Repeat Sequence Analysis of Brassica napus and Its Parental Species
CAO Rui,LI Rui-yuan,LONG Yan,MENG Jin-ling
(College of Plant Science and Technology, Huazhong Agricultural University, Wuhan, 430070, China)
Abstract: The repeat sequences’ composition and proportion, GC content in BAC end sequences of Brassica species and its parental species Brassica napus, B. rapa, B. oleracea were comparatively analyzed. The proportion of BAC and repeat sequences in B. napus, B. rapa, B. oleracea was 18.98%, 19.37%, 19.45%, respectively. The repeat sequences in BAC end of the three species could be classified into 6 types of retrotransposon, transposon, miRNAs, microsatellite, simple sequence repeat and low complexity sequence, among which retrotransposon contributed to the highest proportion; and the ratio of rDNA in B. napus was much higher than that in the other two species.
Key words: Brassica napus; parental species; BAC end; repeat sequence
1935年日本學者總結前人的實驗結果,并在細胞學研究的基礎上,提出了禹氏三角假說[1],認為蕓薹屬栽培種包括3個二倍體基本種:白菜(Brassica rapa,AA,2n=20)、甘藍(B. oleracea,CC,2n=18)和黑芥(B. nigra,BB,2n=16),以及3個四倍體復合種:甘藍型油菜(B. napus,AACC,2n=38)、芥菜型油菜(B. juncea,AABB,2n=36)和埃塞俄比亞芥(B. carinata,BBCC,2n=34),其種間關系如圖1所示:
盡管前人對甘藍型油菜、白菜和甘藍3個物種的基因組進行了許多基于細胞學、遺傳學的比較分析,但由于基因組測序成本的限制,很少有直接大規模利用3個基因組的序列進行比較生物學分析的報道。細菌人工染色體(Bacterial artificial chromosomes,BAC)文庫的構建對于基因組的測序起著至關重要的作用。BAC克隆載體一般可以插入100~300 kb的外源基因組片段[2]。對每個插入的外源基因組序列進行末端測序可得BAC末端序列,每個末端序列的長度約為500 bp。本研究利用甘藍型油菜及其親本種白菜和甘藍的BAC末端序列,對其所含重復序列的組成和比例、GC含量進行了初步的比較。
1材料與方法
1.13個物種BAC末端序列信息來源及概況
甘藍型油菜的BAC末端序列主要來源于中英合作測序項目(BBSRC-funded UK-China),所測的品種是Brassica napus“Tapidor”,共有73 728個BAC,測序所用的載體為pBAC/SACB1,所用的酶是HindⅢ,共得到了93 165條BAC末端序列,均以JBnB命名。白菜和甘藍的BAC末端序列均來源于GenBank數據庫,檢索詞分別為:Brassica rapa BAC-end和Brassica oleracea BAC-end。白菜的BAC末端序列主要來自3個BAC文庫,KBrH、KBrB和KBrS,分別含有56 483、50 688、14 256個BAC,測序所用的酶分別是HindⅢ、BamHⅠ、BamHⅠ,KBrH文庫和KBrB文庫的載體均是pCUGIBACI,所測的品種均是Brassica rapa,sub.pekinensis,var. Chiifu-401,得到的白菜BAC末端序列共198 490條;甘藍的BAC末端序列來自JBo文庫,共包含33 792個BAC,測序所用的載體為pBiBAC2,酶是HindⅢ,所測品種為Brassica oleracea var. alboglabra。
1.2BAC末端序列分析方法
1.2.1載體序列和其他污染序列的去除用SeqClean(http://compbio.dfci.harvard.edu/tgi/software/)修正序列中載體及一些低質量或者低復雜度序列的腳本,所用到的關于污染的數據庫來自ftp://ftp.ncbi.nih.gov/pub/UniVec/,下載后先用formatdb工具格式化后被Seqclean使用。
1.2.2重復序列的分析用RepeatMasker軟件(http://www.repeatmasker.org/RMDownload.html)分析BAC末端序列含有的重復序列,重復序列庫從網站http://www.girinst.org/accountservices/register.php下載。
2結果與分析
2.13個物種BAC末端序列基本信息
本研究分析的甘藍型油菜BAC末端序列的堿基數占其全基因組的1/24,白菜BAC末端的堿基數約占其全基因組的1/3,甘藍BAC末端的堿基數約占其全基因組的1/9(表1)。從GC含量來看,甘藍型油菜和白菜的相似性較大,即甘藍型油菜的AACC基因組多呈現出AA基因組的特征。對3個物種的BAC末端序列長度分布進行分析比較,發現甘藍型油菜和白菜的BAC末端序列在長度分布上都出現了1個以上的峰值,而甘藍的長度分布呈現較好的正態分布。造成多峰值的原因可能是不同的內切酶或不同的批次測序,也有可能是人為的操作誤差。從BAC末端長度(最小/最大/平均長度)來看,甘藍型油菜和甘藍的相似性較大,多呈現CC基因組特征,但是由于測序受到多種因素影響,其可能不能代表基因組結構之間的真正關系。
2.23個物種BAC末端重復序列分析結果
甘藍型油菜的BAC末端序列共有9 338 370 bp的堿基被檢測為重復序列,占全部BAC序列的18.98%。白菜的BAC末端序列共有29 934 706 bp的重復序列,占全部BAC序列的19.37%。甘藍的BAC末端序列有13 028 006 bp為重復序列,占全部BAC序列的19.45%。3個物種的重復單元都可分為6大類:反轉座子(Retroelements)、轉座子(DNA transposons)、小RNA(small RNA,rDNA)、微衛星(Satellites)、簡單重復序列(Simple repeats)和低復雜度序列(Low complexity)(表2)。對3個物種的重復序列分布進行比較,發現在6大類序列中反轉座子所占比重最大,其中包括了最常見的重復家族Gypsy和Copia(可編碼反轉錄酶或整合酶),其次為小RNA(rDNA)序列。這表明了3個物種(AACC、AA、CC)基因組在成分上的相似性。但是3個物種不完全相同的重復序列比例顯示了3個物種間的差異。
白菜和甘藍的重復序列占各自BAC末端序列全長的比例比較相近,略高于甘藍型油菜的重復序列所占的比例,除rDNA外,白菜和甘藍各個重復類型的比例更相近,這反映出AA基因組和CC基因組的相似性。白菜En-Spm轉座子的含量明顯低于其他兩個物種;而甘藍中LINEs和Hobo-Activator的含量明顯高于其他兩個物種;對于甘藍型油菜而言,其rDNA的含量明顯高于其他兩物種該重復元素含量。進一步研究發現3個物種中的rDNA都主要由SSU_rRNA_Ath和LSU_rRNA_Ath這兩類構成。
3討論
研究表明,分析一個物種的BAC末端序列也是研究一個物種基因組特性的好方法,研究的準確性在于所測序的BAC末端是從BAC文庫中隨機挑選的,BAC末端序列已經被認為是高特異性的序列標記[3]。由于BAC末端對整個基因組的代表性作用,也有很多科學家用BAC末端序列進行比較基因組學的研究[4]。本研究所用的甘藍型油菜末端序列有93 165條,總堿基數為49 182 844 bp,約占甘藍型油菜全基因組的1/24。雖然用于分析的BAC末端序列條數是有限的,對整個基因組的覆蓋率也是有限的,但從理論上來說其在基因組是隨機分布的,在一定程度上能代表其基因組的特征。
GC含量是一個基因組的重要特征。甘藍型油菜、白菜和甘藍的BAC末端序列GC含量分別是40.8%、40.5%和38.5%,擬南芥(Arabidopsis thaliana)基因組的GC含量是42.7%。植物基因組都含有大量的轉座元素(TE),比如轉座子、反轉座子等。在本研究中,甘藍型油菜、白菜、甘藍的TE含量分別是11.39%、13.42%、14.12%。其中兩種重要而且含量較高的反轉座子Gypsy與Copia在3個物種中的比例分別是1∶1.05、1∶2.01、1∶1.53,其在擬南芥中是1∶1[5,6],水稻(Oryza sativa)中為2∶1[7,8],蘋果(Malus pumila)中是1∶3[9]。
En-Spm轉座子是一類自主型轉座系統,在白菜中含量很高,而在甘藍中,LINEs和Hobo-Activator的含量明顯高于其他兩個物種,其中Hobo-Activator最早是科學家在調查猴的DNA轉座子時發現的超家族,并戲稱為“太空侵略者”。對于甘藍型油菜中的兩類rDNA,SSU_rRNA_Ath 2007年作為植物界編碼rRNA的基因收錄在repeatmasker的repbase中,序列來源是擬南芥18 S rRNA。LSU_rRNA_Ath是同一時間收錄進來的擬南芥5.8 S rRNA。有研究表明很多異源多倍體中的核rDNA存在同步進化現象(指個體或者種群內基因的重復單位之間發生隨機而定向純合的進化方式),如Wenden等[10]對棉屬的5個四倍體種(AADD基因組)及二倍體親本種(AA或DD)的18 S rDNA基因的ITS區和5.8 S rDNA區域進行了分析,發現所有的二倍體、四倍體只有單一的序列,不存在基因座多態性,說明二倍體、四倍體ITS區重復單位間的序列雜合性很低或不存在,它們之間已經接近或完全純合[10]。但是對蕓薹屬的多倍體復合體的研究結果卻相反,Waters等[11]對6個栽培種B. rapa(AA)、B. nigra(BB)、B. oleracea(CC)、B. juncea(AABB)、B. carianta(BBCC)、B. napus(AACC)的研究發現多倍體種同時具有兩個二倍體祖先種的rDNA重復序列,而且在B. napus和B. juncea中,兩個親本rDNA序列的摩爾數相等,表明這些多倍體中rDNA未發生同步進化。本研究中甘藍型油菜rDNA的含量明顯高于其他兩個物種中該重復元素含量,很好地佐證了該結論。
參考文獻:
[1] NAGAHARU U. Genome analysis in Brassica with special reference to the experimental formation of B. napus and peculiar mode of fertilization[J]. Japan J Bot,1935(7):389-452.
[2] CHO K,O'NEILL C M,KWON S J,et al. Sequence-level comparative analysis of the Brassica napus genome around two stearoyl-ACP desaturase loci[J]. The Plant Journal,2010,61(4):591-599.
[3] ZHAO S,SHATSMAN S,AYODEJI B,et al. Mouse BAC ends quality assessment and sequence analyses[J]. Genome Research,2001,11(10):1736-1745.
[4] DATEMA E,MUELLER L,BUELS R,et al. Comparative bac end sequence analysis of tomato and potato reveals overrepresentation of specific gene families in potato[J]. BMC Plant Biology,2008,8(1):34.
[5] Arabidopsis sequence(ftp://ftp.arabidopsis.org/home/tair/Sequences/)[DB/OL].
[6] BEVAN M,WALSH S. The Arabidopsis genome: A foundation for plant research[J]. Genome Research,2005,15(12):1632-1642.
[7] FENG Q,ZHANG Y,HAO P,et al. Sequence and analysis of rice chromosome 4[J]. Nature,2002,420(6913):316-320.
[8] GOFF S A,RICKE D,LAN T H,et al. A draft sequence of the rice genome(Oryza sativa L. ssp. Japonica)[J]. Science,2002, 296(5565):92-100.
[9] HAN Y,CHAGN D,GASIC K,et al. BAC-end sequence-based SNPs and Bin mapping for rapid integration of physical and genetic maps in apple[J]. Genomics,2009,93(3):282-288.
[10] WENDEL J F,SCHNABEL A,SEELANAN T. Bidirectional interlocus concerted evolution following allopolyploid speciation in cotton(Gossypium)[J]. Proceedings of the National Academy of Sciences,1995,92(1):280-284.
[11] WATERS E R,SCHAAL B A. Biased gene conversion is not occurring among rDNA repeats in the Brassica triangle[J]. Genome,1996,39(1):150-154.