袁澤軼, 張琳琳,張國范
(1.中國科學院海洋研究所,山東 青島 266071;2.中國科學院研究生院,北京 100039)
基于皺紋盤鮑(Haliotis discus hannai)EST數據庫的串聯重復序列特征分析
袁澤軼1,2, 張琳琳1,2,張國范1
(1.中國科學院海洋研究所,山東 青島 266071;2.中國科學院研究生院,北京 100039)
皺紋盤鮑大規模EST的分析研究較少,為了研究其基因組轉錄本的基本特征并為皺紋盤鮑中開發EST-SSR功能性標記奠定基礎,我們利用生物信息學手段對NCBI公共數據庫中的5 784條皺紋盤鮑EST序列進行EST-SSR特征分析。分析結果表明:(1) 皺紋盤鮑EST中串聯重復序列類型豐富;(2) 皺紋盤鮑EST Gene Ontology 注釋序列SSR類型單一;(3) 皺紋盤鮑EST-SSR分布廣泛富,是EST-SSR標記開發的優良資源。
皺紋盤鮑;EST;串聯重復序列;SSR
皺紋盤鮑(Haliotis discus hannai)主要分布于中國北方沿海、日本和朝鮮沿海,是中國黃渤海地區重要的經濟養殖貝類之一。隨著分子標記技術的不斷發展及其在海洋生物遺傳育種中的應用,分子標記輔助育種將對皺紋盤鮑養殖業健康穩定發展提供有力保障。以各自的核心序列(重復單元)首尾相連多次重復的重復序列稱為串聯重復序列,它們在基因組中有著重要作用,與多種疾病相關[1]。 微衛星(Simple sequence repeat, SSR),即簡單序列重復,指以少數幾個核苷酸(一般為2 ~ 6個)為基本單位多次串聯重復的DNA序列,廣泛地應用于遺傳連鎖圖譜構建和物種基因組結構的分析,是串聯重復序列中研究最為廣泛的一類。它具有多態性豐富、易操作和自動化測序程度高等優點,但是開發成本較高,限制了其大規模應用。公共數據庫中存在的大量基因組序列,為解決SSR的挖掘提供了新的途徑。EST(Expressed sequence tags,表達序列標簽)是基因的“窗口”,代表生物體某種組織某一時期的一個表達基因,能反映mRNA的信息。近年來,大規模cDNA測序工作在許多物種中開展,使NCBI中EST數據劇增,大量的EST數據可以部分反映相應物種轉錄本的結構,進而有助于探討其基因組的結構和特征。另一方面,EST-SSR標記來源于相對保守的轉錄區域,較全基因組SSR標記具有更高的通用性和保守性[2]。利用NCBI上公布的皺紋盤鮑EST數據開發其功能性的EST-SSR標記,研究轉錄本的結構特征,能夠提高現有測序數據的利用效率,同時發掘出一批有實用價值的串聯重復序列標記。
截至2009年11月1日,在NCBI數據庫中已有5 784條皺紋盤鮑ESTs,但目前還沒有利用這些EST分析串聯重復序列的報道。本研究對現有皺紋盤鮑EST中的串聯重復序列信息進行了全面分析,以明確皺紋盤鮑串聯重復序列特別是SSR的發生頻率和特點。同時進行了Gene Ontology的注釋研究,以探討EST序列的功能與SSR的關系。本研究有助于促進串聯重復序列特別是SSR標記在皺紋盤鮑遺傳育種中的應用。
從NCBI中下載皺紋盤鮑EST 5 784條,與UniVec載體庫比對 >100 bp的EST序列,載體屏蔽程序選用cross_match,所用參數為 -minmatch 10、 -minscore 20、 -screen。用Sequence Assembly Program,CAP3對去除了PolyA的上述序列聚類分析,并去掉聚類后小于100 bp的序列。
利用Tandem Repeat Finder (TRF)[3]搜尋EST序列中的串聯重復序列,所用參數為:Match=2,Mismatch=7,Delta=7,PM=80,PI=10,Minscore=30,Maxperiod=500。提取重復序列長度≥15bp的重復序列并統計其分布特征
用balst2go[4]對皺紋盤鮑預處理的EST序列進行分類。
在預處理的皺紋盤鮑EST中,共有483條串聯重復序列,其中大于7 bp的有321條,長度為13 415 bp。在大于7 bp的串聯復序列中,9 bp重復為重復單元總數目最多的重復類型。7 ~ 15 bp重復類型的重復單元總數目遠遠大于15 bp以上重復類型的重復單元數目,其數量關系表現為:9 bp >8 bp >10 bp >12 bp >11 bp>14 bp >7 bp >15 bp,上述關系與在櫛孔扇貝中的報道有差異[5],這驗證了串聯重復序列在不同的物種中分布具有多樣性的特點。除18 bp和24 bp 重復類型外,15 bp以上重復類型的重復單元數目均小于20個。重復序列類型與重復序列拷貝數之間并沒有線性關系。重復序列的最大拷貝數在9 bp重復類型處(11.2),其他重復類型的最大拷貝數均低于7次。
對2 105條皺紋盤鮑處理后的序列Gene Ontology (GO)分類(圖1),從圖中可以看出皺紋盤鮑序列能夠比對上多種功能和細胞組分,但數量較少。對GO的三種分類(細胞組分,分子功能和生物學過程)分別進行了簡單串聯重復序列(SSR)的分析(表2)。結果表明:通過GO注釋分類得到的串聯重復序列較少,G重復,A重復和ACC重復均具有相似的拷貝數,是因為不同分類下的SSR多來源于相同的Contigs。另一方面,GO分類的結果的重復序列類型多為三堿基或三堿基的倍數,這也說明了SSR的重復類型在EST序列中具有選擇性[6]。

圖 1 皺紋盤鮑序列GO 分類a:細胞組成成分的分類;b:分子功能的分類;c:生物學過程的分類Fig.1 Go (Gene Ontology) classification of assembled EST of Haliotis discus hannaia: Classification of the sequence in cellular component categories following Gene Ontology; b: Classification of the sequence in molecular function categories following Gene ontology; c: Classification of the sequence in biological process categories following Gene ontology

表 2 Go功能注釋分類SSR搜尋結果Tab.2 Go (Gene Ontology) classification and SSR search

表 3 皺紋盤鮑EST微衛星重復序列的特征Tab.3 The distribution and characteristics of SSR in the P Haliotis discus hannai EST
對經過處理得到的2 105條無冗余序列進行搜索,共檢出SSR 342條,發生頻率為16.25% (SSR的數目與搜索原序列的比例),這與櫛孔扇貝中的報道相類似[7]。皺紋盤鮑EST中SSR種類較為豐富,包含了單堿基到六堿基的各種重復類型(表 3)。本研究用一種重復類型代表與其互補和有序列順序差異的各種重復類型,如AAG代表六種重復類型,分別為:AAG、AGA、GAA、CTT、TTC、TCT。單堿基共觀察到所有的兩種重復類型,二堿基共觀察到兩種重復類型,并未觀察到GC重復,這與在櫛孔扇貝,長牡蠣和大多數真核生物中的報道一致[7-9]。三堿基重復中共觀察到五種重復序列類型,其重復序列的數目均較少,AGC和CTC為2個,其他為3個,這可能是皺紋盤鮑目前的序列數據較少所致。因為四堿基到六堿基的重復類型較多,本研究用AT的百分含量代表重復類型加以表示。AT含量約為50%的重復序列數目最高,這與家蠶的報道稍有差距,其原因可能也是NCBI上皺紋盤鮑的分析數據較少[10]。在重復序列的拷貝數方面,單堿基重復類型和二堿基重復類型的拷貝數較多,其他重復類型平均拷貝數最大為10.4。
[1]Armour J A.Tandemly repeated DNA: why should anyone care? [J].Mutation Research, 2006, 598(1-2): 6-14.
[2]Varshney R, Graner A, Sorrells M.Genic microsatellite markers in plants: features and applications [J].TRENDS in Biotechnology, 2005, 23(1): 48-55.
[3]Benson, G.Tandem repeats finder: a program to analyze DNA sequences [J].Nucleic Acids Research, 1999, 27(2): 573-80.
[4]Conesa A, G?tz S, García-Gómez J M, et al.Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research [J].Bioinformatics, 2005, 21(18): 3674-3676.
[5]Zhang L, Chen C, Cheng J, et al.Initial analysis of tandemly repetitive sequences in the genome of Zhikong scallop (Chlamys farreri Jones et Preston) [J].DNA Sequence, 2008, 19(3): 195-205.
[6]Zhang Z, Xue Q.Tri-nucleotide repeats and their association with genes in rice genome [J].Biosystems, 2005, 82(3): 248-256.
[7]Zhang L, Bao Z, Cheng J, et al.Fosmid library construction and initial analysis of end sequences in Zhikong scallop (Chlamys farreri) [J].Marine Biotechnology, 2007, 9(5): 606-612.
[8]Tóth G, Gáspári Z, Jurka J, et al.Microsatellites in different eukaryotic genomes: survey and analysis [J].Genome Research, 2000, 10(7): 967-981.
[9]Wang Y, Ren R, Yu Z, et al.Bioinformatic mining of EST-SSR loci in the Pacific oyster, Crassostrea gigas [J].Animal Genetics, 2008, 39(3): 287-289.
[10]Prasad M D, Muthulakshmi M, Madhu M, et al.Survey and analysis of microsatellites in the silkworm, Bombyx mori: frequency, distribution, mutations, marker potential and their conservation in heterologous species [J].Genetics, 2005, 169(1): 197-214.
Bioinformatic date mining of EST- tandem repeats of theHaliotis discus hannai
YUAN Ze-yi1,2, ZHANG Lin-lin1,2, ZHANG Guo-fan1
(1.Institute of Oceanology, Chinese Academy of Sciences, Qingdao 266071, China;
2.Graduate University, Chinese Academy of Sciences, Beijing 100039, China)
Large scale analysis of EST in theHaliotis discus hannaiis underdeveloped.In order to understand the preliminary characteristics of transcripts and provide resources for the SSR marker study in theHaliotis discus hannai, we have an analysis of tandem repeats based on 5 784 ESTs downloaded from NCBI.The major results are as follows: 1) Types of tandem repeats are rich in the EST of theHaliotis discus hannai; 2) Sequences annotated by Gene Ontology have few types of SSR; 3) ESTs have a wide distribution, which is helpful to SSR marker study.
Haliotis discus hannai; EST; tandem repeat; SSR
Q954
A
1001-6932(2010)01-0059-06
2009-11-03;
2009-11-27
國家重點基礎研究發展計劃資助(973計劃項目,2010CB126401);國家公益性行業(農業)科研專項資助(nyhyzx07-047)作者簡介:袁澤軼(1981-),碩士研究生,研究方向:海洋生物學。電子郵箱:yuanzy-nmdis@163.com
張國范,研究員。電子郵箱:gfzhang@ms.qdio.ac.cn