999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EST序列的甘蔗SNP發(fā)掘及分析

2016-10-20 01:29:12檀小輝張繼梁芳
江蘇農(nóng)業(yè)科學(xué) 2016年7期

檀小輝 張繼 梁芳

摘要:從NCBI中的EST數(shù)據(jù)庫下載已公布的甘蔗EST序列28 512條,利用DNAStar軟件中的Seqman程序進行疊連群構(gòu)建,EST序列共構(gòu)建3 449個疊連群,從中篩選出93個疊連群,長度共計105 385 bp,發(fā)現(xiàn)候選SNP位點 1 449個,SNP平均出現(xiàn)頻率為1.37%,共有74個contigs含有SNP位點,平均每個contig含有19.58個SNP位點,含有SNP位點數(shù)最多的1個疊連群有229個SNP候選位點,不同的疊連群含有的SNP位點數(shù)量差異較大,但轉(zhuǎn)換類型與顛換類型所占比例很接近。本研究所用的疊連群的總長度是105 385 bp,平均72.93 bp含有1個SNP位點。

關(guān)鍵詞:甘蔗;NCBI;EST序列;DNAStar;SNP位點

中圖分類號: S566.101 文獻標(biāo)志碼: A 文章編號:1002-1302(2016)07-0064-03

單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)指基因組內(nèi)DNA序列在某一特定的核苷酸位置發(fā)生缺失、插入、顛換、轉(zhuǎn)換等變化。作為第3代遺傳標(biāo)記,已在動植物遺傳連鎖圖譜構(gòu)建[1]、重要性狀的基因定位[2]、多樣性分析[3]以及品種鑒定[4]等相關(guān)研究中得到廣泛的應(yīng)用,跟以簡單序列重復(fù)(SSR)為代表的第2代分子標(biāo)記相比,SNP具有易于實現(xiàn)自動化分析、遺傳穩(wěn)定性強、密度高等優(yōu)點。但SNP標(biāo)記開發(fā)在前期測序階段成本較高而限制了SNP相關(guān)標(biāo)記的大規(guī)模開發(fā)。因此,利用已有數(shù)據(jù),通過生物信息學(xué)進行相關(guān)分析來開發(fā)SNP標(biāo)記,然后通過相關(guān)試驗對候選SNP標(biāo)記加以驗證,已成為一種降低成本且快捷高效的SNP開發(fā)途徑[5]。

表達序列標(biāo)簽 (expressed sequence tags,EST)是來源于功能基因表達的cDNA片段,是轉(zhuǎn)錄區(qū)域多態(tài)性識別的重要資源,隨著相關(guān)研究的深入,公共數(shù)據(jù)庫中的核苷酸序列中EST序列的增速最快,以EST序列為基礎(chǔ)開發(fā)分子標(biāo)記,變得越來越方便。目前,常用的EST標(biāo)記有EST-AFLP、EST-RFLP、EST-SSR、EST-SNP等[6]。除了具有一般分子標(biāo)記的特點,EST標(biāo)記還具有通用性好、信息量大、開發(fā)方法簡單快捷以及成本低等優(yōu)點。因為EST序列是基因表達區(qū)的cDNA序列,所以EST序列為基礎(chǔ)開發(fā)出的SNP位點很可能與表達基因的功能密切相關(guān),或者直接在基因的編碼區(qū)之內(nèi),可直接用于動植物分子育種等相關(guān)領(lǐng)域的研究[7]。而且在EST序列中,SNP頻率很豐富[8]。因此,在尚未獲得基因組全序列的動植物中,開發(fā)EST-SNP標(biāo)記具有重要意義[9]。但NCBI中甘蔗dbEST數(shù)據(jù)庫中的EST-SNP研究在國內(nèi)外尚未發(fā)現(xiàn)相關(guān)報道,本研究利用NCBI上公布的甘蔗EST數(shù)據(jù)中篩選SNP候選位點,為甘蔗EST-SNP標(biāo)記的開發(fā)以及后續(xù)的分子生物學(xué)研究奠定一定的基礎(chǔ)。截至2014年10月,NCBI的dbEST數(shù)據(jù)庫中已收錄了甘蔗EST序列28萬多條,如此龐大的數(shù)據(jù)為從甘蔗EST序列中開發(fā)SNP標(biāo)記提供了良好的數(shù)據(jù)支持,甘蔗EST-SNP標(biāo)記的開發(fā)可為甘蔗分子育種和基因組學(xué)等方面的研究提供重要的技術(shù)支持,本研究從NCBI中的dbEST數(shù)據(jù)庫中下載了28 512條EST序列,利用DNAStar軟件中的Seqman程序拼接得到3 449個重疊群(contigs),并將拼接結(jié)果進行人工篩選,為提高候選SNP位點的可靠度,本研究選用的EST序列拼接而成的contigs都至少含有20條EST序列,每個候選位點都至少有5條EST序列的相關(guān)位點作為支持,旨在發(fā)掘甘蔗的EST-SNP位點和尋求能得到大量可靠的候選SNP位點的篩選方法。

1 材料與方法

2014年10月13日從美國國立生物技術(shù)信息中心網(wǎng)站dbEST數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/nucest/?term=sugarcane)下載28 512條甘蔗EST序列,所有序列均以FASTA格式保存,未得到可靠性較高的SNP候選位點,本研究用DNAStar軟件中的Seqman程序檢測并去除所有EST序列的載體序列,然后組裝拼接成contigs。因為本研究選取DNAStar軟件進行EST-SNP候選位點的開發(fā),因此篩選步驟主要分為以下幾類:(1)在Seqman的拼接結(jié)果中提取包含20條以上EST序列的contigs,并在其中篩選候選SNP位點;(2)候選SNP位點兩側(cè)至少有5 bp堿基要完全保守為原則對候選SNP位點進行人工篩選;(3)對篩選結(jié)果進行整理、歸納、分析。

SNP發(fā)掘:應(yīng)用Seqman程序的SNP工具查找SNP候選位點。

SNP頻率計算:SNP頻率=(候選SNP數(shù)目/contigs長度)×100%。

2 結(jié)果與分析

2.1 候選位點的人工篩選

對候選軟件篩選出的SNP位點根據(jù)2個篩選原則進一步人工將可靠度較高的SNP位點篩選出來:(1)候選SNP位點中的次要等位基因頻率至少為30%[10];(2)候選SNP位點兩側(cè)至少有5 bp完全保守的序列。Wang等研究發(fā)現(xiàn),在包含不小于4條EST序列的contigs中篩選SNP時,候選SNP位點的主要、次要等位基因出現(xiàn)的頻率之比約為1 ∶ 1時的可靠度最高[11]。為了進一步提高候選SNP位點的可靠度,本研究在篩選SNP候選位點時,把包含4條EST序列的contigs提高到至少包含20條EST序列的contigs,同時,在1個候選SNP位點的兩側(cè)經(jīng)常會出現(xiàn)間斷或連續(xù)的非SNP位點的不保守區(qū)域,這些區(qū)域可能是在比對時序列錯誤引起的,從而降低了候選SNP位點的可靠度,因此本研究規(guī)定候選SNP位點兩側(cè)至少5序列必須完全保守(圖1為合格SNP候選位點,圖2及圖3為不合格SNP候選位點)。

2.2 甘蔗EST序列SNP頻率分析

在GenBank數(shù)據(jù)庫中下載28 512條甘蔗EST序列,通過序列組裝構(gòu)建3 449個contigs,為了提高SNP候選位點的可靠性,本研究所用的contigs均為EST序列條數(shù)大于20的contigs,經(jīng)過篩選,共有92個contigs符合要求,92個contigs的堿基總數(shù)為105 385個bp,發(fā)現(xiàn)1 449個SNP位點,SNP出現(xiàn)的頻率為1.37%,平均72.93個bp含有1個SNP位點。總共有74個contigs含有SNP位點,平均1個contig含有1958個SNP位點(表1),含有SNP位點數(shù)目最多的contig中含有281個SNP候選位點,含有5、8個SNP候選位點的contigs最多(8個)(表2)。

本研究使用的EST序列包含SNP位點以堿基的顛換(49.00%)和轉(zhuǎn)換(49.07)為主,其中堿基的插入、缺失的數(shù)量最少,占全部SNP的1.93%,不同疊連群所含不同突變類型SNP位點的數(shù)量差異較大,所以分布密度的變化也很大(表3)。

由甘蔗EST序列構(gòu)建的contigs中,組成contigs的EST序列條數(shù)和組成contigs的堿基數(shù)不同,得到SNP位點的頻率也就不同,組成contigs的堿基數(shù)越多,其SNP位點的頻率就越大。表4為甘蔗EST序列組成的序列數(shù)最多的10個contigs及SNP出現(xiàn)頻率,這10個contigs共組裝了5 053條序列,SNP平均出現(xiàn)頻率為3.48%,明顯高于所有用于篩選候選位點的contigs的SNP出現(xiàn)頻率1.37%,所以大規(guī)格contigs(多序列、多堿基數(shù))更易得到候選SNP位點。另外,檢測 EST-SNP位點時,需大量冗余EST序列作為其檢測的數(shù)據(jù)基礎(chǔ),如果EST條數(shù)少,得到的結(jié)果可能就不太理想,這也是本研究用至少包含20條EST序列的contigs進行SNP位點篩

3 結(jié)論與討論

SNP廣泛分布于動植物的基因組中,是動植物基因組中可遺傳變異中最常見的一種,據(jù)估計,SNP在人類基因組中廣泛分布,平均每500~1 000 bp對中就有1個SNP,其總數(shù)可能在300萬個以上[12]。作為第3代遺傳標(biāo)記,由于SNP具有許多獨特的優(yōu)點,自從1994年問世以來,已越來越被分子標(biāo)記領(lǐng)域的相關(guān)研究人員所重視,特別是cDNA的SNP,因其本身就是功能基因表達的組成部分,所以SNP被公認(rèn)為新一代分子標(biāo)記中最有應(yīng)用前景的一類。然而,由于SNP的開發(fā)難度大、檢測成本高,需要高額的資金投入以及大量的時間投入,導(dǎo)致該標(biāo)記在甘蔗基因組研究領(lǐng)域的應(yīng)用很少。但是如果以生物信息學(xué)為技術(shù)基礎(chǔ),以大量冗余EST序列為數(shù)據(jù)基礎(chǔ),EST-SNP的開發(fā)就成為一種既高效又廉價的方法[7,13-14]。但是,目前有很多因素都限制了EST-SNP的發(fā)掘,比如為了節(jié)約成本,EST序列在測序時只進行單向測序,測序結(jié)果的低質(zhì)量進而導(dǎo)致篩選SNP位點會有預(yù)測已經(jīng)查找方面的錯誤;EST序列來源對SNP位點的篩選也有很大的影響。但是,通過改進方法,可以對EST-SNP位點進行更準(zhǔn)確、高效的發(fā)掘。通過有28萬多條EST可以看出,人們對甘蔗的關(guān)注度很高,但是到目前為止還沒有在NCBI中的SNP數(shù)據(jù)庫中發(fā)現(xiàn)甘蔗SNP的相關(guān)數(shù)據(jù),這可能與甘蔗是由多倍體原種熱帶種(2n=80,x=10)與多倍體野生種割手密(2n=40~128,x=8)經(jīng)過一系列雜交之后形成的異源多倍體有關(guān),其遺傳背景非常復(fù)雜,染色體數(shù)在100~150條之間,因此甘蔗在分子遺傳連鎖圖譜、質(zhì)量性狀基因定位、數(shù)量性狀基因定位以及分子標(biāo)記輔助輔助育種方面遠遠落后于其他作物[15]。因此,本研究對甘蔗SNP標(biāo)記的開發(fā)研究就更具有重要意義,為了保證SNP位點的準(zhǔn)確性,對滿足SNP位點contigs包含的EST序列的要求就更高,必須是包含20條以上的EST序列序列組成的contigs,這樣一來可能會有大量的真正的SNP位點被遺漏。但是當(dāng)contigs所含EST序列較少時,又可能會有大量的EST序列無法被利用,EST序列不能被用于SNP位點的篩選,因此,筆者認(rèn)為只有當(dāng)contigs所含EST數(shù)目超過一定程度,篩選出的候選EST-SNP位點的可靠性才會有保證;只有當(dāng)dbEST數(shù)據(jù)庫中EST序列達到一定程度之后,其利用率才會得到保證,篩選出的SNP位點的可靠性才會更高。例如,利用全基因組測序,在水稻中(品種為日本晴和9311)獲得了5 019 016個SNP位點[16],另外,分布于基因表達調(diào)控區(qū),以及外顯子和內(nèi)含子區(qū)域的SNP可能和基因的功能直接相關(guān)[17]。同時,對contigs中所含的SNP數(shù)量進行統(tǒng)計分析發(fā)現(xiàn),組成contigs的EST序列條數(shù)越多,堿基數(shù)越多,發(fā)現(xiàn)的候選SNP位點的數(shù)量也就越多,這同Duran等在研究大麥EST序列時發(fā)現(xiàn)的結(jié)果基本一致但是具體每個類型的contigs所含的SNP位點數(shù)沒有發(fā)現(xiàn)明顯的規(guī)律[18],這可能跟不同物種其多態(tài)性位點分布不同有關(guān)。

大多數(shù)動植物沒有全基因組序列的數(shù)據(jù),但是有大量的EST數(shù)據(jù)可供大家分析利用,EST本身就是表達基因的片段,因此基于EST序列的的SNP可能與基因的功能以及目標(biāo)的性狀有更多的關(guān)聯(lián),本研究從NCBI中的dbEST序列中下載了28 512條甘蔗EST序列,分析了92個由EST序列組成的contigs,這些contigs長度共計105 385 bp,發(fā)現(xiàn)候選SNP位點 1 449 個,SNP平均出現(xiàn)頻率為3.48%,總共有74個contigs含有SNP位點,平均1個contig含有19.58個SNP位點,平均每72.93 bp發(fā)現(xiàn)1個候選SNP位點,低于水稻基因組中SNP發(fā)生頻率接近(水稻平均每89 bp有1個SNP)[19],高于玉米基因組SNP發(fā)生頻率(玉米基因組平均每61 bp有1個SNP)[9]。由此可見,SNP在禾本科植物中的發(fā)生頻率相差不大。接下來準(zhǔn)備根據(jù)發(fā)掘到的SNP位點設(shè)計相應(yīng)的SNP引物,并進行測序和酶切相結(jié)合的方法來驗證發(fā)掘的SNP位點的可靠性,以期為甘蔗的分子遺傳研究提供一定的參考。

參考文獻:

[1]Hyten D L,Choi I Y,Song Q J,et al. A high density integrated genetic linkage map of soybean and the development of a 1 536 universal soy linkage panel for quantitative trait locus mapping[J]. Crop Science,2010,50(3):960-968.

[2]Singh A,Singh P K,Singh R,et al. SNP haplotypes of the BADH1 gene and their association with aroma in rice (Oryza sativa L.)[J]. Molecular Breeding,2010,26(2):325-338.

[3]van Inghelandt D,Melchinger A E,Lebreton C,et al. Population structure and genetic diversity in a commercial maize breeding program assessed with SSR and SNP markers[J]. Theoretical and Applied Genetics,2010,120(7):1289-1299.

[4]Jiang D,Ye Q L,Wang F S,et al. The mining of citrus EST-SNP and its application in cultivar discrimination[J]. Agricultural Sciences in China,2010,9(2):179-190.

[5]Kim S,Misra A. SNP genotyping:technologies and biomedical applications[J]. Annual Review of Biomedical Engineering,2007,9:289-320.

[6]Chen Q Q,Zhan X J,Lan J Y,et al. Study progresson application of EST(expressed sequence tags)in the functional genomics[J]. Chinese Agricultural Science Bulletin,2010,26(3):59-63.

[7]Picoult-Newberg L,Ideker T E,Pohl M G,et al. Milling SNPs from EST databases[J]. Genome Research,1999,9(2):167-174.

[8]李雪姣,張 耿,顧愛俠,等. 蕓薹屬作物EST-SNP的發(fā)掘與分析[J]. 植物遺傳資源學(xué)報,2010,11(6):772-776.

[9]Ching A,Caldwell K S,Jung M,et al. SNP frequency,haplotype structure and linkage disequilibrium in elite maize inbred lines[J]. BMC Genetics,2002,3:19.

[10]李 猛,郭大龍,劉崇懷,等. 葡糖EST-SNP位點的信息與特征[J]. 浙江大學(xué)學(xué)報:農(nóng)業(yè)與生命科學(xué)版,2012,38(3):263-270.

[11]Wang S,Sha Z,Sonstegard T S,et al. Quality assessment parameters for EST-derived SNPs from catfish[J]. BMC Genomics,2008,9:450.

[12]Fornage M,Doris P A. Single-nucleotide polymorphism genotyping for disease association studies[J]. Methods in Molecular Medicine,2005,108:159-172.

[13]Gu Z,Hillier L,Kwok P Y. Single nucleotide polymorphism hunting in cyberspace[J]. Human Mutation,1998,12(4):221-225.

[14]Buetow K H,Edmonson M N,Cassidy A B. Reliable identification of large numbers of candidate SNPs from public EST data[J]. Nature Genetics,1999,21(3):323-325.

[15]劉新龍,毛 鈞,陸 鑫,等. 甘蔗SSR和AFLP分子遺傳連鎖圖譜構(gòu)建[J]. 作物學(xué)報,2010,36(1):177-183.

[16]Zhao W,Wang J,He X,et al. BGI-RIS:an integrated information resource and comparative analysis workbench for rice genomics[J]. Nucleic Acids Research,2004,32:D377-D382.

[17]劉學(xué)軍,閆雙勇,劉小紅,等. 植物SNP數(shù)據(jù)庫及轉(zhuǎn)化CAPS的方法[J]. 分子植物育種,2006,4(3):443-447.

[18]Duran C,Appleby N,Vardy M,et al. Single nucleotide polymorphism discovery in barley using autoSNPdb[J]. Plant Biotechnology Journal,2009,7(4):326-333.

[19]Nasu S,Suzuki J,Ohta R,et al. Search for and analysis of single nucleotide polymorphisms(SNPs) in rice and establishment of SNP markers[J]. DNA Research,2002,9:163-171.

主站蜘蛛池模板: 精品超清无码视频在线观看| 亚洲二三区| 在线观看国产黄色| 中文字幕乱码二三区免费| 国产成人精品亚洲77美色| 中国一级特黄视频| 欧美一区中文字幕| 999福利激情视频| 国产偷倩视频| 久久99国产精品成人欧美| 欧美成人午夜影院| 中文字幕有乳无码| 国产无码精品在线| 最新日韩AV网址在线观看| 谁有在线观看日韩亚洲最新视频| 91精品国产综合久久不国产大片| 国产成人91精品| 国产在线精彩视频论坛| 一本二本三本不卡无码| 国产伦片中文免费观看| 国产成人亚洲综合a∨婷婷| 天堂网国产| 香蕉在线视频网站| 亚洲第一成人在线| 亚洲69视频| 亚洲日韩精品综合在线一区二区| 欧美三级视频网站| 亚洲人成网站在线播放2019| jizz在线观看| 国产极品美女在线播放| 婷婷综合缴情亚洲五月伊| 91欧洲国产日韩在线人成| 就去色综合| 亚洲欧美一级一级a| 国产成人综合久久精品下载| 国产精品亚洲精品爽爽| 婷婷六月综合| 欧美一级视频免费| 亚洲国产成人在线| 国产91小视频| 国产人妖视频一区在线观看| 99视频全部免费| 色老二精品视频在线观看| 精品人妻一区无码视频| 久久综合伊人77777| 亚洲国产精品人久久电影| 国产91视频免费观看| 一级香蕉人体视频| 精品亚洲欧美中文字幕在线看| 99r在线精品视频在线播放| 亚洲成网站| 国产一级二级三级毛片| 91激情视频| 小蝌蚪亚洲精品国产| 久久精品国产国语对白| 国产精品网拍在线| 在线高清亚洲精品二区| jizz在线免费播放| 永久免费av网站可以直接看的 | 日韩东京热无码人妻| 视频二区中文无码| 国产精品99一区不卡| 91久久偷偷做嫩草影院免费看 | 麻豆精品在线| 91视频青青草| 粉嫩国产白浆在线观看| 国产精品专区第一页在线观看| 热99精品视频| 亚洲无码37.| 一级毛片免费的| 天天色综网| 亚欧成人无码AV在线播放| 91久久青青草原精品国产| 国产美女在线观看| 国产97公开成人免费视频| 久热re国产手机在线观看| 最新日本中文字幕| 国产9191精品免费观看| 99视频在线免费| 在线免费观看AV| 久久91精品牛牛| 久久性视频|