999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

苦參轉錄組SSR位點及基因功能注釋分析

2019-09-17 07:32:25張寧尹美強譚青青
江蘇農業科學 2019年7期

張寧 尹美強 譚青青

摘要:分析苦參轉錄組中的簡單重復序列(SSR)位點信息,為開發分子標記奠定基礎。利用Fastqc軟件對苦參轉錄組測序的原始讀長(reads)進行質量評估,再用Trimmomatic軟件對reads質量較差的堿基進行過濾,利用Trinity軟件對Trimmomatic處理后的reads進行序列組裝,之后使用基因組裝完整性評估(BUSCO)軟件對轉錄組組裝的序列進行質量評估,并分析組裝的conting序列的開放閱讀框(open reading frame,簡稱ORF);利用MicroSAtellite(MISA)軟件對無冗余獨立基因(unigene)進行SSR搜索。利用Trinity軟件最終篩選得到23074條ORF信息;使用MISA軟件從unigenes序列中發現8 798個SSR位點,分布于7 339條unigene中,總體上unigenes序列中SSR占比為2.16%,SSR位點平均間隔是5.28 bp,其中占比最高的是單核苷重復基序,為50.53%;其次是出現頻率分別為22.28%、24.73% 的二、三核苷酸。苦參轉錄組中SSR類型眾多,出現頻率高,在后續的苦參遺傳性狀分析,及次生代謝(苦參堿和黃酮等次生代謝產物)途徑等相關基因定位等方面具有很好的應用潛力。

關鍵詞:苦參;轉錄組;SSR;位點信息;基因功能;分子標記

中圖分類號: R285 ?文獻標志碼: A ?文章編號:1002-1302(2019)07-0041-04

苦參(Sophora flavescens Ait.)是豆科槐屬植物,以其干燥根入藥,味苦,性寒,具有清熱除燥濕、殺蟲和利尿等藥效。其主要藥用成分是生物堿類和黃酮類化合物,已從苦參中分離出生物堿類39個,黃酮類122個成分[1]。苦參主產于山西、陜西、河南、河北等地,在醫學臨床、農業、畜牧業和日用品等中有廣泛的應用[2]。氣候的變化和人為過度的采挖造成野生苦參資源數量急劇減少[3]。因此,保護和利用好野生苦參資源是當務之急,勢在必行。

分子標記開發可對制定合理有效的種質資源保護策略提供科學依據,但目前還缺乏能夠應用于苦參種質鑒定、遺傳圖譜構建、功能基因定位等研究的簡便、高效、穩定且具有種屬特異性的分子標記體系。簡單重復序列(simple sequence repeat,簡稱SSR)是由核苷酸構成的重復序列,在真核生物和原核生物基因中都有存在。SSR 位點標記具有在生物中分布廣泛、重復類型多樣、出現頻度高等特點[4],主要應用于分子育種優良基因定位、生物多樣性分析、遺傳圖譜繪制、突變體單核苷酸多態性(single nucleotide polymorphism,簡稱SNP)位點分析輔助等。傳統尋找基因組中SSR標記的方法存在位點開發成本高、步驟較多、操作繁瑣等問題[5]。轉錄組SSR位點開發具有方便快捷、效率高等特點,且成本低廉。SSR開發引物能夠直接快速地定位基因信息。隨著苦參研究的深入,目前還未發現有關苦參轉錄組SSR開發的報道。本研究通過分析苦參轉錄組中的SSR位點信息,為苦參遺傳性狀分析、次生代謝(苦參堿和黃酮等次生代謝產物)途徑、分子標記輔助育種及苦參遺傳多樣性研究提供依據和參考。

1 材料與方法

1.1 轉錄組數據來源

從NCBI(美國國家生物技術中心)數據共享平臺獲得苦參轉錄組數據,從SRA(Sequence Read Archive)數據庫(https://www.ncbi.nlm.nih.gov/sra/)獲得苦參葉片RNA-Seq原始測序數據,下載編號是SAMD00029896,使用Illumina HiSeq1000對苦參組織進行建庫測序,原始數據reads為 90 bp,采取雙端(paired-end sequencing)測序,獲得1.3 GB轉錄組數據,下載網址是ftp://ftp.ncbi.nlm.nih.gov中的DRR031281[6]。

1.2 轉錄組的從頭組裝

首先通過Sratoolkit.2.8.2-1將sra格式轉錄組原始數據轉換為fastq格式[7];使用Fastqc軟件進行轉錄組原始數據質量評估,然后,利用Trimmomatic軟件對fastq格式的序列進行低質量去除,leading頭部去掉質量低于3的堿基,trailing尾部過濾掉質量低于3的堿基,每4個堿基是一個閱讀框,4個連續堿基的平均質量低于15的過濾掉,reads中最小長度小于40序列的過濾掉 [8];隨后,對高質量reads采用Trinity 軟件進行從頭(de novo)組裝[9],最短contig 長度設置為200 bp(參數為默認參數)。篩選每個基因最長的轉錄本作為unigene,最后組裝得到苦參轉錄組的全部轉錄本(包含可變剪切)。

1.3 苦參轉錄組數據組裝完整性評估

選取由Trinity軟件組裝的序列,使用BUSCO V 2.0.1軟件進行苦參葉片轉錄組數據完整性評價[10]。BUSCO V 2.0.1 軟件依據 Ortho DB 數據庫,組成了幾個大的進化分支單拷貝基因集,將轉錄本reads拼接結果與該基因集數據進行比較(基因集直接使用 HMMER3與參考數據庫比對),依據比對上的比例、完整性評估拼接結果的準確性和完整性。

1.4 ORF預測

使用Trinity軟件中的TransDecoder LongOrfs工具對unigene進行開放閱讀框(open reading frame,簡稱ORF)預測,篩選大于100個氨基酸的ORF序列,獲得最佳的ORF區域,使用Pfam (http://pfam.xfam.org/)和UniProt(http://www.uniprot.org)數據庫對預測結果進行校正,將比對結果保留到Pfam和UniProt數據庫的蛋白質序列中[11]。

1.5 SSR位點搜索

使用MISA軟件[12]對苦參轉錄組數據unigene的SSR位點進行定位搜索,查詢定位規則是三堿基、四堿基、五堿基和六堿基重復至少5次,二堿基重復不得少于6次,2個SSR位點之間不足100bp則視為復合型SSR。

1.6 含SSR序列的基因功能注釋及生物堿基因挖掘

通過diamond blastx和diamond blastp分別將苦參中含SSR的8248條unigene序列與uniprot_sprot、Pfam和eggnog、Kegg、基因本體論(gene ontology,簡稱GO)等數據庫進行比對,比對參數e值<10-5,然后利用WEGO(http://wego.genomics.org.cn/)在線分析工具進行GO功能分類統計,分析含有SSR unigene的功能分布特征;通過與GO庫進行比對后,得到的unigene注釋結果按照GO數據庫的23個類別進行分類統計。通過對WEGO注釋結果(3個大類)23個子類更深入分析挖掘苦參堿相關基因,為進一步研究奠定基礎。

2 結果與分析

2.1 苦參轉錄組de novo 組裝

從NCBI數據庫下載得到的苦參轉錄組測序(RNA-Seq)數據中共包含14 636 096個雙端測序 reads,通過Trimmomatic軟件過濾得到14 578 802 個高質量 reads。轉錄組 de novo組裝獲得53 179個長度大于200 bp的contigs,拼接獲得的長序列(contigs)平均長度為813 bp,最長的 contig為22 546 bp,N50為1 464 bp;篩選每個基因中最長的轉錄本,共得到54 221條unigenes,平均長度為715.87 bp,最長的unigene 為12 122 bp,N50為1 464 bp(表1)。采用TransDecoder軟件中LongOrfs功能進行ORF預測,篩選獲得大于100個氨基酸的ORF有29 226個contigs;通過UniProt蛋白質數據庫比對獲得15 242條蛋白質序列,Pfam數據庫比對獲得126 429條蛋白質序列;使用TransDecoder最終篩選得到23 074條ORF信息。

contigs 和unigenes的鳥嘌呤(G)和胞嘧啶(C)占比都是44. 8%。從序列長度分布看,序列長度分布在1 000~2 899 bp 的序列大約有19.3%,≥2 900 bp的序列只有0.2%,600~999 bp的序列大約有13.6%,700bp 以下占71.4%(圖1)。

2.2 轉錄組數據完整性評估

對轉錄組數據進行評估、測序、組裝得到的轉錄序列覆蓋所有可能的轉錄本。評估轉錄組數據的大小和完整性。依據植物直系同源基因數據集對苦參的轉錄組數據完整性進行評估,由表2可知,在由苦參轉錄組序列與植物基因組匹配獲得的1440個植物單拷貝直系同源基因中,完全匹配到的直系同源基因( complete)有1000個,占總BUSCO的69.4%,部分片段匹配對應到的單拷貝直系同源基因( fragment)有171個,占總BUSCO的11.9%;沒有匹配對應到的植物單拷貝直系同源基因(missing)有269個,占總BUSCO的18.7%,完全匹配到的單拷貝直系同源基因(complete)有973個,占總BUSCO的67.6%,完全匹配到的多拷貝直系同源基因(complete)有27個,占總BUSCO的1.9%。

2.4 轉錄組中SSR 位點的分布特點

使用 Trinity軟件組裝得到54 221條unigenes,堿基數為 38 815 308 bp,平均每條unigene長度為715.87 bp;使用 MISA軟件搜索得到8 798個SSR位點,存在于7 339條unigenes轉錄組序列中,包括多個 SSR位點的 unigenes序列有1 173條(包含復合 SSR為551個)占SSR unigenes序列總數的13.33%。總體上unigenes序列中SSR占比為2.16%,SSR位點平均間隔距離是4 411 bp。其中占比最高的是單核苷重復基序,占總SSR 的50.53%;其次是出現頻率分別為22.28%、24.73% 的二、三核苷酸。SSR最短平均分布距離是0.99 bp的單核苷酸重復類型,平均分布距離最長的是1.29 bp的五核苷酸重復類型。

苦參轉錄組不同重復類型的SSR位點都有多種基元,在考慮堿基互補且包含復合重復基元的情況下,重復類型合計93種,其中六核苷酸38種,五核苷酸22種,四核苷酸類型17種,在篩選的 SSR中單核酸重復優勢基元為A/T,占比最高,為總基元類型的98.18%,其次是二核苷酸重復類型優勢類型基元AG/CT,為65.72%。三核苷酸重復類型的優勢基元是AAG/CTT,占比27.70%;四、五、六核苷酸重復類型的優勢基元分別是AAAG/CTTT、AACAC/GTGTT、AGAGGG/CCCTCT,所占的比例分別是24.17%、11.90%、7.94%(表3)。

2.5 轉錄組SSR 基序重復類型和頻率特征

不同重復類型苦參轉錄組SSR位點分布存在差異(表4)。單核苷酸重復類型設置重復數≥15次作為SSR位點的識別條件,因此在表中未分析單核苷酸類型。除單核苷酸外,各重復類型重復數在5~11次之間,隨重復次數的逐漸增加,頻率逐步降低。除單核苷酸外,5~7 次是主要集中次數,占SSR類型總數的大多數。

2.6 含SSR序列的基因功能注釋及生物堿基因挖掘

為了解含有SSR序列苦參轉錄組序列的基因功能,本研究通過與公共蛋白數據庫進行比對,得到含有SSR序列的分類信息和功能注釋。結果發現,uniprot_sprot、Pfam、eggnog、Kegg、GO分別注釋到3 094、3 162、3 061、3 138、3 467個基因。

GO注釋將基因功能分為生物進程(biological process)、細胞組分(cellular component)、功能組分(molecular function)大類,其下又分了很多子類,從不同角度對基因的功能進行分類注釋,各類間互相關聯。GO注釋可以全面描述苦參中SSR基因和基因產物的屬性。將搜索到含有SSR的unigene序列使用blastx比對到蛋白數據庫,取比對分值最高的為序列注釋信息。細胞組分注釋10312條,生物進程注釋11 200條,功能組分注釋4 376條。將含有SSR序列的3 467條unigene編號后與其對應的GO分類號一起導入到GO分類圖形顯示在線分析工具WEGO 軟件中,得到其基因功能分布(圖2)。結果表明,在3 467條unigene序列中注釋信息獲得23 483個功能注釋,平均1條unigene有6.77個GO注釋。

苦參主要藥用成分是苦參堿和黃酮類物質,通過對含有SSR位點的序列進行GO注釋數據挖掘,獲得7個生物堿代謝途徑相關基因,2個黃酮類生物合成過程相關基因。

3 討論

苦參轉錄組 de novo組裝獲得51 606 個長度大于200 bp的contigs,使用uniprot和Pfam蛋白質數據庫進行ORF比對校正,uniprot比對上15 242條蛋白質序列,Pfam數據庫校比對上 126 429 條蛋白質序列,TransDecoder最終篩選得到 23 074條ORF信息,unigenes序列長度在700 bp 以下的序列

數大約占總序列數的70%。BUSCO對轉錄組組裝結果:C占比為69.5%,S占比為67.6%,D占比為1.9%,F占比為11.9%,M占比為18.6%,總BUSCOs數目為1 440條。

苦參轉錄組序列通過MISA搜索到8 798個SSR位點,SSR位點的unigenes序列在苦參轉組序列中SSR位點占比為2.16%,平均分布距離4 411 bp出現1個SSR。與其他藥用植物比較,高于黨參的0.022%[13],低于丹參的0.047%[14],高于西洋參的0.013 3%[15]和人參的0.017 2%[16];與豆科模式植物大豆相比,高于大豆的0.013 5%[17]。表明苦參的SSR位點數量較為豐富。通過對含有SSR位點序列的注釋進一步分析獲得苦參生物堿相關代謝基因,為后續相關研究提供參考。

本研究結果為苦參轉錄組數據中的SSR位點分析提供依據。本研究對轉錄組序列進行了ORF預測,反映了基因組中基因的編碼區域,可進一步確定基因位置,省去了SSR引物設計開發過程中的克隆和測序步驟,充分利用了生物信息數據庫現有測序數據,降低了開發成本。同時也明確了苦參SSR位點的基本特點,為進一步開發設計新的苦參功能基因SSR 標記奠定了基礎。苦參中SSR對于苦參基因功能資源的開發利用、遺傳資源評估、豐富的分子標記、種質資源改良和比較基因組學研究都具有重要的價值。

參考文獻:

[1]國家藥典委員會. 中華人民共和國藥典[M]. 北京:化學工業出版社,2015.

[2]張貴君. 精編中草藥彩色圖譜[M]. 北京:中國醫藥科技出版社,2016.

[3]張 翅. 苦參莖葉中化學成分的研究[D]. 天津:天津中醫藥大學,2013.

[4]段永紅,渠云芳,王長彪,等. 藥用植物苦參SSR-PCR體系的優化與驗證[J]. 中國農業大學學報,2014,19(5):95-100.

[5]He J Y,Zhu S,Komatsu K,et al. Genetic polymorphism of medicinally-used Codonopsis species in an internal transcribed spacer sequence of nuclear ribosomal DNA and its application to authenticate Codonopsis Radix[J]. Journal of Natural Medicines,2014,68(1):112-124.

[6]Han R,Takahashi H,Nakamura M,et al. Transcriptome analysis of nine tissues to discover genes involved in the biosynthesis of active ingredients in Sophora flavescens[J]. Biological and Pharmaceutical Bulletin,2015,38(6):876-883.

[7]Staff S. Using the SRA Toolkit to convert .sra files into other formats[EB/OL]. (2015-08-22)[2017-12-06]. http://www.ncbi.nlm.nih.gov/books/NBK158900/.

[8]Bonnal R J P,Ranzani V,Arrigoni A,et al. De novo transcriptome profiling of highly purified human lymphocytes primary cells[J]. Scientific Data,2015,2:150051.

[9]Grabherr M G,Haas B J,Yassour M,et al. Trinity:reconstructing a full-length transcriptome without a genome from RNA-Seq data[J]. Nature Biotechnology,2011,29(7):644-652.

[10]王 林. 白色鏈霉菌和白背飛虱的基因組學研究[D]. 合肥:中國科學技術大學,2017.`

[11]舒江平,劉 莉,沈 慧,等. 基于系統基因組學分析揭示早期陸生植物的復雜網狀進化關系[J]. 生物多樣性,2017,25(6):675-682.

[12]王 希,陳 麗,趙春雷. 利用MISA工具對不同類型序列進行SSR標記位點挖掘的探討[J]. 中國農學通報,2016,32(10):150-156.

[13]王 東,曹玲亞,高建平. 黨參轉錄組中SSR位點信息分析[J]. 中草藥,2014,45(16):2390-2394.

[14]鄧科君,張 勇,熊丙全,等. 藥用植物丹參EST-SSR標記的鑒定[J]. 藥學學報,2009,44(10):1165-1172.

[15]楊維澤,金 航,趙振玲,等. 西洋參EST資源的SSR信息分析[J]. 西南農業學報,2011,24(1):275-278.

[16]Li C F,Zhu Y J,Guo X,et al. Transcriptome analysis reveals ginsenosides biosynthetic genes,microRNAs and simple sequence repeats in Panax ginseng C. A. Meyer[J]. BMC Genomics,2013,14:245.

[17]Dreisigacker S,Zhang P,Warburton M L,et al. SSR and pedigree analyses of genetic diversity among CIMMYT wheat lines targeted to different megaenvironments[J]. Crop Science,2004,44(2):381-388. 么大軒,張 彬,劉松濤,等. 基于SNP和SSR對甜玉米種質遺傳多樣性的評價[J]. 江蘇農業科學,2019,47(7):45-50.

主站蜘蛛池模板: 久草视频福利在线观看| 91麻豆精品国产高清在线| 国产一区二区三区日韩精品 | 精品视频在线观看你懂的一区| 欧美中文字幕在线视频| 麻豆精选在线| 中文字幕调教一区二区视频| 丰满人妻一区二区三区视频| 丝袜亚洲综合| 激情六月丁香婷婷| 毛片基地美国正在播放亚洲 | 91毛片网| 国产美女无遮挡免费视频网站| 永久毛片在线播| 美女扒开下面流白浆在线试听 | 日韩欧美综合在线制服| 亚洲第一网站男人都懂| 欧美国产在线精品17p| 亚洲男人的天堂网| 欧美h在线观看| 伊人精品成人久久综合| 国产视频自拍一区| 狠狠色丁香婷婷综合| 久久99国产精品成人欧美| 国产视频你懂得| 美女被狂躁www在线观看| julia中文字幕久久亚洲| 99热国产在线精品99| 99色亚洲国产精品11p| 园内精品自拍视频在线播放| 婷婷五月在线视频| 欧美视频免费一区二区三区| 嫩草国产在线| 国内老司机精品视频在线播出| 中文字幕在线欧美| 色婷婷综合激情视频免费看| 亚洲精品麻豆| 无码视频国产精品一区二区| 高清不卡一区二区三区香蕉| 国产欧美精品专区一区二区| 国产黄网站在线观看| 久久免费视频6| 毛片基地视频| 日日拍夜夜操| 一级毛片基地| 中文字幕无码电影| 久久综合色天堂av| 久久精品国产精品一区二区| 日本AⅤ精品一区二区三区日| 欧美天堂在线| 色视频久久| 国产午夜无码专区喷水| 久久国产成人精品国产成人亚洲| 亚洲成a人片7777| 欧美伊人色综合久久天天| 国产精品入口麻豆| 日韩精品无码免费专网站| 欧美亚洲另类在线观看| 婷婷六月激情综合一区| 岛国精品一区免费视频在线观看| 亚洲无码电影| 国产中文在线亚洲精品官网| 欧美日韩国产综合视频在线观看| 亚洲无码视频图片| 国产精品思思热在线| 国产亚洲高清视频| 老司机久久99久久精品播放| 美女毛片在线| 无码高清专区| 国内精品自在自线视频香蕉| 东京热高清无码精品| 亚洲欧美不卡视频| 国产在线观看人成激情视频| 国产黑丝视频在线观看| 亚洲最大福利网站| 熟女成人国产精品视频| 1769国产精品免费视频| 天天综合网在线| 99国产精品国产高清一区二区| 极品国产一区二区三区| 国产精品成人久久| 国产主播在线一区|