周 勃,任海龍,,張 龑,高 強,徐 麟,鄒集文
(1.新疆農業科學院海南三亞農作物育種試驗中心,海南三亞 572014;2.廣州市農業科學研究院,廣州 510308;3.新疆農業科學院農作物品種資源研究所,烏魯木齊 830091)
【研究意義】金花菜(Medicago polymorpha)屬豆科苜蓿屬一年生苜蓿[1]。金花菜在食用、飼用、藥用和綠肥有較高價值[2],早年金花菜在我國栽培面積達20×104hm2(300萬畝)[3]。近年來,金花菜是我國極具發展前景的多用途豆科牧草[4]。金花菜其所在的豆科苜蓿屬(Medicago)大約有87個種,包括了豆科模式植物蒺藜苜蓿(Medicago truncatula)和最重要的豆科牧草紫花苜蓿(Medicago sativa)[5]。金花菜作為苜蓿屬“Polymorpha clade”進化分支的代表性物種,其染色體數目的非整倍體減少(基本染色體數8→7)[6]。利用金花菜全基因組測序數據,分析其基因組中簡單重復序列的分布特征及與蒺藜苜蓿和紫花苜蓿的異同,對金花菜種質資源遺傳多樣性和分子標記輔助選育有重要意義。【前人研究進展】簡單重復序列(SSR,Simple Sequence Repeats)又稱微衛星,為共顯性標記,具有擴增穩定、數量豐富、多態性高及特異性強等優勢[7]、指紋圖譜構建[8]、遺傳連鎖圖譜[9]及QTLs定位等研究[10]。利用高通量測序數據開發SSR標記是一種快速、高效、低成本的策略。由于金花菜等一年生苜蓿缺乏基因組序列信息,Eujayl等[11]提出利用豆科模式植物蒺藜苜蓿的ESTs(Expressed sequence tags)序列,開發可用于其它一年生苜蓿的EST-SSR穿梭標記,89%的蒺藜苜蓿EST-SSRs在其他一年生苜蓿上可以跑出條帶。Chu等[12]通過對92對蒺藜苜蓿基因組SSR的研究發現,有53%的蒺藜苜蓿基因組SSR標記可以在金花菜上通用。但由于這些種間的SSR穿梭標記通常來自于物種基因組的保守區域,檢測得到的金花菜多樣性并不高,且難以獲得大量的有效標記[13]。【本研究切入點】由于缺少基因組信息,金花菜SSR標記的開發只能借鑒其近緣物種的基因組進行,制約著金花菜相關工作的有效開展。需找到均勻覆蓋金花菜全基因組的分子標記并高通量開發。2021年金花菜的全基因組測序工作順利完成,針對該物種基因組進行SSR標記的分析與開發成為可能。【擬解決的關鍵問題】在perl語言環境下,運行微衛星篩選軟件MISA(MIcroSAtellite identification tool)的腳本,分別對金花菜、蒺藜苜蓿和紫花苜蓿的基因組FASTA文件進行掃描,對篩選出的簡單重復序列進行統計分析。
金花菜基因組從國家基因組科學數據中心(National Genomics Data Center)數據庫下載(https://bigd.big.ac.cn/gsa/s/q0VtV4XI)[14];蒺 藜苜蓿基因組(Mt 5.0)從美國國立生物技術信息中心(National Center for Biotechnology Information)數據庫下載(https://www.ncbi.nlm.nih.gov/genome/6?genome_assembly_id=406060)[15];紫花苜蓿基因組從Figshare科學數據共享平臺下載(https://figshare.com/articles/dataset/Medicago_sativa_genome_and_annotation_files/12623960)[16],3種苜蓿基因組所有序列均以FASTA文件格式保存。表1

表1 三種苜蓿的基因組測序信息Table 1 Genome sequencing information of three Medicago species
使用微衛星檢索工具MISA[17](https://webblast.ipk-gatersleben.de/misa/)執行命令perl misa.pl genome.fasta,對3種苜蓿全基因組進行掃描,篩選符合條件的簡單重復序列。篩選標準為MISA軟件的默認值:單核苷酸重復次數在10次及以上,二核苷酸重復次數在6次及以上,三至六核苷酸重復次數在5次及以上,復合型SSR的檢索條件是2個SSR片段間的距離低于100 bp。將生成的數據采用Excel軟件整理,對序列特征進行分析并繪制圖表。
研究表明,金花菜為同源二倍體,染色體數目為14條,全基因組大小為457.53 Mb,共篩選出195 753個SSR,相對密度為428個/Mb,平均長度為18 bp;蒺藜苜蓿為同源二倍體,染色體數目為16條,全基因組大小為430.01 Mb,共篩選出242 434個SSR,相對密度為564個/Mb,平均長度為15 bp;紫花苜蓿為同源四倍體,染色體數目為32條,全基因組大小為817.12 Mb,共篩選出390 496個SSR,相對密度為478個/Mb,平均長度為16 bp。在這3種苜蓿中,金花菜檢索到的SSR最少,平均SSR長度最長;蒺藜苜蓿檢索到的SSR密度最高,平均SSR長度最短;紫花苜蓿的基因組最大,SSR的總數量最多。表2

表2 三種苜蓿基因組中SSR的分布Table 2 Distribution of SSR in three Medicago species
研究表明,金花菜基因組SSR類型比較豐富,其中又以單核苷酸重復單元的數量最多,占基因組SSR數量的75.58%(147 953個SSR位點),其次為二、三核苷酸重復單元類型,分別占基因組SSR數量的15.31%(29 975個SSR位點)和7.94%(15 548個SSR位點);四、五、六核苷酸重復單元類型所占比例均相對較低,三者的比例總和僅為1.16%(共2 277個SSR位點)。金花菜和蒺藜苜蓿基因組中,SSR均是單核苷酸重復單元數目最多,然后依次是二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸。紫花苜蓿除六核苷酸重復單元略高于五核苷酸重復單元外,其余核苷酸重復單元數目的變化趨勢與金花菜和蒺藜苜蓿相一致,均是隨重復單元核苷酸數的增加逐漸減少。
3種苜蓿同一核苷酸重復單元拷貝數變化趨勢是相似的,且均隨著重復拷貝數的增加,其SSR數目逐漸遞減。金花菜,蒺藜苜蓿和紫花苜蓿的單核苷酸重復單元拷貝數主要集中在10~25次,分別占單核苷酸類型SSR總數的99.34%,98.95%和99.33%;二核苷酸重復單元拷貝數主要集中在6~26次,分別占比92.94%,91.20%和88.74%;三核苷酸重復單元拷貝數范圍較為集中,主要集中在5~13次,分別占比94.21%,95.18%和88.81%;四核苷酸中重復單元拷貝數范圍也較為集中,主要集中在5~8次,分別占比93.95%,96.57%和91.25%;五核苷酸重復單元拷貝數主要集中在5~7次,占比96.41%,98.03%和94.53%;六核苷酸重復單元拷貝數主要集中在5~7次,占比92.17%,94.53%和91.20%。在3種苜蓿中,金花菜的單核苷酸和二核苷酸重復單元拷貝數更為集中,蒺藜苜蓿三、四、五、六核苷酸重復單元拷貝數更為集中,紫花苜蓿的核苷酸重復單元拷貝數比金花菜和蒺藜苜蓿較為分散。表3

表3 三種苜蓿不同SSR重復單元的數目和占比Table 3 Number and proportion of different SSR repeat types in three Medicago species
研究表明,共發現184種重復單元類型,比例最高的前20種類型共計有194 858個SSR(占99.54%)。在這些核苷酸重復單元中,單核苷酸重復單元中以A/T占絕對優勢(共142 396個,占72.74%),其次為C/G(共5 557個,占2.84%);二核苷酸重復單元中以AT/AT占絕對優勢(共14 803個,占7.56%),其次為AG/CT(共9 781個,占5.00%);三核苷酸重復類型中則以AAT/ATT(共5 694個,占2.91%)為優勢重復單元類型,其次為AAG/CTT(1.88%)、AAC/GTT(1.37%)、ATC/ATG(0.77%)和ACC/GGT(0.40%)重復單元類型;四、五、六核苷酸重復單元相對較少,但類型較豐富,共2 277個,占SSR總數的1.16%,其中有72種重復單元類型僅出現1次。圖1

圖1 金花菜基因組SSR的重復基元類型及數量Fig.1 The number of different SSR in Medicago polymorpha genome
蒺藜苜蓿基因組中共發現177種重復單元類型,比例最高的20種類型SSR共計241 517個(占99.62%),從高到低依次為:A/T(共185 412個,占76.48%)、AT/AT(共21 621個,占8.92%)、AG/CT(共9 493個,占3.92%)、AAT/ATT(共6 361個,占2.62%)、AC/GT(共4 435個,占1.83%)、AAG/CTT(共3 443個,占1.42%)、AAC/GTT(共3 268個,占1.35%)、C/G(共2 729個,占1.13%)、ATC/ATG(共1 549個,占0.64%)、AAAT/ATTT(共697個,占0.29%)、ACC/GGT(共675個,占0.28%)、AGG/CCT(共484個,占0.20%)、AGC/CTG(共246個,占0.10%)、ACT/AGT(共245個,占0.10%)、AAAG/CTTT(共173個,占0.07%)、AGAT/ATCT(共151個,占0.06%)、ACAT/ATGT(共148個,占0.06%)、CG/CG(共142個,占0.06%)、AAAAT/ATTTT(共124個,占0.05%)和AGGG/CCCT(共121個,占0.05%)。圖2

圖2 蒺藜苜蓿基因組SSR的重復基元類型及數量Fig.2 The number of different SSR in Medicago truncatula genome
紫花苜蓿基因組中共發現200種重復單元類型,比例最高的20種類型SSR共計387 829個(占99.32%),從高到低依次為:A/T(共274 264個,占70.23%)、AT/AT(共39 090個,占10.01%)、AG/CT(共20 359個,占5.21%)、AAT/ATT(共11 562個,占2.96%)、AC/GT(共10 985個,占2.81%)、AAG/CTT(共8 212個,占2.10%)、C/G(共6 811個,占1.74%)、AAC/GTT(共6 179個,占1.58%)、ATC/ATG(共2 773個,占0.71%)、AAAT/ATTT(共1 227個,占0.31%)、ACC/GGT(共1 177個,占0.30%)、AGG/CCT(共935個,占0.24%)、AATC/ATTG(共781個,占0.20%)、AATT/AATT(共747個,占0.19%)、AATGTC/ACATTG(共580個,占0.15%)、ACAT/ATGT(共542個,占0.14%)、ACT/AGT(共505個,占0.13%)、AGAT/ATCT(共396個,占0.10%)、AAAG/CTTT(共372個,占0.10%)和AGC/CTG(共332個,占0.09%)。
3種苜蓿中,紫花苜蓿基因組中SSR重復單元類型最多,其次是金花菜和蒺藜苜蓿。重復單元類型中,A/T、AT/AT、AG/CT和AAT/ATT是三種苜蓿共有的常見核心SSR類型。圖3

圖3 紫花苜蓿基因組SSR的重復基元類型及數量Fig.3 The number of different SSR in Medicago sativa genome
研究表明,金花菜基因組SSR序列長度主要集中于12 bp以內,為100 982個,占SSR總數的51.59%;分布于12~20 bp的SSR數量為72 215個,占SSR總數的36.89%;≥20 bp以上的SSR數量為22 556個,占SSR總數的11.52%。相較于蒺藜苜蓿和紫花苜蓿,金花菜SSR分布在<12 bp長度上的比例最高。金花菜仍有大量的中等多態性和較高多態性長度的SSR,具有較大的多態性標記開發潛力。圖4

圖4 金花菜基因組SSR不同片段長度的數量Fig.4 The number of different fragment length SSR in Medicago polymorpha genome
SSR序列長度<12 bp時SSR標記的多態性表現極低;序列長度在12~20 bp之間時標記多態性適中;≥20 bp時具有較高多態性,是理想的標記位點[18]。基因組中存在著大量的重復序列,從進化角度看,物種間重復序列的差異是自然選擇的結果,因此鑒定SSR在基因組中的分布特征有重要意義[19]。金花菜、蒺藜苜蓿和紫花苜蓿是苜蓿屬的不同種,其中金花菜和蒺藜苜蓿屬于一年生苜蓿,紫花苜蓿屬于多年生苜蓿,3種苜蓿基因組有很強的的共線性關系[14]。研究發現,金花菜基因組SSR的分布密度為428個/Mb,明顯低于蒺藜苜蓿的分布密度(564個/Mb)以及紫花苜蓿的分布密度(478個/Mb)。Varshney等[20]研究認為,SSR分布密度之所以出現差異,除了物種間差異因素外,還與測序數據深度、序列拼接數據質量及SSR位點查找軟件以及SSR搜索標準不同有關。研究選用主流的微衛星篩選軟件MISA(MIcroSAtellite identification tool),在相同設置條件下分析了這3種苜蓿間差異。金花菜、蒺藜苜蓿和紫花苜蓿的測序深度分別為117X、109X和153X,均為二代+三代測序組裝的高質量基因組,結果比較能真實發映出物種間的差異。金花菜基因組SSR的分布密度較低,可能與金花菜染色體數目少有關。
單核苷酸、二核苷酸和三核苷酸重復單元是絕大多植物基因組SSR序列中優勢重復單元[18,21]。研究發現,金花菜基因組SSR中,單、二和三核苷酸重復單元類型分別占基因組SSR數量的75.58%、15.31%和7.94%,其后依次是,四、五和六核苷酸重復單元,與蒺藜苜蓿觀測到的結果相一致。與金花菜和蒺藜苜蓿相比,紫花苜蓿的六核苷酸重復單元數量多于五核苷酸重復單元,且單核苷酸重復單元類型的SSR數量相對較少,這可能與紫花苜蓿是同源四倍體,異花授粉導致遺傳變異更為豐富有關。
共發現94 771個片段長度≥12 bp的金花菜基因組簡單重復序列,具有較高的多態性。
金花菜基因組共篩選出195 753個SSR,相對密度為428個/Mb,平均長度為18 bp,金花菜基因組SSR的分布密度低于蒺藜苜蓿和紫花苜蓿,重復單元類型較豐富,具有較大的多態性標記開發潛力。