王光霞 楊杞 王瑞剛 李國婧
(內蒙古農業大學生命科學學院,呼和浩特 010018)
中間錦雞兒轉錄組EST-SSR標記系統性識別與引物篩選
王光霞 楊杞 王瑞剛 李國婧
(內蒙古農業大學生命科學學院,呼和浩特 010018)
旨在對中間錦雞兒轉錄組數據庫EST信息進行SSR系統性識別和初步驗證,為進一步SSR分子標記開發提供依據。對HiSeq2000測序技術獲得的中間錦雞兒轉錄組Unigenes進行SSR位點搜索,共獲得45 706個SSR位點,出現頻率為10.38%,平均4.30 kb出現一個SSR位點。SSR重復類型以單核苷酸重復序列基元為主,所占比例為56.47%;二核苷酸、三核苷酸重復序列基元的數量所占比例分別是20.56%和21.04%;其他數量的基元所占比例僅為1.9%。多核苷酸重復類型中最多的為2核苷酸重復AG/CT;其次為3 核苷酸重復AAG/CTT。針對EST-SSR位點隨機挑選了150 對引物,通過瓊脂糖凝膠電泳進行PCR驗證,其中有79對能獲得擴增條帶,21對引物擴增出單一條帶,比例為14.0%。
中間錦雞兒;EST-SSR位點識別;引物篩選
中間錦雞兒(Caragana intermedia Kuang et H.C. Fu)又名檸條,屬于豆科蝶形花亞科錦雞兒屬多年生落葉大灌木飼用植物。它對惡劣環境條件有著廣泛的適應性,對干旱、嚴寒、高溫和鹽堿等具有極強的抵抗和忍受能力:中間錦雞兒抗旱性強,在年降雨量僅有100 mm的地區依然可以正常生長;在高溫抗性試驗中,46℃時才開始表現出受害性狀,抗熱極限溫度可達49℃;而它對低溫也有極強的耐受能力,可抵御-30℃至-40℃的低溫,在凍土層深達290 cm的地區依然可以安全過冬,是干旱草原、荒漠草原地帶的優良固沙植物和水土保持植物。另外,檸條還具有很高的飼用及藥用價值,也是重要的生物質能源植物和造紙原料。檸條在生態效益和經濟效益上所發揮的巨大作用,已引起越來越多人的高度重視[1,2]。
SSR(Simple sequence repeat)是指在基因編碼區或非編碼區含有1-6個核苷酸重復單元序列[1,2],其在不同近緣種屬中具有較強的轉移性,另外其側翼序列保守性通常較高,因而基于EST序列開發的SSR標記在不同物種間具有良好的通用性,具有分布性廣、共顯性及等位基因突變率高、分析簡單和置信度高等特點,是種群遺傳學研究中的有效分子標記之一。EST-SSR標記是通過對表達序列標簽EST中的SSR位點進行分析而產生的一種遺傳標記,已成為重要農藝性狀定位、基因作圖、遺傳多樣性、比較基因組學研究的重要工具[3,4]。
有關錦雞兒屬植物分子標記的報道較少,段永紅等[7]曾應用RAPD技術,對我國不同產地的30份錦雞兒屬植物材料進行遺傳多樣性分析。郭強等[8]選用9對細胞核SSR(nSSR)和10對葉綠體SSR(cpSSR)標記對河西走廊14種錦雞兒遺傳多樣性進行分析。一些關于錦雞兒屬植物ISSR分子標記開發的研究也逐漸開展[9,10]。此外,與中間錦雞兒親緣關系極近的檸條錦雞兒(Caragana korshinskii)中,有關AFLP標記(擴增限制性片段長度多態性)的研究也有所報道[11],這些分子標記很多是對錦雞兒屬植物進行遺傳多樣性和分類的研究,而用SSR標記研究中間錦雞兒的多樣性的研究較少,尤其是SSR標記的特異性引物開發較少。因此,對檸條錦雞兒EST-SSR標記進行系統性識別并開發更穩定和有效的標記引物對于推進錦雞兒屬植物遺傳多樣性及遺傳結構探索、開展中間錦雞兒植物種質資源的研究以及選育新優良抗逆新品種及北方生態環境治理等工作有重要的理論和現實意義。
本研究以中間錦雞兒轉錄組測序數據為基礎,對362 633條Unigenes中的SSRs位點進行系統搜索和引物批量設計,對它們在轉錄組中的分布特征進行統計及分析,并且挑選150對引物進行PCR驗證,旨在為該植物的SSR分子標記開發和利用奠定基礎。
1.1 材料
實驗植物材料為中間錦雞兒,種子采自內蒙古自治區四子王旗坡底村(11141' E,4126' N)。挑選飽滿的中間錦雞兒種子,播種于裝有蛭石的培養缽中,置于25℃、16 h光照/8 h 黑暗、光照強度7 000-8 000 lx 的溫室下培養。
1.2 方法
1.2.1 基因組DNA的提取 剪取1個月大小中間錦雞兒小苗葉片,利用植物基因組提取試劑盒(天根生化科技有限公司)進行基因組DNA的提取。
1.2.2 SSR分子標記的鑒定 對Trinity程序組裝獲得的轉錄組All-Unigenes,用MISA程序(http //pgrc. ipk-gatersleben.de/misa/misa.html)掃描轉錄組SSR位點。SSR位點搜索各重復單元最小重復次數的參數分別定為:單核苷酸≥10、二核苷酸≥6、三核苷酸≥5、四核苷酸≥5、五核苷酸≥5和六核苷酸≥5;復合型SSR(Compound Microsatellite)設置為兩個SSR位點之間的最大間距為100個堿基。
1.2.3 SSR引物的設計 利用Perl語言下的Premier5.0軟件在SSR位點核心序列兩端設計引物,設計參數為:引物的長度18-24 bp;Tm 60℃左右,GC含量在50%左右。
1.2.4 SSR引物驗證 引物由上海派諾森公司合成。反應體系中包含:中間錦雞兒DNA模板1 μL、上、下游引物(2 μmol/L)各1 μL、10×PCR Buffer 2 μL、dNTPs(各2.5 mmol/L)0.5 μL、rTaq DNA Polymer-ase(2.5 U/μL)0.5 μL、ddH2O水補足到14 μL,混勻。PCR擴增反應條件為:95℃ 5 min;95℃ 30 s,56℃30 s,72℃ 30 s,35個循環;72℃ 5 min。SSR-PCR擴增產物在2%的瓊脂糖凝膠上電泳、檢測并照相記錄,初步對所設計引物進行篩選。
2.1 中間錦雞兒SSR位點出現頻率及分類
通過MISA軟件對轉錄組組裝的362 633 Unigenes、總長度為196 528 580 bp的測序數據進行SSRs位點搜索。結果(表1)表明,中間錦雞兒轉錄組362 633個Unigenes數據庫中發現37 631個簡單重復序列,含有2個或2個以上SSR位點的序列有6 525條,復合型SSR序列為3 016條,共有45 706個SSR位點,SSR發生頻率為10.38%,平均4.30 kb出現一個SSR位點,SSR位點平均長度為115.37 bp。由數據可以看出,中間錦雞兒的SSR位點較多,位點平均長度較長,出現頻率也相對高。

表1 中間錦雞兒SSR位點分布情況
2.2 中間錦雞兒SSR位點長度分布特征
中間錦雞兒45 706條簡單重復序列的SSR位點長度分布特征(表2)顯示,SSR的長度存在極顯著的變異,搜索到的SSR序列長度從10-283個堿基不等,SSR平均長度為115個堿基。其中SSR中長度≤11 bp的重復序列基元有16 959個,占總數的37.10%;長度在12-20 bp、21-30 bp、31-40 bp、41-100 bp、101-150 bp和>150 bp的重復序列基元數目分別為24 729、3 031、402、20、523和42個,其所占比例分別為54.10%、6.63%、0.88%、0.04%、1.14%和0.09%。需要指出的是長度在41-100 bp的重復序列基元中,20個SSR的序列長度均為100 bp,即全部SSR中沒有長度在41-99 bp之間的重復序列基因存在。根據以上數據可以看出,重復基元長度≥12 bp的基元占全部基元總數的比例達到62.90%,其中20 bp以上的重復基元比例達到8.80%。已有研究認為,SSR位點長度<12 bp時,多態性較低,SSR位點長度在12-20 bp之間時,多態性較高,SSR位點長度≥20 bp時,多態性很高。依據以上研究標準,本研究中54.10%的重復基元長度在12-20 bp之間,其中20 bp以上的重復基元比例達到8.80%,總體來看,獲得的中間錦雞兒SSR分子標記的多態性較好,后期開發利用的價值較高。值得關注的是中間錦雞兒SSR的平均長度非常長,為115.37 bp,長度在100 bp以上的重復基元數量占總重復基元的比例達1.23%,其中最長重復單元的長度達到283 bp,這在已報道的植物中是非常少見的。

表2 中間錦雞兒SSR位點長度分布特征
2.3 SSR重復序列基元頻率分布及類型
2.3.1 SSR位點不同類型基元分布 對全部SSR位點的各種重復基元進行統計分析。結果(表3)顯示,中間錦雞兒EST-SSR中,單核苷酸重復序列基元的數目最多,共25 812個,占總數的56.47%;三核苷酸重復序列基元的數目居于第二,共9 621個,所占比例21.04%;二核苷酸重復序列基元的數目為9 396個,所占比例20.56%;二核苷酸和三核苷酸的總比例占到全部SSRs數量的41.6%。4-6個核苷酸重復序列基元占SSRs的總比例較少,為1.9%。其中,四核苷酸重復序列基元的數目為797個,所占比例1.74%,五核苷酸重復序列基元的數目為80,所占比例0.16%;六核苷酸重復基元在最小重復次數為5的條件下,沒有檢測到符合條件的重復序列基元存在,可能是重復次數設置太高所致。以上結果說明,中間錦雞兒SSR位點中主要的重復序列類型為單核苷酸重復,在多核苷酸重復中以三核苷酸重復序列基元和二核苷酸重復序列基元為主。
除單核苷酸外,SSRs位點中共檢測到305種重復序列基元類型,數量排在前十位的基元類型依次為A/T、AG/CT、AAG/CTT、AAC/GTT、AC/GT、ACC/ GGT、ATC/ATG、AGC/CTG、AT/AT和AGG/CCT,數目分別為9 537、1 552、1 184、775、769、569、560、547、505和418條。
2.3.2 SSR主要重復基元的出現數量及頻率 根據SSR重復基元的核苷酸數可將其分為1-6個核苷酸重復類型。多核苷酸重復基元的主要類型列表,如表4所示。

表3 中間錦雞兒SSR位點不同類型基元分布

表4 SSR位點主要重復基元種類及數量
在SSR的多核苷酸重復基元中,二核苷酸重復種類共4種,以AG/CT數量最多,為5 592個,占全部二核苷酸重復基元的59.51%;其次是AC/GT,共2 115個,占22.51%;居于第三位的是其AT/AT,總數為1 651個,占17.57%;重復次數最少的是CG/CG類型,只有38個,僅占總比例的0.40%。三核苷酸共有10種重復類型,其中AAG/CTT重復基元類型數目最多,共有2 522個,占三核苷酸重復基元總數的26.21%;接下來數量依次較高的是AAC/GTT、ATC/ATG、ACC/GGT、AGC/CTG類型,重復基元數量都在1 000個以上,分別為1 349、1 071、1 033和1 012個,占三核苷酸重復基元總數依次為14.02%、11.13%、10.74%和10.52%。重復基元數量最少的為ACT/AGT,為285個,占其類型總數的2.96%。四核苷酸總共有29種類型,為179個,占其四核苷酸重復基元總數22.32%;其次為AAAG/CTTT,為140個,占其總數的17.46%;接下來是ACAT/ATGT,為64個,占其總數的7.98%;數量在20-40之間的重復基元類型共有7種,依次為AATT/AATT、ACTC/AGTG、AATC/ATTG、ATCC/ ATGG、AAGG/CCTT、AGAT/ATCT及AAAC/GTTT,其余類型的四核苷酸重復基元數量<20;其他四核苷酸重復類型還有11種,數量為93個,占總數的11.60%。
五核苷酸重復基元共找到40種不同的類型,各類型中,AAATC/ATTTG 重復基元的數量最多,共有6個;AATTC/AATTG、ACACG/CGTGT、ACAGC/CTGTG、ACCCT/AGGGT、ACGCT/AGCGT以及AACCC/GGGTT這6種重復基元類型的數目均為4個;其余類型的存在數量都為1或2個,其中數量僅為1個的重復基元類型有19種。六核苷酸重復基元未被檢測到,應該是檢測設定的最小重復次數較為嚴格的原因。
2.4 SSRs引物的初步篩選
以中間錦雞兒基因組DNA為模板對所設計合成的150對引物進行擴增、篩選,電泳結果(圖1)顯示,有清晰擴增條帶的引物的共有79對,占引物總數的52.67%;其中顯示單一條帶的有21對,占總數的14%。
不同植物中SSR分布特點不一樣,包括SSR的發生頻率和分布頻率、重復基元的主要類型和種類等[12]。不同木本植物中EST-SSR發生頻率差異較大,如蒙古櫟僅為1.59%,楊樹和桉樹則接近15%,相差近10倍[13];同一種植物中變化趨勢較為接近,如火炬松、馬尾松分別為4.32%和3.62%、楊樹及桉樹發生頻率則分別為14.83%和14.99%[14,15]。中間錦雞兒屬于灌木,本研究中其SSR發生頻率為10.38%,比火炬松與馬尾松的高,比楊樹及桉樹的低。關于SSR出現頻率在不同植物中變化也較大,但總體表現都很低,可能由于含有微衛星的基因具有較低的表達豐度,故導致了EST序列中微衛星出現頻率偏低。有報道表明農作物報道的變化更大,報道較多的水稻、小麥、花生和玉米中分別是11.81、17.42、23.80和28.32 kb,木本植物的SSR分布頻率在4-55 kb之間[16],其中針葉松中SSR分布頻率比被子植物低,大約分別是50 kb[17],中間錦雞兒屬于木本植物,本研究結果中,中間錦雞兒SSR分布頻率約為4.30 kb,其SSR分布頻率比檉柳(54.99 kb)[18]、枳殼(28.05 kb)[19]等植物高,而比楊樹(3.88 kb)等 植物略低[20]。不同植物間或同種植物內SSR出現頻率不同,這種差異可能是物種間的真實SSR信息差異或搜尋SSR時所用長度最低標準不同造成的[21]。除此之外,還與基因組大小、基因組中轉錄部分的比例及低拷貝序列出現的頻率等有關[22]。

圖1 SSR引物PCR驗證
SSR的重復類型在不同植物中分布也不一樣,對全基因組微衛星的分布已經完成的包括單子葉植物(短柄草、高粱、水稻)和雙子葉植物(擬南芥、苜蓿)幾種植物總的SSR分析可知單核苷酸重復最為豐富[23],如橡膠樹的重復類型就是以單核苷酸重復類型最多,為45.3%,而多數木本植物以二、三核苷酸重復類型為主[24]。多數植物的ESTSSR都是以二、三核苷酸重復基元為主。而本研究中,中間錦雞兒SSR重復類型與橡膠樹類似,也以單核苷酸重復序列基元為主,占其全部重復序列基元總數的56.47%;其三核苷酸重復序列基元的數目占總數的21.04%,居于第二。這是由于EST是表達標簽序列,加上密碼子以三核苷酸為一個功能單位。Metzgar等[25]研究比較了7種真核生物編輯區和非編輯區SSR的區別,發現三核苷酸和六核苷酸重復類型在編輯區和非編輯區都有一個很大的長度變化,而其他重復類型在編輯區出現比非編輯區少很多,說明這兩種類型在被翻譯成蛋白質時受到移碼(frameshift)突變而造成了三核苷酸位移,主要受突變壓力的控制而產生。
關于木本植物核苷酸的重復類型,二核苷重復的主要基元為AG、AT和AC,三核苷酸重復主要是 AAG、AAT 和AGG,有的甚至占有絕對優勢[26]。在砂梨23類二核苷重復基序中AT重復基序出現的頻率最高(32.3%)[28];海棠以CT/TC為最多,其次是AG/GA[29];橡膠樹的EST-SSR 位點中,TC/AG、CT/GA和CTT/GAA、AAG/TTC、AGA/TCT是二、三核苷酸的優勢重復類型。本研究中SSRs位點中共檢測到305種重復序列基元類型,數量居前的二、三核苷酸基元類型有AG/CT、AC/GT、AT/AT和AAG/CTT、AAC/GTT、ACC/GGT、AGG/CCT等,這與前人研究有相似之處,也有不同之處。不同重復基元的出現頻率表現出明顯的偏倚性似乎在多數植物中都存在,這可能是受所分析的EST群體量的影響,更有可能是由于高級基元SSR 自身長度的限制[30],也可能與其穩定性有關。
本研究中150對SSR引物中有79條能擴出條帶來,占總設計引物的比例為51.7%;其中有21個引物擴增出一條帶,比例為14.0%。引物沒有得到擴增片段可能為以下原因:第一,引物對所擴增的序列包含較大的內含子,無法在電泳圖上顯示;第二,引物對的一端或兩端恰好處于某一個剪切位點上;第三,設計引物的EST序列存在問題。這些問題將在今后的研究中一一驗證并解決。
通過對中間錦雞兒轉錄組測序獲得的Unigenes序列進行位點進行查找,得到 45 706 個位點,SSR重復類型以單核苷酸重復序列基元為主,其次較多是三核苷酸、二核苷酸重復序列基元。SSR引物驗證擴增比率偏低,為51.7%。
[1]梅二罕, 趙建龍, 李俊梅. 發展中間錦雞兒的重要意義[J].內蒙古林業, 2004(2):10-11.
[2]牛西午. 關于在我國西北地區大力發展檸條林的建議[J]. 山西農業科學, 1999, 27(1):3-7.
[3] Tautz D, Renz M. Simple sequences are ubiquitous repetitive components of eukaryotic genomes[J]. Nucleic Acids Research,1984, 12(10):4127-4138.
[4] Lagercrantz U, Ellegren H, Andersson L. The abundance of various polymorphic microsatellite motifs differs between plants and vertebrates[J]. Nucleic Acids Research, 1993, 21(5):1111-1115.
[5]Varshney RK, Graner A, Sorrells ME. Genic microsatellite markers in plants:features and applications[J]. Trends in Biotechnology,2005, 23(1):48-55.
[6] 劉潔, 胡蝶, 楚海家, 等. 花苜蓿抗旱耐鹽EST-SSR標記篩選[J]. 植物科學學報, 2013, 31(5):493-499.
[7]段永紅, 牛西午, 李素清, 孫毅. 錦雞兒屬植物遺傳多樣性的RAPD分析[J]. 華北農學報, 2009, 24(1):143-148.
[8]郭強, 時永杰, 魏臻武, 等. 河西走廊14種錦雞兒遺傳多樣性SSR分析[J]. 草地學報, 2008, 16(3):227-233.
[9]楊九艷, 楊劼, 楊明博, 等. 鄂爾多斯高原錦雞兒屬藥用植物的ISSR分析[J]. 中草藥, 2006(10):1562-1566.
[10]宋俊雙, 王贊, 高洪文. 三種錦雞兒遺傳多樣性ISSR分析(簡報)[J]. 草地學報, 2006, 14(4):384-386.
[11]王贊, 高洪文, 韓建國. 檸條錦雞兒 DNA 提取及 AFLP 反應體系的建立[J]. 草地學報, 2005, 13(2):126-129.
[12] Rungis D, Bérub Y, Zhang J, et al. Robust simple sequence repeat markers for spruce(Picea spp.)from expressed sequence tags[J]. Theoretical and Applied Genetics, 2004, 109(6):1283-1294.
[13] Martin MA, Mattioni C, Cherubini M, et al. Genetic diversity in European Chestnut populations by means of genomic and genic microsatellite markers[J]. Tree Genetics & Genomes, 2010, 6(5):735-744.
[14]閻毛毛, 戴曉港, 李淑嫻, 等. 松樹、楊樹及桉樹表達基因序列微衛星比對分析[J]. 基因組學與應用生物學, 2011(1):23-24.
[15]李淑嫻, 張新葉, 王英亞, 等. 桉樹EST序列中微衛星含量及相關特征[J]. 植物學報, 2010, 45(3):363-371.
[16]Gao LF, Tang JF, Li HW, et al. Analysis of microsatellites in major crops assessed by computational and experimental approaches[J]. Molecular Breeding, 2003, 12(3):245-261.
[17]張新葉, 宋叢文, 張亞東, 等. 楊樹EST-SSR標記的開發[J].林業科學, 2009, 45(9):53-59.
[18]張如華, 李銳, 趙景奎, 等. 檉柳EST-SSRs標記開發與群體檢測[J]. 分子植物育種, 2011, 9:1291-1296.
[19]楊春霞, 溫強, 葉金山, 等. 枳殼EST-SSR標記的開發[J].分子植物育種, 2011, 9(1):123-127.
[20]Bérubé Y, Zhuang J, Rungis D, et al. Characterization of EST-SSR In loblolly pine and spruce[J]. Tree Genetic s& Genomes, 2007,3(3):251-259.
[21]Nicot N, Chiquet V, Gandon B, et al. Study of simple sequencerepeat(SSR)markers from wheat expressed sequence tags(ESTs)[J]. Theor Appl Genet, 2004, 109:800-805.
[22] Morgante M, Hanafey M, Powell W. Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes[J]. Nature Genetics, 2002, 30(2):194-200.
[23] Sonah H, Deshmukh RK, Sharma A, et al. Genome-wide distribution and organization of microsatellites in plants:An insight into marker development in brachypodium[J]. PLoS One,2011, 6(6):e21298.
[24] Feng SP, Li WG, Huang HS, et al. Development, application and cross-species/genera transfer ability of EST-SSR markers for rubber tree(Hevea brasiliensis)[J]. Molecular Breeding, 2009, 23(1):85-97.
[25] Metzgar D, Bytof J, Wills C. Selection against framshift mutations limits micorsatellite expansion in coding DNA[J]. Genome Res,2000, 10(1):72-80.
[26] 許玉蘭, 蔡年輝, 康向陽, 等. EST-SSR標記的開發及其在木本植物中的分布特點[J]. 中國農學通報, 2012, 28(4):1-7.
(責任編輯 馬鑫)
Systematical Identification and Primer Screening of EST-SSR Marker in Transcriptome of Caragana intermedia
WANG Guang-xia YANG Qi WANG Rui-gang LI Guo-jing
(College of Life Sciences,Inner Mongolia Agricultural University,Hohhot 010018)
The aim of the study is to systematically identify and preliminary validate the SSR(simple sequence repeats)of EST(expressed sequence tags)in transcriptome database of Caragana intermedia for providing the basis in the further development of SSR molecular marker. Searching the SSR loci from Unigenes of the C. intermedia transcriptome by HiSeq2000sequencing technology, total 45 706 SSR were obtained, accounting for 10.38% of the total Unigenes, averagely one SSR per 4.30 kb. Mononucleotide repeats were dominant in SSR with the ratio of 56.47%, bi- and tri-nucleotide repeats were 20.56% and 21.04%, and others were only 1.9%. Among all polynucleotide motifs, bi-nucleotide AG/CT were the most, second most was tri-nucleotide AAG/CTT. Totally 150 SSR primer pairs were randomly selected according to EST-SSR loci, PCR was verified by agarose gel electrophoresis, and 79 primer pairs showed clear amplified DNA fragments. While 21 out of the 79 primer pairs amplified single band, with a ratio of 14.0%.
Caragana intermedia;EST-SSR site reorganization;primer screening
10.13560/j.cnki.biotech.bull.1985.2016.02.025
2015-04-07
國家自然科學基金項目(31360169),國家高技術研究發展計劃“十二五”重點項目(2011AA100203),內蒙古科技計劃2015團隊項目
王光霞,女,博士研究生,研究方向:植物生物化學與分子生物學;E-mail:2195355371@qq.com
李國婧,女,博士,教授,研究方向:植物生物化學與分子生物學;E-mail:liguojing@imau.edu.cn