富 貴,劉玉萍,蘇 旭*
(1 青海民族大學 生態環境與資源學院,青海省特色經濟高值化利用重點實驗室,西寧 810007;2 青海師范大學 生命科學學院,西寧 810008;3 高原科學與可持續發展研究院,西寧 810016)
密花香薷 (ElsholtziadensaBenth.) 是唇形科 (Labiatae) 香薷屬 (ElsholtziaWilld.),一年生草本植物,主要分布于中國河北、山西、陜西、甘肅、青海等地。多生長在海拔280 ~ 4 200 m的林緣、林下、河邊、草地邊緣、高山、荒地等處[1]。密花香薷全株富含各種活性成分,主要活性成分是揮發油,Amit等[2]最新研究發現了40種揮發性組成成分,占總揮發性油的83.3% ~ 83.7%,揮發性油主要包含3種主要的成分:松香芹酮 (51.9%)、反式松樟酮 (5.2%) 和乙酸香茅酯 (3.4%),具有一定的藥用價值[3]。西藏、青海等地常使用密花香薷代替正品香薷入藥,具有消炎、利濕、排汗、解暑的功效,可治療夏季感冒、發熱無汗、中暑、急性胃炎、乳腺癌、口臭、腎炎和小便不利等多種疾病[4-5]。藏醫全草入藥也可用于治培根病、胃病、梅毒性鼻炎、咽喉炎和寄生蟲病,外用可治療膿腫和皮膚病[6-7]。密花香薷因具獨特香味,在中國西北地區常作為蔬菜和茶葉食用,是一種藥食兼用的植物。另外,有研究報道[8-9],密花香薷是青藏高原重要的秋季蜜源,人工種植可為蜂戶帶來可觀的收入,具有較大的開發價值。
分子標記技術被廣泛用于植物遺傳學研究中,有關分子標記技術的應用已在很多模式植物和重要的藥用植物中進行了報道[10-14],SSR (simple sequence repeat) 簡單重復序列是一種以特異引物PCR為基礎的分子標記技術,動植物基因組上廣泛分布有一種以1~6個核苷酸為重復單位組成的串聯重復序列,如 (AC)n (GA)n (AT)n (AAG)n (AAT)n等,其中n代表重復次數,從幾個到幾十個不等[15-16]。基因組不同位置,每個座位其重復基元和重復次數皆不可能完全相同,因而在基因組水平表現出多態性。SSR在植物全基因組內廣泛分布,具共顯性遺傳特點,同時具擴增穩定、假陽性少、操作簡便、可揭示多態性豐富等優點而被廣泛用于植物種質資源遺傳多樣性分析、分子遺傳圖譜構建、基因定位、指紋圖譜構建以及植物系統發育分析等研究[17]。
目前對于密花香薷的研究主要集中于化學成分的分離和提取。如孫麗萍等[18]從密花香薷中分離得到 10個化合物;王笳等[19]采用GC/MS氣質聯用儀對密花香薷精油進行了化學成分分析,鑒定出13種化合物;徐海燕等[20]對密花香薷進行了生藥學研究,發現密花香薷在原植物、性狀、顯微等方面具有專屬性特征。密花香薷的水、醇溶性浸出物含量分別為3.75%、3.20%。但是密花香薷種質資源分布、物種分類及分子生物學等方面的研究還未曾被報道,嚴重阻礙了密花香薷優質種質資源的篩選和后續開發利用。本研究基于高通量測序 (Illumina HiSeq) 獲得的密花香薷轉錄組數據,分析了分布于轉錄組上的SSR位點信息特征,可為后期密花香薷SSR引物開發與篩選提供理論依據,為密花香薷遺傳多樣性、系統親緣關系、優質資源篩選鑒定及育種等相關研究奠定理論基礎。
本試驗樣本采集于中國青海省海南藏族自治州共和縣青海湖二郎劍景區 (36.578 5°N,100.491 1°E),海拔3 194.15 m,挑選長勢良好的密花香薷 3株,分別取葉片后,用錫箔紙包好,立即存入液氮中保存,送回實驗室用于后續RNA的提取和測序。
1.2.1 RNA的提取與建庫采用經典提取方法 (Trizol法)[21]提取密花香薷樣本RNA,獲得RNA后,首先對其純度和完整性進行檢測,再通過Oligo (dT) 磁珠富集mRNA,用于反轉錄成cDNA。采用NEB普通建庫,以信使RNA作為模板,隨機寡核苷酸作為引物合成第一條cDNA鏈,以dNTPs (4種脫氧核糖核苷酸) 為原料合成cDNA的第二條鏈。兩條鏈合成后進行純化、末端修復等操作,再通過篩選,將篩選出的cDNA進行PCR擴增,二次純化得到文庫。
1.2.2 測序和數據評估獲得的文庫經過檢測,質量得到保證才可以上機測序,構建好的文庫用Illumina HiSeq 2000進行測序,獲得的序列信息數據要進行一定程度的過濾,用Fast QC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/,快速地對測序數據進行質量評估) 檢查原始讀物的質量,去除帶接頭和含N的讀片以及測序質量低的讀長 (Qphred≤20的堿基數占讀取長度的 50%以上),測序獲得原始數據后,取得clean reads。Trinity軟件(https://github.com/trinityrnaseq/ trinityrnaseq/wiki) 用于短reads的組裝,組裝后得到的序列拼接成為轉錄本再進行后續分析。
1.2.3 SSR位點的檢測和搜尋利用MISA (microsatellite,https://webblast.ipk-gatersleben.de/misa/) 軟件1.0版,選擇默認參數,對應的各個重復基元的最少重復次數分別為1-10、2-6、3-5、4-5、5-5和6-5 (如:1-10,以單核苷酸為重復單位時,其重復數至少為10才可被檢測到;2-6,以雙核甘酸為重復單位時,其最少重復數為6),對轉錄本進行SSR檢測。
組裝后的密花香薷轉錄組數據,利用CD-HIT軟件 (https://github.com/weizhongli/cdhit/wiki/3.-User’s-Guide#CDHITEST) 去冗余后,共獲得 42 362條Unigenes,平均長度為1 325 bp,總長度為56 141 397 bp。經搜索發現 SSR重復序列總共有17 564個,分布于11 903條 Unigenes 上,SSR 的出現頻率為 28.10%,密花香薷轉錄組Unigenes序列平均每3 200 bp 出現一個 SSR 位點,包含有2個及2個以上SSR位點數為3 693個,復合型SSR 位點數為1 675個 (表1)。可見,密花香薷轉錄組所包含SSR位點較豐富,分布較為廣泛。

表1 密花香薷轉錄組SSR分布特征描述Table 1 The description of distribution characteristics for SSR loci in transcriptome of Elsholtzia densa
對密花香薷轉錄組檢測到的SSR位點進行了核苷酸重復類型分類,共有6種重復類型(表2)。不同重復單元形成的SSR位點數目相差較大,其中單核苷酸重復位點最多,為8 997個,占總SSR位點的51.22%,總長度為100 356 bp,平均每6 240 bp個核苷酸出現1個單核苷酸重復序列;二核苷酸重復序列次之,為4 475個,占總SSR位點的25.48%,總長度為59 434 bp,平均每12 550 bp個核苷酸出現1個二核苷酸重復序列;五核苷酸重復序列最少 (85),占總SSR位點的0.48%,總長度為1 775 bp,平均每660 490 bp個核苷酸出現1個五核苷酸重復序列。不同重復類型形成SSR頻率差異較大,SSR出現頻率介于0.20% ~ 21.20%之間,其中單核苷酸重復類型SSR發生頻率最高,每100條Unigene 有21.20個SSR位點出現;五核苷酸重復類型SSR發生頻率最低,每100條Unigene 僅有0.20個SSR位點出現。

表2 密花香薷轉錄組SSR位點重復類型、數量及分布統計Table 2 The statistics of repeating types,number and distribution for SSR loci in transcriptome of Elsholtzia densa
對密花香薷SSR位點不同重復基元進行分析,研究結果 (表3,圖1) 表明,共有169個重復基元類型,在不同重復次數下形成17 564個SSR位點。其中單核苷酸 2 種基元類型,(A/T)n基元類型占明顯優勢,共形成8 888個SSR位點,占單核苷酸SSR位點的98.78%,總SSR位點的50.60%;二核苷酸基元類型4種,(AG/CT)n基元類型占優,共形成2 138個SSR位點 (47.80%,12.17%);三核苷酸基元類型為9種,其中 (AAG/CTT)n基元類型SSR位點最多,共形成638個SSR位點 (17.68%,3.63%),依次較高的為 (AAC/GTT)n,形成584個SSR位點 (16.18%,3.33%),(ATC/ATG)n 形成502個SSR位點 (13.90%,2.86%);四核苷酸基元類型25種,形成SSR位點較多的基元類型依次為 (AAAT/ATTT)n、(AAAG/CTTT)n和(AATT/AATT)n,分別形成38 (17.43%,0.216 4%)、35 (16.06%,0.20%)和34 (15.60%,0.20%) 個SSR位點;五核苷酸基元類型為29種,形成SSR較多的基元類型為 (AAAAG/CTTTT)n、(AAAAT/ATTTT)n 和 (AAAAC/GTTTT)n,分別形成17 (20.00%,0.10%)、11(12.94%,0.06 3%) 和8 (9.4%,0.05%) 個SSR位點;六核苷酸基元類型為99種,形成SSR位點較多的基元類型為 (AAAAAT/ATTTTT)n,形成8個SSR位點(4.44%,0.05%),(AAAAAG/CTTTTT)n、(AAAGAG/CTCTTT)n、(AAGGAG/CCTTCT)n、(AATTCC/AATTGG)n、(AGATGG/ATCTCC)n 5種基元類型均形成6個SSR位點 (3.33%,0.03%)。

圖1 不同重復類型優勢基序SSR位點數量分布Fig.1 The quantities distribution of SSR loci formed from preponderant motif of different repetitions
不同基序類型形成SSR位點數目存在廣泛變異 (表3),單核苷酸基序 (A/T)n SSR發生頻率最高 (20.98%);81個基序類型所形成的SSR位點發生頻率最低,包括 8個四核苷酸基序,11個五核苷酸基序和62個六核苷酸基序,僅形成1個SSR序列 (0.0024%)。從總體來看,隨著SSR基元堿基數目的增加,基元類型增加,SSR位點數呈下降趨勢。

表3 密花香薷轉錄組不同基序SSR位點數量分布Table 3 The quantities distribution of different motif SSR loci in transcriptome of Elsholtzia densa
密花香薷SSR 基元重復次數因基元序列長度表現出廣泛的變異,不同重復次數所形成的SSR位點差異較大,每種基元類型構成的SSR位點中,最小重復次數的SSR位點最多,且隨著基元長度的增加,重復次數類型呈下降趨勢 (表4,圖2)。單核苷酸重復基元其重復次數類型廣泛,介于10 ~ 66之間,共有49種重復次數,不同重復次數所形成的SSR位點數量差異較大,最小重復次數為10次,且所形成的SSR位點比例最高,占所有單核苷酸SSR序列的35.90%,最大重復次數為66次,僅形成2個SSR位點,占所有單核苷酸SSR序列的0.02%。五核苷酸基元重復次數類型最少,重復次數介于5 ~ 11之間,共有4種重復次數,其中最小重復次數為5次,且所形成的SSR位點最多,為62個,占五核苷酸重復序列所形成SSR位點的72.94%,最大重復次數為11次,形成的SSR位點僅有1個,占五核苷酸重復序列所形成SSR位點的1.18%。所有基元類型重復次數相關信息詳見表4。

圖2 密花香薷轉錄組不同基序類型SSR位點統計Fig.2 The statistics of different motif SSR loci in transcriptome of Elsholtzia densa

表4 密花香薷轉錄組SSR基序重復次數統計Table 4 The statistics of repetition times for motif of SSR loci in transcriptome of Elsholtzia densa
對密花香薷轉錄組二至六核苷酸,不同基序SSR長度進行了分析,不同基序類型SSR位點所包含長度類型差異較大,總體來看,SSR長度主要集中在12 ~ 30 bp區間,該長度范圍內包含有8 190個SSR位點,占所統計SSR位點的95.60%,而且隨著SSR位點長度的增加,SSR位點數目呈下降趨勢 (表5,圖3)。二核苷酸基序構成的SSR位點,長度分布在12 ~ 30 bp的數量最多,為4 260,占二核苷酸SSR位點總數的95.20%;三核苷酸次之,長度分布在12 ~ 30 bp的SSR數量為3 509,占三核苷酸SSR位點總數的97.23%;五核苷酸最少,長度分布在12 ~ 30 bp的數量為83 (97.64%);四和六核苷酸2種基序SSR長度分布在12 ~ 30bp的數目分別為20 (92.66%)和136 (75.56%)。

圖3 密花香薷轉錄組不同基元SSR位點長度分布Fig.3 Length distribution of different motif SSR loci in transcriptome of Elsholtzia densa

表5 密花香薷不同基元和不同重復次數SSR位點長度統計Table 5 Statistics of the length of different motif and repetition time SSR loci in transcriptome of Elsholtzia densa
磁珠富集法作為一種經典的方法常被用于SSR標記的開發,該方法雖步驟繁多,但成本低,早期在SSR標記開發中得到了廣泛應用,如富貴等利用磁珠富集法開發出了蕨麻 (Potentillaanserina) 20對多態性較好的SSR引物[17]。近年來,隨著測序技術的發展和成本的降低,基于轉錄組、基因組及公共數據庫EST (Expressed Sequence Tag) 數據,運用生物信息學方法檢測SSR位點信息并進行引物開發已被廣泛應用,如李榮華等[22]基于菜薹 (Brassicacampestris) 轉錄組分析檢測到11 879 個SSR位點,并篩選出12對具有多態性的引物;黃興發等[23]基于黑果枸杞 (Lyciumruthenicum) 基因組測序數據,獲得2 494個SSR位點,篩選出10對高多態性SSR引物,并分析了48份枸杞的遺傳多樣性;張天緣等[24]利用MISA 軟件從紫蘇 (Perillafrutescens) 1 206條EST序列中檢索到1 526個SSR位點,并設計獲得了723條SSR引物。
本研究對去冗余后的密花香薷42 362條 Unigene 進行SSR位點檢測和分析,共檢測到 SSR位點17 564個,分布于11 903條 Unigene 上,SSR 的出現頻率為 28.10%。劉小莉等[25]對唇形科云南鼠尾草 (Salviayunnanensis) 轉錄組SSR進行研究發現,SSR發生概率為 7.51%;劉欣雨等[26]基于丹參 (Salviamiltiorrhiza) 15.99 Mb 轉錄組數據,分析了含有 Unigene的 33 438 條序列,共獲得 2 095 個 SSR 候選位點,SSR發生率為6.27%;張天緣等[24]對唇形科紫蘇 (Perillafrutescens) EST-SSR分布特征進行了統計,EST-SSR發生頻率為22.19%。對比以上幾種同科近緣種,密花香薷轉錄組SSR發生頻率相對較高。與其他外緣物種,如云南金花茶 (Camelliafascicularis,19.63%)[27]、黨參 (Codonopsispilosula,12.22%)[28]、黑果枸杞 (26.36%)[29]和馬鈴薯(Solanumtuberosum,3.43%)[30]相比,密花香薷轉錄組所包含SSR位點亦表現出較高的豐富度。由此可見,密花香薷轉錄組所包含SSR位點數目豐富,可為后期SSR標記的開發和篩選提供大量的信息基礎。對上述物種轉錄組SSR發生頻率進行比較,不難發現,SSR 位點發生頻率因物種不同而表現出差異性,究其原因,可能與物種自身基因結構固有差異,以及分析數據庫大小、SSR 搜索工具和搜索條件的不同設置等有關[28]。
通過對密花香薷轉錄組不同基序類型SSR位點數目分析發現,密花香薷轉錄組SSR重復類型共有 6種,單核苷酸重復類型最多,占總SSR位點的51.22%,依次為二 (25.48%)、三核苷酸重復類型 (20.57%),由此可見,單、二、三核苷酸重復類型 (97.27%) 是密花香薷轉錄組SSR位點的主導基序類型,單核苷酸在3種主導基序類型中所占比例最高,為主要的基序類型。尹躍等[29]對黑果枸杞轉錄組SSR分析研究也得出了相似的結論,黑果枸杞轉錄組SSR主要類型為單、二、三核苷酸重復類型 (99.44%),單核苷酸重復 (74.33%)為主要基序類型。相同的結論在韭菜全長轉錄組SSR信息分析中也得到了支持[31]。唇形科云南鼠尾草、丹參和紫蘇SSR序列信息研究結果發現,SSR基序主導類型也是一至三核苷酸重復,3種基序類型所形成SSR位點占比分別為92.58%、98.0%和98.85%,但與本研究不同的是上述三種植物轉錄組SSR主要基序類型是二核苷酸 (紫蘇46.76%,云南鼠尾草41.47%,丹參61.60%)[24-26]。諸多研究表明,植物轉錄組SSR位點重復基元主要以短序列重復基元為主,但不同物種中SSR主導基序不同,這一結論在上述不同植物研究中均得到了驗證支持。
有研究表明,被子植物和蕨類植物二核苷酸的優勢基元主要為 (AG/CT)n,而裸子植物以 (AT/AT)n 為優勢基元;雙子葉植物、蕨類植物和少數單子葉植物以 (AAG/CTT)n 為三核苷酸的優勢基元[30],不同植物轉錄組SSR基元類型所表現出的差異性可能和物種自身遺傳和基因結構有關。密花香薷轉錄組SSR二核苷酸的優勢基元為 (AG/CT)n,占二核苷酸SSR的比例為47.80%,三核苷酸優勢基元為 (AAG/CTT)n (17.68%),這一研究結果與上述結論一致。同時,對諸多植物,如黨參[26]、山地虎耳草 (Saxifragamontana)[32]、蒙農紅豆草 (OnobrychisviciifoliaScop‘Mengnong’)[33]、細果角茴香 (Hypecoumleptocarpum)[34]轉錄組SSR研究也得到了上述相同的結論。但也有一些植物,二、三核苷酸優勢基元與上述研究不同,如韭菜二核苷酸優勢基元為 (AC/GT)n (20.28%)[31]、薄殼山核桃三核苷酸優勢基元為 (AAC/GTT)n (34.95%)[35]、香蕉三核苷酸優勢基元為 (AGG/CCT)n (12.53%)[36]。不同物種轉錄組SSR同一重復類型優勢基元的不同,可能和其相應編碼蛋白的使用頻率差異有關[33]。
種內SSR位點的多態性主要表現在基元重復次數的差異,Xu 等[37]研究表明SSR 基元重復次數高的序列具有較高的多態性潛能,當其重復次數高于12次時,多態性較高[38]。密花香薷轉錄組重復次數變異范圍廣泛,分布在5~66次之間,共有121種重復次數,具有較高的重復類型數,每種基序類型最小重復次數所形成的SSR位點數最高,且隨著基序核苷酸的增加,重復次數類型呈下降趨勢。長度分析表明,SSR序列長度<12 bp時多態性表現極低,12~20 bp之間表現中等,≥20 bp時多態性較高,且低級基序SSR多態性普遍高于高級基序SSR[39]。密花香薷轉錄組二至六核苷酸基序SSR序列長度結果表明,每種基序類型SSR序列長度主要集中在12~30 bp,包含有8 190個SSR位點,占所統計SSR位點的95.60%,1 589 (≥20 bp) 個SSR序列具有極高的多態性,占所統計SSR位點的18.54%。據此推測,上述SSR位點在密花香薷SSR分子標記中具有較高的開發潛能。
本研究基于密花香薷轉錄組數據檢索到17 564個SSR位點,并分析了其序列分布類型和結構特征,綜合SSR出現頻率、分布密度、基元重復次數和長度變異范圍等多個研究結果發現,該研究所獲得的SSR序列表現出較高的多態性潛能,具有較大的開發價值。目前,有關密花香薷的研究主要集中在活性成分及其功能方面的研究中,前人研究已充分證明了密花香薷的開發價值,所以,對于其種質資源的收集、篩選、鑒定及育種等方面的相關研究勢在必行,SSR分子標記因其操作簡單,穩定性好,具共顯性等優點,可為上述研究提供有效的技術手段。