李健玲,秦 波,黃 欣,蔣日紅,孫 苗,梁圣華,黃耀恒,韋廣綏
(1.廣西壯族自治區(qū)林業(yè)科學(xué)研究院,廣西特色經(jīng)濟(jì)林培育與利用重點(diǎn)實(shí)驗(yàn)室,廣西 南寧530002;2.北京林業(yè)大學(xué),國家花卉工程技術(shù)研究中心,北京 100083;3.廣西國有高峰林場,廣西 南寧 530025)
海菜花(Ottelia acuminata)屬水鱉科水車前屬多年生沉水植物,為中國特有種,國家二級(jí)保護(hù)植物。該植物對水質(zhì)要求較高,是一種環(huán)境指示性植物,主要分布區(qū)域?yàn)閺V東、海南、廣西、四川、貴州、云南等地[1]。海菜花是一種典型的高鉀低鈉型蔬菜,含有鈣、鐵、蛋白質(zhì)、抗壞血酸、酚類等豐富的營養(yǎng)物質(zhì),具有較高的食用價(jià)值;其中酚類物質(zhì)是天然的抗氧化劑,對DNA 損傷有良好的修復(fù)作用。另一方面,海菜花還能富集重金屬元素鉛,具有一定的生態(tài)修復(fù)價(jià)值[2-3]。目前,關(guān)于海菜花的研究多集中在栽培[4-5]、進(jìn)化和遺傳學(xué)分析[6-7]、化學(xué)成分分析[3]等方面,其分子水平的研究僅有葉綠體基因組的報(bào)道[8]。
分子生物學(xué)技術(shù)在植物領(lǐng)域尤其是農(nóng)作物方面應(yīng)用的較早且深入,但是在水生植物及藥用植物上的研究報(bào)道仍然有限。高通量轉(zhuǎn)錄組作為初步掌握代謝通路和生物合成基因信息的一個(gè)手段,在許多物種中已經(jīng)得到了廣泛的應(yīng)用。為了彌補(bǔ)海菜花轉(zhuǎn)錄組上的空白,研究對海菜花葉片進(jìn)行轉(zhuǎn)錄組測序,挖掘其重要基因和調(diào)控信息,以期為海菜花功能基因和遺傳多樣性分析及分子育種奠定基礎(chǔ)。
采集新鮮的海菜花葉片,并立即投入液氮中保存。
使用Trizol 法對海菜花的RNA 進(jìn)行提取。利用Illumina TruSeqTM RNA sample prep Kit(Illumina,美國)方法構(gòu)建海菜花的RNA 文庫,首先使用帶有Oligo(dT)的磁珠對帶有polyA 尾巴的mRNA 進(jìn)行富集,并用超聲波將mRNA 進(jìn)行片段化打斷。加入隨機(jī)寡核苷酸為引物,在M-MuLV 逆轉(zhuǎn)錄酶體系下反轉(zhuǎn)合成第一條鏈的cDNA,之后用RNaseH 清除反應(yīng)中的RNA,在DNA polymerase I 體系下,以dNTPs 為原料進(jìn)行cDNA 第二條鏈的合成。對合成后的雙鏈cDNA 進(jìn)行純化、末端修復(fù)、加A 尾以及連接測序接頭,利用AMPure XP beads 對處理過的雙鏈cDNA 進(jìn)行篩選,挑出200 bp 左右的片段進(jìn)行擴(kuò)增,之后對得到的PCR 產(chǎn)物進(jìn)行純化,最終產(chǎn)物即為文庫。
利用瓊脂糖凝膠電泳、NanoPhotometer spectrophotometer、Qubit2.0 Fluorometer、Agilent 2100 bioanalyzer 對RNA 的質(zhì)量進(jìn)行檢驗(yàn),樣品合格后進(jìn)行測序。在測序的flow cell 中加入不同標(biāo)記的4 種dNTP 以及DNA 聚合酶和接頭引物,當(dāng)測序鏈在延伸互補(bǔ)的時(shí)候,每個(gè)dNTP 會(huì)發(fā)出相應(yīng)的熒光,從而被測序儀捕捉獲得序列信息。
海菜花的RNA 提取、文庫構(gòu)建及測序均由上海凌恩生物科技有限公司完成。
使用Trimmomatic 對原始測序數(shù)據(jù)進(jìn)行質(zhì)控,Trinity 進(jìn)行轉(zhuǎn)錄組拼接,并使用Salmon 進(jìn)行拼接數(shù)據(jù)的比對,之后使用Diamond 對測序數(shù)據(jù)進(jìn)行NR數(shù)據(jù)庫、KEGG 數(shù)據(jù)庫、Swiss-Port 數(shù)據(jù)庫的注釋,利用eggNOG-mapper 進(jìn)行eggNOG 數(shù)據(jù)庫和GO 數(shù)據(jù)庫的注釋。
對海菜花的葉片進(jìn)行轉(zhuǎn)錄組測序,共檢測到26 658 026 條reads,共計(jì)3 998 703 900 個(gè)堿基。對原始數(shù)據(jù)進(jìn)行質(zhì)控進(jìn)一步去除reads 中的接頭序列、質(zhì)量較低的堿基以及短序列后,得到clean data 的reads 有 26 497 174 條,共計(jì)3 961 376 102 個(gè)堿基,其中Q20%高達(dá)98.90%,Q30%高達(dá)96.19%,GC含量占比為50.57%,表明海菜花轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量較高,可以開展后續(xù)的數(shù)據(jù)分析。
由于海菜花沒有參考基因組,因此利用Trinity(2.8.6)對clean data 進(jìn)行從頭組裝,得到組裝后的unigene 有27 040 條,長度為27 761 688 bp,最長的unigene 有12 094 bp,N50 為1 340 bp,平均unigene 為1 026.69 bp,其中N50 高于平均長度說明組裝效果較好。同時(shí),將測序獲得的高質(zhì)量序列與拼接序列進(jìn)行比對,比對率達(dá)到86.89%,也表明拼接效果較好。在得到的unigene 中,401~600 bp 的序列長度占比最大,達(dá)到7 134 條(26.38%),序列長度分布見圖1。

圖1 海菜花unigene 長度分布
將獲得的27 040 條unigene 分別與不同數(shù)據(jù)庫進(jìn)行比對,結(jié)果如圖2 所示。有18 910 條unigene分別被NR、GO、COG、KEGG、SWISS 這5 大數(shù)據(jù)庫注釋到,占unigene 總數(shù)的69.93%。其中,NR數(shù)據(jù)庫比對到的unigene 最多,有18 874 條,占總數(shù)的69.80%;其次是SWISS 數(shù)據(jù)庫,比對到14 020條unigene,占總數(shù)的51.85%;第三是COG 數(shù)據(jù)庫,比對到13 531 條unigene,占總數(shù)的50.04%;KEGG 數(shù)據(jù)庫比對到的unigene 數(shù)量最少,為7 552條,占總數(shù)的27.93%;在所有數(shù)據(jù)庫中均比對到的unigene 有4 819 條,占總數(shù)的17.82%,推測為新基因。

圖2 海菜花unigene 在各數(shù)據(jù)庫的注釋結(jié)果
NR數(shù)據(jù)庫的功能注釋能夠了解海菜花轉(zhuǎn)錄組中序列與哪些物種有同源分布。由圖3 可知,海菜花與搖蚊(Clunio marinus)比對到的同源序列最多,為2 622 條,占所有比對到序列的13.89%;其次是油棕(Elaeis guineensis),達(dá)到2 062 條,占10.93%;海棗(Phoenix dactylifera)中比對到1 646條,占8.72%;另外,芋(Colocasia esculenta)、大葉藻(Zostera marina)、蓮(Nelumbo nucifera)、鳳梨(Ananas comosus)、小果野蕉(Musa acuminatasubsp.malaccensis)、沉水樟變型(Cinnamomum micranthumf.kanehirae)、石刁柏(Asparagus officinalis)中 分 別 比 對 到1 435、947、750、637、570、570、544 條,分別占比7.60%、5.02%、3.97%、3.38%、3.02%、3.02%、2.88%;而其他物種中比對到的序列數(shù)均低于500 條,總數(shù)達(dá)7 091 條,占比為37.57%。

圖3 海菜花unigene 在NR 數(shù)據(jù)庫中比對到的同源序列排名前10 的物種
由圖4 可知,海菜花轉(zhuǎn)錄組數(shù)據(jù)在COG 數(shù)據(jù)庫中共比對到unigene 13 531 條,但功能未知的基因占多數(shù),排在KOG 預(yù)測的第1 位,表明海菜花中有許多序列還未得到有效的驗(yàn)證和研究;其中,轉(zhuǎn)錄后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶蛋白(O:Posttranscriptional modification,protein turnover,chaperones),信號(hào)傳導(dǎo)機(jī)制(T:Signal transduction mechanisms),翻譯、核糖體結(jié)構(gòu)與生物發(fā)生(J:Translation,ribosome structure and biogenesis),RNA轉(zhuǎn)錄和修飾(A:RNA processing and modification)分別排在KOG 預(yù)測的第2~5 位,代表了海菜花生長發(fā)育和信號(hào)轉(zhuǎn)導(dǎo)中基本過程活動(dòng)比較活躍。

圖4 海菜花葉片轉(zhuǎn)錄組COG 功能注釋
在GO 注釋中,海菜花共注釋到10 505 條unigene,分為生物過程(biological process)、細(xì)胞組分(cellular component)和分子功能(molecular function)3 個(gè)大類和43 個(gè)功能亞類(圖5)。生物過程注釋到的unigene 最多,亞類中細(xì)胞進(jìn)程和代謝過程中unigene 數(shù)量最多,而碳利用和生物礦化所占比例最少。在分子功能中,催化活性和結(jié)合比對到的unigene 數(shù)量最多,蛋白標(biāo)簽、運(yùn)貨受體活性、養(yǎng)分庫活性和小分子傳感器活性比對到的數(shù)量較少。在細(xì)胞組分中包括了4 個(gè)亞類,最高的為細(xì)胞解刨學(xué)實(shí)體,最少的為其他器官部分。

圖5 海菜花葉片轉(zhuǎn)錄組GO 注釋結(jié)果
為了研究基因具體的功能,對海菜花轉(zhuǎn)錄組中的unigene 進(jìn)行KEGG 通路分析,共分為5 大類和20 個(gè)亞類(圖6)。第1 大類代謝過程中比對到的unigene 數(shù)量最多,包括11 個(gè)亞類,全局和概述圖譜比對到的數(shù)量最多,達(dá)4 678 條unigene,其次是碳水化合物代謝,比對上1 047 條unigene,氨基酸代謝、能量代謝、酯類代謝分別比對到587、498、486 條,表明在細(xì)胞過程中關(guān)于代謝的基因較多。第2 大類是遺傳信息處理,包括5 個(gè)亞類,翻譯過程中比對到的unigene 最多,達(dá)到784 條,其次是折疊、分類和降解,比對到662 條,病毒信息中比對到的數(shù)量最少,為46 條。第3 大類為環(huán)境信息處理,包括2 個(gè)亞類,分別為信號(hào)轉(zhuǎn)導(dǎo)(比對到309條)和膜轉(zhuǎn)運(yùn)(比對到25 條)。第4 大類為細(xì)胞過程,包括2 個(gè)亞類,為運(yùn)輸和分解代謝(比對到427 條)和細(xì)胞運(yùn)動(dòng)(比對到84 條)。最后1 類為有機(jī)系統(tǒng),僅包含1 個(gè)亞類,為環(huán)境適應(yīng),比對到200 條unigene。

圖6 海菜花葉片轉(zhuǎn)錄組KEGG 注釋分類統(tǒng)計(jì)
在海菜花轉(zhuǎn)錄組中共檢索到4 217 個(gè)SSR 位點(diǎn),包含了6 種核苷酸重復(fù)類型,具體情況如圖7 所示。單核苷酸重復(fù)數(shù)量最多,為1 518 個(gè),占比為36.00%,A/T 重復(fù)比例最高;其次為三核苷酸重復(fù),有1 437 個(gè),占比為34.08%,且類型較多;雙核苷酸重復(fù)為1 214 個(gè),占比為28.79%,以AG/CT 類型比例最高;四核苷酸位點(diǎn)重復(fù)有34 個(gè),占比為0.81%;六核苷酸位點(diǎn)重復(fù)有9 個(gè),占比為0.21%;五核苷酸位點(diǎn)重復(fù)數(shù)最少,僅5 個(gè),占比0.11%。

圖7 海菜花葉片轉(zhuǎn)錄組SSR 分布情況
海菜花在景觀營造、食用和藥用方面有很高的開發(fā)利用價(jià)值。目前,對水生植物轉(zhuǎn)錄組的研究種類較少,包括圓海鏈藻(Thalassiosira rotula)[9]、蓮(Nelumbo nucifera)[10-11]、齒葉睡蓮(Nymphaea lotus)[12]、東方澤瀉(Alisma orientale)[13]、芡實(shí)(Euryale feroxSalisb.ex Konig et Sims)[14]等,通過轉(zhuǎn)錄組測序技術(shù)對其次生代謝物的合成、花開放規(guī)律、脅迫響應(yīng)和遺傳標(biāo)記等進(jìn)行了深入研究。海菜花在生態(tài)適應(yīng)性上對環(huán)境的要求較高,且有不同的生態(tài)適應(yīng)類群,次生代謝物豐富,對其進(jìn)行分子層面的深入研究具有重要意義。
該研究在高通量轉(zhuǎn)錄組測序技術(shù)的支持下,對海菜花葉片的轉(zhuǎn)錄組信息進(jìn)行解讀,共檢測到unigene 27 040 條,其中有18 910 條unigene 在數(shù)據(jù)庫中比對上了,獲得了海菜花中大量的基因信息。在NR 數(shù)據(jù)庫得到了最多的基因注釋,共18 874 個(gè),與植物同源基因比對最多的是油棕,另外包括芋、大葉藻、蓮和鳳梨等,這些植物類型均屬于濕生環(huán)境,表明海菜花可能在轉(zhuǎn)錄調(diào)控和生態(tài)適應(yīng)方面與濕生植物有相似的基因調(diào)控類型。在KOG 數(shù)據(jù)庫中,海菜花與已知基因比對上最多的基因涉及轉(zhuǎn)錄后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶蛋白等方面。對基因通路進(jìn)行KEGG 分析,共比對到7 552 個(gè)unigene,以細(xì)胞過程比對到的unigene 最多,且與代謝途徑密切相關(guān);另外,在GO注釋中,生物過程注釋到的unigene最多,表明在海菜花葉片中新陳代謝活動(dòng)較為旺盛。SSR分析中單核苷酸、雙核苷酸和三核苷酸重復(fù)是主要類型,占比達(dá)98.87%,這些位點(diǎn)的發(fā)現(xiàn)對海菜花的分子標(biāo)記開發(fā)和利用具有重要價(jià)值,能為植物鑒定、遺傳育種和藥理研究提供直接的證據(jù)。
通過對海菜花葉片進(jìn)行高通量轉(zhuǎn)錄組測序,獲得了大量的基因序列信息和注釋信息,為海菜花的功能基因和遺傳多樣性分析及分子育種奠定了基礎(chǔ),也為海菜花的生態(tài)適應(yīng)性、食用和藥用價(jià)值的進(jìn)一步開發(fā)利用提供了依據(jù)。