李和平 姚運法 練冬梅 賴正鋒 洪建基
(福建省農業科學院亞熱帶農業研究所,漳州 363005)
黃秋葵(Abelmoschus esculentus)為錦葵科秋葵屬植物,是一種眾所周知的天然的、健康的蔬菜品種,廣泛分布于非洲、亞洲、美洲等地區,非洲和亞洲的種植面積超過了99%[1]。黃秋葵莢果中富含不飽和脂肪酸、膳食纖維、活性多糖、維生素等[2],經常食用幫助消化、增強體力、保護肝臟、健胃整腸,而且莢果中含有黃酮、類黃酮、葉黃素、生物堿和微量元素,能增強機體的抗病能力[3-5]。王君耀等[6]研究小鼠經黃秋葵水提取液灌胃15 d,然后進行游泳、耐缺氧等實驗,結果顯示黃秋葵水可以明顯提高小鼠耐缺氧能力及耐寒耐熱能力,降低小鼠劇烈運動后血乳酸水平,因而具有抗疲勞作用。由于其果實具有較高的營養價值,并且可以提高運動耐力,歐美等國把它列入21世紀最佳綠色食品名錄之中,并被許多國家作為運動員首選蔬菜。黃秋葵被認為是次要的作物,直到現在都很少人關注其遺傳改良工作。
轉錄組是某個物種或者特定細胞類型產生的所有轉錄本的集合。轉錄組研究能夠從整體水平研究基因功能以及基因結構,揭示特定生物學過程以及疾病發生過程中的分子機理,已廣泛應用于基礎研究、臨床診斷和藥物研發等領域。在錦葵科植物中棉花的轉錄組研究最多,有針對棉花纖維早期發育的[7]、有針對根部水脅迫的[8]、有研究苗期棉花雜種優勢的[9]等。而黃秋葵作為一個小物種,研究報道比較少,Roland等[10]對黃秋葵葉片和果實進行了轉錄組測序,獲得了葉片和果實基因表達的基本信息;張少平等[11]對紅秋葵葉片進行轉錄組測序,主要研究花青素的合成。而黃秋葵果實作為主要收獲部位,果實的發育和營養成分變化應該是研究的主要方向。因此,針對黃秋葵果實轉錄組信息不全、次生代謝相關功能基因研究較少的情況,本研究利用RNA-seq技術研究黃秋葵果實發育過程中的轉錄組,可以全面了解黃秋葵果實基因表達相關信息,以及各代謝途徑關鍵基因的表達情況,并且可以以此為基礎開發SSR、SNP等多種分子標記,以期為品種鑒定和遺傳分析提供依據。
黃秋葵種質GZ167(福建省農業科學院亞熱帶農業研究所資源編號)種植于福建省農業科學院亞熱帶農業研究所試驗基地,7月下旬采集開花后1 d、5 d、12 d的黃秋葵果實(去除種子,可排除異花授粉造成的影響),每個處理采3株的果實,等量混合后提取RNA,即每個RNA樣品含有3株黃秋葵果實的RNA,這樣可以排除個體差異,3份樣品分別標記為167-1、167-5、167-12。
1.2.1 黃秋葵總RNA的提取 黃秋葵總RNA的提取采用成都福際生物有限公司的多糖多酚植物總RNA提取試劑盒(產品編號:RE-05021),RNA濃度和純度通過Agilent 2100 檢測。
1.2.2 文庫構建 檢測合格的黃秋葵總RNA用帶有Oligo(dT)的磁珠富集mRNA,向得到的mRNA中加入Fragmentation Buffer使其成為短片段,再以片段后的mRNA為模板,用六堿基隨機引物(Random hexamers)合成cDNA第1鏈,并加入緩沖液、dNTPs、RNase H 和 DNA polymerase I合 成 cDNA第2鏈,經過QiaQuick PCR試劑盒純化并加 EB緩沖液洗脫經末端修復、加堿基A,加測序接頭,再經瓊脂糖凝膠電泳回收目的片段,并進行PCR擴增,從而完成整個文庫制備工作,構建好的文庫用Illumina HiSeq2000進行測序。
1.2.3 Unigene的獲得與功能注釋 測序儀產生的原始圖像數據經 base calling 轉化為序列數據,稱之為raw reads,再經過平臺初步的過濾后稱之為clean reads,然后使用短reads組裝軟件Trinity[10]做轉錄組從頭組裝。Trinity首先將具有一定長度overlap的reads連成更長的片段,這些通過reads overlap關系得到的不含N的組裝片段作為組裝出來的Unigene。3個轉錄組一起組裝。
Unigene基本功能注釋信息給出Unigene的蛋白功能注釋、Pathway注釋、COG/KOG功能注釋、Gene Ontology(GO)功能注釋等。首先,通過blastx將Unigene序列比對到蛋白數據庫nr(非冗余蛋白數據庫)、SwissProt(蛋白質序列數據庫)、KEGG(京都基因與基因組百科全書)和COG/KOG(蛋白質原核/真核同源數據庫)(evalue<0.000 01),得到跟給定Unigene具有最高序列相似性的蛋白(如有并列,取第一條),從而得到該Unigene的蛋白功能注釋信息。
1.2.4 轉錄組中SSR位點分析 按照以下配置參數使用軟件 MISA(http://pgrc.ipk-gatersleben.de/misa/)對轉錄組的所有 Unigene 進行搜索,尋找 Unigene 中的 SSR,搜索條件為2個堿基的重復單元,需要至少6個重復才會被認為是SSR,3個堿基的重復單元,需要至少5個重復才會被認為是SSR,4-6個堿基重復至少4次,在此基礎上,如果兩個SSR序列的距離短于100 bp,就會被合并當作一個SSR標記。
采用Illumina HiSeqTM2000高通量測序技術對黃秋葵不同發育時期果實轉錄組進行測序,從表1可以看出,167-1、167-5、167-12三份樣品轉錄組測序數據量和質量都較高,為后續的數據拼接組裝提供了較好的數據源。
3個黃秋葵果實的轉錄組測序所獲得的reads通過組裝和拼接共獲得77 476個Unigene,總長度達54 699 979 bp(約 54.7 Mb),平均長度為 706 bp,N50為1 033 bp,最大拼接長度為13 091 bp,最小為201 bp,表明組裝效果良好。

表1 數據過濾后統計表
通過blastx將Unigene序列比對到蛋白數據庫nr、SwissProt、KEGG 和 COG/KOG,比對結果(圖 1-A)顯示,77 476個Unigene序列在Nr數據庫中有61 559(占79.46%)個找到相似序列,在SwissProt數據庫中有42 609(55.00%)個找到相似序列,在KEGG數據庫中有34 972(45.14%)個找到相似序列,在COG/KOG數據庫中有25 140(32.45%)個找到相似序列,4個數據庫一共注釋了61 891(79.88%)個Unigene序列,未能夠得到注釋的Unigene序列有 15585(20.12%) 個, 有 18 587(23.99%) 個Unigene序列序列被4大數據庫同時注釋。如圖1-B所示,前3大物種的同源序列數量達到51 502個,占已注釋基因總數的83.21%,它們分別是雷蒙德氏棉(Gossypium raimondii,28139 個)、亞洲棉(Gossypium arboreum,13 116個 )、 可 可(Theobroma cacao,10 247)。
以KEGG代謝途徑數據庫為依據,可將13 336個黃秋葵果實的Unigene分成128個代謝途徑(表2),比張少平等[11]報道的黃秋葵葉片轉錄組多了9個代謝途徑,體現出葉片與果實轉錄組的差異。其中涉及Unigene數量最多的前5個代謝途徑分別是核糖體代謝、植物激素信號轉導、內質網蛋白質代謝、碳代謝和內吞作用。
利用GO數據庫,將黃秋葵果實的Unigene進行基因生物學特征功能分類。結果(圖2)顯示,GO數據庫注釋到44 507個Unigene,可分為細胞組分、分子功能及生物學過程等3個本體共48個功能組,其中在參與的生物過程中,細胞進程(24 970)和代謝進程(25 434)含有Unigene最多;在細胞組分本體中,細胞進程(18 890)及其組織部分(18 884)含Unigene最多;在分子功能本體中,結合活性(23 656)和催化活性(23 117)含有的Unigene最多。

圖1 四大數據庫注釋維恩圖和前10大物種分布統計圖
按照以下配置參數使用軟件MISA對轉錄組的所有Unigenes進行搜索,尋找Unigenes中的SSR,在黃秋葵果實轉錄組77 476條Unigenes序列中發現3 830個SSR位點,分布在3 569條Unigenes中,發生頻率(含有SSR的Unigenes數量與總Unigenes數量之比)為4.61%。其中有3 329條Unigenes序列中只含1個SSR位點,含2個及2個以上SSR位點的Unigenes序列有240條,SSR的分布頻率(SSR的個數與總Unigenes的數量比)為4.94%,黃秋葵轉錄組序列中平均14.282 Kb就能發現一個SSR位點(表3)。黃秋葵轉錄組中SSR的主要重復類型是三核苷酸重復,占SSR總數的59.56%;其次是二核苷酸重復,占SSR總數的20.97%;四核苷酸重復,占SSR總數的9.69%;五、六核苷酸重復類型的數量較少,總計9.79%(表3)。SSR重復單元的重復次數分布在4-15次之間,其中5次重復的最多,有1605個SSR,占41.91%;其次為6和4次重復,分別有878、571個SSR,分別占22.92%和14.91%;15次以上重復的僅有32個SSR,占0.84%。從不同串聯重復單元類型看(圖3),AAG/CTT重復類型最多,占19.4%,其次為AG/CT,占9.9%。

圖2 GO功能分類圖

表2 黃秋葵果實Unigene的KEGG代謝途徑分析

續表

表3 SSR類型和分類統計表
隨著黃秋葵所含特殊成分及其營養保健功效的發掘,黃秋葵已經在非洲、歐美及東南亞等地進行了廣泛種植,相關基礎研究也受到極大的關注。前人對黃秋葵的研究主要集中在遺傳育種[12-13]、栽培生理[14-15]、營養成分[16]和藥用功效[5,17]等方面,關于分子生物學方面特別是功能基因研究方面的研究較少。王旭等[18]采用同源序列克隆和RT-PCR技術,首次克隆了黃秋葵查爾酮合成酶基因(CHS)cDNA全長序列。張少平等[11]通過Illumina HiSeq 2500高通量測序獲得了紫色黃秋葵葉片基因表達的基本信息,使研究者對葉片的代謝途徑有了全面的了解。但是,對黃秋葵果實發育過程的代謝途徑和轉錄組分析的研究至今還未見報道。本研究中利用RNA-seq技術分離了大量的多糖代謝、萜類化合物代謝、黃酮和異黃酮類代謝、脂肪酸代謝等次生代謝途徑相關基因,為今后黃秋葵功能基因的開發利用等研究奠定了良好基礎。

圖3 SSR不同重復單元
黃秋葵種質資源極其豐富,有些資源可以通過顏色、葉片形狀、果形等形態學特征進行辨別,但形態標記數量有限、觀測標準容易受到觀測者的主觀判斷影響,因此,還必須結合其他的標記技術,進行更深層次的研究。SSR標記是近年來發展起來的一種以特異引物PCR為基礎的分子標記技術,具有數量豐富、覆蓋整個基因組、多等位基因等特性,目前該技術已廣泛用于遺傳圖譜的構建、目標基因的標定、指紋圖譜的繪制等研究中。Roland等[10]對黃秋葵葉片和果實進行了轉錄組測序,得到了935個SSR位點,而本研究中得到了3 830個SSR位點,遠遠超過其發現的個數,主要原因可能是選擇的材料差異造成的。Roland等的測序結果得到最多的3類SSR位點是AT/TA(9.3%)、TTC/GAA(8.3%)和TCT/AGA(6.9%),而本研究中獲得的最多的3類SSR位點是AAG/TCTT(19.43%)、AG/CT(9.95%)和AGC/CTG(8.96%),后期的工作將對Roland等獲得的SSR位點與本研究結果進行對比,找出相同的SSR位點,豐富、可靠的SSR位點將為黃秋葵品種鑒定和資源分析提供有力依據。
采用RNA-Seq技術對3份黃秋葵果實進行測序分析,3份測序材料組裝后共獲得了77 476個Unigene序列,有61 891個Unigene在四大數據庫中得到注釋,占79.88%;以KEGG代謝途徑數據庫為依據,可將13 336個黃秋葵果實的Unigene分成128個代謝途徑,使研究者全面了解了黃秋葵果實的代謝途徑信息;在黃秋葵果實轉錄組中發現3 830個SSR位點,分布在3 569條Unigenes中,發生頻率為4.61%,獲得的最多的3類SSR位點是AAG/TCTT(19.43%)、AG/CT(9.95%)和AGC/CTG(8.96%)。
[1]FAOSTAT, 2010. http://faostat. fao. org/site/567/default. aspx.
[2]Kumar S, Dagnoko S, Haougui A, et al. Okra(Abelmoschus spp.)in West and Central Africa:potential and progress on its improvement[J]. African Journal of Agricultural Research, 2010,5:3590-3598.
[3]Islam M, Hossain N, Alamgir M, et al. Comparative effects of biogas plant residues, poultry manure and inorganic fertilizer on growth and yield of ladies finger[J]. IOSR Journal of Agriculture and Veterinary Science, 2014, 7(1):2319-2372.
[4]黃阿根, 陳學好, 高云中, 等. 黃秋葵的成分測定和分析[J].食品科學, 2007, 28(10):451-455.
[5] Mairuae N, Connor JR, Lee SY, et al. The effects of okra(Abelmoschus esculentusLinn.)on the cellular events associated with Alzheimer’s disease in a stably expressedHFEneuroblastoma SH-SY5Y cell line[J]. Neuroscience Letters, 2015, 603(10):6-11.
[6]王君耀, 周俊, 湯谷平. 黃秋葵抗疲勞作用的研究[J]. 中國現代應用藥學雜志, 2003, 20(4):316-317.
[7]李錫花, 吳嫚, 于霽雯, 等. 棉花纖維發育早期RNA-Seq轉錄組分析[J]. 棉花學報, 2013, 25(3):189-196.
[8]Megan JB, Wonkeun P, Phili JB, et al. RNA-seq transcriptome profiling of upland cotton(Gossypium hirsutumL.)root tissue under water-deficit stress[J]. PLoS ONE. 8(12):e82634.
[9]丁元昊, 袁道軍, 朱龍付, 等. 基于RNA-Seq技術的棉花苗期雜種優勢的基因表達分析[C]. 作物雜種優勢利用國際學術大會, 2012, 123-124.
[10]Roland S, Sanjeet K, Lin CY, et al. The okra(Abelmoschus esculentus)transcriptome as a source for gene sequence information and molecular markers for diversity analysis[J].Gene, 2013, 517:27-36.
[11]張少平, 邱珊蓮, 鄭云云, 等. 紫色黃秋葵轉錄組功能基因測序及分析[J]. 核農學報, 2017, 31(4):643-653.
[12]Mehta N, Asati BS, Mamidwar SR. Heterosis and gene action in okra[J]. Bangladesh Journal of Agricultural Research, 2007, 32(3):421-432.
[13]Wammanda DT, Kadams AM, Jonah PM. Combining ability analysis and heterosis in a diallel cross of okra(Abelmoschus esculentus(L.)Moench)[J]. African Journal of Agricultural Research, 2010, 5(16):2108-2115.
[14]Olayiwola MO, Ariyo OJ. Relative discriminatory ability of GGE Biplot and YSi in the analysis of genotype×environment interaction in okra(Abelmoschus esculentus)[J]. International Journal of Plant Breeding and Genetics, 2013, 7(3):146-158.
[15]Islam M, Hossain N, Alamgir M, et al. Comparative effects of biogas plant residues, Poultry manure and inorganic fertilizer on growth and yield of ladies finger[J]. Iosrjournals Org, 2014, 7 :2319-2372.
[16]黃阿根, 陳學好, 高云中, 等. 黃秋葵的成分測定和分析[J].食品科學, 2007, 28(10):451-455.
[17]Monte LG, Santi-Gadelha T, Reis LB, et al. Lectin ofAbelmoschus esculentus(okra)promotes selective antitumor effects in human breast cancer cells[J]. Biotechnology Letters, 2014, 36(3):461-469.
[18]王旭, 韓春樂, 周亞楠, 等. 黃秋葵查爾酮合成酶基因AeCHS的克隆與表達分析[J]. 植物遺傳資源學報, 2014, 15(3):561-567.