李幸兒, 趙 艷, 李 雪, 任玉玲, 李 萍
(青海大學生態環境工程學院, 西寧 810016)
血滿草(SambucusadnataWall. ex DC.)屬忍冬科(Caprifoliaceae)接骨木屬(Sambucus)多年生高大草本或半灌木,是一種傳統的藥用植物,主要分布于山西、甘肅、青海、四川、貴州、云南、寧夏和西藏等省區,特別是在西藏東南部和西藏南部的低海拔地區[1-2]。從血滿草中分離出了多種化合物,包括苯丙酸類、酚類、黃酮類、三萜類、甾體類和芳香族酸[3],這些化合物具有祛風、利尿、促進血液循環和疏通絡脈等功效,因此血滿草被臨床用于治療急性和慢性腎炎、風濕病和其他疾病[4]。目前,關于血滿草的研究主要集中在其化學成分分析[5-9]、多糖提取[10-12]、藥用價值[13-14]以及遺傳結構[15-16]等方面,而關于其葉綠體基因組信息和進化分析還未見報道。
葉綠體是植物細胞內最重要、最普遍的質體;細胞中由雙層膜圍成,含有葉綠素,能進行光合作用的細胞器是細胞能量轉換和儲存的場所,其遺傳方式以母系遺傳為主。葉綠體基因組在細胞中有多種構型,最常見的結構是雙鏈環狀結構,包括一個小的單拷貝區(SSC)和一個大的單拷貝區(LSC),這兩個區域被一對反向重復區域(IRa,IRb)分開,形成典型的雙鏈環狀四分體結構[17]。20世紀50年代,當時的植物生物學家通過對葉綠體基因組的研究,首次發現葉綠體含有自身的DNA[18],Jansen等[19]在2005年發現,質體基因組的大小在35~217 kb之間,但絕大多數光合生物的大小在115~165 kb之間,而葉綠體基因組序列的長度往往由IR區的長度決定[20]。隨著測序技術的不斷完善和推廣,二代測序憑借其測序性能強、周期短、無須參考基因組等優點,成為探究植物全基因組序列、遺傳多樣性的有效技術[21],為植物葉綠體基因組相關研究提供了技術支持,為后續系統發育、居群遺傳和譜系地理等方面的研究提供了有效途徑[22]。
雖然血滿草的化學成分和生物活性已有報道,但對其基因組的相關研究鮮見報道。完整的葉綠體基因組通常被用來研究系統發育關系和稀有物種的保護[23]。因此,本研究基于Illumina測序對血滿草的葉綠體基因組進行了分析,并與其他屬的葉綠體基因組序列進行了比較,以期促進忍冬科的系統發育研究,為血滿草的保護和利用提供參考。
血滿草新鮮葉片樣品采集于青海孟達天池山(102°674′9″E,35°791′7″N),經液氮快速冷凍處理后,-80 ℃冰箱貯存備用。植物憑證樣本保存于青海大學藏藥研究中心(TMSGS 21004)。
采用改良的CTAB方法[24]提取總基因組DNA,隨后在百邁克生物科技有限公司(北京,中國)的IlluminaHiseqX-ten平臺(圣地亞哥,美國)上對高質量的DNA進行測序。
葉綠體基因組組裝采用SPAdes(3.9.0)軟件[25],注釋采用cpGAVAS 2軟件,利用在線工具OGDRAW(http://ogdraw.mpimp-golm.mgp.de/cgi-bin/ogdraw.pl)分析繪制血滿草葉綠體基因組圖譜。將葉綠體基因組全序列提交Genbank獲得其登錄號(MZ 962405)。
借助軟件 CodonW 1.4.2[26](http://mobyle. pasteur/fr/cgi-bin/portal.py?from=codonw)統計分析血滿草葉綠體基因組的密碼子偏好性 RSCU(Relative Synonymous Codon Usage);在網站(https://webblast. ipk-gatersleben. de/misa/index.php?action=1)對血滿草葉綠體基因組序列開展微衛星掃描。
在NCBI數據庫中下載忍冬科植物葉綠體全基因組序列,以人參(LG 149410)為外類群,將所有參試物種的葉綠體基因組序列選擇MAFFT進行多序列比對,并將比對后的序列進行手動校正,使用PhyloSuite軟件[27]中的RAxML構建系統發育樹,Bootstrap值設為1 000。
經過測序,共獲得10 508 826 bp較高質量的數據(Clean reads),3 146 741 892 bp較高質量的堿基(Clean bases),其中Q 20為97.15%,Q 30為92.46%(表1)。將注釋得到的血滿草葉綠體基因組提交到GenBank,登錄號為MZ 962405。通過組裝及可視化作圖分析發現,血滿草葉綠體全基因組是一個長度為158 610 bp的環狀DNA分子,包含典型的4個部分:87 345 bp的大單拷貝區域、18 937 bp的小單拷貝區域及26 164 bp的兩個反向重復序列(圖1)。對血滿草葉綠體基因組的堿基組成進行分析,發現GC含量占總堿基數的37.61%,其中IR區域中的GC含量(42.99%)高于LSC區域(36.27%)和SSC區域(31.89%)(表2)。

表1 血滿草基因組測序的數據評估統計

圖1 血滿草完整的葉綠體基因組圖譜

表2 血滿草葉綠體基因組信息
從血滿草葉綠體基因組中共檢測到131個基因,包括86個編碼蛋白質的基因、37個轉運RNA基因和8個核糖體RNA基因,其中有18個基因在IR區域呈現雙拷貝,分別是trnV-GAC、trnR-ACG、trnN-GUU、trnL-CAA、trnI-GAU、trnI-CAU、trnA-UGC、rrn23、rrn16、rrn5、rrn4.5、rps7、rps12、rpl2、rpl23、ndhB、ycf2、ycf1(表2,表3)。與光合作用有關的基因有45個,包括5個光合系統 Ⅰ 基因、15個光合系統Ⅱ基因、6個ATP合成酶基因、6個細胞色素復合物編碼基因、11個NADH脫氫酶基因、1個核酮糖-1,5-二磷酸羧化酶大亞基基因和1個依賴ATP蛋白酶單元p基因;與轉錄和翻譯有關的基因包含了4個DNA依賴性RNA聚合酶、9個核糖體大亞基基因和12個核糖體小亞基基因,還有9個其他功能基因(表3)。在大多數被子植物葉綠體基因組中發現的3個基因(rps16、infA和ycf4),包括早期分支譜系的代表[28-30]均存在于血滿草葉綠體基因組中。

表3 血滿草葉綠體基因組注釋基因歸類

表4 基于核苷酸重復單位數血滿草葉綠體SSR的長度分布
重復序列又稱為簡單序列重復(SSR)或微衛星序列,在基因組中廣泛存在,通常包含1~6個核苷酸,一般用于分析群體遺傳學、進化關系以及物種鑒別等[31]。通過對血滿草葉綠體基因組的SSR分析(表5),共發現6種類型的SSR,包括4種單核苷酸、2種二核苷酸,A/T單核苷酸重復是最多的一類,占總SSR的84.62%,AT/TA二核苷酸重復占總SSR的15.38%,A/T單核苷酸重復在其他物種中也較為多見[32],說明短的A/T單核苷酸重復是葉綠體基因組的普遍特征[33]。在血滿草葉綠體基因組中沒有發現三核苷酸、四核苷酸、五核苷酸以及六核苷酸重復的SSR,這些結果表明,SSR參與了血滿草葉綠體基因組遺傳多樣性的鑒定。

表5 血滿草葉綠體基因組中含有內含子的基因以及內含子和外顯子長度
17個基因包含1個或2個內含子,其中11個位于蛋白質編碼基因中,6個位于tRNA基因中(表5)。在血滿草中,蛋白質編碼基因rpl2包含1個673 bp的單個內含子,在包含內含子的基因中,trnK-UUU具有最大的內含子(2 519 bp),最小的內含子位于trnG-UCC(58 bp)中,ycf3基因有2個717 bp和749 bp的內含子。
一般來說,不同生物體核苷酸序列的同義密碼子蛋白質結構的使用頻率并不相同,但是密碼子之間的選擇相同[34]。同義密碼子的不平等使用,被稱為密碼子使用偏差,被視為自然選擇、突變壓力和遺傳漂變的復雜組合結果[35-36]。根據血滿草葉綠體基因組131個基因序列,得出血滿草葉綠體基因組的相對同義密碼子使用情況(RSCU)[37],如圖3。血滿草葉綠體基因組密碼子的使用反映了AT/GC偏倚。86個蛋白編碼基因包含80 364 bp,編碼26 788個密碼子。在這些密碼子中,2 842 個(10.61%)編碼亮氨酸,304個(1.13%)編碼半胱氨酸,分別是最普遍和最少的氨基酸。異亮氨酸(Ile)中AUU的密碼子使用率最高,亮氨酸(Leu)和異亮氨酸(Ile)的密碼子使用量也較高,起始密碼子ATG被鑒定了649次(2.42%),所有3種終止密碼子均存在,其中UAA是最常用的密碼子(UAA 51.16%,UGA 24.42%,UAG 24.42%)。

圖2 血滿草葉綠體基因組中含有內含子的基因以及內含子和外顯子長度

注:柱狀圖上方柱子的高度代表該氨基酸所有同義密碼子RSCU值的總和,柱狀圖下部分方塊代表每種氨基酸的所有同義密碼子。
血滿草葉綠體基因組密碼子使用性檢測結果表明,RSCU值大于1的密碼子有30個,其中以A/U堿基結尾的有29個(96.67%);RSCU值小于1的密碼子有32個,其中以G/C堿基結尾的有29個(90.63%),說明在血滿草葉綠體基因組中的密碼子更傾向以A/U堿基結尾;色氨酸(Trp)和甲硫氨酸(Met)的RSCU值為1,無密碼子偏向性(表6)。對于血滿草密碼子使用偏好性的直觀展示見圖3。

表6 葉綠體基因組密碼子使用率
從NCBI數據庫中下載了14條忍冬科植物葉綠體全基因組序列,以人參(LG 149410)為外類群,利用15種葉綠體基因組序列進行系統發育分析。通過MEGA[38]軟件中的最大似然法構建系統發育樹,程序設置1 000步長檢驗。采用MrBayes v 3.2.6[39]完成貝葉斯推理(BI)分析(圖2)。系統發育分析結果表明,血滿草與接骨木(NC_051521和MT 457823)親緣關系密切,該完整的血滿草葉綠體基因組為進一步研究血滿草及其相關屬的系統發育和物種的進化以及資源的保護和利用提供了參考。
國內外關于血滿草的研究報道較少,而關于血滿草葉綠體的研究更是鮮有報道。隨著新一代測序技術的發展,高通量測序技術的應用越來越廣泛,植物葉綠體基因組序列為分類學、物種鑒定和系統發育提供了有價值的遺傳信息,并被廣泛用于評估物種遺傳多樣性和物種親緣關系。為了開發國產藥源,近年來對血滿草進行了比較系統的研究。沈笑媛等[5]研究了血滿草的化學成分,對血滿草乙醇提取物的乙酸乙酯、正丁醇溶解部分進行分離純化,得到4種化合物,分別為對羥基苯甲酸(p-hydroxybenzoic acid, 1)、齊墩果酸(oleanolic acid, 2)、熊果酸(ursolic acid, 3)、3,5-dimethoxy-4-hydroxy-1-O-β-D-glucopyranoside(4);唐柳怡等[6]對采自峨眉山的血滿草進行了化學成分研究, 從氯仿部分及總浸膏的水懸浮液中分離得到5種化合物,分別是1-(3-羥基-4-甲氧基)乙烷-1′,2′-二醇(1-(3-hydroxy-4-methoxyphenyl)-1′,2′-ethane-diol,1),熊果酸(ursolic acid,2),1-(3,4,5-三甲氧基苯基)乙烷-1′,2′-二醇(1-(3,4,5-trimethoxyphenyl)-1′,2′-ethanediol,3),落葉松脂醇(lariciresinol,4),5,7,3′,4′-四羥基黃酮-3-O-吡喃鼠李糖(1→6)吡喃葡萄糖苷(5,7,3′,4′-tetramethoxyflavone-3-O-rhamnopyranosyl-(1→6)-glucopyranoside,5)。在提取血滿草中多糖成分時發現,血滿草粗多糖由鼠李糖、阿拉伯糖、甘露糖、葡萄糖、半乳糖構成,而后又從血滿草葉片中分離純化出了一種均一性酸性多糖SPS-1,并制備了其硫酸化多糖SSPS-1[10-12]。對藥用價值的研究表明,血滿草的提取物具有較好的抗炎、鎮痛作用,可以治療跌打損傷,骨折疼痛,小劑量可興奮血管中樞,使腎區血流量增加起利尿作用;王鳳瓊,周紅[14]研究表明,用血滿草熱浴局部治療新生兒硬腫癥效果較好。楊青松等[15]對血滿草的遺傳結構研究發現,不同海拔血滿草居群之間遺傳分化不明顯,遠低于異交生物平均水平。另外,譜系分析也表明,血滿草不同居群之間的系統關系不清晰,與地理分布和海拔分布的關系不明顯。無論是居群間還是居群內,供試血滿草的遺傳多樣性均較低,居群間的遺傳分化較小,可能還屬于同一個大的居群[15-16]。盡管目前對血滿草有所研究,但是針對血滿草基因組信息尤其是細胞器基因組信息十分欠缺。

圖4 基于15個葉綠體全基因組序列構建的血滿草系統發育樹
在光合植物中,葉綠體基因組以單性遺傳的方式傳遞遺傳物質,一般來說,大多數被子植物是母系遺傳,而大多數裸子植物卻為父系遺傳[40-41]。血滿草植物屬于被子植物門,葉綠體基因組全長158 610 bp,呈現出與大多數被子植物,如海甘藍[42]、密花香薷[43]、暴馬丁香[44]等一樣的由一個SSC區、一個LSC區、兩個IR區構成典型四分體結構,與多數已發表的忍冬科物種葉綠體基因組相似,如苦糖果、冠果忍冬、盤葉忍冬、葶子藨、錦帶花、雙盾木、忍冬和蝟實[45]。密碼子是體內遺傳信息傳遞的基礎部分,密碼子的使用偏好性對于外源基因的表達具有重要意義,近年來,隨著基因組測序的不斷增加,關于密碼子偏好性分析的論文也越來越多。之前已有藜蘆屬[46]、大黃[47]、菜頭腎[48]、刺五加[49]等藥用植物的密碼子偏好性分析,相關研究為重要經濟和藥用植物的基因工程改良奠定了基礎。
葉綠體基因組中的SSR基因通常是揭示種間和種內系統發育關系的有力工具[50]。目前應用葉綠體基因組中的SSR研究的藥用植物有益智[51]、鴉膽子[52]、苦參[53]等。本研究結果表明,血滿草葉綠體基因組中的SSR包含高頻率的A或T重復,與很多植物如魚腥草[54]等葉綠體基因組SSR序列的組成相似。本研究中14條忍冬科葉綠體基因組序列,以人參為外類群,構建的系統發育樹中發現,血滿草與接骨木親緣關系密切,接骨木藥用價值很高,具有疏通經絡,活血化瘀止痛等作用,臨床上也被廣泛應用于風濕痹痛、跌仆傷痛、水腫及小便不利等癥;據植物志[55]記載,血滿草為民間跌打損傷藥,能活血散瘀,亦可去風濕,利尿。這兩種植物的藥用價值在一定程度說明該物種的藥用成分可能具有高度的相似性,這可能是由于化學物質構效關系引起的,因為植物體內的化學成分都是相關基因家族通過特定的生物合成途徑生成的,故相近化學成分和藥理作用的物種間可以根據需要互相增補和調換使用[56]。本研究可為忍冬科物種鑒定、分子進化和遺傳系統發育研究提供重要的參考。