張 倩, 張德全,2*
( 1.大理大學 藥學院, 云南 大理 671000; 2. 云南省滇西抗病原植物資源篩選研究重點實驗室, 云南 大理671000 )
白花刺續斷(Acanthocalyxalba),又名白花刺參,隸屬于川續斷科(Dipsacaceae)刺續斷屬(Acanthocalyx)。該屬在我國有4種2變種,主要分布在云南、四川、西藏等地(Hong et al., 2011)。白花刺續斷以全草入藥,為傳統藏藥,其藏藥名為“江才嘎保”,始載于《四部醫典》(國家中醫藥管理局中華本草編委會,2002)。它是國家衛生部藏藥藥品標準中收載的三種“刺參”之一(青海省藥品檢驗所和青海省藏醫藥研究所,1996),具有健胃、催吐之功效。內服可用于關節疼痛、小便失禁、腰痛、眩暈及口眼歪斜,外用治療瘡、化膿性創傷,還具有抗腫瘤作用(國家中醫藥管理局中華本草編委會,2002;楊競生,1989)。近年來,有關白花刺續斷的研究主要集中在其有效成分、含量測定及提取工藝等方面(吳春蕾等,2011;Zhang et al., 2013;楊圣賢等,2014;張志鋒等,2015)。如張志鋒等(2018)發現白花刺續斷中含有皂苷、生物堿、甾醇等類型化合物,其中皂苷類是其主要有效成分。而分子生物學方面的研究較少,僅有Wang等(2020)報道了該種的葉綠體基因組序列。那么,在白花刺續斷的種內居群水平上,其葉綠體基因組序列有什么變化特征呢?
葉綠體基因組在被子植物中通常為母系遺傳。與核基因組和線粒體基因組相比,其基因進化速率慢,且在基因組成及結構方面比較保守(Smith, 2015;Szymon et al., 2016;Du et al., 2020),這使得葉綠體基因組在植物物種鑒定和譜系進化研究中具有重要作用。Cui等(2019)對比分析了32種豆蔻屬(Amomum)植物葉綠體基因組,結果表明葉綠體全基因組可準確鑒定豆蔻屬物種;李依容等(2020)利用葉綠體基因組揭示了民族藥滇白珠(Gaultherialeucocarpavar.yunnanensis)復合群的系統發育關系;Zhang等(2021)基于葉綠體基因組重建了桃金娘目(Myrtiflorae)的物種分化時間和系統發育關系。但葉綠體基因組在長期進化過程中,結構上會發生一些變異,如反向重復區收縮、倒位、基因和內含子的丟失等(Zhang et al., 2014;Liao et al., 2020;姜汶君等,2020),這些結構變異為揭示物種系統發育和進化關系等提供了遺傳信息。由此可見,植物葉綠體全基因組序列能提供豐富的遺傳信息,在分類鑒定、系統發育及進化等方面具有重要意義。那么,植物葉綠體全基因組是否適用于種內居群水平上的群體遺傳學研究?由于群體水平上測序成本較高,數據分析方法尚不成熟等,相關研究還較少。
本研究以白花刺續斷野生居群個體為研究材料,擬采用二代測序技術進行高通量測序,并對其葉綠體全基因組進行拼接、注釋及進化分析。擬探討以下科學問題:(1)白花刺續斷的葉綠體全基因組序列有何特征;(2)葉綠體全基因組能否用于解析白花刺續斷種內居群水平上的遺傳結構。本研究將為刺續斷屬相關物種的分子遺傳學研究奠定基礎,也為葉綠體全基因組在群體遺傳研究方面開展初步嘗試。
本實驗中,白花刺續斷分子材料采自于四川省甘孜州的5個野生居群(表1),共10份實驗材料。經大理大學張德全教授鑒定為白花刺續斷(Acanthocalyxalba),其憑證標本保存于大理大學藥學院藥用植物與生藥標本館。

表 1 白花刺續斷樣品采集信息Table 1 Collection information of Acanthocalyx alba samples
DNA提取采用改良的CTAB方法,從硅膠干燥的葉片材料中提取總基因組DNA。利用Covaris超聲波破碎儀將基因組DNA片段化,經末端修復、加A尾、加測序接頭、純化及PCR擴增等過程,構建測序文庫。文庫經質量檢測合格后,使用帶有雙末端(pair-end) (2×300 bp) Illumina Hiseq 2 500平臺進行二代測序,整個測序工作在北京諾禾致源生物科技有限公司完成。
經二代測序,得到4 G左右原始數據(Raw Data),經Trimmomatic V.0.32過濾處理后,利用GetOrganelle.py進行組裝,后續數據處理參考本課題組前期工作(胡海粟和張德全,2021)。以白花刺續斷(序列號:NC_045055)為參考基因組,使用Geneious 8.0.2軟件完成白花刺續斷葉綠體全基因組的注釋,并將其提交到NCBI數據庫(https://www.ncbi.nlm.nih.gov/),利用在線工具Organellar Genome Draw(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)繪制葉綠體基因組物理圖譜。
將注釋好的10條基因組序列上傳至網站IRscope(https://irscope.shinyapps.io/irapp/)進行IR邊界的收縮和擴張分析,最后得到的圖片采用繪圖工具Adobe Illustrator CC 2015進行人工調整。同時,利用MISA軟件搜索簡單重復序列(simple sequence repeats,SSR)位點并分析白花刺續斷葉綠體基因組的SSR特征。
在采用MAFFT V.7.129軟件對10條白花刺續斷葉綠體基因組序列進行比對后,使用BioEdit軟件手動調整序列。使用DnaSP V.7.0.26對葉綠體基因組中的核苷酸變異性(Pi)進行滑動窗口分析。步長設置為200 bp,窗口長度為600 bp。P-distance使用MEGA v.7.0.26軟件進行統計分析。此外,將葉綠體基因組序列的注釋進行格式轉換,利用在線軟件mVISTA(http://genome.lbl.gov/vista/mvista/submit.shtml)的Shuffle-LAGAN模式對白花刺續斷葉綠體全基因組比較分析,選取Acanthocalyxalba(NC_045055)作為參考序列。
根據白花刺續斷葉綠體基因組注釋信息,從NCBI數據庫下載已發表的川續斷科及忍冬科(Caprifoliaceae)的11種植物的葉綠體全基因組序列,用于系統發育分析。選擇小粒咖啡(Coffeaarabica)和中粒咖啡(C.arabica)為外類群,使用MAFFT V.7.1將白花刺續斷與下載的葉綠體全基因組序列進行多序列比對。系統發育樹的構建,采用了最大似然法(maximum likelihood, ML)、最大簡約法(maximum parsimony, MP)和貝葉斯推論法(Bayesian inference, BI)3種方法。核苷酸替代模型經jModelTest V 2.1.7軟件篩選定為GTR+G模型。利用RAxML V.8.2.4軟件構建ML系統樹,采用快速靴帶算法,重復1 000次。利用MEGA V.7.0.26軟件構建MP樹,重復1 000次。利用MrBayes V.3.2.6構建BI樹,基于馬爾科夫鏈蒙特卡洛(MCMC)算法,計算100萬代,每隔1 000代取樣一次,舍棄前25%棵樹,根據剩余的樣本構建一致樹。
白花刺續斷的葉綠體全基因組為常見的四分體結構,由兩個反向重復區IRs(inverted repeats)、一個大單拷貝區LSC(large single copy)和一個小單拷貝區SSC(small single copy)組成(圖1,表2)。拼接后的白花刺續斷葉綠體基因組,全長為155 335~156 266 bp,GC含量為38.1%~38.2%。各區段長度分別為89 027~89 076 bp(LSC)、17 689~17 842 bp(SSC)、24 253~24 666 bp(IRs)。4個區段中GC含量最高的是IR區(42.8%~43.2%),其次是LSC區(36.5%)和SSC區(32.9%)。經注釋,得到113個基因,包括72個編碼蛋白基因、30個tRNA基因、4個rRNA基因和7個假基因(clpP、accD、ycf2、ycf1、rps18、rps3和ycf3)。此外,白花刺續斷葉綠體全基因組中有16個基因含有內含子(intron),且均只含有一個內含子(表3)。

圓圈外的基因是順時針轉錄,圓圈內的基因是逆時針。圖中顏色表示功能基因。內部的深灰色對應于GC含量,淺灰色對應于AT含量。The genes outside the circle are transcribed clockwise, while the genes inside the circle are transcribed counterclockwise. The colors here represent functional genes. The inner dark gray corresponds to the GC content and the light gray corresponds to the AT content.圖 1 白花刺續斷葉綠體全基因組圖譜Fig. 1 Gene map of complete chloroplast genome in Acanthocalyx alba

表 3 白花刺續斷葉綠體全基因組基因組成Table 3 Composition of complete chloroplast genome of Acanthocalyx alba
葉綠體基因組由兩個反向重復的IR區、LSC區與SSC區構成,因此存在LSC/IRb、IRb/SSC、SSC/IRa和IRa/LSC 4個邊界。在基因組進化過程中,4個邊界會發生擴張與收縮,使某些基因進入IR區或單拷貝區。不同地點白花刺續斷的葉綠體基因組的4個邊界相對保守(圖2)。LSC/IRb邊界在白花刺續斷中位于rpl23基因內部,且位于LSC區域的差異不大,為185~186 bp;SD01、YD01、YD02、LT01、LT02、KD01、KD02的IRb/SSC邊界基因完全相同,位于IRb區trnN-GUU基因138 bp處,而SD02、DF01、DF02的trnN-GUU基因擴張到SSC內部,距離IRb/SSC邊界48~223 bp;SSC/IRa的邊界在白花刺續斷基因組中都位于ycf1基因內部;IRa/LSC邊界全部位于trnH-GUG基因附近。

圖 2 白花刺續斷葉綠體基因組LSC、SSC和IR邊緣區的比較Fig. 2 Comparison of LSC, SSC and IR border regions among ten chloroplast genomes in Acanthocalyx alba
利用MISA軟件對白花刺續斷葉綠體全基因組進行分析,在白花刺續斷10條序列中分別檢測到70、68、70、70、74、74、70、70、71、71個SSR位點(圖3:B)。SSR最豐富的類型為單核苷酸重復,其次是二核苷酸重復、三核苷酸重復、五核苷酸重復、四核苷酸重復和六核苷酸重復。白花刺續斷葉綠體基因組中的SSR主要是由A和T組成,其中大部分是以A/T堿基構成的單核苷酸重復,其次是由AT/TA構成的二核苷酸重復(圖3:A)。進一步分析表明,大部分SSR位于LSC區域,小部分位于SSC和IR區域(圖3:C)。同時,基因組中的SSR大部分分布于基因間區(intergenic spacer, IGS)中,其他少數SSR分布在內含子和蛋白編碼區域(coding sequence,CDS)中(圖3:D)。

A. SD01葉綠體基因組中不同重復類型SSR出現頻率; B. 10個基因組中不同SSR類型的數目; C. 在LSC、SSC和IR區域中出現SSR的頻率; D. 在IGS、CDS和內含子中出現SSR的頻率。A. Frequency of SSR motifs in different repeat types of SD01 chloroplast genome; B. Number of different SSRs type detected in ten genomes; C. Frequency of identified SSR in LSC, SSC and IR regions; D. Frequency of identified SSR in IGS, CDS and intron.圖 3 白花刺續斷10條葉綠體基因組的SSR分析Fig. 3 Analysis of simple sequence repeat (SSR) on ten chloroplast genomes in Acanthocalyx alba
將比對好的5個地區白花刺續斷葉綠體基因組進行Sliding window 分析(圖4)。結果顯示,SSC區域的變異水平最高,IR區域最低。同時,篩選到3條高變異序列,分別位于LSC區(rpoC1)和SSC區(ndhF和rpl32-trnL-UAG)。其中,rpl32-trnL-UAG的變異性最高,其次是ndhF,而rpoC1最低。此外,本研究中以SD01作為參考序列,與其余9條白花刺續斷葉綠體基因組進行兩兩比較分析。結果顯示,葉綠體基因組序列中非編碼區變異高于蛋白編碼區域,單拷貝區(LSC & SSC)變異明顯大于反向重復區(IR)。5個地區白花刺續斷葉綠體基因組序列整體上高度相似,變異較大的基因有rpoC2、psbC、rrn23和ycf1,其他基因保守程度非常高。基因間區的變異大于基因區,如atpF-atpH、psaB-psaA、psaA-ycf3、trnM-CAU-atpE、psbF-psbE、psbE-petL、rrn5-trnN-ACG、trnR-ACG-trnN-GUU、trnL-UAG-ccsA(圖5)。從這些區域中,可開發特異性片段,用于該屬種間及種下水平的系統進化與發育研究。

窗口長度為600 bp, 步長為200 bp。X軸. 窗口中點的位置; Y軸. 每個窗口的核苷酸多樣性。Window length is 600 bp, step size is 200 bp. X-axis. Position of the midpoint of a window; Y-axis. Nucleotide diversity of each window.圖 4 白花刺續斷10條葉綠體全基因組的滑動窗口分析Fig. 4 Sliding window analysis of ten chloroplast genomes in Acanthocalyx alba

基于VISTA的標識圖顯示以SD01為參照,對九個白花刺續斷進行序列鑒定。VISTA-based identify plot showing sequence identify among nine Acanthocalyx alba using SD01 as a reference.圖 5 白花刺續斷10條葉綠體基因組的可視化比對Fig. 5 Visualization alignment of ten chloroplast genomes in Acanthocalyx alba
本研究利用P-distance種間遺傳變異及核苷酸替換比較了10條白花刺續斷的葉綠體全基因組進化差異,研究結果表明,P-distance為 0~0.000 7,核苷酸差異值為0~1 515,且大部分序列間地理位置越遠, 其相互間P-distance和核苷酸差異值越大(表4)。系統發育分析結果顯示,3種方法構建的進化樹所反映的不同野生居群之間的進化關系相似(圖6),也與遺傳距離分析的結果相吻合。在系統發育樹中,康定(KD)和道孚(DF)的4個個體最早分化出來,其次是亞丁(YD)和桑堆(SD),最后是理塘(LT)的2個個體。但亞丁(YD)和桑堆(SD)的4個個體不能明顯分開。

表 4 白花刺續斷個體間遺傳距離與核苷酸差異值Table 4 Genetic distances and nucleotide difference values among individuals of Acanthocalyx alba

上面的節點數是支持值,左邊是MP自展值,中間是ML自展值,右邊是貝葉斯后驗概率(PP)值。圖中加黑部分為本文主要研究對象。Number above nodes are support values with MP bootstrap values on the left, ML bootstrap values in the middle, Bayesian posterior probabilities (PP) values on the right. The black part in the figure is the main research objects of this paper.圖 6 利用最大簡約法(MP)、最大似然法(ML)和貝葉斯分析法(BI)研究了10個白花刺續斷葉綠體全基因組的系統發育關系Fig. 6 Phylogenetic relationship of ten Acanthocalyx alba based on complete chloroplast genome using maximum parsimony (MP), maximum likelihood (ML), and Bayesian analyses (BI) methods
本研究報道了白花刺續斷的葉綠體全基因組序列特征,并在居群水平上揭示了其地理遺傳結構。不同野生居群的葉綠體基因組所編碼的基因類別、數量及排列順序高度一致。同時個體間具有高度相似的GC含量,單個序列中IRs區序列的GC含量最高。白花刺續斷葉綠體基因組中共含有7個假基因,其中5個假基因是川續斷科植物所共有的(clpP、accD、ycf2、ycf1、rps18),故推測可能普遍存在川續斷科植物假基因現象(Wang et al., 2020)。葉綠體SSR位點是一種高效的分子標記。本研究中,白花刺續斷葉綠體全基因組序列的SSRs主要以A/T堿基為主,這與其他被子植物中的情況相似(Guo et al., 2017;Na et al., 2018;Chen et al., 2019)。同時,這也進一步證實了葉綠體SSRs 主要是由polyA和polyT重復所構成,而較少含有C或G串聯重復的觀點(Kuang et al., 2011)。此外,這些SSRs主要分布在2個單拷貝區,故推測這些高A/T含量的SSRs和分布于IR區的rRNA序列可能是導致葉綠體基因組中GC含量偏低以及各區域堿基含量差異的潛在原因(張明英等,2020)。
IR區和SC區的擴張和收縮被認為是直接影響被子植物葉綠體基因組大小的重要因素(Wang et al., 2017;Song et al., 2019)。本研究表明,不同野生居群個體間葉綠體基因組4個邊界均未出現明顯的擴張和收縮現象,說明白花刺續斷葉綠體基因組IRs區大小高度保守,這也與Wang等(2020)研究結果一致。從葉綠體基因組中發掘的高變片段,不僅可以在物種水平上用于系統發育和物種鑒定研究,也可以在居群水平上提供豐富的遺傳信息,從而揭示物種的居群動態與進化歷史等。Fatemeh等(2018)基于rpl32-trnL-UAG對滇紫草屬(Onosma)物種進行系統發育分析和分化時間估計;Nahla等(2020)采用rpoC1對苜蓿屬(Medicago)植物進行親緣關系分析;Chen等(2020)基于葉綠體基因組對貝母屬(Fritillaria)植物進行研究,結果發現篩選出的ycf1和psbM-psbD可作為特定條形碼用于貝母屬植物物種鑒定。這些研究工作也進一步證實高變片段在物種進化及鑒定等方面具有特殊作用。本研究中,篩選出3個高變片段(rpoC1、ndhF和rpl32-trnL-UAG),可用于刺續斷屬內種間系統發育及種內群體遺傳學研究。
傳統上,常用葉綠體基因片段來研究物種的群體遺傳結構和譜系進化關系,但因葉綠體片段多態位點不足而作用有限(Zhang et al., 2019;Zhang et al., 2020;劉家奇等,2021)。與之相比,葉綠體全基因組具有極為豐富的遺傳變異,為復雜植物類群的遺傳進化研究提供有效手段。Wang等(2020)基于美國山核桃(Caryaillinoinensis)兩個不同居群間葉綠體基因組核苷酸差異性,揭示了該物種居群水平的遺傳多樣性。本研究中,白花刺續斷5個野生居群間具有較為明顯的遺傳結構,個體間的遺傳距離、核苷酸差異值與地理距離之間呈較好的相關性。這也與系統發育樹所揭示的進化關系相吻合。值得注意的是,桑堆(SD)和亞丁(YD)的四個個體沒有形成獨立分支,這可能是兩個居群間地理距離較近引起相對頻繁的基因流所致。這一結果也說明,與核基因組相比,葉綠體基因組進化較慢及單親遺傳的特性,其作用也有明顯的局限性。
綜上所述, 葉綠體全基因組序列具有極為豐富的遺傳信息,可為復雜植物類群及種下居群水平上的群體遺傳及譜系進化研究提供有效手段。但由于二代測序的價格仍舊較為高昂,本文中居群樣本量較少,本研究結果的科學性尚有不足。因此,葉綠體基因組能否作為傳統的分子片段或標記的技術補充,需要更多研究工作來驗證。此外,將葉綠體全基因組用于群體遺傳學分析的數據分析方法也有待于進一步完善。