楊 斌 孟慶瑤 張 凱 段義忠
(榆林學院生命科學學院,榆林 719000)
葉綠體普遍存在于綠色植物和一些自養生物中,是植物細胞中的質體之一,主要進行光合作用,承擔著合成蛋白質、色素、脂肪酸及淀粉等功能[1]。在被子植物中,葉綠體基因組一直處于相對保守的狀態,導致其進化速度緩慢,被用于植物分類和分子進化研究的途徑[2]。其結構大多為雙鏈環形,具有4個區域,即1個大單拷貝區(Large single copy,LSC)、1個小單拷貝區(Small single copy,SSC)以及2個反向重復序列區(Inverted repeats,IRA/IRB)。由于生存環境和遺傳差異的影響,不同種植物葉綠體基因組會出現結構變異的現象[3~5],常見的結構變異有缺失、重復、倒位和易位。
作為最常用的生物學分析方法之一,DNA測序為遺傳信息的揭示和基因組分析等研究提供重要數據,對確定植物進化關系等方面發揮重要作用。“下一代”測序技術(Next-generation sequencing)是繼第一代測序技術(Sanger)之后而得名的,主要包括3種測序技術:Roche/454焦磷酸測序(2005年)、Illumina/Solexa聚合酶合成測序(2006年)和ABI/SOLiD連接酶測序(2007年)技術,這3種測序技術與Sanger相比共同具有單次運行(Run)產出序列數據量大的特征,又被統稱為高通量測序技術(High-throughput sequencing)。近年來,隨著測序技術的發展,促使更多綠色植物的完整葉綠體全基因組相繼公布在NCBI數據庫,在2010年NCBI數據庫中僅有146種,截止2019年4月已有3 000多種植物的葉綠體全基因組被記錄[6]。
矮扁桃(Amygdalusnana)屬薔薇科(Rosaceae Juss.)植物,起源于歐洲東南部和亞洲中西部[7]。作為古地中海第三紀子遺物種,主要分布在哈薩克斯坦、俄羅斯和中國,不僅可作為油料和藥物的原材料,還可以作為育種研究的原始材料。目前,國內外對于扁桃亞屬(Subgen.Amygdalus)植物的研究主要集中在物質鑒定、生長發育、植物引種、開發利用和進化分析等方面[8~12]。在眾多關于扁桃亞屬研究中,基于葉綠體全基因組的相關研究比較缺乏。鑒于此,本研究對矮扁桃葉綠體全基因組進行測序、組裝、注釋和特征剖析,并與其他28種近緣物種構建系統發育樹,旨在豐富矮扁桃的葉綠體基因組遺傳信息,為今后桃屬植物的系統進化關系研究和物種鑒定提供理論基礎。
矮扁桃新鮮葉片采集于新疆裕民縣(46°05′51.02″N,82°48′9.06″E),處理后保存于-80℃環境中備用。
1.2.1 葉綠體DNA的提取
常見的高等植物葉綠體DNA提取的方法主要有3種:蔗糖密度梯度離心法、Percoll密度梯度離心法和高鹽—低pH法,并已在高粱、甘蔗、蘋果[13~15]等物種的葉綠體DNA提取中成功應用,未曾發現應用于矮扁桃的報道。由于葉綠體基因組的穩定性,在細胞質遺傳、基因功能和遺傳多樣性等方面的研究廣泛應用,而獲取無污染、結構完整的葉綠體DNA則是開展相關研究的前提條件之一。因此本研究決定采用改良的蔗糖密度梯度離心法,便于提取完整的矮扁桃葉綠體DNA[16]。
1.2.2 葉綠體DNA測序分析
將提取的總葉綠體DNA通過Nano Drop 2000微量分光光度檢測濃度是否符合標準,并用1%瓊脂糖電泳檢測質量。利用Invitrogen試劑盒對產物進行純化,使所提取的葉綠體DNA達到高通量測序要求。最后將樣品送至北京百邁客生物科技有限公司檢測合格后,進行Illumina HiSeq Xten測序,得到的原始序列(Original series)數據以FASTQ格式存儲。FASTQ文件中存在一定比例的低質量序列,濾除質量較低的序列末端、Adapter序列和含N比例達到10%的序列等[17],最終得到高質量的待分析序列(Clean Reads)。
對低質量過濾后的數據用SOAPdenovo 2.04拼接軟件(http://soap.genomics.org.cn/soap denovo.html)組裝成重疊群,再根據reads的paired-end和overlap優化組裝結果。對于序列中的一些缺口(Gaps),通過Gapcloser對組裝結果進行補洞和修正。最后利用BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)驗證IR區和SC區的連接,進而獲得完整的矮扁桃葉綠體全基因組。利用DOGMA在線注釋軟件(http://phylocluster.biosci.Ttexas.edu/dogma/)結合NCBI上已報道的薔薇科近緣物種的注釋結果對矮扁桃葉綠體全基因組進行基因注釋,并通過GeneiousR8進行手動修正注釋。最后利用OGDraw(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)[18]對矮扁桃葉綠體全基因組進行基因組圖譜繪制。將新獲得的矮扁桃葉綠體全基因組上傳至GenBank數據庫,登錄號為MK764428。
利用在線軟件REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer)[19],鑒定矮扁桃葉綠體全基因組中重復序列,包括正向重復(Forward repeats)、反向重復(Reverse repeats)、回文重復(Palindromic repeats)和互補重復(Complement repeats),最小重復長度設為20bp,兩個重復之間的一致率大于90%。利用MISA軟件(https://webblast.ipk-gatersleben.de/misa/index.php)鑒別矮扁桃葉綠體全基因組中簡單重復序列(Simple sequence repeats,SSR),最小重復次數設為:單核苷酸≥10,二核苷酸≥6,三核苷酸≥5,四核苷酸、五核苷酸、六核苷酸都為≥3。
葉綠體全基因組的長度多態性主要由于IR區的擴張和收縮造成的,本研究比較矮扁桃、扁桃及其親緣物種的IR邊界區收縮與擴張情況,并利用IRscope(https://irscope.shinyapps.io/irapp/)繪制對比圖[20]。
通過NCBI數據庫選取薔薇科和虎耳草科(Saxifragaceae)共計28種植物的葉綠體全基因組與矮扁桃葉綠體全基因組進行系統發育分析。利用MAFFT軟件[21]對29個序列進行多重序列比對,將比對結果檢驗和校正后導入MEGAX軟件,以厚葉溲疏(Deutziacrassifolia)和黃脈繡球(Hydrangealuteovenosa)作為外類群,通過近鄰結合法(Neighbor-joining,NJ)構建系統發育樹,自舉置信值基于重復抽樣1 000次。
矮扁桃的葉綠體全基因組長度為158 596 bp;呈現出經典的四段式環狀結構,其中大單拷貝區(LSC)長度為86 771 bp,小單拷貝區(SSC)長度為19 037 bp,兩個反向重復序列(IRA/IRB)長度都為26 394 bp。矮扁桃的葉綠體全基因組中CG含量為36.8%,在LSC區域中CG含量分別為34.5%,SSC區域中CG含量分別為30.3%,IR區域中CG含量分別為42.7%和42.6%(見表1)。矮扁桃的葉綠體全基因組共注釋130個基因,其中蛋白編碼基因(Protein-coding genes,PCGs)為85個,轉運RNA(tRNA)為37個,核糖體RNA(rRNA)為8個(見表2)。在130個注釋基因中,有92個為單拷貝基因,包括69個PCGs、23個tRNA基因;剩余19種基因均重復1次,包括PCGs中的ndhB、rpl2、rpl23、rps12、rps7、ycf15、ycf2、ycf1和tRNA基因中的trnA-UGC、trnI-CAU、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC以及4種rRNA基因。其中LSC區域完全包含59個PCGs和22個tRNA基因,SSC區域包含12個PCGs和1個tRNA基因,而IR區域則包含7種PCGs(rpl2、rpl23、ndhB、rps7、ycf1、ycf15、ycf2)和7種tRNA基因(trnA-UGC、trnI-CAU、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC)以及全部4種rRNA基因(見圖1)。

表1 矮扁桃葉綠體全基因組堿基組成
微衛星DNA(Microsatellite DNA)又稱簡單重復序列(SSR),基本重復單位只有1~6 bp,存在于真核生物的細胞核、線粒體和葉綠體基因組中,在個體之間具有良好的通用性,被廣泛地應用于物種鑒定及群體和個體之間的遺傳差異分析。通過所設置參數,在矮扁桃葉綠體全基因組中共鑒定出71個SSR位點,其中單核苷酸重復數目為56,二核苷酸重復數目為3,無三核苷酸重復,四核苷酸重復數目為6,五核苷酸重復數目為2,沒有六核苷酸重復,但有4個復合SSR位點(見表3)。在矮扁桃葉綠體全基因組的簡單重復序列中有91.07%為AT類型,而CG類型僅有5個,且有66.20%的SSR位點位于IGS區,18.30%在內含子區,15.49%位于CDs中。
在矮扁桃的葉綠體全基因組中,檢測出48條長度大于20 bp的重復序列,其中正向重復有16個,反向重復有8個,回文重復有23個(見表4)。僅有1個互補重復,位于trnT-UGU-trnL-UAA基因間隔區(IGS)。其中最長的重復序列為No.1,是回文重復序列,長53 bp,位于trnG-GCC-trnR-UCU基因間隔區;最短是正向重復序列No.47,僅長23 bp,位于ycf1基因上。

表2 矮扁桃葉綠體全基因組注釋基因信息
注:(2)表示重復單元數為2
Note: (2)indicates that the number of the repeat unit is 2
矮扁桃葉綠體全基因組由4個經典區域組成,包括2個反向重復序列區(IRA/IRB)、1個大單拷貝區(LSC)和1個小單拷貝區(SSC)。在綠色植物長期發育與進化的過程中,IR區會出現與兩邊界的單拷貝區(LSC/SSC)重疊的現象,不同植物所表現的重疊長度的不同。我們選取矮扁桃的5種近緣種(扁桃Amygdaluscommunis;蒙古扁桃Amygdalusmongolica;桃Amygdaluspersica;大葉桂櫻Laurocerasuszippeliana;沙梨Pyruspyrifolia)的葉綠體全基因組作為參考序列,比較分析矮扁桃的IR區邊界的擴張和收縮情況(見圖2)。分析結果顯示6種薔薇科近緣植物之間的葉綠體基因組結構差異較小,表現出葉綠體基因組高度的保守性。6種被子植物的葉綠體基因組結構相似,且都具有6個基因位于IR區邊界處,分別是LSC/IRB的rpl22、rps19和rpl2,IRB/SSC的ndhF,SSC/IRA的ycf1,IRA/LSC的trnH。但仍存在一定的差異性,這6種植物的葉綠體基因組中rps19基因全部橫跨LSC/IRB區,但在IRB區向rps19基因不同程

表3 矮扁桃葉綠體全基因組SSR預測
注: p.單個SSR類型;p1/p2/p3/p4/p5/p6中數字分別表示構成基序的堿基個數;c.復合SSR類型;*為位于內含子區
Note: p.Indicates single SSR type; The numbers in p1/p2/p3/p4/p5/p6 indicate the number of bases constituting the motif, respectively; c. Indicates composite SSR type;*is located in the intron region

表4 矮扁桃葉綠體全基因組的重復序列
注:F.正向重復;R.反向重復;C.互補重復;P.回文重復;*.重復序列位于內含子區
Note: F.Direct repeat; R.Inverted repeat; C.Complementary repeat; P.Palindrome repeat;*is the repeat sequence located in the intron region.

圖1 矮扁桃葉綠體全基因組圖譜Fig.1 Chloroplast genome map of A.nana

圖2 6種植物的葉綠體IR區邊界分析Fig.2 Boundary analysis of chloroplast IR region of 6 plants

圖3 基于29種植物構建的近鄰結合樹Fig.3 Nearest neighbor tree of 29 plants
度擴張了68~183 bp;在矮扁桃和蒙古扁桃葉綠體基因組中ndhF基因完全位于SSC區,而在其他的葉綠體基因組中IRB區發生了不同程度的擴張。在這6種植物的葉綠體基因組中trnH基因與IRA/LSC邊界區的距離都有所不同,其中矮扁桃的距離最遠。
選取矮扁桃在內的29種植物進行系統發育樹的構建,以厚葉溲疏和黃脈繡球作為外類群,利用近鄰結合法構建的發育樹包含25個節點,低于100%的僅2個節點,其余節點均為100%,表明聚類結果可信度較高(見圖3)。從系統發育樹中發現矮扁桃、蒙古扁桃和山桃(Amygdalusdavidiana)以100%的支持率聚在同一分支上,而榆葉梅(Amygdalustriloba)和長柄扁桃(Amygdaluspedunculata)所構成的單系支持率也為100%。在扁桃亞屬中,矮扁桃在親緣關系上與蒙古扁桃更近,而與長柄扁桃和榆葉梅的親緣關系稍遠。
被子植物的葉綠體基因組具有典型結構,一般為閉合環狀的雙鏈DNA并包括4個高度保守的區域,其大小通常為115~165 kB,編碼為110~130個基因[22]。4個結構區域長度范圍通常為:IR區(16~27 kB)、LSC區(80~90 kB)和SSC區(20~28 kB)。盡管大多是植物的葉綠體基因組結構保守,但是在各區域大小上卻不盡相同,如在木犀科(Oleaceae)植物中測得SSC區長度在13 252~17 908 bp[23]。本研究矮扁桃的葉綠體全基因組序列長度為158 596 bp,包括IRs區(26 394/26 394 bp)、LSC區(86 771 bp)和SSC區(19 037 bp),為進一步確定被子植物葉綠體基因組的各結構區域長度范圍提供參考依據。同時對包括矮扁桃在內的6種植物進行IR邊界區分析,發現6種植物的rps19基因全部橫跨LSC/IRB區,這與5種已知的菊科(Compositae)植物的IR區分析結果相同[24],不僅降低了本研究結果的偶然性,也體現出被子植物葉綠體基因組的保守性。葉綠體基因組的SSR標記不僅保留該基因組SSR標記的特點,而且有較高的重復性,可作為種質鑒定的一種途徑。本研究中的矮扁桃的葉綠體全基因組中共有71個SSR位點,其數量要遠大于禾本科(Gramineae)植物[25],而小于桑科(Moraceae)植物[26];并發現其中未涉及三核苷酸重復類型,然而在其他被子植物的葉綠體全基因組中卻存在三核苷酸重復類型[27]。
為進一步確定矮扁桃在被子植物中的進化地位和親緣關系,選取NCBI已公布的28種植物,以厚葉溲疏和黃脈繡球作為外類群進行系統進化分析。本研究中榆葉梅和長柄扁桃以100%的支持率聚于同一分支,這與邱蓉和程中平等人通過傳統植物學性狀和核質DNA分析長柄扁桃和榆葉梅親緣關系的研究結果一致[28]。除此之外,矮扁桃、蒙古扁桃和山桃聚在同一分支上,并且矮扁桃與同屬的蒙古扁桃關系最近,這與邱蓉基于ITS序列構建的系統發育樹相吻合[29]。
利用矮扁桃在內29種植物葉綠體全基因組序列數據構建系統發育樹,為桃屬(Amygdalus)植物之間的進化途徑及近緣物種間的親緣關系提供有力的證據,同時對矮扁桃葉綠體基因組的分析為其在分子標記開發和分子鑒定等研究提供參靠數據。