鄧演文,劉曉洲,卓定龍,曾 鳳
(廣州普邦園林股份有限公司,廣東 廣州 510627)
【研究意義】桃金娘科(Myrtaceae)植物主要產于亞熱帶和美洲的熱帶地區,約有100屬3 000 種以上,我國僅含9 屬約126 種[1]。蒲桃屬(Syzygium)為桃金娘科喬木或灌木,全球共有1 200 種,我國有近80 種[1]。蒲桃屬植物具有一定的耐澇能力,其中蒲桃[2]、水翁[3]等均已被證實具有耐受水淹脅迫能力,可用于濱水、河畔綠化等景觀用途。肖蒲桃(Syzygium acuminatissimum)為桃金娘科蒲桃屬植物,原產于中國,其株型優美,嫩葉紅褐色,樹枝軟垂,姿態優雅,兼具觀果價值,適宜作為行道樹或園景樹[4]。目前關于肖蒲桃的研究主要在林分類型[5]、脅迫響應[6]、固氮作用[7]等方面。研究肖蒲桃的葉綠體基因組對蒲桃屬的系統發育和物種鑒定具有重要意義。【前人研究進展】葉綠體參與植物的光合作用、氨基酸和脂肪酸的合成等重要生理過程,在植物生長、發育中起重要作用[8]。該細胞器具有一種環狀雙鏈DNA 的遺傳物質,包含100~130 個基因,總長度在107~218 kb 之間,并具有保守的四部分結構(一個大單拷貝區、一個小單拷貝區和兩個反向重復區)[9]。由于葉綠體基因組序列高度保守、大小穩定、缺乏重組和母體遺傳,因此常被用于系統發育[10]和分化時間[11]的相關研究。近年來,隨著科技發展,獲取基因組的成本降低,許多研究者利用葉綠體基因組數據推測植物分類學水平的系統發育關系[12]。葉綠體基因組分析技術在桃金娘科應用廣泛,涵蓋了桉屬[13]、番櫻桃屬[14]、白千層屬[15]、番石榴屬[14]。目前,蒲桃屬中,已獲知海南蒲桃、丁香蒲桃和滇邊蒲桃具有完整的葉綠體基因組。【本研究切入點】對于肖蒲桃的系統發育關系,有研究者僅基于3 個葉綠體片段序列進行解析[16]。但簡短的片段無法準確評估其在系統發育樹中的位置,因此亟需通過完整的葉綠體基因組序列判定肖蒲桃在蒲桃屬中的親緣關系。【擬解決的關鍵問題】本研究利用高通量測序,組裝和注釋肖蒲桃完整的葉綠體基因組,并解析肖蒲桃葉綠體基因組結構特征與系統發育關系,旨在為蒲桃屬乃至桃金娘科的系統發育研究提供依據。
肖蒲桃葉片采于廣州從化百木苗場(113°24 ′06 ″E、23 °43 ′04 ″N),植物標本(Zhang-20200729)放置于中山大學標本館。采用CTAB 法[17]對肖蒲桃葉片提取基因組DNA,-20℃下保存,備用。
1.2.1 基因組測序和注釋 利用提取的DNA 構建DNA shotgun 文庫,并在Illumina HiSeq X TEN平臺(美國)進行測序。使用SOAPnuke 軟件[18]進行質量控制后,將約2 Gb 的干凈讀段以海南蒲桃(Syzygium cumini)的葉綠體基因組作為參考,在SPAdes v3.13.0 軟件[19]上組裝完整的肖蒲桃葉綠體基因組。基因注釋在GeSeq(https://chlorobox.mpimp-golm.mpg.de/geseq.html)[20]上進行。將帶注釋的葉綠體基因組序列提交至GenBank(登錄號:MT975437)。使用Editseq v7.1.0 軟件[21]計算肖蒲桃葉綠體基因組序列的鳥嘌呤-胞嘧啶(GC)含量。采用CHLOROPLOT 軟件[22]繪制肖蒲桃葉綠體基因組圖譜。
1.2.2 氨基酸頻率、RNA編輯位點與重復序列使用MEGA v7.0軟件[23]生成蛋白編碼基因的相對同義密碼子使用值(RSCU)。使用PREP 軟件[24]的默認設置預測蛋白編碼基因中的RNA編輯位點。通過REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer/)[25]在線服務識別葉綠體基因組中的重復序列(正向、反向、互補和回文)。通過MISA-web(https://webblast.ipkgatersleben.de/misa/)[26]在線檢測葉綠體基因組中的簡單序列重復,其中單、二、三、四、五、六核苷酸重復的最小重復數分別設置為8、5、4、3、3。
1.2.3 基因組比較與序列變異分析 采用IRscope軟件[27]對肖蒲桃、海南蒲桃、丁香蒲桃、滇邊蒲桃4 個蒲桃屬葉綠體基因組中4 個不同區域實現邊界可視化。使用DnaSP v6.12.0 軟件[28]檢測上述4 個蒲桃屬植物葉綠體基因組序列的核苷酸多樣性(π)。
1.2.4 系統發育分析 為了研究肖蒲桃在桃金娘科中的系統發育關系,基于11 個桃金娘科和2 個菊科植物葉綠體基因組中的蛋白編碼基因,使用RAxML 軟件[29]構建最大似然樹,并設置1 000步的bootstrap。所有植物葉綠體基因組序列均從NCBI 核苷酸數據庫下載。
完整的肖蒲桃葉綠體基因組長度為159 352 bp,具有典型的四分結構,包括大單拷貝區(LSC)87 993 bp,小單拷貝區(SSC)18 415 bp 和一對反向重復區(IR)26 472 bp。圖1 顯示,肖蒲桃葉綠體基因組的總GC 含量為37%,LSC、SSC 和IR的GC 含量分別為34.73%、30.63%和42.66%。

圖1 肖蒲桃葉綠體基因組圖譜Fig.1 Map of the chloroplast genome of Syzygium acuminatissimum
本研究在肖蒲桃葉綠體基因組中共注釋了109 個基因,包括78 個蛋白質編碼基因(PCG)、27 個tRNA 基因和4 個rRNA 基因。其中,有55個基因參與自我復制,包括4 個基因編碼rRNA、27 個基因編碼tRNA、12 個基因編碼核糖體小亞基蛋白、8 個基因編碼核糖體大亞基蛋白、4 個基因編碼RNA 聚合酶亞基;另有45 個基因參與光合作用,包括6 個ATP 合酶基因、11 個NADH脫氫酶基因、6 個細胞色素b/f 復合體基因、5 個光系統I 基因、15 個光系統II 基因、1 個翻譯起始因子IF-1 和1 個Rubisco 長鏈基因(表1)。

表1 肖蒲桃葉綠體基因組基因Table 1 Genes of the chloroplast genome of Syzygium acuminatissimum
本研究在肖蒲桃葉綠體基因組中共檢測到17個基因具有內含子,包括12個蛋白編碼基因和5個tRNA編碼基因(表2)。ycf3、clpP、和rps12具有2個內含子,其余僅具有1個內含子。編碼40S核糖體蛋白S12的rps12基因被剪接為兩個片段,其中一個外顯子位于大單拷貝區,另外兩個外顯子位于重復片段區。最長的內含子位于trnK-UUU基因(2 526 bp)中,因為其內部含有matK基因;trnL-UAA的內含子最短(530 bp)。

表2 肖 蒲桃葉綠體基因組中含有內含子基因的特征Table 2 Characteristics of genes containing introns in the chloroplast genome of Syzygium acuminatissimum
肖蒲桃葉綠體基因組中的蛋白編碼基因共有21 379 個密碼子(不包含終止密碼子)。由圖2 可知,數量最多的3 個氨基酸分別是絲氨酸(2 275)、亮氨酸(1 973)和精氨酸(1 770),而數量最少的3 個分別為蛋氨酸(374)、色氨酸(485)和纈氨酸(497)。在30 個最常見的密碼子(RSCU >1)中,絕大多數以A 或U 結尾,只有UUG 和AGG 以G 結尾。相反,在32 個最不常見的密碼子(RSCU <1)中,僅有UUC、CUA、AUA 不 以C 或G 結 尾。此 外,AUG 和UGG 沒有密碼子偏向性(RSCU=1)。

圖2 基于肖蒲桃葉綠體中78 個蛋白編碼基因的氨基酸頻率Fig.2 Amino acid frequency based on 78 protein-coding genes of Syzygium acuminatissimum chloroplast
肖蒲桃葉綠體基因組中共有47 個RNA 可編輯位點(表3),其中約1/3(15 個)的RNA 可編輯位點可將絲氨酸轉化為亮氨酸。在ndhB基因檢測到的RNA 可編輯位點最多(10 個),其次是ndhD(5 個)和matK(4 個)。大多數氨基酸的轉化是從極性基團變為非極性基團,而只有兩個位點的氨基酸基團從非極性變為極性(脯氨酸轉化為絲氨酸),其中一個位于psbE基因、另一個位于rpoC1基因。

表3 肖蒲桃葉綠體基因組中的RNA 可編輯位點Table 3 RNA editable sites in the chloroplast genome of Syzygium acuminatissimum
在肖蒲桃葉綠體基因組中共檢測到48 個長片段重復,其中18 個正向重復、6 個反向重復、22 個回文重復和2 個互補重復。長片段重復的長度范圍在19~42 bp 之間,其中長度為19 bp 的重復最多(14 個)、其次是22 bp(8 個),而42 bp 的最少(1 個)。
在肖蒲桃葉綠體基因組中共檢測到230 個簡單重復序列,其中絕大多數為單核苷酸重復(205個),其次為四核苷酸重復(12 個)、三核苷酸重復(7 個),雙核苷酸重復(4 個)和四核苷酸重復(2 個)較少,未檢測到六核苷酸重復。所有簡單重復序列中,最長為17 bp,最短僅有8 bp。
由圖3 可知,4 個蒲桃屬植物的rps19 基因均跨越LSC 和IRb 邊界;rpl2基因完全位于IRb;丁香蒲桃的ndhF基因跨越IRb 和SSC;ycf1基因均跨越SSC 和IRa;丁香蒲桃和肖蒲桃的trnH基因跨越IRa 和LSC,而海南蒲桃和滇邊蒲桃的trnH基因則完全位于LSC 中。

圖3 4 種蒲桃屬植物葉綠體基因組的4 個連接邊界Fig.3 Four junction boundaries of the chloroplast genomes of four Syzygium plants
肖蒲桃葉綠體基因組的平均核苷酸多樣性π值為0.00453,檢測到7個π值較高的區域,包括trnH-psbA、trnG-psaB、trnP-rpl33、rpl2-trnM、ndhF、ndhA、trnN-rrn23(圖4),其中2個位于基因區、5個位于基因間隔區。

圖4 4 種蒲桃屬植物葉綠體基因組的核苷酸多樣性Fig.4 Nucleotide diversity of the chloroplast genomes of four Syzygium plants
為了解肖蒲桃在桃金娘科中的系統發育關系,從桃金娘科中選擇11 個物種作為主群體,從菊科中選擇2 個物種作為外類群。基于78 個共有蛋白編碼基因,采用RAxML 構建了具有1 000 個bootstrap 的最大似然樹(圖5),結果表明肖蒲桃與丁香蒲桃關系密切。

圖5 基于13 種植物葉綠體基因組的最大似然樹Fig.5 Maximum likelihood tree based on the chloroplast genomes of 13 species
在高等植物葉綠體基因組中,通常具有長度為120~160 kb 的序列、典型的四分結構[30]。肖蒲桃葉綠體基因組也不例外,其葉綠體基因組長度為159 352 bp,總GC 含量為36.89%,大單拷貝、小單拷貝和反向重復區的GC 含量分別為34.73%、30.63%和42.66%。與大多數被子植物相似,反向重復區的高GC 含量可能由于該區域的rRNA 序列GC 含量較高而引起[31]。
肖蒲桃葉綠體基因組的蛋白編碼基因中共有21 379 個密碼子,在RSCU >1 的密碼子中,除了UUG 外,其余密碼子均以A 或U 結尾,這與罌粟[31]和紫荊澤蘭[32]相同。在蛋白編碼基因中共檢測到47 個可被編輯的RNA 位點。其中大部分氨基酸可從絲氨酸轉換為亮氨酸,而ndhB基因中的可編輯位點最多(10/47),在連翹(Forsythia suspensa)[33]和刺柏(Sanionia uncinata)[34]中也有相似研究結果。葉綠體簡單重復序列是一種有效的分子標記,常用于群體遺傳學、生物地理學和系統發育評估[35-36]等研究。在肖蒲桃葉綠體基因組中,絕大多數為單核苷酸重復(205/230),與大多數研究結果[37-39]一致。
由進化事件引起的反向重復區的變化導致邊界和基因組大小發生細微變動,增加了物種的遺傳多樣性[40]。在本研究中,肖蒲桃、海南蒲桃、丁香蒲桃、滇邊蒲桃4 個蒲桃屬植物的連接邊界情況稍有不同,這可能與蒲桃屬植物物種繁多、擁有豐富的遺傳多樣性有關[41]。
DNA條碼廣泛應用于植物鑒定研究[42]。然而在蒲桃屬中,僅有少數幾個區間用于物種鑒定,如matK、ndhF、rpl16、atpB-rbcL、trnL-F等[16,43-44]。本研究通過計算π值發現,反向重復區比大單拷貝區和小單拷貝區區的保守性更高,該結果與其他被子植物一致[30,45];此外,獲得7個π值高于0.015的區域,包括trnH-psbA、trnG-psaB、trnP-rpl33、rpl2-trnM、ndhF、ndhA、trnN-rrn23,這些信息將為未來的物種鑒定提供依據。
蒲桃屬物種繁多,為該屬的物種鑒定和系統發育研究帶來極大難度[1]。本研究構建的桃金娘科進化樹結果與 Biffin 等[16]基于3 個葉綠體片段得到的蒲桃屬系統發育結果一致,肖蒲桃與丁香蒲桃的親緣關系較近。但由于蒲桃屬植物數量較多,目前僅有的數據并不能準確說明肖蒲桃在蒲桃屬系統發育樹中的準確位置,今后仍需獲取更全面的數據進行深入研究分析。
本 研究利用高通量測序,組裝和注釋了肖蒲桃完整的葉綠體基因組,并解析了該基因組的結構特征和系統發育關系,結果表明肖蒲桃葉綠體基因組的結構特征與其他蒲桃屬植物相似,具有典型的四分結構,共檢測到109 個基因、21 379個密碼子、47 個RNA 可編輯位點、48 個長片段重復、230 個簡單重復序列。基因組比較分析表明,4 個蒲桃屬植物的IR 邊界有較小差異,核苷酸多樣性高于0.015 的區間有7 個。系統發育關系分析表明,肖蒲桃與丁香蒲桃的親緣關系較近。