肖啟蒙
(華北理工大學生命科學學院,河北唐山 063210)
板藍(Strobilanthes cusia)是爵床科灌木狀多年生草本植物,廣泛分布在我國的四川、貴州、浙江和福建等地。板藍全身皆可入藥,根被稱為“南板藍根”,莖和葉經加工后可得青黛,能夠治療病毒性肝炎、流感、感冒、肺炎、炎癥、皰疹、丹毒、蛇咬傷等[1],青黛是牛黃消炎丸、桂林西瓜霜等的主要原料[2-3]。其中,福建馬藍(板藍)青黛品質最佳,是福建省大宗地道藥材之一[4]。最近,高質量板藍基因組數據可獲得[5],為進一步探究板藍基因組進化歷史及生物學特征奠定了基礎。
多倍化(polyploidy)是物種多樣性演化的重要基因組動力,為地球上綠色植物的龐大類群的出現做出了巨大貢獻,尤其在被子植物的演化過程中尤為突出[6]。物種經歷多倍化,其早期基因組將以古老的多倍體形式存在,而后會出現大規模的染色體重排,以及伴隨發生的重復基因丟失現象,這就導致現存物種基因組相對其祖先,已經發生了復雜的變化,因此也為研究其古老的演化歷史帶來了挑戰。板藍作為真雙子葉植物,至少經歷了3 次多倍化事件,包括種子植物共享的全基因組加倍ζ(zeta)事件和被子植物共有的ε(epsilon)事件,以及最近發生的一次核心真雙子葉植物共同經歷的古老六倍體γ(gamma)事件。多倍化事件的鑒定及對物種進化的影響,是基因組研究的一個熱點,其中對于古老時期、且在一個較短的時間里,發生的潛在的由多倍化導致的基因組激變事件的鑒定是一個難點。地球上真雙子葉植物出現距今有約1.5 億年[7-9],早期分化關鍵節點幾乎是在同一歷史時期,對于板藍而言,其從核心雙子葉中分化出來的時間較早且分化較快,受到輻射性演化的影響,因而增加了這一分化前后的全基因組加倍事件的分析難度。
本研究通過使用前人開發的方法[10],將板藍基因組與兩個優良的參考基因組——葡萄(Vitis vinifera)和漾濞槭(Acer yangbiense)進行共線性分析和全基因組比對分析,旨在厘清板藍基因組的進化歷程,探究板藍的生物學功能。
從不同的網站下載了每個基因組項目的基因組序列和注釋文件。葡萄的基因組數據可以在NCBI 上找到(https://www.ncbi.nlm.nih.gov/),漾濞槭的基因組信息可以在GenBank 找到(http://www.ncbi.nlm.nih.gov/genbank/),板藍的基因組數據可以在CNGB Sequence Archive (CNSA) 找 到(https://ftp.cngb.org/pub/CNSA/data3/CNP0001632/CNS0343944/CNA0019301/)。
基因共線性表明基因組之間的基因和基因順序在一定程度上是保守的,這可以反映共同祖先的同源染色體結構;這對于理解基因組變化,特別是推斷復雜植物基因組的進化至關重要。通過BLAST 對蛋白質序列進行比較[11],E 值<1e-5,得分>100。隨后,來自BLAST 的同源基因信息被用作ColinerScan 軟件[12]的輸入,為了定位同源基因對,筆者將同源基因之間的最大間隙分別設置為10、20、40、50、60、80、100 和200 個干預基因,并通過使用這些信息獲得同源基因點圖[13-14]。最后,當閾值設置為50 時,發現了最清晰的共線性片段,并確定出旁系同源和直系同源基因。
使用Nei-Gojobori 方法[15],通過使用Bioperl 統計模塊,估計同義位點(Ks)上的同義核苷酸替換。然后,對齊多個基因CDS,并使用ClustalW v2.0 設置默認參數[16]。
使用核函數來分析基因組內和基因組之間的同基因同源物的Ks 分布。Ks 分布被認為是正態分布的混合。MATLAB v9.2.0[17]用于估計每個Ks 列表的密度并獲得密度分布曲線,而核平滑密度函數的寬度參數設置為0.05。通過在擬合工具箱工具中執行高斯函數來擬合曲線,評估擬合優度的參數R2通常設置為不小于95%。本文使用Ks分布曲線的最大似然估計μ(Ks峰值)。
通過比較與物種分化和特定多倍體事件相關的同源區域的Ks值,確定了同源和旁系的染色體區域。
基于多基因組比對關系,使用McScanX 的jcvi 模型展示筆者在參考基因組和板藍基因組之間選擇的同源基因深度比關系的信息[18]。
為了探究板藍的多倍化歷程,筆者比較了板藍基因組與葡萄、漾濞槭基因組間的共線性關系(見表1)。在葡萄和漾濞槭基因組中,當共線性區域所包含的共線性基因對大于4 對時,分別鑒定出了位于385 和670 個同源共線性區域上的3 558 和4 853 對共線性基因對。然而,在相同條件下,在板藍基因組內鑒定出13 225對共線性基因對位于1 520個同源區域上,這大約是葡萄和漾濞槭基因組內共線性基因對的3倍左右。隨后,筆者對基因組間也進行了比較,發現板藍與葡萄、漾濞槭間分別存在50、51個長片段(連續基因對數量大于50 對),包括了4 016 和4 673 對共線性基因對,值得注意的是,在葡萄與漾濞槭基因組間存在8 611對共線性基因對,這大約是板藍與兩個參考基因組間的2 倍。這些基因組比較表明,板藍基因組中有更多的區塊,并且它們更小,這表明板藍可能在ECH后經歷了進一步的多倍化事件。

表1 板藍與參考基因組中位于基因組內或基因組之間推測的共線性片段中的同源基因對數量 單位:個
筆者對共線性基因對所處的同源區域進行了同義核苷酸替換分析,計算了多倍化事件和物種分化所對應的Ks峰,并進一步推斷了進化關鍵事件發生的時間節點(見圖1)。葡萄、漾濞槭和板藍基因組中的共線性基因對分別在0.978 9、1.251 和1.09 處存在峰值,并且板藍基因組存在一個更小的峰,約為0.929 8,因此筆者推測前面三個峰對應核心真雙子葉共享的多倍化事件(core eudicots hexaploidy,ECH),板藍的較小峰對應板藍額外經歷的多倍化事件。此外,筆者發現板藍與葡萄、漾濞槭分化的峰分別為1.31 和1.43,均大于葡萄與漾濞槭分化的峰(0.946 9),表明板藍先于葡萄、漾濞槭分化,隨后葡萄和漾濞槭再分開。進一步地,筆者對板藍及參考基因組進化過程中的關鍵進化事件進行時間節點的推斷,利用之前研究中確定的ECH 事件發生在大約115~130 個百萬年前[9],筆者推算出板藍大約在111~126個百萬年前與葡萄、漾濞槭分支發生分化,隨后在約106~120個百萬年前經歷了額外的多倍化事件,最后葡萄與漾濞槭在85~96 個百萬年前發生分化。從上述結果中,筆者可以看到,在ECH 事件后,板藍基因組在相當短的時間內經歷了多倍化及分化事件,這會增大多倍化事件的鑒定難度,是板藍基因組分析中的巨大挑戰。

為了揭示板藍基因組的多倍化歷程,筆者對葡萄和板藍基因組進行比較,發現板藍的9個直系染色體區域與葡萄3 個由ECH 事件產生的旁系染色體區域相匹配。比如,葡萄基因組中由ECH 事件產生的Vvi4、Vvi9、Vvi11 與板藍基因組中的9 個旁系染色體區域Scu2、Scu9、Scu10、Scu5、Scu15、Scu16、Scu3、Scu6、Scu8相匹配(見圖2A)。當用漾濞槭基因組與板藍基因組進行比較時,也可觀察到類似的結果(圖2B)。這些基因組間共線性分析表明,葡萄與板藍,漾濞槭與板藍間的直系同源共線性深度比皆為3∶9。進一步地,對板藍基因組內也進行全基因組比較,發現其自身存在兩個旁系同源區域,比如,Scu3 和Scu4、Scu6 為旁系同源區域(圖2C)。綜合基因組間和基因組內比較結果,表明板藍基因組應該在ECH 事件后經歷了一次額外的三倍化事件。參考基因組與板藍間的進化關系如圖2D所示。

在前面鑒定出的直系同源與旁系同源區域的基礎上,筆者可以區分出多倍化事件相關的共線性區域。葡萄、漾濞槭和板藍間分化的直系同源關系如圖3A 所示。比如,葡萄的18 號染色體有一個直系同源區域位于漾濞槭的10 號染色體上。有3 個直系同源區域分別位于板藍的3、14和16號染色體上(圖3B)。同時,由于多倍化后會存在大量的基因丟失,所以在板藍和兩個參考基因組之間的微共線性同源區域的基因清楚地表明,存在一些基因沒有顯示出預期的共線性深度同源比(見圖3B)。

此外,基于三個比較基因組中同源基因的位置,筆者構建了一個分層次和事件相關的多基因組比對表。在這里,以葡萄為參考基因組,筆者將葡萄的所有基因ID填充到第一列,然后根據多重比對推斷出的基因組合成,逐列逐種添加葡萄、漾濞槭、板藍的基因標識符。假設沒有基因丟失,來自ECH 事件的葡萄中的三個旁系基因中的每一個都分別在漾濞槭和板藍中有一個和三個同源基因。因此,多基因組比對表包括15(3+3+9)列,其中包含三列葡萄基因、三列漾濞槭基因和九列板藍基因。當一個基因在預期位置缺失時,通常是由于基因丟失、易位或可能的組裝不充分,筆者在相應的位置輸入一個點來表示缺失的基因,利用構建的列表進行多基因組比對(圖3C)。該表總結了多重基因組和事件相關比對的結果,反映了遞歸多倍體化導致的三倍同源性,為爵床科生物信息學的進一步深入探究提供了重要的基因組學資源。
遞歸多倍體化在植物基因組中頻繁發生,為基因組功能創新提供了巨大的機會[19-22]。多倍體化后,植物基因組常常伴隨著基因丟失和染色體重排,這使得基因組更加復雜,在識別多倍化事件時也會產生巨大的挑戰[23]。比如,對最好匹配片段的選擇存在差異[24],多倍體后進化速度加快,導致與最近多倍體事件相關的同源區塊的Ks值與ECH 事件的Ks值無法區分[9]等。在之前對板藍基因組的分析中,并沒有提到板藍在進化過程中經歷了全基因組多倍化事件[5]。本文對板藍與參考基因組進行了深入的全基因組比對分析,發現葡萄與漾濞槭,葡萄與板藍的直系同源比分別為1∶1,1∶3,表明板藍基因組在ECH 事件后又經歷了一次額外的三倍化事件。這不僅可以成為探究爵床科植物進化歷程的模式,也因筆者對板藍基因組構建的多重基因組比對列表,而能為后續爵床科植物基因組學研究打下堅實的基礎。此外,本研究為進一步加強板藍育種工作,提高板藍產量提供了理論基礎。