朱靈芝,朱沛煌,李 榮,陳 妤,季孔庶
(南京林業大學,林木遺傳與生物技術省部共建教育部重點實驗室,南方現代林業協同創新中心,江蘇 南京 210037)
馬尾松(Pinus massonianaLamb.) 在我國松屬樹種中分布最廣泛,具有適應性強、經濟價值高等特點。它分泌的大量以萜類化合物為主的次生代謝物稱為松脂,主要由單萜、倍半萜和二萜組成,貯存在針葉樹的根、莖、葉和球果中[1]。松脂是松香、松節油工業的基礎原料,松香、松節油深加工產品又可作為其他相關工業的中間原料,廣泛用于油墨、膠黏劑、香料、涂料、紡織、電子印染和醫藥等工業生物產品中[2]。
萜類化合物是植物次生代謝產物中最大的一類天然化合物,廣泛存在于動植物體內,目前已研究報道過的萜類化合物有5 萬多種。萜類化合物有重要的生物學功能和應用價值,在植物體內,單萜和倍半萜可看作揮發油的成分,大多數具有香氣,是食品、醫藥、化妝品的重要原料。超過20 個碳的萜類物質一般為非揮發性物質,樹脂酸和赤霉素是二萜中最常見的物質,其中,樹脂酸在馬尾松中占所有代謝物的70% 以上[3]。1-脫氧-d-木酮糖-5-磷酸還原異構酶(DXR)是馬尾松萜類化合物合成途徑中的重要限速酶,它催化1-脫氧-d-木酮糖-5-磷酸(DXP)發生還原反應生成2-C-甲基-D-赤蘚糖醇-4-磷酸(MEP)[4],同時DXP 也是維生素B1 和B6 的前體物質[5-6],故該催化反應被認為是MEP 途徑中的關鍵調控位點。目前,已從多種植物中克隆出DXR基因,并對其功能作了相關研究;但關于DXR基因密碼子偏好性的研究較少,僅在豆科植物中有報道,李凌烜等發現豆科植物DXR基因對A 或U 結尾的密碼子表現出較強的偏好性[7]。
密碼子是自然界中遺傳信息準確識別和傳遞的基本載體,在生物遺傳和變異中起著關鍵作用。構成天然蛋白質的20 種氨基酸中除甲硫氨酸和色氨酸外,其余氨基酸都對應2~6 種密碼子,編碼同一種氨基酸的密碼子被稱為同義密碼子[8]。研究發現,不同生物體在編碼氨基酸時對密碼子的選擇并不是完全隨機的,而是偏好使用某些特定的同義密碼子[9];另外,同種生物中不同基因對密碼子的使用頻率也存在差異,這種現象即為密碼子使用偏好性[10]。同義密碼子的選擇使用不改變氨基酸序列,有利于翻譯的準確性,但可能會對蛋白表達水平產生影響[11-12]。密碼子偏好性會影響蛋白質翻譯的速度和折疊、mRNA 水平的轉錄調控及外源基因的表達量[13-14]。如果外源基因密碼子與宿主系統密碼子的使用頻率相比有明顯差異,將會影響外源基因的翻譯與表達[15]。因此,分析密碼子的偏好性對研究基因功能、蛋白結構和提高外源基因表達效率有重要意義。目前,科學界尚無關于馬尾松PmDXR基因在密碼子偏好性方面的報道,對其相關功能尚不清楚。本研究將分析馬尾松PmDXR基因密碼子使用偏好性,討論其形成的主要因素,再與擬南芥(Arabidopsis thaliana(L.) Heynh.)、煙草(Nicotiana tabacumL.)、釀酒酵母(Saccharomyces cerevisiaeMeyen. ex Hansen.)和大腸桿菌(Escherichia coli(Migula.) Castellani & Chalmers.)基因組密碼子進行比較分析,以期為馬尾松PmDXR功能驗證相關研究提供基礎數據。
馬尾松PmDXR基因序列由本實驗室克隆獲得,該序列全長1 994 bp(GenBank 登錄號為MK969119.1),其開放閱讀框(ORF) 為1 584 bp,編碼527 個氨基酸。銀杏(Ginkgo bilobaL.)、赤松(Pinus densifloraSieb. et Zucc.)、火炬松(Pinus taedaL.) 等38 個物種的DXR基因CDS 序列來自GenBank(https://www.ncbi.nlm.nih.gov/),登錄號見表1。本文所采用的擬南芥、煙草、釀酒酵母和大腸桿菌的基因組密碼子使用頻率數據來自密碼子使用數據庫(http://www.kazusa.or.jp/codon)。
1.2.1DXR基因同義密碼子偏好性分析 整理38個物種DXR基因的CDS 序列,借助CodonW1.4.2軟件計算密碼子的使用特性參數,包括A3s、C3s、U3s、G3s、相對同義密碼子使用度(RSCU)、密碼子適應指數(CAI) 和有效密碼子數(ENc) 等。運用EMBOSS 中的CUSP 和CHIP 在線程序計算38 個物種DXR基因密碼子G 和C 總含量(GC)、密碼子第3 位上的GC 含量(GC3s)、使用頻率(Frequency)等;同時運用SPSS20.0 軟件分析38個物種DXR基因密碼子使用特性參數的相關性,再進一步對DXR基因密碼子進行中性繪圖分析、奇偶偏好性(PR2-plot)分析以及ENc-plot 分析。
CAI 值范圍為0~1,越接近1 表明偏好性越強,而越接近0 則表明偏好性越弱[16]。ENc 值范圍為20~61,可反映特定基因密碼子家族中同義密碼子非均衡使用的偏好程度[17]。RSCU 為某一密碼子的使用頻率與其無偏性時期望頻率的比值。一般,若RSCU 值小于1,表明該密碼子使用偏好性較低;若其值等于1,表明該密碼子無偏好性;若其值大于1,則表明該密碼子使用偏好性較強[18]。
1.2.2 基于DXR基因CDS 序列和密碼子使用偏好性的聚類分析 通過MEGA5.1 軟件中的鄰接法(Neighbor-Joining),基于38 個物種DXR基因的CDS序列構建系統進化樹,檢驗方法為Bootstrap method,檢驗次數為1 000,Gaps 處理方法為Complete deletion。并利用在線繪圖軟件EvolView (https://evolgenius.info//evolview-v2/#login)可視化展示進化樹。將每個物種的DXR基因作為一個對象,以59 個同義密碼子的(去除終止密碼子TAA、TAG 和TGA,起始密碼子ATG 和編碼甲硫氨酸的密碼子TGG)的RSCU 值為變量對密碼子使用偏好性進行分析。
2.1.1 GC、GC3s 、ENc 和CAI 分 析 利用CondonW 程序分析馬尾松PmDXR基因密碼子的CAI 值、ENc 值,同時運用EMBOSS 中的CUSP在線程序計算總GC 含量以及GC3s 有效密碼子數。結果(表1)顯示:PmDXR基因中密碼子的GC 和GC3s 分別為43.75% 和34.47%,說明其密碼子比較偏好以A/T 結尾。ENc 值為35 可作為區分偏好性強弱的標準[19],PmDXR基因密碼子ENc 值為48.93,說明PmDXR基因在編碼氨基酸時密碼子使用偏好性較弱,其表達水平可能相對較低。CAI 值為0.184,進一步表明PmDXR基因對密碼子的選擇偏好性較弱。

表1 不同物種間DXR 基因密碼子選擇偏好性相關參數Table 1 Preference related parameters of DXR gene codons among different species
2.1.2 同義密碼子相對使用度分析 CUSP 和CodonW 計算結果(表2) 表明:有25 個密碼子的RSCU 值大于1(除終止密碼子TGA),其中,GCA、GCT、AGA、AAT、GGA、CCA、CCT、TCA、TCT、ACA、TAT、GTT 共12 個密碼子的RSCU 值大于1.5,且編碼精氨酸的AGA 與編碼絲氨酸的TCT 密碼子RSCU值分別為3.60、2.17,說明PmDXR基因中共有25 個密碼子具有偏好性,其中,有12 個密碼子偏好性較強,2 個偏好性極強。TGC、TGT、TCC、TGG共4 個密碼子(除起始密碼子ATG) 的RSCU 值等于1,說明PmDXR基因中有4 個密碼子沒有偏好性。29 個密碼子的RSCU 值小于1,說明PmDXR基因對這些密碼子的使用偏好性較弱。編碼Arg 的密碼子CGC 和CGT 的RSCU 值為0,說明它們可能不參與馬尾松PmDXR基因的翻譯過程。此外,馬尾松中NCG 型密碼子的RSCU 值(GCG: 0.15,CCG: 0.24,TCG: 0.33,ACG: 0.15)較低,推斷馬尾松可能是一種甲基化程度較高的植物。

表2 馬尾松PmDXR 基因同義密碼子相對使用度Table 2 RSCU of PmDXR gene in P. massoniana
2.2.1 相關參數比較分析 38 個物種DXR基因密碼子的A3s、C3s、U3s、G3s、ENc 值、CAI 值、GC 和GC3s 含量見表1。分析比較A3s、C3s、U3s和G3s 發現,38 種植物DXR的A3s 和U3s 普遍高于C3s 和G3s,表明DXR編碼區優先使用A 或U 結尾的同義密碼子。38 個物種DXR基因的ENc 值為47.89~59.49,平均值為52.59,其中,裸子植物DXR的ENc 平均值為49.04,單子葉植物DXR的ENc 平均值為54.51,雙子葉植物DXR的ENc 平均值為52.94,表明裸子植物DXR基因的密碼子偏好性相對單子葉和雙子葉植物較高。由此可見,DXR基因在各物種中表現出較弱的密碼子偏好性,表達水平普遍不高,但物種間還是存在一定差異。38 個物種DXR基因的CAI 值介于0.184~0.244,進一步說明DXR基因的密碼子偏好性較弱。裸子植物DXR的GC 含量介于43.75%~45.26%,GC3s 介于33.75%~36.82%。單子葉植物DXR的GC 含量介于47.49%~48.03%,GC3s介于41.60%~43.64%。雙子葉植物DXR的GC 含量介于43.65%~49.23%,GC3s 介于34.11%~51.68%。整體看,裸子植物DXR的GC 含量和GC3s 低于雙子葉植物和單子葉植物,且38 種植物DXR基因均偏好以A/T 結尾的密碼子。
2.2.2DXR同義密碼子相對使用度分析 RSCU 是衡量密碼子偏好性的重要指標,用38 個物種DXR基因密碼子的RSCU 值制作熱圖(圖1),結果顯示:裸子植物與單子葉植物和雙子葉植物DXR的RSCU 值存在一定差異。整體看,裸子植物DXR中RSCU 值大于1.5 的密碼子較單子葉植物和雙子葉植物多,東北紅豆杉RSCU 大于1.5 的密碼子有16 個,丹參和夏枯草只有6 個。說明裸子植物密碼子使用偏好性比其他植物強,這與基于ENC 分析的結果相同。在所分析的絕大部分物種的DXR基因密碼子中,GCT、AGA、GAT、ATT、CTT、TTG、CCT、TCT、GTT 的RSCU 值都大于1,說明這幾個密碼子出現頻率較高,屬于共同偏好使用的密碼子,且這些密碼子偏向以A/T 結尾。除此之外,通過對馬尾松、火炬松、赤松DXR的密碼子分析發現,AGA、TCT 的RSCU 值均大于2,由此推測松科植物對這2 個密碼子的偏好性極強。
2.2.3DXR密碼子成分相關分析 用SPSS20.0 對DXR密碼子成分 GC、GC3s、ENc、CAI、密碼子偏愛指數(CBI)、最優密碼子使用頻率(Fop)、A3s、U3s、C3s、G3s 進行兩兩Pearson 關聯分析(表3)。結果顯示:ENc 和GC、GC3s、CAI、CBI、Fop、C3s、G3s 參數呈顯著或極顯著正相關,與U3s、A3s 參數呈極顯著負相關,說明DXR密碼子偏好性越強,其堿基中A、T 含量越高。
2.2.4 不同物種DXR基因中性繪圖分析 密碼子第1、2 位GC 含量平均值(GC12)與GC3s 相關性分析表明相關不顯著,對不同物種DXR基因進行中性分析(圖2) 發現:GC3s 的范圍為33.75%~51.68%,GC12 的范圍為47.79%~50.74%。GC12的范圍相對較小,絕大部分基因靠近回歸線分布。GC12 與GC3s 的線性回歸系數為0.022 7,遠小于1,說明DXR基因密碼子第1、2 位堿基與第3 位堿基組成差異較大。由此推斷,在進化過程中DXR基因密碼子的偏好性主要受自然選擇影響[20]。
2.2.5 不同物種DXR基因PR2-plot 分析 圖3 顯示:在PR2-plot 分析中,A3/(A3 + T3)或G3/(G3 + C3)值都偏離了0.5,大都分布在平面圖的右下方,表明密碼子第3 位堿基T 的頻率高于A,G 的頻率高于C,表明多數物種DXR密碼子偏好模式很大程度上受自然選擇的影響[21],與中性分析的結果一致。
2.2.6 不同物種DXR基因ENc-plot 分析 ENc-plot分析結果(圖4)發現:38 個物種DXR基因位點均分布在標準曲線下方,實際ENc 值與理論ENc 值存在差異,且大部分離標準曲線較遠,說明大部分DXR基因密碼子偏好性形成受自然選擇的作用較大;但其中夏枯草DXR基因位點距離標準曲線較近,說明夏枯草DXR基因偏好性主要受突變影響。
采用鄰接法構建38 個物種DXR基因的CDS序列系統進化樹(圖5)。38 個物種聚為2 大類,第1 類由裸子植物組成,第2 類由單子葉植物和雙子葉植物組成。在單子葉植物中,3 種禾本科植物的CDS 序列同源性較高,聚在一個小的分支上。使用SPSS20.0 軟件對38 個物種DXR基因的RSCU值進行聚類分析(圖6),同樣將38 個物種聚為2 大類,第1 大類為裸子植物,其中,同屬于松科的馬尾松、赤松和火炬松的DXR基因聚在一個小支上,與銀杏、東北紅豆杉的2 個小支共聚在一個大支上,表明具有相近親緣關系的物種在密碼子使用模式上較為相似。第2 大類中,禾本科植物仍聚為一個小類別,同屬薔薇科的枇杷、西洋梨和玫瑰聚為一小類,菊科植物黃花蒿、艾草與屬于龍膽科的滇龍膽草聚為一小類,但是也發現基于RSCU值的聚類分析結果與CDS 序列構建的進化樹存在差異。由此可見,并非所有親緣關系較近的物種其DXR基因的密碼子使用偏好性都具有相似性,部分物種在長期進化過程中可能會形成獨特的密碼子使用偏好性。

圖1 38 個物種DXR 基因的RSCU 熱圖Fig. 1 Heat map of RSCU values of DXR gene from 38 species

表3 DXR 密碼子成分相關分析Table 3 Correlation analysis of DXR related parameters

圖2 不同物種DXR 基因中性繪圖Fig. 2 Neutrality plot of DXR genes in different species

圖3 不同物種DXR 基因PR2-plot 分析Fig. 3 PR2-plot analysis of of DXR genes in different species

圖4 不同物種DXR 基因ENc-GC3s 關聯繪圖Fig. 4 ENc-plot of DXR genes in different species

圖6 DXR 的RSCU 值聚類分析Fig. 6 RSCU cluster analysis of DXR
將馬尾松PmDXR密碼子使用頻率分別與擬南芥、煙草、釀酒酵母、大腸桿菌基因組密碼子的使用頻率進行比較(表4)。密碼子使用頻率比值是評價物種間密碼子使用偏好性差異的指標之一,若比值為0.5~2.0,表示偏好性差異較小,若比值≤0.5、≥2.0,則表示偏好性差異較大[22]。在異源表達過程中,應盡量選擇密碼子使用偏好性差異較小的作為受體,以提高轉錄、翻譯效率,進而提高表達量。分析結果表明:PmDXR與釀酒酵母基因組有15 個密碼子的偏好性差異較大,與大腸桿菌基因組密碼子偏好性差異較大有25 個,可見,酵母更適合做PmDXR基因的真核表達系統。PmDXR基因與擬南芥、煙草基因組分別有12、9 個密碼子的使用頻率差異較大,說明在PmDXR基因遺傳轉化試驗中,煙草相較擬南芥更適合作為異源表達受體。
在漫長的自然選擇和進化進程中,各物種形成了特定的密碼子使用模式,其使用偏好性對研究基因進化和功能鑒定具有重要的生物學意義。本研究用生物信息學方法對馬尾松PmDXR基因密碼子偏好模式進行系統分析,確定了該基因有12 個高頻率密碼子,其中,AGA、TCT 具有極強的偏好性;同時發現編碼Arg 的CGC、CGT 可能不參與PmDXR基因的編碼過程。PmDXR基因中密碼子的GC 和GC3s 含量分別為43.75% 和34.47%,說明其密碼子比較偏好以A/T 結尾,這一結果符合馬尾松總體上偏好使用第3 位為A/T 堿基的密碼子的特征[23]。38 個物種DXR基因的CAI 值介于0.184~0.244,ENc 值為47.89~59.49,平均值為52.59,其中,裸子植物DXR基因的ENc 平均值為49.04,較單子葉植物和雙子葉植物低,表明裸子植物DXR基因的密碼子偏好性相對雙子葉和單子葉植物較高。由此可見,DXR基因密碼子偏好性較弱,在各物種的表達水平普遍不高,但物種間還是存在一定差異。
密碼子偏好性的形成受突變壓力和自然選擇等因素的綜合影響,對不同物種DXR基因的中性分析、ENc-plot 分析、PR2 分析結果均表明,DXR基
因密碼子偏好性形成的主要影響因素為選擇壓力。基于RSCU 值的聚類分析與基于CDS 的進化分析結果表明,具有相近親緣關系的物種其密碼子使用偏好性較為相似,但部分物種基于RSCU 值的聚類分析與基于CDS 序列的進化分析結果存在差異,推測部分物種在長期的進化過程中可能形成了獨特的密碼子使用模式,這在前人的研究結果中也曾出現[24-28]。本研究中,松科植物在2 種聚類結果中均聚在一個大支上,3 種禾本科植物基于CDS序列聚類分析與基于RSCU 值的聚類結果也相似,雙子葉植物中同屬一個科植物的種聚類分析結果具有一定相似性,這表明物種間親緣關系越近,其DXR基因的密碼子使用差異越小。

表4 馬尾松PmDXR 基因與部分模式生物基因組密碼子使用偏好性比較Table 4 Comparison of codon usage preference between PmDXR gene in P. massoniana and other model organisms

續表 4
在異源表達過程中,為實現外源基因的成功表達并提高其表達量,應盡量選擇密碼子使用偏好性差異較小的作為受體。DXR作為萜類合成途徑中的關鍵酶基因,了解其密碼子使用特性并選擇合適的異源表達受體對研究其功能具有重要指導作用。本研究通過比較PmDXR基因與擬南芥、煙草、釀酒酵母、大腸桿菌的基因組密碼子使用頻率的差異,發現相比于大腸桿菌原核表達系統,酵母真核表達系統更適合作為PmDXR基因的表達系統。在PmDXR遺傳轉化功能驗證中,模式植物擬南芥、煙草均可作為其遺傳轉化受體,其中,煙草更為理想。本研究結果初步揭示了PmDXR基因密碼子的使用規律,可為后續開展基因功能驗證等相關研究提供理論基礎。目前,馬尾松還沒有成熟的遺傳轉化體系,對PmDXR基因的研究通常需要借助遺傳轉化體系成熟的受體,今后可依據此研究結果為PmDXR基因選擇合適的遺傳轉化受體,進一步了解其在MEP 途徑中的調控機制。
本研究表明:馬尾松PmDXR基因的密碼子偏好性較弱,偏好使用A/T 結尾的密碼子。不同物種DXR基因的密碼子偏好性存在一定差異,整體看,裸子植物DXR基因密碼子偏好性比被子植物強。基于RSCU 值和基于CDS 的聚類分析結果存在一定差異,且基于CDS 序列的進化分析結果更能反映物種親緣關系的遠近。中性分析、PR2-plot分析、ENc-plot 分析結果均表明DXR基因密碼子偏好性形成主要受選擇壓力的影響。酵母真核表達系統較大腸桿菌原核表達系統更適合馬尾松PmDXR異源表達,模式植物煙草較擬南芥更適合做馬尾松PmDXR遺傳轉化受體。