








摘要:為明確板栗葉綠體基因組密碼子使用偏好性及其形成原因,利用CodonW與EMBOSS軟件對從板栗葉綠體基因組密碼子中篩選出來的52條蛋白編碼序列進行分析。結果顯示,板栗葉綠體基因組密碼子中同義密碼子相對使用頻率超過1的有31個,并且多以A或U結尾,表明板栗葉綠體基因組偏好使用以A或U結尾的密碼子;板栗葉綠體基因組蛋白編碼序列的有效密碼子數平均值為48.04(大于35),說明板栗葉綠體基因組密碼子使用偏好性較弱。板栗葉綠體基因組密碼子使用偏好性參數相關性分析結果顯示,板栗葉綠體基因組密碼子第1位置GC含量與第2位置GC含量呈極顯著相關(Plt;0.01),而密碼子第3位置GC含量與第1、第2位置GC含量無顯著相關性(Pgt;0.05),表明板栗葉綠體基因組密碼子中第1位置和第2位置堿基組成明顯相同,而第3位置堿基與第1、第2位置堿基組成明顯不同;此外,ENC值與第3位置GC含量呈顯著相關(Plt;0.05),說明板栗葉綠體基因組密碼子第3位置堿基組成在一定程度上會影響其密碼子使用偏好性。通過中性繪圖、ENC-plot繪圖、PR2-plot繪圖分析表明,板栗葉綠體基因組密碼子使用偏好性受自然選擇壓力和突變壓力共同影響,但自然選擇壓力是主要影響因素。最終根據RSCU值與ΔRSCU值從板栗葉綠體基因組密碼子中篩選出16個最優密碼子。以上研究結果豐富了板栗種質資源的遺傳背景信息,為板栗葉綠體基因工程、演化和分類等研究提供了理論基礎。
關鍵詞:板栗;葉綠體基因組;密碼子;使用偏好性;最優密碼子
中圖分類號:S664.201 文獻標志碼:A
文章編號:1002-1302(2024)21-0040-07
收稿日期:2023-12-19
基金項目:國家重點研發計劃(編號:2022YFD2200400);河北省重點研發計劃(編號:21326304D);河北科技師范學院博士啟動基金(編號:2023YB026)。
作者簡介:楊 涌(1995—),男,江蘇鹽城人,碩士研究生,研究方向為板栗育種。E-mail:1725722566@qq.com。
通信作者:張海娥,博士,研究員,研究方向為板栗育種。E-mail:zhang33haie4@163.com。
葉綠體是綠色植物中一種特殊的細胞器,是植物利用光能進行光合作用的場所[1]。高等植物葉綠體擁有獨立的一套基因組,相較核基因組不同的是葉綠體基因組是環形雙鏈DNA,結構相對簡單且遺傳穩定,因此葉綠體基因組對高等植物演化和分類分析具有重要參考價值[1-2]。隨著測序技術不斷完善,越來越多高等植物的葉綠體基因組完成了測序,為高等植物葉綠體基因組分析提供了大量的數據支持[3]。
不同植物對密碼子的使用偏好性不同。密碼子對生物體的遺傳信息傳遞過程至關重要,在信使RNA分子上,3個相連核苷酸組成1個密碼子[4]。生物體內共有64種密碼子,其中3種編碼終止密碼子,剩余的分別編碼20種氨基酸[3-4]。除了甲硫氨酸與色氨酸只由1種密碼子編碼外,其余的18種氨基酸均擁有2~6種密碼子,其中編碼相同氨基酸的密碼子被稱為同義密碼子[5]。同義密碼子使用頻率往往不同,這種現象被稱為密碼子使用偏好性[6]。密碼子使用偏好性可以影響外源基因表達,因此研究葉綠體密碼子使用偏好性對植物葉綠體基因工程中提高外源基因表達效率具有重大意義[4]。
板栗(Castanea mollissima)屬于殼斗科(Fagaceae)栗屬(Castanea)多年生木本植物,果實中含有大量淀粉,是重要的木本糧食[7-8]。關于板栗葉綠體基因組方面的研究已有報道,在GenBank數據庫中也已經上傳了板栗葉綠體基因組序列[9],但是板栗的葉綠體基因組密碼子使用偏好性的研究還未報道。為探究板栗葉綠體基因組密碼子使用偏好性,本研究以板栗葉綠體基因組數據為基礎,分析其蛋白編碼序列(coding sequence,CDS)的堿基組成,并通過中性繪圖、ENC-plot繪圖有效密碼子數(effective number of codon,ENC)與PR2-plot繪圖(parity rule 2 plot,PR2)分析了板栗葉綠體基因組密碼子使用偏好性的主要影響因素;最終根據同義密碼子相對使用頻率(relative synonymous codon usage,RSCU)與ΔRSCU值確定了板栗葉綠體基因組的最優密碼子,本試驗豐富了板栗種質資源的遺傳背景信息,為板栗葉綠體基因工程、演化和分類等研究提供了理論基礎。
1 材料與方法
1.1 序列獲取
從NCBI數據庫下載板栗葉綠體基因組序列(GenBank登錄號:NC_014674),板栗葉綠體基因組大小為160 799 bp,擁有83條CDS序列。對板栗葉綠體基因組中的序列進行篩選,去除小于300 bp長度的序列與重復序列,剩余的52條板栗葉綠體基因組中CDS被用來計算密碼子使用偏好性參數。
1.2 板栗葉綠體基因組密碼子使用偏好性參數計算及相關性分析
利用軟件CodonW與EMBOSS軟件計算篩選出來的52條板栗葉綠體基因組中CDS的RSCU、ENC、密碼子第3位堿基含量(記為A3、T3、G3、C3)、密碼子各個位置的GC含量與總GC含量(記為GC1、GC2、GC3、GCall)、各個CDS包含的密碼子數(記為N)。同時對密碼子總GC含量、各個位置GC含量、密碼子數、有效密碼子數進行Pearson相關性分析。
1.3 板栗葉綠體基因組密碼子中性繪圖分析
通過對板栗葉綠體基因組密碼子中性繪圖分析,可以判斷是自然選擇的壓力還是突變的壓力對密碼子使用偏好性的影響更大[10]。以GC12為縱坐標(GC12是密碼子第1位置與第2位置GC含量的平均值)、GC3為橫坐標繪制散點圖并進行直線擬合。當回歸系數接近1時,表示GC12與GC3相關性高,密碼子3個位置堿基變異模式相似,表明決定板栗葉綠體基因組密碼子使用偏好性的主要因素是突變壓力,反之是自然選擇壓力更大[11]。
1.4 板栗葉綠體基因組密碼子ENC-plot繪圖分析
通過對板栗葉綠體基因組密碼子ENC-plot繪圖分析可以判斷是自然選擇的壓力還是突變的壓力對密碼子使用偏好性的影響更大[11]。以GC3為橫坐標、ENC為縱坐標繪制散點圖。同時根據公式ENCexp=2+GC3+29[GC32+(1-GC3)2]計算出理論ENC值,以GC3為橫坐標、ENCexp為縱坐標繪制標準曲線。當ENC值與ENCexp接近時,表明板栗葉綠體基因組密碼子使用偏好性主要受突變壓力影響,反之是自然選擇壓力更大[12]。為了進一步確定造成板栗葉綠體基因組密碼子使用偏好性的影響因素,因此統計分析了ENC比值[(ENCexp-ENC)/ENCexp]的頻數[13],ENC比值頻數在-0.05~0.05之間,代表ENC值與ENCexp接近,ENC比值統計分析更準確地判斷了板栗葉綠體基因組密碼子使用偏好性受突變壓力還是自然選擇壓力的影響更大,是對ENC-plot繪圖分析結果的補充。
1.5 板栗葉綠體基因組密碼子PR2-plot繪圖分析
通過對板栗葉綠體基因組密碼子PR2-plot繪圖分析,可以判斷是自然選擇的壓力還是突變的壓力對密碼子使用偏好性的影響更大。以G3/(G3+C3)作為橫坐標、A3/(A3+T3)作為縱坐標繪制散點分布圖。中心點位置表示A和T、G和C使用頻率相同,表明板栗葉綠體基因組密碼子使用偏好性主要受突變壓力影響更大,而分散在除中心處以外的點,表示密碼子使用偏好性除了突變壓力以外,主要還受自然選擇壓力和其他因素影響[14]。
1.6 板栗葉綠體基因組最優密碼子分析
對板栗葉綠體基因組中高頻率和高表達的密碼子進行篩選,篩選出來的即為最優密碼子。為了確定高低表達庫,對CDS序列ENC值進行排序,選取ENC值最小10%的基因建立高表達庫,選取ENC值最大10%的基因建立低表達庫,計算出高低表達庫中密碼子RSCU值,以及高低表達庫的RSCU差值(記為ΔRSCU),ΔRSCU大于0.08就是高表達密碼子[15-16],高頻密碼子是RSCU值大于1的密碼子[14],最終滿足以上2個條件的就是板栗葉綠體基因組最優密碼子。
2 結果與分析
2.1 板栗葉綠體密碼子組成分析
對板栗葉綠體基因組中52個基因CDS序列中的密碼子堿基組成情況及表示密碼子使用偏好性強弱的有效密碼子數ENC值進行分析,結果如表1所示,在板栗葉綠體基因組CDS序列中,GCall含量的平均值為37.92%,范圍為30.64%~47.96%;GC1含量的平均值為46.04%,范圍為34.49%~59.9%;GC2含量的平均值為37.85%,范圍為28.26%~57.55%;GC3的平均值為29.86%,范圍為22.28%~37.01%。由此可得,密碼子不同位置的堿基有差異,其中GC3比GC1與GC2含量少,并且在板栗葉綠體基因組中密碼子第3位的堿基偏好以A或U結尾。在板栗葉綠體基因組CDS序列中,ENC值為35.39~54.61,ENC的平均值為48.04,35個葉綠體基因組CDS序列的ENC值超過45,說明板栗葉綠體基因組密碼子使用偏好性較弱。
對板栗葉綠體基因組密碼子使用偏好性參數進行Pearson相關性分析,結果如圖1所示,板栗葉綠體基因組密碼子GCall含量與GC1、GC2、GC3含量極顯著正相關(Plt;0.01),GC1和GC2也呈極顯著正相關(Plt;0.01),而GC3含量和GC1、GC2含量相關性不顯著,說明板栗葉綠體基因組密碼子堿基組成中第1位置和第2位置比較相似而密碼子第3位置堿基與第1位置和第2位置堿基的組成明顯不同。ENC與GC3含量呈顯著正相關(Plt;0.05),且與N呈顯著正相關(Plt;0.05),說明板栗葉綠體基因組密碼子使用偏好性受密碼子第3位置堿基組成和CDS的密碼子數量影響。
2.2 板栗葉綠體密碼子RSCU值分析
對板栗葉綠體基因組中選擇下來的52個基因CDS序列中的密碼子RSCU值進行分析,結果如圖2所示,在板栗葉綠體64個編碼氨基酸的密碼子中,RSCU值低于1的有31個密碼子,分別有15個密碼子以C結尾,13個密碼子以G結尾,3個密碼子以A結尾;RSCU值等于1的有2個密碼子,分別為AUG和UGG;RSCU值大于1的有31個密碼子,分別有16個密碼子以U結尾,13個密碼子以A結尾,1個密碼子以C結尾,1個密碼子以G結尾。RSCU值最高的是亮氨酸密碼子UUA,達到了 2.002 6。RSCU值大于1時,代表密碼子使用頻率相對較高,結合板栗葉綠體密碼子RSCU值,說明板栗葉綠體基因組中使用頻率較高的密碼子偏好以A或U結尾。
2.3 板栗葉綠體密碼子中性繪圖分析
對板栗葉綠體基因組中選擇下來的52個基因CDS序列中的密碼子進行中性繪圖分析,結果如圖3所示,GC3和GC12回歸系數為0.355 1,r2值為0.063 96,這2個參數呈現出較低的相關性,因此板栗葉綠體基因組密碼子不同位置的堿基組成存在差異。表明板栗葉綠體基因組密碼子使用偏好性受自然選擇壓力影響更大,受突變壓力影響更小。
2.4 板栗葉綠體基因組密碼子ENC-plot繪圖分析
對板栗葉綠體基因組中選擇下來的52個基因CDS序列ENC值與其密碼子GC3值進行關聯分析,結果如圖4所示,大部分板栗葉綠體基因的實際ENC值與期望ENC值有較大差異,且小于期望ENC值。同時對板栗葉綠體基因的ENC比值頻數進行分析,結果如表2所示,ENC比值超過0.05的有41個基因,而比值在-0.05~0.05之間的有10個基因,與圖4結果相符合。圖4和表2表明板栗葉綠體基因組密碼子使用偏好性受自然選擇壓力影響更大,受突變壓力影響較小。
2.5 板栗葉綠體基因組密碼子PR2-plot繪圖分析
對板栗葉綠體基因組中選擇下來的52個基因CDS序列中的密碼子第3位堿基的使用頻率進行分析,結果如圖5所示,板栗葉綠體基因不均勻地分布于4個區域內,使用頻率表現為T高于A、G高于C。若密碼子堿基突變是影響使用偏性主要因素時,圖中的點會更加在中心聚集,說明板栗葉綠體基因組密碼子使用偏好性受自然選擇壓力影響更大,受突變壓力影響更小。
2.6 板栗葉綠體基因組最優密碼子分析
對板栗葉綠體基因組中選擇下來的52個基因CDS序列ENC值進行排序,選取ENC值最小10%的基因建立高表達庫,選取ENC值最大10%的基因建立低表達庫,計算出高低表達庫中密碼子RSCU值,以及高低表達庫的RSCU差值,結果如表3所示。選取表3中ΔRSCU大于0.08且在圖2板栗葉綠體基因組中RSCU值大于1的密碼子作為最優密碼子,共計16個,分別是UAA、GCU、UGU、GAA、GGU、AUU、AAA、UUA、UUG、CAA、CGU、AGU、UCU、ACU、GUA、GUU,其中1個以G結尾,其余均以A或U結尾。
3 結論與討論
在生物體中正常含有20種常見氨基酸,除甲硫氨酸與色氨酸只由1個密碼子編碼外,其余18種氨基酸均由2~6種密碼子編碼,其中編碼同一種氨基酸的密碼子被稱為同義密碼子。為了更好地適應基因組環境以及自然進化的需要,生物會偏好性地使用同義密碼子[11,17-20],因而產生了密碼子使用偏好性。影響密碼子使用偏好性的因素很多,如密碼子堿基組成、基因組中tRNA豐度、自然選擇等。其中密碼子的堿基組成是最普遍的影響因素,而密碼子第3位堿基突變往往不會影響氨基酸的種類,其所受的自然選擇壓力較小,所以GC3通常被作為分析密碼子使用偏好性的重要依據。本研究對板栗葉綠體基因組中52個基因CDS序列密碼子3個位置的GC含量進行分析,發現密碼子不同位置的堿基有差異,其中第3位置GC含量比第1、第2位置GC含量少,并且在板栗葉綠體基因組中密碼子第3位的堿基偏好以A或U結尾,同時對板栗葉綠體基因組密碼子使用偏好性參數進行相關性分析,結果顯示,板栗葉綠體基因組密碼子第1位置GC含量與第2位置GC含量呈極顯著相關(Plt;0.01),而密碼子第3位置GC含量與第1、第2位置GC含量無顯著相關性(Pgt;0.05),表明板栗葉綠體基因組密碼子中第3位置堿基與第1、第2位置堿基的組成明顯不同。板栗葉綠體基因組密碼子GC含量的研究結論與南歐大戟[15]、獨腳金[21]、沙棗[22-24]等植物研究結論相同,這可能是由于葉綠體基因組進化過程相對保守。ENC值是判斷密碼子使用偏好性強弱的主要依據,ENC值取值范圍是20~61,大量研究以35作為密碼子使用偏好性強弱的閾值。當ENC值超過35時,被認為密碼子使用偏好性較弱;當ENC值小于35時,被認為密碼子使用偏好性較強。板栗葉綠體基因組CDS序列ENC值為35.39~54.61,ENC的平均值為48.04,所有CDS序列的ENC值超過35,更有35個CDS序列的ENC值超過45,說明板栗葉綠體基因組密碼子使用偏好性較弱。
同時大量研究證明,自然選擇壓力和突變壓力是影響密碼子使用偏好性的2個主要因素影響。為了探究板栗葉綠體基因組密碼子使用偏好性受自然選擇壓力和堿基突變因素的影響情況,本研究進行了中性繪圖分析、ENC-plot繪圖分析、PR2-plot偏倚分析,結果表明,板栗葉綠體基因組密碼子使用偏好性受兩者共同影響,自然選擇壓力對其影響占主導。這與燈盞花[25]、二喬玉蘭[4]、艾納香[14]等植物研究結果一致,而與西南樺[26]、竹節參[27]、油茶[13]等植物研究結果不同,說明不同物種之間密碼子使用偏好性受自然選擇壓力或突變壓力的影響情況不同。此外,本研究通過分析RSCU值與ΔRSCU值選出了16個板栗葉綠體最優密碼子,其中多數以A或U結尾。在突變壓力和正向選擇壓力的共同作用下往往形成大量最優密碼子,而在突變壓力和純化選擇壓力的共同作用下往往形成少量最優密碼子[11,21,28],由此推測板栗葉綠體基因組正在經歷正向選擇。
綜上所述,本研究分析了板栗葉綠體基因組密碼子使用偏好性參數及參數之間的相關性,同時分析得出板栗葉綠體基因組密碼子使用偏好性受自然選擇壓力比突變壓力更大,最終通過分析RSCU值與ΔRSCU值確定了16個最優密碼子。為今后板栗葉綠體基因工程研究提供了理論基礎。
參考文獻:
[1]孫月琪,李密密,周義峰. 珊瑚菜葉綠體基因組密碼子使用偏性分析[J]. 植物資源與環境學報,2023,32(6):1-10.
[2]畢毓芳,溫 星,潘雁紅,等. 葉綠體DNA條形碼在林木中的應用及研究進展[J]. 分子植物育種,2020,18(16):5444-5452.
[3]屈亞亞,辛 靜,馮發玉,等. 香花枇杷質體基因組序列密碼子偏性分析[J]. 西北林學院學報,2021,36(4):138-144,158.
[4]沈蓮文,田金紅,王玉昌,等. 2種玉蘭屬植物葉綠體基因組密碼子偏好性分析[J]. 西南林業大學學報(自然科學),2023,43(2):44-53.
[5]張曉峰,薛慶中. 水稻和擬南芥NBS-LRR基因家族同義密碼子使用偏好的比較[J]. 作物學報,2005,31(5):596-602.
[6]胡莎莎,羅 洪,吳 琦,等. 苦蕎葉綠體基因組密碼子偏愛性分析[J]. 分子植物育種,2016,14(2):309-317.
[7]樊曉蕓,郭素娟,李艷華,等. 板栗果實褐變度與總酚和總黃酮的相關性研究[J]. 南京林業大學學報(自然科學版),2023,47(6):159-166.
[8]張 麗,郭素娟,孫慧娟,等. 硼砂和蔗糖對板栗果實非結構性碳水化合物含量的影響[J]. 果樹學報,2018,35(3):319-325.
[9]Jansen R K,Saski C,Lee S B,et al. Complete plastid genome sequences of three rosids (Castanea,Prunus,Theobroma):evidence for at least two independent transfers of rpl22 to the nucleus[J]. Molecular Biology and Evolution,2011,28(1):835-847.
[10]秦 政,鄭永杰,桂麗靜,等. 樟樹葉綠體基因組密碼子偏好性分析[J]. 廣西植物,2018,38(10):1346-1355.
[11]丁 銳,胡 兵,宗小雁,等. 杓蘭葉綠體基因組密碼子偏好性分析[J]. 林業科學研究,2021,34(5):177-185.
[12]王占軍,李 豹,姜行舟,等. 兩種茶樹全基因組數據的密碼子偏好性比較分析[J]. 中國細胞生物學學報,2018,40(12):2028-2039.
[13]王鵬良,楊利平,吳紅英,等. 普通油茶葉綠體基因組密碼子偏好性分析[J]. 廣西植物,2018,38(2):135-144.
[14]趙月梅,徐其碧,楊貴清,等. 艾納香葉綠體基因組密碼子使用偏性分析[J]. 西部林業科學,2023,52(3):55-62,77.
[15]余 濤,蒲 芬,管 芹,等. 南歐大戟葉綠體基因組密碼子偏好性分析[J]. 江蘇農業科學,2023,51(15):35-41.
[16]肖明昆,聶愷宏,沈紹斌,等. 復羽葉欒樹葉綠體基因組密碼子偏好性分析[J]. 西南林業大學學報(自然科學),2023,43(3):56-63.
[17]牛 元,徐 瓊,王崳德,等. 大花香水月季葉綠體基因組密碼子使用偏性分析[J]. 西北林學院學報,2018,33(3):123-130.
[18]梁菲菲. 密碼子偏性的影響因素及研究意義[J]. 畜牧與飼料科學,2010,31(1):118-119.
[19]原曉龍,劉 音,康洪梅,等. 蒜頭果葉綠體基因組密碼子偏好性分析[J]. 西南林業大學學報(自然科學),2021,41(3):15-22.
[20]劉 潮,韓利紅,彭 悅,等. 黃丹木姜子葉綠體基因組特征分析[J]. 南方農業學報,2022,53(1):12-20.
[21]楊秀玲,許春梅,耿曉珊,等. 獨腳金葉綠體基因組密碼子偏好性分析[J]. 分子植物育種,2023,21(12):3889-3897.
[22]王 婧,王天翼,王羅云,等. 沙棗葉綠體全基因組序列及其使用密碼子偏性分析[J]. 西北植物學報,2019,39(9):1559-1572.
[23]原曉龍,李云琴,張勁峰,等. 降香黃檀葉綠體基因組密碼子偏好性分析[J]. 廣西植物,2021,41(4):622-630.
[24]楊國鋒,蘇昆龍,趙怡然,等. 蒺藜苜蓿葉綠體密碼子偏好性分析[J]. 草業學報,2015,24(12):171-179.
[25]李顯煌,楊生超,辛雅萱,等. 燈盞花葉綠體基因組密碼子偏好性分析[J]. 云南農業大學學報(自然科學),2021,36(3):384-392.
[26]原曉龍,李云琴,王 毅,等. 西南樺葉綠體基因組密碼子偏好性分析[J]. 基因組學與應用生物學,2020,39(12):5758-5764.
[27]梁 娥,齊敏杰,丁延慶,等. 竹節參轉錄組使用密碼子偏好性分析[J]. 江蘇農業科學,2019,47(2):59-63.
[28]Hershberg R,Petrov D A. Selection on codon bias.TL-42[J]. Annual Review of Genetics,2008,42 (1):287-299.