吳彥慶,趙大球,陶 俊
(揚州大學園藝與植物保護學院/江蘇省作物遺傳生理重點實驗室,江蘇揚州 22509)
?
芍藥花色調控基因的密碼子使用模式及其影響因素分析
吳彥慶,趙大球,陶俊
(揚州大學園藝與植物保護學院/江蘇省作物遺傳生理重點實驗室,江蘇揚州 22509)
摘要:【目的】芍藥花色的優劣影響其觀賞價值和商業價值,研究芍藥花色調控基因的密碼子使用偏好性和密碼子使用模式的影響因素,為芍藥花色調控基因在mRNA翻譯、轉基因設計、新基因表達與功能預測以及分子生物進化研究提供參考。【方法】根據前期芍藥花色嵌合體品種‘金輝’轉錄組測序篩選的6 345個芍藥花色調控基因,并根據CDS序列特征和大于300 bp原則進行過濾后最終獲得的2 234個基因序列作為研究對象,利用Mobyle軟件計算GC含量、第1與2位密碼子的平均GC含量(GC12)、第3位密碼子的GC含量(GC3s)、有效密碼子數ENC、密碼子適應指數CAI、相對同義密碼子使用度RSCU等密碼子偏性指標,其次進行中性繪圖(GC12 vs. GC3)、ENC-GC3s繪圖以及PR2(Parity Rule 2)繪圖分析,并運用多元統計分析方法探討突變壓力和選擇作用對密碼子使用模式的影響程度,最后以5%CAI值作為高、低表達樣本組,計算這兩個樣本組的同義密碼子相對使用度,利用卡方檢驗Chi-square test分析兩組之間的顯著性差異來確定最優密碼子。【結果】芍藥花色相關基因的密碼子GC3s含量為46.37%,大部分基因GC含量主要分布在30%—55%;中性繪圖分析表明GC3s與GC12呈極顯著的正相關(R2=0.202,P<0.01);ENC-GC3s繪圖表明大部分基因分布在標準曲線周圍,也有一部分基因分布在標準曲線下方較遠的位置,同時大部分基因(ENCexp-ENCobs)/ENCexp比值集中分布在0.0—0.4;PR2繪圖分析顯示密碼子第三位T的使用頻率高于A,C使用頻率高于G,表明嘌呤(A和G)與嘧啶(T和C)的使用頻率并不均衡;對應性分析COA(Correspondence Analysis)表明,第一軸上顯示了38.09%的差異,其他3個軸分別為18.42%、15.09%、14.59%,表明芍藥花色調控基因的密碼子使用模式評價以第一軸(Axis 1)為主;突變壓力和選擇作用分析發現,第一主軸與GC3s、CAI的相關系數均達到極顯著正相關(R2=0.736,P<0.01;R2=0.286,P<0.01);利用△RSCU和卡方顯著性檢驗的方法,確定了21個為芍藥花色調控相關基因的最優密碼子,其中18個以G或C結尾,僅CGU、GGU等2個密碼子以U結尾。【結論】芍藥花色調控基因的最優密碼子多數以G/C結尾,并且密碼子使用模式主要受到堿基差異(R2=0.736)和基因表達水平(R2=0.286)共同作用的影響,其中堿基差異占主導因素。本研究了解了芍藥花色調控基因的密碼子使用模式情況,為通過密碼子改造開展芍藥花色遺傳改良以及分子進化研究提供了一定的理論依據。
關鍵詞:芍藥;花色調控基因;密碼子使用模式;影響因素
聯系方式:吳彥慶,E-mail:yqwu19880928@126.com。通信作者陶俊,E-mail:taojun@yzu.edu.cn
【研究意義】遺傳密碼是連接DNA和蛋白質的重要橋梁,每種氨基酸至少對應一個遺傳密碼子(一般不超過6個),編碼同一種氨基酸的密碼子稱為同義密碼子。同義密碼子在使用頻率中存在一定的差異,這種現象稱為密碼子使用偏好性(codon usage bias,CUB),并且在某一特定物種或者基因中比較傾向使用的同義密碼子稱為最優密碼子(optimal codons)[1]。不同物種間基因組的 CUB現象可能不同,表明這些物種在進化過程中可能受到的突變壓力和選擇作用的影響不同[2],因此,密碼子偏好性的量化,能夠幫助有效理解物種機體的進化發展[2],同時密碼子偏好性的分析還能夠有效的幫助同義密碼子使用偏性相關機制的理解[3]。其次,密碼子偏性的分析有助于了解轉錄和翻譯進程中的調控機制,在預測外源基因的最適宿主和通過改良外源基因以提高其表達水平等方面也具有重要生物學意義[4]。【前人研究進展】影響密碼子偏好性的因素較多,目前主要集中在突變壓力(如GC含量[5]、基因堿基組成[6])和選擇作用(如基因表達水平[7]、tRNA豐度[8]、蛋白結構與長度[9]、翻譯的起始信號[10])兩個方面。目前密碼子偏好性的研究在不斷發展,從研究方向來看,對于特定基因密碼子偏好性,以前主要研究原核生物以及低等真核生物中密碼子偏好性對基因表達的影響[11],隨后開始關注高等動植物的密碼子偏好性[4,12],而對于基因組密碼子偏好性來說,到目前為止主要集中在單細胞和模式生物中,包括大腸桿菌(Escherichia coli)[13]、酵母(Yeast)[14]、衣原體(Chlamydiae)[15]、新桿狀線蟲(Caenorhabditis)、果蠅(Drosophila)和擬南芥(Arabidopsis)[16]等。從研究理論來看,密碼子偏好性現象存在2種理論,即中性理論和選擇-突變-漂變學說[17]。【本研究切入點】芍藥(Paeonia lactiflora Pall.)為芍藥科(Paeoniaceae)芍藥屬植物,是原產中國的傳統名花,與花中之王牡丹并稱為“花中二絕”,有“花相”之美譽,目前關于芍藥基因密碼子偏好性分析的報道相對較少[18]。隨著新一代測序技術的不斷成熟,許多物種的基因組信息被揭示,然而芍藥基因組信息目前尚未公布,課題組前期利用轉錄組測序(RNA-Seq)在芍藥花色嵌合體品種‘金輝’中篩選出6 345個花色調控相關的差異基因[19],作為本次分析密碼子使用模式的研究對象。芍藥花色的優劣不僅影響到觀賞植物的觀賞價值,而且直接關系到其商業開發價值,因此,分析芍藥花色調控基因的密碼子使用模式對芍藥花色育種具有重要的現實意義。【擬解決的關鍵問題】利用多元統計分析(multivariate statistical analysis)方法探討芍藥花色調控基因的密碼子使用模式以及其影響因素,不僅對提高芍藥花色基因的外源表達水平具有指導意義,同時也為今后深入研究芍藥花色調控的分子機制和改善芍藥花色育種奠定理論基礎。
1.1 序列數據來源
芍藥花色嵌合體品種‘金輝’花瓣材料,于2013 年5月采自揚州大學園藝與植物保護學院芍藥種質資源圃,課題組前期對其進行了轉錄組測序,2014年完成測序工作和數據分析。6 345個芍藥花色調控基因序列來自芍藥花色嵌合體品種‘金輝’的轉錄組測序(RNA-Seq)[19],為了降低取樣誤差,編寫C程序對序列進行篩選處理,提取滿足下列條件的CDS序列共2 234條:以ATG為起始密碼子;并以TAA、TAG 或TGA為終止密碼子;編碼序列長度大于300 bp[20]。
1.2 堿基組成分析及中性繪圖
利用 Mobyle軟件[21](http://www.molbiol.ox.ac. uk/cu,version 1.4.2)計算每個基因序列的堿基組成,并統計以下指標:(1)第3位密碼子各堿基含量(A3s、U3s、C3s、G3s);(2)第1密碼子GC含量(GC1)與第2位密碼子GC含量(GC2);(3)密碼子整體GC含量(GC);第1與2位密碼子的平均GC含量(GC12);(4)第三位密碼子的GC含量(GC3s)。中性繪圖(neutrality plot)即GC12與GC3s的相關性分析,是衡量選擇與突變對密碼子使用模式影響程度的一種分析方法,繪圖以GC12位縱坐標,GC3s為橫坐標。如果GC12與GC3s之間呈顯著相關,則說明密碼子3個位置上堿基組成無差異,密碼子的使用主要受到突變壓力的影響;如果GC12與GC3s相關性不顯著,說明密碼子第1、2位和第3位堿基組成不同,基因組GC含量高度保守,密碼子的使用更多地是受選擇作用的影響[22]。
1.3 同義密碼子使用偏好性分析
有效密碼子數ENC(effective number of codon),是評估基因整體密碼子偏好性的一個有效指標,其數值范圍為20(每個氨基酸只使用一個同義密碼子的極端偏好情況)到61(每個同義密碼子被平均使用的無偏好情況),ENC值越小表明密碼子偏好性越強[23]。目前研究發現當ENC值小于或者等于35時,基因密碼子具有顯著的使用偏好性[24]。密碼子適應指數CAI (codon adaptation index)是評估密碼子偏好性程度從而揭示基因表達水平的一個重要指標[25],CAI數值范圍在0—1,其數值越大表明密碼子偏好性越強。相對同義密碼子使用度RSCU(relative synonymous codon usage)是指某一特定密碼子在使用頻率與其無偏好性使用時預期頻率之間的比值,也是衡量密碼子偏好性程度的有效指標[26],RSCU比值等于1說明該密碼子無使用偏好性,若RSCU比值大于1說明該密碼子的使用頻率較高。本研究中2 234條基因序列的ENC、CAI以及RSCU值均由Mobyle軟件中CodonW程序進行計算。
1.4 ENC繪圖分析
ENC繪圖(ENC-plot)以ENC值為縱坐標,GC3s為橫坐標,是分析各基因密碼子使用特征,并探究基因堿基組成和密碼子偏好性之間關系的一個有效手段[23]。ENC-plot被廣泛用于分析影響密碼子使用的主要因素:如果密碼子偏好性只受突變壓力的影響,基因沿標準曲線分布或落在標準曲線附近;如果密碼子偏好性只受到選擇作用的影響,基因應該落在標準曲線下方較遠的位置。
1.5 對應性分析
對應性分析COA(correspondence analysis)是利用多元統計方法探究樣本各變量之間的關系,從而揭示影響芍藥花色調控基因密碼子使用模式的主要因素,COA分析基于RSCU值將樣本中所有基因按密碼子的使用頻率分布在一個59維(64個密碼子去除3個終止密碼子以及甲硫氨酸和色氨酸的密碼子)的向量空間[27]。
1.6 PR2繪圖分析
在計算第3位密碼子核苷酸含量(A3s、U3s、C3s、G3s)基礎上,分別計算A3/(A3+U3)與G3/(G3+C3)值,PR2(Parity Rule 2),繪圖是以A3/(A3+U3)為縱坐標,G3/(G3+C3)為橫坐標[28]。
1.7 最優密碼子測定
本研究中最優密碼子的確定參照YANG[29]的分析方法,最優密碼子的選擇以CAI值為偏性標準,確定高低表達樣本。具體方法如下:通過密碼子適應指數(CAI)對所篩選出的所有序列進行排序,從排列好樣本總數的前后端各取5%作為高、低表達樣本組,計算這兩個樣本組的同義密碼子相對使用度(RSCU),利用卡方檢驗Chi-square test分析兩組之間的顯著性差異,將高表達組中RSCU值極顯著高于低表達組(P<0.01)的密碼子定義為最優密碼子。
1.8 統計分析
利用Mobyle軟件中CodonW程序計算所有基因序列堿基組成和密碼子偏好性指標,利用 SPSS 18.0 (http://www.spss.com/)軟件基于Spearman方法進行相關性和卡方檢驗Chi-square test分析。
2.1 GC含量分布以及中性繪圖
密碼子偏好性 CUB很大程度上受到各基因整體堿基含量的影響,整體GC含量往往反映了方向性突變的強弱,尤其是同義密碼子的主要差別體現在第3位堿基上(GC3s)[30]。在2 234個芍藥花色調控基因序列中,GC含量變化范圍為24.6%—73.6%(標準差SD=6.56),其中大部分基因GC含量主要分布在30%—55%(圖1)。整體來看,平均GC和AU含量分別為46.26%和53.74%。GC1為37.05%, GC2為29.90%,GC3s為46.37%,GC3s含量與整體基因編碼區一致,與GC1和GC2存在一定的差異。中性繪圖分析(Neutrality analysis)以GC3s為橫坐標,GC12為縱坐標(圖 2),相關性分析顯示 GC3s與GC12呈極顯著的正相關(R2=0.202,P<0.01),表明芍藥花色調控基因密碼子的使用主要受到突變壓力的影響。

圖1 芍藥花色調控基因的GC含量分布Fig. 1 Distribution of the GC contents of regulating color genes in P. lactiflora

圖2 中性繪圖(GC12 vs. GC3)Fig. 2 Neutrality plots (GC12 vs. GC3)
2.2 ENC與GC3s的關聯分析
ENC-GC3s繪圖以各基因 ENC值為縱坐標,以GC3s值為橫坐標(圖3),基因ENC值分布在14—61,GC3s值分布在0.085—0.916。由圖3可知,大部分基因分布在標準曲線周圍,也有一部分基因分布在標準曲線下方較遠的位置,由此表明芍藥花色調控基因的密碼子偏好性不僅受到突變壓力的影響,也一定程度上受到選擇作用的影響。為了準確評估ENC觀察值(ENCobs)與預期值(ENCexp)的差異,本研究計算了(ENCexp-ENCobs)/ENCexp的比值,結果見圖4,(ENCexp-ENCobs)/ENCexp比值最高峰分布在 0.1—0.2,大部分基因其比值集中分布在 0.0—0.4,表明大部分基因的ENCexp與ENCobs值相差很小,芍藥花色調控基因密碼子偏好性差異與GC3s的差異有關,表明密碼子偏好性主要受突變壓力的影響。
2.3 PR2-plot分析
利用PR2-plot(Parity Rule 2-plot)的方法分析了各基因密碼子中4個氨基酸家族嘌呤(A和G)與嘧啶(T和C)之間的關系,由圖5表明,密碼子第3 位T的使用頻率高于A,C使用頻率高于G,4個堿基的不均衡使用表明芍藥花色調控基因密碼子偏好性的影響因素除突變壓力外,還受到其他方面的影響(如選擇作用)。

圖3 ENC-GC3s繪圖Fig. 3 ENC-GC3s plot

圖4 ENC比值頻率分布Fig. 4 Frequency distribution of effective number of codons (ENC) ratio

紅色圓圈表示每個點平均分布位置,值為:x=0.4983072±0.12896476,y=0.4224539±0.1327275Red open circle indicates the average position for each plot, calculated as follows: x=0.4983072±0.12896476, y=0.4224539±0.1327275圖5 PR2繪圖[(A3/(A3+T3) vs. G3/(G3+C3)]Fig. 5 PR2-bias plot [A3/(A3+T3) against G3/(G3+C3)]
2.4 對應性分析COA
基于RSCU值進行了對應性分析COA,結果發現第一軸顯示了 38.09%差異,其他 3個軸分別為18.42%、15.09%、14.59%。芍藥花色調控基因密碼子使用模式評價分析以第一軸(Axis 1)為主,本研究以各基因第一軸(Axis 1)與第二軸(Axis 2)進行GC含量分布的對應性分析(圖6),大部分基因集中在Axis 1(-0.5—1.5)和Axis 2(-0.5—1.0)范圍內,GC含量小于45%的基因主要分布在軸左下方區域,GC含量位于 45%—60%的基因主要分布在軸中間區域。此外,還分析了兩軸中密碼子G/C和A/U結尾情況(圖 7),結果發現第一軸中各基因密碼子偏好性差異可能由于以G/C和A/U結尾的使用頻率不同導致。

表1 第一主軸與堿基組成的相關性分析Table 1 Summary of correlation between the first major principle axes and nucleotide composition

以第一軸和第二軸為主的基因分布;紅色、藍色和綠色圓點分別代表GC≥60%、45%≤GC<60%、GC<45%The distribution of genes is shown along the first and second axes. Red, blue and green dots indicate genes with G+C content ≥60%, ≥45% but <60%, and <45%, respectively圖6 密碼子使用模式的對應性分析Fig. 6 Correspondence analysis of codon usage patterns
2.5 突變壓力和選擇作用對芍藥花色調控基因的密碼子使用模式的影響
目前突變壓力和選擇作用是影響密碼子使用模式的主要因素[17]。為了評估突變壓力對芍藥花色調控基因密碼子使用模式的影響,本研究根據密碼子使用模式評價主要軸(Axis 1)為對象,探討堿基組成對其影響程度。結果發現(表1),第一軸Axis 1與GC3s呈極顯著的正相關(R2=0.736,P<0.01),表明突變壓力中堿基組成(R2=0.736)是影響芍藥花色調控基因密碼子使用模式的主要因素。此外,為了探討選擇作用中基因表達水平、蛋白長度等影響因素,同時目前CAI值是被用于評估基因表達水平的重要指標[31-32]。因此,本研究首先分析了CAI值、蛋白長度(Protein length)對密碼子偏好性(ENC值)的影響(圖8、圖9),發現CAI值與ENC值均表現為極顯著的負相關(R2=-0.278,P<0.01),而蛋白長度與ENC值呈負相關,但不顯著(R2=-0.005,P>0.05),表明基因表達水平對密碼子偏好性具有顯著的影響。因此,本研究以基因表達水平作為選擇作用因素,進一步分析CAI值對主要軸Axis 1的影響程度,發現Axis 1與CAI值表現為極顯著的正相關(R2=0.286,P<0.01),表明選擇作用中基因表達水平(R2=0.286)對芍藥花色調控基因的密碼子使用模式具有一定的影響。

以第一軸和第二軸為主的密碼子分布;紅色圓點代表以A/U結尾的密碼子,藍色圓點代表C/G結尾的密碼子The distribution of codons is shown along the first and second axes. Note: codons ending with A and U are shown in red dots; codons ending with C and G are shown in green dots圖7 密碼子使用模式的對應性分析Fig. 7 Correspondence analysis of codon usage patterns

圖8 ENC與蛋白長度的關系繪圖Fig. 8 Plot of ENC versus encoded protein length

圖9 ENC與基因表達水平的關系繪圖Fig. 9 Plot of ENC versus gene expression level
2.6 最優密碼子(Optimal codons)分析
本研究依據CAI值大小對芍藥花色調控基因進行高、低表達樣本庫比較(表 2),結果表明,共發現21個密碼子在高、低表達樣本庫中具有極顯著的差異(P<0.01),這些密碼子為最優密碼子,其中19個最優密碼子以G或C結尾,僅CGU和GGU 2個密碼子以U結尾。

表2 芍藥花色調控基因中高低表達水平的密碼子使用頻率比較Table 2 Comparison of codon usage frequencies between regulating color gene in P. lactiflora with high and low levels of expression
每個生物在長期進化過程中都會形成一種特定的密碼子使用模式,其中GC含量是生物基因組中堿基組成的一個重要指標,在基因組的演變中具有重要意義。GC含量往往反映了方向性突變的強弱,尤其是同義密碼子的主要差別體現在第3位堿基上(GC3s),由于密碼子第3位上堿基受到的突變壓力較小,因此,GC3s通常被作為分析密碼子使用模式的一個重要參數[33]。本研究分析了2 234個芍藥花色調控基因的GC含量分布情況,發現平均GC含量和GC3s比較接近(均略小于 50%),表明所有花色調控基因中整體AU含量略高于GC,且密碼子稍微偏向以A/U結尾。目前研究發現,在小麥(Triticum aestivum)、大麥(Hordeum vulgare)、水稻(Oryza sativa)等植物基因組中均表現較高的GC含量和偏向以G/C結尾[34],然而在真菌、一些單細胞微生物如鐮狀瘧原蟲(Plasmodium falciparum)和支原體(Mycoplasma capricolum)以及植物線粒體微生物基因組中AU含量明顯高于GC含量[35-37]。此外,密碼子使用模式在形成過程中往往受到很多因素的影響,其中主要包括突變和選擇[17]。在本研究中,中性繪圖顯示GC12與GC3s之間具有極顯著的正相關;ENC-plot分析發現大部分基因分布在標準曲線周圍,也有一部分基因分布在標準曲線下方較遠的位置;PR2-plot分析發現A、C、T 和G 4個堿基使用不均衡,結合中性繪圖、ENC-plot 和PR2-plot綜合分析,表明芍藥花色調控基因的密碼子使用模式可能受到突變和選擇等多重因素的影響。
本研究發現芍藥花色調控基因序列堿基相關的因素(A3s、U3s、C3s、G3s、GC、GC3s)與第一主軸(Axis 1)間的相關系數均呈現極顯著相關(R2=-0.417,P<0.01;R2=-0.246,P<0.01;R2=0.549,P<0.01;R2=-0.054,P<0.01;R2=0.525,P<0.01;R2=0.736,P<0.01),表明密碼子使用特點受堿基組成差異影響較大。此外,在已分化的多細胞真核生物不同組織以及不同發育階段中,確定某個基因的表達水平是非常困難的。在未知的芍藥基因組中,很難通過EST序列來預測單個基因的表達水平,密碼子適應指數CAI一直被廣泛用于評估基因表達水平的重要指標[31-32]。基因表達水平作為選擇作用的主要因素,本研究分析CAI值與第一向量主軸間的相關系數呈現極顯著的正相關(R2=0.286,P<0.01),以上兩者分析得到芍藥花色調控基因的密碼子使用模式主要受到堿基差異(R2=0.736)和基因表達水平(R2=0.286)共同作用的影響,其中堿基差異占了主導因素。目前已完成全基因組測序的植物并不多,續晨等[38]分析葡萄基因組偏好性主要受到堿基差異(R2=0.925)和選擇作用(R2=0.193)共同作用的影響,突變壓力占了主導因素;劉慶坡等[39]在水稻基因組研究中,發現基因表達水平(R2=-0.608)的影響程度明顯大于堿基組成(R2=0.344);續晨等[40]在蝴蝶蘭葉綠體基因組中發現,其密碼子偏好性受堿基差異(R2=0.614)和選擇作用(R2=0.508)共同影響,兩者影響程度相差不大。分析基因組密碼子使用模式及其影響因素是一個復雜的過程,相對基因組序列來說,由于本研究分析的芍藥花色調控基因數量較小,結果可能與芍藥基因組密碼子使用特點有所區別,并且目前芍藥基因組序列尚未公布,因此,本研究初步揭示了芍藥花色調控相關基因的密碼子使用特點,為今后進一步在分子水平上研究毛茛科植物的系統進化以及開展芍藥花色相關基因的功能研究具有指導意義。
關于最優密碼子的確定方法,目前報道不完全一致,許多學者比較了高偏性與低偏性基因庫RSCU值,利用△RSCU大小等級劃分來確定最優密碼子[39-42]。此外,YANG等[29]在此基礎上,進一步利用卡方顯著性檢驗來尋找高、低表達組具有極顯著差異的密碼子作為最優密碼子,本研究參考這種方法,最終將CGC、GCC、UGC和GGU等21個密碼子確定為芍藥花色調控基因主要偏愛的密碼子。在最終確定的21個密碼子中除CGU和GGU外,其余密碼子均以G或C結尾,表明芍藥花色調控基因密碼子偏好性可能與第 3 位GC含量呈正相關。在對水稻[43]、小麥[44]、玉米[20]等高等植物基因組密碼子使用的研究中發現,最優密碼子較多的是以 C/G結尾,且通常表現出對嘧啶堿基C的偏好強于嘌呤堿基G[45],這與本研究結果相一致。因此,本研究確定了芍藥花色調控基因的最優密碼子,今后可以通過密碼子優化設計對外源基因進行密碼子改造,從而提高外源基因在芍藥中的表達水平,為今后從遺傳本質上進行芍藥花色育種改良提供理論參考。
利用 Mobyle軟件并結合多元統計方法分析了芍藥花色調控基因的密碼子使用模式及其主要影響因素,發現GC3s與GC含量比較接近(約為46.3%)。中性繪圖、ENC-plot以及PR2-plot綜合分析表明芍藥花色相關基因密碼子使用模式主要受突變壓力和選擇作用的影響,進一步通過對應性和主軸相關性分析發現,第一主軸與堿基突變指標(GC3s)、基因表達水平指標(CAI)的相關系數均達到極顯著正相關(R2=0.736,P<0.01;R2=0.286,P<0.01),表明密碼子偏好性主要受到堿基差異(R2=0.736)和基因表達水平(R2=0.286)共同作用的影響,其中堿基差異占了主導因素。此外,確定了21個為芍藥花色調控相關基因的最優密碼子,且大多數以G/C結尾,對基因工程中外源基因的密碼子改良及提高其表達水平研究提供了參考。
References
[1] IKEMURA T. Codon usage and tRNA content in unicellular and multicellular organisms. Molecular Biology and Evolution, 1985, 2:13-34.
[2] ANGELLOTTI M C, BHUIYAN S B, CHEN G, WAN X F. CodonO:Codon usage bias analysis within and across genomes. Nucleic Acids Research, 2007, 35: 132-136.
[3] LU H, ZHAO W M, ZHENG Y, WANG H, QI M, YU X P. Analysis of synonymous codon usage bias in Chlamydia. Acta Biochimica Biophysica Sinica (Shanghai), 2005, 37(1): 1-10.
[4] 郭秀麗, 王玉, 楊路成, 丁兆堂. 茶樹 CBF1基因密碼子使用特性分析. 遺傳, 2012, 34(12): 1614-1623. GUO X L, WANG Y, YANG L C, DING Z T. Analysis of codon use features of CBF gene in Camellia sinensis. Hereditas, 2012, 34(12):1614-1623. (in Chinese)
[5] 石秀凡, 黃京飛, 柳樹群, 劉次全. 人類基因同義密碼子偏好的特征以及與基因 GC含量的關系. 生物化學與生物物理進展, 2002,29(3): 411-414. SHI X F, HUANG J F, LIU S Q, LIU C Q. The features of synonymous codon bias and GC-content relationship in human genes. Progress in Biochemistry and Biophysics, 2002, 29(3): 411-414. (in Chinese)
[6] FEDOROV A, SAXONOV S, GILBERT W. Regular ties of contextdependent codon bias in eukaryotic genes. Nucleic Acids Research,2002, 30: 1192-1197.
[7] HIRAOKA Y, KAWAMATA K, HARAGUCHI T, CHIKASHIGE Y. Codon usage bias is correlated with gene expression levels in the fission yeast Schizosaccharomyces pombe. Genes to Cells, 2009, 14:499-509.
[8] MORIYAMA E, POWELL J. Codon usage bias and tRNA abundance in Drosophila. Journal of Molecular Evolution, 1997, 45(5): 514-523.
[9] ORESIC M, DEHN M, KORENBLUM D, SHALLOWAY D. Tracing specific synonymous codon-secondary structure correlations through evolution. Journal of Molecular Evolution, 2003, 56: 473-484.
[10] SAKAI H, WASHIO T, SAITO R, SHINAGAWA A, ITOH M,SHIBATA K, CARNINCI P, KONNO H, KAWAI J, HAYASHIZAKI Y, TOMITA M. Correlation between sequENCe conservation of the 5′untranslated region and codon usage bias in Mus musculus genes. Gene, 2001, 276(1/2): 101-105.
[11] GUSTAFSSON C, GOVINDARAJAN S, MINSHULL J. Codon bias and heterologous protein expression. Trends in Biotechnology, 2004,22(7): 346-353.
[12] 吳正常, 王靖, 趙喬輝, 朱世平, 訾臣, 吳圣龍, 包文斌. 豬脂多糖結合蛋白基因(LBP)的密碼子偏好性分析. 農業生物技術學報,2013, 21(10): 1135-1144. WU Z C, WANG J, ZHAO Q H, ZHU S P, ZI C, WU S L, BAO W B. Analysis of codon bias of lipopolysaccharide-binding protein gene (LBP) in pigs (Sus scrofa). Journal of Agricultural Biotechnology,2013, 21(10): 1135-1144. (in Chinese)
[13] Sharp P M, Bailes E, Grocock R J, Peden J F, Sockett R E. Variation in the strength of selected codon usage bias among bacteria. Nucleic Acids Research, 2005, 33: 1141-1153.
[14] SHARP P M, TUOHY T M, MOSURSKI K R. Codon usage in yeast:Cluster analysis clearly differentiates highly and lowly expressed genes. Nucleic Acids Research, 1986, 14: 5125-5143.
[15] ZHOU T, SUN X, LU Z. Synonymous codon usage in environmental chlamydia UWE25 reflects an evolutional divergence from pathogenic chlamydiae. Gene, 2006, 368: 117-125.
[16] DURET L, MOUCHIROUD D. Expression pattern and, surprisingly,gene length shape codon usage in Caenorhabditis, Drosophila, and Arabidopsis. Proceedings of the National Academy of Sciences of the United States of America, 1999, 96: 4482-4487.
[17] BULMER M. The selection-mutation-drift theory of synonymous codon usage. Genetics, 1991, 129(3): 897-907.
[18] 吳彥慶, 葛金濤, 陶俊. 芍藥 AP1(APETALA1)基因密碼子使用的偏好性分析. 湖南農業大學學報(自然科學版), 2015, 41(6):610-615. WU Y Q, GE J T, TAO J. Analysis the codon bias of AP1 gene in Paeonia lactiflora. Journal of Hunan Agricultural University (Natural Sciences Edition), 2015, 41(6): 610-615. (in Chinese)
[19] ZHAO D Q, JIANG Y, NING C L, MENG J S, LIN S, DING W, TAO J. Transcriptome sequencing of a chimaera reveals coordinated expression of anthocyanin biosynthetic genes mediating yellow formation in herbaceous peony (Paeonia lactiflora Pall.). BMC Genomics, 2014, 15(1): 689.
[20] LIU H M, HE R, ZHANG H Y, HUANG Y B, TIAN M L, ZHANG J J. Analysis of synonymous codon usage in Zea mays. Molecular Biology Reports, 2010, 37(2): 677-684.
[21] PEDEN J F. CodonW. University of Nottingham, 1999.
[22] SUEOKA N. Directional mutation pressure and neutral molecular evolution. Proceedings of the National Academy of Sciences, 1988,85(8): 2653-2657.
[23] WRIGHT F. The ‘effective number of codons' used in a gene. Gene,1990, 87: 23-29.
[24] COMERON J M, AGUADE M. An evaluation of measures of synonymous codon usage bias. Journal of Molecular Evolution, 1998,47: 268-274.
[25] SHARP P M, LI W H. The codon adaptation index-a measure of directional synonymous codon usage bias, and its potential applications. Nucleic Acids Research, 1987, 15: 1281-1295.
[26] SHARP P M, LI W H. An evolutionary perspective on synonymous codon usage in unicellular organisms. Journal of Molecular Evolution,1986, 24(1/2): 28-38.
[27] GREENACRE M J. Theory and Applications of Correspondence Analysis. London: Academic Press 1984.
[28] NOBORU S. Near homogeneity of PR2-bias fingerrints in the human genome and their implications in phylogenetic analyses. Journal of Molecular Evolution, 2001, 53: 469-476.
[29] YANG X, LUO X N, CAI X P. Analysis of codon usage pattern in Taenia saginata based on a transcriptome dataset. Parasites & Vectors,2014, 7: 527.
[30] ZHOU J H, DING Y Z, HE Y, CHU Y F, ZHAO P, ZHAO P, MA L Y,WANG X J, LI X R, LIU Y S. The effect of multiple evolutionary selections on synonymous codon usage of genes in the Mycoplasma bovis Genome. Plos One, 2014, 9: e108949.
[31] NAYA H, ROMERO H, CARELS N, ZAVALA A, MUSTO H. Translational selection shapes codon usage in the GC-rich genome of Chlamydomonas reinhardtii. Febs Letters, 2001, 501: 127-130.
[32] GUPTA S, BHATTACHARYYA T, GHOSH T C. Synonymous codon usage in Lactococcus lactis: mutational bias versus translational selection. Journal of Biomolecular Structure & Dynamics, 2004, 21:527-535.
[33] BELLGARD M, SCHIBECI D, TRIFONOV E, GOJOBORI T. Early detection of G+C differences in bacterial species inferred from the comparative analysis of the two completely sequenced Helicobacter pylori strains. Journal of Molecular Evolution, 2001, 53(4/5):465-468.
[34] KAWABE A, MIYASHITA N T. Patterns of codon usage bias in three dicot and four monocot plant species. Genes & Genetic Systems, 2003,78: 343-352.
[35] SAUL A, BATTISTUTTA D. Codon usage in Plasmodium falciparum. Molecular and Biochemical Parasitology, 1988, 27: 35-42.
[36] Muto A, Yamao F, Osawa S. The genome of Mycoplasma capricolum. Progress in Nucleic Acid Research and Molecular Biology, 1987, 34:29-58.
[37] DYBVIG K, VOELKER L L. Molecular biology of mycoplasmas. Annual Reviews in Microbiology, 1996, 50(1): 25-57.
[38] 續晨, 蔡小寧, 錢保俐, 賁愛玲. 葡萄基因組密碼子使用偏好模式研究. 西北植物學報, 2012, 32(2): 409-415. XU C, CAI X N, QIAN B L, BEN A L. Codon usage bias in Vitis vinifera. Acta Botanica Boreali-Occidentalia Sinica, 2012, 32(2):409-415. (in Chinese)
[39] 劉慶坡, 薛慶中. 粳稻葉綠體基因組的密碼子用法. 作物學報,2004, 30(12): 1220-1224. LIU Q P, XUE Q Z. Codon Usage in the chloroplast genome of rice (Oryza sativa L.ssp. japonica). Acta Agronomica Sinica, 2004, 30(12):1220-1224. (in Chinese)
[40] 續晨, 賁愛玲, 蔡曉寧. 蝴蝶蘭葉綠體基因組密碼子使用的相關分析. 分子植物育種, 2010, 8(5): 945-950. XU C, BEN A L, CAI X L. Analysis of synonymous codon usage in chloroplast genome of Phalaenopsis aphrodite subsp. Formosana. Molecular Plant Breeding, 2010, 8(5): 945-950. (in Chinese)
[41] 尚明照, 劉方, 華金平, 王坤波. 陸地棉葉綠體基因組密碼子使用偏性的分析. 中國農業科學, 2011, 44(2): 245-253. SHANG M Z, LIU F, HUA J P, WANG K B. Analysis on codon usage of chloroplast genome of Gossypium hirsutum. Scientia Agricultura Sinica, 2011, 44(2): 245-253. (in Chinese)
[42] 李秀璋, 宋輝, 李春杰. 茄腐鐮孢(Fusarium solani)線粒體基因組密碼子偏好性分析. 基因組學與應用生物學, 2015, 34(11):2465-2472. LI X Z, SONG H, LI C J. Analysis of codon usage bias in mitochondria genome of Fusarium solani. Genomics and Applied Biology, 2015, 34(11): 2465-2472. (in Chinese)
[43] LIU Q P, FENG Y, ZHAO X A, DONG H, XUE Q Z. Synonymous codon usage bias in Oryza sativa. Plant Science, 2004, 167(1): 101-105.
[44] ZHANG W J, ZHOU J, LI Z F, WANG L, GU X, ZHONG Y. Comparative analysis of codon usage patterns among mitochondrion,chloroplast and nuclear genes in Triticum aestivum L. Journal of Integrative Plant Biology, 2007, 49(2): 246-254.
[45] WANG L J, ROOSSINCK M J. Comparative analysis of expressed sequences reveals a conserved pattern of optimal codon usage in plants. Plant Molecular Biology, 2006, 61(4): 699-710.
(責任編輯 趙伶俐)
Analysis of Codon Usage Pattern of Paeonia lactiflora Genes Regulating Flower Color and Its Influence Factors
WU Yan-qing, ZHAO Da-qiu, TAO Jun
(Jiangsu Key Laboratory of Crop Genetics and Physiology/College of Horticulture and Plant Protection, Yangzhou University,Yangzhou 225009, Jiangsu)
Abstract:【Objective】 The quality of Paeonia lactiflora flower color affects its ornamental value and the commercial value of ornamental plants. This study aims to understand the codon usage pattern of genes regulating flower color and probe into the mainfactors affecting the formation of codon bias, which has important biological significance for mRNA translation, design of transgenes,the prediction of expression level and functions of new genes, and studies of molecular biology and evolution, etc. 【Method】In a previous study, 6,345 differential genes were screened out by transcriptome sequencing of a flower color chimaera cultivar “Jinhui” with a consistent genetic background red outer-petal and yellow inner-petal, followed by a further filtering analysis according to the principle of CDS sequence characteristics and greater than 300 bp. We finally obtained 2,234 genes as our research object. Mobyle software was used to calculate different parameters for the codon usage, such as GC content, average GC content of the first and second positions (GC12), GC content of the third position (GC3s), effective number of codon (ENC), codon adaptation index (CAI), and relative synonymous codon usage (RSCU). Further analysis of a neutrality plot (GC12 vs. GC3), an ENC-GC3s plot, and a Parity Rule 2 (PR2) plot were performed. Additionally, we probed into the influence of mutational pressure and translational selection by a multivariate statistical analysis. Finally, we took 5% CAI value as high-expression and low-expression sample groups, then calculated the RSCU value, and analyzed the significant difference to determine the optimal codons by a chi-square test.【Result】The results showed that the GC content at the third position of codons was 46.37%. The GC content of most genes was mainly distributed between 30% and 55%. Neutrality analysis showed that there was a significant positive correlation (R2=0.202, P<0.01) between GC3s and GC12 value. The ENC-plot showed most of the genes on or close to the expected curve, but also some points with low-ENC values were below it. The (ENCexp-ENCobs)/ENCexp ratio of most genes ranged from -0.05 to 0.05. The Parity Rule 2-plot showed that the frequency of T nucleotide at the third position was higher than A, and C was higher than G,suggesting that the use frequencies of four nucleotide were not balanced. Correspondence analysis showed that the first axis showed a 38.09% variation, while the other three axes showed 18.42%, 15.09%, and 14.59%, respectively, suggesting that the first axis was the main index evaluating the codon usage bias of Paeonia lactiflora genes regulating flower color. Mutation pressure and selection analysis showed there were significant negative correlations (R2=0.736, P<0.01. R2=0.286, P<0.01) between the first axis and GC3s, CAI value, respectively. Using the delta RSCU and significant chi-square test methods, we defined 21 codons as the major preference codons in the Paeonia lactiflora genes regulating flower color, of 18 codons ending with G or C, only CGU and GGU ending with U.【Conclusion】In conclusion, most of optimal codons ended with G or C. Meanwhile, the codon usage pattern of Paeonia lactiflora genes regulating flower color is formed under the effect of mutational pressure (R2=0.736) and translational selection (R2=0.286), but a mutational bias was the major influence on codon usage. This study not only preliminarily reveals the codon usage pattern of Paeonia lactiflora genes, but also provides a certain theoretical basis for further carrying out genetic improvement of Paeonia lactiflora flower color by codon reconstruction and analyzing the molecular evolution.
Key words:Paeony; flower color controlling gene; codon usage pattern; influence factor
收稿日期:2015-12-31;接受日期:2016-03-24
基金項目:國家自然科學基金(31372097,31400592)、江蘇省高校自然科學研究重大項目(13KJA210005)