李慧娟 潘思皓 杜函圳
摘要:為了解川芎(Ligusticum chuanxiong Hort.)阿魏酸生物合成相關基因的密碼子使用偏好性特點,為運用基因工程技術實現阿魏酸的異源生物合成提供理論依據,對川芎轉錄組中共50 108條Unigenes使用CodonW、Cusp和Chips進行在線分析。結果表明,總GC含量為41.4%,有效密碼子占總數的16.17%,最優密碼子偏好以A/U結尾,表明川芎轉錄組Unigenes密碼子偏好程度整體水平不高。比較分析了川芎轉錄組中阿魏酸生物合成相關基因(PAL、C4H、C3H與COMT)與不同模式生物的稀有密碼子,表明與大腸桿菌基因組密碼子使用頻率差值較大的有4個,與酵母、煙草和擬南芥基因組差值較大的均有3個,這預示著川芎阿魏酸生物合成相關基因在酵母、煙草和擬南芥中的表達效率較高。
關鍵詞:川芎(Ligusticum chuanxiong Hort.);阿魏酸;生物合成相關基因;密碼子偏好性分析
中圖分類號:S567.23+9 文獻標識碼:A 文章編號:0439-8114(2017)18-3549-05
DOI:10.14088/j.cnki.issn0439-8114.2017.18.040
Abstract: In order to understand the codon usage preference of genes involved in the biosynthesis of ferulic acid in Ligusticum chuanxiong Hort.,and thereby providing a theoretical basis for the application of genetic engineering technology to achieve heterologous biosynthesis of ferulic acid,50 108 unigenes of L. chuanxiong transcriptome were analyzed on-line using CodonW,Cusp and Chips at first. As a result,the total GC content was 41.4%,valid codons was 16.17% and the optimal codon preferred A/U as end. Furthermore,the rare codons of PAL,C4H,C3H and COMT were compared with those of candidate expressed hosts,including E. coli,yeast,tobacco and Arabidopsis thaliana. As a result,4 codons were found between E. coli and L. chuanxiong,and 3 codons were found among yeast,tobacco and Arabidopsis thaliana. It suggests high expressional ratio of PAL,C4H,C3H and COMT might take place in yeast,tobacco and Arabidopsis thaliana.
Key words: Ligusticum chuanxiong Hort.; ferulic acid; genes involved in biosynthesis; codon preference analysis
川芎為傘形科植物川芎(Ligusticum chuanxiong Hort.)的干燥根莖,為“血中之氣藥”,有活血行氣、祛風止痛之功效[1]。根據《中國藥典》規定,阿魏酸是川芎的主要指標成分,具有獨特的藥理作用和生物活性,且毒性較低,因而在醫藥、保健品、化妝品原料和食品添加劑等領域有極其廣泛的應用前景[1]。目前,阿魏酸可通過提取、化學合成、水解及微生物培養等4種方法獲得。提取法與化學合成法均需使用大量的化學溶劑,易污染環境;水解法需要首先提取獲得阿魏酸酯,再利用水解制備阿魏酸,也會使用大量的化學溶劑,易造成環境污染;微生物培養法由于阿魏酸含量很低因而分離純化成本高[2]。
植物體內阿魏酸的生物合成以苯丙氨酸為原料,經過苯丙氨酸解氨酶(PAL)、肉桂酸-4-羥基化酶(C4H)、香豆酸-3-O-羥基化酶(C3H)與咖啡酸-3-O-甲基轉移酶(COMT)的有序催化,最后生成阿魏酸(Ferulic acid)(圖1)。
在通過基因工程生產阿魏酸的研究過程中,密碼子使用偏好性對于基因異源表達效率具有至關重要的作用。密碼子是遺傳信息從堿基序列到氨基酸序列傳遞的基本單位。在蛋白質合成過程中同義密碼子并不被隨機使用,某一物種或某一基因往往傾向于使用一種或幾種特定的同義密碼子,這種現象被稱為密碼子使用偏好性(Codon usage bias)。密碼子使用偏好性是生物在長期進化過程中形成的,具有種族特異性,該現象常導致外源基因在宿主中的表達降低,因此在研究基因異源表達的時候,密碼子偏好性研究具有重要作用,使用密碼子的偏好性可利于選擇合適的宿主表達系統,或者通過改造密碼子來提高外源基因的表達。在前期研究中,本實驗室已獲得了川芎根莖的轉錄組數據,共50 108條Unigenes。本研究首先對川芎轉錄組中共50 108條Unigenes使用CodonW、Cusp和Chips進行在線分析,獲得其總GC含量、有效密碼子及最優密碼子等信息。比較分析川芎阿魏酸生物合成相關基因(PAL、C4H、C3H與COMT)與不同候選宿主(大腸桿菌、酵母、煙草和擬南芥)的稀有密碼子比例,篩先最適宿主,為利用基因工程方法生產阿魏酸奠定理論基礎。endprint
1 材料與方法
研究所采用的COMT基因轉錄組50 108條全長轉錄序列為前期所獲川芎根莖轉錄組數據,該轉錄組原始Reads序列已提交NCBI,登錄號SRP043485。大腸桿菌、酵母、煙草和擬南芥基因組的密碼子偏好性數據來自于Codon Usage Databas(http://www.kazusa.or.jp/codon/)。利用CodonW軟件(http://codonw.sourceforge.net/)計算有效密碼子數(Effective number of codons,ENC)、計算CDS區的GC含量、密碼子中第3位堿基的GC含量(GC3s)和相對同義密碼子使用概率(Relative synonymous codon usage,RSCU),利用EMBOSS中的CUSP(Create a codon usage table)和CHIPS(Codon heterozygosity in a protein coding sequence)計算密碼子使用概率。
1.1 密碼子使用偏好性分析
使用CodonW軟件對川芎密碼子組成進行分析[3-5],然后對所得結果進行統計分析。計算分析指標為樣本總GC含量、樣本密碼子第3位核苷酸的GC含量(GC3)、有效密碼子數(Effective number of codons,ENC)、同義密碼子相對使用頻率(Relative synonymous codon usage,RSCU)。有效密碼子數指密碼子使用偏離隨機選擇的程度,用于反映同義密碼子非均衡使用的偏好程度;同義密碼子相對使用頻率指對于某一特定的密碼子在編碼對應氨基酸的同義密碼子間的相對概率。
1.2 最優密碼子分析
通過Jiang[6]的方法來計算川芎的最優密碼子含量。選取從小到大排序的ENC數據的上限區域10%和下限區域10%的基因編碼區序列為子數據集,分別對其RSCU進行計算和比較,如果兩者差異大于0.3,且RSCU在高表達基因子集中大于1.0,在低表達基因子集中小于1.0,則該密碼子為最優密碼子[7]。
2 結果與分析
2.1 GC含量分析
使用CodonW對已經獲得的川芎轉錄組數據進行密碼子使用偏好性分析,分析結果表明,川芎中所有Unigenes的平均總GC量為41.4%,總GC含量分布范圍為13.3%~80.6%。密碼子第3位核苷酸的平均GC含量(GC3)為37.43%,平均GC3含量分布范圍為0~100%。以上分析表明,川芎密碼子第3位核苷酸無明顯偏好性,但不同基因間GC3含量分布范圍較總GC含量分布范圍大。
2.2 有效密碼子數分析
有效密碼子數ENC用于定量分析基因的密碼子使用偏好性,其值范圍一般在20~61之間,其值越小,其偏好性程度越大。該值是描述密碼子使用偏離隨機選擇的程度,并不是某個特殊密碼子的使用頻率與其他密碼子的比較,能反映密碼子中同義密碼子非均衡使用的偏好程度。川芎基因ENC的分布范圍為20~61,平均ENC為46.09。根據Wright[5]和Sharp等[8]的方法將ENC為35作為區分偏好性強弱的標準,川芎基因中ENC<35的有7 742條,占總數的16.17%,ENC>35的有40 145條,占總數的83.83%。說明川芎基因密碼子偏好程度不高,但不同基因間密碼子使用偏好性仍然存在差異。
2.3 密碼子使用頻率分析及最優密碼子分析
同義密碼子相對使用頻率RSCU,是衡量密碼子使用偏好性的另一個指標,如果密碼子的使用沒有偏好性,則該密碼子的RSCU=1,當某一密碼子的RSCU>1時,代表該密碼子為使用相對較多的密碼子,反之亦然。通過對高ENC值和低ENC值的基因子集的比較和統計分析,計算川芎轉錄組樣本的最優密碼子,確定6個密碼子為川芎的最優密碼子UUU、UUC、UUA、CCU、AGU與AGA,分別編碼Phe、Leu、Pro、Ser與Arg等5種氨基酸,其中編碼Phe的密碼子有兩個(UUU與UUC),6個最優密碼子中,除UUC外,其余密碼子都以A/U結尾(表1)。說明川芎最優密碼子偏好以A/U結尾的密碼子。
2.4 基因表達的稀有密碼子分析
根據Codon Usage Database數據,B型大腸桿菌中最稀有的6個密碼子分別為UGA、UAA、AGG、CCC、CGA與AGA。酵母中最稀有的6個密碼子分別為UAG、UGA、UAA、CGG、CGC與CGA。煙草中最稀有的6個密碼子為UAG、UGA、UAA、CGG、CGC與ACG。而擬南芥中最稀有的6個密碼子為UAG、UAA、UGA、CGC、CGG與CCC。
根據CodonW分析結果,川芎50 108條Unigenes中有24個偏好性較強的密碼子,包括UUU、UCU、UAU、UGU、UCA、UUG、CUU、CCU、CAU、CCA、CAA、AUU、ACU、AAU、AGU、ACA、AAA、AGA、GUU、GCU、
GAU、GGU、GCA與GAA。經過對比發現,大腸桿菌中有一個稀有密碼子(AGA)是川芎偏好使用的密碼子,如果需要克隆表達的川芎基因含有較多的AGA密碼子,則該基因可能會在大腸桿菌中表達困難。而酵母、煙草與擬南芥均不含有川芎偏好使用的密碼子。因此,與酵母、煙草、擬南芥相比,大腸桿菌的密碼子使用偏好性與川芎的略有差異,但差別不大。
經過對川芎轉錄組數據的功能注釋,從中發現16條與阿魏酸生物合成相關的Unigenes,包括5條PAL、1條C4H、2條C3H與8條COMT(表2)。計算這16條Unigenes與4種不同宿主的稀有密碼子比例,結果發現大腸桿菌分值最高,表明大腸桿菌中含有最多的稀有密碼子(圖2)。如果選擇大腸桿菌為宿主,C54052的稀有密碼子數目最多,為50;C57565次之,為27。如果以酵母為宿主,C54052的稀有密碼子數目同樣最多,為15;C57565次之,為5。如果以煙草與擬南芥為宿主,C54052含有的稀有密碼子最多,分別為11與15;C55080次之,分別為6與6(表3)。這個分析結果與前面的轉錄組總體分析結果吻合,即大腸桿菌是表達最困難的宿主,而酵母、煙草與擬南芥的表達難度相對較低。endprint
當宿主中稀有密碼子比例偏高,在對某個具體基因表達時,可以根據密碼子偏性部分改造密碼子,來適應大腸桿菌或酵母、煙草或擬南芥的密碼子使用偏好性,來提高表達效率。為了提升在異源體系中目的基因的表達量,可對目的基因的密碼子進行優化改造,將異源體系中稀有密碼子替換為優勢密碼子。大腸桿菌稀有密碼子為編碼TER的UGA、UAA,編碼Met的AGG,編碼Arg的CCC、AGA,編碼Gln的CGA。酵母的稀有密碼子為編碼TER的UAG、UGA、UAA,編碼Arg的CGG、CGC、CGA,在不改變氨基酸序列的前提下,可將其修飾為更加優勢的密碼子AGA(Arg)。煙草的稀有密碼子為編碼TER的UAG、UGA、UAA,編碼Arg的CGG、CGC,編碼Thr的ACG,其中可替換為更優勢的密碼子AGA(Arg)。擬南芥的稀有密碼子為編碼TER的UAG、UGA、UAA,編碼Arg的CGC、CGG,編碼Pro的CCC,其中可修飾為更優勢的密碼子AGA(Arg)、CCU(Pro)。
3 小結與討論
密碼子使用偏好性是在生命體翻譯過程中廣泛存在的自然現象,導致這種現象的原因是物種在漫長進化過程中突變、選擇的綜合結果。已有研究表明,密碼子使用偏好性與基因的表達水平相關,高表達基因傾向使用最優密碼子,從而可以保證其翻譯的效率和準確率。為了在異源體系中,更好地提高目的基因的表達量,可對目的基因的密碼子進行優化改造,將異源體系中稀有密碼子替換為優勢密碼子。
酵母常作為真核表達系統,而原核表達系統常常為大腸桿菌。在確定了宿主表達系統的前提下,要實現目的基因的高效表達,對目的基因密碼子進行優化是行之有效的方法。比如,構建產咖啡酸基因工程菌時,對所涉及的酪氨酸脫氨酸(TAL),C3H與CYP199A2基因均開展了密碼子偏好性分析與優化,使其能夠適應在大腸桿菌中表達。
通過對川芎轉錄組密碼子的偏好性分析,可以發現川芎轉錄組密碼子對以A或T結尾的密碼子有明顯的使用偏好性。大腸桿菌是表達最困難的宿主,這與它們來源于真核生物有著密切的聯系。本研究發現對于川芎阿魏酸生物合成相關基因來說,其密碼子偏好性同酵母基因組較為接近。這就表明相較于大腸桿菌,酵母更加適合作為川芎基因的表達系統。但決明基因密碼子與酵母基因組密碼子的使用頻率仍存在差異(如C54052),若要使川芎基因能夠在酵母表達系統中高效表達,需要對其密碼子進行優化。
已成功克隆了2條川芎COMT基因(C41658與C55080,登錄號分別為Q6T1F5和KU942388),其中C41658在大腸桿菌中獲得了成功表達,并完成了功能鑒定;而C55080在大腸桿菌中未獲得表達。比較兩者的稀有密碼子數目(以大腸桿菌為宿主),發現C41658稀有密碼子數目較少,只有4個,而C55080稀有密碼子數目較多,有7個,這表明密碼子偏好性分析結果與具體的試驗驗證結果高度吻合,可信度較高,能夠用于指導相關基因的異源表達。
參考文獻:
[1] 周禎祥,唐德才.中藥學[M].新世紀第二版.北京:中國中醫藥出版社,2007
[2] QUAX T F,CLAASSENS N J,S?魻LL D,et al. Codon bias as a means to finetune gene expression[J].Molecular Cell,2015,59(2):149-161.
[3] ACOSTA-RIVERO N,S?魣NCHEZ J C,MORALES J. Improvement of human interferon HU IFNα2 and HCV core protein expression levels in Escherichia coli but not of HU IFNα8 by using the tRNA(AGA/AGG)[J].Biochem Biophys Res Commun,2002,296(5):1303-1309.
[4] DURET L,MOUCHIROUD D. Expression pattern and,surprisingly,gene length shape codon usage in Caenorhabditis,Drosophila and Arabidopsis[J].Proc Natl Acad Sci,1999,96(8):4482.
[5] WRIGHT F. The deffective number of codons T used in a gene[J].Gene,1990,87(1):23-29.
[6] JIANG Y,DENG F,WANG H L,et al. An extensive analysis on the global codon usage pattern of baculoviruses[J].Arch Virol,2008,153(12):2273-2282.
[7] 李 瀅,匡雪君,孫 超,等.川貝母轉錄組密碼子使用偏好性分析[J].中國中藥雜志,2016,41(11):2055-2060.
[8] SHARP P M,LI W H. An evolutionary perspective on synonymous codon usage in unicellular organisms[J].J Mol Evol,1986, 24(1-2):28-38.endprint