摘要:運(yùn)用EMBOSS(The european molecular biology open software suite)軟件包中的CHIPS(Condon heterozygosity in a protein coding sequence)和CUSP(Create a condon usage table)程序?qū)t豆杉屬的52個(gè)基因的密碼子偏性進(jìn)行綜合分析,并與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性進(jìn)行比較。結(jié)果表明,紅豆杉屬基因的Nc(有效密碼子數(shù))為45~58,大部分密碼子使用頻率較為一致。部分氨基酸密碼子使用頻率存在較大差異,如Ala、Asp、Phe、Gly、His、Asn、Arg、Thr、Tyr等。紅豆杉屬基因密碼子偏性與擬南芥等雙子葉植物較接近,與原核生物和單子葉植物相差較遠(yuǎn)。
關(guān)鍵詞:紅豆杉屬;密碼子偏性;CHIPS;CUSP
中圖分類號(hào):S791.49 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2013)10-2427-04
核酸是蛋白質(zhì)合成的模板,編碼天然蛋白質(zhì)的20種氨基酸的密碼子共61種,每一種氨基酸可由1個(gè)密碼子(Met和Trp)至6個(gè)密碼子(Arg、Leu和Ser)編碼[1]。編碼同一種氨基酸的密碼子在不同物種中具有不同的使用頻率,這就造成密碼子偏性(Codon bias)[2]。從原核生物到真核生物,這種基因組中同義密碼子使用偏性的現(xiàn)象普遍存在,它的產(chǎn)生與多種因素有關(guān),如基因表達(dá)水平、G/C含量、tRNA的豐富性等[3]。密碼子偏性的產(chǎn)生與基因的堿基組成、表達(dá)水平、編碼蛋白的結(jié)構(gòu)與功能等眾多因素有關(guān),且各因素間還可能相互影響,因而進(jìn)行密碼子偏性分析是一個(gè)較為復(fù)雜的問題。從這些復(fù)雜的現(xiàn)象中分析并發(fā)現(xiàn)內(nèi)在規(guī)律,將對(duì)新基因的預(yù)測(cè)、基因功能和表達(dá)調(diào)控機(jī)制研究、基因編碼蛋白的細(xì)胞定位及分子進(jìn)化研究等具有重要指導(dǎo)意義。
紫杉醇是從雙子葉植物紅豆杉(Taxus brevifolia)中提煉出來的具有天然活性的雙萜抗癌藥物[4],是1971年從短葉紅豆杉的樹皮、樹根和枝葉中提煉出來的[5],被廣泛用于卵巢癌、非小細(xì)胞肺癌、乳腺癌等癌癥的治療[6]。目前紫杉醇主要的合成方法是化學(xué)合成,但是收益低、成本高,從紅豆杉植物中提取紫杉醇會(huì)造成嚴(yán)重的資源破壞。產(chǎn)量不足,帶動(dòng)了紫杉醇合成的全方位的研究,其中利用生物工程方法實(shí)現(xiàn)紫杉醇的高產(chǎn)合成成為研究熱點(diǎn)。許多科學(xué)家希望實(shí)現(xiàn)紫杉醇合成基因在大腸桿菌等微生物中異源表達(dá)來實(shí)現(xiàn)紫杉醇的生物合成。但是蛋白質(zhì)在異源宿主中表達(dá)一般會(huì)受到限制,因?yàn)榫幋a這些蛋白質(zhì)的核酸序列往往含有宿主不喜歡使用的密碼子,從而降低了表達(dá)效率[7]。因此,分析紅豆杉屬植物基因的密碼子偏性對(duì)于選擇基因外源表達(dá)的合適的宿主有重要意義。
研究利用EMBOSS(The european molecular biology open software suite)軟件,以麥迪紅豆杉和東北紅豆杉為主,從紅豆杉屬植物中選取52個(gè)基因,對(duì)其編碼區(qū)進(jìn)行密碼子偏性分析,并與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性進(jìn)行比較,為利用生物工程方法實(shí)現(xiàn)紫杉醇的生物合成提供參考。
1 材料與方法
1.1 紅豆杉基因來源
以麥迪紅豆杉和東北紅豆杉為主,從紅豆杉屬植物中選取52個(gè)基因。登錄號(hào)分別為AY724737,GU568338, FJ608574, EU078561, AF457109,AF228104, HB792670, FB922725, AY675557,AY461811, HB792772, FB922713, GU568337,AY563630, FB922731, AY453402, HB792790,AF466397, BD313599, HB792668, AY453403,DQ836053, AY644708, AY628433, HB792746,F(xiàn)B922723, AY452666, AY277740, AY326950,HB792782, HB792744, AY307951, AY461450,AY188177, HB831819, HB776721, BD313592,BD313600, BD313597, AY588482, AY505129,EU549861, AY289209, AY866412, BD313598,AY453404, EU549860, AY571340, HB769723,AY789508, AY518383, BD313601。
1.2 分析軟件與數(shù)據(jù)庫(kù)
用EMBOSS軟件包中的CHIPS(Condon heterozygosity in a protein coding sequence)和CUSP(Create a condon usage table)程序進(jìn)行密碼子偏性分析[1,2]。CHIPS可對(duì)密碼子使用頻率進(jìn)行統(tǒng)計(jì),計(jì)算特定序列中有效密碼子的Nc(有效密碼子數(shù)),該值是一個(gè)基因的密碼子使用頻率與同義密碼子平均使用頻率偏差的量化值。
Nc=2+9/F2+1/F3+5/F4+3/F6
F=■, n﹥1,Pi=ni/n
其中,n表示基因中所使用的密碼子總數(shù);k為同義密碼子數(shù)量;Pi是第i個(gè)密碼子的使用頻率(ni/n)。
Nc值與基因長(zhǎng)度和氨基酸組成有關(guān),因此可以對(duì)基因的密碼子偏性程度提供一個(gè)客觀的評(píng)價(jià)標(biāo)準(zhǔn)。CUSP是對(duì)一個(gè)或多個(gè)編碼序列進(jìn)行閱讀后計(jì)算出密碼子頻率。該程序可計(jì)算不同密碼子在同一氨基酸編碼中所占的比例,并通過外延法計(jì)算密碼子在編碼基因中出現(xiàn)的頻率。本研究的大腸桿菌、酵母、擬南芥和水稻的密碼子偏性數(shù)據(jù)來自密碼子數(shù)據(jù)庫(kù)[8]。
2 結(jié)果與分析
2.1 紅豆杉屬基因編碼區(qū)長(zhǎng)度與G+C含量
對(duì)從紅豆杉屬植物中選取的基因結(jié)構(gòu)完整的52個(gè)基因進(jìn)行分析(圖1),其編碼區(qū)長(zhǎng)度主要為 1 200~1 600 bp。這些基因的(G+C)含量從34.0%到56.5%,平均(G+C)含量為43.7%,少數(shù)基因的(G+C)含量在50%以上(3/52)或40%以下(7/52)。如氨基變位酶基因AY724737的(G+C)含量為56.2%,苯丙氨酸解氨酶基因GU568338的(G+C)含量為56.5%,JAMYC轉(zhuǎn)錄因子FJ608574的(G+C)含量為50.8%。(G+C)含量在40%以下的基因有7個(gè),其中成熟酶K基因EU078561、紅豆杉山定子成熟酶K基因AF457109、東北紅豆杉的成熟酶K基因AF228104的(G+C)含量分別為34.0%、34.1%、34.7%。
2.2 紅豆杉屬基因有效密碼子數(shù)
Nc值描述密碼子使用偏離隨機(jī)選擇的程度(并不是某個(gè)特殊密碼子的使用頻率與其他密碼子的比較),能反映密碼子家族中同義密碼子非均衡使用的偏好程度。其數(shù)值范圍在20(每個(gè)氨基酸只使用一個(gè)密碼子的極端情況)到61(各個(gè)密碼子都被使用)之間。已知高表達(dá)基因其密碼子偏愛程度較大,從而Nc值較小;低表達(dá)基因則含有較多種類的稀有密碼子,Nc值較大,所以,當(dāng)前普遍通過比較Nc來確定內(nèi)源基因表達(dá)量的相對(duì)高低。Nc值越小,對(duì)應(yīng)的內(nèi)源基因往往表達(dá)量越高。紅豆杉屬基因有效密碼子數(shù)Nc值主要為45~58(圖2),表明一個(gè)基因并沒有使用所有的密碼子,編碼氨基酸的密碼子有一定的偏性。
2.3 紅豆杉屬基因的密碼子偏性
紅豆杉屬基因密碼子偏性CUSP軟件分析結(jié)果見表1。由表1可知,除了Cys、Glu、Lys、Gln等,編碼Ala、Asp、Phe、Gly、His、Ile、Asn、Pro、Arg、Thr、Val、Tyr的密碼子以及終止密碼子存在比較明顯的偏性。其中Ala偏愛密碼子GCA的比例達(dá)0.39,而GCG的比例僅為0.10;Asp偏愛密碼子GAT的比例達(dá)0.64,而GAC的比例僅為0.36;Phe偏愛密碼子TTT的比例達(dá)0.61,而TTC的比例僅為0.39;Gly偏愛密碼子GGA的比例達(dá)0.42,而GGC的比例僅為0.16;His偏愛密碼子CAT的比例達(dá)0.69,而CAC的比例僅為0.31。此外Ile、Asn、Pro、Arg、Thr、Val、Tyr和終止肽鏈合成的偏愛密碼子分別為ATT、AAT、CCA/CCT、AGA、ACA/ACT、GTT、TAT和TGA。
觀察發(fā)現(xiàn)紫杉醇合成途徑中的偏愛密碼子和高頻密碼子的第三位堿基多為A/T,紫杉醇合成基因偏愛使用A/T結(jié)尾的密碼子,少量或避免使用G/C結(jié)尾的密碼子,這與Kawabe等[9]利用4種單子葉植物和3種雙子葉植物進(jìn)行密碼子研究的結(jié)果一致,即雙子葉植物偏愛使用A/T結(jié)尾的密碼子且Nc值較高,而單子葉植物偏愛使用G/C結(jié)尾的密碼子且Nc值較低。同時(shí)發(fā)現(xiàn)偏愛密碼子和高頻密碼子一般含有較多的A/T,而含有較少的G/C,這一現(xiàn)象與紫杉醇合成基因的(G+C)含量較低的現(xiàn)象是一致的,紫杉醇合成基因的(G+C)含量只有43.7%,相應(yīng)的在密碼子選擇上,占優(yōu)勢(shì)的密碼子含有更多的A/T。
2.4 紅豆杉基因密碼子與大腸桿菌、酵母、擬南芥和水稻密碼子偏性比較結(jié)果
紅豆杉基因密碼子偏性與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性比較結(jié)果見表2。由表2可知,紅豆杉基因密碼子偏性與大腸桿菌、酵母、擬南芥和水稻等不同種類模式生物的密碼子偏性具有不同程度的差異。其與大腸桿菌的22個(gè)密碼子使用偏性差異較大。如編碼Ala的密碼子GCG在大腸桿菌中的頻率是31.7‰,在紅豆杉中則只有8.5‰;編碼Ile的密碼子ATA在大腸桿菌中的頻率為5.4‰,在紅豆杉中卻高達(dá)18.8‰。基因密碼子的偏性之所以在兩個(gè)物種間存在較大的差異可能主要是由于大腸桿菌屬于原核生物而紅豆杉則是高級(jí)植物,它們的親緣性差別較大,導(dǎo)致它們對(duì)密碼子的選擇性也不同。因此若需將紅豆杉的紫杉醇基因在大腸桿菌中表達(dá),需要通過部分改造密碼子,來適應(yīng)大腸桿菌的密碼子使用法則,來提高表達(dá)效率。
紅豆杉與同為雙子葉植物的擬南芥密碼子使用法則基本一致,僅有2個(gè)密碼子差異較大,而與單子葉植物水稻的密碼子使用法則差異較大,有15個(gè)密碼子有明顯差異。因此在進(jìn)行外源基因表達(dá)時(shí),紅豆杉的紫杉醇合成基因可以不經(jīng)過密碼子優(yōu)化,而在擬南芥等雙子葉植物中獲得高效表達(dá);若需將紫杉醇合成基因在水稻等單子葉植物中表達(dá),則可以按照該研究提供的密碼子偏性進(jìn)行適當(dāng)?shù)拿艽a子改造來提高表達(dá)效率。
3 小結(jié)與討論
密碼子是生物體內(nèi)信息傳遞的基本環(huán)節(jié),在長(zhǎng)期的進(jìn)化過程中,任何一個(gè)物種為適應(yīng)其基因組環(huán)境,都要形成特定的符合其基因組的密碼子使用法則。不同生物物種密碼子偏性有一定差別,造成外源基因在宿主中表達(dá)有強(qiáng)弱現(xiàn)象。選擇密碼子偏性相近的宿主,可能有利于外源蛋白質(zhì)的高效表達(dá)。有研究報(bào)道通過改變目的基因的同義密碼子,使其適應(yīng)宿主的密碼子偏性來提高目的蛋白質(zhì)的表達(dá)量。
研究首先選取了紫杉醇合成途徑中的52個(gè)基因,對(duì)它們的(G+C)含量、密碼子偏性進(jìn)行了綜合分析,得出了紫杉醇合成基因的密碼子用法特征,即偏愛使用A/T結(jié)尾的密碼子,少量使用G/C結(jié)尾的密碼子,且偏愛密碼子和高頻密碼子含有較多的A/T和較少的G/C,這與雙子葉植物密碼子使用法則和紫杉醇合成基因(G+C)含量低相一致。同時(shí),紅豆杉的密碼子偏性與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性進(jìn)行比較,發(fā)現(xiàn)其與擬南芥等雙子葉植物的密碼子偏性基本一致,而與大腸桿菌等原核生物和水稻等單子葉植物的密碼子偏性差異較大。這為如何選擇合適宿主或改變密碼子實(shí)現(xiàn)紫杉醇合成基因外源高效表達(dá)提供一定依據(jù)。
參考文獻(xiàn):
[1] 王 艷, 馬文麗, 鄭文嶺. SARS冠狀病毒的密碼子偏愛性分析[J].生命科學(xué)研究,2003,7(3):219-223.
[2] 范三紅,郭藹光,單麗偉,等. 擬南芥基因密碼子偏愛性分析[J]. 生物化學(xué)與生物物理進(jìn)展,2003,30(2):221-227.
[3] LIU Q P,F(xiàn)ENG Y,ZHAO X H,et al. Synonymous codon usage bias in Oryza sativa[J]. Plant Science,2004,167(1):101-105.
[4] 劉漢梅,何 瑞,張懷瑞,等. 玉米同義密碼子偏愛性分析[J]. 農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2010,18(3):456-461.
[5] WANI M C,TAYLOR H L,WALL M E,et al. Plant antitumor agents.VI.The isolation and structure of taxol,a novel antileukemic and antitumor agent from Taxus brevifolia[J].Journal of the American Chemical Society,1971,93(9):2325-2327.
[6] 元英進(jìn),葛志強(qiáng),馮 霞. 抗癌新藥紫杉醇和多烯紫杉醇[J]. 北京:化學(xué)工業(yè)出版社,2002.
[7] GUSTAFSSON C,GOVINDARAJAN S,MINSHULL J.Codon bias and heterologous protein expression[J]. Trends in Biotechnology,2004,22(7):346-358.
[8] NAKAMURA Y,GOJOBORI T,IKEMURA T.Condon usage tabulate form the international DNA sequence database:status for the year 2000[J]. Nucleic Acids Research,2000,28(1):292-296.
[9] KAWABE A,MIYASHITA N T. Patterns of codon usage bias in three dicot and four monocot plant species[J]. Genes Genetic Systems,2003,78(5):343-352.