馮瑞云 ,田 翔 ,程 宏 ,王慧杰 ,梅 超 ,左 敏 ,雷夢林
(1.山西省農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,作物遺傳與分子改良山西省重點實驗室,山西太原030031;2.山西省農(nóng)業(yè)科學(xué)院農(nóng)作物品種資源研究所,農(nóng)業(yè)部黃土高原作物基因資源與種質(zhì)創(chuàng)制重點實驗室,山西太原030031;3.山西省農(nóng)業(yè)科學(xué)院玉米研究所,山西忻州034000)
生物基因的核苷酸序列與蛋白質(zhì)的氨基酸序列之間的聯(lián)系紐帶是三聯(lián)體密碼子[1]。蛋白質(zhì)翻譯過程氨基酸的正確加入,需靠mRNA上的密碼子與tRNA上的反密碼子相互以堿基配對辯認。在密碼子與反密碼子的配對中,第1對和第2對堿基嚴格遵守堿基互補配對原則,第3位堿基有一定自由度,可以“擺動”,這就是密碼子的簡并性[2]。編碼同一個氨基酸的密碼子是同義密碼子,如果每個氨基酸位點上的核苷酸在無任何選擇壓力和突變基因的偏倚情況下,同義密碼子的突變是隨機的,并且出現(xiàn)的概率也是一樣的[3]。但是實際情況下,同義密碼子突變概率具有不同的使用頻率,某些同義密碼子具有較高的使用頻率[4],在翻譯過程中使用頻率有很大的差異,也就是密碼子的使用偏性[5]。從生物的某個單一物種基因組中的基因到不同的物種基因組,都可以發(fā)現(xiàn)某種密碼子偏好的趨勢[6]。研究密碼子堿基突變、自然選擇、遺傳漂變、水平轉(zhuǎn)移和重組等特性,不但能夠反映生物物種的一些進化現(xiàn)象,而且在基因工程表達載體中有針對性的設(shè)計這些密碼子,能夠有效提高目的基因的轉(zhuǎn)化效率和表達量,具有一定的應(yīng)用前景[7-8]。
蒙古黃芪(Astragalus.membranaceus var.mongholicus)是豆科蝶形花亞科黃芪屬多年生草本植物[9-10],屬于膜莢黃芪變種,產(chǎn)于黑龍江、內(nèi)蒙古、河北及陜西等地的向陽草坡或山坡上[11]。黃芪總黃酮中含量較高的主要為異黃酮類成分,異黃酮不僅藥效顯著,是天然的抗氧化劑,具有很強的清除自由基的能力,而且它的價值高昂,是黃芪藥材質(zhì)量檢測及黃芪中藥必不可少的質(zhì)量指標之一[12]。
異黃酮(Isoflavone)已被證明是許多植物植保素的前體物質(zhì),是苯丙氨酸代謝途徑中的一類次生代謝物質(zhì),也是豆科植物與根瘤菌共生的化學(xué)誘導(dǎo)物,能夠誘導(dǎo)nod基因的表達,有利于降低膽固醇,預(yù)防心血管疾病,提高機體免疫功能以及預(yù)防腫瘤發(fā)生等,具有重要的營養(yǎng)和醫(yī)用價值[13]。但是其在植物界只局限于豆科蝶形花亞科等極少數(shù)植物中分布,物種范圍非常狹窄,其中以大豆和苜蓿中的含量最高。異黃酮合成酶(IFS)是將植物的黃烷酮代謝途徑引入異黃酮代謝途徑的關(guān)鍵酶[14],研究IFS結(jié)構(gòu)、功能、催化機制以及作為信號分子誘導(dǎo)根瘤形成是異黃酮類化合物代謝的基礎(chǔ)和關(guān)鍵。目前,已經(jīng)在白三葉草、百脈根、大豆、小扁豆、綠豆、紅三葉草、羽扇豆、紫花苜蓿等植物中克隆出IFS全長。發(fā)掘和利用異黃酮合成過程中的IFS基因,并通過轉(zhuǎn)基因技術(shù)轉(zhuǎn)化不同作物,對提高植物異黃酮水平、賦予非豆類植物合成異黃酮的能力具有重要意義。
本研究利用CodonW和EMBOSS等在線程序,分析了蒙古黃芪IFS基因的密碼子偏性,并將其與不同物種的IFS基因密碼子使用偏性進行比較,為進一步研究IFS蛋白質(zhì)的結(jié)構(gòu)和功能以及分子進化奠定基礎(chǔ),同時通過密碼子使用偏性進行比較來選擇最佳外源表達系統(tǒng),可以為IFS基因轉(zhuǎn)入模式生物進行功能驗證提供參考依據(jù)。
從GenBank在線數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/genbank/)下載蒙古黃芪(Astragalus.membra naceus var.mongholicus)IFS基因的完整序列(Gen-Bank登錄號為HQ339961.1),序列全長1 578 bp,5′UTR 和 3′UTR 分別為 117,17 bp,開放閱讀框1 578 bp,編碼526個氨基酸。
以Isoflavone synthase(IFS)為搜索名稱從Gen-Bank(http://www.ncbi.nlm.nih.gov/genbank/)中 檢 索并下載大豆、葛根、紅豆草和膜莢黃芪等13個雙子葉植物物種IFS基因CDS序列(表1)。篩選CDS的原則是以ATG為起始密碼子,以TAA,TAG或TGA為終止密碼子,大于300bp的氨基酸序列長度,只在細胞質(zhì)中翻譯的基因,并且將位于病毒、轉(zhuǎn)座子、質(zhì)粒上的基因進行排除,對于多拷貝基因只做一次統(tǒng)計。此外,擬南芥、番茄、煙草、酵母菌以及大腸桿菌的基因組密碼子數(shù)據(jù)來源于Codon Usage Database在線數(shù)據(jù)庫(http://www.kazusa.or.jp/codon/)。

表1 IFS基因的完整編碼區(qū)序列來源
1.2.1 密碼子偏好性參數(shù)分析 分別采用CodonW軟件和EMBOSS在線程序中的CHIP(Codon heterozygosity in a protein coding sequence)和CUSP(Create a codon usage table)模塊分析IFS基因有效密碼子數(shù) ENc,GC1,GC2 和 GC3(密碼子第 1,2 和3位上G和C含量)和總G和C含量(GC),密碼子第3位上A,G,C和U的含量(A3,G3,C3和U3),分析相對同義密碼子的使用度(relatively synonymous codonusage,RSCU)以及密碼子的使用頻率。
1.2.2 堿基組成相關(guān)性分析 編碼區(qū)密碼子第3位上堿基的突變往往只造成同義突變,對編碼結(jié)果并不影響;而編碼區(qū)密碼子前2位堿基多會造成所編碼氨基酸序列改變,為非同義突變。將密碼子GC1,GC2,GC3,GC和ENc等偏好性參數(shù)采用SPSS18.0,進行Pearson相關(guān)性和相關(guān)顯著性分析,解析造成密碼子偏好性形成的可能因素。
1.2.3 基于密碼子使用偏性和CDS序列的聚類排除編碼氨基酸61個密碼子中的色氨酸(Trp)、甲硫氨酸(Met)和終止密碼子,將59個密碼子出現(xiàn)概率視做多維空間的一個變量,每個基因均可量化為59個變量組成的空間向量。運用CodonW在線程序計算不同物種IFS基因CDS區(qū)的RSCU值,并以每個物種作為一個對象,將每個密碼子的RSCU值作為變量,利用SPSS 18.0軟件,采用Ward法進行聚類分析。同時,運用MEGA5.0軟件計算物種間的遺傳距離,并采用組間鄰接法構(gòu)建系統(tǒng)發(fā)育樹。
2.1.1 同義密碼子相對使用度 蒙古黃芪IFS基因編碼區(qū)使用頻率及RSCU值計算結(jié)果(表2)表明,RSCU值大于1的密碼子有26個,為IFS基因偏好密碼子,其中,以G/C結(jié)尾的密碼子有9個,以A/T結(jié)尾的有17個。有8個密碼子的RSCU值大于1.5,為高頻密碼子,分別為 TCT,CTT,CCT,ACC,AGA,AGG,GTT和GCT。密碼子AGA的RSCU值最大,為2.33,該密碼子的偏好性最強。編碼氨基酸Trp,Arg,Met的密碼子 ATG,TGG,TGA 的 RSCU 值均等于1,表明蒙古黃芪IFS基因中的密碼子ATG,TGG,TGA使用沒有偏好性。

表2 CUSP和Codon W軟件分析膜莢黃芪IFS基因密碼子偏好性
2.1.2 有效密碼子數(shù)及GC含量 通過CodonW程序分析得出,蒙古黃芪IFS基因編碼區(qū)有521個密碼子,同義密碼子有502個。由表3可知,蒙古黃芪IFS基因編碼區(qū)的GC含量為0.458,小于0.5,表明蒙古黃芪IFS基因在編碼堿基較偏向于選擇A+T;GC3含量為0.425,小于0.5,表明蒙古黃芪IFS基因密碼子第3位堿基對A/T更加偏好。蒙古黃芪IFS基因的ENc值為51.83,遠大于基因表達量和密碼子偏好性強弱的區(qū)分標準值35,小于61[15],表明蒙古黃芪IFS基因?qū)γ艽a子選擇偏性比較弱,各密碼子在編碼氨基酸時的頻率比較一致,基因表達水平偏低。

表3 不同物種IFS密碼子偏性分析
由表3可知,14個物種中僅有大豆的GC值大于0.5,其余13個物種GC值均小于0.5,GC平均值為0.461。14個物種的GC3平均值為0.446,大于0.5的GC3值有4個,分別為大豆、豇豆、綠豆和紅三葉草,大豆的GC3值最大,為0.554;剩余10個物種的GC3值均小于0.5,其中,黃羽扇豆GC3值最小,為0.313。說明不同物種IFS之間密碼子對GC含量和G/C結(jié)尾的偏好性不一致,但多數(shù)物種A+T的含量高于G+C,且密碼子可能偏好A/T結(jié)尾。
14個物種IFS的ENc值平均值為49.649,其中,膜莢黃芪ENc值最大,為52.28,黃羽扇豆ENc值最小,為45.92,說明不同物種IFS基因之間有較大差異,但密碼子選擇偏好性和基因表達水平普遍較低。膜莢黃芪、葛根、錦雞兒、甘草與蒙古黃芪IFS的ENc值較為接近。14個物種IFS的CAI值介于0.177~0.205之間,CAI平均值為0.193,均遠小于1。CAI取值范圍在0~1之間,數(shù)值越高表明密碼子使用偏好性越強,說明各物種IFS的CAI指數(shù)驗證結(jié)果與ENc值一致,表明這些物種的密碼子偏好性及基因表達水平雖有一定差異,但密碼子使用偏好性較弱,基因表達水平普遍不強。
密碼子使用偏好性RSCU值結(jié)果(表3)表明,豇豆IFS中RSCU>1的密碼子數(shù)目最多,為31個,大豆、甘草和補骨脂的密碼子數(shù)目最少,為26個;豇豆IFS中RSCU>1.5的密碼子數(shù)目最多,為15個,葛根密碼子數(shù)目最少,為7個;RSCU值范圍大多在0~3.00,紅豆草RSCU值范圍較小,為0~2.62。

表4 IFS密碼子成分相關(guān)性分析
采用 SPSS 18.0 進行 GC1,GC2,GC12,GC3,GC和ENc兩兩Pearson關(guān)聯(lián)顯著性分析(表4),除GC與 ENc,GC3與 ENc無顯著相關(guān)性外,GC2與GC3,GC2與ENC參數(shù)間呈顯著相關(guān)性,剩余其他任意2個參數(shù)間均存在極顯著相關(guān)性(P<0.01)。其中,GC1,GC2,GC3與GC兩兩之間均為極顯著正相關(guān),表明IFS密碼子第1,2,3位上的堿基組成較為相似,堿基組成無顯著差異;GC12與GC3間為極顯著正相關(guān)(r=0.723,P<0.01),表明 IFS基因密碼子使用偏好性的形成受突變壓力影響較大。

基于不同物種的IFS密碼子使用偏性聚類分析可分為2個大類(圖1),樣本數(shù)分別為8,6。14個不同物種均屬于豆科蝶形花亞科,其中,6個屬于豆目(大豆、葛根、甘草、蒺藜苜蓿、蒙古黃芪、膜莢黃芪),1個屬于杜鵑花目(黃羽扇豆),7個屬于薔薇目(豇豆、綠豆、紅三葉草、豌豆、補骨脂、錦雞兒、紅豆草)。蒙古黃芪IFS處于Ⅱ類,與膜莢黃芪以及薔薇目的錦雞兒密碼子偏性較接近;杜鵑花目的黃羽扇豆與薔薇目的紅豆草同為一組,密碼子偏性較近;而同屬于薔薇目的豇豆、綠豆、紅三葉草和豌豆、補骨脂、錦雞兒、紅豆草分屬于不同類別,密碼子偏性差異較大;同屬于豆目的大豆、葛根、甘草和蒺藜苜蓿、蒙古黃芪、膜莢黃芪分屬于不同類別,密碼子偏性差異較大,可見不同物種間IFS的密碼子使用特性與物種近緣關(guān)系是否接近并無顯著相關(guān)性。
根據(jù)CDS序列構(gòu)建系統(tǒng)發(fā)育樹可將IFS歸為2個大類(圖2),不同的是,杜鵑花目的黃羽扇豆單獨成Ⅰ類,其他13個物種歸為Ⅱ類,Ⅱ類又分為2個亞類;亞類群內(nèi)薔薇目的補骨脂重新分類,并單獨歸為一小類;紅豆草和錦雞兒、蒺藜苜蓿和豌豆聚類結(jié)果較為相近,與密碼子偏性聚類結(jié)果有一定差異;而其余物種在2種方法中的聚類結(jié)果較為相近,但仍有一定差異。可見有些物種間IFS密碼子使用偏性較為相似,但有些物種IFS在長期生物進化過程中密碼子使用偏性發(fā)生改變。基于密碼子偏好性聚類分析可以較大程度地反映蒙古黃芪IFS特殊的進化規(guī)律,但基于CDS的系統(tǒng)聚類與傳統(tǒng)的植物分類學(xué)更加接近。


表5 蒙古黃芪IFS基因與部分模式生物基因組密碼子使用偏性比較

續(xù)表5
將蒙古黃芪IFS密碼子使用頻率與大腸桿菌、擬南芥、酵母菌、煙草和番茄的基因組密碼子使用頻率進行比較發(fā)現(xiàn)(表5),蒙古黃芪IFS與大腸桿菌使用偏性差異較大的密碼子有14個,與酵母菌使用偏性差異較大的密碼子為12個。
可見,酵母菌真核表達系統(tǒng)更適用于蒙古黃芪IFS異源表達試驗,但蒙古黃芪IFS與酵母菌密碼子使用頻率之間仍然存在較大的差異,在使用時需要進行密碼子改造和優(yōu)化。而在與遺傳轉(zhuǎn)化模式植物的比較中,蒙古黃芪IFS與擬南芥、煙草和番茄的基因組密碼子使用頻率差異較大的密碼子個數(shù)分別為7,9,10個,說明蒙古黃芪IFS與這些模式生物密碼子使用特性差異比較小,尤其擬南芥為蒙古黃芪IFS遺傳轉(zhuǎn)化功能驗證最為理想的受體。
不同物種或同一物種的不同基因?qū)γ艽a子的偏好性有所不同[16-17]。蒙古黃芪IFS基因的ENc值為51.83,可見該基因密碼子使用偏性相對較弱。已有研究表明,雙子葉植物的GC3值通常小于50%,而單子葉植物往往具有較高的GC3值,二者的密碼子偏好性明顯不同。在堿基選擇時,蒙古黃芪IFS基因的GC3值為0.425,GC值為0.458,說明蒙古黃芪IFS基因較傾向于選擇A/T,密碼子第3位堿基較偏好以A/T結(jié)尾,符合雙子葉植物的使用密碼子特性[18]。所選14種物種全部為雙子葉植物,大豆的GC值大于0.5,而GC3值大于0.5的有大豆、豇豆、綠豆和紅三葉草等4個。說明多數(shù)物種A+T的含量高于G+C,且密碼子可能偏好A/T結(jié)尾。在排除自然環(huán)境壓力前提下,突變壓力的方向會影響密碼子堿基及密碼子末尾堿基的組成[19],推斷蒙古黃芪IFS基因的密碼子在進化過程中GC到AT突變壓力要比AT到GC突變壓力高。不同物種IFS的ENC值和CAI值雖然各不相同,但均表現(xiàn)為密碼子使用偏好性弱,表達量較低。
分析表明,基于CDS聚類結(jié)果在親緣關(guān)系鑒定中比密碼子使用偏性分類更為準確,但密碼子使用偏性分類在反映蒙古黃芪IFS基因特殊的個體進化規(guī)律更準確,說明采用密碼子使用偏性和CDS序列相結(jié)合有助于提高分類結(jié)果的準確度和客觀說明物種的進化規(guī)律,是物種進化關(guān)系分析中對系統(tǒng)發(fā)育分析的重要補充[20]。
在植物基因異源表達過程中,基因的翻譯效率容易受到受體系統(tǒng)密碼子使用特性的制約,往往需要根據(jù)受體生物密碼子的使用特性對目標序列堿基進行改造和修飾,以提高表達水平[21]。通過不同模式植物的對比,蒙古黃芪IFS基因與擬南芥、煙草和番茄的偏性差異均比較小,擬南芥是蒙古黃芪IFS基因最理想的遺傳轉(zhuǎn)化受體,但目標基因能否高效表達還會受到轉(zhuǎn)化效率、miRNA轉(zhuǎn)錄后水平調(diào)控以及mRNA的結(jié)構(gòu)穩(wěn)定性等諸多因素的影響[22],如何實現(xiàn)蒙古黃芪IFS基因高效遺傳轉(zhuǎn)化,仍有待深入研究。
通過對蒙古黃芪IFS基因的密碼子分析表明,該基因偏好A/T結(jié)尾的密碼子,確定了蒙古黃芪IFS基因中的8個高頻密碼子;酵母菌與蒙古黃芪IFS基因之間密碼子使用頻率比較差異更小,更適合做蒙古黃芪IFS基因的異源基因表達載體;蒙古黃芪IFS基因與擬南芥基因組密碼子使用頻率差異較小,說明擬南芥為IFS基因進行遺傳轉(zhuǎn)化功能驗證的理想受體,但在遺傳轉(zhuǎn)化時仍需要結(jié)合受體密碼子使用偏性對目標基因進行改造和優(yōu)化,才能更好地提高表達效果。