楊 鑫,秦麗娜,江賢章,
(1.福建師范大學生命科學學院,福建福州 350000;2.工業微生物發酵技術國家地方聯合工程研究中心,福建福州 350000)
遺傳信息是由三聯體密碼子記載的。由于密碼子的簡并性,大多數氨基酸是由2~6種同義密碼子編碼。不同的物種編碼同種氨基酸所利用的密碼子種類與使用頻率存在差別,這種現象稱為密碼子偏好性(Codon Usage Bias)[1]。許多因素影響各種生物體中密碼子的使用,如自然選擇(基因表達水平[2]、RNA豐度[3]、基因長度[4-5]、基因翻譯起始信號和蛋白質結構[6])和突變壓力(GC含量、突變頻率和模式),以及隨機遺傳漂變等[7-9]。密碼子使用模式的全基因組研究對理解基因組中分子組織的基本特征具有重要意義。迄今為止,對于遺傳密碼子偏好性的研究主要集中在一些模式物種,包括模式真菌釀酒酵母(Saccharomyces cerevisiae)、模式細菌大腸桿菌(Escherichia coli)、模式植物擬南芥(Arabidopsis thaliana)等方面[10-11],相比之下,對絲狀真菌的研究相對較少。
絲狀真菌里氏木霉作為生產纖維素酶和半纖維素酶的工業微生物,具有生長環境粗放、穩定性好、安全無毒、產酶效率高等優點。在食品加工工業中,用纖維素酶對農產品進行預處理,可以使植物組織膨化松軟,減少農產品營養物質的損失。里氏木霉除了在食品工業中的作用外,還用于生物乙醇[12]和工業酶的生產,具有廣泛的生物應用價值。迄今為止,大約有243種通過微生物發酵制造的市售酶產品,其中30種是使用里氏木霉作為宿主制成的,其中21種是重組產品,用于飼料和技術應用,包括紡織品、紙漿和紙張等[13-17],因此里氏木霉具有重要的研究價值。
目前,里氏木霉QM6a菌株的基因組已經完成測序[18],這為研究該絲狀真菌的分子生物學提供了有利條件。本文以里氏木霉基因組為研究對象,通過對編碼序列的核苷酸組成及密碼子的偏好性進行分析,探究影響里氏木霉密碼子使用偏差的因素。本研究結果有助于闡明該物種分子進化的機制,同時為通過密碼子優化提高里氏木霉外源基因表達水平提供了理論依據。
里氏木霉QM6a基因組數據來自Joint Genome Institute(基因聯合研究所,JGI http://genome.jgi.doe.gov/portal/)公共數據庫,基因組項目編號為1184794;使用Galaxy生物信息學分析平臺(https://usegalaxy.org/)中的Fasta Statistics對里氏木霉QM6a進行統計、Filter sequences by length對 CDS進行過濾、cusp對密碼子的GC含量進行分析;利用Python 3.9中的biopython-1.79模塊對序列進行處理;利用CodonW 1.4.2軟件對各個CDS密碼子進行分析;利用Origin 9.0進行數據統計與作圖。
1.2.1 基因的選擇 通過JGI數據庫下載CDS序列,由于計算短序列的密碼子數沒有生物學意義[19],因此利用Galaxy的Filter sequences by length腳本過濾長度小于300 bp的CDS,收集最終序列(包含9352個CDS)用于進一步分析。
1.2.2 GC含量統計 利用Galaxy的cusp腳本統計分析各基因GC總含量以及密碼子的第1、2和3位堿基為G或C的含量比例,分別記為GC、GC1、GC2和GC3。其中GC3對密碼子使用偏好性具有重要影響。
1.2.3 中性繪圖分析 中性圖是一種用于測量密碼子使用模式的分析方法。本研究分析了第1、2和3位密碼子位置(分別為GC1、GC2和GC3)的GC含量。GC12代表 GC1和 GC2的平均值;GC12和GC3用于中性繪圖分析。在中性圖中,如果GC12和GC3之間的相關性在統計學上顯著,且回歸線的斜率接近1,則假設突變偏差是影響密碼子使用的主要因素。相反,針對突變偏倚的選擇可能導致GC含量的窄分布以及GC12和GC3之間缺乏相關性[20]。
1.2.4 ENC-plot分析 有效密碼子數(Effective number of codon,ENC)提供了對絕對密碼子偏差的有用估計,是確定某個基因的總體密碼子使用偏差的一種度量。總GC含量,尤其是GC3(第三位的GC含量),經常反映定向突變的強度。以ENC為縱坐標,GC3為橫坐標繪制的ENC-plot,廣泛用于確定基因的密碼子使用是否受到突變和選擇的影響[21]。當對應點落在預期曲線附近時,突變是決定密碼子使用的主要力量,當對應點大大低于預期曲線時,選擇是決定密碼子使用的主要力量。
1.2.5 相關性分析 變量和樣本之間的關系可以通過多元統計分析來探索。使用皮爾森相關系數(Pearson correlation coefficient)進行相關性分析,使用雙尾檢測相關系數的顯著性。相關性分析用來揭示密碼子使用模式的主要因素并探究樣本各變量之間的關聯性[22]。
1.2.6 PR2-plot分析 計算第3密碼子位置(A3、U3、C3和G3)的核苷酸組成,并分析AT偏差(A3/(A3+U3))和 GC 偏差(G3/(G3+C3))。PR2-plot是以 AT偏差(A3/(A3+T3))作為縱坐標和 GC 偏差(G3/(G3+C3))作為橫坐標繪制的[23]。若核苷酸組成是影響同義密碼子使用的唯一因素,那么A(T)和C(G)的使用頻率應該相等。
1.2.7 相對同義密碼子使用分析 運用CodonW軟件分析相對同義密碼子使用度(relative synonymous codon usage,RSCU)。RSCU是指對于某一特定的密碼子在編碼對應氨基酸的同義密碼子的相對概率,它去除了氨基酸組成對密碼子的影響。公式如下:

式中:xij表示編碼第i個氨基酸的第j個密碼子的出現次數;ni總表示編碼第i個氨基酸的同義密碼子的數量(值為1~6)。如果密碼子使用沒有偏好,則該密碼子的RSCU值等于1。當某一密碼子的RSCU值大于1,則表明密碼子的使用偏好性較強。由于它計算方便,而且很直觀地反映出密碼子使用的偏好性,因此在大多數的密碼子相關分析中,都使用它作為衡量偏好性的標準。
1.2.8 高表達密碼子的確定 ENC值的范圍在20~61之間,單個基因的ENC值越低,該基因的整體密碼子使用偏好就越強,基因的表達量相對越高[24]。故以ENC值為偏好性標準,兩級各選10%的基因分別創建高低表達樣本庫,取兩庫△RSCU>0.08的密碼子進行分析[25-26]。
1.2.9 與其他真菌密碼子偏好性比較 運用Bioinformatics在線平臺(http://www.bioinformatics.org)的Codon Usage計算里氏木霉各密碼子的使用頻率[27]。用CodonW分別計算出同屬的長梗木霉(Trichoderma longibrachiatum)、絲狀模式真菌粗糙脈孢霉(Neurospora crassa)、模式真菌釀酒酵母(Saccharomyces cerevisiae)的密碼子使用頻率,將里氏木霉密碼子使用頻率與它們進行比較分析。
單一類型密碼子的密碼子使用偏差受基因組總核苷酸含量的影響很大[28],因此,首先利用Galaxy平臺分析了里氏木霉基因組中編碼序列(CDS)的GC核苷酸組成。在里氏木霉基因組中,97%的基因GC含量、96%的基因GC1含量、18%的基因GC2含量和 37%的基因 GC3含量分布在 50%~68%(圖1),GC核苷酸平均含量為58.1%,三個密碼子位置(GC1、GC2和GC3)的GC平均含量分別為58.9%、45.0%和70.4%。單因素方差分析表明密碼子三個位置的 GC 含量差異極顯著(P<0.001),GC3>GC1>GC2表明第三位置的GC含量不同于第一和第二位置的GC含量,第三位密碼子的GC含量在密碼子位置中最高,說明GC3是導致密碼子使用發生偏好性的重要原因,且里氏木霉的密碼子第三位受到的選擇壓力較大。核苷酸組成分析結果表明,里氏木霉基因第三位偏好G/C末端密碼子比A/U末端密碼子更受歡迎。

圖1 GC含量分布Fig.1 Distribution of the GC contents
中性分析是揭示GC12和GC3之間關系的一種有用方法。為了分析三個密碼子位置之間的關系,本文構建了里氏木霉基因組編碼序列的中性圖(GC12與 GC3)。結果顯示(圖2)GC12和 GC3不相關(R2=0.0009),且斜率接近0,說明里氏木霉密碼子沒有受到定向突變壓力的影響,導致密碼子偏好性的原因主要是選擇壓力。

圖2 里氏木霉中性分析Fig.2 Neutrality plot of T.reesei
有效密碼子數廣泛用于測量單個基因的密碼子偏好水平。為了闡明里氏木霉序列中核苷酸組成和密碼子偏好之間的關系,繪制了ENC和GC3s圖,從而探索了基因間密碼子使用的主要特征。如圖3所示,大部分基因的ENC觀察值落在ENC期望值曲線之下,表明其里氏木霉密碼子的使用主要受選擇壓力的影響,與中性繪圖分析的結果一致。

圖3 里氏木霉ENC-plot曲線Fig.3 Relationship between the ENC and GC3 in T.reesei
為了更準確地估計觀測值和預期ENC值之間的差異,本文計算了(ENCexp-ENCobs)/ENCexp 的值。如圖4所示,(ENCexp-ENCobs)/ENCexp的峰值為0~0.1,表明大多數基因的ENC值與基于GC3的預期ENC值略有不同。因此,大多數基因觀察到的ENC接近基于GC3的預期ENC,盡管有部分基因觀察到的ENC要低得多。

圖4 有效密碼子數(ENC)比率的頻率分布圖Fig.4 Frequency distribution of the effective number of codons (ENC) ratio
里氏木霉基因組編碼區中GC含量、ENC和密碼子出現頻數(CN)間相關性分析結果顯示(表1),GC Total與GC1、GC2、GC3 呈極顯著相關(P<0.001),GC3與GC1、GC2相關性水平不顯著,說明GC3與GC1、GC2的密碼子組成存在較大差異。進一步發現,ENC與 GC1、GC2相關性較弱,與 GC3以及GC TOTAL極顯著相關(P<0.001),表明密碼子不同位置的堿基組成會影響有效密碼子數。CN值與GC1、GC2、GC3、GC Total相關性都不顯著,說明CN對ENC的影響很小,排除了基因序列過短對后續分析的影響。

表1 各基因相關參數的相關性分析Table 1 Correlation analysis of each gene-related parameters
為了研究偏向密碼子選擇是否局限于高度偏向的蛋白質編碼基因,通過PR2-plot分析了64個密碼子氨基酸家族中嘌呤和嘧啶之間的關聯[29],若密碼子使用模式完全由突變造成,則G和C以及A和T的使用頻率應相等。然而圖5顯示,在里氏木霉中G和C的使用頻率高于A和T,說明里氏木霉密碼子的使用模式除了核苷酸的組成,還受到其它因素的影響,例如選擇壓力等。

圖5 PR2-plot分析Fig.5 Parity Rule 2 (PR2)-plot analysis
為了確定同義密碼子的使用模式以及C/G末端密碼子的首選程度,本文進行了相對同義密碼子使用(RSCU)分析并計算了RSCU值(表2),繪制RSCU堆積圖(圖6)。在24個最常用的密碼子中,22個(UUC、CUG、AUC、AUG、 GUC、UCC、 CCC、ACC、 GCC、 UAG、 CAC、 CAG、 AAC、 AAG、GAC、 GAG、 UCG、 UGG、 CGC、 AGC、 AGG、GGC)是C/G末端密碼子(C末端:13個;G末端:9個),其余2個(UAA、AGA)是A末端密碼子;沒有一個首選密碼子是U末端的。這些結果表明,核苷酸組成在里氏木霉密碼子使用模式中起著不可或缺的作用。

圖6 里氏木霉相對密碼子使用堆積圖Fig.6 Stacked plot of RSCU in T.reesei

表2 里氏木霉蛋白編碼區相對同義密碼子使用度Table 2 RSCU analysis of protein coding region acid in T.reesei coding sequences
以ENC值為偏好性標準,對基因進行排序,兩極各取10%構建高低表達基因庫,計算高低基因表達庫密碼子RSCU值和△RSCU值(表3),星號標注的21個密碼子是高表達優越密碼子,這些密碼子(除了終止密碼子UAA)全部以C或G結尾,這表明里氏木霉中的密碼子使用偏向于C或G結尾的同義密碼子。此外,4個密碼子 CUC、GCC、CGC和GGC是里氏木霉高表達基因的最優密碼子。

表3 里氏木霉最優密碼子分析Table 3 Optimal codons in T.reesei
將里氏木霉分別與同屬的長梗木霉、絲狀模式真菌粗糙脈孢霉、模式真菌釀酒酵母的密碼子使用頻率進行比較(表4),其中R/L、R/N、R/S分別表示里氏木霉與長梗木霉、粗糙脈孢霉、釀酒酵母的每種密碼子使用頻率比值。結果顯示,里氏木霉與釀酒酵母的密碼子使用頻率比值有34種大于等于2.0或小于等于0.5,占53.1%;與長梗木霉的密碼子使用頻率比值幾乎都接近于1;而里氏木霉與粗糙脈孢霉的密碼子使用頻率比值有6種大于等于1.5或小于等于0.67,占9.3%。說明絲狀真菌里氏木霉與模式真菌釀酒酵母的密碼子偏好性差別較大,而與同屬的長梗木霉以及絲狀模式真菌粗糙脈孢霉的密碼子偏好性差別相對較小。粗糙脈孢霉經常作為研究木質纖維素降解的模式真菌,將相關基因表達于里氏木霉時,兩者密碼子使用模式接近,無需考慮兩者密碼子的偏好性。

表4 里氏木霉與其他物種密碼子偏好性比較Table 4 Comparision of codon preference between T.reesei and other species
當重組蛋白異源表達時,密碼子使用偏好對蛋白質表達水平有重要的影響。DNA序列中密碼子的頻率與物種中相應的tRNA呈正相關,tRNA濃度決定了可用于蛋白質翻譯延伸的氨基酸數量,進而影響蛋白質合成的效率[30]。蛋白質的表達水平與密碼子使用偏好高度相關。稀有密碼子往往會降低翻譯速度,甚至導致翻譯錯誤。因此,密碼子優化是增加蛋白質表達的最關鍵的決定因素。
里氏木霉作為工業生產纖維素酶的菌株,其某些突變株的蛋白分泌能力在發酵條件下可達到100 g/L[31-32],鑒于此優良特征,里氏木霉可以作為異源蛋白表達的優良宿主。對其密碼子偏好性進行研究具有重要的理論研究和工業應用意義。在本研究中,通過對里氏木霉基因組進行分析,編碼區的GC3(70.4%)含量表明,該基因組富含C+G,總體密碼子使用偏向于C和G末端密碼子。在進化過程中,若A(T)到G(C)的突變壓力大,那么密碼子的第3位堿基是G(C)的概率就要高[33]。在里氏木霉使用頻率較高的24個密碼子中,有22個均是以GC結尾的。通過對里氏木霉基因組密碼子使用模式的分析發現,其密碼子使用的偏好性受到選擇壓力的影響,其次自然選擇在塑造密碼子偏好性使用過程中也扮演著非常重要的作用。通過ENC差異構建了里氏木霉高低表達基因庫,確定了21個高表達優越密碼子和4個高表達最優密碼子(CUC、GCC、CGC和 GGC)。

續表 4
將里氏木霉分別與其它真菌的密碼子使用頻率進行比較,發現里氏木霉基因的密碼子偏好性與酵母的差異較大,這可以解釋為什么里氏木霉的許多基因都無法實現在畢赤酵母中的異源表達,然而通過對來源于里氏木霉的Cel5A、Cel6A經過密碼子優化后,可以成功在畢赤酵母中進行表達[34,35]。里氏木霉與粗糙脈孢霉的密碼子偏好性差異最小,因此不經過任何密碼子優化的里氏木霉基因可以在粗糙脈孢霉中成功表達并且互補粗糙脈孢霉相關基因的缺失表型[36]。這些例子充分表明密碼子偏好性對基因表達的重要性。本研究對里氏木霉的密碼子使用偏好性進行了系統分析,可為外源基因在里氏木霉以及與其進化關系較為接近的其他物種中進行異源表達時提供密碼子優化指導。