譚傳港,喻達輝,任童童,徐志雄,何積翠,李素萍,白麗蓉
(北部灣大學海洋學院,廣西北部灣海洋生物多樣性養護重點實驗室,廣西 欽州 535011)
同義密碼子為編碼相同氨基酸的密碼子,其在基因中以不同頻率出現的現象稱為密碼子使用偏好性[1]。突變和自然選擇是產生密碼子偏好性的主要原因[2-3],一般體現在同義密碼子的第3 位密碼子上[4]。研究密碼子偏好性不僅可反映物種的進化關系,對研究自然選擇、遺傳漂變及基因重組等現象也有重要意義。mtDNA有獨立的遺傳體系,可自主復制、轉錄和翻譯,有組成簡單、母系遺傳、進化速度快等特點[5-6],是細胞核外重要的遺傳物質。目前,線粒體基因組密碼子使用分析已在瓜螺(Melo melo)[9]、文蛤屬(Meretrix)[10]等水生動物中得到充分研究。姜艷[11]通過生物信息學方法對20 種小鯢科線粒體基因組密碼子的使用模式進行了聚類分析,為小鯢科物種分子系統發育提供了新思路。段曉克[3]分析了鲌亞科線粒體基因密碼子,較好地反映鲌亞科魚類的進化關系。Uddin等[4]分析了魚綱、鳥類和哺乳動物線粒體ND1 基因的密碼子使用偏倚和系統發育,表明ND1 基因在魚綱、鳥類和哺乳動物中存在差異。珠母貝(Pinctada margaritifera)隸屬于軟體動物門瓣鰓綱珍珠貝目珍珠貝科珠母貝屬[12],主要分布在臺灣及廣東以南沿海,印度-西太平洋暖海區[13-15],是唯一生產黑珍珠的珍珠貝,其外殼可用于制作貝雕等工藝品,是重要且稀缺的海洋經濟貝類。由于過度捕撈,珠母貝自然資源大幅減少,培育有優良性狀的親本繁殖后代對保護珠母貝種質資源有重要意義,而明確密碼子偏好性可有效提高外源基因的表達并優化性狀決定基因,加速優良親本的培育進程[9]。筆者研究珠母貝密碼子偏好性,探究珠母貝線粒體基因組密碼子組成特征和偏好,為提高外源基因表達效率和系統發育提供理論依據,也為珠母貝種質資源保護提供參考資料。
珠母貝線粒體基因組CDS(Coding DNA sequence)序列來源于NCBI 數據庫(HM467838.1),線粒體基因組總長15 680 bp,包含34 個基因,其中可編碼蛋白的CDS有14條。由于,短序列無法正確計算有效密碼子數[16],為降低誤差,選取10 條大于300 bp 且起始密碼子以ATG 開頭的非重復序列用于密碼子偏好性分析。
以選擇的CDS 為研究對象,利用CodonW 1.4.2軟件分析密碼子偏好參數,包括密碼子的GC 比例(N)、密碼子在第1、2、3 位上的GC(GC1、GC2、GC3)比例(N)、同義密碼子第3位的GC(GC3S)比例、密碼子的偏好性指數(Codon bias index,CBI)、密碼子的適應指數(Codon adaption index,CAI)、最優密碼子使用頻率(Frequency of optimal codon,FOP)、有效密碼子數(Effective number of codon,ENC,nENC)、相對同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)和總平均親水性(Grand average of hydrophilia,Gravy)。
1.3.1 中性繪圖分析 用以初步判斷影響密碼子使用偏好性的因素。先根據密碼子的NGC1和NGC2計算出其平均值NGC12,以NGC12為縱坐標,NGC3為橫坐標作散點圖,每一個點在圖中均表示一個基因。通過分析NGC1、NGC2與NGC3之間的關系,初步判斷出密碼子使用偏好是受突變影響還是由選擇造成,如散點圖均在對角線上,則密碼子偏好性受突變影響,否則受到選擇壓力的影響[17-19]。
1.3.2 ENC-plot 繪圖分析 使用SPSS 22.0 進行ENC-plot 繪圖分析,以進一步確定影響密碼子偏好的因素。以NGC3S為橫坐標,ENC(nENC)為縱坐標,以坐標定位各個基因,建立散點圖,并在圖中添加ENC 值的標準曲線[20]。如每個基因均分布在標準曲線附近,則密碼子偏好僅受到突變作用的影響;如各基因集中分布在標準曲線下方,則密碼子偏好受選擇影響。標準曲線方程為:
ENC 比值頻數(nENC,Ratio)分布情況可更準確體現ENC 期望值(nENC,exp)與ENC 實際值(nENC,obs)的差異,當nENC,exp與nENC,obs接近時表示基因密碼子受突變壓力的影響,當兩者差別較大時則表示其受自然選擇的影響。
1.3.3 對應性分析 是一種利用多元統計探究不同基因密碼子變異趨勢的方法。利用CodonW 1.4.2軟件的RSCU 對應分析功能來分析密碼子,從而反映密碼子使用偏好性特點[21]。
以ENC 偏好性值的大小對基因進行排序,兩端各選出20%基因,分別建立高表達基因庫和低表達基因庫,再計算兩庫的同義密碼子使用度的差值(ΔRSCU),選擇ΔRSCU >0.08的密碼子作為高表達密碼子,選擇RSCU >1.00為高頻密碼子。若ΔRSCU >0.08且在高表達基因庫中的RSCU 值>1,則確定其為最優密碼子[22]。
珠母貝線粒體基因組是總長15 680 bp 的環狀DNA分子,其內包含有34條編碼蛋白的CDS(表1)。為減少誤差,選擇以ATG 為起始密碼子、長度大于300 bp 的10 個非重復CDS 序列進行密碼子偏好性分析。不同基因密碼子不同位置的GC 含量并不相同,總GC 比例為41.1%~47.5%,平均43.4%,第1、2、3 位密碼子的GC 比 例(NGC)分別是35.2%~51.8%、35.8%~46.8%、37.7%~51.8%,均值分別為45.6%、40.0%、44.1%;NGC3S為33.60%~48.10%,平均40.90%。NU3S、NG3S分別為44.51%、37.81%,分別大于NA3S、NC3S(23.24%和15.19%),表明珠母貝線粒體基因組主要以U(T)/G 結尾,避免以C 結尾(表2)。CBI為-0.184~-0.040,平均值為-0.105。CAI 為0.119~0.181,平均值為0.151。FOP 為0.259~0.359,平均值為0.322。nENC為39.72~54.35,平均值為47.46,均大于35,說明珠母貝基因組密碼子偏性較弱。Gravy為0.216 6~1.038 4,平均值為0.741 2(表2)。

表1 珠母貝線粒體基因組特征Table 1 The characteristics of mitochondrial genome of Pinctada margaritifera

表2 珠母貝線粒體基因組密碼子主要參數Table 2 Parameters in mitochondrial genome of Pinctada margaritifera
表3 可見,GC1比例和GC2比例極顯著負相關(P<0.01),其相關系數為-0.774,與ENC 呈顯著正相關(P<0.05),其相關系數為0.666;GC3比例與GC3S、GC比例為極顯著正相關(P<0.01),其相關系數分別為0.985、0.886;GC 比例和GC3S比例極顯著正相關(P<0.01),相關系數為0.827。CBI 與FOP極顯著正相關(P<0.01),相關系數為0.944。

表3 珠母貝密碼子主要參數的相關分析Table 3 Correlation analysis of the parameters of codons in coding sequence in Pinctada margaritifera
表4 可見,26 個密碼子的RSCU >1.00。第3 位堿基中,有14個以U結尾,9個以G結尾,3個以A結尾。以U 或G 結尾的密碼子為23 個,占全部密碼子的88.46%,說明珠母貝線粒體基因組密碼子偏愛以U(T)或G結尾。

表4 珠母貝線粒體各氨基酸相對同義密碼子使用度(RSCU)Table 4 RSCU analysis on protein coding region in Pinctada margaritifera
2.2.1 中性繪圖分析 圖1 表明,NGC12為41.00%~45.35%,NGC3為37.70%~51.80%,NGC12與NGC3的相關系數為0154 5,相關性未達顯著水平,回歸系數為0.142 9,說明NGC12與NGC3為弱相關。從圖1 可見,多數基因主要分布在對角線的下方和上方,少數分布在對角線上,說明自然選擇是密碼子偏向性形成的主要因素。

圖1 珠母貝線粒體基因中性繪圖分析Fig.1 Neutrality plot analysis of genes on mitochondrial of Pinctada margaritifera
2.2.2 ENC-plot繪圖分析 圖2可見,代表基因均位于標準曲線下方。表5 顯示,50.00%的基因ENCRatio頻數為0.15~0.20,20.00%的基因ENCRatio頻數為0.20~0.25。可見,ENCexp與ENCobs頻數差異較表明珠母貝線粒體基因組密碼子偏好受到突變的影響,但更多受選擇的影響。

圖2 珠母貝線粒體基因密碼子ENC-plot繪圖分析Fig.2 ENC-plot analysis of codons in mitochondrial genome of Pinctada margaritifera
2.2.3 對應性分析 如圖3 所示,第1 向量軸占比為23.43%,第2向量軸占比為14.84%,第2、4軸分別為14.12%和11.47%,4 個向量軸總差異為63.86%,說明第1軸對珠母貝線粒體基因組密碼子偏好性造成的影響最大。第1 向量軸與CAI 呈極顯著正相關,相關系數為0.895,與GC2比例呈極顯著負相關,其相關系數為-0.682,表明堿基差異對珠母貝線粒體基因組密碼子偏好性有一定影響。第1 軸與GC1比例、GC 比例、CBI、FOP、ENC 均相關不顯著,相關系數分別為0.551、-0.239、0.289、0.363、0.330。以軸1為x軸,軸2 為y軸,建立坐標系。從基因在坐標軸的分布進行分析,基因NAD1、COX2、CYTB分布比較接近,而NAD2、NAD4、ATP6分布比較集中,其他4 個基因則分布比較分散,說明COX1、COX3、NAD6、NAD5與其他基因密碼子偏好相差較大。

圖3 基于RSCU的珠母貝線粒體基因組密碼子的對應性分析Fig.3 RSCU-based correspondence analysis of mitochondrial genome codon in Pinctada margaritifera
如表6 所示,將ΔRSCU >0.08 的密碼子確定為珠母貝線粒體基因組高表達密碼子,最后確定28個密碼子為高表達密碼子,其中14 個以U 結尾、9 個以G 結尾、3 個以A 結尾。比28 個高表達密碼子和26 個高頻密碼子(表3),將共有的密碼子作為最優密碼子,最后確定,AGG、AUU、CCU、GAG、GCU、UGA 為最優密碼子,其中有2 個密碼子以G 結尾,3個密碼子以U 結尾,說明最優密碼子偏好以U(T)或G 結尾。

表6 珠母貝線粒體基因組高/低表達基因庫的同義密碼子相對使用度比較Table 6 Relative Synonymous Codon Usage(RSCU)of genes of mitochondrial genome in Pinctada margaritifera
本研究中,珠母貝mtDNA 編碼蛋白基因中,T3S比例為44.51%,G3S比例為37.81%,均大于A3S、C3S比例,可見珠母貝的mtDNA 編碼蛋白偏愛以U(T)堿基和G 結尾,避免使用C 結尾。在軟體動物中,5種文蛤 屬貝類[10]的A3S、G3S、U3S的平均 分別為20.99%、15.09%、59.45%,偏向使用A、U(T)、G結尾,避免使用C 結尾,與珠母貝一致;在魚類中,斑石鯛(Oplegnathus punctatus)和條石鯛(O.fasciatus)[22]的A3S、C3S的平均比例分別為35.06%、38.60%,更偏向于A、C 結尾;在兩棲類中,小鯢科20 種動物[11]均表現為更偏向于T 結尾,其次是A 和C,避免使用G 結尾。表明密碼子使用規律在不同物種中有一定差異,而在進化關系較近的物種中,其線粒體基因組密碼子使用偏好性相似。珠母貝線粒體基因組ENC 平均值為47.46%,大于標準值35%,表明密碼子偏好性較弱。CAI 為0~1,數值越小代表基因密碼子適應性越弱,偏向于高表達基因密碼子的程度越弱[9],而珠母貝線粒體CAI的平均值為0.151 1,進一步表明珠母貝線粒體基因組密碼子為弱偏好性密碼子,RSCU 分析結果中,RSCU 值大于1.00 的密碼子數目為26 個。其中,第3 位堿基中有14 個以U(T)結尾,9 個以G 結尾;3 個以A 結尾。以U(T)或G結尾的密碼子為23 個,占全部密碼子的88.46%,進一步說明珠母貝線粒體基因組密碼子偏愛以U(T)或G結尾。
影響密碼子偏好性的因素較多,主要有自然選擇和突變,還有基因序列堿基組成偏好性、tRNA 豐度、GC 含量、基因長度、蛋白疏水性水平以及氨基酸保守性等[23-26]。本研究中,GC12、GC3比例的相關系數為0.393,相關性不顯著,說明自然選擇在珠母貝mtDNA 密碼子偏好性中起主導作用;ENC-plot 繪圖中代表基因均位于標準曲線下方,進一步說明珠母貝mtDNA 密碼子偏好更多受選擇壓力的影響,受到突變影響次之。這與斑石鯛和條石鯛[22]、小鯢科20 種動物[11]、5 種文蛤屬貝類[10]結果一致。篩選出AGG、AUU、CCU、GAG、GCU、UGA 共6 個密碼子為珠母貝線粒體基因組的最優密碼子,其中,有3 個密碼子以U(T)結尾,2 個密碼子以G 結尾,說明珠母貝線粒體蛋白編碼基因更偏愛以U(T)/G 結尾的密碼子。隨著最優密碼子的確定還可通過對目的基因的密碼子進行優化,提高該基因的表達效率,為未來珠母貝功能基因表達調控研究、蛋白質結構和功能預測等工作提供理論基礎,也可為其種質資源保護和人工育苗提供參考。
本研究基于生物信息學的方法,從多角度分析珠母貝密碼子偏好性,確定AGG、AUU、CCU、GAG、GCU、UGA 共6 個最優密碼子,其中有5 個以U(T)或G 結尾,1 個以A 結尾。認為自然選擇是造成珠母貝線粒體蛋白編碼基因密碼子偏好性的主要原因,具體影響機制還有待進一步深入研究。