萬美暄,黃顯俊,李 雪,徐 立,*
(1.大理大學基礎醫學院,云南大理 671000;2.大理大學藥學院,云南省高校滇西道地藥材資源開發重點實驗室,云南大理 671000)
葉綠體(chloroplast,Cp)是半自主性細胞器,在植物光合作用、代謝反應、脂肪酸、氨基酸、維生素等生物合成中至關重要[1]。葉綠體DNA一般以雙鏈環狀存在于高等植物葉綠體中,長度在120~180 kb,具有典型的四分體結構[2],且由于其母系遺傳和適度的進化速度,在序列和結構上高度保守[3]。因此,Cp基因組測序備受關注,NCBI數據庫也提供了越來越多的葉綠體基因組,這為種族遺傳學和系統發育方面的研究提供了方便。
密碼子(condon)是信使RNA(mRNA)翻譯的基本信息單位,61個密碼子編碼20種氨基酸,除色氨酸和蛋氨酸,其他氨基酸均有1種以上的密碼子編碼[4]。然而,在蛋白質合成中同義密碼子(Synonymous condon)不一定以相同的頻率被使用,這種特定密碼子使用頻率高于其他同義密碼子的現象被稱為“同義密碼子使用偏好性(codon usage bias,CUB)”[5-6]。CUB廣泛存在于生物體中,反映了不同物種或品種之間基因的起源、進化趨勢和突變模式[7]。有研究表明,CUB與基因表達水平之間存在相關性[8]。此外,密碼子使用模式可能會影響 mRNA 生物合成、蛋白質折疊、翻譯延伸率及其他下游表達的生物學功能[9]。因此,對CUB分析可以更好地了解物種的遺傳規律、蛋白質的機制及預測新基因。
須彌葛(Haymondiawallihii),俗稱“馬鹿花”,為豆科蝶形花亞科(Papilionaceae)須彌葛屬(Haymondia)植物[10]。在我國主要分布于廣州、四川、廣西、福建、云南等省區及云南省內的思茅、紅河、臨滄、保山、德宏 、大理 、楚雄、怒江等州市[11]。須彌葛花較大,生長速度快,可做觀賞綠化,在大理白族自治州常被采集花朵,腌制野菜[12]。有研究發現,須彌葛中含有大豆素、大豆苷、葛根素、豆甾醇等化合物[12],具有抗心血管疾病的生理活性,還能緩解高血壓患者的頭痛,解決平滑肌痙攣,鎮咳及抑制癌細胞生長等藥性[13]。筆者基于須彌葛植物葉綠體基因組高通量測序結果,挑選出長度>300 bp的52條蛋白編碼序列,對其進行整合分析,探討須彌葛密碼子使用偏性的影響因素,并最終確定最優密碼子,以期為須彌葛的進化關系研究、品種改良及葉綠體基因組的應用提供參考。
1.1 試驗材料的獲取須彌葛植株的新鮮幼嫩葉片于2019年12月采自云南省麗江永勝縣( 25°53′73.23″E,100°25′48.40″N),經云南省高校滇西道地藥材資源開發重點實驗室的夏從龍教授鑒定為豆科須彌葛屬植物須彌葛(Haymndiawallichii)。用無菌水將采集到的健康須彌葛葉片沖洗多次,裝入有變色硅膠的自封袋中脫水干燥,委托上海生物科技有限公司的Illumina No-vaSeq 6000平臺測序,最后通過組裝和注釋獲得須彌葛葉綠體全基因組序列號(NCBI數據庫,登錄號為NC052910.1)。
1.2 葉綠體基因組蛋白質編碼序列的獲取從NCBI數據庫下載須彌葛葉綠體基因組蛋白質編碼序列(CDS)后,為加強數據可靠性及減少數據冗雜,剔除重復基因和長度<300 bp的基因[14]。最后將符合條件的52條CDS整合成一個fasta文件,用于后續分析。
1.3 密碼子使用偏好性分析將整理的fasta文件通過CodonW1.4.2軟件處理[15],獲取到須彌葛葉綠體基因組蛋白質編碼基因序列的相對同義密碼子使用度(relative synonymous codon usage,RSCU)、編碼氨基酸的密碼子數量、有效密碼子數(effective number of codon,ENC)、最優密碼子使用頻率(frequency of optical codons,Fop)、密碼子適應指數(codon adaptation index,CAI)、密碼子偏性指數(codon bias index,CBI)。然后,將52條CDS依次提取整理成52個fasta文件,使用在線程序CUSP[16]計算每個基因不同位置的密碼子GC含量(GCall、GC1、GC2、 GC3),將所得數據使用SPSS 24.0和Microsoft Excel軟件進行統計及Person相關性分析。
1.4 PR2 plot繪圖分析PR2 plot圖是以C=G和A=U為矢量發出中心點,用A3/(A3+T3)為縱坐標,G3/(G3+C3)為橫坐標繪制而成,表明影響密碼子偏好性的主要因素[17]。
1.5 中性繪圖分析將GC3作為橫坐標,GG1和GC2的平均值(GC12)為縱坐標,作二維散點圖,再次繪制回歸曲線,然后對GC3和GC12進行相關性分析。
1.6 ENC-plot繪圖分析首先利用Excel繪制GC3和ENC 的二維散點圖,并根據公式ENC= 2+GC3+29/[GC32+(1-GC3)2]繪制標準曲線,以此判斷基因點在圖中分布情況。然后利用ENC公式求得ENC期望,再通過 ENC比值=(ENC期望-ENC實際)/ENC期望,算出ENC比值頻數分布,從而確定影響密碼子偏好性的主要因素。
1.7 最優密碼子的篩選以52條CDS分別得到的ENC值為基礎,用Excel將 ENC值依次排序,選出ENC值最高的5個基因和最低的5個基因建立高低表達基因庫,然后將這些基因序列整理成不同的fasta文件,運行Codon W 1.4.2軟件得出2個庫中編碼各氨基酸密碼子的RSCU值,計算△RSCU值(RSCU高表達,-RSCU低表達)。以高表達組RSCU>1,且△RSCU≥0.08的密碼子為最優密碼子[18]。
1.8 統計分析使用SPSS 24.0和Excel軟件,進行Pearson相關分析,顯著性水平為P<0.05或P<0.01。
2.1 須彌葛葉綠體基因組密碼子偏性分析
2.1.1相對同義密碼子使用度。須彌葛葉綠體基因組中的52條CDS序列的相對同義密碼子使用度(relative synonymous codon usage,RSCU)結果顯示(表1),31個高頻密碼子(RSCU>1)中以U結尾的有16個,以A結尾的有14個,以G結尾的有1個,表明須彌葛葉綠體基因組密碼子更傾向A/U結尾。所有高頻密碼子RSCU值均在1~2,除亮氨酸(Leu)密碼子UUA>2,提示須彌葛葉綠體基因組密碼子使用偏好性較弱。

表1 須彌葛葉綠體基因組中各氨基酸密碼子的RSCU值
2.1.2基因組密碼子堿基組成及偏性。利用軟件CodonW1.4.2和CUSP分析符合條件的52條CDS序列(表2),結果表明,52條CDS序列的總GC含量(GCall)為38.10%(范圍為29.27%~46.56%),第1位(GC1)為46.89%(范圍為31.99%~59.31%),第2位(GC2)為39.48%(范圍為27.62%~54.68%),第3位(GC3)為27.87%范圍(為21.15%~36.88%)。GC2與GCall相近,GC1和GC3與GCall相差較大,表現為GC1>GC2>GC3。進一步說明須彌葛葉綠體基因組密碼子偏好A/U結尾的密碼子。

表2 密碼子的堿基組成及偏性相關指標
52條CDS的CAI(codon adaptation index)為0.166(范圍為0.110~0.294),CBI(codon bias index)為-0.104(范圍為-0.212~0.175),FOP(frequency of optical codons)為0.349(范圍為0.269~0.520),ENC為47.54(范圍為38.66~59.33)。以上指標進一步提示須彌葛葉綠體基因組密碼子的使用偏性和基因表達均較弱。
ENC值與各位置GC含量的相關性分析顯示(表3),GCall與GC1、GC2和GC3含量的相關性均達到極顯著相關水平(P<0.01);GC1與GC2含量的相關性達到極顯著水平(P<0.01);GC3與GC1及GC2含量的相關性達到顯著水平(P<0.05);ENC與GC1、GC2含量的相關性均不顯著(P>0.05),但與GC3含量的相關性極顯著(P<0.01),說明第3位GC含量對密碼子的使用偏性有一定程度的影響。

表3 各基因參數的相關性分析
2.2 影響密碼子偏性的因素分析
2.2.1PR2-plot分析。 PR2繪圖分析(圖1),所有點分布在G3/(G3+C3)上的0.26~0.67和A3/(A3+T3)上的0.38~0.57,但各基因在4個象限中明顯分布不均勻。若密碼子使用偏好完全受堿基突變的影響,大多數點應位于0.5水平中心線或附近,但該結果卻不同。因此,就堿基頻率而言,G>C,T(U)>A。由此推測,自然選擇和突變都是影響須彌葛葉綠體基因組密碼子使用偏性的因素。

圖1 須彌葛葉綠體基因組PR2-plot分析
2.2.2中性繪圖分析。以中性繪圖分析GC12和GC3的關系(圖2),GC12的取值0.340 1~0.557 5,GC3的取值0.211 5~0.368 8,所有基因位于對角線以上(除Ycf2基因)。Pearson相關分析發現,GC12和GC3之間的相關性較弱(R2=0.125 8,r=0.355 0),相關系數r值距離1較遠。該結果提示自然選擇是須彌葛葉綠體基因組密碼子使用偏性的主要影響因素。

圖2 須彌葛葉綠體基因組中性繪圖
2.2.3ENC-plot分析。ENC-plot繪圖分析(圖3),大部分基因散亂地分布在標準曲線下方,只有少數基因分布在曲線附近或曲線上。另外,52條CDS的ENC比值在-0.1~0.3(表4),其中,25個基因的ENC值和預期接近,分布在-0.050~0.050;而其他27個基因的ENC值不在該范圍內。若堿基突變是影響密碼子的主要因素,大部分基因應在曲線上或曲線附近,且ENC比值在-0.05~0.05,但結果卻相反。提示堿基突變雖是影響須彌葛密碼子偏好性的因素,但受自然選擇更多,這與中性繪圖分析結果相一致。

圖3 須彌葛葉綠體基因組ENC-plot分析

表4 ENC比值頻率分布
2.3 最優密碼子確定該研究將ENC值最高的5個基因(ycf3、clpP、ycf2、rpl2、rpoA)和 ENC值最低的5個基因(rpll6、aptF、petD、psbA、rps12)分別作為高低基因表達組,建立高低表達基因庫(表5),計算得到△RSCU。RSCU>1為高頻密碼子,△RSCU≥0.08的密碼子為高表達優越密碼子,選取二者共有的密碼子為最優密碼子,據此符合條件的有10個密碼子,其中8個以A/U結尾。

表5 須彌葛葉綠體基因組最優密碼子分析
密碼子使用偏好廣泛存在于多種生物體內,可能受 GC 含量、基因長度、基因功能、選擇、突變等多種因素影響,是一種復雜而又不可避免的現象[19]。以往大多利用全基因組信息研究物種的密碼子偏好[20]。隨著近年來新一代測序技術的飛速發展,出現了大量的基因組和轉錄組數據,Machado等[21]通過使用深度基因組群體測序推斷黑腹果蠅同義位點的選擇。Chu 等[22]利用 Ribo-seq 和 RNA-seq 方法研究了密碼子使用偏好如何影響擬南芥的翻譯模式。Guan等[23]通過對菲牛蛭密碼子使用模式的分析,發現基因進化的基本要素是突變壓力和選擇。該研究通過PR2繪圖、中性繪圖、ENC-pltot等對影響須彌葛密碼子偏好性的因素進行了分析整理,并最終確定最優密碼子。
由于密碼子的簡并性,氨基酸的類型雖不會因GC3同義突變所改變,但其仍被認為是影響氨基酸類型的一個重要因素[24]。該研究發現,須彌葛葉綠體基因組總GC含量(GCall)是38.10%,且GC1>GC2>GC3,表明密碼子不同位置GC含量不同,密碼子偏好使用以A/U結尾的密碼子,這與文心花、中華絨螯蟹、豆蔻等植物偏好性一致[16,25-26]。RSCU是確定密碼子使用偏好性的主要指標,若RSCU<1,則表明該密碼子使用頻率偏低;RSCU>1,則說明該密碼子使用頻率偏高;當RSCU=1時,該密碼子使用無偏好性[27]。該研究發現,須彌葛葉綠體基因組高頻密碼子中RSCU>1的有18個,大部分是以U和A結尾,G和C結尾的僅2個。最終確定最優密碼子是10個,且8個是以A/U結尾,這與GC含量分析結果相同。
ENC通常表示密碼子偏性的強弱,其ENC>45表示密碼子偏好性較弱[28]。須彌葛ENC平均值為47.54,則說明密碼子使用偏好性較弱。PR2-plot、中性繪圖、ENC-plot分析結果顯示,自然選擇和突變在須彌葛葉綠體密碼子偏好形成中都起作用,但前者作用更大。這與“玉鈴鐺”棗、翠雀葉綠體基因組中的密碼子偏性影響結果一致[29],但與蒙古韭不同[30]。由此可知,造成植物密碼子偏好的因素存在差異,不同因素在不同物種間發揮作用也不同。
該研究通過生物信息學的方法介紹了影響須彌葛葉綠體基因組密碼子使用偏好和模式的因素,并篩選出最優密碼子,這對須彌葛的進一步開發運用有著重要意義。