馮 展,江 媛,鄭 燕,繆雨靜,黃林芳*,羅光明*
1.江西中醫藥大學藥學院,江西 南昌 330004
2.中國醫學科學院北京協和醫學院 藥用植物研究所,北京 100193
3.大理大學藥學院,云南 大理 671000
肉蓯蓉屬CistancheHoffmanns.&Link 是列當科(Orobanchaceae)的多年生寄生草本植物,主要分布于歐、亞洲,中國主要有4 種肉蓯蓉屬植物,分布在內蒙古、寧夏、甘肅、青海以及新疆等地[1]。本屬植物在中國藥用植物中占有及其重要的地位,其中肉蓯蓉Cistanche deserticolaMa 的藥用價值最高,因其主要生長在沙漠地區,素有“沙漠人參”的美譽。然而,肉蓯蓉屬藥用植物面臨著植物分類混亂[2]、市售品種混用[3]的困境。
葉綠體是大多數綠色植物的光合作用場所,參與發育和次級代謝活動[4],并協調細胞器和核基因組之間的基因表達[5]。葉綠體具有自主遺傳的基因組,被廣泛用于植物系統發育分析,物種鑒定和遺傳多樣性表達等研究。近年來,隨著葉綠體基因組高通量測序技術逐漸成熟,肉蓯蓉屬植物肉蓯蓉、鹽生肉蓯蓉C.salsa(C.A.Mey.)G.Beck、沙蓯蓉C.sinensisG.Beck、管花肉蓯蓉C.tubulosaWight等多種植物均已開展葉綠體測序研究,并對其系統發育和遺傳多樣性進行了分析[2,6-7],但尚未發現有關肉蓯蓉屬植物綠體基因組密碼子偏好性方面的研究報道。
密碼子(codon)又稱遺傳密碼,是核酸與蛋白質聯系的橋梁,是識別和傳遞生物遺傳信息的重要載體,在生物遺傳和變異中至關重要的一部分[8]。由于不同的物種其蛋白質翻譯過程存在差異,在翻譯過程中傾向于使用一種或幾種特定的同義密碼子,這種現象稱為密碼子偏好性(codon usage bias,CUB)[9],密碼子偏好性在mRNA 翻譯、DNA 轉錄、蛋白的結構、表達、功能和共翻譯折疊等細胞代謝過程中發揮著重要作用[10]。石巖碩等[11]通過分析4 種人參屬PanaxLinn.植物葉綠體基因組密碼子偏好性,推斷出同屬植物間親緣關系更近;宋蕓等[12]證明可基于密碼子偏好性對ICE1 基因進行優化,使得其在低溫脅迫下表達;李顯煌等[13]發現密碼子偏好性可反映出物種間的進化關系;張俊焱等[14]證明突變和自然選擇共同影響獐牙菜
Swertia bimaculate(Sieb.et Zucc.)Hook.f.et Thoms.ex C.B.Clark 葉綠體基因組密碼子偏好性,為獐牙菜引種馴化提供依據。因此,研究植物葉綠體基因組的密碼子使用模式,可為提高基因表達載體構建效率、探討物種進化關系、理解生物與環境適應的分子機制、改良植物品種等方面提供數據支持[15]。
本研究基于高通量測序對肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉、管花肉蓯蓉四種肉蓯蓉屬植物的葉綠體基因組密碼子的使用模式進行了分析,確定4 種肉蓯蓉屬的葉綠體基因組密碼子偏好性及其影響因素,為后續肉蓯蓉屬葉綠體基因組的基因表達檢測、適應性及進化關系研究提供參考依據。
肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉植株由不同地區采集(表1),經北京協和醫學院藥用植物研究所黃林芳研究員鑒定為肉蓯蓉屬植物肉蓯蓉C.deserticolaMa、鹽生肉蓯蓉C.salsa(C.A.Mey.)G.Beck、沙蓯蓉C.sinensisG.Beck 和管花肉蓯蓉C.mongolicaBeck 的全株植物,儲存于北京協和醫學院藥用植物研究所植物標本室,憑證標本為CMPB16201、CMPB16202、CMPB16203和CMPB16204。葉綠體全基因組序列已上傳至GenBank,收錄號分別為MN614127(肉蓯蓉)、MN614128(鹽生肉蓯蓉)、MN614129(沙蓯蓉)和MN614130(管花肉蓯蓉)。肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉的葉綠體基因組大小分別為109 495、111 710、111 500、75 375 bp,分別包括60、61、60、53 個蛋白質編碼基因序列(coding DNA sequence,CDS)。由于短序列無法準確地計算有效密碼子數,剔除了長度小于 300 bp 的CDS[16],又因為終止密碼子UAA、UGA 和UAG不編碼任何氨基酸,并且UGG 和AUG 分別是色氨酸和蛋氨酸的唯一密碼子,這些密碼子不存在偏好性[17],故選擇的CDS 以ATG 為起始[18],以TAA、TAG、TGA 為結尾,最后為了降低結果的誤差,剔除了重復CDS。處理后每個物種留存18 條CDS,并用于后續分析。

表1 肉蓯蓉樣品信息Table 1 Information of samples
將挑選出的72 條CDS 整合到一個fasta 文件中,利用線上軟件CUSP(https://www.bioinformatics.nl/ cgi-bin/emboss/cusp)計算每個基因的編碼區總GC 含量(GCall)以及密碼子第1 位(GC1)、第2位(GC2)、第3 位(GC3)的GC 含量。利用CodonW1.4.2 軟件[19]計算有效密碼子數(effective number of codon,ENC)和同義密碼子的相對使用頻率(relative synonymous codon usage,RSCU),并進行對應性分析(correspondence analysis,COA)。然后通過Microsoft Excel 和IBM SPSS19.0 軟件對分析數據進行整理和繪圖。
中性繪圖分析是判斷密碼子偏好性影響因素的方法之一[20]。同義密碼子的突變位點通常為第3 堿基,而非同義密碼子的突變位點通常為第1 或第2堿基。以每個基因的GC1 和GC2 的平均值(GC12)為縱坐標、以GC3 為橫坐標在Microsoft Excel 軟件中繪制散點圖,剖析GC3 與GC12 的相關性,其中每個散點則代表1 個基因。如果所有的點都沿對角線分布,說明密碼子3 個位置的堿基沒有明顯差異,只受突變壓力的影響;如果GC12 和GC3 變異的相關性很低,則表明自然選擇是密碼子使用模式的主要影響因素[21]。
ENC 代表了密碼子偏離隨機選擇的程度[22],以ENC 為縱坐標,GC3 為橫坐標在Microsoft Excel軟件中進行二維散點圖的繪制,以公式ENC=2+GC3+29/[GC32+(1-GC3)2]繪制標準曲線[23],每個散點代表1 個基因。散點圖可反映出密碼子使用偏好性和基因堿基組成之間的關系,如果密碼子使用偏好性主要受到突變壓力的影響,散點將位于標準曲線上或略低于標準曲線,相反,如果基因低于標準曲線,則主要受到選擇和其他因素的影響[24]。
PR2 偏倚分析(PR2-bias plot analysis)對密碼子第3 位堿基上的A、T、C、G 含量進行分析,避免了密碼子第3 位堿基A/T 和C/G 之間的突變不平衡。分別以G3/(G3+C3)為橫坐標、以A3/(A3+T3)為縱坐標在Microsoft Excel 軟件中制作散點圖。通過判斷散點與中心點(A=T,C=G)的矢量距離,來確定堿基偏移的程度和方向[25]。
COA 從多維空間中提取最具影響的軸和方向,被廣泛用于研究基因間密碼子使用變化的主要趨勢[26],通過分析COA 軸分離出的基因能識別影響密碼子使用偏性的主要原因[27]。利用CodonW1.4.2 軟件進行COA,根據肉蓯蓉屬四種植物的RSCU 值,將所有基因密碼子繪制在59 維的向量空間中,以反映密碼子使用變化的趨勢。軸1(Axis 1)的占比代表對密碼子使用頻率變化的最大影響,其余58 個軸代表了逐漸減小的因素。根據基因在多維空間中的同義密碼子使用情況,可以分析其主要變異來源[28]。
將4 種植物密碼子的ENC 值作為參考指標,取ENC 值最高(10%)和最低(10%)的基因序列分別建庫,作為高表達組和低表達組。利用CodonW 1.4.2 軟件計算2 個表達庫的RSCU 值和ΔRSCU 值(ΔRSCU=RSCU 高表達-RSCU 低表達)。其中,ΔRSCU≥0.08 的密碼子作為高表達密碼子,RSCU>1 的為高頻密碼子,同時滿足2 個條件的密碼子為最優密碼子[29]。
肉蓯蓉屬4 個物種葉綠體基因組的GC 含量見圖1。肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉的18 個葉綠體基因整個編碼區的GC 含量(GCall)范圍在36.60%~37.22%,葉綠體基因組第1、第2和第3 位密碼子的GC 含量分別為 44.03%~44.75%,38.97%~39.82%和25.80%~27.08%。結果顯示,4 個物種的平均GC 含量均小于50%,這說明4 個物種的葉綠體基因組傾向于使用A/T 堿基和A/T 結尾的密碼子。ENC 值從20(極偏好,每個氨基酸只使用1 個密碼子)到61(無偏好,每個氨基酸均勻使用所有同義密碼子),當ENC 值≤35時,認為密碼子使用有非常顯著的偏好[22,30],4 個物種的葉綠體基因組編碼區的ENC 值均大于35,說明肉蓯蓉屬物種綠體基因密碼子偏好性較弱。

圖1 肉蓯蓉屬4 個物種的葉綠體基因組密碼子不同位置的GC 含量Fig.1 GC content of different positions of codon in chloroplast genome of Cistanche
4 個肉蓯蓉屬物種各葉綠體基因的GC1、GC2、GC3、GCall、ENC 和密碼子數(codon counts,CC)相關性分析見圖2。4個物種的GCall均與GC1和GC2呈極顯著相關(P<0.01),其中鹽生肉蓯蓉與管花肉蓯蓉的GC1 和GC2 呈顯著相關(P<0.05),表明這2 個物種密碼子第1 位堿基和第2 位堿基組成相似,但與第3 位堿基組成存在顯著差別;肉蓯蓉的ENC值與GC3 呈顯著相關,鹽生肉蓯蓉的ENC 值與GC1和GC2 呈顯著相關,說明在肉蓯蓉中,密碼子第3位堿基的組成對密碼子使用偏性有重要影響,在鹽生肉蓯蓉中密碼子第1、3 位堿基的組成對密碼子使用偏性有重要影響,而在沙蓯蓉和管花肉蓯蓉中,堿基的組成對密碼子使用偏性并無顯著影響;4 個物種的基因密碼子數CC與ENC值之間的相關系數介于0.18(鹽生肉蓯蓉)~0.27(沙蓯蓉),相關性均未達到顯著水平,這說明CC 對ENC 的影響較弱,葉綠體基因的長度對密碼子使用偏性無影響。

圖2 肉蓯蓉屬葉綠體基因組相關參數的相關性分析Fig.2 Correlation analysis of chloroplast genome-related parameters of Cistanche
為了進一步探究密碼子使用模式,分別計算四個物種的RSCU 值(表2),結果顯示4 個物種的RSCU 值相差無異。RSCU>1 表明該密碼子使用偏性較高,反之,則為非偏好密碼子。肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉中,RSCU>1 的氨基酸占比分別為48.4%、50%、51.6%和46.9%,其中以A/U 結尾的氨基酸的個數分別為27,27,28 和26,這說明肉蓯蓉屬葉綠體基因組中A 或U 出現頻率較高,是該屬葉綠基因組偏好密碼子。RSCU<1的氨基酸中,多數以G/C 結尾,表明這些是肉蓯蓉屬葉綠體基因的非偏好密碼子。

表2 肉蓯蓉屬葉綠體同義密碼子的使用頻率Table 2 RSCU analysis of protein coding region in chloroplast of Cistanche
肉蓯蓉屬葉綠體基因中性繪圖見圖3,肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉的GC12 與GC3的相關系數分別0.083、0.084、0.033 和0.245,且相關性均未達到顯著水平(P=0.05),說明突變壓力不會對對密碼子使用偏性產生明顯的影響;中性繪圖斜率顯示,4 個葉綠體基因組密碼子使用模式的突變壓力占4.44%~32%,這說明4 個葉綠體基因組密碼子使用模式的突變壓力占比小,自然選擇是影響密碼子使用偏性的主要因素。

圖3 肉蓯蓉屬中性繪圖分析Fig.3 Analysis of neutrality plot
肉蓯蓉屬4 個物種的ENC-plot 繪圖見圖4,大部分基因與標準曲線有一定的距離,只有小部分基因分布在標準曲線上,這說明ENC 的實際值與理論值存在一定的偏差且偏性較弱。大部分基因分布在標準曲線下方,說明基因偏性主要受到自然選擇的影響。

圖4 ENC-plot 分析Fig.4 ENC-plot analysis
肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉中各基因不均勻分布在PR2-plot 繪圖的4 個平面區域中(圖5),結果顯示,大多數基因遠離中心,分布在右下角,值得注意的是幾乎沒有基因分布在左下角,這表明GC3 的使用主要受到自然選擇影響,且4 種植物的G3 存在T/G使用偏性。

圖5 PR2-plot 分析Fig.5 PR2-plot analysis
為了探究肉蓯蓉屬植物葉綠體密碼子變異源頭,對肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉葉綠體基因組密碼子進行了基于RSCU 值的對應性分析(圖6),前4 軸的累計可解釋變異分別占總變異的52.97%、53.96%、53.29%和52.18%,第1 軸的可解釋變異分別占總變異的 17.89%、18.70%、17.39%和17.57%,第2~4 軸的可解釋變異分別為肉蓯蓉(12.87%、11.35%和10.87%)、鹽生肉蓯蓉(12.91%、12.00%和10.34%)、沙蓯蓉(13.10%、12.07%和 10.73%)和管花肉蓯蓉(12.12%、11.65%和10.83%)。4 個物種的第2、3、4 軸的可解釋變異均小于第1 軸,因此第1 軸對密碼子偏好性的貢獻率最大,但第1 軸僅代表肉蓯蓉屬葉綠體基因組中密碼子使用偏性的部分變異,這說明肉蓯蓉屬葉綠體的密碼子使用偏性的影響因素并非一個,還可能與突變、自然選擇、基因長度和功能等因素有關。

圖6 對應性分析Fig.6 Corresponding analysis
肉蓯蓉屬4 個物種的最優密碼子分析見表3。結果顯示,肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉各有10、11、13 和12 個。其中肉蓯蓉與鹽生肉蓯蓉最為相似,共有9 個同樣的密碼子(圖7),4 個物種共有的密碼子有4 個(GUA、UCA、CCU和ACA)。在共同的最優密碼子中,ΔRSCU 均大于0.5 的僅有1 個,為GUA。

表3 最優密碼子分析Table 3 Optimal codons in chloroplast genome of Cistanche

續表3

圖7 最優密碼子個數韋恩圖Fig.7 Venn diagram of optimal codons
密碼子偏好性指的是在蛋白質的翻譯過程中不同同義密碼子使用頻率的高低現象,是生物基因組進化的一個重要特征,密碼子偏好性與GC 含量、tRNA 豐度、基因表達水平和蛋白質結構等因素相關[15],研究植物密碼子的偏性對深入探究分子進化和外源蛋白表達有著及其重要的意義[31-32]。在影響密碼子偏好性的諸多因素中,突變和自然選擇為主導因素,自然選擇使得植物在翻譯中優先編碼最優密碼子,突變會導致植物中部分非偏好性密碼子的存在[33-34],所以在此次研究中,密切關注了基因突變壓力和自然選擇壓力。
本研究中肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉葉綠體基因組中GCall 為36.60%~37.22%,GC1、GC2 和GC3 的含量分別為44.03%~44.75%,38.97%~39.82%和25.80%~27.08%,含量均在50%以下,表明4 種肉蓯蓉屬植物的葉綠體基因第3 位堿基多以A/T 結尾或更偏向于A/T 堿基,這與前人報道的大戟科[32]、茄科[35]、人參屬[11]、豆蔻屬[36]等植物葉綠體基因組研究一致,說明不同物種間葉綠體基因密碼子使用偏好性存在著一定的相似性。
密碼子第3 位堿基的變化通常不會導致編碼氨基酸的改變,因此研究密碼子第3 位堿基組成對研究密碼子偏好性具有重要意義[37]。對肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉葉綠體基因組的第3位堿基上的A、T、C、G 含量進行PR2 分析,結果顯示:T>A、G>C,這與小麥Triticum aestvumLinn.[38]、劍麻Agave sisalanaPerr.ex Engelm.[24]、黃芩Scutellaria baicalensisGeorgi[39]、陸地棉Gossypium hirsutumLinn.[40]等植物表現出的T>A、C>G 和胡楊Populus euphraticaOliv.[41]、禾本科(Poaceae Barnhart)植物[42]表現出的A=T、G=C的結果不一致。由此可見,不同植物的葉綠體基因組中堿基組成情況存在明顯差異,這導致了密碼子偏好性有所不同。ENC 值是判斷判斷密碼子偏好性強弱的標準,當ENC 低于35 時,密碼子使用偏性較大,當ENC 高于35 時,偏性較小。在肉蓯蓉屬的四種植物種,葉綠體基因組編碼區的ENC 值均大于35,說明肉蓯蓉屬物種綠體基因密碼子偏好性較弱。在相關性分析中,4 個物種的GCall 與GC1 和GC2 均呈極顯著相關,除此之外,其余數值的相關性各有不同,由于這4 種肉蓯蓉屬植物的生境不盡相同,可以推測生長環境的不同可能會導致不同物種間的GC 差異。
中性繪圖分析、ENC-plot 分析、PR2-plot 的結果均說明肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉葉綠體基因組密碼子更偏向于受自然選擇的影響,這與之前報道的豆蔻屬AmomumRoxb.[36]、含笑屬MicheliaLinn.[43]和人參屬[11]植物結果一致,但蒺藜苜蓿Medicago truncatulaGaertn.[17]、擬南芥Arabidopsis thaliana(L.)Heynh.和楊樹Populus przewalskiiMaxim.[41]等植物的葉綠體基因組密碼子偏好性則主要受突變的影響,這表明不同植物的密碼子偏好性是多因素綜合的結果。
最優密碼子分析表明,肉蓯蓉、鹽生肉蓯蓉、沙蓯蓉和管花肉蓯蓉的最優密碼子數為10、11、13和12 個,共有的最優密碼子數個數為4。值得注意的是,肉蓯蓉與鹽生肉蓯蓉共享9 個相同的最優密碼子,是肉蓯蓉屬4 個物種中最為相近的2 個物種,可以推斷出在肉蓯蓉屬內,肉蓯蓉與鹽生肉蓯蓉具有相近的密碼子使用偏好性,親緣關系更為接近,這與繆雨靜等[44]和楊俏俏等[2]通過肉蓯蓉屬的系統發育分析所得結論一致。
本研究首次基于葉綠體基因組密碼子偏好性對國產肉蓯蓉屬進行了分析,系統性的闡明了影響密碼子偏好性的因素,揭示了影響其密碼子偏好性的因素與自然選擇壓力相關,篩選出了最優密碼子,并且發現了屬內肉蓯蓉與鹽生肉蓯蓉親緣關系更為接近。為后續的肉蓯蓉屬物種基因工程研究、資源鑒定、外源表達基因構建等提供了科學依據和理論支撐。
利益沖突所有作者均聲明不存在利益沖突