







關鍵詞:葡萄;遺傳密碼;密碼子偏好性;自然選擇;突變壓力
葡萄(Vitis vinifera)是一種木質藤本植物,屬于葡萄科葡萄屬。近年來,考古學家在中國地區的新石器時代遺址中發現了一些葡萄種子;《詩經》中也有“六月食郁及薁”的記載;《本草綱目》和《神農本草經》更是記載著將葡萄的果實、莖葉、樹根作為藥物來治療一些疾病的方劑[1]。葡萄是我國重要的經濟作物之一,據2018年的統計數據,我國葡萄種植面積為70萬hm2,占果樹種植面積的6.7%,年產量達到1 366.7萬t,成為世界上葡萄產量最高的國家[2]。
葡萄根、莖、果皮、果實、種子中的多種成分具有藥理作用,在醫療方面有著巨大的應用前景。葡萄的根莖和果皮中含有大量芪類化合物,包括白藜蘆醇、蛇葡萄素、大黃素、谷甾醇等;果實中含有花青素、葡萄素、兒茶素等多酚類化合物;種子中含有大量氨基酸、不飽和脂肪酸及鉀、鈉、鈣、鎂等無機微量元素。Rauf等[3]發現,葡萄皮中的白藜蘆醇對人類癌癥具有化學預防和治療作用,能減少人們患某些癌癥的風險,包括食道癌、前列腺癌、子宮癌、乳腺癌、宮頸癌、膀胱癌、甲狀腺癌等。Akaberi等[4]發現,葡萄籽中富含多酚強效抗氧化劑,多酚物質具有清除自由基、抗氧化、降低膽固醇、抗心腦血管疾病的作用,能夠有效抑制與代謝綜合征相關的危險因素,如高脂血癥、高血糖和高血壓。 Della等[5]發現,葡萄果實中的花青素能夠保肝護胃,具有抗肥胖作用。Choleva等[6]發現,葡萄酒通過改善氧化應激作用能夠顯著降低心血管疾病的發生風險。但是現如今葡萄的白粉病、褐斑病、根癌病、灰霉病、炭疽病、白腐病和害蟲蘋毛麗金龜、白星花金龜、紅斑完菁等主要病蟲害40多種,嚴重制約著葡萄產業的進一步發展。除病蟲害外,惡劣的自然環境變化對葡萄的生長、發育和產量也會產生不利影響,導致大幅減產。因此,提高葡萄對惡劣自然環境的抗性也是葡萄育種的當務之急。研究表明,提高VvJAZ13蛋白的表達量可提高葡萄的耐寒性[7]。因此,研究葡萄密碼子的使用偏好是提高葡萄對病蟲害和惡劣自然環境耐受性的切入點之一。
密碼子的使用偏好性(codon usage bias, CUB)指編碼氨基酸的過程中,不同種類的生物偏好使用的密碼子也不盡相同。密碼子使用的偏好性在幾乎所有已知物種的基因組中都存在。研究證明,當特定基因使用不同密碼子時,mRNA的翻譯水平呈現顯著差異,使用最佳密碼子時會通過增加翻譯延伸率達到促進mRNA有效翻譯的效果,使蛋白質的表達水平成倍增加[8];而使用其他非最佳密碼子則會導致細胞中的核糖體減緩甚至停滯[9]。體內、體外試驗證明,不同偏好密碼子的使用不僅能調節mRNA的翻譯延伸率,還可通過延伸率的變化調節蛋白質折疊,從而改變蛋白質構象,進而影響其功能[10]。本研究通過對葡萄編碼基因的核苷酸組成及密碼子偏好性進行分析,并與其他表達系統和葡萄亞科植物基因組密碼子的偏好性進行比較,旨在為葡萄基因組學研究、葡萄病蟲害基因層面的治療與預防和葡萄的遺傳改良提供思路,同時為通過密碼子優化提高葡萄外源基因表達水平提供理論依據。
1 材料與方法
1.1 葡萄基因組數據
葡萄基因組測序已于2009 年完成[11],從NVVI基因組數據庫中(https://www.nVVi.nlm.nih.gov/datasets/genome/? taxa=Vitis)下載葡萄基因組數據和基因組注釋信息,為降低樣本誤差,運用自編Python腳本篩選出滿足以下3個要求的編碼序列(coding sequence,CDS):① 序列長度大于300 bp;②序列堿基數目是3的倍數;③具有正確且完整的起始密碼子和終止密碼子。
1.2 葡萄密碼子使用情況分析
利用Python腳本計算葡萄CDS序列的GC總含量(用GCall表示)和其密碼子第1、2、3位堿基的GC含量(分別用GC1、GC2和GC3表示)及其同義密碼子第3 位的GC 含量(用GC3s 表示)。利用軟件CodonW1.4.4 來計算同義密碼子相對使用度(relative synonymous codon usage, RSCU)、密碼子適應指數(codon adaptation index, CAI)、有效密碼子數(effective number of codon, ENC)和氨基酸總數等[12]。
1.3 ENC-Plot 分析
利用R 語言程序繪制ENC-plot,并繪制ENC的預期值,分析葡萄密碼子偏好性的影響因素[13]。通過公式(1)計算ENC的預期曲線。根據ENC的理論值判斷當不受選擇壓力的影響時,影響密碼子偏好的影響因素[14]。
1.4 PR2-plot 分析
采用R語言繪制PR2-plot散點圖。PR2解析法也稱之為偏差法,用于分析密碼子第3位堿基上嘌呤或嘧啶間的突變平衡性。密碼子第3位堿基的A、T、G、C含量分別記作A3、T3、G3、C3。用A3/(A3+T3)作為縱軸、G3/(G3+C3)作為橫軸繪制散點圖。在圖的中央位置,代表A=T、G=C,此時只有基因突變會影響密碼子的偏好性;中點與其他基因點相連的矢量代表在第3位堿基上嘧啶或嘌呤的偏好強度和方向。
1.5 Neutrality-plot 分析
利用R語言程序繪制Neutrality-plot散點圖,分別以GC3為橫坐標、GC1與GC 的平均值GC12為縱坐標進行線性擬合回歸分析,以此評價影響密碼子的使用偏好性的因素[15]。
1.6 葡萄基因組最優密碼子分析
統計篩選出的CDS的ENC值,根據ENC值作為篩選的標準,從高到低對葡萄CDS序列進行排列,篩選出最高和最低的位于前10% CDS序列分別構成低表達庫和高表達庫,即將ENC值低的歸為高表達庫,ENC 值高的則被歸為低表達庫[16]。對2 個庫中密碼子的RSCU 值和及兩者的差(ΔRSCU)值進行計算。將RSCUgt;1的密碼子組作為高頻率密碼子,將ΔRSCU≥0.08的密碼子定義為高表達密碼子,同時滿足這2個條件的密碼子則為最優密碼子[17]。
1.7 葡萄與其他幾種生物密碼子偏好性比較
將葡萄基因組密碼子使用頻率與大腸桿菌(Escherichia coli)、釀酒酵母(Saccharomycescerevisiae)、山葡萄(Vitis amurensis)、河岸葡萄(Vitis riparia)和圓葉葡萄(Vitis rotundifolia)的基因組密碼子進行比較。大腸桿菌、酵母、山葡萄、河岸葡萄和圓葉葡萄的密碼子使用數據下載自Codon Usage Database(http://www. kazusa. or. jp/codon/)。若不同物種同義密碼子的使用頻率比值在0.50~2.00,表明這2個物種都傾向于利用該同義密碼子;反之說明這2個物種對該同義密碼子的使用偏好性存在顯著差異[18]。
2 結果與分析
2.1 葡萄密碼子使用情況分析
共篩選出21 887條編碼基因的序列,其GC1、GC2 和GC3 含量分別為50.19%、40.36%、43.92%,GCall含量為44.82%,即GC1gt;GC3gt;GC2,說明葡萄基因組密碼子第1位堿基的GC含量較高。RSCU值是評價同義密碼子偏好性的重要參數,表示基因組中某一密碼子的出現頻率與預期使用頻率的比值。RSCU值常用作密碼子使用偏好性的衡量指標,若RSCU值大于1,表示該密碼子的使用頻率較高,若RSCU值小于1,則說明該密碼子的使用頻率低。由圖1可知,葡萄密碼子RSCU值大于1的有31 個,分別為GCU、GUU、CUU、CCA、UCU、CCU、AUU、GAU、ACU、GCA、ACA、UUG、UCA、CAU、GGA、AAU、UAU、GUG、UUU、GGU、GGA、AGU、AAG、UGU、AGA、CGU、CAA、GAA、CGG、AUG和UGG,其中16個以U結尾,9個以A結尾,GCU的RSCU值最高,為1.536;密碼子RSCU值小于1有30個,多數低頻密碼子以G(9個)或C(16個)結尾。
2.2 葡萄基因組的ENC-plot 分析
ENC 是衡量基因組中密碼子使用偏好性的重要指標之一,并在密碼子使用圖譜中起主導作用[19]。ENC值越小,表明特定同義密碼子使用偏性越大;ENC值越大,說明編碼同一氨基酸的各同義密碼子使用偏性越小,各同義密碼子的使用頻率趨于相等。由圖2可知,大部分基因均位于期望值曲線之下較遠處,ENC值為23~61,普遍偏小,表明影響葡萄編碼基因密碼偏好性的主要原因是選擇壓力;此外,有少部分的基因出現在期望值曲線之上,表明這部分基因是由于突變導致了密碼子偏好性。
2.3 PR2-plot 分析
PR2-plot分析可用于研究密碼子第3個堿基的偏好性[20]。如基因沒有突變,或者密碼子選擇沒有偏性,那么堿基含量應遵循A=T或G=C的規律,此時基因均分布在中心位置,點與中心之間的距離表示堿基偏差的程度和方向。由圖3可知,葡萄的大部分基因分布于右下方區域,表明密碼子第3位上G、T出現的頻率較高,說明密碼子第3位堿基偏好使用嘧啶堿基。由此表明,葡萄基因密碼子第3個位置的堿基使用存在不平衡現象,說明其密碼子使用偏好性既受到突變影響,也受到自然選擇的影響。
2.4 Neutrality-plot 分析
Neutrality-plot繪圖主要是對物種基因組密碼子偏好的因素進行分析,用來揭示定向突變壓力與自然選擇的關系以及GC12 和GC3 之間的關系[21]。若模擬的線性回歸直線斜率為1,代表密碼子偏好性主要受突變的影響;若回歸直線斜率逐漸減小,則代表自然選擇的影響逐漸加強。由圖4可知,大部分GC3分布在0.34~0.78之間,大部分GC12 分布在0.31~0.75之間,GC12 和GC3 的相關系數為0.357 0,回歸系數為0.211 1,回歸曲線斜率較小。由此表明,自然選擇對葡萄基因組密碼子偏好性影響較大。
2.5 最優密碼子的確定
由表1可知,分別列出高低表達庫中同義密碼子的RSCU值,并計算ΔRSCU值。選擇高低表達庫中RSCU值gt;1的密碼子為高頻密碼子,在低表達庫中有31個高頻密碼子,高表達庫中有28個高頻密碼子。隨后計算ΔRSCU值,ΔRSCU≥0.08的密碼子定義為高表達密碼子。將高表達密碼子集與高頻密碼子集相組合,同時符合上述2種情況的密碼子作為最優密碼子,最終篩選出了19個最優密碼子,分別為GCA、GCU、GAU、UUU、GGA、GGU、CAU、 AUU、CUU、AAU、CCA、CCU、CAA、UCA、UCU、ACA、ACU、GUU、UAU。其中以A結尾的有6個,以U結尾的有13個,表明葡萄基因組偏向于使用第3位堿基為A和U結尾的密碼子。
2.6 葡萄與其他生物密碼子使用情況比較
不同基因組間的RSCU值差異能夠反映各物種間的進化距離,而基因組間RSCU值的比值能反映各物種間的親緣關系[22]。將葡萄基因組密碼子使用頻率與大腸桿菌、釀酒酵母、山葡萄、河岸葡萄和圓葉葡萄進行比較,結果如表2所示。葡萄與河岸葡萄的密碼子偏好性非常相似,其親緣關系也非常近;葡萄與釀酒酵母、圓葉葡萄的密碼子偏好性也比較接近;但與大腸桿菌和山葡萄的密碼子偏好性存在較大差異。葡萄與大腸桿菌、釀酒酵母、山葡萄、河岸葡萄和圓葉葡萄的密碼子使用頻率比值中≥2或≤0.5的密碼子數量分別為18、5、13、3、8,數量越少,兩物種間的同義密碼子偏好性差異越小。
3 討論
密碼子的堿基成分對其偏好性有較大影響,人類基因組中偏向于使用G或C,特別是以C結尾的同義密碼子[23];而在微生物中,一些物種偏好使用A、T豐富的密碼子[24],而另一些則偏好使用含有G、C的密碼子[25]。本研究表明,葡萄基因密碼子中AU、GC1含量較高,且偏好以A或U結尾;同時,在30個RSCUlt;1的密碼子中,大多數低頻密碼子以G(9個)或C(16個)結尾。由此表明,葡萄中具有高AU含量的基因相比低GC含量的基因具有更高的表達水平。
本研究表明,葡萄編碼基因密碼子的使用偏好性既受突變影響,也受自然選擇壓力與其他因素的影響,但自然選擇的影響較大。這可能與葡萄基因組的堿基成分相關。密碼子使用的偏好性能夠通過多種機制影響基因表達和蛋白質結構,而密碼子偏好性與很多因素有關,首先是基因表達水平,在高表達基因中,最優密碼子的使用強度高于一般表達基因和低表達基因;其次和 tRNA相關,由于轉錄翻譯的過程中,最優密碼子越多,其對應的tRNA 也會更多,在翻譯過程中不容易形成錯誤匹配,翻譯速度快,并且這個特定的偏性模式和 tRNA含量呈現出正相關性。
建立高低表達庫主要是用于分析葡萄基因組的高表達密碼子和高頻率密碼子,最終篩選出最優密碼子。本研究結果表明,葡萄基因組共篩選出19個最優密碼子;且葡萄密碼子偏好性與河岸葡萄、釀酒酵母和圓葉葡萄類似;與大腸桿菌和山葡萄存在較大差異。因此,葡萄基因在外源系統中表達時,可以選擇在釀酒酵母等細胞系中進行,若在大腸桿菌等系統中表達時,可根據密碼子偏好性對堿基進行優化,從而提高表達量。物種間的親緣關系與密碼子的偏好性具有一定的相關性,最優密碼子在不同類型葡萄中具有較高的保守性,親緣關系愈近的物種,其密碼子的偏好性也較為類似。
本研究結果有助于進一步闡明葡萄基因組遺傳進化的潛在動力學,對解釋葡萄基因組功能、解析葡萄的進化過程具有重要意義,印證了密碼子進化的選擇?突變?漂變模型,為葡萄功能基因組研究以及葡萄基因在原核、真核表達系統中高效表達提供了指導。