丁淑金,楊彥萍,鄧茹友,馬福仙,尹拓,張漢堯
(西南林業大學林學院,西南地區生物多樣性保育國家林業局重點實驗室,云南昆明 650224)
葡萄汁酵母(),是釀酒酵母的姊妹種,最初被認為是貝酵母()酵母的同義詞,但現在被認為是一個獨立的種,隨后成為從事應用和基礎研究的科學家感興趣的對象。它與它的姊妹種,包括真貝酵母()、奇異酵母()和釀酒酵母()雜交,形成在啤酒工業中很重要的雜交菌種。葡萄汁酵母是一種耐低溫酵母,通常用于寒冷地區的白葡萄酒發酵,也與蘋果酒生產和一些傳統發酵有關。此外,葡萄汁酵母在較低溫度下發酵時具有更平衡的香氣特征。然而,對這種酵母的起源和遺傳多樣性和基因功能等領域的研究還非常少,需要對其進行更多的研究。
生物信息學是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21 世紀自然科學的核心領域之一。生物信息學是涉及多個領域的一門學科,主要是使用生物算法及相關軟件工具最終得到生物數據;其研究重點主要在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,即從核酸和蛋白質序列出發,分析序列的生物信息,推測其生物功能。
CCR4-NOT 蛋白復合體是多亞基蛋白復合體,從酵母到人類進化高度保守,酵母中所含有的核心亞基,在人類中都有著相似的同源物。在酵母中,主要有九種核心亞基:CCR4、CAF1、CAF40、CAF130、NOT1、NOT2、NOT3、NOT4、NOT5,至少存在有1 MDa 和 2 MDa 兩種不同的組成形式。較小復合體組成形式可能只有核心亞基組成,較大的組成形式可能與其他細胞因子相互作用形成的復合體。NOT蛋白是TATA 框缺失的負調節因子。和最初被認為是基因,即和,在限定溫度下,該基因突變能夠引起G1 期停滯。在CCR4-NOT 蛋白復合體結構中,NOT1 蛋白作為支架蛋白,可與復合體中其他蛋白亞基結合,形成穩定的復合物。除了復合體中的 CAF40 和CAF130外,其它主要成員均已通過遺傳選擇得到鑒定。CCR4-NOT 蛋白復合體中的成員CCR4 作為去酰基化酶,可阻遏抑制碳代謝,該基因的突變能使乙醇脫氫酶ADH2 基因的表達逃脫葡萄糖的抑制,與CAF1和NOT1 相互作用,形成一個核酸酶組件,行使功能。是CCR4 蛋白相關因子的基因,起初被鑒定為基因,對葡萄糖的解阻遏是必須的。蛋白質降解的泛素化途徑,同樣備受近幾年的關注。NOT4 蛋白作為鋅指結構E3 泛素連接酶,它的C 末端組件與NOT1 結合,N 末端結構與Ubc4 結合,形成一個泛素化組件。
NOT5 蛋白亞基在轉錄和翻譯過程中參與 RNA聚合酶Ⅱ的組裝。真核生物RNA 聚合酶II(RNA Pol II)被發現對轉錄后RNA 處理事件有指導作用。它作為機器部件的著陸平臺,涉及基因帽蓋、拼接和基因輸出。最近,一種更具挑釁性的RNA Pol II 亞單位Rpb4 被認為轉錄過程中不僅在細胞核中發揮作用而且在細胞質中發揮作用,促進RNA 降解和翻譯過程。NOT5 處于轉錄和翻譯雙向交流的中心位置。在細胞核和細胞質中,NOT5 對核糖核酸聚合酶II 起著“橋梁”作用。在細胞質中,NOT5與編碼RNA 聚合酶II 的mRNA 相互作用,支持共伴侶與新產生的蛋白質的結合,以保持其可溶性和組裝能力。在細胞核中,NOT5 與聚合酶的Rpb4 亞單位相互作用,Rpb4 亞單位容易與聚合酶的其余部分解離,Rpb4 在轉錄完成時與mRNA 結合以促進細胞質中的翻譯和mRNA 降解。
已有研究表明,參與廣泛細胞過程的全轉錄調節,但葡萄汁酵母基因的生物信息學分析報道較少,影響了對其功能的全面了解。因此,本文通過多種在線分析工具對基因的結構和功能進行生物信息學分析,為以后研究該基因在細胞轉錄和翻譯中的作用提供參考。
實驗所用數據來自課題組前期的轉錄組測序所得數據,利用NCBI 的BLAST 工具獲取與葡萄汁酵母基因同源性高的EST 序列;再用CAP3在線軟件拼接、組裝,獲得基因序列。首先,從NCBI(https://www.ncbi.nlm.nih.gov/)上獲取基因序列,用Nucleotide BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)得到6 個與基因相似性高的同源序列(表1)。序列的比對由ClusterW 程序完成。并用 MEGA7.0 軟件找出保守序列,再用保守序列從課題組前期的轉錄組測序數據中克隆得到葡萄汁酵母基因序列。

表1 物種名稱與相關信息表Table 1 Species name and related information table
克隆得到目的基因序列后,借助Open Reading Frame Finder 工具查找目的核苷酸序列中存有的開放閱讀框,預測基因的氨基酸序列。利用ExPASy中的ProtParam 預測NOT5 蛋白質的分子式、分子質量和不穩定系數等理化性質。蛋白質的親水性、信號肽和亞細胞定位情況分別利用ProtScale、SignalP 5.0 server、Targetp 和CELL v2.5 等網站進行預測(表2)。通過TMHMM 在線軟件研究蛋白質跨膜區。借助Predict Protein 進行蛋白質的二級結構分析。借助Smart 在線工具對蛋白的結構域進行分析。采用PROSITE 數據庫對蛋白質作出Motif查詢,并運用MEME 在線工具比較蛋白質的保守元件。蛋白質空間結構模型通過Alpha Fold 網站建立。將所得到的氨基酸序列導入BLAST 中,獲得與該氨基酸序列同源性較高的10 條氨基酸序列,建立系統發育樹,分析親緣關系。將這些氨基酸序列導入Mega 7.0 中,對蛋白序列進行多序列比對,然后用鄰接法(Neighbour-Joining,NJ)進行建樹分析。

表2 NOT5 基因生物信息學分析內容及相關軟件、網址Table 2 NOT5 gene bioinformatics analysis content,related software and website
Open Reading Frame Finder 查詢結果表明,起始密碼子和終止密碼子分別是ATG 和TAA,該核苷酸序列的開放閱讀框長1446 bp,可編碼481 個氨基酸(圖1)。

圖1 葡萄汁酵母NOT5 基因基因編碼出的蛋白質序列Fig.1 Sequence of protein encoded by the NOT5 gene of Saccharomyces uvarum
將基因名輸入NCBI 功能基因數據庫查詢,得知其RNA 名稱CCR4-NOT core subunit NOT5,外顯子數為1,基因組序列是NC_001148.4,基因編號為856186,染色體定位如圖2,位于XVI 染色體690107~691789。

圖2 NOT5 基因染色體定位圖Fig.2 Chromosomal localization map of the NOT5 gene
從圖3 可知,葡萄汁酵母基因與NOT5 like protein XP018219088.1的基因親緣關系最為接近,二者同源性較高,說明此試驗得到的基因序列無誤,同時也說明該基因與葡萄汁酵母編碼的蛋白質功能可能相似。

圖3 NOT5 基因編碼蛋白系統進化樹分析Fig.3 Analysis of genetic relationship of the NOT5 gene encoding protein
2.4.1 葡萄汁酵母基因編碼蛋白的理化性質分析 蛋白質分子式為CHNOS,分子質量為56311.02,該蛋白質的理論pI 值為4.89。在該條基因上,各氨基酸均有表達,其中谷氨酸(Glu)和賴氨酸(Lys)含量較高,所占比例分別為10%和9.1%。蛋白質不穩定系數為57.62,脂肪系數為64.03,總平均親水性為?0.929,且N 端氨基酸為蛋氨酸(Met),因此判定其為不穩定蛋白(蛋白質不穩定系數大于40.0)。
2.4.2 親疏水性分析 據圖4 可知,在73、74、75、170、171、244 氨基酸位點附近的分值分別是?3.3、?3.267、?3.267、?3.278、?3.278、?3.033,根據20 種氨基酸的親疏水性特性,氨基酸的正值越高則疏水性越強,反之疏水性越弱,親水性越強,由分析結果可知NOT5 蛋白在上述位點處具有較高親水性,推測此區域可能存在折疊。其最低分和最高分分別為-3.3 和1.667,可能存在跨膜區(Scare>1.5)。從整體分析來看,負值的比例遠遠大于正值的比例,因此可推測所編碼的蛋白為親水性蛋白,與理化性質分析結果中平均親水系數為?0.929 相一致。

圖4 葡萄汁酵母NOT5 編碼蛋白質的親水性Fig.4 Hydrophilicity of the protein encoded by the NOT5 gene of S.uvarum
2.4.3 信號肽預測 根據2.4.2 親疏水性分析結果顯示,基因編碼的蛋白質為水溶性蛋白,推測該蛋白質可能無信號肽。將該氨基酸序列提交到SignalP 5.0 server 中分析,結果如表3 與圖5 所示,與前文分析結果一致,該蛋白存在信號肽概率為0%。

圖5 NOT5 基因編碼蛋白質的信號肽預測Fig.5 Signal peptide prediction of the protein encoded by the NOT5 gene

表3 葡萄汁酵母NOT5 基因編碼蛋白質的信號號肽預測Table 3 Signal peptide prediction of protein encoded by the NOT5 gene
2.4.4 亞細胞定位預測 亞細胞定位與蛋白質的功能存在著非常密切的聯系。PSORT Ⅱ在線軟件預測結果如表4 所示,該蛋白可能位于線粒體中的概率最大,因此該蛋白極有可能位于細胞質中的線粒體上,是參與物質代謝的調控因子。

表4 葡萄汁酵母NOT5 基因編碼蛋白質的亞細胞定位預測Table 4 Prediction of subcellular localization of the protein encoded by the NOT5 gene
2.5.1 Coil 區分析 卷曲螺旋是左手超螺旋結構的總稱,由兩個或多個纏繞在不同天然蛋白質之間的-螺旋組成。使用COILS 在線分析工具,該工具以Lupas 算法為基礎,預測該蛋白質的卷曲螺旋,結果如圖6 所示,該蛋白質殘基在3 個不同窗口(window14、21、28)均顯示有卷曲螺旋區域。

圖6 NOT5 基因編碼蛋白質的Coil 區分析Fig.6 Analysis of the Coil region of the protein encoded by the NOT5 gene
2.5.2 跨膜結構分析 結果如圖7 表明,該蛋白全部位于細胞膜外表面,未發現可能的跨膜區,故該蛋白不跨膜,推測該蛋白是非脂溶性蛋白質,此分析結果與2.4.2 親疏水性分析結果一致。

圖7 NOT5 基因編碼蛋白質的跨膜結構分析Fig.7 Analysis of transmembrane structure of the protein encoded by the NOT5 gene
2.5.3 蛋白質二級結構預測 借助網站Predict Protein 進行這組蛋白質的二級結構分析,預測結果如圖8 和表5 所示,據圖和表可知該蛋白質二級結構中各元件的占比;因此在NOT5 所編碼的蛋白質二級結構中,隨機卷曲和-螺旋是主要元件。

圖8 NOT5 基因編碼蛋白質的二級結構預測Fig.8 Secondary structure prediction of protein encoded by the NOT5 gene

表5 二級結構中各元件的比例(%)Table 5 Proportion of components in a secondary structure (%)
2.6.1 葡萄汁酵母基因編碼蛋白質Motif 搜索 將基因編碼的氨基酸序列提交到PROSITE 在線分析工具中,對該基因編碼的蛋白質進行的Motif 搜索。結果如圖9 所示,該蛋白在314~335位存在富含賴氨酸的區域。

圖9 NOT5基因編碼蛋白質Motif 搜索和結構域分析Fig.9 NOT5 gene encoding protein Motif search analysis
2.6.2 葡萄汁酵母基因編碼蛋白質的結構域分析 借助Smart 在線工具對NOT5 蛋白的結構域進行研究圖10 和表6,結果如圖,該氨基酸序列中,存在Pfam Not3 和Pfam NOT2_3_5 結構域。

表6 NOT5 編碼蛋白的結構域預測Table 6 Domain prediction of the NOT5 gene encoded proteins

圖10 NOT5 基因編碼蛋白質的結構域分析Fig.10 NOT5 gene encoding protein structural domain analysis
預測結果顯示(圖11),以白色念珠菌(strain SC5314/ATCC MYA-2876)(Yeast)為模板構建NOT5蛋白的三級結構,橙色部分(較少)表示孤立的非結構化區域,說明建模質量較好。此圖清晰的表明該蛋白主要由卷曲、螺旋和折疊所構成,與二級結構預測相符。

圖11 NOT5 基因編碼蛋白質的三級結構預測Fig.11 Tertiary structure prediction of protein encoded by the NOT5 gene
NOT1 蛋白一級結構由2108 個氨基酸組成,在其氨基酸序列1009~1058 和1294~1354 中,富含較多的谷氨酰胺;NOT2 蛋白一級結構由191 個氨基酸組成,包含有兩個功能域,即C 末端功能域和N 末端功能域;NOT3 蛋白一級結構由836 個氨基酸組成,在氨基酸序列的39~68、120~161、258~290 處有螺旋結構,其氨基酸序列的1~81 為HR1 組件,在信號轉導過程中能夠結合小G 蛋白;NOT4 蛋白的一級結構由587 個氨基酸組成,在其氨基酸序列的33~77 間有環形的鋅指組件。人類NOT4 蛋白CNOT4 的體外泛素化實驗證明,NOT4 蛋白是E3 泛素連接酶。它的螺旋卷曲結構和Pham:rrm 基序能夠被RNA 結合蛋白識別,而且也能被一些單鏈的DNA 結合蛋白識別;NOT5 蛋白一級結構中含有560 個氨基酸序列,它的N 末端1~150 位氨基酸序列上與NOT3 蛋白1~148 位有44%的同源性,同NOT3 蛋白一樣,在其氨基酸序列的39~66 和126~176 區段,也存在螺旋卷曲基序,NOT3 和NOT5高度相似性,且 NOT5 和NOT3 之間可能存在功能冗余。人類和果蠅只有一個同源域,被稱為 CNOT3。在人類細胞中,CNOT3 被可變剪切產生一個長的和短的蛋白,即 CNOT3L 和 CNOT3S。目前,沒有數據證明CNOT3 蛋白是酵母NOT3 的蛋白同源物,還是NOT5 蛋白的同源物。而且在酵母中,這兩個基因功能并不完全冗余,NOT5 缺失突變的表型比NOT3 的更明顯。本研究結果得到的NOT5 基因可編碼481 個氨基酸,該蛋白質殘基在3 個不同窗口(Window14、21、28)均顯示有卷曲螺旋區域;與已報道的文獻部分相似,但也不完全一致,這或許是由于研究對象不同所導致。
NOT5 蛋白亞基在轉錄和翻譯過程中參與 RNA聚合酶Ⅱ的組裝。在細胞核中,該蛋白復合體主要參與染色質修飾、轉錄延伸、轉錄偶聯過程中DNA損傷修復等。在細胞質中,該復合物作為重要的去酰基化酶,在mRNA 的衰變、轉錄抑制和轉錄后調節過程中的翻譯抑制起重要作用。此外,CCR4-NOT 蛋白復合體也具有 E3 泛素連接酶活性,參與蛋白質降解。每個功能的作用機制仍在討論中。要畫出一幅清晰的畫面有一定的困難,因為它與許多調節細胞質和細胞核中mRNAs 和蛋白質的過程有關。