趙 丹, 李 波, 趙德剛,2
(1.貴州大學農業生物工程研究院/生命科學學院,山地植物資源保護與保護種質創新教育部重點實驗室, 貴陽 550025;2.貴州省農業科學院,貴州省植物保育技術應用工程研究中心, 貴陽 550006)
泛素化是蛋白質組中最常見的翻譯后修飾之一,是細胞內短壽命蛋白和一些異常蛋白降解的普遍途徑。其中E 3連接酶在泛素化過程中主要負責對靶蛋白的特異性識別,介導26 S蛋白酶體系統對靶蛋白進行泛素化修飾[1],該酶決定著靶蛋白的多樣性與特異性。研究表明,含有U-box 蛋白結構域的泛素連接酶E 3在植物的生長發育過程中起著重要作用[2],其U-box 保守域含有約70個氨基酸,U-box 結構域在酵母、植物和動物等真核生物中高度保守。
目前,已經利用基因組數據庫對多種植物U-box基因家族進行了鑒定和分析,其中擬南芥(Arabidopsisthaliana)中鑒定到64個U-box 蛋白[3],水稻(OryzasativaL.)中鑒定到77個U-box蛋白[4],蒺藜苜蓿(Medicagotruncatula)中鑒定到41個U-box蛋白[5],大豆(Glycinemax(L.)Merr.)中鑒定到43個U-box 蛋白[6],葡萄(VitisviniferaL.)中鑒定到31個U-box蛋白[7],香蕉(Musaacuminata)中鑒定到91個U-box蛋白[8],甘藍(brassicaoleraceaL.)中鑒定到99個U-box蛋白[9],蘋果中鑒定到69個U-box蛋白[10],番茄中鑒定到62個U-box蛋白[11]。許多U-box蛋白在植物生長發育以及非生物脅迫中發揮著重要作用[12]。
杜仲(EucommiaulmoidesOliv.)是我國特有的國家戰略資源樹種,既是世界上極具開發潛力的天然橡膠資源,又是我國特有的名貴藥材和木本油料樹種[13]。杜仲基因組測序的完成,為杜仲基因家族的鑒定提供了數據來源。到目前為止,對杜仲U-box基因家族的研究尚未取得突破進展。U-box基因可能在杜仲的生長發育中起著重要作用,因此對杜仲U-box基因家族的研究具有重要意義。本研究對杜仲U-box基因家族進行了鑒定及生物信息學分析,為進一步研究該基因家族在杜仲生長發育等過程中的作用提供理論指導。
杜仲(EucommiaulmoidesOliv.):https://bigd.big.ac.cn/gwh/Assembly/13/show。
擬南芥(Arabidopsisthaliana):https://www.ncbi.nlm.nih.gov/assembly/GCF_000001735.4/。
三葉橡膠(Heveabrasiliensis):https://www.ncbi.nlm.nih.gov/assembly/GCA_0 10458925.1/。
從 Pfam 數據庫下載U-box 保守序列 PF 04564,利用Hmmer v3.1 b 1軟件構建本地隱馬爾科夫模型(HMM),用下載的杜仲蛋白序列文件搜索獲得杜仲U-box結構候選蛋白。根據Donna等[14]的方法,從擬南芥數據庫和GenBank下載了64個擬南芥U-box基因序列和蛋白質序列。從三葉橡膠基因組數據庫(https://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=T 05150&keywords=U-box&mode=bfind&max_hit=1000)中下載了12個U-box基因序列和蛋白質序列。同樣用構建的HMM模型分別對擬南芥、三葉橡膠基因組蛋白序列文件進行搜索,所獲結果與下載的擬南芥、三葉橡膠U-box基因序列和蛋白質序列進行合并,得到最新的擬南芥、三葉橡膠U-box基因序列和蛋白質序列,分別為70個和51個。
利用獲得的擬南芥、三葉橡膠的U-box基因CDS序列,與杜仲基因組CDS序列進行BLAST檢索,所得序列與隱馬爾科夫檢索含有U-box結構域的候選序列合并,剔除重復。
將得到的結果經SMART(http://smart.embl-heidelberg.de/smart/set_mode.cgi?NORMAL=1)、NCBI CDD(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)、InterPro(http://www.ebi.ac.uk/interpro/)和Pfam(http://pfam.xfam.org/search)進一步分析,剔除無典型U-box結構域的序列,最終獲得杜仲U-box基因家族所有成員,分析U-box結構域長度和位置以及其它結構域類型。利用ExPASy 在線工具(https://web.expasy.org/protparam/)預測U-box蛋白的等電點、分子量和親水性平均值(Grand average of hydropathicity, GRAVY)。利用Wolfpsort在線工具(https://wolfpsort.hgc.jp/)預測U-box蛋白的亞細胞定位。
截取杜仲U-box家族基因蛋白質序列中U-box保守結構域,采用Clustalx 1.83軟件進行多序列聯配比對分析。
利用MEGA 7.0軟件生成杜仲U-box蛋白質進化樹Newick文件,利用杜仲U-box基因序列ID獲得對應基因序列和轉錄本序列,將U-box基因序列、轉錄本序列和進化樹Newick文件上傳至在線工具GSDS 2.0(http://gsds.cbi.pku.edu.cn/index.php)作圖。
將杜仲和擬南芥U-box蛋白質序列構建本地fast文件,采用MEGA 7.0程序的進化距離鄰接法(Neighbor-Joining,NJ)構建系統進化樹,生成進化樹Newick文件后采用在線工具iTOL(http://itol.embl.de/upload.cgi)作圖。同樣的方法生成杜仲與三葉橡膠U-box蛋白的系統進化樹。
利用在線工具MEME(http://meme-suite.org/tools/meme)進行Motif 檢索,將得到的 Motif 結構基序采用 InterPro(http://www.ebi.ac.uk/interpro/)進一步驗證其功能。
杜仲材料取自農業生物工程研究院轉基因示范基地,于11月份采集雌雄株葉片、枝條以及果實,液氮速凍,-80 ℃冰箱保存備用。每組材料3個生物學重復。
采用TRIzol RNA法提取植物總RNA,用PrimeScriptTMRT reagent Kit with gDNA Eraser(Perfect Real Time)(TaKaRa, #RR 047 A))試劑盒,將RNA反轉錄為cDNA。Prime 3設計引物(見表1),內參為杜仲EF1α[15],使用Luna?Universal qPCR Master Mix(NEB)熒光染料在CFX ConnectTM熒光定量 PCR 儀進行表達量分析。反應程序為:95 ℃ 3 min,95 ℃ 10 s,55 ℃ 20 s,72 ℃ 20 s,75 ℃ 5 s,共40個循環。每個處理3次重復。用SPSS軟件進行顯著性分析(*表示差異顯著(p<0.05),**表示差異極顯著(p<0.01))。

表1 q-PCR引物序列
經SMART軟件分析,去除不含典型U-box結構域的序列,從杜仲基因組中鑒定到40個U-box基因,其U-box結構域的氨基酸數目在55~67個之間,其中24個U-box蛋白的U-box保守結構域含有63個氨基酸。此外,其中21個U-box蛋白除了含U-box結構域以外,還含有PLN 03200 superfamily、Arm/Arm_2 superfamily、WD 40 superfamily、STK_N、Rho_N、KAP superfamily的結構域(表2)。

表2 杜仲U-box基因家族的信息
根據基因家族成員所含其他結構域的不同,將40個U-box蛋白分為 7類:第Ⅰ類蛋白只含有U-box結構域,有19個;第Ⅱ類蛋白含有PLN 03200 superfamily結構域,有9個;第Ⅲ類蛋白含有Arm/Arm_2 superfamily結構域,有6個;第 Ⅳ類蛋白含有WD 40 superfamily結構域,有2個;第Ⅴ類蛋白含有STK_N結構域,有2個;第Ⅵ類蛋白含有Rho_N結構域、第Ⅶ類蛋白是含有KAP superfamily,同樣都只有1個成員。
通過ExPASy在線工具預測,最長的U-box蛋白(GWHPAAAL 018368)有1 486個氨基酸,分子量為165.1 kD,最短的U-box蛋白(GWHPAAAL 019556)有327個氨基酸,分子量為36.51 kD。等電點從5.16(GWHPAAAL 017730)到9.34(GWHPAAAL 005414),其中酸性蛋白質21個,堿性蛋白質19個。親疏水性統計發現27個杜仲U-box蛋白為親水性(GRAVY<0),13個杜仲U-box蛋白為疏水性(GRAVY>0),其中親水性最強的(GWHPAAAL 022717)GRAVY值為-0.569,疏水性最強的(GWHPAAAL 025015)GRAVY值為0.14。
利用Wolfpsort在線工具對杜仲U-box家族成員進行亞細胞定位預測,結果顯示該基因家族成員位于細胞的不同位置,主要位于細胞核、葉綠體、細胞質。
利用GSDS軟件分析U-box成員的基因特征,結果發現杜仲U-box成員之間基因結構存在很大的差異,CAD序列最長(GWHPAAAL018368)為4 458 bp,最短(GWHPAAAL019556)為981 bp。外顯子數目為1~14個,其中僅含一個外顯子的U-box基因有18個(圖1)。
采用Clustalx 1.83軟件對 40個杜仲U-box基因家族中U-box保守結構域進行多序列聯配比對分析。結果顯示杜仲U-box保守結構域有多個氨基酸高度保守,如脯氨酸(Pro)、半胱氨酸(Cys)、甲硫氨酸(Met)、天冬氨酸(Asp)、甘氨酸(Gly)、蘇氨酸(Thr)、精氨酸(Arg)、異亮氨酸(Ile)、色氨酸(Trp)、天冬酰胺(Asn),這些保守氨基酸對穩定U-box保守結構域起著關鍵作用(見圖2)。
通過MEME在線工具分析杜仲U-box蛋白獲得10個Motif 結構基序。經 Inter Pro工具分析發現,Motif 1、Motif 2、Motif 4和 Motif 9的數量最多,是杜仲U-box蛋白最常見 Motif 結構基序,其中Motif 1、Motif 2和 Motif 4 對維持U-box 蛋白結構是必不可少的(表3和圖3)。Motif 9具有結合蛋白質功能,是ARM保守結構域的組成部分,而U-box-ARM型一般都具有依賴于U-box功能域的E 3泛素連接酶活性,參與泛素/26 S蛋白酶復合體途徑介導的蛋白降解。

表3 杜仲U-box蛋白最常見Motif 特征
為了進一步研究杜仲U-box蛋白的系統進化,對杜仲(40個)分別與擬南芥(71個)和三葉橡膠(51個)的U-box蛋白構建系統進化樹。結果表明,杜仲U-box基因間的遺傳距離較接近,如同一個分支上的GWHPAAAL008984、GWHPAAAL011256、GWHPAAAL011401和GWHPAAAL025939,推測可能來自于同一個祖先。同樣擬南芥和三葉橡膠的U-box基因家族也有類似的情況(圖4)。
選取杜仲U-box基因家族中U-box-Arm結構域的6個成員進行組織特性表達分析。結果表明,在杜仲雌株莖、葉、果和雄株莖、葉中各基因均有表達,其中GWHPAAAL022027在雌株葉、果中表達較高,GWHPAAAL025437在雄株莖、雌株莖和果中表達較高,由于U-box-Arm結構域大多與泛素化修飾有關,因此推測泛素化修飾作用參與到杜仲生長發育的各個階段(圖5)。
泛素連接酶E 3是泛素蛋白降解途徑中決定底物特異性的重要因子,在擬南芥1 200多個泛素連接酶E 3中,U-box結構域類的泛素連接酶E 3是具有重要功能的一類[16-18]。目前已鑒定了多個植物的U-box蛋白。本研究通過生物信息學方法鑒定獲得了40個典型的杜仲U-box結構基因家族成員,同時還分析獲得70個擬南芥U-box基因家族和51個三葉橡膠U-box基因家族,其中擬南芥U-box基因家族成員比之前報道的64個還多6個。杜仲U-box基因家族的蛋白質大小在36.51~165.1 kD,等電點在5.16~9.34之間,家族成員間的差異較大。亞細胞定位顯示該基因家族成員主要位于細胞核、葉綠體、細胞質。此外,由于基因組數據為Scaffod版本,因而沒有作染色體定位分析。
根據家族成員除U-box結構域以外的結構域,將40個U-box蛋白劃分成7類,僅含U-box結構的成員在杜仲中最多,有17個。而在植物中研究較多的U-box-Arm結構在杜仲中為第三大類。研究表明,Arm功能域主要參與蛋白-蛋白間的相互作用,在細胞內信號傳遞、細胞骨架調控、核輸入和轉錄調控等過程中起作用[19],而U-box蛋白大多數都具有E 3泛素連接酶的活性,參與泛素/26 S蛋白酶復合體的降解過程[20]。U-box和Arm結合起來共同完成E 3連接酶的功能。U-box基因參與葉、花、果、莖等的生長發育[21-22]。U-box-Arm結構的基因家族成員在杜仲雌雄株葉、莖、果中均有表達,但表達高低有很大差異,證明該結構的基因家族成員在組織中發揮著不同的功能。
綜上,本研究篩選鑒定了40個U-box蛋白,根據含有的不同結構域將其分為7類,其中U-box-Arm蛋白有6個。通過Real-time分析,U-box-Arm蛋白具有組織特異性。這些結果為進一步研究U-box蛋白在杜仲生長發育等的作用機制提供了參考數據。