張嵐,程琦,梁士辰,鄧雨瀟,潘玉欣
(華北理工大學生命科學學院,河北 唐山 063210)
尿苷二磷酸葡萄糖 (Uridine diphosphate glucose,UDPG)作為反應底物和產物,參與蔗糖、纖維素、糖蛋白、糖脂和碳水化合物等合成代謝過程[1]。 UDP- 葡萄糖焦磷酸化酶(UDP-glucose pyrophosphorylase, UGPase)可逆催化葡萄糖-1-磷酸與尿苷三磷酸(Uridine triphosphate)反應形成UDPG 和焦磷酸。 在葡萄糖合成糖原過程中,UGPase 催化葡萄糖-1- 磷酸與UTP 分子合成為UDPG; 在糖原分解過程中,UGPase 催化UDPG轉化為葡萄糖-1-磷酸。
到目前為止,UGPase已經在多種植物中被鑒定,如水稻[2]、黃芪[3]、大麥[4]、馬鈴薯[5]、香蕉[6]和陸地棉[7]等。植物通常含有UGPase-A 和UGPase-B兩類蛋白。UGPase-B 蛋白與UGPase-A 沒有同源性,但具有相同的催化功能[8]。 在大麥葉片、胚胎和胚乳中僅發現1 種類型的UGPase 蛋白[4],馬鈴薯中UGPase等位基因多態性導致cDNA 序列的微小差異[9],在擬南芥、水稻和楊樹中均發現有2個高度同源的UGPase-A 基因[1,10]; 在萊茵衣藻(Chlamydomonas reinhardtii) 和擬南芥中發現了與UGPase-A 基因具有相同催化功能的UGPase-B基因[11-12]。
棉花是世界上重要的纖維作物。 已有的研究表明UGPase基因參與纖維素的合成。 在擬南芥中過表達陸地棉(Gossypium hirsutum)GhUGP基因,可導致轉基因擬南芥的可溶性糖、淀粉和纖維素含量增加[7]。 在黃麻中過表達CcUGPase基因, 轉基因植物的株高和纖維素含量都有所增加,但木質素含量沒有變化[13]。棉花基因組在一億三千萬年前經歷了雙子葉植物共同祖先物種的1次全基因組三倍化事件,而后棉花物種又發生了獨立的全基因組五倍化事件[14-15]。 這種全基因組水平上的加倍事件增加了基因的多樣性。 而在棉花全基因組水平研究UGPase基因家族成員基因結構、進化特征、組織表達等未見報道。
本研究將在全基因組水平上鑒定亞洲棉(G.arboreum)、雷蒙德氏棉(G. raimondii)、異源四倍體陸地棉、海島棉(G.barbadense)、葡萄、榴蓮、可可等19 種植物中的UGPase基因家族成員,從系統發育、基因結構、選擇壓力、表達特性等多方面進行比較分析,以推斷其進化規律,為深入研究棉花UGPase基因的功能奠定基礎。
在SGD(https://www.yeastgenome.org/)數據庫中下載1 個酵母UGPase基因。 從TAIR(https://www.arabidopsis.org/)下載得到3 個擬南芥UGPase基 因(AT3G56040.1、AT3G03250.1、AT5G17310.2)序列。 二倍體的亞洲棉、雷蒙德氏棉,四倍體的陸地棉、 海島棉全基因組序列數據來源于Cotton-FGD((https://cottonfgd.org/)[16]。 4 種雙子葉植物葡萄(Vitis vinifera)、可可(Theobroma cacao)、楊樹(Populus trichocarpa)、榴 蓮(Durio zibethinusMurr.),單子葉植物水稻(Oryza sativa),基部被子植物無油樟 (Amborella trichopoda),5 種藻類萊茵衣藻、綠色鞭毛藻(Ostreococcus lucimarinus)、膠球藻(Coccomyxa subellipsoidea)、團藻(Volvox carteri)和細小微胞藻(Micromonas pusilla),小立碗蘚(Physcomitrella patens)以及卷柏(Selaginella moellendorffii)的全基因組序列數據下載自Phytozome 網站(https://phytozome.jgi.doe.gov/pz/portal.html)。
以擬南芥UGPase 蛋白質序列為種子序列,通過本地blastp[17]對上述所有物種基因組數據進行全基因組檢索,設置E值≤1e-5,氨基酸序列一致性≥40%,打分≥100,初步獲取各物種基因組中UGPase候選基因。 然后通過Pfam 網站(https://pfam.xfam.org,v32.0)[18]預測候選基因的結構域,具有UGPase 結構域(PF01704)的即為UGPase基因家族成員。 在ExPASy(https://www.expasy.org/) 對棉花UGPase 蛋白的理化性質進行預測。
利用MEGA X[19]軟件對UGPase基因家族成員進行多序列比對與進化樹構建,采用最大似然法(Maximum likelihood,ML)和JTT+G(Jones-Taylor-Thornton+Gamma-Distributed rates)模型,bootstrap 值設為1 000。
根據各基因組基因位置文件,利用數據處理工具TBtools[20]繪制基因結構;利用序列分析工具MEME[21](http://meme-suite.org/, v5.1)分 析 上 述19 個物種的UGPase 蛋白中的保守基序。 參數設置:基序最大發現數量為25,基序最大長度為50 nt(Nucleotide,核苷酸)。
利用蛋白序列同源性分析工具OrthoMCL[22]。(參數設置:E值≤1e-5、 一致性≥50%、 膨脹系數>1.5)鑒定亞洲棉、雷蒙德氏棉、陸地棉、海島棉、葡萄、可可和榴蓮基因組中的直系同源和旁系同源UGPase基因,并利用Circos[23]軟件繪制基因同源關系圖。
利用Perl 語言編寫程序, 計算棉花UGPase基因家族成員同源基因對間的同義替換率Ks值,并利用Circos[23]軟件圖形化展示基因間的Ks值。
使用EasyCodeML[24]軟件位點模型方法對UGPase基因進行選擇壓力分析。ω表示Ka/Ks,ω>1 表示進化中主要受正選擇影響,ω<1 表示進化中主要受負選擇影響,ω=1 表示進化中主要受中性選擇影響。
從CottonFGD 網站下載陸地棉UGPase基因表達數據, 基因表達量的衡量指標為RPKM(Reads per kilobases per million reads, 每百萬片段中來自某基因每千堿基長度的片段數),用TBtools 繪制基因表達熱圖。分析UGPase基因在胚珠發育的10 個時期〔-3 DPA(day post anthesis, 開 花 后 天 數)、-1 DPA、0 DPA、1 DPA、3 DPA、5 DPA、10 DPA、20 DPA、25 DPA、35 DPA〕和纖維發育的4 個時期(5、10、20、25 DPA),及在根、莖、葉、花托、花瓣、雄蕊、雌蕊、副萼的表達量。
對4 個棉種和其他15 個代表物種進行蛋白序列比對初篩和特征結構域復篩, 鑒定出79 個UGPase基因。 其中來自雷德蒙氏棉的最多(13個);其次為海島棉(12 個);然后依次為單子葉植物水稻(11 個)、陸地棉(9 個)、亞洲棉和小立碗蘚(各4 個);其余低等植物和酵母中UPGase基因數目為1~3(圖1 和附表1)。 除雷蒙德氏棉和釀酒酵母外, 其余物種中均含有UGPase-B 類基因。綠色鞭毛藻和細小微胞藻不含UGPase-A 類基因,其余物種均含有UGPase-A 類基因。 總體上各物種中UGPase-A 類基因多于UGPase-B類,且UGPase-A 類基因隨著物種進化發生了明顯的基因擴張。
同源性分析表明UGPase-A 類蛋白和UGPase-B 類蛋白同源性極低, 因此對上述19 個物種的UGPase-A 蛋白和UGPase-B 蛋白分別構建系統進化樹(圖2)。 UGPase-A 類蛋白分為4 組,棉花UGPase-A 類蛋白分布在A1、A2 和A3 亞組,其中A1 亞組只有棉花UGPase 蛋白,A2 亞組成員來自棉花、可可、葡萄和榴蓮4 個物種,A3 亞組成員來自棉花和無油樟,A4 亞組成員來自9 個物種。這說明棉花UGPase-A 基因可能在結構或功能上發生了分化。所有UGPase-B 類基因聚在一起(B 組),表明棉花UGPase-B 類基因并沒有表現出明顯的分化。
對比葡萄基因組進化過程,棉花基因組又經歷1 次五倍化過程(圖1),因此葡萄基因組中的單個基因, 在棉花基因組中應該有5 個對應基因。但葡萄和棉花都僅有1 個UGPase-B 基因,說明棉花中丟失了約80%的UGPase-B 基因, 在其他物種基因組中也存在類似的丟失現象 (圖2B)。這與文獻報道一致,在棉花全基因組加倍事件中發生大量的基因丟失、 染色體重排現象,有約70%基因丟失[15]。
為探究UGPase家族基因的起源和進化模式,用MEME 程序檢測了25 個基序(圖3)。結果表明UGPase-A 蛋白和UGPase-B 蛋白幾乎沒有同源性,兩者僅共有基序11 和基序23,且只存在于部分蛋白中。基序11 只存在于A3 亞組的棉花UGPase-A 中, 而在所有UGPase-B 蛋白中都存在。基序23 存在于所有高等植物的UGPase-A 蛋白, 以及雙子葉植物可可、 榴蓮、 棉花的UGPase-B 蛋白。 這些結果表明,在單雙子葉植物分化后,UGPase 蛋白功能發生了一定的變化。 值得注意的是, 基序11 和基序23 在UGPase-A 和UGPase-B 中位置不同, 而且共有的基序11 存在于不同的特征結構域中。 在UGPase-A 蛋白中,基序11 和基序25 構成Ribosomal_S2 結構域,且Ribosomal_S2 結構域僅在A3 亞組的棉花UGPase 中檢測到, 因此Ribosomal_S2 并不是這些蛋白的主要結構域。 但在UGPase-B 蛋白中,基序11 與基序14、基序13、基序16 和基序21 則構成UGPase-B 蛋白的重要結構域。
比較A1、A2、A3 和A4 四個亞組發現,棉花UGPase-A 蛋白在進化過程中存在基序丟失現象。 在A1 亞組中,棉花UGPase-A 蛋白僅保留基序4;在A2 亞組中,棉花GbD07G02825 僅保留基序20;在A3 亞組中,有3 個棉花UGPase-A 蛋白只有基序9。 上述3 個亞組中的棉花基因均來自棉花D 基因組,說明棉花D 基因組的UGPase基序丟失現象比較嚴重。
對棉花和其他15 個物種的基因結構分析顯示,低等植物中UGPase-A 基因的外顯子較長;高等植物中UGPase-A 類基因的外顯子較短。 含有Ribosomal_S2 結構域的蛋白中,其基因5'端外顯子較長。UGPase-B 類基因5'端外顯子普遍較長。無油樟和雙子葉植物UGPase-B 類基因均存在較長的內含子。
綜上,UGPase-B 類基因比較保守。 在單子葉、雙子葉植物進化分離后,UGPase-A 類基因結構差異較大。 棉花UGPase-A 類基因可能發生了結構或功能上的分化,這與系統進化分析中得到的結論一致。
同源基因分為直系同源基因和旁系同源基因。 直系同源基因是指2 個物種中來源于共同祖先的同源基因,旁系同源則是基因復制產生的同源基因。 為了解棉花UGPase家族基因的同源進化問題,引入葡萄、可可和榴蓮作為參考物種進行分析。 在葡萄和可可中未檢測到UGPase旁系同源基因,在榴蓮中發現1 對旁系同源基因。 在榴蓮和可可間有3 對同源基因,在榴蓮和陸地棉間有1 對直系同源基因。 棉花中的同源基因對較多,包括32 對直系同源基因和12 對旁系同源基因(圖4)。 由此推斷棉花中UGPase基因主要由共同祖先基因組加倍產生。
Ks是基因的同義置換率,反映了基因的分歧時間。 棉花A 和D 基因祖先分歧時間對應的Ks值為0.032, 異源四倍體棉花形成時間對應的Ks值為0.007~0.009, 陸地棉和海島棉分歧時間對應的Ks值為0.003(480 萬年前)[25]。 因此,按棉花各祖先基因組形成時間和各物種的分歧時間,可將Ks分為4 個區間0~0.003、0.003~0.009、0.009~0.032 和大于0.032。43.2%同源基因對(19對)Ks值大于0.032,38.6%同源基因對(17 對)Ks值處于0.009~0.032,11.4%的同源基因對(5 對)Ks值處于0~0.003,6.8%的同源基因對 (3 對)Ks值處于0.003~0.009。 這說明棉花大部分UGPase基因產生于異源四倍體棉花形成前,也證明了棉花UGPase基因主要來源于棉花基因組的加倍。
為研究UGPase基因在棉花中是否發生了適應性進化, 利用EasyCodeML 程序按照A1、A2、A3 和B 四個亞組分別進行UGPase基因的選擇壓力分析。 位點模型結果顯示,棉花中的UGPase基因主要受到純化選擇影響, 以同義突變為主。在A3 亞組UGPase基因中檢測到11 個位點受到顯著正選擇影響(表1),且均分布于基因的5'端。但在A1、A2 和B 亞組UGPase基因中未發現顯著正選擇位點。這表明,雖然UGPase基因在進化中主要受到純化選擇影響, 但在A3 亞組UG Pase基因中仍有少量位點受到正選擇, 這些顯著位點可能引起UGPase基因在結構或功能上的分化。

表1 棉花UGPase 基因選擇壓力位點模型檢測結果Table 1 Results of model test for selecting pressure sites in cotton UGPase genes
從棉花數據庫CottonFGD 網站下載陸地棉(JGI assembly)UGPase基因的轉錄組數據, 包括根、莖、葉、花托、花瓣、雄蕊、雌蕊、副萼和胚珠發育的10 個時期以及纖維發育的4 個時期的表達量。 利用TBtools 軟件展示表達結果見圖5。 9 個陸地棉UGPase基因的表達模式和表達量有明顯的差別。 在A1 亞組中GhD11G03015 和GhA11G03147 在各發育時期和檢測的各組織中表達量都較高;GhD11G03160 和GhD04G00927在棉纖維發育的不同時期及器官中表達量都極低。 表達量極低的2 個基因編碼產物中僅包含基序4, 說明UGPase 保守基序的丟失可能影響其基因的表達。 通過比較陸地棉UGPase-A 類基因和UGPase-B 類基因的表達模式,發現UGPase-A類在根、葉中表達量較高,同時UGPase-A 類基因在雌蕊和雄蕊中表達較高;UGPase-B 類基因在雄蕊中表達量較低,在花萼和花托中高表達。 在纖維和胚珠發育的各時期,UGPase-A 類基因表達量較UGPase-B 類基因高,UGPase-A 類基因在5 DPA 表達量最高;UGPase基因在3~25 DPA 的胚珠中表達量較高。 這暗示棉花UGPase基因,尤其是UGPase-A 類基因在棉花纖維細胞的起始和伸長中起重要作用。
UGPase 是糖代謝過程中的一類重要酶,在植物的生長發育過程中起重要作用[26]。 而目前植物中鑒定該類基因的研究較少[27]。 本研究在亞洲棉、雷蒙德氏棉、陸地棉以及海島棉中分別鑒定出4、13、9 和12 個UGPase基因,在葡萄、可可和榴蓮中分別鑒定出2、2 和3 種UGPase基因。 基因數目上的差異表明棉花中的UGPase基因家族成員與其它3 種雙子葉植物相比,有較為明顯的擴增。
UGPase 分為UGPase-A 與UGPase-B 兩類,2類蛋白結構差異較大,各類蛋白保守性較高[26,28]。本研究中的UGPase基因結構分析可知,棉花、擬南芥、葡萄等植物含有2 類UGPase 蛋白,且不同植物間同類UGPase 結構保守性較高。 棉花UGPase-A 類基因分布在A1、A2、A3 亞組中,而水稻UGPase-A 類基因全部聚在A4 亞組, 暗示UGPase基因在單雙子葉植物之間存在不同的進化軌跡。 A3 亞組UGPase-A 蛋白的氨基端包含1個特殊的含有基序11 和基序25 的結構域,這個結構域在其他組是不存在的。 在棉花A3 亞組發現11 個顯著正選擇位點, 這些正選擇位點主要分布在基因5'端。 這與A3 亞組基因在5'端的新結構域一致,說明UGPase基因在棉花中發生了分化。 棉花與葡萄、可可、榴蓮UGPase基因的同源性分析顯示,棉花中存在較多同源基因,且大部分的棉花UGPase基因的Ks值大于0.009, 推斷棉花UGPase基因大部分來源于棉花基因組加倍事件。
UGPase存在于植物光合組織和非光合組織中,參與營養生長以及生殖生長[26-27,29]。 擬南芥AtUGP1和AtUGP2突變體影響擬南芥生長[30]。水稻中OsUpg1和OsUpg2調控花粉不育和育性轉換過程[31]。除此,在擬南芥、楊樹、番茄等多種植物中均證實UGPase 影響細胞壁成分[32-34]。UGPase基因在陸地棉中的表達分析結果顯示, 其在根、莖、葉、花、纖維、胚珠等不同器官都有表達,這與文獻報道結果類似,GhUGP(即GhD11G03015)在擬南芥中的過表達試驗證實,UGPase基因參與調控葡萄糖向葡萄糖-1- 磷酸的轉化,GhUGP的表達對擬南芥莖中纖維素含量增加有促進作用[7]。 表達量較高的GhD11G03015、GhA11G03147和較低的GhD11G03160、GhD04G00927 都屬于A1 亞組,推測保守基序的改變及丟失可能影響該類基因的表達。 UGPase-B 類基因在雄蕊中表達量高,這揭示了2 類基因功能上的差異。
在全基因組水平上鑒定了亞洲棉、雷蒙德氏棉、陸地棉和海島棉等19 種植物中的UGPase基因家族成員。UGPase基因包含UGPase-A 和UGPase-B 兩個類型。 隨著棉花的全基因組加倍,棉花UGPase-A 類基因發生了明顯的基因擴張,且在結構和功能上發生分化; 棉花UGPase-B 類基因在進化上十分保守。 同源性分析顯示,棉花UGPase基因主要來源于棉花四倍體形成前的基因組加倍。 表達分析顯示,UGPase基因尤其是UGPase-A 類基因在棉花纖維細胞的生長發育中起重要作用。 棉花UGPase基因家族鑒定及進化分析為深入了解UGPase基因功能奠定了基礎。
附表:
附表詳細內容參見https://journal.cricaas.com.cn
附表1 棉花UGPase 蛋白的理化性質
Table S1 The physicochemical properities of UGPase proteins in cotton