任曉慶,王 波,歐陽春平,丁鑫炎,樊潔晶,高建華
(1.山西農業大學生命科學學院,山西 太谷 030801;2.山西農業大學 農學院/雜糧種質創新與分子育種山西省重點實驗室,山西太谷 030801)
木質素是一種復雜且具有芳香特性的三維高分子酚類聚合物,在自然界中分布廣泛,約占生物圈有機碳的30%[1-2]。木質素主要存在于所有維管植物的次生細胞壁中,有著諸多功能,比如,與細胞壁的組成物質交聯,可以形成有效的對抗病原體的物理屏障[3];木質素填充于纖維素構架中還可以增強植物細胞壁強度和莖稈抗彎折力,從而提高植物體的機械強度和抗倒伏能力[4-5]。因此,木質素含量也是評價抗倒伏性的有效指標[6]。
木質素合成通常從苯丙氨酸開始,多種酶參與反應,形成 香豆醇(p-coumaryl alcohol)、芥子 醇(Sinapyl alcohol)和松柏醇(Coniferyl alcohol)3種單體[7],然后在過氧化物酶或漆酶等的幫助下發生復雜的聚合反應[8-13]。其中,香豆醇聚合形成對-羥基苯基木質素(Hydroxy-phenyl lignin,H-木質素),芥子醇聚合形成紫丁香基木質素(Syringyl lignin,S-木質素),松柏醇聚合形成愈創木基木質素(Guajacyl lignin,G-木 質 素)[9]。肉 桂 醇 脫 氫 酶(Cinnamyl Alcohol Dehydrogenase,CAD)是整個合成途徑的限速酶之一[14-15],通過催化香豆醛、芥子醛或松柏醛等加氫,相應地生成木質素單體。此外,CAD還具有調節木質素單體組成形式的作用,比如,平衡G-木質素和S-木質素的含量,若S-木質素缺乏,松柏醛可經由阿魏酸-5-羥化酶(Ferulic acid-5-hydroxylase,F5H)和CAD的作用生成5-羥基松柏醇(5-hydroxy-coniferyl alcohol),進而在咖啡酸-O-甲基轉移酶(Caffeic acid O-methyl transferase,COMT)的作用下轉化為芥子醇,最后生成S-木質素[5]。
目前,在水稻(OryzasativaL.)、擬南芥(Arabidopsis thaliana)和煙草(Nicotiana tabacumL.)等植物中的CAD基因家族研究較為詳細[16],而C4模式作物谷子(Setaria italica(L.)Beauv.)中的研究相對較少。谷子屬禾本科狗尾草屬,具有抗旱、耐貧瘠、耐鹽堿等多種優良特性[17]。其籽粒小米營養豐富,脂肪、粗纖維和維生素B1含量明顯高于大米和小麥[18],消費總量位居我國雜糧類食物第2。
本研究基于擬南芥、水稻已知的CAD基因,以已經公布全基因組數據的山西省名優谷子品種晉谷21號的超早熟突變體xiaomi為研究對象[19-20],采用生物信息學的方法篩選和鑒定谷子CAD基因(SiCAD),并進行了初步預測和分析,旨在為谷子木質素代謝的研究奠定基礎。
本研究利用擬南芥、水稻以及狗尾草的CAD基因家族成員,在Pfam(http://pfam.xfam.org/)數據庫的Sequence Search功能中下載符合CAD基因家族的隱馬爾可夫模型(Hidden Markov Model,HMM)[21]。從Phytozome V 13數 據 庫(https://phytozome.jgi.doe.gov/pz/portal.html)[22]獲 取 水 稻(Osativa_323_v7.0.protein.fa)、谷子(豫谷1號,Sitalica_312_v2.2.protein.fa)、擬 南 芥(Athaliana_167_TAIR10.protein.fa)和狗尾草(Sviridis_500_v2.1.protein.fa)的蛋白質數據。從山西農業大學MDSi谷子多組學數據庫(http://sky.sxau.edu.cn/MDSi.htm)獲取晉谷21號突變體xiaomi的蛋白質數據(Peptids.fa)。在Tbtools軟件中利用上述CAD蛋白的HMM模型篩選2種谷子材料相關蛋白質數據;利用MEGA 7軟件對4個不同物種中CAD蛋白進行多序列比對(Clustal W法),并構建系統發育樹(Neighbour Joining Tree,Bootstrap=1 000,其他參數設為默認)。利用MDSi數據庫提取xiaomi CAD基因的位置信息,利用在線工具MapGene2Chromosome V 2(http://mg2c.iask.in/mg2c_v2.1/)對基因定位的結果進行分析并繪制染色體定位圖。
本研究利用ExPASy(https://web.expasy.org/protparam/)分析CAD蛋白的相對分子質量、氨基酸數目、等電點、平均親水性、不穩定指數等指標;利 用Softberry(http://linux1.softberry.com/)在線網站對谷子CAD蛋白進行亞細胞定位預測。
利用TBtools中Gtf/gff3 Sequences Extractor選項,將Up Stream Bases設置為2 000,進而獲取CAD基因上游2 000 bp的序列,將所獲取的序列提交至PlantCARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)進行啟動子順式作用元件分析,最后通過TBtools對常見的功能元件進行可視化展示。
通過MEME(https://meme-suite.org/meme/)預測谷子CAD基因家族成員的保守基序(基序數目設置為10),同時從MDSi數據庫獲取xiaomi基因組注釋文件。
利用TBtools繪制谷子CAD基因家族成員的基因結構和保守基序示意圖。
從MDSi谷子多組學數據庫獲取CAD基因在不同時期不同組織中的表達量數據,通過Tbtools繪制熱圖進行可視化展示。
本研究基于HMM模型的篩選,在xiaomi和豫谷1號(Yugu 1)中均鑒定到13個CAD基因。依據染色體位置命名為SiCAD1~SiCAD 13,其中SiCAD2、SiCAD3、SiCAD4、SiCAD5緊密串聯形成基因簇(圖1)。

與狗尾草(11個)、擬南芥(9個)、水稻(12個)CAD蛋白的進化關系分析顯示(圖2),谷子CAD蛋白與狗尾草的親緣關系最近,且2種谷子中的CAD蛋白同源性極高(多數>99%),僅SiCAD8、SiCAD12和SiCAD13與Yugu 1蛋白同源性較低,分別為66%、66.30%和73.20%。值得注意的是,谷子CAD基因被分為3個亞類,第1亞類包括SiCAD1、SiCAD6這2個基因;第2亞類包括8個基因:SiCAD2、SiCAD3、SiCAD 4、SiCAD5、SiCAD7、SiCAD8、SiCAD11、SiCAD12;第3亞類包括3個基因:SiCAD9、SiCAD10、SiCAD13(圖2)。

對xiaomiCAD蛋白進行理化性質及亞細胞定位預測,結果顯示,13個基因所編碼蛋白氨基酸數目均在300個左右,相對分子質量接近,亞細胞定位在細胞質中。通過預測可知,13個蛋白的等電點為4.91~8.99,包含4個堿性蛋白和9個酸性蛋白;平均親水性為-0.245~0.159,其中,SiCAD1、SiCAD2、SiCAD 3、SiCAD4、SiCAD5、SiCAD6、SiCAD7、SiCAD8、SiCAD10為正值,屬親水蛋白;其余基因為負值,表明為疏水蛋白。此外,SiCAD13編碼蛋白的不穩定系數為41.98,暗示其穩定性較差(表1)。

表1 xiaomi CAD蛋白理化性質及亞細胞定位Tab.1 Physicochemical properties and subcellular localization of CAD protein in xiaomi
通過對xiaomi CAD家族基因CDS上游2 000 bp的序列進行分析,預測到12種涉及低溫響應、激素響應(茉莉酸甲酯、脫落酸、水楊酸和赤霉素)、光響應以及防御和應激響應的順式作用元件。預測結果還發現,啟動子序列中含有參與干旱誘導和光響應的MYB結合位點;13個基因上游啟動序列所包含的順式作用元件個數、種類及排列順序沒有明顯規律(圖3)。

對xiaomi CAD基因家族的保守基序(motif)以及基因結構進行了分析,結果如圖4-A所示,13個SiCAD蛋白共有10個保守基序,均包含Motif 1、Motif 2、Motif 4、Motif 7和Motif 9。SiCAD12缺少Motif 2和Motif 5;SiCAD13缺少Motif 3、Motif 5、Motif 6、Motif 8;SiCAD8缺少Motif 3、Motif 8;相比之下,Motif 10僅出現在SiCAD13中。在基因結構方面,13個基因均為斷裂基因,包含外顯子數目為3~8個。SiCAD9和SiCAD10這2個基因最為相似(圖4-B)。

利用MDSi數據庫中的轉錄組信息,對晉谷21號和xiaomi的13個SiCAD基因在不同時期的組織表達譜進行分析,結果如圖5所示,圖中從左往右依次為晉谷21號(JG21)發芽3 d的種子、兩葉一心期植株、抽穗后2 d頂端2、3片葉、灌漿期頸穗莖節、灌漿期旗葉、灌漿期旗葉鞘、灌漿期頂端第2節莖、灌漿期頂端第4片葉、灌漿期頂端第4個葉鞘、灌漿期根、幼穗初次分化時期的穗、幼穗再次分化時期的穗、S2時期未成熟的穗碼、S4時期未成熟的穗碼、S1時期未成熟的種子、S2時期未成熟的種子、S3時期未成熟的種子、S4時期未成熟的種子、S5時期未成熟的種子、成熟后30 d種子、成熟后60 d種子、S3時期葉脈、S3時期葉肉;之后為xiaomi3周葉、孕穗期頂端第2片葉、抽穗后2 d穗、授粉期穗、灌漿期穗、灌漿期莖。第1亞類中,SiCAD6的表達量均低;而SiCAD1存在時空表達特異性,在晉谷21號灌漿期頸穗莖節和灌漿期頂端第2節莖均有可觀表達,在xiaomi灌漿期莖部的表達量也相對較高。第2亞類中,SiCAD5在xiaomi的6個部位均有表達,尤其在灌漿期莖中表達最高,在晉谷21號的灌漿期頂端第2節莖中也有較高表達;SiCAD2、SiCAD3、SiCAD4、SiCAD12在29個部位中大部分表達量較低甚至不表達;SiCAD7、SiCAD8、SiCAD11表達量較高,其中SiCAD8在晉谷21號灌漿期頂端第2節莖的表達量最高。第3亞類中,SiCAD13在xiaomi中均不表達,在晉谷21號個別部位有少量表達;SiCAD9、SiCAD10在29個部位的表達量均相對較低。

綜上可見,第1亞類SiCAD1、第2亞類SiCAD5和SiCAD 8在谷子莖稈中有較為可觀的表達,這些基因的表達可能與谷子莖稈中存在大量木質素有關。
自1992年第1個CAD基因在煙草[16]中被發現以來,小麥、棉花等CAD研究也逐漸開展[23-24],目前,谷子CAD的研究還相對較少。本研究基于名優品種晉谷21號超早熟突變體xiaomi和豫谷1號的基因組信息,利用生物信息學的方法,篩選到13個SiCAD基因。根據進化關系可知,SiCAD基因與狗尾草CAD基因親緣關系最近。不同谷子材料間的CAD基因數量相同,基因在染色體分布相似,除SiCAD8和Seita.6G026500同源性為66%,SiCAD12和Seita.9G156900同源性為66.3%,SiCAD13和Seita.9G292500同源性為73.2%,其余蛋白質同源性整體極高(>99%),說明其功能可能仍存在差異,但有待于進一步研究確定。
CAD基因家族依據同源性以及對底物的親和力可分為3個亞類[25],第1亞類主要在木質素生物合成中發揮重要作用,而第2、3亞類具有多種生理作用。前人研究發現,第1亞類CAD基因與木質素生物合成相關性最高[26-27]。其中水稻LOC_Os02g09490基因編碼第1亞類CAD蛋白,在木質素單體生物合成中發揮重要作用[28];狗尾草中Sevir.1G056800(第1亞類)是該物種木質素合成時最主要的CAD基因[26]。通過進化關系分析可得,基因SiCAD1和SiCAD6與Sevir.1G056800和LOC_Os02g09490在系統進化樹中屬于同一分支,表明這些基因蛋白序列相似,具有相似的基因結構,同時也可能具有相似的基因功能。由此可知,xiaomi第1亞類基因有2個(SiCAD1和SiCAD6),但是鑒于SiCAD6在xiaomi和晉谷21號2個材料共29個部位中表達量均較低甚至不表達,而SiCAD1在多組織中尤其是2個谷子材料的莖中有較高表達,因此推測SiCAD1為參與谷子木質素合成的主要基因。
相比之下,第2、3亞類的CAD蛋白數量較多,但這些酶屬于多底物醇脫氫酶,通常具有多種生理活性[26-27],至今尚未發現這2類CAD蛋白在木質素生物合成過程中的作用[28]。狗尾草Sevir.2G207500(第2亞類)和Sevir.7G014100(第3亞類)的表達量遠低于Sevir.1G056800(第1亞類),但其表達模式與木質素沉積相關[25]。本研究發現,第2亞類中與Sevir.2G207500同源性最高的SiCAD 5以及Sevir.6G025000的同源基因SiCAD8在2種谷子材料不同時期莖中的表達較高。因此,推測這2個基因可能參與木質素沉積,但是仍缺乏對莖稈木質素含量與SiCAD基因表達量的關聯性分析,SiCAD的功能有待進一步驗證。
本研究以晉谷21號突變體xiaomi為研究對象,以水稻、擬南芥和狗尾草的CAD基因家族為同源序列,通過序列比對,共鑒定到13個SiCAD基因,分布于谷子的1、2、4、6、7、9號染色體。結構預測發現,13個SiCAD基因均含有多個不同的啟動子順式作用元件,它們涉及低溫響應、激素響應、光響應以及防御和應激響應,且在啟動子序列中發現了含有參與干旱誘導和光響應的MYB結合位點,此外,還發現13個基因均為斷裂基因且包含多個不同的保守基序。通過基因表達譜發現,SiCAD1、SiCAD5、SiCAD8在谷子莖中表達量高,預測可能在木質素合成過程中發揮作用,該研究為C4植物CAD基因家族的研究提供一定的參考。本研究明確了基因在木質素合成過程中發揮作用的重要方法,即通過基因的表達位置及表達量確定其是否參與木質素合成過程,而不能將基因所屬亞類作為唯一的評判標準。