宋迎輝,朱燦燦,代書桃,秦娜,王春義,張真,李君霞,平西栓
(1.河南省農業科學院糧食作物研究所,河南 鄭州 450002;2.洛寧縣農業技術推廣服務中心,河南 洛寧 471700;3.河南省農業技術推廣總站,河南 鄭州 450002)
GATA轉錄因子是一種轉錄調節蛋白,包含一個典型的Ⅳ型鋅指DNA結合域CX2CX17~20CX2C和一個后續保守區域,這類鋅指的一些成員在基因的調控區域特異性地結合DNA序列(A/T)GATA(A/G),從而調節基因的轉錄水平。從細胞黏菌到脊椎動物的生物體中都發現了該基因家族成員[1]。
Reyes等[2]對擬南芥和水稻的GATA家族基因進行研究發現,GATA家族基因DNA基序與光依賴和硝酸鹽依賴的轉錄調控有關。真菌GATA因子調控氮代謝、光誘導、鐵載體生物合成和配對類型轉換[3]。旁系同源GATA轉錄因子GNC和CGA1/GNL受光、氮和細胞分裂素的調控,同時也受赤霉素信號的抑制[4]。在許多研究報道中對不同作物GATA轉錄因子家族進行了全基因組的鑒定分析,分別在擬南芥(Arabidopsis thaliana)[5]、水稻(Oryza sativaL.)[6]、大豆(Glycine max)[7]、棉花(Gossypium genus)[8]、甘藍型油菜(Brassica napus)[9]、谷子(Setaria italica)[10]、番茄(Solanum lycopersicon)[11]、葡萄(Vitis viniferaL.)[12]、蓖麻(Ricinus communisL.)[13]和毛竹(Phyllostachys edulis)[14]中鑒定出了29、28、64、179、96、33、30、19、19、31個成員,為其在其他作物中的結構和生物學功能研究提供了參考。
高粱(Sorghum bicolor)是世界第五大禾谷類作物,廣泛種植于全球干旱和半干旱地區。也是我國主要的雜糧作物之一,是傳統釀造業,尤其是高端白酒釀造的主要原料。高粱具有光合效率高、抗旱耐澇、耐鹽堿等諸多優良性狀,同時也是研究甘蔗、玉米和柳枝稷等能源作物的重要模式作物[15]。2009年,高粱全基因組測序完成;2017年,高粱基因組序列得到進一步完善[16],許多基因家族的鑒定和功能研究迅速展開[17-21]。但目前尚未見有關高粱GATA家族全基因組鑒定的報道。本研究利用分子生物學技術在全基因組水平上鑒定高粱GATA家族成員,并對其進行生物信息學分析,為探究高粱GATA家族基因功能奠定基礎。
GATA基因家族典型鋅指結構域種子序列(PF00320)從Pfam網站(http://pfam.xfam.org/)下載,并以PF00320的HMM模型為探針序列,利用HMMER 3.3軟件搜索高粱基因組功能蛋白序列數據庫,E值小于1×10-10。當同一基因對應多個蛋白序列時,僅保留氨基酸長度最長的序列作為GATA基因家族成員。進一步利用SMART(http://smart.embl.de/)在線工具驗證GATA保守結構域的完整性,利用DNAMAN軟件(https://www.lynnon.com)分析保守結構蛋白序列。利用ProtParam tool(https://web.expasy.org/protparam/)對最終篩選出的氨基酸序列進行在線分析,以確定蛋白的氨基酸長度、分子質量、等電點、疏水性平均值等理化特性。
提取高粱GATA家族基因的已知基因組位置信息,利用Mapinspect軟件繪制染色體分布圖。
將所有的高粱GATA蛋白與從PlantTFDB網站下載的擬南芥、玉米和谷子GATA蛋白序列通過ClustalX 2.0軟件進行多重序列比對,然后用MEGA 11.0軟件以鄰接法(Neighbor joining,NJ)構建進化樹,Bootstrap replications設置為1 000,其他參數默認。
從數據庫中提取鑒定到的GATA基因結構注釋信息,利用GSDS(http://gsds.gao-lab.org/)在線軟件分析高粱GATA基因的結構。
利用在線保守基序分析軟件MEME(http://meme-suite.org/tools/meme/)進行Motif分析,參數中預測數目設置為8,其余均為默認設置。
從NCBI基因組數據庫(https://www.ncbi.nlm.nih.gov/gene/)獲取每個SbGATA基因起始密碼子上游2 kb序列,上傳至PlantCARE服務器(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)搜索預測,分別統計每個SbGATA基因啟動子檢測到的順式作用元件數量,利用MeV4.9軟件繪制熱圖。
高粱不同組織中GATA轉錄組測序數據來自Phytozome(https://phytozome.Jgi.doe.gov/pz/),用FPKM(fragments per kilobase of exon model per million mapped fragments)值表示基因相對表達水平,利用MeV 4.9軟件繪制熱圖。
選擇常規種豫粱10號在溫室中用Hoagland營養液進行水培,待幼苗長至三葉一心時,在處理中加入PEG6000模擬干旱處理,并分別于0、12、24、36 h取樣,通過轉錄組測序的方法獲得基因相對表達量,變化倍數用FC表示,用Log2FC表示基因相對表達量變化情況。
經比對共鑒定出30個高粱GATA基因,根據其染色體位置分別命名為SbGATA1~SbGATA30。高粱GATA基因編碼的氨基酸數量差異較大,最多可以編碼547個氨基酸(SbGATA23),最少編碼125個氨基酸(SbGATA9),平均編碼345個氨基酸。高粱GATA基因編碼蛋白分子質量在13 611.44~59 298.79 ku,平均為36 559.86 ku。等電點平均值為8.02,SbGATA4、SbGATA5、Sb-GATA11、SbGATA13、SbGATA16、SbGATA20、Sb-GATA26、SbGATA30等電點小于7.0,呈酸性;Sb-GATA2等電點約為7.0,接近中性;其余21個高粱GATA蛋白等電點大于7.0,呈堿性。不穩定系數50.54~80.91,均為不穩定蛋白(>40);疏水性平均系數均為負數,表明高粱GATA蛋白均為親水性蛋白(表1)。

表1 高粱GATA基因家族成員基本信息
30個高粱GATA基因家族成員不均勻地分布在8條染色體上,2號和7號染色體上無SbGATA基因分布(圖1)。其中,1號染色體上的基因數量最多,有8個基因;其次是3、4、8、9號染色體,各有4個基因;5、6、10號染色體上各有2個基因。根據Holub[22]對基因簇的界定,本研究中30個SbGATA基因沒有形成基因簇分布,說明串聯重復不是SbGATA基因家族擴展的主要因素。

圖1 高粱GATA基因在染色體上的分布
將鑒定到的高粱GATA基因家族成員氨基酸序列與擬南芥、玉米和谷子的GATA基因家族成員氨基酸序列進行比對(圖2),根據已知擬南芥GATA基因家族成員進化分類信息對高粱GATA基因家族進行分類(圖3),可將高粱GATA基因家族分為4組(Ⅰ、Ⅱ、Ⅲ、Ⅳ),其中Ⅰ組包含15個家族成員,占總數的1/2,Ⅱ、Ⅲ、Ⅳ組分別包含9、4、2個家族成員,同組內GATA成員之間蛋白序列一致性較高。Ⅲ組4個成員SbGATA3、SbGATA4、SbGATA18、SbGATA30的保守鋅指結構域為CX2CX20CX2C,其他基因家族成員保守鋅指結構域為CX2CX18CX2C;Ⅳ組兩個成員SbGATA5和SbGATA20保守結構域蛋白序列完全一致。

圖2 SbGATA蛋白家族保守序列比對分析
對4種不同作物的126個GATA基因家族成員,包括高粱30個、擬南芥29個、玉米36個和谷子31個,構建系統進化發育樹,如圖3所示,可將GATA基因家族分為4個分支,分支Ⅰ含有高粱GATA家族成員15個,擬南芥GATA家族成員14個,玉米GATA家族成員20個,谷子GATA家族成員15個;分支Ⅱ中高粱、擬南芥、玉米、谷子GATA家族成員分別為9、10、10、9個;分支Ⅲ含高粱和谷子GATA家族成員各4個,擬南芥、玉米GATA家族成員各3個;分支Ⅳ中高粱、擬南芥、玉米、谷子GATA家族成員分別為2、2、3、3個。
對4種作物GATA家族成員保守結構域分析發現,分支Ⅲ中全部GATA家族成員均為CX2CX20CX2C鋅指結構,而其他分支GATA家族成員保守結構域為CX2CX18CX2C鋅指結構。
除分支Ⅰ中SbGATA6和擬南芥GATA蛋白AT3G45170.1親緣關系較近外,其他擬南芥GATA家族成員多單獨聚為一類,表明高粱GATA家族基因與單子葉植物玉米和谷子GATA的親緣關系較近,與雙子葉植物擬南芥GATA的親緣關系較遠。
高粱GATA家族基因含有1~8個外顯子(圖4),其中Ⅰ組SbGATA13和SbGATA17含有1個外顯子;SbGATA15、SbGATA19含有3個外顯子,其他11個GATA基因含有2個外顯子。Ⅱ組GATA基因含有2~3個外顯子。Ⅲ組中SbGATA18含有3個外顯子,SbGATA3、SbGATA4和SbGATA30含有7~8個外顯子。Ⅳ組中SbGATA5和SbGATA20分別含有6個和8個外顯子。說明同組中GATA家族成員基因具有很強的一致性。

圖4 高粱GATA家族基因結構分析
如圖5所示,將鑒定的8個保守基序命名為Motif1~Motif8。Motif1為CX2CX18~20CX2C鋅指結構域,所有高粱GATA蛋白均含有Motif1。同一組的高粱GATA家族成員具有相似的保守基序,除Motif1外,Ⅰ組中15個GATA家族成員均含有Motif2;Ⅱ組中9個家族成員只含有Motif1;Ⅲ組中SbGATA3、SbGATA4和SbGATA30含有Motif4和Motif7,SbGATA18含有Motif4的部分保守序列(結果未展示);Ⅳ組中SbGATA5和SbGATA20均含有Motif5和Motif8。

圖5 高粱GATA家族蛋白保守基序分析
如圖6所示,鑒定到的脅迫相關順式元件主要包括ABRE(脫落酸響應元件)、ARE(厭氧誘導響應元件)、CAT-box(分生組織表達)、CGTCAmotif(茉莉酸甲酯響應元件)、G-box(光響應元件)、LTR(低溫響應元件)、MBS(干旱誘導響應元件)、O2-site(醇溶蛋白代謝調控元件)、RY-element(種子特異調控元件)、TC-rich(防御措施響應元件)、TCA-element(水楊酸響應元件)、WUNmotif(機械傷害響應元件)和circadian(晝夜節律控制元件)。

圖6 高粱GATA家族基因順式調控元件分析
多數高粱GATA家族成員都含有ABRE、ARE、CGTCA-motif和G-box元件。SbGATA2和SbGATA26中G-box和ABRE檢測量高于其他家族成員,SbGATA5中未檢測到ABRE和G-box,SbGATA6中未檢測到ABRE,其他GATA家族成員中均至少有一個ABRE和G-box。SbGATA11檢測到RY-element元件7個,SbGATA22中CATbox和SbGATA15中LTR分別檢測到5個,明顯高于其他家族成員。
30個SbGATA家族成員中共檢測到492個主要順式調控元件,其中,光響應元件G-box數量最多,共檢測到116個;其次為ABRE,檢測到105個;CGTCA-motif和ARE分別檢測到70個和48個;CAT-box、LTR、MBS、O2-site、RY-element、TC-rich、TCA-element、WUN-motif、circadian分別檢測到24、23、24、12、21、9、16、17、10個。表明高粱GATA家族基因可以響應低溫、干旱、光強和光周期等多種逆境條件。
2.7.1 不同生長發育時期組織中的表達 由圖7可知,Ⅰ組SbGATA19在各組織中無表達;SbGATA15在花分化期至成熟期下部葉片和葉鞘中表達量較高;SbGATA16除在幼苗期葉片、花分化期花序梗和成熟期干籽粒中表達量較低外,在其他組織中表達量均較高。Ⅱ組中SbGATA29在幼苗期和花分化期葉片中表達量較高;SbGATA9和Sb-GATA25除在圓錐花序、花序梗和干籽粒中表達量較低外,在其他組織中表達量均較高;SbGATA1和SbGATA12花分化期圓錐花序和花序梗中表達量較高。Ⅲ組中SbGATA30在成熟期干籽粒中表達量較高。Ⅳ組中SbGATA5和SbGATA20兩個基因除在成熟期干籽粒中幾乎無表達外,在其他組織中均有不同程度表達,SbGATA20在不同組織中表達量均較高。總體上,Ⅲ組和Ⅳ組中SbGATA基因家族成員表達量較高。表達分析表明SbGATA基因家族在高粱生長發育中發揮著重要作用。

圖7 高粱GATA家族基因在不同生長發育時期組織中的表達分析
2.7.2 干旱脅迫下的表達 轉錄組分析發現,只有當高粱幼苗模擬干旱處理36 h時,與對照相比,SbGATA11和SbGATA26上調表達,其他時間段其他GATA家族基因表達無差異,說明SbGATA11和SbGATA26基因可能在高粱響應干旱脅迫時發揮重要作用(圖8)。

圖8 高粱GATA家族基因在干旱處理下的表達分析
本研究從高粱基因組中鑒定出30個GATA成員,其中,26個蛋白序列包含CX2CX18CX2C鋅指結構域,與擬南芥[23]和水稻[24]等作物的研究結果一致,而SbGATA3、SbGATA4、SbGATA18和Sb-GATA30的保守鋅指結構域為CX2CX20CX2C。這些基因不均勻地分布在8條染色體上,1號染色體上基因數最多(8個),2號、7號染色體上未鑒定到SbGATA基因。
SbGATA蛋白均為不穩定的親水蛋白,有21個呈堿性,8個呈酸性;編碼125~157個氨基酸,
分子質量13 611.44~59 298.79 ku。這些差異可能使其具有不同的生物功能。系統進化分析發現,高粱GATA家族成員可分為4組,與單子葉植物玉米和谷子的GATA親緣關系較近,與雙子葉植物擬南芥的GATA親緣關系較遠;同一組的SbGATA基因結構和蛋白保守基序一致性高,而不同組的SbGATA基因外顯子數量差異較大,UTR結構長度差異明顯。
SbGATA蛋白含有多種順式作用元件,可以調控對低溫、干旱、厭氧、光強和光周期等非生物脅迫的響應,并參與調控脫落酸、茉莉酸甲酯、水楊酸等激素信號傳導。部分基因在分生組織表達、醇溶蛋白代謝調控、防御措施響應、機械傷害響應及種子特異調控元件有響應位點,但不能說明都可以有效結合并影響表達,而且調控方向未明。
表達分析發現,SbGATA15在花分化期至成熟期下部葉片和葉鞘中表達量較高;SbGATA29在幼苗期和花分化期葉片中表達量較高;SbGATA1和SbGATA12在花分化期圓錐花序和花序梗中表達量較高;SbGATA30在成熟期干籽粒中表達量較高;SbGATA16、SbGATA9、SbGATA25和SbGATA20在多數組織中表達量均較高。Zhang等[25]在水稻中發現一個GATA轉錄因子,可以增加水稻耐冷性,在所有組織中均有表達,在圓錐花序中表達量最高。本研究也發現多個SbGATA基因有低溫響應位點,SbGATA16和Ⅲ組、Ⅳ組的6個基因在圓錐花序中表達量較高。馬鈴薯GATA基因的組織定位研究也發現,StGATA9基因主要表達于葉維管束的韌皮部和莖維管束系統[26],StGATA12基因在馬鈴薯根、莖、花和葉中均有表達,在花中的表達量最高[27]。盧成達等[10]研究發現,谷子GATA家族成員可以響應干旱脅迫、缺氧脅迫、光強及光周期等多種逆境條件,參與生長素、赤霉素、水楊酸等激素信號傳導調控。玉米GATA家族成員在熱脅迫處理后,表達上調的基因有9個,可能在應答熱脅迫過程中發揮重要作用[28]。以上研究說明GATA轉錄因子對植物的抗逆性調控具有重要作用,進一步研究高粱GATA基因功能,對充分了解高粱抗逆性及抗逆育種都具有重要意義。