李亞飛,陽文龍,顧晶晶,張愛民,,詹克慧
(1.河南農業大學農學院/河南糧食作物協同創新中心, 河南鄭州 450002;2.中國科學院遺傳與發育生物學研究所/植物細胞與染色體工程國家重點實驗室, 北京 100101)
GRAS基因是一類轉錄因子基因,參與調控植物的生長發育[1],由GAI(gibberellic acid insensitive)、RGA(repressor of GAI-3 mutant)和SCR(scarecrow) 3個家族成員命名。早期認為GRAS基因家族是植物特有的轉錄因子基因家族,然而,近期一項研究表明該基因家族最早存在于細菌基因組中,并提出GRAS基因家族歸屬于Rossmann折疊甲基轉移酶超家族[2]。典型的GRAS蛋白至少含350個氨基酸殘基[1],GRAS基因編碼的蛋白通常是由可變的N末端序列和高度保守的C末端組成,其C端包含LRⅠ(leucine-rich region Ⅰ)、VHⅡD、LRⅡ(leucine-rich region Ⅱ)、PFYRE和SAW共5個高度保守的結構域[3]。VHⅡD結構域是GRAS蛋白的核心結構域,存在于所有家族成員中,其中只有組氨酸和天冬氨酸是絕對保守的。目前,對該基因家族成員的鑒定工作相繼在擬南芥、水稻、楊樹和葡萄等幾個物種完成,在早期的擬南芥GRAS基因家族系統發育分析中,將其分為8個亞家族,分別命名為DELLA、LS、SCR、SHR、PAT1、HAM、SCL9(LISCL)和SYN4/7[4]。隨后,GRAS基因家族被分為了10個亞家族,即:DELLA、AtLAS(LS)、AtSCR、AtSHR、AtPAT1、HAM、LISCL、AtSCL3、SCL4/7和DLT[5],但是,在這些系統發育分析中,來自水稻的GRAS蛋白Os4和Os19未被分配到亞家族中去。近期,利用擬南芥、水稻、楊樹、桃樹、葡萄和番茄等物種的GRAS蛋白,通過序列分析構建擬南芥、水稻和楊樹的系統發育進化樹,將GRAS基因家族分為13個亞家族,分別為AtSHR、AtPAT1、AtSCR、AtSCL4/7、 AtLAS、Os19、HAM、Os4、Pt20、DLT、AtSCl3、DELLA和LISCL,其中,Os4、Os19和Pt20是新鑒定的亞家族,Pt20是楊樹特有的亞家族[1]。由于GRAS基因亞家族的多樣性,導致該基因家族功能的多樣性。研究表明,在植物的生長發育中,GRAS基因在植物激素、光、生物和非生物脅迫等多種生長調節和環境信號中發揮重要作用。例如,DELLA亞家族的AtGAI參與擬南芥中赤霉素的信號轉導[6]。AtLAS控制擬南芥葉腋分生組織的形成[7],番茄的Ls[8]和水稻的OsMOC1[9]也是AtLAS亞家族的一員,具有相同的功能。OsMOC1作為水稻分蘗的關鍵控制因子,在揭示水稻高產的分子機理上具有重要意義。SCL13參與光敏色素B(phyB)的信號轉導,在脫黃化過程中使胚軸拉長[10]。AtHAM1、AtHAM2和AtHAM3參與擬南芥頂端分生組織和葉腋分生組織的發育[11-13]。AtPAT1亞家族中的AtPAT1、AtSCL5、AtSCL21基因作為擬南芥光敏色素A信號轉導途徑的正向調控因子[14-15]。GRAS基因還參與植物對多種非生物脅迫的響應,研究表明胡楊AtSCL4/7亞家族的PeSCL7過表達增強了轉基因擬南芥的抗旱和耐鹽性[16];AtSCL14和TGA轉錄因子相互作用可促進擬南芥逆境誘導基因的表達,增強其抗逆能力[17]。
總之,目前已經對許多植物中的GRAS基因家族進行了鑒定及系統分析,如擬南芥中鑒定出34個GRAS基因[1],水稻60個[1]、楊樹106個[1]、番茄53個[18]。小麥作為世界上重要的糧食作物,對其生長發育起調控作用的GRAS基因是至關重要的。但由于小麥是異源六倍體,基因組巨大且復雜,至今尚未見其GRAS基因家族的研究報道。因此,本研究利用小麥基因組信息通過生物信息學方法對小麥GRAS基因家族的組成在全基因組水平進行鑒定,并進一步對基因結構、染色體分布、啟動子順式作用元件、表達譜進行分析,以期為后續小麥GRAS基因的功能研究提供參考。
參考邢光偉等對小麥LBD基因的全基因組鑒定方法[19],從Ensembl Plants 數據庫(http://plants.ensembl.org/index.html)下載擬南芥、水稻和小麥蛋白序列數據庫并提取已報道的擬南芥34個GRAS蛋白序列和水稻的60個GRAS蛋白序列。通過BLAST構建小麥蛋白序列本地數據庫,將擬南芥和水稻的GRAS蛋白序列作為query序列進行BLASTP比對(E-value<1E-5),獲得這些序列的同源序列并刪除其中的重復序列。同時,在Pfam數據庫(http://pfam.xfam.org/)下載GRAS保守結構域(PF03514)作為模板序列,利用HMM3.0比對得到含有保守結構域的蛋白序列。將上述兩種比對方法獲得的候選蛋白序列合并,去除重復序列。進一步利用Pfam序列搜索(http://pfam.xfam.org/)、SMART序列分析(http://smart.embl-heidelberg.de/)和HMMER序列分析(https://www.ebi.ac.uk/Tools/hmmer/search/hmmscan)驗證候選蛋白是否含有GRAS保守結構域,刪除不含或者缺失GRAS結構域的候選基因,最終獲得小麥GRAS基因。
利用Clustal_W工具將擬南芥、水稻和小麥GRAS蛋白序列進行多重比對,將比對結果放入MEGA7.0軟件,在p-distance模型、Bootstrap參數1000和成對刪除選項下采用鄰接法(NJ)構建系統發育進化樹。從Ensembl Plants 數據庫下載的小麥基因組數據用于提取小麥GRAS基因的DNA query和CDS query,利用在線軟件GSDS2.0(http://gsds.cbi.pku.edu.cn/)進行基因結構分析。
利用Expasy提供的Protparam(https://web.expasy.org/protparam/)在線軟件計算小麥GRAS蛋白的氨基酸長度、分子量和等電點。利用SOPMA在線軟件(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl? page= npsa_sopma.html)預測分析α-螺旋、β-折疊和無規則卷曲。借助Cello軟件[20],利用小麥GRAS基因或蛋白序列進行亞細胞定位。
根據IWGSC(https://wheat-urgi.versailles.inra.fr/)公布的最新小麥基因組數據(CS1.0) BLASTN構建本地數據庫,通過比對獲得小麥GRAS基因在染色體上的物理位置。利用MG2C(http://mg2c.iask.in/mg2c_v2.0/)在線軟件構建小麥GRAS基因在染色體上的物理圖譜。利用Perl程序截取小麥各GRAS基因上游1.5 kb的DNA序列,并將其提交PlantCARE數據庫(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)和NEWPLACE在線軟件(https://sogo.dna.affrc.go.jp/cgi-bin/sogo.cgi?sid=&lang=en&pj=640&action=page&page =newplace)進行啟動子順式作用元件的預測并手動整理。
小麥Rht-D1c(GRAS基因家族DELLA亞家族)的等位基因Rht-D1b是控制株高的關鍵基因,在其大于1 Mb區域發現該基因有兩個拷貝且為串聯重復(TSD)[21]。因此,在小麥GRAS基因大于1 Mb區域鑒定是否發生串聯重復事件。利用從Ensembl Plants同源基因數據庫下載的GRAS基因的共線性分析數據,鑒定小麥GRAS基因是否發生片段復制事件[22]。發生串聯重復和片段復制基因的非同義替換率(Ka)和同義替換率(Ks)的比值用軟件KaKs_Calculator2.0[23]進行計算,預測分析基因CDS區的適應性進化。
利用Wheat Exp數據庫(https://wheat.pw.usda.gov/WheatExp/)下載小麥5個組織或器官(根、莖、葉、穗和種子)、干旱脅迫(1 h、6 h)、熱脅迫(1 h、6 h)和干旱加熱脅迫(1 h、6 h)的轉錄組數據FPKM(fragments per kilobase of transcript per million mapped reads)值,作為表達分析數據。最后利用Morpheus(https://software.broadinstitute.org/morpheus/)在線軟件構建基因表達熱圖。采用RNeasy Plant Mini Kit(QIANGEN,德國)提取小麥開花后15天的根、莖、葉、穗子和種子的RNA,使用FastQuant RT Kit(With g DNase)(QIANGEN,德國)進行反轉錄cDNA第一條鏈合成,用于Real-time PCR 分析。Real-time PCR儀器型號為Roche LightCycler 480(Roche,瑞士),使用試劑為Light Cycler 480 CYBR Green Mix(Roche,瑞士),以Ta4045為內參基因。PCR程序設置為:95 ℃ 5 min; 95 ℃ 10 s, 60 ℃ 10 s,72 ℃ 20 s,共45個循環;95 ℃ 10 s,65 ℃ 1 min,40 ℃ 10 s。每個樣品重復3次。
根據擬南芥34個GRAS基因和水稻60個GRAS基因的蛋白序列,利用BLASTP和HMM比對搜索,在Ensembl Plants最新小麥基因組數據庫中鑒定出169個GRAS候選基因。進一步利用Pfam、SMART、HMMER結構域搜索檢驗GRAS候選基因是否含有完整結構域,發現其中的16個GRAS基因有不完整的結構域。例如在小麥GRAS候選基因(TRIAE_CS42_3B_TGACv1_223416_AA0781900)結構域片段僅含有67個氨基酸,候選基因(TRIAE_CS42_5BL_TGACv1_408118_AA1361700) 結構域只含有319個氨基酸,而其HMM模型顯示完整GRAS結構域有374個氨基酸組成,認為這些GRAS結構域嚴重缺失的基因不屬于GRAS基因[24],那些結構域不完整的候選基因可能是假基因。最后,在小麥基因組中鑒定出153個GRAS基因,并根據基因在染色體上的位置命名。
為了構建小麥GRAS基因家族的進化樹,分別利用擬南芥、水稻和小麥34、60、153個GRAS基因蛋白序列進行多序列比對,結果發現部分GRAS基因蛋白序列導致系統發育進化分析的可靠性降低,因此我們刪除了導致可靠性降低的GRAS基因,最終利用擬南芥(33個)、水稻(50個)和小麥(134個)GRAS基因進行了系統發育進化分析。結果(圖1)發現,根據進化樹拓撲結構可將GRAS蛋白分為12個亞家族,這些亞家族的命名參照前人的研究結果[25-26]進行。小麥GRAS基因的12個亞家族分別為:AtSHR、AtPAT1、AtSCR、AtSCL4/7、AtLAS、Os19、HAM、Os4、DLT、AtSCL13、DELLA和LISCL。在12個亞家族中均包含擬南芥、水稻和小麥的GRAS基因,暗示GRAS基因的分化發生在單子葉和雙子葉分化之前。同時在進化樹拓撲結構中發現,小麥GRAS基因在亞家族中分布不均勻,亞家族LISCL中包含43個小麥GRAS基因,而亞家族DLT、Os19和AtSCL4/7中分別含有1、3、3個小麥GRAS基因。為了研究小麥GRAS基因結構的多樣性和系統發生情況,僅對來自小麥的134個GRAS基因的蛋白序列構建系統發育進化樹,結果也分為12個亞家族(圖2)。在系統發育樹末端節點鑒定出45個同源基因對或簇,例如Ta2BSGRAS37的同源基因Ta2DSGRAS45,Ta4ALGRAS77的同源基因Ta4BSGRAS93和Ta4DS111。這些同源基因在小麥GRAS基因中占到了75.8%。隨后,通過比較小麥GRAS基因結構,發現高達74.5%(114/153)的小麥GRAS基因沒有內含子。此外,觀察發現,同一亞家族的小麥GRAS基因表現出相似的基因結構。但也有例外,如Ta3ALGRAS51和Ta3BLGRAS55、Ta4ALGRAS72和Ta4BSGRAS94、Ta4DLGRAS98和Ta5ALGRAS116等具有不同的基因結構,這可能是由于基因在進化過程中內含子的丟失或增加造成的。

小麥、擬南芥和水稻GRAS基因分別用黑色、紅色和藍色字體表示。
GRAS genes from wheat,Arabidopsisand rice are represented in black, red and blue fonts, respectively.
圖1 小麥、擬南芥和水稻GRAS基因家族的系統進化樹
Fig.1 Phylogenetic tree of GRAS genes in wheat,Arabidopsisand rice

圖2 小麥GRAS基因家族的系統進化和基因結構
蛋白序列一級結構理化性質分析顯示,153個GRAS基因編碼區長度為1 083~5 130 bp,編碼含有361~1 710個氨基酸殘基的蛋白質,分子量為39.9~192.9 kDa,等電點范圍為 4.73~ 9.33。不同亞家族間氨基酸數目和理化性質存在一定的差異,如AtPAT1亞家族平均氨基酸殘基數目最多(803個),AtSCL3亞家族的氨基酸殘基數目最少(442個)。除了少數幾個GARS基因氨基酸序列理論等電點在堿性范圍內,其余都在酸性范圍內,說明GRAS基因蛋白質分子富含酸性氨基酸。SOPMA預測蛋白質二級結構顯示,小麥153個GRAS基因的氨基酸序列均含有α-螺旋、隨機卷曲、擴展鏈和β-轉角,各GRAS基因編碼蛋白質二級結構中α-螺旋含量為31.1%~ 55.5%,隨機卷曲含量為27.4%~57.4%,擴展鏈含量為7.1%~20.7%,β-轉角含量為2.8%~ 9.9%。同時,亞細胞定位顯示67個小麥GRAS基因定位在細胞核中,33個定位在細胞質中,26個定位在葉綠體中,14個定位在線粒體中,12個定位在質膜中,1個定位在過氧化物酶體中。
根據定位結果(圖3),在小麥的A、B、D三個同源染色體組中,均含有51個GRAS基因,暗示小麥GRAS基因在小麥兩次自然雜交加倍過程中,同源染色體的保留和丟失在亞基因組間沒有明顯偏好性。GRAS基因在小麥A、B、D三個同源染色體組上分布是均勻的,而在不同染色體上分布不均勻,且與染色體長度無關。GRAS基因在1A、1B和1D,2A、2B和2D,3A、3B和3D,4A、4B和4D,5A、5B和5D,6A、6B和6D,7A、7B和7D的數目分別為9、6和8,8、9和8,6、5和5,16、18和16,7、8和7,2、2和3,3、3和4。其中,4A、4B和4D染色體上分布的GRAS基因最多(50個),在6A、6B和6D染色體上分布的GRAS基因最少(7個)。
利用NEWPLACE在線軟件分析小麥GRAS基因啟動子序列的順式作用元件,結果共鑒定到了56種267個順式作用元件,除了含有啟動子基礎作用元件CAAT-Box、GATA-Box、TATA-Box等之外,還含有多種與激素應答、組織特異性表達、脅迫誘導等相關的順式作用元件。其中,葉肉特異表達相關元件(CACTFTPPCA1)和細胞分裂素響應元件(ARR1AT)在所有的小麥GRAS基因的啟動子區域都檢測到,平均每個GRAS基因分別含有17.2和9.4個。小麥151個GRAS基因含有光照響應元件GATA-Box,暗示小麥GRAS基因表達可能受光調節。
分析發現小麥中含有13個串聯重復,例如Ta1ASGRAS7、Ta1ASGRAS8和Ta1ASGRAS9等基因簇存在串聯重復事件(圖3紅色字體為串聯重復基因)。每個串聯重復包含2~8個GRAS基因。其中4B染色體上有最大的串聯重復,包含8個GRAS基因。同時,在4D染色體上包含2個串聯重復。總之,小麥中有45個GRAS基因為串聯重復,表明它們的起源涉及串聯重復事件。通過分析Ensembl Plants中小麥GRAS基因的同源基因,發現138個基因具有同源基因,表明GRAS基因起源于片段復制。利用KaKs_Calculator2.0 軟件,將發生串聯重復和片段復制的GRAS基因的CDS區進行比對、YN法計算分析。結果發現,除了Ta6DSGRAS136和Ta6DSGRAS137串聯重復基因簇的Ka和Ks均為0之外,其余的12個串聯重復GRAS基因簇和所有發生片段復制的同源基因簇的Ka均小于Ks。其中12個串聯重復的平均Ka/Ks為0.188~ 0.535,片段復制的平均Ka/Ks為0.037~0.523。根據串聯重復和片段復制的GRAS基因在密碼子水平上的Ka/Ks值,可以推測,除Ta6DSGRAS136和Ta6DSGRAS137串聯重復基因簇外,其余的GRAS基因受負選擇作用。
利用Wheat Exp數據庫中小麥GRAS基因在種子、葉、根、穗和莖的RNA-seq數據進行分析,發現小麥GRAS基因在不同的組織或器官的表達模式有明顯的差異(圖4a)。其中17個GRAS基因在種子中具有較高的表達量,41個GRAS基因在葉中高表達,53個GRAS基因在根中高表達,29個GRAS基因在穗子中高表達,21個GRAS基因在莖中表達量高。這些結果表明,在葉和根中高表達的GRAS基因多于穗和莖中表達的GRAS基因。進一步分析發現,Ta2DSGRAS45和Ta2DSGRAS149在5個器官或組織中都是高表達;部分GRAS基因在某一組織或器官中明顯高表達,在其他4個器官或組織中低表達或無表達,例如Ta2ALGRAS25、Ta2ALGRAS26、Ta2BLGRAS32等在根中高表達,而在其他4個組織或器官中低表達,表明這些GRAS基因可能在小麥根部的形態建成中發揮重要作用。

圖3 小麥GRAS基因在染色體上的定位(紅色字體代表串聯基因簇)

a:熱圖表示小麥GRAS基因在不同組織中的表達;b:熱圖表示小麥GRAS基因在干旱及熱脅迫下的表達。D1和D6:干旱脅迫處理1 h和6 h;H1和H6:熱脅迫處理1 h和6 h;DH1和DH6:干旱加熱脅迫處理1 h和6 h。
a:Heatmap showing expression of wheat GRAS genes in different organs or tissues; b:Heatmap showing expression of wheat GRAS genes under drought and heat stress conditions. D1 and D6:Treatment for 1 h and 6 h under drought stress conditions; H1 and H6:Treatment for 1 h and 6 h under heat stress conditions; DH1 and DH6:Treatment for 1 h and 6 h under drought and heat stress conditions.
圖4 小麥GRAS基因在不同組織、干旱及熱脅迫下的表達
Fig.4 Expression profiles of wheat GRAS genes in different organs or tissues,
and under drought and heat stress conditions

圖5 根和種子發育相關的GRAS基因在不同組織或器官的相對表達量
同時,用RNA-seq數據分析小麥GRAS基因在熱和干旱脅迫下的表達情況。結果顯示(圖4b),和對照相比,Ta3DSGRAS62、Ta1BSGRAS13、Ta1BSGRAS14、Ta1BSGRAS15、Ta5BLGRAS119、Ta5BLGRAS120和Ta5DLGR AS126在干旱處理1 h和6 h表達量沒有發生明顯變化,處于較低水平,當熱處理1 h和6 h時表達量有所提高,當干旱加熱處理6 h時,表現出明顯的上調表達。Ta4BSGRAS78、Ta6ASGRAS132、Ta6BSGRAS134、Ta6DSGRAS136、Ta6DSGRAS137、Ta7ASGRAS140在干旱6 h時表達量上調,表明它們在干旱脅迫響應過程中可能發揮重要作用。此外,Ta4ALGRAS77、Ta4BLGRAS80、Ta2DSGRAS45、Ta2DSGRAS149、Ta4DLGRAS100與對照相比,干旱和熱脅迫處理前后表達量均未發生明顯變化,表明這些基因的表達可能不受干旱和熱脅迫的影響。
同時,用Real-time PCR技術對與根和種子發育相關的6個GRAS基因進行了定量表達分析實驗。結果(圖5)表明,Ta1ALGRAS2、Ta1BLGRAS12、Ta1DLGRAS19、Ta2BLGRAS32和Ta5BLGRAS152在根中的表達量均高于莖、葉、穗和種子中的表達量,其結果和Wheat Exp數據庫中相應小麥GRAS基因在種子、葉、根、穗和莖中的表達一致。Ta4ALGRAS77在種子中的表達量高于根、莖、葉和穗中的表達量,其結果也驗證了該基因在Wheat Exp數據庫中的表達情況。
本研究首次對小麥的GRAS基因家族進行了綜合分析,根據基因組注釋,在小麥中發現了153個GRAS基因,多于擬南芥(34個)和水稻(60個)GRAS基因家族成員的數目。這主要可能是因為小麥是異源六倍體,在A、B、D染色體組通常存在同源基因,同時,小麥GRAS基因家族發生了擴張,最終導致小麥GRAS基因家族比擬南芥和水稻龐大。串聯重復和片段復制是植物基因家族擴張的主要方式[22],這些基因通過串聯重復和片段復制保留在植物基因組中,在對環境刺激的適應性反應中起重要作用[27-28]。早期主要是在擬南芥和水稻中對GRAS基因家族的擴張方式進行了分析[25],本研究結果也發現串聯重復和片段復制是小麥GRAS基因家族主要的擴張方式。
無內含子或單個外顯子基因是原核生物基因的典型特征,然而它們在真核生物基因組中也占很大的比例,例如無內含子基因在擬南芥、水稻和扁豆基因中分別占21.7%、19.9%和18.9%[29]。真核生物基因組中的無內含子基因可能來自古老原核生物基因水平轉移或已存在無內含子基因的復制[30]。植物GRAS基因家族中的無內含子成員可能起源于原核生物,然后在植物中廣泛復制。基因啟動子區域的順式作用元件通過響應不同外界環境信號來調節基因轉錄過程,進而影響植物的生長發育[31]。本研究發現,小麥GRAS基因啟動子區域有56種267個順式作用元件,主要包括葉肉特異表達相關元件CACTFTPPCA1、光響應元件GATABOX和干旱脅迫響應元件MYB2CONSENSUSAT等,表明小麥GRAS基因在調節小麥生長發育、參與光及逆境脅迫等環境調節中發揮重要作用。
Peng等[32]對擬南芥和水稻等的研究表明,DELLA亞家族的AtGAI基因參與擬南芥中赤霉素信號轉導。本研究中的DELLA亞家族基因Ta4DSGRAS150和Ta4BSGRAS89在小麥的莖中高表達,而葉、穗、根和種子中表達量相對較低,暗示這兩個基因在小麥莖的伸長中發揮關鍵作用。Ls是AtLAS亞家族的成員,在番茄的腋生分生組織中發揮關鍵作用[8]。本研究中,Ta6ASGRAS132、Ta6DSGRAS136、Ta6DSGRAS137、Ta7ALGRAS138和Ta7BLGRAS141屬于AtLAS亞家族成員,它們在根中的表達量遠遠高于在其他組織或器官中的表達量,暗示這些基因在小麥分蘗上具有重要作用,但是具體的功能還需進一步的實驗驗證。