帥敏敏,張啟香,黃有軍
(浙江農林大學 林業與生物技術學院,浙江 杭州 311300)
CONSTANS(CO)基因是植物響應光周期調控的重要基因,位于生物鐘的輸出途徑上,能正調控下游開花基因SOC1和FT,進而調控植物開花。PUTTERILL等[1]首先在擬南芥Arabidopsis thaliana中分離出CO基因,反轉錄PCR(RT-PCR)檢測到CO基因在根和葉中表達。ONOUCHI等[2]對花椰菜Brassica oler-acea 花葉病毒 35S(Cauliflower mosaic virus 35S,CaMV 35S)融合 CO(35S:CO)轉化擬南芥研究發現, CO蛋白會誘導早花和喪失光周期敏感性。進一步研究發現[3],CO在染色體上的位置介于生物節律鐘基因和下游開花基因之間,可將光信號轉變為開花信號。對擬南芥CO基因過表達研究[1]發現,CO基因過表達的植株比野生型提前開花,表明CO蛋白的活性決定開花時間;但這種調控在不同成員間并不一致,過表達COL1和COL2對植株開花時間沒有影響[4],過表達COL9則導致開花延遲,但COL9缺失突變體在長日照下又表現為早花,說明COL9不但抑制CO基因表達調控開花時間,同時下調FT的表達水平從而延遲成花轉變[5]。COL3在擬南芥光形態建成時起正調控作用,促進側根生長和花色素苷積累,并調節長日照敏感植物的花芽分化[6]。從形態來看,CO基因常以多拷貝的形式存在,如擬南芥的CO家族有17個成員[7],水稻Oryza sativa中有16個成員[8],甘藍型油菜Brassica napus中也克隆到4個CO同源基因[9]。但各CO家族成員的功能存在明顯差異。葡萄Vitis vinifera的VvCOL1主要在芽休眠過程中起作用,表明該基因參與光周期,控制芽休眠的誘導和維持[10]。擬南芥中過表達衣藻Chlamydomonas reinhardtii的CrCO會表現出早花表型,結合衣藻的研究發現:CrCO對淀粉的合成和細胞分裂有調節功能,推測CO在高等植物中可能仍保持調節淀粉合成[11]。大麥Hordeum vulgare的HvCO1和Hd1基因與CO親緣關系最近,可以通過激活HvFT1誘導大麥開花[8],但在轉基因擬南芥中則丟失該功能[12]。擬南芥co突變體過表達牽牛花Ipomoea nil的PnCO基因可促進植物開花[13]。黑麥草Lolium perenne的LpCO可以互補擬南芥co突變體的晚花表型[14],甜菜Beta vulgaris的BvCO1可以修復擬南芥co-2突變體的晚花表型[15]。大豆Glycine max的GmCO9影響根的發育,與種子的成熟密切相關[16]。毛果楊Populus trichocarpa的PtCO促使植株提前開花,也可調控植株的生長和芽的分化[17]。本研究以14個已被測序的物種為試驗材料,通過生物信息學手段,從外顯子-內含子結構、基因重復、基因差異表達分析等3個方面開展CO家族研究,為探討不同家族成員的潛在功能提供依據。
從植物基因組數據Phytozome(http://www.phytozome.net)中下載其中13個物種的全基因組序列、蛋白質及對應編碼序列(coding sequence,CDS),分別為藻類植物1種,苔蘚植物1種,蕨類植物1種,被子植物9種(長日照植物、短日照植物和日中性植物各3種),以無油樟Amborella trichopoda作為被子植物的對照。此外裸子植物1種(挪威云杉Picea abies),其相應序列來源于http://congenie.org。
數據查找步驟:①從PFAM蛋白質數據庫獲得CO結構域的隱馬爾可夫模型(PF06203和PF00643)并作為查詢序列,得到的數據儲存于Windows平臺環境下構建的各個物種全基因組氨基酸序列的本地數據庫中。②利用HMMER軟件包的hmmsearch程序,默認參數條件下在本地數據庫進行BLASTP搜索,篩選出符合E-value≤0.01的蛋白質序列作為CO候選同源蛋白。③將備選CO基因的CDS序列通過BLASTN的比對,在全基因組核酸序列中搜索,獲得CO在染色體上準確定位信息。④在PFAM蛋白質數據庫和SMART蛋白質數據庫下對搜索得到的所有同源候選基因蛋白質序列進行鑒定,剔除不含CO(PF06203和PF00643)結構域的氨基酸序列。以此完成各個物種CO家族所有成員的鑒定。
利用MUSCLE的默認參數進行蛋白質多序列比對分析;使用MEGA 7.0對完成比對的蛋白質序列構建系統進化樹;構建方法選用鄰近法(NJ);距離模型采用泊松矯正;空位缺失數據的處理采用兩兩刪除;系統發育統計的可靠性檢測采用bootstrap分析,使用1 000次重復。
利用在線軟件GSDS(Gene Structure Display Server)比較CO家族成員的CDS序列和基因序列,分析CO家族基因的外顯子-內含子組成和分布,結合系統發育分析,探究CO在基因結構上的進化規律。
利用植物基因組PGDD數據庫(http://chibba.agtec.uga.edu/duplication/)搜索染色體上的共線性片段,分析含有的CO基因的共線性區段,研究CO家族不同成員的相互聯系和進化過程。
搜索14個物種的國際核酸序列數據庫(NCBI,https://www.ncbi.nlm.nih.gov/),發現水稻關于繁殖發育的轉錄組數據最為完整。利用GEO數據庫(GSE56463)下載水稻8個不同時期不同部位(花芽、花、開花前的旗葉、開花后的旗葉、開花前的根、開花后的根、未成熟種子、成熟種子)的植物組織轉錄組數據(RNA-seq)。轉錄組數據全部采用FPKM標準化后的值。以水稻為例,從轉錄水平重點分析CO家族不同成員在花發育和種子形成過程中的表達變化,從而探討它們可能的生物學功能。
搜索14個物種蛋白質數據庫中的CO家族成員,共鑒定出159個含有CO結構域的蛋白質序列。結果表明:CO常以多拷貝的形式存在于植物中,與以往的研究一致[8]。拷貝數最多的物種是大豆,鑒定出25個家族成員。其次在胡蘿卜Daucus carota,小立碗蘚Physcomitrella patens,菜豆Phaseolus vulgaris,番茄Solanum lycopersicum,黃瓜Cucumis sativus和蓖麻Ricinus communis中,分別鑒定到18,15,13,13,12和10個拷貝。在小麥,無油樟和卷柏Selaginella moellendorffii中,也發現了5,5和4個CO基因家族成員。挪威云杉和衣藻中拷貝數最少,各存在3個成員。
使用鄰近法對得到的14個物種159個CO蛋白序列構建系統發育進化樹。由生成的無根系統進化樹(圖1)可知,植物CO家族在進化中具有多樣性,大部分同一譜系的物種基因都能聚類在同一進化枝上。根據結構域特征,選取支持度高且結構穩定的3個亞家族(分別命名為B1,B2和B3)作為后續研究CO基因的基礎框架。其中B1亞家族含2個B-box結構域和1個CCT結構域;B2亞家族含1個B-box結構域,1個CCT結構域和1個鋅指結構;B3亞家族含1個B-box結構域和1個CCT結構域。

圖1 CO家族成員的系統發育樹Figure 1 Phylogenetic tree of CO family members
CO家族成員的預測結構(圖2)顯示,多數物種的CO基因中存在2~4個外顯子,同一亞家族內基因的外顯子-內含子結構和長度高度相似,說明這些物種的CO基因家族成員之間的親緣關系也較近,同時也證實了CO基因家族系統進化樹的可信度。具體而言,B1亞家族中的大多數基因含2個外顯子,1個內含子;B2亞家族中則表現為每個CO基因含4個外顯子和3個內含子,且排列相位表現出“0,0,2”規律;B3亞家族相對較為復雜,多數的CO基因含有2個外顯子,部分含有4個外顯子,但也有例外,如CrCO3基因,不僅長度較大,還發現存在14個外顯子和13個內含子,體現在系統進化樹中則出現CrCO3分化為獨立的進化枝。研究還發現,CO基因包含大量的相位為0的內含子,表明外顯子改組可能在CO基因的進化中起著一定的作用,而外顯子的插入和內含子的刪除可以認為是形成多元化的CO基因以及功能差異的CO蛋白的原因之一。
對擬南芥、菜豆、蓖麻3種植物CO家族的基因復制事件的研究可以用來檢測CO基因家族中遺傳差異間的聯系和相應的擴張模式,CO家族的成員可作為錨定基因研究所在染色體區段的分子進化歷史。染色體定位分析(圖3,圖4)表明,絕大多數的CO基因在基因組中是隨機分布的,僅在少數位點形成串聯的基因簇,因此大規模的基因復制事件可能在CO基因家族的進化過程中扮演著重要的角色。共線性分析發現,擬南芥、菜豆和蓖麻的染色體區域間存在強烈且保守的共線性。由圖3和圖4可知:擬南芥CO家族所在的共線性區域最多有22對基因;菜豆和蓖麻內部也存在廣泛的共線性情況,例如Pv-CO5-PvCO7,RcCO5-RcCO10;此外,擬南芥與菜豆和蓖麻之間的共線性情況也非常普遍,例如At-COL3-RcCO1,AtCOL3-PvCO1,PvCO7-RcCO4。根據這些基因的共線性分析結果可推測,CO家族中重復基因的擴張與基因組重復有著密切的聯系。

圖2 B1,B2和B3亞家族CO基因外顯子和內含子分布Figure 2 Exon-intron structures of CO genes in B1,B2 and B3 subfamily

圖3 物種內CO家族成員的共線性分析Figure 3 Synteny analysis of CO family genes in species

圖4 物種之間CO家族基因共線性分析Figure 4 Synteny analysis of CO family genes among species
基因表達的差異性反映了基因的功能分化。水稻轉錄組表達譜顯示(圖 5),CO基因在花芽、花、根、旗葉和種子中都有表達,以OsCO3,OsCO6,OsCO7,OsCO8,OsCO9,OsCO11,OsCO12和Os-CO16這8個基因的表達量較高,尤其是在開花后的根和開花前后的旗葉中的表達量更為明顯。具體來看,OsCO3和OsCO6基因在花芽到花的轉變過程、開花前后的根和旗葉中的表達量升高,在根中的表達量升高,在乳粒(未成熟的種子)到成熟種子的過程中表達量下降,說明OsCO3和OsCO6基因負向調控花芽到花的轉變過程。OsCO8在花芽到花的轉變過程、開花前后的根、開花前后的旗葉和乳粒到成熟種子的過程中表達量都呈現上升趨勢,說明OsCO8對花的發育以及果實成熟有重要的調控作用。OsCO12在花芽到花的轉變過程、開花前后的根和乳粒到成熟種子的過程中表達量上升,在開花前后的旗葉中的表達量下降,說明OsCO12對水稻花的發育起著最為關鍵的調控作用。OsCO7,OsCO9和OsCO11基因在花芽到花的轉變過程、開花前后的旗葉和乳粒到成熟種子的過程中表達量下降,在開花前后的根中的表達量明顯上升,說明OsCO7,OsCO9和OsCO11基因可以正向調控花芽到花的轉變過程。OsCO16在花芽到花的轉變過程中表達量下降,在開花前后的根和旗葉、乳粒到成熟種子的過程中表達量上升,說明OsCO16對花的發育和果實成熟有重要的調控作用。水稻中不同CO基因在不同時期不同組織器官中的表達量不同,表明同一家族不同基因之間存在功能上的差異。

圖5 水稻CO基因的表達譜Figure 5 Expression profile of CO gene in rice
CO基因是植物光周期途徑中調控開花時間的重要基因。光周期途徑中,PHYA,CRY1和CRY2基因相互作用,影響GI等生物節律鐘基因,促進CO基因的表達;CO編碼轉錄因子作用于FT[18],使FT從維管束組織轉移到莖頂端分生組織,致使花器官發育[19]。通過對14個物種的CO基因的分析,本研究發現:CO基因常以多拷貝的形式存在于植物中,與已有研究結果一致[20];親緣關系較近的物種,其CO基因的相似性較高;CO基因在裸子植物和被子植物、雙子葉植物與單子葉植物、不同科和不同屬植物之間都存在明顯分化,表明CO基因在植物進化中既相對保守又不斷進化,其進化過程與整個物種進化過程相對同步,說明CO基因可能對植物進化起到了重要作用。研究發現:單子葉植物發生過2次基因組重復[21],一半的水稻基因組基因來源于基因組重復[22]。對水稻的基因表達分析發現:CO基因在花、葉、根和莖中都有表達,OsCO3的表達量在花芽到花的轉變過程中上升,推測OsCO3負調控花芽到花的轉變過程,與KIM等[23]發現的OsCO3通過負調控Hd3a和FT-like(FTL)的表達延遲短日照下水稻開花的結果一致;OsCO7基因在花芽到花的轉變過程中表達量下降,說明OsCO7正調控Hd3a的表達,促進短日照下水稻的開花,與XUE等[24]研究結果一致。在短日照條件下,水稻的Hd1抑制Hd3a的轉錄從而控制開花轉型[25],這一結果和擬南芥CO基因在短日照條件下促進FT的表達控制開花轉型相反,說明CO基因對于花芽到花的發育起到重要調控作用,進一步證實了水稻不同CO基因在功能上存在差異。本研究結果有助于更加深入地了解CO基因家族成員的潛在功能,為CO基因在光周期途徑中調控成花發育過程提供理論依據。