鐘雅珠,馬伯軍,范海闊,陳析豐,弓淑芳,劉 蕊,竇雅靜,孫熹微,肖 勇
(1 浙江師范大學,浙江金華,321000;2 海南省熱帶油料生物學重點實驗室/中國熱帶農業科學院椰子研究所,海南文昌,571339)
Squamosa promoter binding protein like(SPL)基因又稱為Squamosa promoter binding protein (SBP)-box proteins,是植物特有的一類轉錄因子,是植物生長發育過程中重要的調節基因。它們的翻譯產物能夠特異地與DNA分子結合,并通過激活或抑制下游靶基因的轉錄對基因表達進行調控。1996年Klein等最早在金魚草中發現并分離出該基因,即AmSBP1和AmSBP2。因這兩個基因能夠能識別花發育基因SQUAMOSA的啟動子結合位點,被命名為Squamosa promoter binding protein[1]。SPL基因家族蛋白含有1個高度保守的SBP-box結構域,是SPL蛋白和DNA分子特異性結合所必需的。它由大約76個氨基酸組成,一般包括兩個鋅指結構域(Zinc-finger domain)[2],即Cys-Cys-His-Cys(C2HC)、Cys-Cys-Cys-His(C3H),以及1個位于C末端的保守核定位信號(Nuclear localization signal,NLS)[3]。
SPL基因家族是多基因家族,在植物的生長發育過程中發揮重要的調控作用。目前已在很多物種中被鑒定和報道。擬南芥共鑒定出17個SPL基因,Cardon等在1997年發現AtSPL基因參與開花時間的調控,擬南芥中存在Squamosa基因的同源基因AP1,AtSPL3能識別AP1的啟動子序列,AtSPL3過量表達會導致開花提前[4]。水稻共鑒定出19個SPL基因,其主要功能是參與花發育的調控。將近一半的OsSPL基因能夠在愈傷組織中表達,表明這些基因可能參與植物的形態構成過程[5]。OsSPL14 和OsSPL16有減少分蘗,提高產量的作用[6-7]。另外,miRNA與SPL基因之間也有聯系,miR156過量表達可以影響部分SPL成員的表達水平[8]。白樺中共鑒定出18個SPL基因,BpSPL基因可能是頂芽和雄花序生長發育的調節基因[9]。葡萄中共鑒定出19個SPL基因,VvSPL家族成員參與特定時期果實生長發育與成熟的調控[10]。高粱中共鑒定出18個SPL基因,SbSPL與產量、籽粒發育、植株葉舌發育相關[11]。小麥中共鑒定出19個SPL基因,其中TaSPL3過量表達可以使擬南芥提前開花[12]。獼猴桃中共鑒定出25個SPL基因,部分AcSPL基因可以提高獼猴桃對細菌性潰瘍病的抗性[13]。陸地棉中共鑒定出24個SPL基因,其中有18個GhSPL基因是miR156的靶基因,GhSPL3和GhSPL18可能與葉片、側枝和花發育相關,過量表達這兩個基因能夠提早開花[14]等。
世界各國收集的椰子CocosnuciferaL.種質共1 316份[15]。全世界有90多個熱帶國家和地區種植椰子,種植面積已超1 200萬hm2,有8 000多萬人口以椰業為生[16],椰子是一種非常重要的熱帶油料作物和果樹。椰子為多年生木本作物,從定植到開花需要相當長的周期。SPL基因家族在植物花期調控、產量、抗逆性等發面發揮重要作用,但目前鮮見椰子SPL基因家族的相關報道。分離鑒定椰子SPL基因,有助于種質改良,從而降低椰子前期投入成本。本研究利用生物信息學,鑒定出椰子CnSPL基因家族,分析其序列基礎信息、內含子與外顯子結構、保守序列、保守基序、系統發育樹及其在椰子各組織的表達量,為進一步探討椰子CnSPL基因家族在其生長發育過程中發揮的生物學功能提供參考。
從(GIGA)nDB(http://gigadb.org/dataset/100347)下載椰子轉錄組序列信息,從RGAP數據庫(http://rice.plantbiology.msu.edu/index.shtml)下載水稻的Squamosa promoter binding protein (SBP)-box proteins基因家族的蛋白序列信息。利用SSH Secure Shell Client軟件將水稻OsSPL基因家族蛋白序列與椰子轉錄組序列信息進行tblastn比對,e值為1e-10,得到椰子CnSPL基因家族的CDs序列信息。將所得序列信息進一步處理,用MEGA軟件將獲得CDs序列翻譯成為蛋白序列,利用HMMER(https://www.ebi.ac.uk/Tools/hmmer/)的蛋白結構域預測功能,去除預測CnSPL基因家族中不含SBP-box結構域的冗余序列,最終鑒定出椰子CnSPL基因家族成員。
通過ExPASy-ProtParam(https://web.expasy.org/protparam/)在線計算椰子CnSPL基因家族蛋白質的氨基酸數、分子量和理論等電點,并通過WoLF PSORT網站(https://wolfpsort.hgc.jp/)在線對CnSPL基因家族成員進行亞細胞定位的預測。
通過GeneDoc軟件對椰子24個CnSPL基因家族成員的蛋白序列進行多序列比對分析,隨后通過Weblogo3(http://weblogo.threeplusone.com/)網站根據所得椰子CnSPL家族成員的保守結構域繪制對應的logo,通過MEME(http://meme-suite.org/tools/meme)在線對比分析椰子CnSPL家族蛋白的保守基序。
在(GIGA)nDB(http://gigadb.org/dataset/100347)下載CoConut.gene.gff文件以獲得椰子CnSPL基因家族成員內含子與外顯子的相關數據,并通過Gene Structure Display Server(GSDS,http://gsds.cbi.pku.edu.cn/)在線預測椰子CnSPL基因家族成員的內含子與外顯子的結構組成,并繪制其組成圖。在MEGA軟件中使用鄰接法(Neighbor-Joining)對椰子CnSPL基因家族蛋白質成員進行系統發育進化樹的構建,并進行聚類分析。
從NCBI上下載椰子不同組織的轉錄組數據,包括葉片、胚乳、胚、胚愈傷組織。計算CnSPL家族成員在各組織的Reads Per Kilobase per Million mapped reads(RPKM),并將所得數據錄入Mev軟件進行熱圖的繪制。RPKM=total exon reads/(mapped reads×exon length)。其中,total exon reads表示某樣品映射在基因外顯子讀取的所有reads;mapped reads表示這個樣品的所有reads總和,單位為millions;exon length表示基因外顯子的長度,單位為kb。
通過SSH Secure Shell Client軟件將釋放的椰子轉錄組數據跟水稻OsSPL基因家族的蛋白序列比對,得到26個椰子CnSPL基因的CDs序列,將其翻譯成為蛋白序列后利用HMMER的在線預測結構域功能,預測結果中有兩個CnSPL基因不含SBP-box結構域,去除之后最終鑒定出椰子CnSPL基因家族成員24個,并分別命名為CnSPL1~CnSPL24(見表1)。

表1 椰子CnSPL基因家族的理化性質
通過ExPASy-ProtParam網站在線計算椰子這24個CnSPL基因家族蛋白質的氨基酸數、分子量和理論等電點,并通過WoLF PSORT預測CnSPL基因家族成員的亞細胞定位。結果看出,24個CnSPL基因的分子量19 289.3~282 837.07。氨基酸數172~2 541個,氨基酸長度差異較大,其中CnSPL20氨基酸數最少,只有172個,而CnSPL4氨基酸數最多,為2 541個。其理論等電點在4.71~9.91之間,其中CnSPL2、CnSPL3、CnSPL4、CnSPL8、CnSPL17和CnSPL24的PI小于7,為酸性蛋白質;而其余18個CnSPL基因的PI均大于7,為堿性蛋白質。說明24條CnSPL基因序列存在較大差異,可能導致CnSPL家族基因在椰子不同生物學過程中發揮不同功能。亞細胞定位預測表明CnSPL基因家族均主要存在于細胞核中。
分析處理CoConut.gene.gff中椰子CnSPL基因家族成員內含子與外顯子的相關數據,并通過GSDS在線繪制椰子CnSPL基因家族成員的內含子與外顯子的結構組成圖(見圖1)。24個CnSPL家族成員外顯子數大多為2~12個,CnSPL4比較特殊,含有32個外顯子。隨后使用MEGA軟件對24個椰子CnSPL基因家族和19個水稻OsSPL基因家族蛋白質成員進行系統發育進化樹構建,并進行聚類分析(見圖1和圖2)。我們將椰子和水稻的SPL基因家族分成6個亞族(G1~G6),大部分處在相同亞族間的椰子CnSPL基因具有相同的外顯子數目。其中G1包括水稻的OsSPL7、OsSPL14、OsSPL17和椰子的CnSPL12、CnSPL14、CnSPL15、CnSPL16、CnSPL18、CnSPL23,除CnSPL23有12個外顯子外,其余亞族成員含有3個外顯子。G2包括水稻的OsSPL3、OsSPL4、OsSPL11、OsSPL12和椰子的CnSPL10、CnSPL17、CnSPL19,除CnSPL17有11個外顯子外,其余亞族成員含有4個外顯子。G3包括水稻的OsSPL5、OsSPL8、OsSPL10、OsSPL13和椰子的CnSPL5、CnSPL7、CnSPL9、CnSPL11、CnSPL13、CnSPL20,含有2~3個外顯子。G4包括水稻的OsSPL2、OsSPL16、OsSPL18、OsSPL19和椰子的CnSPL6、CnSPL8、CnSPL22,除CnSPL8有5個外顯子外,其余亞族成員含有3個外顯子。G5包括水稻的OsSPL1、OsSPL6、OsSPL15和椰子的CnSPL1、CnSPL2、CnSPL3、CnSPL4,除CnSPL4有32個外顯子外,其余亞族成員含有10~11個外顯子。G6包括水稻的OsSPL9和椰子的CnSPL21、CnSPL24,含有2個外顯子。

圖1 椰子CnSPL基因家族結構及聚類分析

注:CnSPL為椰子基因, OsSPL為水稻基因。圖2 椰子和水稻SPL基因家族的系統發育樹
通過GeneDoc軟件對椰子24個CnSPL基因家族蛋白序列進行多序列比對分析。結果看出,除了CnSPL20、CnSPL22、CnSPL24這3個基因,其中CnSPL20缺少C2HC鋅指結構,CnSPL22缺少C3H鋅指結構,CnSPL24缺少C2HC鋅指結構和C末端的核定位信號,大部分的CnSPL家族蛋白都包含有長度大約為76個氨基酸的SBP-box結構域(見圖3a)。隨后通過Weblogo3網站在線繪制所得椰子CnSPL家族成員的保守結構域的對應logo,包含兩個鋅指結構C3H、C2HC和1個核定位信號NLS(見圖3b)。通過MEME在線對比分析椰子CnSPL家族蛋白的保守基序,發現CnSPL家族的10個保守基序,其中最為保守的基序是motif1和motif2,分別是SBP-box的鋅指結構和核定位信號。另外,相同亞族間的CnSPL基因擁有相似的基序(見圖4)。

注:a.椰子CnSPL家族成員的多序列比對,標注出SBP-box的保守結構域,即兩個鋅指結構C3H、C2HC和1個核定位信號NLS;b.椰子CnSPL家族保守結構域對應的logo。圖3 椰子CnSPL家族成員的保守序列分析

注:a.CnSPL家族不同亞族間蛋白的保守基序分析;b. a所預測保守基序相應的logo。圖4 椰子CnSPL家族蛋白的保守基序分析
從NCBI上下載椰子葉片、胚乳、胚、胚愈傷組織的轉錄組數據,通過計算CnSPL家族成員在各組織的RPKM,得到CnSPL家族成員在各組織的表達量信息,并將所得數據錄入Mev軟件繪制熱圖(見圖5)。

圖5 椰子CnSPL家族24個基因在椰子葉片、胚乳、胚和胚愈傷組織中的表達量分析
不同椰子CnSPL家族基因在不同組織中的表達水平不同,但在胚愈傷組織中均有較高表達,說明CnSPL家族基因很可能都參與了椰子的早期分化過程。其中CnSPL1、CnSPL2、CnSPL3、CnSPL4、CnSPL7在各個組織中都有高水平表達,CnSPL5、CnSPL7、CnSPL11、CnSPL13、CnSPL22在各個組織中都是低表達水平,這幾個基因可能是組成型表達基因;而在本研究聚類分析中,CnSPL1、CnSPL2、CnSPL3、CnSPL4聚為一個亞族G5,CnSPL5、CnSPL7、CnSPL11、CnSPL13聚在同一個亞族G3中。CnSPL9和CnSPL20在葉片的表達水平最高,推測這兩個基因在椰子葉片生長發育過程起作用。
本研究中,我們成功鑒定出24個椰子CnSPL基因家族成員并對其進行生物學分析。24個椰子CnSPL家族成員的理論等電點在4.71~9.91之間,其中18個CnSPL基因的PI均大于7,為堿性蛋白質。根據有關SPL家族的研究,其大部分成員的理論等電點大于7[9,12-14],本試驗結果與之相符。
椰子CnSPL家族基因同樣具有高度保守的SBP-box結構域。很多研究表明,水稻OsSPL基因家族可被分成6個亞族[5,11-12],在本研究中,我們同樣將24個椰子CnSPL基因家族分成6個亞族(G1~G6)。
SPL家族基因可能與植物的抗性相關,Stone等研究表明,在擬南芥中AtSPL14能夠抵抗由真菌伏馬毒素B1所導致的程序性死亡[17]。在楊澤峰對水稻SPL基因家族的研究中,水稻OsSPL15基因與AtSPL14處于系統發育樹的同一分枝中[5]。而在本研究中,椰子CnSPL3、CnSPL4與水稻OsSPL15基因處于系統發育樹的同一分枝中,因此推測椰子CnSPL3、CnSPL4基因和水稻OsSPL15基因跟擬南芥AtSPL14基因一樣會與真菌伏馬毒素B1導致的程序性死亡的抗性相關。
SPL家族基因可能與植物的開花時間調控相關,在花發育和成花過程中發揮重要的作用。很多研究表明,擬南芥SPL基因家族的生物學功能跟花期相關miRNA的表達有關。擬南芥SPL家族成員的多條基因上具有miR156的識別位點,miR156可以調控它們的表達[18-20]。17個AtSPL基因中有10個AtSPL基因(AtSPL2、AtSPL3、AtSPL4、AtSPL5、AtSPL6、AtSPL9、AtSPL10、AtSPL11、AtSPL13、AtSPL15)是miR156的靶基因[3,21-22]。另有研究表明,miR156 可以通過AtSPL9和AtSPL10來調節miR172的表達[23-24]。在系統發育樹中,擬南芥AtSPL2、AtSPL3、AtSPL4、AtSPL5、AtSPL6、AtSPL9、AtSPL10、AtSPL11、AtSPL13、AtSPL15跟水稻OsSPL2、OsSPL3、OsSPL12、OsSPL14、OsSPL16、OsSPL17、OsSPL18、OsSPL19這8個基因處于同一分枝中[5]。在本研究中,水稻這些基因跟椰子CnSPL6、CnSPL8、CnSPL10、CnSPL17、CnSPL19、CnSPL22、CnSPL23這7個基因處于同一分枝中,因此推測椰子這7個SPL基因、水稻這8個SPL基因跟擬南芥的10個SPL基因一樣與miR156的表達相關。水稻OsSPL14、OsSPL17這兩個基因跟擬南芥AtSPL9、AtSPL10在系統發育樹中處于同一分枝[5],椰子CnSPL23跟水稻OsSPL14、OsSPL17處于同一分枝,因此推測CnSPL23、OsSPL14、OsSPL17跟擬南芥AtSPL9、AtSPL10一樣與miR156對miR172 的表達調節相關。
本研究采用2008年Ali Mortazavi等提出的以RPKM來估計基因表達量的方法,獲得24個椰子CnSPL基因的表達量信息,較RNA-seq方法更為準確合理[25]。相同亞族間的CnSPL基因有相似的表達模式,G5亞族的CnSPL1、CnSPL2、CnSPL3和CnSPL4基因在各個組織中都呈現高水平表達,而G3亞族中CnSPL5、CnSPL7、CnSPL11和CnSPL13基因在各組織中都呈低水平表達。椰子CnSPL家族基因在不同組織中表達水平不同,但在胚愈傷組織中均有較高表達,說明CnSPL家族基因很可能都參與了椰子的早期分化過程。
本研究利用生物信息學,鑒定出椰子CnSPL基因家族,分析其序列基礎信息、內含子與外顯子結構、保守序列、保守基序、系統發育樹及其在椰子各組織表達量,為進一步探討椰子CnSPL基因家族在植物生長發育過程中所發揮的生物學功能提供參考。