鞏克 王希胤



摘? ? 要:CPP基因家族是一個(gè)轉(zhuǎn)錄因子家族,具有多種生物學(xué)功能。通過(guò)利用比較基因組學(xué)的方法,對(duì)芹菜、香菜和胡蘿卜3個(gè)傘形科的物種進(jìn)行分析,并將結(jié)果與萵苣、葡萄和擬南芥的CPP基因家族進(jìn)行比較。結(jié)果顯示,在3個(gè)傘形科物種中共鑒定了26個(gè)基因,其中芹菜、香菜和胡蘿卜中分別有8個(gè)、12個(gè)和6個(gè);香菜中的同源基因數(shù)量遠(yuǎn)大于芹菜和胡蘿卜;全基因復(fù)制在CPP基因家族的擴(kuò)張中發(fā)揮了重要的作用。同時(shí),通過(guò)RNA-seq分析了不同組織中CPP基因的表達(dá),將為傘形科中CPP和其他基因家族的比較和功能分析提供參考。
關(guān)鍵詞:傘形科;基因家族;CPP-like
文章編號(hào): 1005-2690(2021)16-0011-03? ? ? ?中國(guó)圖書分類號(hào): Q943.2? ? ? ?文獻(xiàn)標(biāo)志碼: B
芹菜、香菜、胡蘿卜是傘形科的3個(gè)代表性物種,生長(zhǎng)在世界各地,以其香味和藥用價(jià)值而聞名[1]。同時(shí),這3種作物也具有很高的經(jīng)濟(jì)價(jià)值。
CPP轉(zhuǎn)錄因子在基因家族中是一個(gè)小型的轉(zhuǎn)錄因子家族。其成員典型特征是存在一個(gè)或兩個(gè)類似的富含Cys的結(jié)構(gòu)域,被稱為CXC結(jié)構(gòu)。從變形蟲到植物,再到哺乳動(dòng)物,CXC結(jié)構(gòu)域表現(xiàn)出高度的保守性,CXC結(jié)構(gòu)在不同的物種中表現(xiàn)出高度的一致性[2]。CPP-like基因在生殖組織的發(fā)育和控制植物細(xì)胞的分裂中發(fā)揮著重要作用。
目前,基于多個(gè)物種基因組數(shù)據(jù)的公布,CPP轉(zhuǎn)錄因子家族已經(jīng)在擬南芥、水稻、茶樹、陸地棉和大麥等多種植物中得到鑒定和分析[3-6],但對(duì)于傘形科物種的CPP基因家族的全面分析尚未有報(bào)道。
對(duì)傘形科的3個(gè)代表性物種的CPP基因家族進(jìn)行鑒定和分析,以期闡明CPP家族進(jìn)化規(guī)律,并探索芹菜和香菜不同組織中的基因表達(dá)模式,研究結(jié)果為進(jìn)一步挖掘傘形科CPP轉(zhuǎn)錄因子家族的功能奠定基礎(chǔ)。
1? ?結(jié)果與分析
1.1? ?基因組序列的獲取與CPP家族基因的鑒定
在葡萄、擬南芥、萵苣、芹菜、香菜和胡蘿卜中共鑒定了46個(gè)CPP基因,并根據(jù)這些在染色體上的順序重新進(jìn)行了命名(見表1)。為探索CPP基因家族的進(jìn)化歷史和關(guān)系,利用上述6個(gè)物種的46個(gè)CPP氨基酸序列構(gòu)建了系統(tǒng)發(fā)育樹。根據(jù)系統(tǒng)進(jìn)化樹的拓?fù)浣Y(jié)構(gòu),并參考擬南芥的分類標(biāo)準(zhǔn),將CPP家族分為Ⅰ、Ⅱ兩個(gè)類群。Ⅰ類包含19個(gè)基因,Ⅱ類包含27個(gè)基因。
1.2? ?CPP家族基因的結(jié)構(gòu)分析和保守Motif分析
Motif分析顯示,Ⅰ類和Ⅱ類家族擁有的motif存在較大的差異,Ⅰ類家族中普遍缺少motif3、motif5和motif10,Ⅱ類家族除AgCPP4外,普遍缺乏motif6、motif7和motif8。結(jié)構(gòu)域分析顯示,大部分的CPP基因家族都擁有兩個(gè)TCR超家族結(jié)構(gòu)域,而AgCPP1、AgCPP8、CsCPP4、CsCPP11和LsCPP3只擁有1個(gè)TCR超家族結(jié)構(gòu)域,其中CsCPP4還擁有1個(gè)NT_Pol-beta-like超家族結(jié)構(gòu)域以及1個(gè)TRF4超家族結(jié)構(gòu)域。
1.3? ?CPP家族基因的同源性分析
通過(guò)對(duì)芹菜、香菜和胡蘿卜的CPP家族基因同源性分析,芹菜與香菜之間發(fā)現(xiàn)了18對(duì)直系同源基因,其中有3個(gè)基因?qū)Σ荒鼙欢ㄎ坏饺魏稳旧w上。芹菜和胡蘿卜之間發(fā)現(xiàn)12對(duì)直系同源基因。香菜和胡蘿卜之間發(fā)現(xiàn)16對(duì)直系同源基因,其中有3個(gè)基因?qū)Σ荒鼙欢ㄎ坏饺魏稳旧w上。同時(shí),在芹菜內(nèi)部發(fā)現(xiàn)3對(duì)旁系同源基因。香菜內(nèi)部發(fā)現(xiàn)10對(duì)旁系同源基因,其中有5對(duì)基因不能被定位到染色體上。胡蘿卜內(nèi)部發(fā)現(xiàn)3對(duì)旁系同源基因。
通過(guò)計(jì)算芹菜、香菜和胡蘿卜直系同源基因?qū)Φ腒s值和Ks/Ka的值,推斷它們的分歧時(shí)間。結(jié)果顯示,直系同源基因?qū)Φ姆只瘯r(shí)間在芹菜和香菜之間為12.03~91.35百萬(wàn)年,在芹菜和胡蘿卜之間為22.33~88.92百萬(wàn)年,在香菜和胡蘿卜之間則為20.29~93.76百萬(wàn)年。
1.4? ?CPP家族基因的擴(kuò)張與全基因組復(fù)制
檢測(cè)5種基因復(fù)制的類型在芹菜、香菜和胡蘿卜中分布。結(jié)果顯示,全基因復(fù)制可能在傘形科物種CPP基因家族的擴(kuò)張中起到了重要作用。在芹菜、香菜和胡蘿卜中,分別有75%、58%、100%的CPP基因是通過(guò)WGD產(chǎn)生的。除此之外,在芹菜中,有1個(gè)CPP基因?qū)儆趩慰截悘?fù)制類型,1個(gè)CPP基因?qū)儆谏⒉紡?fù)制類型。在香菜中,有3個(gè)CPP基因?qū)儆趩慰截悘?fù)制類型,2個(gè)CPP基因?qū)儆诖?lián)復(fù)制類型,見表2。
1.5? ?CPP家族基因的表達(dá)分析
通過(guò)分析CPP基因在芹菜和香菜不同組織中的表達(dá)模式,結(jié)果顯示,在芹菜的根、葉柄和葉3個(gè)組織中,AgCPP2在根部和葉中的表達(dá)水平最高,AgCPP6在葉柄中的表達(dá)水平最高,AgCPP8在3個(gè)組織的表達(dá)水平最低,不同組織之間的差異并不明顯,這表明CPP家族基因在不同組織間的表達(dá)可能沒(méi)有太大差異。在香菜根、莖、葉和花4個(gè)組織中,CsCPP4在所有組織中都有著最高的表達(dá)。而CsCPP1、CsCPP2、CsCPP3、CsCPP11、CsCPP12和CsCPP13在4個(gè)組織中的表達(dá)都非常低。CsCPP5在根部的表達(dá)水平較高,這可能暗示該基因與根部的生長(zhǎng)發(fā)育有密切的聯(lián)系,香菜在4個(gè)組織中也沒(méi)有表現(xiàn)出明顯的差異(見圖1)。
2? ?討論
CPP轉(zhuǎn)錄因子參與植物生長(zhǎng)和發(fā)育過(guò)程,例如擬南芥AtCPP家族成員對(duì)芽、根及花序的發(fā)育發(fā)揮著重要的作用[7]。同時(shí),CPP也受到多種非生物脅迫的調(diào)控,在不同的脅迫處理下,CCP基因的轉(zhuǎn)錄表達(dá)水平較對(duì)照處理均表現(xiàn)出顯著提高。
盡管在CPP基因家族在許多植物中被研究過(guò),但在傘形科中還沒(méi)有相關(guān)文獻(xiàn)及研究。最近發(fā)布了芹菜、香菜和胡蘿卜的全基因組序列,促進(jìn)了研究進(jìn)程。為了解CPP基因的進(jìn)化,利用芹菜、芫荽、胡蘿卜、擬南芥、萵苣和葡萄的CPP氨基酸序列構(gòu)建了一個(gè)系統(tǒng)發(fā)育樹。基因結(jié)構(gòu)和保守圖案分析顯示,同組或亞組的基因表現(xiàn)出類似的特征。香菜中的旁系同源基因?qū)Φ臄?shù)量明顯多于芹菜和胡蘿卜。此外,基于共線性分析,發(fā)現(xiàn)了WGD對(duì)芹菜科的ARF基因家族擴(kuò)展有明顯影響。通過(guò)對(duì)3個(gè)芹菜科物種的ARF基因家族進(jìn)行全面分析,為植物中ARF基因家族的比較和功能分析奠定了堅(jiān)實(shí)的基礎(chǔ)。
3? ?材料與方法
3.1? ?基因組序列的獲取與CPP基因的鑒定
芹菜和香菜的全基因組序列從香菜數(shù)據(jù)庫(kù)中的獲取[8],擬南芥、胡蘿卜、萵苣和葡萄的基因組序列從JGI下載。使用CPP蛋白的保守結(jié)構(gòu)域(PF03638)的隱馬爾可夫模型來(lái)搜索,E值設(shè)定為1e-5。
3.2? ?系統(tǒng)發(fā)育樹的構(gòu)建
芹菜、香菜、胡蘿卜、擬南芥、萵苣和葡萄CPP家族的氨基酸序列被用于系統(tǒng)發(fā)育分析。使用MAFFT[9]對(duì)所選物種的氨基酸序列進(jìn)行比對(duì),使用IQ-TREE[10]的最大似然法構(gòu)建系統(tǒng)發(fā)育樹,使用JTT+R3模型。
3.3? ?CPP基因的染色體位置、基因結(jié)構(gòu)和保守基序分析
從基因組物理位置文件中檢索每個(gè)CPP基因的染色體位置,并使用Perl腳本提取每個(gè)基因的染色體編號(hào)、起始位置和終止位置。使用TBtools繪制每個(gè)基因在染色體上的分布圖。使用CDD網(wǎng)站分析CPP家族的保守結(jié)構(gòu)域。利用MEME網(wǎng)站分析CPP家族的motif。根據(jù)基因組物理位置文件、CDD結(jié)構(gòu)域預(yù)測(cè)結(jié)果和MEME預(yù)測(cè)結(jié)果,并對(duì)其進(jìn)行可視化。
3.4? ?同源基因?qū)Φ蔫b定
使用OrthoMCL軟件[11]鑒定直系同源基因和旁系同源基因,e值為1e-5。使用TBtools展示CPP基因在芹菜、香菜和胡蘿卜中的關(guān)系。
3.5? ?CPP基因共線性分析和復(fù)制類型
使用MCScanX[12]進(jìn)行串聯(lián)分析。氨基酸序列使用Blastp分析,e值設(shè)置為1e-5。然后通過(guò)向MCScanX提交全基因組gff文件和blast的結(jié)果文件。使用duplicate_gene_classifier子程序鑒定復(fù)制類型。
3.6? ?CPP基因的進(jìn)化分析
使用MAFFT對(duì)CPP基因?qū)Φ木幋a序列(CDS)進(jìn)行比對(duì),并將比對(duì)文件轉(zhuǎn)換為axt格式。使用Ka/Ks_calculator 2.0計(jì)算同義(Ks)和非同義(Ka)替換率。分歧時(shí)間使用公式T=Ks/2r估計(jì)。R表示中性替換率(5.2×10-9每個(gè)位點(diǎn)每年的替代次數(shù))。
3.7? ?CPP基因表達(dá)分析
芹菜和香菜的不同組織中CPP基因表達(dá)的RNA-seq數(shù)據(jù)來(lái)自之前的研究[13-14]。以每百萬(wàn)堿基對(duì)轉(zhuǎn)錄物序列的每千字節(jié)片段(FPKM)表示的表達(dá)數(shù)據(jù)經(jīng)過(guò)對(duì)數(shù)轉(zhuǎn)換后用于聚類分析。使用TBtools進(jìn)行層次聚類分析。
參考文獻(xiàn):
[ 1 ] Zefeng Yang,Shiliang Gu,Xuefeng Wang.et al. Molecular evolution of the CPP-like gene family in plants: insights from
comparative genomics of Arabidopsis and rice[J].J Mol Evol,2008,67(3):266-277.
[ 2 ] 王凱. 擬南芥和水稻CPP轉(zhuǎn)錄因子家族的生物信息學(xué)分析[J].生物技術(shù)通報(bào),2010(2):76-84.
[ 3 ] Maljaei Mohammad Bagher,Moosavian Seyedeh Parisa,Mirmosayyeb Omid,et al. Effect of celery extract on thyroid function;Is herbal therapy safe in obesity[J].Int J Prev Med,2019(10):55.
[ 4 ] 楊如興,王鵬杰,陳芝芝,等.茶樹CPP轉(zhuǎn)錄因子家族的全基因組鑒定及分析[J].西北植物學(xué)報(bào),2019,39(6):1024-1032.
[ 5 ] 黃靜,鄭晶,胡樂(lè)佳,等. 陸地棉CPP轉(zhuǎn)錄因子家族全基因組鑒定及分析[J/OL].分子植物育種:1-11[2021-08-24].http://kns.cnki.net/kcms/detail/46.1068.S.20210127.1655.012.html.
[ 6 ] 薛正剛,王樹杰,郜戰(zhàn)寧,等.大麥HvCPP轉(zhuǎn)錄因子家族的全基因組鑒定與分析[J/OL].分子植物育種,2021,19(9):2811-2818.
[ 7 ] Wang Wanpeng,Sijacic Paja,Xu Pengbo,et al. Arabidopsis TSO1 and MYB3R1 form a regulatory module to coordinate
cell proliferation with differentiation in shoot and root[J].Proc Natl Acad Sci USA,2018,115(13):3045-3054.
[ 8 ] Song X,Nie F,Chen W,et al.Coriander genomics database: a genomic, transcriptomic,and metabolic database for coriander[J].Hortic Res,2020,7(1):55.
[ 9 ] Finn Robert D,Tate John, Mistry Jaina,et al. The Pfam protein families database[J]. Nucleic Acids Res,2008,32(1):138.
[ 10 ] Rozewicki John, Li Songling,Amada Karlou Mar,et al. MAFFT-DASH: integrated protein sequence and structural alig-
nment[J]. Nucleic Acids Res,2019(W1):5-10.
[ 11 ] Nguyen Lam-Tung,Schmidt Heiko A,von Haeseler Arndt, et al. IQ-TREE: A fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies[J].Mol Biol Evol,2015(1):268-274.
[ 12 ] Chengjie Chen, Hao Chen,Yi Zhang ,et al. TBtools: An integrative toolkit developed for interactive analyses of big biological data[J]. Molecular Plant,2020,13(8):1194-1202.
[ 13 ] Wang Yupeng,Tang Haibao,Debarry Jeremy D,et al. MCScanX: a toolkit for detection and evolutionary analysis of gene
synteny and collinearity[J]. Nucleic Acids Res,2012,40(7):49.
[ 14 ] Dapeng Wang,Yubin Zhang,Zhang Zhang,et al. KaKs_Calculator 2.0:A toolkit incorporating gamma-series methods and sliding window strategies[J].Genomics,Proteomics & Bioinformatics,2010,8(1):77-80.