摘要:從NCBI查找大豆(Glycine max)基因組中轉錄因子WRI1基因,通過同源比對在大豆基因組中確定了31個同源基因。利用在線分析工具和生物信息學方法對31個蛋白質進行了初步分析,發現蛋白質的一級結構存在較大差異,二級結構以無規則卷曲和α-螺旋為主要構成元件,亞細胞均定位于細胞核。保守結構域分析發現,31個蛋白質的高保守區域由大約200個氨基酸殘基組成;正選擇位點分析發現Glyma08g24420.1和Glyma15g34770.1兩個蛋白質序列的第381、382、383個氨基酸位點受到了正選擇,進行了適應性進化。
關鍵詞:大豆(Glycine max);WRI1;生物信息;正選擇位點
中圖分類號:S565.1;Q78 文獻標識碼:A 文章編號:0439-8114(2016)13-3482-04
DOI:10.14088/j.cnki.issn0439-8114.2016.13.055
植物油脂在人類日常生活中扮演著不可替代的角色,不僅可以作為食用油,還是重要的工業原料,是生物新能源開發的重要材料來源。目前,隨著植物油需求量的增加和消費者對膳食脂肪安全意識的提高,培育高油量、高質量的油料作物已經成為育種的主要任務之一。植物油脂合成過程涉及許多關鍵酶,通過生物學方法,一些關鍵酶已經確定,如乙酰輔酶A羧化酶、丙酮酸激酶、脂肪酸延長酶等[1],抑制或提高這些關鍵酶的活性可以影響植物種子的含油量。近年來,研究表明利用轉錄因子基因改造植物脂肪代謝過程,可以更好地提高油脂含量,改善油脂成分。
轉錄因子能與基因5′端上游特定序列專一結合,保證目的基因以特定的強度在特定的時間與空間表達蛋白質分子。科研人員通過抑制或過表達手段已經研究了一些與油脂合成有關的轉錄因子的功能,例如WRINKLED1、LEAFYCOTYLEDON1、FUSCA3等[2],其中WRINKLED1研究的比較多。WRI1基因屬于AP2/EREBP轉錄因子家族[3],于1998年首次被發現,當其突變時種子含油量降低80%,而當其過表達時含油量卻提高了20%[4]。作為全球第二大農作物,大豆(Glycine max)是重要的蛋白質和食用油來源[5]。本試驗以大豆中WRI基因為研究對象,利用在線工具和生物信息相關方法對該基因及其蛋白質進行生物信息學分析,為植物油脂合成品質改進提供參考。
1 材料與方法
1.1 數據材料
從JGI(http://phytozome.jgi.doe.gov/pz/portal.html)中下載大豆基因組CDS數據和蛋白質數據,在NCBI上查找大豆基因組中WRI1基因,獲得其CDS序列。用大豆基因組蛋白質數據構建本地BLAST數據庫,以WRI1基因的蛋白質序列為查詢序列,執行BLASTp進行同源基因搜索,得到WRI1蛋白質的同源序列。
1.2 一級結構和二級結構分析
使用ExPaSy提供的在線分析工具Protparam[6](http://web.expasy.org/protparam/),分析WRI1蛋白質序列的一級結構,包括氨基酸數目、等電點、分子量、疏水性等。二級結構預測采用在線分析工具SOPMA[7](https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)。
1.3 亞細胞定位
用ProtComp(http://linux1.softberry.com/berry.phtml?group=programs subgroup=proloc topic= protcom pan)對WRI1蛋白質進行亞細胞定位預測分析。
1.4 保守結構域和系統發育分析
采用ClustalX軟件進行多序列比對,分析保守結構域。采用MEGA 4.0軟件中的鄰近法,bootstrap值設為1 000,構建系統發育樹。
1.5 正選擇位點分析
分析正選擇的方法:在密碼子水平上分析核酸替換,非同義突變率(dN)與同義突變率(dS)的比值可以用來衡量選擇壓力,進而判斷自然選擇對非同義突變的固定具有促進還是抑制作用[8],用ω= dN/dS表示。ω=1,表示發生中性選擇;ω<1,表示發生凈化選擇;ω>1,表示受到正選擇。本試驗采用Paml 4.7軟件包中的Codeml子程序計算ω值,采用位點模型N Sites,同時選擇M0、M1、M2、M7和M8模型,運行Codeml程序。在結果中找到Model 7和Model 8的InL值,進行LRT檢驗,計算2△InL。然后用Chi2程序進行卡方(χ2)檢驗,自由度取2,若檢驗結果中P小于0.05,說明備擇假設模型成立。最后,通過貝葉斯經驗檢驗(BEB)和NBE檢驗獲得每個氨基酸位點的后驗概率,同時Model 2和Model 8檢測到的正選擇位點被作為最后確認的正選擇位點。
2 結果與分析
2.1 WRI1蛋白質的理化性質和亞細胞定位
同源基因搜索得到31條序列,由表1可見,31個蛋白質所含氨基酸數目在290~710不等,Glyma18g47980.2所含氨基酸數目最多,Glyma07g-02380.1含有氨基酸數目最少,分子量在33 105.3~78 008.9之間;8個蛋白質的等電點大于7.5,顯堿性,15個蛋白質的等電點小于6.5,顯酸性;大部分蛋白質中含量最多的氨基酸是Ser;除Glyma08g-38190.2和Glyma18g29400.2的不穩定系數小于40.00,屬于穩定蛋白質,其他蛋白質的不穩定系數均大于40.00,屬于不穩定蛋白質;平均疏水性均為負值,屬于親水蛋白質。31個蛋白質的二級結構以無規則卷曲為主要構成元件,以α-螺旋為次要構成元件,β-轉角和延伸鏈的百分比最少。亞細胞定位預測結果顯示,31個WRI1蛋白質均定位于細胞核。
2.2 WRI1保守結構域和系統發育分析
采用ClustalX軟件對31個蛋白質序列進行多序列比對,結果如圖1所示。31個蛋白質序列中間的保守性要強于兩端,其保守結構域由大約200個氨基酸殘基組成。
采用MEGA 4.0軟件的鄰近法,bootstrap值為1 000,構建WRI1蛋白質系統發育樹。如圖2所示,31個蛋白質大體上分為2個分支,Glyma08g24420.1和Glyma15g34770.1最為古老,推測是進行了適應性進化。結合多序列比對結果,Glyma11g14040.1的保守結構域中也有一段特殊的氨基酸序列(圖1中框住部分)。
2.3 正選擇分析
利用Paml 4.7軟件包中的Codeml程序對3個蛋白質的氨基酸序列進行正選擇位點分析,用Model 7和Model 8的InL值做LRT檢驗,取自由度df=2,然后進行χ2檢驗,所得結果(表2)中 Glyma08g24420.1和Glyma15g34770.1的P值分別為7.575×10-6和4.515×10-6,遠遠小于0.05,備擇假設模型成立,進行后續檢驗。Glyma11g14040.1的P值為0.425,備擇假設模型不成立,不再進行后續檢驗。
BEB后驗結果顯示,在Glyma08g24420.1蛋白質序列中有3個位點受到正選擇,分別是第381、382、383個氨基酸位點,Model 2和Model 8同時檢測到這3個位點受到正選擇,將后驗概率和ω值列于表3中。
在Glyma15g34770.1蛋白質序列中有3個位點受到正選擇,分別是第381、382、383個氨基酸位點,Model 2和Model 8同時檢測到這3個位點受到正選擇,將后驗概率和ω值列于表4中。
3 小結
近年來,基因組測序工作的開展為大豆基因組的研究提供了新契機,對認識其生物學機制,并在分子水平上改進大豆品質有重大意義。所以,在完成了較單純的大豆全基因組測序后[9],更多重測序工作深入開展[10,11]。本試驗從NCBI中查找得到大豆基因組中WRI1基因的CDS序列和蛋白質序列。用其CDS序列和大豆基因組CDS數據做blastp比對,得到31個基因。
利用在線工具和生物信息學方法對31個基因序列和蛋白質序列做了初步分析。一級結構分析發現31個蛋白質的理化性質存在明顯差異,氨基酸數目為290~710,分子量為33 105.3~78 008.9;8個蛋白質的等電點大于7.5,呈堿性,15個蛋白質的等電點小于6.5,呈酸性;大部分蛋白質中含量最多的氨基酸是Ser;Glyma08g38190.2和Glyma18g29400.2的不穩定系數小于40.00,屬于穩定蛋白質,其他蛋白質的不穩定系數均大于40.00,屬不穩定蛋白質;平均疏水性都是負值,屬于親水蛋白質;31個蛋白質的二級結構以無規則卷曲和α螺旋為主要構成元件,含量在70%以上;亞細胞定位預測31個蛋白質都定位于細胞核;正選擇位點分析結果顯示Glyma08g24420.1和Glyma15g34770.1的第381、382、383個氨基酸位點都受到了正選擇。WRI1基因在植物油脂合成過程起著重要的作用,利用生物信息學方法對其進行研究,分析其理化性質和選擇壓力,將為培育高油脂作物提供基礎數據。
參考文獻:
[1] 柴國華,白澤濤,蔡 麗,等.油菜基因BnWRI1的克隆及RNAi對種子含油量的影響[J].中國農業科學,2009,42(5):1512-1518.
[2] 施春霖,劉 聰,肖旦望,等.甘藍型油菜WRI1基因cDNA的克隆與序列分析[J].湖南農業大學學報(自然科學版),2013, 39(3):247-252.
[3] 沈 奇,韓宏仕,秦信蓉,等.轉錄因子在調控種子油脂生物合成及增加植物儲脂含量中的重要作用[J].農業科學與技術,2013, 14(1):30-34.
[4] 丁 霄,楊淑巧,許 琦,等.轉錄因子WRI1在主要作物中的研究進展[J].分子植物育種,2015,13(3):697-701.
[5] CLEMENTE T E,CAHOON E B. Soybean oil: Genetic approaches for modification of functionality and total content1[J]. Plant Physiology,2009,9(151):1030-1040.
[6] WILKINS M R,GASTEIGER E,BAIROCH A,et al. Protein identification and analysis tools on the ExPASy server[J]. Methods Mol Biol,1999,112:571-607.
[7] GEOURJON C,DEL?魪AGE G. SOPMA:Significant improvement in protein secondary structure prediction by cprediction from alignments and joint prediction[J].CABIOS,1995,11(6):681-684.
[8] YANG Z.Computational molecular evolution[M].England:Oxford University Press,2006.
[9] SCHMUTZ J,CANNON S B,JACKSON S A,et al. Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463: 180-183.
[10] LAM H M,XU X,WANG B,et al. Resequcing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection[J].Nature Genetics,2010,42:1053-1059.
[11] LI Y H,ZHAO S C,QIU L J,et al. Molecular footpringts of domestication and improvement in soybean revealed by whole genome re-sequencing[J].BMC Genomics,2013,14:579-581.