熊偉等



摘要:為了預測和分析擬南芥(Arabidopsis thaliana)轉錄終止因子PDE191蛋白質的結構與功能,采用生物信息學的方法對PDE191蛋白質進行了系統研究,包括PDE191蛋白質的理化性質、跨膜區和信號肽、亞細胞定位、二級結構、功能域、蛋白質的功能分類預測、多重序列比對與系統發育樹構建、三級結構建模。結果表明,擬南芥PDE191蛋白質屬于植物mTERF蛋白質家族的成員,其蛋白質相對分子質量為37.89 ku,等電點為9.12,不具有信號肽和跨膜區。該蛋白質定位于細胞葉綠體,N端1-30位氨基酸為前導肽序列。其二級結構主要為α螺旋和無規則卷曲,包含7個mTERF基序,三級結構顯示結果與二級結構預測結果相符。蛋白質多重序列比對和聚類分析顯示,在玉米、蓖麻、楊樹、大豆、葡萄、水稻和高粱等高等植物中存在與擬南芥PDE191蛋白質高度同源性的蛋白質,尤其是與玉米PDE191蛋白質相似性高達99%。
關鍵詞:擬南芥(Arabidopsis thaliana);轉錄終止因子;色素缺失突變191;生物信息學
中圖分類號:Q811.4 文獻標識碼:A 文章編號:0439-8114(2015)17-4332-06
DOI:10.14088/j.cnki.issn0439-8114.2015.17.059
擬南芥(Arabidopsis thaliana)屬于十字花科植物,是一種模式植物,其基因組測序已于2000年全部完成,因為具有同類植物無法比擬的條件,在植物學、細胞生物學和分子生物學等研究領域被廣泛應用。首先,擬南芥個體小,其各種特征比較簡單;其次,擬南芥基因組比較小,并且為單倍體植物,只有5對染色體,其核基因組只有約125 Mbp;再次,擬南芥生長周期短,一個生活史只需要8周左右;最后,擬南芥每代平均能夠收獲多達數千粒種子。擬南芥具有高等植物的一般特點,所以擬南芥的研究成果很容易借鑒到其他農作物、經濟作物等的應用中去,可以產生客觀的經濟和社會價值。
線粒體轉錄終止因子(Mitochondrial transcription termination factor, mTERF) 蛋白質家族是一類具有多功能的蛋白質家族,包含4個亞家族,分別命名為mTERF1、mTERF2、mTERF3和mTERF4。通過PSI-BLAST發現該蛋白質家族成員廣泛存在于后生動物和植物中,但目前還沒有在真菌中發現同源蛋白質[1-3]。張曉雷[4]于2011年首次報道了一個由于T-DNA插入導致的擬南芥色素缺失突變體pde191,表型為白化及幼苗致死,電鏡觀察超微結構顯示葉綠體發育不正常,但是在加入蔗糖的培養基上培養表現出逐漸變綠的表型,通過等位試驗和遺傳互補試驗,充分證明是由于PDE191(Pigment defective 191) 基因的沉默導致了植物出現白化表型。后續的研究表明,擬南芥PDE191蛋白質含有mTERF基序重復序列,且定位于葉綠體中,PDE191基因突變導致一系列的葉綠體基因無法正常轉錄終止,特別是rpoA基因及其下游的間隔區序列在突變體中的表達比野生型高20多倍[5]。在葉綠體發育過程中,PEP(質體編碼的聚合酶)是一類重要的負責質體基因轉錄的RNA聚合酶,并發揮重要的質體基因表達調控作用,轉錄的效率主要由PEP的活性所決定[5]。PEP活性下降是pde191突變體出現白化現象的一個主要因素。研究表明擬南芥PDE191基因通過作用葉綠體rpoA基因的正常轉錄終止,進而影響葉綠體PEP酶活性和基因表達,并最終影響葉綠體的發育[5]。
目前已經確定擬南芥PDE191基因位于第4號染色體,含有4個外顯子和3個內含子,全長cDNA序列為1 402 bp,編碼的蛋白質由333個氨基酸組成。在本研究中,利用生物信息學方法和工具對擬南芥PDE191蛋白質序列進行系統的預測和研究,通過美國NCBI數據庫中檢索到的擬南芥PDE191蛋白質數據和其他植物同源蛋白質數據,分析擬南芥PDE191蛋白質的氨基酸組成、理化性質、二級結構、功能結構域和三級結構等信息,同時對不同植物的PDE191同源蛋白質序列進行多重序列比對并構建系統發育樹,以期為今后進一步研究該蛋白質的功能提供生物信息學參考。
1 材料與方法
1.1 材料
用于生物信息學分析的數據資料來源于國際互聯網上NCBI核酸和蛋白質數據庫中已經注冊的不同植物與擬南芥PDE191基因同源的mRNA及其蛋白質序列(表1)。
1.2 方法
擬南芥PDE191蛋白質的理化性質采用Protparam tool軟件預測;親水性/疏水性采用ProtScale tool軟件進行預測;氨基酸分值參數選用HpHob./Kyte and Doolittle;跨膜區域使用TMHMM Server 2.0軟件進行預測;信號肽采用SignalP 4.1 Server軟件預測;蛋白質亞細胞定位分別采用PSORT WWW Server中的iPSORT prediction工具、WoLFPSORT軟件和TargetP軟件進行分析;蛋白質功能分類采用ProtFun 2.2 Server軟件進行預測;二級結構采用PSIPRED Server 3.3軟件進行分析;結構功能域采用SMART軟件預測;三級結構預測采用SWISS-MODELR軟件進行同源建模;多重序列比對采用Clustal W軟件進行;系統發育樹構建采用MEGA6.05軟件進行。各在線分析軟件的網址見表2。
2 結果與分析
2.1 擬南芥PDE191蛋白質的理化性質
在GenBank注冊的擬南芥PDE191基因全長cDNA包括1 002 bp的開放閱讀框(Open reading frame,ORF),編碼1個由333個氨基酸組成的蛋白質。采用Protparam tool軟件預測PDE191蛋白質的理化性質,推測該蛋白質的相對分子質量為37.89 ku,分子式為C1707H2736N448O482S20,等電點為9.12,不穩點參數33.85,根據不穩定參數的數值在40以下是穩定蛋白質的標準,可推定PDE191為穩定蛋白質[6]。軟件預測該蛋白質在體外環境下的半衰期為30 h。通過分析該基因編碼的氨基酸發現,PDE191蛋白質由20種不同氨基酸組成,Leu、Lys和Ser的含量較多,其中Leu的含量高達11.40%,Trp的相對含量較少,只占0.60%;帶正電荷的氨基酸殘基(Arg+Lys)總數為47個,帶負電荷的氨基酸殘基(Asp+Glu)為37個(圖1)。疏水性平均系數(Grand average of hydropathicity,GRAVY)為-0.114,預測該蛋白質為親水性蛋白質。endprint
2.2 擬南芥PDE191蛋白質親水性/疏水性預測和分析
親水性/疏水性預測和分析對于進一步預測蛋白質的二級結構和結構功能域具有重要的生物學意義,采用ProtScale tool軟件進行親水性/疏水性預測,結果表明,PDE191蛋白質第154位氨基酸分值最大,為2.622;蛋白質第188位氨基酸分值最小,為-2.122(圖2)。整體來看,親水性氨基酸數量多于疏水性氨基酸,且均勻分布在整個肽鏈中[7],可推測PDE191是親水性蛋白質, 與Protparam tool軟件預測結果一致。
2.3 擬南芥PDE191蛋白質的跨膜區域與信號肽分析
蛋白質的跨膜區域主要是膜內在蛋白質和細胞膜的膜脂相結合的部位。利用TMHMM Server v2.0在線軟件對PDE191蛋白質的跨膜區域進行分析,結果(圖3)顯示,該蛋白質的跨膜螺旋數量(Number of predicted TMHs)為0,說明PDE191不是跨膜蛋白質。
SignalP是一個信號肽及其剪切位點的預測工具,它采用一個神經網絡來區分信號肽和非信號肽,另一個神經網絡來識別剪切位點。C值是信號肽酶切位點分值,S值是信號肽分值,Y值是由C值和S值綜合得出的剪切位點分值,用于更精確地確定信號肽酶切位點[7]。使用SignalP 4.1 Server在線軟件預測平均S值(mean S score)為0.109,依據mean S score>0.5才能判斷為分泌蛋白質的標準,推測PDE191蛋白質不具有信號肽,說明它是一種在細胞內發揮生理作用的蛋白質(圖4)。
2.4 擬南芥PDE191蛋白質二級結構預測與分析
蛋白質二級結構主要指蛋白質分子中主鏈骨架原子依賴氫鍵排列在一維方向上具有周期性的構象,對其進行預測與分析將有助于認識蛋白質的高級結構。使用PSIPRED v3.3軟件預測擬南芥PDE191蛋白質的二級結構,結果表明,擬南芥PDE191蛋白質由53.76%的?琢-螺旋(Alpha helix)、1.20%的延伸鏈(Extended strand)、45.04%的無規則卷曲(Random coil)構成(圖5)。可見?琢-螺旋和無規則卷曲是該蛋白質二級結構的主要構成元件,延伸鏈只出現在2個局部肽鏈,且沒有 ?茁-轉角(Beta-turn)出現。
2.5 擬南芥PDE191蛋白質結構功能域的預測
結構功能域是指生物大分子中具有特異結構與獨立功能的區域。用SMART在線軟件預測PDE191蛋白質的結構功能域,結果表明,該蛋白質4-125、148-272位氨基酸區域為2個內部重復序列(Internal repeat),8-123、112-322位氨基酸區域為2個mTERF蛋白結構域(Pfam),60-91、96-127、132-163、169-201、206-237、275-306、342-374位氨基酸區域為7個mTERF基序重復序列,每個基序由32或33個保守的氨基酸殘基組成(圖6A)。對這7個基序的序列分析發現,每個基序的第8個氨基酸均為脯氨酸(P),第10、11、15、19、26位氨基酸是亮氨酸(L)或其他疏水性氨基酸,如異亮氨酸(I)、纈氨酸(V)、苯丙氨酸(F),這些結構特征使得PDE191蛋白質可能具有與mTERF同樣的結合DNA的性質。
2.6 擬南芥PDE191蛋白質的亞細胞定位和功能分類
分別使用PSORT WWW Server中的WoLFPSORT工具和iPSORT Prediction工具對擬南芥PDE191蛋白質進行細胞定位, 兩個不同軟件的分析結果均表明PDE191蛋白質定位于擬南芥的葉綠體和線粒體中,蛋白質N端的1-30位氨基酸可能是其前導肽序列。此外,TargetP蛋白質定位分析軟件預測擬南芥PDE191蛋白質可能定位于細胞核、線粒體、葉綠體和過氧化物酶體中,但因為該基因突變體為白化突變體,所以推測定位部位在葉綠體中。
采用ProtFun軟件對擬南芥PDE191蛋白質進行功能分類,由表3可知,蛋白質功能分類(Functional category)顯示該蛋白質可能是轉運和結合蛋白質(Transport and binding), 基因本體分類(Gene Ontology category)進一步提示該蛋白質是一種轉錄調控因子(Transcription factor)。此外,預測結果還顯示擬南芥PDE191蛋白質不具有酶活性。
2.7 多重序列比對與系統發育樹構建
根據PDE191蛋白質的氨基酸序列在NCBI上進行BLASTP,結果顯示在許多物種中存在與擬南芥PDE191同源的蛋白質,進化系統分析顯示PDE191蛋白質在雙子葉植物中處于一個獨立的分支上,表明其在進化中比較保守(圖7)。蛋白質多重序列比對結果顯示,擬南芥PDE191蛋白質與玉米(Zea mays)的PDE191蛋白質(EU952184.1)相似性為99%,與楊樹(Populus trichocarpa)中的一個預測蛋白質(XM_002328250.1)相似性為71%,與蓖麻(Ricinus communis)中的蛋白質(EQ973785.1)相似性為71%,與大豆(glycine max)中的蛋白質(BT095136.1)相似性為65%,與葡萄(Vitis vinifera)中的蛋白質(XM_002280046.1)相似性為66%,與水稻(Oryza sativa)中的蛋白質(NM_001068770.1)相似性為56%,與高粱(Sorghum bicolor)中的蛋白質(XM_002444711.1)相似性為56%(圖8)。由此可見,該基因編碼的蛋白質序列具有很高的保守性,在各種植物之間都有很高的相似性,尤其和玉米的相似度更是達到了99%。
2.8 擬南芥PDE191蛋白質三級結構預測與分析endprint
采用SWISS-MODEL同源建模的方式得到擬南芥PDE191蛋白質的三維預測模型(圖9),經RasMol軟件分析顯示該蛋白質外形呈橢球狀,主要由?琢-螺旋和無規則卷曲構成,與二級結構預測結果基本一致。
3 討論
隨著計算機技術和生物技術的飛速發展,通過計算機模擬的方式對蛋白質進行理化性質、序列結構和功能等方面進行預測的確信度越來越高[8]。在植物中,除了有線粒體之外,還有葉綠體。因為等位突變體的缺乏而引起的轉錄終止,關于其編碼的蛋白質是否是mTERF的研究并不多,且其在葉綠體中是否也存在轉錄終止功能仍有待研究。擬南芥PDE191基因編碼1個線粒體轉錄終止因子mTERF蛋白質,該家族蛋白質一般有2個獨立的DNA結合區和3個亮氨酸拉鏈結構,以單體的形式作用于DNA上。
通過生物信息學分析發現擬南芥PDE191蛋白質是一個相對分子質量為37.89 ku的親水性蛋白質,且不具有分泌信號肽的功能。亞細胞定位發現擬南芥PDE191蛋白質定位于葉綠體中,其N端的1~30個氨基酸為前導肽序列,所以它很有可能是作為一個細胞核與細胞質之間相互作用的一個重要蛋白質。通過預測蛋白質的二級結構發現PDE191蛋白質中56.90%的結構是由?琢螺旋和?茁-折疊構成;通過SMART軟件預測該蛋白質含有7個mTERF基序,每個基序由大約32或33個保守的氨基酸殘基構成。對其蛋白質功能的預測結果顯示,PDE191蛋白質不具有酶活性,但在調控葉綠體基因轉錄過程中發揮一定的生物學功能。
通過對擬南芥PDE191蛋白質與玉米、楊樹、蓖麻、大豆、葡萄、水稻、高粱等其他7個不同物種的系統發育樹聚類構建分析發現,該蛋白質屬于直系同源蛋白質(Orthologous protein),說明在不同物種之間PDE191蛋白質是來源于共同祖先的蛋白質,能夠很好地保留其主要序列以及結構,并且具有共同或者相似的生物學功能[9]。雖然該蛋白質在不同物種中具有很好的氨基酸序列保守性,但其在不同物種中的進化關系與物種本身之間的進化關系并不是很一致,推測該蛋白質可能并不是隨著生物的進化而進化的,而是在生物中具有某種固有的作用,只是在植物的進化過程中由于意外的原因導致該基因發生突變,從而打亂了其物種之間的進化關系[10]。本研究為今后更進一步研究植物PDE191蛋白質家族的生物學功能及其他物種的直系同源PDE191蛋白質之間的關系奠定了基礎。
參考文獻:
[1] ROBERTI M, POLOSA P L, BRUNI F, et al. The MTERF family proteins: Mitochondrial transcription regulators and beyond [J]. Biochim Biophys Acta, 2009, 1787(5):303-311.
[2] LINDER T, PARK C B, ASIN-CAYUELA J, et al. A family of putative transcription termination factors shared amongst metazoans and plants [J]. Curr Genet,2005,48(4):265-269.
[3] ROBERTI M, POLOSA P L, BRUNI F, et al. MTERF factors: A multifunction protein family[J]. BioMol Concepts, 2010, 1(2):215-224.
[4] 張曉雷.擬南芥mTERF蛋白PDE191功能的初步研究[D].上海:上海師范大學,2011.
[5] 張 翼.轉錄終止因子PDE191調控擬南芥rpoA基因的轉錄終止[D].上海:上海師范大學,2013.
[6] 范 晶,胥成浩,張西玉,等.番茄LeNHX3基因的生物信息學分析[J].湖北農業科學,2009,48(12):2917-2921.
[7] 陶 雋,賈 青,魏星燦,等.豬ACACA基因及其編碼蛋白質的生物信息學分析[J].江蘇農業科學,2014,42(5):42-45.
[8] 李顯航,劉紅美.家蠅小熱休克蛋白(sHsp20.6)的生物信息學分析[J].生物信息學,2013,11(1):65-71.
[9] 錢葉雄,徐士杰,張亞男,等.玉米精氨酸甲基轉移酶蛋白家族生物信息學分析[J].生物技術進展,2014,4(1):22-29.
[10] KLEINE T. Arabidopsis thaliana mTERF proteins: Evolution and functional classification[J]. Front Plant Sci,2012,3:1-16.endprint