中國蓮P1B -ATPase亞家族成員的生物信息學分析

2018-12-24 07:04:46毛立彥龍凌云謝振興於艷萍丁麗瓊黃秋偉賓振鈞

江蘇農業科學 2018年22期

關鍵詞：結構

毛立彥，龍凌云，謝振興，於艷萍，丁麗瓊，黃秋偉，賓振鈞，金剛

(廣西壯族自治區亞熱帶作物研究所，廣西南寧 530001)

近年來，隨著工農業的飛速發展，農藥化肥的過度施用、礦區的不合理開采以及工廠產生的重金屬廢渣、廢液的不合理排放，致使Cd、Zn、Cu、Pb、Co等重金屬及其有毒化合物大量滲入水體，水體重金屬污染問題日益嚴重，已引起世界范圍廣泛關注[1-5]。水體中重金屬的超標不僅會污染自然環境，同時還會誘發各種疾病，對人體健康造成直接或間接危害。重金屬污染水體的修復工程任務艱巨，以往采用的物理或化學修復手段投資巨大且效果不佳，而大型水生植物生長速度快，生物量大，易于人工栽培管理，且可作為較好的景觀觀賞材料，將其用于治理水體重金屬污染可降低投資成本，提高治理效率，并能獲得良好的環境生態效益[6]，因此，探明大型水生植物對重金屬的耐受性和富集機制，提高它們對重金屬的耐受和富集能力，實現大型水生植物修復水體重金屬污染的綜合開發利用已成為當今環境科學領域的研究熱點。

P1B-ATPase蛋白(P1B型ATPase蛋白，別稱heavy metal transporting ATPase，簡稱HMA)屬于P型ATPase蛋白家族中的一個亞家族，也是該家族中唯一參與重金屬陽離子穩態的轉運蛋白，可通過水解ATP跨膜運輸金屬陽離子，選擇性吸收和運輸植物生長發育必需的金屬離子(Cu+、Cu2+、Zn2+、Co2+)以及一些非必需重金屬離子(Cd2+、Pb2+)，在重金屬的抗性、吸收、轉運過程中起著重要作用，是植物修復重金屬污染水體和土壤不可或缺的組成部分[7-8]。低等、高等植物中存在多個P1B-ATPase蛋白，廣泛分布于植物細胞的質膜、葉綠體、液泡膜、高爾基體等細胞結構上[9-11]。關于植物P1B-ATPase蛋白結構和功能的研究，現主要集中在擬南芥、水稻、大麥、大豆等模式植物上，已有研究證實擬南芥(Arabidopsisthaliana)含有8個P1B-ATPase蛋白(AtHMA1-8)[12-13]，水稻(Oryzasativa)中有9個(OsHMA1-9)[14]，大麥(Hordeivulgaris)中有10個(HvHMA1-10)[15]，大豆(Glycinemax)中發現9個(GmHMA1-9)[16]。此外，有研究者還從甘藍型油菜(Brassicanapus)、鼠耳芥(Arabidopsishalleri)、遏藍菜(Thlaspicaerulescens)等植物中分別克隆獲得P1B-ATPase蛋白成員BnHMA1、AhHMA4、TcHMA4的編碼基因[17-20]。目前已報道的高等植物P1B-ATPase蛋白多存在于陸生植物中，該類蛋白在水生植物中的相關研究較少，在睡蓮科(Nymphaeaceae)水生植物中尚未見相關的研究報道。睡蓮科植物是多年生水生植物，共有蓮屬(NelumboGaertn.)、睡蓮屬、芡實屬、王蓮屬等9個屬，不同屬內均具有較多種類的大型水生植物物種，如睡蓮(Nymphaeatetragona)、中國蓮(Nelumbonucifera)、荷花等，它們均具有抗性強、分布廣、生長量大和繁殖能力強等特點，同時還具有較高的觀賞價值，可作為修復水體重金屬污染的植物材料，能起到兼顧水體污染修復和景觀改造的功能，具有較廣泛的應用前景。目前，睡蓮科蓮屬的中國蓮基因組測序工作已完成[21]，全基因組測序結果已公開，大量遺傳信息的獲得為系統解析睡蓮科植物的水體重金屬修復機制、促進睡蓮科植物在水體修復中的應用奠定了基礎。本研究采用生物信息學方法，對中國蓮(N.nucifera)可能存在的P1B-ATPase蛋白亞家族成員進行預測并利用生物信息學軟件分析其系統進化地位、蛋白質的理化性質、結構特征和保守結構域等特點，以期為進一步揭示中國蓮等大型水生植物P1B-ATPase蛋白的結構和功能奠定基礎。

1 材料與方法

1.1 中國蓮P1B-ATPase蛋白亞家族序列的獲取和確定

試驗地點位于廣西壯族自治區亞熱帶作物研究所實驗室，于2017年9月從中國蓮全基因組數據庫(http：//lotus-db.wbgcas.cn/)下載所有已注釋的蛋白序列，以FASTA格式保存，根據擬南芥、水稻基因組中已鑒定的P1B-ATPase蛋白成員的保守基序和結構特征[7]，從下載的中國蓮數據庫已翻譯的蛋白序列中刪除不含P1B-ATPase蛋白成員保守基序和結構特征的冗余序列，最終篩選出中國蓮中符合P1B-ATPase蛋白特征的目的序列。

1.2 中國蓮P1B-ATPase蛋白的系統發育樹構建和模體識別

利用多序列比對工具Clustal X對中國蓮、擬南芥、水稻的P1B-ATPase蛋白序列進行比對，并用GeneDoc軟件查看比對序列的保守基序。采用MEGA 5.0軟件中的最大似然法構建系統發育樹。通過隨機逐步比較的方法搜索最佳系統進化樹，對生成的系統樹進行Bootstrap校正。同時，利用MEME program3(http：//meme-suite.org/tools/meme)模體檢索工具識別中國蓮、擬南芥、水稻的P1B-ATPase蛋白所共有的模體，并對相關參數進行修改，將模體數最大值調整為5個，其他參數均為默認值。

1.3 中國蓮P1B-ATPase蛋白序列分析

利用瑞士生物信息學研究所提供的ProtParam(http：//web.expasy.org/protparam/)程序，對上述4種蛋白質的氨基酸殘基數目、組成、相對分子量、理論等電點及穩定性等理化性質進行在線分析。利用Plant-mPLoc(http：//www.csbio.sjtu.edu.cn/bioinf/plant-multi/)分析蛋白亞細胞定位。利用ProtScale(http：//web.expasy.org/protscale/)分析蛋白親/疏水性。利用TMHMM在線程序(http：//www.sacs.ucsf.edu/cgi-bin/tmhmm.py)預測蛋白的跨膜結構，并用TOPO2在線程序(http：//www.sacs.ucsf.edu/cgi-bin/open-topo2.py)顯示跨膜拓撲結構圖。利用SOPMA(https：//npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html)分析蛋白二級結構。利用Swiss-Model(https：//www.swissmodel.expasy.org/)分析蛋白的三級結構。

2 結果與分析

2.1 中國蓮P1B-ATPase蛋白成員的篩選和命名

通過對擬南芥、水稻等已知的P1B-ATPase蛋白亞家族成員序列和結構進行分析，依據已知P1B-ATPase蛋白成員的序列長度范圍，剔除獲取的中國蓮蛋白模型中氨基酸數目<400個或>1 500個的冗余序列，并將獲得的非冗余序列與擬南芥、水稻已知P1B-ATPase蛋白進行比對，依據該亞家族成員序列中高度保守的DKTGT、GDGxNDxP、TGE、C/SPx、HP等保守基序進行篩選，最終獲得4個中國蓮P1B-ATPase蛋白，分別命名為NnHMA1、NnHMA2、NnHMA3、NnHMA4(表1)。

表1 中國蓮P1B-ATPase蛋白成員信息

2.2 中國蓮P1B-ATPase蛋白系統進化和保守序列分析

對擬南芥、水稻、中國蓮中21個P1B-ATPase蛋白進行氨基酸多序列比對，并構建系統進化樹(圖1-A)，分析發現，這21個蛋白可聚類為2個獨立的進化分支。植物中存在多種P1B-ATPase蛋白，目前已鑒定的這類蛋白可根據金屬底物特異性劃分為2個亞類，分別為Zn2+/Co2+/Cd2+/Pb2+P1B-ATPase(Zn亞類)、Cu+/Ag+P1B-ATPase(Cu亞類)[7，15]，其中AtHMA1、AtHMA2、AtHMA3、AtHMA4屬于Zn亞類，而AtHMA5、AtHMA6、AtHMA7、AtHMA8屬于Cu亞類[9]；水稻OsHMA1、OsHMA2、OsHMA3屬于Zn亞類，OsHMA4、OsHMA5、OsHMA6、OsHMA7、OsHMA8、OsHMA9屬于Cu亞類[1，14]。從圖1-A可以看出，中國蓮的NnHMA1屬于Zn亞類，NnHMA2、NnHMA3、NnHMA4屬于Cu亞類。模體分析結果(圖1-B)顯示，供試的21個蛋白均含有模體1和模體2，預測NnHMA1、NnHMA2、NnHMA3含有的模體與其所屬進化分支中擬南芥、水稻的P1B-ATPase蛋白成員含有相似模體，而NnHMA4與其所屬進化分支上的擬南芥、水稻P1B-ATPase蛋白相比，缺少模體4和模體5，推測這可能是由于在進化過程中，NnHMA4蛋白編碼基因出現部分序列缺失所致。此外，利用GeneDoc軟件對擬南芥、水稻和中國蓮3個物種中的P1B-ATPase蛋白進行序列比對發掘保守基序，從圖2可以看出，獲得的中國蓮4個蛋白均含有植物P1B-ATPase蛋白所特有的DKTGT、TGE、C/SPx、HP等保守基序，進一步驗證本研究預測的NnHMA1、NnHMA2、NnHMA3、NnHMA4等4個蛋白屬于植物P1B-ATPase蛋白亞家族成員。與其他序列相比，NnHMA4不含有GDGxNDxP保守序列，推測該蛋白在進化過程中，該部分序列出現缺失或插入的現象。

2.3 中國蓮P1B-ATPase蛋白理化性質分析和亞細胞定位預測

對篩選出的4個中國蓮P1B-ATPase蛋白進行理化性質分析，結果(表2)顯示，中國蓮的P1B-ATPase蛋白序列長度為762～1 022個氨基酸，分子量為82 672.23～111 589.13 u，理論等電點為5.17～7.17。4個P1B-ATPase蛋白的總平均疏水性均為正值，說明它們均為疏水性蛋白，這可能與P1B-ATPase蛋白具有跨膜轉運金屬離子的功能有關，其中NnHMA1疏水性最弱，NnHMA4疏水性最強。此外，4個蛋白的不穩定指數為30.60～38.75，其中NnHMA2最小，表明預測的蛋白都相對穩定，可供體外試驗進行選擇。亞細胞定位預測結果顯示，中國蓮的4個P1B-ATPase蛋白均位于質膜上，進一步證明中國蓮4個P1B-ATPase蛋白可能為跨膜蛋白，推測它們具有參與金屬離子跨膜轉運的功能。

2.4 中國蓮P1B-ATPase蛋白親/疏水性和跨膜結構分析

氨基酸的親/疏水性是蛋白質空間折疊的主要驅動力來源之一，不同氨基酸的親/疏水性差異決定了蛋白質在折疊過程中可形成親水性表面或疏水性內核結構，通常在跨膜區域內會形成類似的疏水性區域。通過ProtScal在線程序對中國蓮的4個P1B-ATPase蛋白進行親/疏水性預測。如圖3所示，以0為分界線，正值越大表示疏水性越強，負值越大表示親水性越強，分值的絕對值在0.5之內的氨基酸可定性為兩性氨基酸[22-23]。由圖3中可知，中國蓮P1B-ATPase蛋白的N端均存在20～60個數量不等、親/疏水性得分值<0.5的氨基酸殘基，且NnHMA1和NnHMA4的C端親/疏水性得分值<0.5的氨基酸殘基數目明顯多于NnHMA2和NnHMA3。此外，蛋白中氨基酸殘基親/疏水性得分值連續高于1的區段數量，NnHMA1有11個，NnHMA2有8個，NnHMA3有9個，NnHMA4有5個。通常在蛋白質親/疏水性預測分析過程中，親/疏水性>1.0可判定為跨膜區，介于0.6～1.0的片段為疑似跨膜區[22-23]，以此可預測蛋白的跨膜區數目。

為論證親/疏水性分析的預測結果，進一步利用TMHMM和TOPO2在線程序對獲得的4個中國蓮P1B-ATPase蛋白進行跨膜區域和拓撲結構預測。由圖4可知，NnHMA1蛋白存在7個跨膜結構，NnHMA2有8個，NnHMA3有7個，而NnHMA4僅有5個，這與圖3親/疏水性預測分析的推斷相類似，進一步說明經本研究預測得到的中國蓮P1B-ATPase蛋白均為跨膜蛋白。中國蓮P1B-ATPase蛋白均含有2個大小不一的細胞質內環，有研究表明，這2個胞質環是P1B-ATPase蛋白亞家族成員的特有結構，在環上含有3個重要的保守結構域，分別為磷酸化位點(P-domain)、脫磷酸化位點(A-domain)、ATP結合區域(N-domain)以及多個保守基序，如DKTGT、GDGxNDxP、S/TGE、HP等[7，10，15，24-28]，這些保守基序在植物P1B-ATPase蛋白跨膜轉運離子和水解ATP提供能量過程中起著重要作用[10，27-28]，結合圖2中保守基序分析結果進一步證明，本研究從中國蓮基因組數據庫中篩選確定的NnHMA1、NnHMA2、NnHMA3和NnHMA4屬于P1B-ATPase蛋白。

表2 中國蓮P1B-ATPase蛋白的理化性質參數和亞細胞定位

2.5 中國蓮P1B-ATPase蛋白的二級結構與三級結構分析

蛋白質的結構、功能與生物體的各類生命活動密切相關，蛋白質的二級結構是構成三級結構的基本單元，探明蛋白質的二、三級結構，對深入探究蛋白質的折疊構造和生物學功能有重要的研究價值[29-31]。本研究采用SOPMA在線程序預測中國蓮P1B-ATPase蛋白(NnHMA1、NnHMA2、NnHMA3和NnHMA4)的二級結構。由表3可知，4個中國蓮P1B-ATPase蛋白的α-螺旋結構含量均在30%以上，除NnHMA3之外，其他3個中國蓮P1B-ATPase蛋白的無規卷曲結構含量均高于25%；4個蛋白的β-轉角結構所占比例均較低，最高含量不超過11%。二級結構元件分布情況顯示，4個蛋白以α-螺旋和無規卷曲為主要的二級結構元件，無規卷曲散亂分布于蛋白結構中。

進一步利用同源建模的方法預測這4個蛋白的三級結構。由圖5-A可知，中國蓮的4個P1B-ATPase蛋白都主要由α-螺旋、無規卷曲元件組成，這與二級結構預測的4個蛋白中α-螺旋、無規卷曲所占比例高的結果相符合，它們與二級結構元件在種類及比例上存在較大的相似性，推測這可能與中國蓮P1B-ATPase蛋白在進化過程中存在較多的保守序列有關。此外，NnHMA2和NnHMA3蛋白的三級結構較相似，說明這2種蛋白在親緣關系上較近，這與圖1中系統進化樹上顯示的結果一致。NnHMA4的三級結構與其他3個蛋白的差異較明顯，結合圖1中4個蛋白所含模體的類型和數量比對情況，推測這可能與篩選得到的NnHMA4蛋白的編碼基因在進化過程中出現部分序列缺失，導致蛋白質序列長度較短有關。

注：藍色區域表示α-螺旋，綠色區域表示β-轉角，紅色區域表示延伸鏈，紫色區域表示無規卷曲。

在蛋白質三級結構預測模型的檢驗拉式圖(Ramachandran)中，藍線內是最合理的主鏈二面角Phi(Φ)、Psi(Ψ)分布區域，紅色線內則為可接受區域，而在紅線之外的區域則為不合理區域。如果預測蛋白質殘基的二面角Phi、Psi有90%以上落于藍線內，則表示預測的蛋白質三維結構合理，具有較穩定的空間結構。由圖5-B可見，同源建模構建的4個中國蓮P1B-ATPase蛋白空間結構主鏈二面角Phi、Psi，落于藍線內中心區域的氨基酸殘基占90%以上，落于紅線內的主鏈二面角Phi、Psi亦有9%左右，絕大多數主鏈二面角Phi、Psi均在正常范圍內，僅有少量氨基酸殘基的二面角Phi、Psi落于不合理區域。從理論上表明，本研究預測的4個中國蓮P1B-ATPase蛋白的三維空間結構是合理可靠的。

3 討論與結論

P1B-ATPase蛋白是植物吸收、轉運重金屬離子過程中的一類重要轉運蛋白，已有研究結果顯示，不同P1B-ATPase蛋白對重金屬離子的種類具有一定的選擇性，可依據轉運重金屬的特異性將它們劃分為Zn亞類(轉運重金屬離子Zn2+/Co2+/Cd2+/Pb2+)和Cu亞類(Cu+/Ag+)[28]。本研究通過對擬南芥、水稻、中國蓮P1B-ATPase蛋白的保守基序預測，同樣將P1B-ATPase蛋白劃分為Zn亞類和Cu亞類，擬南芥的AtHMA1、AtHMA2、AtHMA3、AtHMA4與水稻的OsHMA1、OsHMA2、OsHMA3及中國蓮的NnHMA1屬于Zn亞類，而擬南芥的AtHMA5、AtHMA6、AtHMA7、AtHMA8與水稻的OsHMA4、OsHMA5、OsHMA6、OsHMA7、OsHMA8、OsHMA9以及中國蓮的NnHMA2、NnHMA3、NnHMA4屬于Cu亞類。這2個亞類的P1B-ATPase蛋白均含有一些保守基序，如DKTGT、GDGxNDxP、TGE、C/SPx、HP。有研究表明，P1B-ATPase蛋白的若干保守基序通常位于蛋白的不同結構域中，直接或間接參與該類蛋白的金屬離子跨膜轉運，它們的變異可能會導致相應基因及其編碼蛋白的功能發生改變[7，10，15，24，26-27]，如DKTGT、GDGxNDxP基序通常位于P1B-ATPase蛋白的大胞質環上的磷酸化位點(P-domain)結構域，與該類蛋白的金屬離子轉運能力有關[32-33]，GDGxNDxP基序中的D(天冬氨酸，Asp)殘基影響著蛋白與Mg2+的結合[34]，TGE基序通常位于小胞質環上的脫磷酸化位點(A-domain)，參與金屬離子轉運過程[25]，而HP基序一般較為保守，位于ATP結合區域(N-domain)，有研究表明，該區域參與了蛋白與ATP相互結合的過程，HP基序在此過程中扮演著重要角色[35]。此外，Mills等的研究結果顯示，C/SPx基序中的Cys(半胱氨酸)對蛋白的活性起到重要作用，它的突變可以導致P1B-ATPase蛋白轉運金屬離子活性缺失[36]。本研究發現，中國蓮NnHMA4不含有GDGxNDxP基序，但含有上述的其他保守基序，由此推測，NnHMA4可能不參與Mg2+的轉運過程。本研究通過采用中國蓮、擬南芥、水稻的 P1B-ATPase蛋白的氨基酸序列構建進化樹發現，3個物種的P1B-ATPase蛋白明顯聚類為2個亞類，其中中國蓮的NnHMA1屬于Zn亞類，中國蓮的NnHMA2、NnHMA3、NnHMA4屬于Cu亞類，表明依據序列的相似性程度推斷蛋白的功能具有一定的準確性。

探明蛋白質的二、三級結構是解析蛋白空間結構與功能相關性的關鍵，利用生物信息學軟件預測蛋白的二、三級結構是一種簡捷、有效的方法[37]。本研究對中國蓮的P1B-ATPase蛋白結構進行生物信息學預測和分析，二級結構預測結果顯示，4個中國蓮P1B-ATPase蛋白由α-螺旋、無規卷曲、延伸鏈和β-轉角4個元件構成，其中無規卷曲和α-螺旋所占比例之和高于50%，在NnHMA1中無規卷曲在該蛋白所有二級結構單元中所占比例最大，NnHMA2、NnHMA3和NnHMA4中均以α-螺旋為主。目前，同源建模、折疊識別和從頭預測法是蛋白質三級結構預測最常用的3種方法[37]。本研究利用同源建模方法對中國蓮P1B-ATPase蛋白進行三級結構模擬，由三級結構圖可知，4個蛋白以α-螺旋、無規卷曲為主要結構單元，這與二級結構預測的結果相符合。此外，還發現不同中國蓮P1B-ATPase蛋白的序列中雖然存在眾多保守基序如DKTGT、HP等，部分空間結構也存在一定的相似性，但它們的空間整體構型存在較大差異，特別是進化關系相對較遠的蛋白之間差異更加明顯，這可能與它們所具有的轉運不同重金屬離子的功能有關。

已有的關于植物P1B-ATPase蛋白及其編碼基因的結構和功能等方面研究，目前主要集中在擬南芥、水稻、大麥、大豆等陸生草本植物上，在大型水生植物上的研究投入相對較少。而大型水生植物在生長速度、生物量和潛在的景觀效應方面具有一定優勢，使其在植物修復水體重金屬污染方面具有較大的應用價值。本研究應用生物信息學手段系統預測和分析了中國蓮中可能存在的P1B-ATPase蛋白亞家族成員的基本信息，探討了其結構與重金屬轉運、吸收等功能的關系，這些信息為進一步探究大型水生植物的重金屬修復分子機制提供了理論參考，對今后開展基因工程育種研究具有重要的指導意義。