摘要:采用大分子對接程序DOT對20個具有代表性的蛋白質-DNA體系進行對接,對對接結果就各打分項與體系中的帶電性問題和構象變化問題之間的具體關系進行分析。結果表明,采用DOT對大部分蛋白質-DNA體系都找到了精確度較高的對接結果;范德華能和靜電能對DOT組合能的貢獻反映了蛋白質-DNA體系的天然特性;對接面上允許的碰撞原子個數(NB參數)與蛋白質和DNA結合前后溶劑可達表面變化面積(ASA)呈正比關系。
關鍵詞:蛋白質-DNA對接;DOT;構象變化
中圖分類號:Q615 文獻標識碼:A 文章編號:0439-8114(2013)23-5889-05
蛋白質和DNA是構成生命體最為重要的兩類生物大分子,在基因表達調控、蛋白質翻譯和細胞分裂等過程中發揮著極其重要的作用[1]。通過研究蛋白質-DNA復合物的相互作用可以了解核酸在生物學過程中所發揮的基礎作用,還可以為設計針對核酸的藥物提供參考[2]。但是,通過試驗方法直接測定蛋白質-DNA復合物結構仍相當困難[3],截至2012年10月28日,蛋白質數據庫(Protein data bank,PDB)中數據總數已超過80 000個,而其中蛋白質-DNA復合物結構卻不足2 500個,如果考慮結構之間的同源性,則保留下來的結構就更少了。因此分子對接作為重要的復合物結構預測模擬方法之一,可為復合物結構預測提供有益的參考依據[4,5]。
目前,關于蛋白質-蛋白質對接,蛋白質-DNA對接的研究進展緩慢。主要困難在于:第一,缺乏蛋白質的氨基酸和DNA的堿基對之間有關識別模式的信息[6];第二,DNA的帶電性更加復雜,尤其是核糖磷酸鹽骨架的帶電性問題大大增加了評估系統靜電能量穩定性的難度;第三,核酸在結合過程中發生的構象變化比較大。在蛋白質跟核酸的結合過程中,除了蛋白質的邊鏈會發生構象變化外,DNA的螺旋結構也有可能發生全局的構象變化,例如彎曲和解螺旋[7]。
本研究把大分子對接程度DOT應用在蛋白質-DNA的對接中,并對對接結果進行分析,目的在于找出具有普遍意義的蛋白質-DNA對接方法中各打分項與體系中的帶電性問題和構象變化問題之間的具體關系,以期有助于今后研究具有更高精確度的蛋白質-DNA對接方法。
1 材料與方法
1.1 DOT程序介紹
DOT是由Mandell等[8]開發的適用于大分子快遞對接的程序。它的打分項只包含范德華能和靜電能2項,通過運用卷積定理分別把靜電能函數和范德華能函數改寫成相關函數形式,再引入傅里葉變換把計算復雜度從N2降至NlogN,由此得到的高效DOT特別適合應用于研究蛋白質-DNA此類比較大的復合物體系上。此外,由于蛋白質-DNA體系中DNA的強帶電性以及在結合過程中發生的構象變化[9]會分別反映在靜電能和范德華能2個打分項上,因此選用DOT對蛋白質-DNA體系進行對接,對后續的結果分析更有針對性。
1.2 試驗數據來源及預處理
本研究從Van Dijk等[10]的蛋白質-DNA數據集中選取了具有代表性的20個體系進行分析。根據蛋白質和DNA對接時發生構象變化的程度,這些體系被劃分為低、中、高3個不同級別的難度。這個數據集包含了蛋白質和DNA的結合態與非結合態結構,有利于研究蛋白質-DNA對接過程中發生的柔性變化。其中,對于非結合態和結構不完整的結合態DNA,用3DNA程序[11]按照B型雙螺旋結構對DNA進行修補,由于這些缺失的堿基一般出現在DNA雙鏈的兩端,因此不會對后續的對接產生影響。為了模擬化合物中氫鍵所產生的作用,用REDUCE程序[12]為受體和配體加上極性氫原子。為了檢驗不同體系在結合過程中受靜電能和范德華能影響的差異,選取在規模方面具有代表性的體系進行試驗,具體表現為帶電性和溶劑可達表面積(ASA)這兩個體系參數的差異度上,具體見表1。從表1中可以看到,1bdt、1f4k、1tro等體系都具有比較強的帶電性,而ASA值則相對較小;相反,1rva、2fl3、2oaa等體系中復合物的ASA值比較大,而體系的帶電性則相對較小。
1.3 試驗方法
本試驗對選取的20個蛋白質-DNA體系中蛋白質和DNA的結合態以及非結合態結構進行了不同的組合,分別是蛋白質和DNA的結合態-結合態(B/B)、結合態-非結合態(B/U)、非結合態-結合態(U/B)以及非結合態-非結合態(U/U)。另外,對每個體系的所有組合在對接面上允許的碰撞原子個數參數進行調整,以觀察蛋白質-DNA體系在對接過程中所發生的構象變化程度。所有體系都以蛋白質為受體,DNA為配體,在剛性對接階段配體圍繞受體每次旋轉6 °進行采樣,最后得到54 000個構象結果,并以DOT復合打分函數對這些構象進行打分并排序。
2 結果與分析
2.1 對接結果
DOT對20個體系的蛋白質結合態-DNA結合態組合進行對接的結果見表2。取能量最優的前30 000個結果,以復合物天然構象中的DNA和對接結果中的DNA重原子之間的RMSD值作為評判標準,從表2可以看出,除了1b3t和1tro以外其他體系都找到了RMSD值小于3 ?魡的結果。對每個體系取適當的RMSD閥值,考察DOT組合能、靜電能和范德華能在閥值以內找到的位于前100名最優能量的結果數量,以及排名最高的結果和其對應的RMSD值。除了1bdt和1diz以外的大部分體系,DOT都可以在前100位的結果中找到閥值以內的較優構象。對于體系1emh、1rva、1tro、1vas、7mht,即使在單獨用靜電能或者范德華能作為打分函數時找不到較優結果的情況下,在DOT組合能中也可以找到較優的結果。從整體上來說,DOT組合能找到最優結果數量的能力也要強于靜電能和范德華能。
2.2 范德華能和靜電能對對接結果的影響
如圖1所示,通過分析體系中蛋白質和DNA的帶電性以及溶劑可達表面積的變化,考查靜電能和范德華能對DOT組合能的影響程度。發現有以下3種情況:①圖1A為1zme體系中B/B組合前200位對接結果各能量之間的關系圖,可以看出靜電能在DOT組合能中占有主導地位,這跟1zme體系的強帶電性是相匹配的;②圖1B為2oaa體系中B/B組合前200位對接結果各能量之間的關系圖,從圖中可以看到范德華能在DOT組合能中占有主導地位,這與2oaa體系中蛋白質和DNA溶劑可達表面積的明顯變化是相匹配的;③圖1C是1hjc體系中B/B組合前200位對接結果各能量之間的關系圖,可以看到范德華能和靜電能對DOT組合能的貢獻都相對平均,這與1hjc體系帶電性不強,蛋白質和DNA溶劑可達表面積變化不大是匹配的。
2.3 構象變化分析
圖2為體系1azp、2irf、1by4、1k79、1b3t、2fl3的對接結構圖。第1組體系1azp、2irf的ASA值較小,在1 000 ?魡2以下;第2組體系1by4、1k79的ASA值適中,約為1 500 ?魡2;第3組體系1b3t、2fl3的ASA值最大,在2 000 ?魡2以上。從圖2中可以看到,3組體系B/B組合的對接結果都幾乎與天然結構重合,而B/U組合的對接結果則隨著ASA值的增大而變差。這是由于ASA值度量的是蛋白質和DNA在結合前后于接觸面上發生的溶劑可達表面積變化的程度,它與復合物對接后的構象變化有著直接關系。對于構象變化越大的體系,使用非結合態DNA結構作為配體進行對接的難度就越大。
本研究通過調整DOT程序的NB(number of bumps)參數以研究不同體系的構象變化情況。NB參數表征了蛋白質和DNA在結合過程中接觸面上允許發生碰撞的原子個數。在實際情況中,DNA在與蛋白質的結合過程中是不可能侵入到蛋白質內部的,也就是其原子不可能發生碰撞,但適當放松允許發生碰撞的原子個數,可以模擬結合過程中在接觸面上發生的構象變化。由于在蛋白質和DNA的對接中,DNA的雙螺旋結構往往會發生一定程度的構象變化,因此NB參數的取值對結果的影響非常大。體系ASA值的大小某個程度上表征了構象變化的程度,因此考察NB參數和ASA值之間的關系,實際上反映了NB參數和體系構象變化程度之間的關系。
從圖3可以看出,對于不同體系的包含非結合態結構的組合中,當體系的ASA值較小時,對接結果的RMSD值隨著NB參數的增大而增大;當體系的ASA值適中時,對接結果的RMSD值在NB參數為中間范圍值時最小;當體系的ASA值較大時,對接結果的RMSD值隨著NB參數的增大而減小。圖3A中的曲線總體呈上升趨勢,說明對接的最優解都出現在NB參數取值較小處,配體DNA基本不需要通過模擬的碰撞來調整結構就可以跟受體蛋白質進行精確的對接,這與體系的ASA值較小,在對接前后基本沒有發生構象變化相匹配。圖3B中的曲線最低點基本出現在中部,說明對接的最優解在NB參數取靠近中間值,通過允許配體DNA的原子與蛋白質原子發生輕微碰撞以適應對接過程中發生的構象變化,這與體系的ASA值都在1 500 ?魡2左右的中間位置,并且在對接前后發生的輕微構象變化相匹配。圖3C中的曲線總體上呈下降趨勢,說明對接的最優解在NB參數取值較大處,通過加大配體DNA原子與蛋白質原子在接觸面上的碰撞個數以模擬大范圍的構象變化來提高對接精度,這與體系的ASA值都在2 000 ?魡2以上,在對接前后發生的明顯構象變化相匹配。
3 小結與討論
本研究使用大分子對接程序DOT對蛋白質-DNA的對接方法進行了研究,結果如下。
1)DOT對不同體系的蛋白質-DNA對接具有普遍適用性,在相對短的時間里能夠找出接近天然結構的構象。
2)對于帶電性比較強的體系,靜電能在蛋白質和DNA的結合過程中占主導地位;對于在結合過程中發生的柔性變化比較大的體系,范德華能在蛋白質和DNA的結合過程中占主導地位。在此結論的基礎上,為了提高對接方法的精確度,對于已知帶電性較強的蛋白質-DNA體系,可在打分函數中適當加大靜電能的權重;而對于已知帶有柔性特征結構的體系,例如彎曲和解螺旋,可在打分函數中適當加大范德華能的權重。
3)在DOT對接程序中,根據體系ASA值的不同情況,可通過調整NB參數使對接結果的RMSD值盡量優化。這表明對于已知在結合位點上帶有易于發生構象變化結構的體系,可根據特定結構發生構象變化程度的經驗數據來調整NB參數,從而提高對接的成功率。
在本研究中,雖然DOT對大部分蛋白質-DNA體系都可以找到精確度較高的結果,但是這些結果的排名并不好,因此通過改進DOT打分函數對結果進行二次排序,以提升高精度結果的排名將成為今后的研究重點。
參考文獻:
[1] YANG W, VAN DUYNE G D. Protein-nucleic acid interactions: From A(rgonaute) to X(PF)[J]. Current Opinion in Structural Biology,2006,16(1):1-4.
[2] GAN J H, JIA S, ZHEN H. Chemical and structural biology of nucleic acids and protein-nucleic acid complexes for novel drug discovery[J]. Science China Chemistry,2011,54(1):3-23.
[3] VELANKAR S, BEST C, BEUTH B, et al. PDBe: Protein data bank in Europe[J]. Nucleic Acids Research,2010,38(1):308-317.
[4] RITCHIE D W. Recent progress and future directions in protein-protein docking[J]. Current Protein and Peptide Science,2008,9(1):1-15.
[5] VADJDA S, KOZAKOV D. Convergence and combination of methods in protein-protein docking[J]. Current Opinion in Structural Biology,2009,19(2):164-170.
[6] GAO M, SKOLINICK J. From nonspecific DNA-protein encounter complexes to the prediction of DNA-protein interactions[J]. PLoS Computational Biology,2009,5(3):1-12.
[7] VAN DIJK M, VAN DIJK A D J, HSU V, et al. Information-driven protein-DNA docking using HADDOCK: It is a matter of flexibility[J]. Nucleic Acids Research,2006,34(11):3317-3325.
[8] MANDELL J G, ROBERTS V A, PIQUE M E, et al. Protein docking using continuum electrostatics and geometric fit[J]. Protein Engineering Design Selection,2001,14(2):105-113.
[9] 劉董敏,常 珊,胡建平,等.蛋白質-核酸對接方法研究進展[J]. 現代生物醫學進展,2012,12(5):979-983.
[10] VAN DIJK M, BONVIN A M J J. A protein-DNA docking benchmark[J]. Nucleic Acids Research,2008,36(14):88.
[11] LU X J, OLSON W K. 3DNA: a versatile, integrated software system for the analysis, rebuilding and visualization of three-dimensional nucleic-acid structures[J]. Nature Protocols,2008,3(7):1213-1227.
[12] WORD J M, LOVELL S C, RICHARDSON J S, et al. Asparagine and glutamine: using hydrogen atom contacts in the choice of side-chain amide orientation[J]. Journal of Molecular Biology,1999,285(4):1735-1747.