999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多結構域蛋白質結構預測方法綜述

2022-12-04 07:38:28張貴軍侯銘樺彭春祥
電子科技大學學報 2022年6期
關鍵詞:結構方法模型

張貴軍,侯銘樺,彭春祥,劉 俊

(浙江工業大學信息工程學院 杭州 310023)

2005 年《Science》雜志在創刊125 周年之際,發表“能否預測蛋白質折疊?”,被列為21 世紀125個最具挑戰性的科學前沿問題之一[1]。蛋白質分子機器如何自發地組裝形成特定功能結構是生物學中心法則完整圖景中一個最為關鍵的遺留問題,是生命科學領域尚未解決的重大基礎性科學問題之一。

1994 年,美國馬里蘭大學的Moult 課題組創立了世界性的蛋白質結構預測競賽CASP(critical assessment of structure prediction),進行兩年一度的盲評估,以促進研究、監控進展,并確立蛋白質結構預測的最新水平[2]。CASP 測試蛋白分為基于模板(template based modeling, TBM)和無模板(free modeling, FM)兩類。TBM 類可以將PDB(protein data bank)結構數據庫中的已有實驗結構作為模板進行同源建模,其建模精度與實驗測定水平相仿[2]。相對而言,缺乏同源模板的FM 類蛋白難度更大,更具有挑戰。受限于能量模型不精確性和構象空間采樣瓶頸[3],從CASP5(2002 年)到CASP10(2012 年)10 年間,FM 預測方法陷入了長期的發展停滯期[4]。2014 年,共進化方法被引入CASP11 接觸預測組,接觸預測準確性出現了進步的跡象[5]。至此,結合共進化接觸預測的構象采樣方法成為FM 預測的主流。經過兩年的發展,尤其是深度卷積殘差網絡ResNet 的首次應用[6],在2016 年的CASP12 中,接觸預測精度提升至47%[7]。2018 年的CASP13 中,通過將接觸拓展為殘基間距離,接觸殘基對的預測精度達到70%[7-8]。在蛋白質接觸圖及距離深度學習預測技術進步的推動下[5],在CASP13 中,FM 類目標蛋白的平均GDT_TS(global distance test total score)超過了60。

在2018 年的CASP13 中,Google 的DeepMind團隊憑借其開發的AlphaFold 在43 個FM 類目標蛋白中拿到25 個單項最佳模型,并獲得總分第一名[8]。在2020 年的CASP14 中,Google 的Deep-Mind 團隊開發的第二代人工智能(artificial intelligence, AI)蛋白質結構預測程序AlphaFold2[9],在中等難度目標蛋白上基本達到實測測定結構精度。CASP 評委Andrei Lupas 教授在接受《自然》雜志的采訪中講道[10]:“它將改變醫學、改變研究、改變生物工程、改變所有!”。隨后,華盛頓大學Baker 課題組開發了一種新的AI 蛋白質結構預測三軌網絡RoseTTAFold[11],預測精度接近AlphaFold2。由 于AlphaFold2 和RoseTTAFold 在蛋白質結構預測領域的突破,蛋白質結構預測算法被《Nature Methods》雜志評選為“2021 年度方法”。AI 預測蛋白質結構顯然是結構生物信息學領域的重大突破,但是正如著名生物學家、斯坦福大學Brunger 教授在《Science》雜志上發表的論文中指出,蛋白質結構預測問題距離“解決”仍然很遠[12]。

通過對蛋白質組學數據的分析,2003 年劍橋大學Chothia 等人在《Science》雜志發文指出:自然界生物中大約有超過80%的真核蛋白和67%的原核蛋白含有多個結構域[13]。2019 年8 月本課題組對PDB 庫的統計結果也表明[14],在17 多萬個實驗結構測定蛋白中共包含了608 044 個單鏈結構,其中只有34.7%的單鏈為多域蛋白。考慮到PDB 庫中存儲的蛋白結構均為實驗測定這一事實,可以得到一個明顯的結論:由于X 衍射、NMR(nuclear magnetic resonance)及冷凍電鏡等結構生物學實驗測定手段的技術瓶頸,多域蛋白結構實驗測定速度遠遠低于單域蛋白。而AlphaFold2 和RoseTTAFold預測過程中不但使用了同源序列信息,還包括了結構模板信息。這意味著對于多結構域全長鏈蛋白,當無法檢測到全長鏈模板時,或者每個結構域具有不同的同源序列時,直接通過單結構域的方式預測全長鏈多結構域蛋白效果并不理想[7]。

2019 年Moult 發表的CASP13 綜述論文指出,具有多個單結構域的全長鏈建模(即多域蛋白質結構預測)將會是未來CASP 競賽的發展趨勢[2]。本文結合國內外研究現狀以及本課題組開展的一些研究工作,針對多結構域蛋白質結構預測方法的研究進展進行分析和綜述。

1 結構域

結構域(domain)是位于二級結構和三級結構之間的一個層次,一般由100~250 個氨基酸殘基組成。結構生物學領域普遍認為結構域是蛋白質三級結構內的獨立折疊單元[13]。一條較長的蛋白質全長單鏈通常會包括若干個結構域,某些區域相鄰的氨基酸殘基首先形成有規則的二級結構,然后由若干二級結構折疊成近似于球狀的結構域,最后通過兩個或多個結構域組裝形成多結構域蛋白(多域蛋白)的三級結構。圖1 給出了多域蛋白(PDBID:4fkcA)的一級序列結構、二級結構、結構域、多域蛋白空間折疊過程的示意圖。

圖1 多域蛋白空間折疊過程示意圖(PDBID: 4fkcA)

同時,結構生物學領域也普遍認為結構域是一個獨立的功能單元,承擔著獨立的生物學功能。然而,從生物學意義上來講,結構域間締結對于促進以協作方式實現多個相關的功能至關重要,如糜蛋白酶功能就是通過兩個結構域之間接觸面所形成的活性位點來完成。在多域蛋白中,連接兩個結構域之間鉸鏈區(linker)的結構柔韌性,使結構域間容易發生相對運動,這將有利于結合底物或施加應力,有利于別構中心結合調節物并發生別構效應,以利于酶對反應的催化,這些部位往往是活性中心所在的部位,或是變構物結合的部位。因此,闡明多域蛋白的結構有助于理解其所具備的重要生物學功能。

2 國內外研究現狀

蛋白質結構預測一直受到計算生物學領域和計算智能社區的高度關注,是一個前沿研究課題。其中具有代表性的有:張陽課題組開發的I-TASSER系列[15]連續八屆(CASP7~CASP14)在CAS 服務器組排名第一;谷歌DeepMind 開發的AlphaFold系列自從2018 年首次進入結構預測領域后,連續兩屆在CASP 人工組排名第一[8];Baker 課題組盡管在過去幾年中工作重點已投入到從頭設計蛋白質,然而,開發的Rosetta 系列[16-17]二十多年來在結構預測領域得到了“教科書”式的廣泛應用,2020 年CASP14 中人工組排名僅次于AlphaFold2;許錦波課題組第一次將ResNet 應用在蛋白質接觸預測[6],真正推動了深度學習在蛋白質殘基接觸、殘基間距離的應用,是蛋白質預測領域發展的里程碑,在2018 年的CASP13 中,許錦波團隊開發的RaptorX 系列在Contact 組名列前茅[7]。

總之,AlphaFold 系列、I-TASSER 系列、Rosetta系列、RaptorX 系列等方法和服務器基本代表了蛋白質結構預測領域近五年來最先進的主流預測技術。從中也不難發現,無模板方法與基于模板方法、傳統理化能量模型與深度學習知識能量模型、片段采樣和幾何優化方法之間的界限越來越模糊,它們之間相互融合,共同促進。這使得對所有這些方法進行嚴格分類并不是一件容易的事情。本文主要針對單域蛋白結構預測方法、多域蛋白結構組裝方法以及端到端的單體蛋白預測方法3 部分展開討論。單域蛋白結構預測方法主要按照基于理化知識模型的模擬方法和基于深度學習模型的能量極小化方法兩類進行分析。

2.1 單域蛋白結構預測:基于理化知識模型的模擬方法

這類方法的基本思想是首先建立蛋白質主鏈粗粒度和全原子細粒度表達模型,綜合考慮分子間物理化學作用及從蛋白質序列庫、結構庫推斷出的結構特征知識,分別構建基于理化知識的粗粒度和細粒度蛋白質能量數學模型。其次,基于粗粒度能量模型,設計構象空間優化方法搜索能量函數的全局最優構象,進而在細粒度模型能量函數的引導下,對全局最優構象進行結構精修。代表性的能量模型主要有I-TASSER、QUARK[18]及Rosetta[16-17]。模型優化方法主要包括:Metropolis 蒙特卡羅極小化(Metropolis Monte Carlo, MMC)[19]、副本交換蒙特卡羅 (replica exchange Monte Carlo, REMC)[20]、分子動力學模擬(molecular dynamics, MD)[21]及進化算法[3,22-23]等。

此外,針對蛋白質構象空間的高維特性,片段組裝策略利用已測定蛋白質結構的局部信息,將連續的二面角度構象空間優化問題轉變成了離散的片段組合優化問題,有效地減少了構象搜索空間,對基于理化知識模型的模擬方法發展起到了巨大的推動作用[15-16,24]。從1994 年CASP1 到2020 年CASP14 的26 年間,基于理化知識模型的模擬方法在CASP 競賽中占據了支配性地位。在2020 年底結束的CASP14 競賽中,I-TASSER 在服務器組中排名第一,Rosetta 在人工組中排名第二(第一名為AlphaFold2[9])。

I-TASSER[25-26]和QUARK[27]是兩款蛋白質結構預測服務器。I-TASSER 使用穿線方法識別PDB庫中的結構模板,基于結構模板構建蛋白模型;QUARK 則是在理化知識能量模型的引導下,采用REMC[20]方法對序列上長度為1~20 個殘基的特定位置進行片段組裝生成蛋白模型。張陽課題組還整合了QUARK 與I-TASSER 兩種方法,論證了模板建模和無模板建模方法的結合可以有效提升從頭預測的精度[28]。在2016 年的CASP12 中,通過在QUARK 中加入NeBcon[29]預測的接觸約束,前5個預測模型平均TM-score 為0.41,相對于不使用接觸約束的QUAKR 模型高出了37%[30],這表明接觸約束可以有效提升FM 目標蛋白的預測精度。在2018 年的CASP13 中,采用新開發的序列比對生成協議,進一步將基于深度學習的接觸預測方法ResPRE[31]集成到NeBcon 元方法中,有效提升了蛋白殘基間接觸預測的精確度。同時,對指導結構采樣的接觸勢能做了進一步優化,推出了C-ITASSER[32]和C-QUARK[33]兩個版本。對于CASP13中的50 個FM 目標域蛋白,C-I-TASSER 和CQUARK 構建的第一個模型平均TM-score 分別比I-TASSER 和QUARK 的構建模型高出28%和56%。而且,第一次證明了接觸預測在TBM 目標域蛋白上的有效性[15]。在2020 年的CASP14 中,D-ITASSER 和D-QUARK 再次在服務器組中拔得頭籌。性能提升的關鍵在于3 個方面:引入深度學習算法精確預測氨基酸間距離和氫鍵;利用I-TASSER平臺將穿線模板與深度學習預測的距離和氫鍵約束有機結合;使用宏基因組構建高質量的多序列比對。

Rosetta[16-17]是生物大分子建模軟件,集成了蛋白質結構建模和分析的各種采樣算法和能量函數。除了蛋白質結構預測Rosetta Abinitio 模塊之外,還提供了從頭蛋白質設計、酶設計及分子對接等功能。Rosetta 提供一個靈活的功能庫來完成各種生物分子建模任務。這些庫定義的基本任務和操作作為算法被組合在一起,稱為“Protocols”,每種Protocol 都使用Rosetta 的分子建模庫來完成特定的建模任務。這些協議可以用作獨立單元,也可以將它們鏈接在一起以完成更復雜的任務,如可以在通用框架內組合Protocols。這些特征使得Rosetta在蛋白質結構預測領域得到了廣泛應用,極大地推動了蛋白質結構預測領域的發展。CASP11 競賽中,從共進化分析得到的殘基間接觸被用作作為約束條件,使得預測的模型質量普遍得到提高。之后,Baker 意識到如果一個蛋白質家族有足夠多的序列,則可能根據進化期間的共變現象來推斷出殘基間的接觸關系。但是,如果目標蛋白沒有足夠的多樣性多序列比對(multiple sequence alignment,MSA)時,是否可以通過宏基因組獲取呢?基于上述思想,2017 年Baker 課題組首次將宏基因組數據整合在Rosetta 中,相關工作發表在《Science》雜志上[34]。該研究結果表明,基于宏基因組數據可以產生精度更高的接觸信息,結合基于接觸的結構匹配和Rosetta 采樣方法,成功預測了614 個未知結構的蛋白質模型。這一工作對蛋白質結構預測領域有著深遠影響,在2020 年的CASP14 上,可以看到AlphaFold2、I-TASSER、QUARK 等最先進的預測方法中均利用了宏基因組的數據信息。同年,文獻[35]研究發現在超過4 000 個蛋白質家族中,有25%的直接共進化殘基對在三維結構上距離超過5?,3%殘基對三維空間結構距離超過15?。這一發現為2018 年開始興起的距離預測提供了重要的理論依據。

2.2 單域蛋白結構預測:基于深度學習模型的能量極小化方法

這類方法的基本思想是針對特定查詢蛋白序列,首先,通過序列比對方法對蛋白序列(或宏基因組)數據庫進行搜索生成多序列比對(MSA)序列集合。然后,基于共進化原理,通過深度學習方法分析MSA 中的協同進化模式,推斷出三維結構空間中殘基間的接觸、距離、方位等空間約束條件。最后,基于空間約束條件直接構建數學模型,通過優化方法直接求解得到蛋白質三維結構模型。2011年,文獻[36]在基于共進化方法預測蛋白質結構的挑戰方面邁出了一大步,并在隨后的CASP11~CASP14 中得到廣泛驗證。2012 年,程建林課題組最先把深度學習技術應用到共進化分析方面[37],徹底改變了傳統的接觸、距離預測技術[38-39]。2017年,許錦波課題組首次將深度卷積殘差神經網絡(ResNet)應用到共進化分析接觸預測,第一次真正意義上展現了深度學習在蛋白質結構預測領域的巨大力量[6]。這些事件都是蛋白質結構預測領域的里程碑。

深度學習方法經過了2012 年CASP10 的萌芽階段,2014 年CASP11 的驗證階段,2016 年CASP12的發展階段和2018 年CASP13 完善階段之后,在2020 年的CASP14 中最終取得了重大進展和突破。DeepMind 開發的AlphaFold2[9]通過端到端的深度學習,甚至可以直接從序列學習到蛋白質精確的三維結構。CASP 競賽發起者之一,Moult 在2019 年指出[2]:“在蛋白家族中有足夠數量序列的前提下,最新(指深度學習)預測方法基本上解決了長期以來單結構域蛋白質折疊拓撲結構預測的難題,而且比對所需要的序列數量已大幅下降,同時對基于模板建模方法的準確性也有了實質性的提高。”深度學習方法似乎可以有效地集成關于共同進化殘基對、片段之間相互作用信息,或者利用序列相似性的記憶信息,有時甚至可以在幾乎沒有任何目標特定進化信息的情況下提供準確預測結果[5]。

許錦波課題組在ResNet 接觸預測的思路上往前推進了一步。他們發現距離(連續值)比接觸(0或1)更有用,通過深度學習整合模板和共進化信息,可以有效改善蛋白質結構建模質量。在CASP13中,許錦波課題組開發了基于距離的接觸預測、穿線及折疊方法的RaptorX 3 個服務器版本。在32 個CASP13 FM 目標上,RaptorX 在46 個參賽組中獲得最佳接觸預測排名,也是服務器組中最好的三維結構預測服務器之一。RaptorX 在前L/5、L/2 和L 遠程接觸預測精度分別達到了70%、58%和45%,在所有參賽組中得到了T0950-D1 和T0969-D1的最佳三維結構預測模型[7]。同一時期,2018 年DeepMind 首次參加CASP13 三維結構預測人工組競賽,并推出了蛋白質結構預測一代產品AlphaFold[8]。AlphaFold 采用了與學術界近乎同樣的方法(或是同期并行開展),通過訓練ResNet 網絡學習距離約束,進而構建距離約束數學模型,通過擬牛頓優化方法求解結構模型,并且不對多域蛋白進行分割,直接進行全長鏈建模。AlphaFold 在人工組中累計總分68.3,排名第一(排名第二為張陽實驗室I-TASSER系列,總分為48.2),并在43 個目標蛋白質中獲得了25 個單項最佳模型。AlphaFold 的實質性進展成功地表明通過簡單的幾何優化方法,輔以高精度的距離預測約束,是一種行之有效的蛋白質結構預測方式。在之后的一年中,文獻[16]進一步將接觸、距離預測擴展到方位預測,并將其集成到Rosetta 能量模型中,并采用能量幾何極小化方法求解結構模型,開發出了trRosetta。預測的方位相對于距離/接觸而言,包含了不對稱信息,能夠有效避免數據的不一致性問題,在精度和效率方面基本與AlphaFold 持平。隨后,楊建益課題組進一步改進網絡架構并加入模板開發了trRosettaX[40],在CASP14 的盲測中被評為頂級服務器組之一。

同時,幾個研究團隊在CASP13 上提出并開發了相應基于深度學習的接觸預測和三維結構預測方法與服務器。文獻[41]分別基于協方差、精度和偽極大似然估計建立3 個譜矩陣,作為深度殘差卷積神經網絡結構的輸入特征,用于接觸圖訓練和預測。通過端到端的訓練和疊加,提出了兩種集成矩陣特征的整合策略,開發了兩個互為補充的接觸圖預測服務器TripletRes 和ResTriplet。文獻[39]開發了蛋白質結構預測系統MULTICOM 的增強版本。MULTICOM 增強版本主要包括基于深度卷積神經網絡的殘基-殘基對距離預測、距離驅動的自由模板建模以及基于深度學習和接觸預測技術的蛋白質模型質量評估等3 個部分。文獻[42]基于序列比對的改進方法和擴展數據源,設計開發了一種基于深度學習的接觸預測工具DeepMetaPSICOV(DMP)。在原先MetaPSICOV 和DeepCov 算法的基礎上,DMP 融合兩種算法的輸入特征,并將之作為深度全卷積殘差神經網絡的輸入特征。此外,2020 年,文獻[43]提出了一種接觸預測方法AmoebaContact,并設計了基于梯度下降的GDFold方法求解接觸約束模型,通過修改AmoebaNet 的NAS(neural architecture search)算法,自動搜索神經網絡架構來完成接觸圖預測任務。

2.3 多域蛋白結構組裝方法

整體來講,目前在蛋白質結構預測領域,包括14 屆CASP 競賽在內,主要還是關注于單域蛋白預測問題。相對于單域蛋白而言,目前多域蛋白結構預測問題研究工作要少得多。現有文獻中多域蛋白質預測方法主要分為基于鉸鏈區采樣和基于分子剛體對接兩類方法。在鉸鏈區采樣方法中考慮到多域蛋白質全長肽鏈連接性的因素,多域蛋白預測問題可以看作是單域蛋白結構折疊過程的一個特例,即保持每個單域結構剛性,通過調整鉸鏈區構象來實現多域組裝建模。因此,用于單域蛋白質預測的能量函數和構象空間采樣方法(如Rosetta)經過一定的修正可應用于該問題[11]。在分子剛體對接方法中,考慮到結構域間的相互作用和不同蛋白質鏈之間的相互作用非常相似(盡管在作用機理上完全不同),多域建模可以視為若干剛體結構分子(如蛋白質-蛋白質)的對接過程,可以利用分子對接算法來求解[44]。

2007 年,文獻[11]提出一種基于鉸鏈區采樣的兩階段多域組裝方法(亦稱Rosetta 多域蛋白組裝方法)。在第一階段,基于Rosetta 粗粒度能量模型(即側鏈用質心偽原子代表),采用MC(Monte Carlo)方法對多域蛋白鉸鏈區骨架二面角空間進行片段重組采樣,并生成5 000 個誘餌構象。在第二階段,首先對第一階段生成的每個誘餌構象,結合Dunbrack Rotamer 側鏈庫,采用MC 協議重建域間接觸界面氨基酸的側鏈構象;然后基于Rosetta 全原子能量模型,通過Rosetta 標準的MC 方法進行結構精修,主要包括鉸鏈區骨架二面角微調、鉸鏈區和接觸面殘基側鏈組裝、鉸鏈區骨架二面角和所有殘基側鏈擬牛頓幾何優化以及Metropolis 準則生成測試構象4 個步驟。76 個包含兩個結構域的多域測試蛋白組裝結果表明,有38 個多域蛋白經過兩階段組裝之后得到模型RMSD<2?,25 個多域蛋白的預測精度RMSD>2?。測試結果也表明,有13 個多域蛋白質組裝失敗,至少有50%的多域測試蛋白并不能捕獲到兩個結構域正確的方位關系。結構域連續性的限制對多域蛋白質組裝過程而言是一個至關重要的因素,然而該方法并沒有考慮到結構域連續性的限制,也沒有考慮不連續域的情況,并且超過兩個結構域的多域蛋白組裝在文中并沒有給出相關報道。

2015 年,文獻[44]提出了基于鉸鏈區采樣的多域組裝方法AIDA。AIDA 方法采用蛋白質三維結構簡約表達模型,即每個殘基包括4 個主鏈原子和1 個代表側鏈中心的偽原子,其中側鏈中心偽原子的位置根據骨架幾何特征估計。在結構域組裝過程中,每個結構域作為剛體分子,通過調整鉸鏈區二面角改變多域蛋白的構象。在QUARK 能量函數[27]基礎上,進一步設計多域蛋白結構域間相互作用能量函數,考慮到單鏈連通性和結構域剛性約束的限制,使用了單軌跡能量極小化算法實現構象空間采樣。測試集包括了136 個連續2-域蛋白、36 個連續3-域蛋白、13 個連續3-域以上的蛋白以及20個含有不連續結構域和插入結構域的2-域蛋白。測試結果表明,獨立解析結構域組裝與從多結構域蛋白解析結構中提取單結構域組裝相比,生成良好模型的成功率從65%下降到54%。這表明單域結構微小的變化都可能會對多域模型質量產生極大影響。此外,通過能量函數選擇正確模型的成功率也從83.0%降低到53.8%,這表明設計的多域蛋白能量模型仍然還有很大的改進空間。

2019 年,文獻[14]提出和開發了第一個真正意義上自動化的多域蛋白質組裝方法和服務器DEMO。DEMO 基于分子對接原理,通過逐域結構比對[45]檢測類似模板,進一步根據類似模板的距離譜特征構建域間方位。在包含2~7 個連續和不連續結構域的356 個多域蛋白測試集上,有86%的連續域測試蛋白和100%不連續域的測試蛋白組裝形成了具有正確拓撲結構的全長鏈折疊模型。在CASP12 和CASP13 中的多域目標蛋白組裝結果也表明,DEMO 生成的全長鏈模型精度顯著提升。進一步,引入質譜交聯數據CL 和冷凍電鏡密度圖Cryo-EM 的稀疏約束,組裝模型的平均TM-score 又分別提高了6.3%和12.5%。測試結果表明,DEMO 是一種高效自動的全長鏈建模方法,有進一步適用于全基因組級規模的多域蛋白組裝的潛力。盡管給出了一些成功案例,DEMO 在CASP14 的盲測中效果并不盡人意。在以下幾個方面需要進一步改進:1) 在DEMO 模擬過程中域結構一直保持剛性,這不能合理地解釋由于綁定引起的構象變化。此外,預測的結構域通常具有較低的分辨率,因此在域組裝模擬中引入主鏈骨架靈活性可以為單域局部結構細化提供可能。2) 近年來,基于共進化的接觸和距離深度學習預測方法在蛋白質三維結構預測領域已經取得了巨大進展和突破。借鑒這一成功經驗,基于序列的域間接觸和距離信息可以引入到DEMO 中,進一步細化得到更為合理的域間方位。

2.4 端到端的單體蛋白結構預測方法

基于深度學習的端到端方法拋開了傳統的折疊模擬過程,直接從一級序列構建三級結構。這類方法采用深度學習網絡模型直接從輸入到輸出(序列到結構)聯合調整模型參數,在一定程度上避免了距離、方位等預測網絡固有的不一致性。最具代表性的端到端方法包括第二代程序AlphaFold2[9]和結構預測端到端三軌網絡RoseTTAFold[11]。

不同于第一代AlphaFold,AlphaFold2 中使用一整套的注意力機制取代了以蛋白質信息構建不同氨基酸彼此接近程度的圖表再建模的相對傳統的方式。AlphaFold2 的整體系統架構有兩個主要的處理“軌道”,其中一個軌道的輸入表示MSA 的行和列,另一個軌道的輸入本質上表示蛋白質模型中每個氨基酸之間的原子間距離。MSA 路徑允許網絡跟蹤氨基酸守恒和協變特征,而距離矩陣提供每對氨基酸的3D 空間信息,這兩個軌道之間還可以交換信息。這意味著隨著距離信息的改進,可以重新解釋MSA,在重新解釋MSA 時,也可以進一步改進距離信息。最后,來自兩條軌道的信息被輸入結構模塊,該模塊試圖構建蛋白質的3D 模型:即無需外部建模程序的情況下,直接輸出氨基酸殘基的3D 坐標。最后,以旋轉不變的特殊幾何形式表示的結構將會基于注意力機制進行迭代改進。這種旋轉不變性是基于結構生物信息學中的標準共價幾何實現的,即在每個氨基酸周圍定義局部坐標框架[46]。AlphaFold2 展示了一種聯合嵌入多序列比對(MSA)和成對特征的新體系結構、一種新的輸出表示和相關損失、一種新的等變注意體系結構,并自我估計準確度[9],大大提高了結構預測的準確性。

RoseTTAFold[11]是受到DeepMind 研究結果啟發后開發的一個“三軌”(three-track)神經網絡模型,與AlphaFold2 在同一天分別發表于《Science》和《Nature》。在RoseTTAFold 中,探索生成了一個可使信息沿著一維序列對齊軌道和二維距離矩陣軌道并行流動的“雙軌”網絡,其性能遠遠優于trRosetta。在此基礎上,他們將雙軌模型的兩個層次與運行在三維骨干坐標上的第三個平行結構軌道相結合,從而使得1D 氨基酸序列信息、2D 距離信息和3D 坐標信息之間能夠來回流動,共同推理三者內部和之間的關系。通過RoseTTAFold(endto-end)和RoseTTAFold(pyRosetta)的比較,他們認為側鏈信息的加入可以進一步改善模型精度。

3 蛋白質結構預測實驗評測

3.1 相關的蛋白質數據庫

PDB 數據庫是目前最全的蛋白質結構數據庫,主要收集通過X 射線單晶衍射、核磁共振和電子衍射等實驗手段確定的生物大分子(蛋白質、DNA 和 RNA)的三維結構。CATH[47]和SCOPe[48]是兩個重要的蛋白質結構域分類數據庫,且具有一定的相似之處。兩者都是以自動程序和人工處理的混合方式識別蛋白質結構域進行分類,但使用不同的結構域定義和分類標準來定義結構域邊界和對結構域進行分類。

文獻[49]結合CATH 和SCOPe 數據庫中定義的結構域信息,使用序列比對及結構域自動分割技術開發了MPDB,以期能為對多域蛋白質感興趣的研究人員提供一個統一的信息門戶。MPDB 包含兩個重要的模塊:多域蛋白篩選模塊和結構類似物檢測模塊。篩選模塊根據用戶輸入的標準(包括蛋白鏈長度、分辨率、域數、Rfactor 值和多域蛋白的序列一致性)對整個MPDB 進行過濾后,向用戶提供符合標準的蛋白質結構及相關信息。結構類似物檢測模塊通過單個結構域模型和MPDB 庫中的模板逐一進行結構比對,并根據局部-全局相似性關系識別出全鏈結構類似物。

3.2 模型質量評估

蛋白質模型質量評估是蛋白質結構預測的重要組成部分。lDDT(local distance difference test)[50]作為一種評估蛋白質結構中所有原子的局部距離差異的分數,主要關注對應殘基對的距離差異,因而不需要將候選結構與真實結構進行疊加,非常適合評估蛋白質的局部模型質量。第i個殘差的lDDT評分和全局lDDT 評分計算公式如下:

式中,p0是第i個殘基和其他殘基在15 ?以內距離的概率;p1是在15 ?以內第i個殘基所有殘基對的Cβ距離偏差小于0.5 ?絕對值的概率。類似地,p2、p3和p4表示第i個殘基在15 ?以內所有殘基對Cβ距離偏差值分別為0.5-1.0?、1.0-2.0?和2.0-4.0?絕對值的概率。

在基于深度學習的模型質量評估方法中,特征設計和網絡模型構建是影響評估性能的兩個關鍵因素。文獻[51]提出了一種基于超快速形狀識別(ultrafast shape recognition, USR)的深度學習模型質量評估方法DeepUMQA。在深度殘差網絡的框架下,通過計算一組殘基距離集合的一階矩,引入殘基級USR 特征來描述殘基與整體結構之間的拓撲關系,然后結合一維特征、二維特征和體素化特征來評估模型的質量。實驗結果表明殘基級的USR特征能與殘基體素化特征形成互補,更全面地刻畫殘基的結構特性,顯著提高了模型評估精度。在CASP13/14 測試集以及CAMEO 盲測結果顯示,DeepUMQA 及其改進版本多次在CAMEO 周測中排名第一,性能優于大部分先進的模型質量評估方法。

3.3 蛋白質結構預測方法的性能分析與比較

為了真實反映近幾年蛋白質結構預測方法的性能,根據最新的單域和多域結構預測相關論文進行了方法描述,并對論文中的實驗結果進行性能分析與比較。

RocketX[52]是本課題組最新開發的基于深度學習幾何約束預測及模型質量評估的從頭蛋白質結構預測方法。構建了由殘基間幾何約束預測(Geom-Net)、結構模擬和模型質量評估(EmaNet)組成的閉環反饋機制。在GeomNet 中,從序列數據庫中搜索的MSA 中提取協同進化特征并送到改進的殘差。

神經網絡中,預測殘基間的幾何約束;在結構建模階段利用預測的幾何約束折疊結構模型;在EmaNet 中,從折疊模型中提取一維和二維特征,通過深度殘差神經網絡估計殘基間距離偏差和每殘基lDDT,并將結果反饋給GeomNet 作為動態特征來糾正幾何約束預測以逐步提高模型精度。實驗結果表明,閉環反饋機制顯著提高了RocketX 的性能,RocketX 的預測精度優于方法trRosetta[16]和RaptorX[6,53]。在CAMEO 上的盲測結果顯示,與集成了模板的先進方法相比,RocketX 在Hard 目標上具有一定優勢。

表1 給出了RocketX、trRosetta 和RaptorX 在483 個非冗余基準測試蛋白上的平均預測結果。trRosetta 的結果是從其官方服務器預測的,選擇了“不使用模板”選項(http://yanglab.nankai.edu.cn/trRosetta)。RaptorX 的結果也是從其官方服務器(http://raptorx.uchicago.edu/ContactMap)預測的。

表1 RocketX、trRosetta 和RaptorX 在基準測試蛋白上的預測結果比較

圖2 展示了SADA 組裝結構與AlphaFold2 預測結構在20 個人類多域蛋白上的對比實驗結果。AlphaFold2 的預測結構是從AlphaFold DB 數據庫中直接獲取的。SADA 分別組裝了圖2a 從Alpha Fold2 的全鏈結構中拆分出來的單域模型和圖2b AlphaFold2 預測的單域模型。

圖2 AlphaFold2 的全鏈結構與SADA 組裝的全鏈結構之間的比較結果

SADA[54]是本課題組最新開發的一種由深度學習輔助的基于結構類似物的域組裝方法。根據輸入的單域模型,SADA 首先從構建的多域蛋白質數據庫MPDB 中通過域級結構比對的方式找到輸入域模型的全長結構類似物,并基于該結構類似物生成初始的全長模型。然后,利用蛋白質結構預測服務器RocketX 中預測距離分布的幾何約束網絡模型GeomNet 來預測全長模型的距離分布,并根據預測的距離分布和多域蛋白質的理化知識設計用于指導域組裝的力場模型。最后,在力場模型的指導下,通過兩階段差分進化算法對初始模型進行域組裝生成最終的全長模型。

4 結 束 語

自上世紀60 年代以來,蛋白質結構預測問題一直是生物信息學關注的熱點和難點問題。進入21 世紀,尤其是在CASP 系列賽事的推動下,在學術界和工業界的共同努力下,蛋白質結構預測領域取得了巨大突破。

在單域蛋白質預測方面,模板建模方法與無模板建模方法、物理化學能量模型和共進化的知識模型、基于片段組裝的采樣方法和幾何優化方法的界限越來越模糊,他們之間相互補充,相互融合,共同促進。充分有效地利用蛋白質序列、宏基因組、結構數據將成為主流,深度學習模型從最初的接觸、距離預測逐漸向方位、甚至是三維結構坐標方面發展。高通量預測的本源需求,使得預測方法從人工輔助方法逐漸向全自動化的方向發展。精度的提升,使得蛋白質結構預測技術和實驗測定技術形成共存局面,即利用實驗測定低分辨率結構輔助蛋白結構建模,反過來也利用預測技術提升實驗測定精度和速度。模型質量評估技術將會成為預測技術進入實際應用的關鍵。

在多域蛋白質結構預測方面,隨著單域結構預測取得的重大突破,預計在未來幾年多域蛋白全長鏈建模將成為領域關注的熱點問題。剛性組裝會向柔性組裝的方向發展,單域能量模型會向多域蛋白能量模型發展。基于共進化的幾何特征(如接觸、距離及方位)預測技術會向多域蛋白建模方向遷徙,多域蛋白結構預測方式從全長鏈建模會向結構域拆分、組裝方式發展。在多域蛋白組裝建模方式中,每個結構域的結構是已知的,序列比對、穿線比對方式會向結構比對的方式發展,開發高效的結構比對工具將成為一個重要的方向。柔性組裝的要求使得需要高效率調整單結構域構象,這使得結構域的片段組裝蒙特卡羅模擬方式向幾何優化模擬方式發展。

猜你喜歡
結構方法模型
一半模型
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
論《日出》的結構
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲精品成人片在线观看| 久久香蕉欧美精品| 亚洲AV成人一区二区三区AV| 久久99国产精品成人欧美| 欧美区国产区| 亚洲区第一页| 国产微拍精品| 亚洲无码久久久久| 免费在线看黄网址| 亚洲成a∧人片在线观看无码| 国产成人精品综合| 精品自窥自偷在线看| 999在线免费视频| 婷婷激情五月网| 成人免费黄色小视频| av色爱 天堂网| 尤物午夜福利视频| 免费人成网站在线观看欧美| 亚洲精品色AV无码看| 粉嫩国产白浆在线观看| 亚洲一区二区三区香蕉| 国产永久免费视频m3u8| 国产精品女在线观看| 欧美日韩资源| 国产精品护士| 亚洲AⅤ无码日韩AV无码网站| 成人免费一区二区三区| 国产传媒一区二区三区四区五区| 国产91丝袜| 国产极品粉嫩小泬免费看| 成人福利在线看| 四虎精品国产永久在线观看| 中国一级毛片免费观看| 伊在人亚洲香蕉精品播放| 日本少妇又色又爽又高潮| 茄子视频毛片免费观看| 色135综合网| 亚洲一区网站| 亚洲天堂日韩在线| 国产乱人免费视频| 亚洲视频三级| 少妇被粗大的猛烈进出免费视频| 五月婷婷亚洲综合| 精品精品国产高清A毛片| 青青草91视频| 91精品综合| 色综合激情网| 国产又爽又黄无遮挡免费观看 | 久久人搡人人玩人妻精品| 亚洲无码日韩一区| 激情综合网激情综合| 欧美色图久久| AV无码国产在线看岛国岛| 日本影院一区| 激情無極限的亚洲一区免费| 中国特黄美女一级视频| 亚洲啪啪网| 婷婷99视频精品全部在线观看| 国产高清无码麻豆精品| 97人妻精品专区久久久久| 99精品热视频这里只有精品7| 亚洲精选无码久久久| 人人看人人鲁狠狠高清| 免费一级大毛片a一观看不卡| 91成人在线观看视频| 欧美日韩国产成人高清视频 | 亚洲swag精品自拍一区| 青青久久91| 久久久久久久久18禁秘 | 在线欧美日韩国产| 国产精品午夜福利麻豆| 中日无码在线观看| 国产精品亚洲综合久久小说| 国产SUV精品一区二区6| 老司国产精品视频| 日韩 欧美 国产 精品 综合| 99热这里只有精品在线播放| 国产一区二区精品福利| 鲁鲁鲁爽爽爽在线视频观看| 天天综合天天综合| 色综合久久88| 亚洲AV无码不卡无码|