在AlphaFold2問世之后,全球陸續出現了許多端到端的預測平臺,包括RoseTTAFold、RGN2、OmegaFold、ESMFold等。本期專稿刊發《人工智能是蛋白質科學的終結者嗎?》一文,以故事的方式展示了幾十年來科學家解構蛋白質結構的努力。即使種種模型不斷構建,AlphaFold2仍是里面最具突破性的一個。
其他方法的技術邏輯跟AlphaFold2相比,沒有實質的創新,主要圍繞著改進進化信息的提取,特別是蛋白質語言模型的使用,可以對那些沒有太多天然同源序列的蛋白質結構預測進行改進。正如專稿所描述的,在最近的2022年第15屆蛋白質結構雙盲預測比賽中,前幾名的方法都是利用了AlphaFold2的預測結果,沒有什么大的進展。而AlphaFold3相比于AlphaFold2,雖然算法改變不小,訓練集增加了兩年的數據,但精確度變化不大,也反映出蛋白質結構預測遇到了瓶頸。
不過,AlphaFold3仍有值得我驚喜的地方,即它的通用性——不再局限于蛋白質,還可以用于其他生物高分子與小分子配體、高分子修飾,以及蛋白質和它們的復合物結構。通用、多模態模型是目前發展的一個大趨勢,這些模型能夠處理和理解多個不同模態,例如文本、圖像、語音等的信息,使這些模型在解決各種復雜任務時具有更強大的能力。實現這些功能的主要方法是整合多種數據類型,從而擴大可以用來訓練的數據,處理更加復雜的應用和任務。比較突出的是,最近預印本網站BioRxiv出現的ESM3,能夠把序列、結構、功能同時進行處理。這個方法雖然相比ESMfold的蛋白質結構預測精度有提升,但跟AlphaFold 2比較還有差距,再一次表明,即使使用了巨大無比的語言模型(98B),還是不能獲得天然同源序列里面包含的所有進化信息。
實際上,對于最近蛋白結構預測領域關注度很高的AlphaFold3而言,還有很多改進的地方。例如,在蛋白質結構預測方面,AlphaFold3跟AlphaFold2一樣,如果天然同源序列不多的話,預測結構的準確度會大幅度下降,因為深度學習嚴重依賴天然同源序列里面的進化和共進化信息來獲取蛋白質主鏈的走向和氨基酸之間的距離。最近,我們團隊正致力于用高通量實驗方法來產生人工的同源序列蛋白質來代替天然同源序列,在BioRxiv預印本上發表的初步結果表明少突變、大量的同源序列信噪比可以比多突變、少量的天然同源序列更好,從而可以更加有效地萃取進化信息,預測更高精度的結構。但真實的、物理的蛋白質結構折疊并不需要同源序列來輔助,是依靠自己單個序列來實現折疊的。所以怎樣實現對單序列結構的預測仍舊是一個任重道遠的任務。AlphaFold3在蛋白質復合物、抗體結構的預測準確性方面,比目前最好的預測復合物方法提高了不少,但還沒有達到2020年AlphaFold2對蛋白質單體結構高精度預測的水平。
因此,現階段,無論是最新出現的巨型AI蛋白質模型ESM3,還是AlphaFold3,其結構預測是不是已經能夠用以發現全新藥物分子還有不少爭議。雖然基于ESM3模型用來進行藥物和科研工具開發的公司最近獲得了1.42億美元的資助,AlphaFold3也能夠預測一些已知小分子配體的蛋白復合結構,但大多數預測結構的精確度還不夠,比如AlphaFold3還不能夠準確預測蛋白和配體相互作用的親和力。對于抗體或者抑制多肽/蛋白質的設計,我更加樂觀一些,因為現在已經有一些成功的例子,只不過成功率還比較低,相信不久便能實現更大的改進。
未來,我認為最終的蛋白質結構預測系統應該是一個物理原則感知的模型,AlphaFold3在預測抗體結構的時候,就引進了物理因素來對目標抗體結構進行排序。這樣可以減少對訓練數據量的依賴,對同源序列的高質量要求,更重要的是可以更好地提供功能預測的準確度,包括抗體的設計和藥物的開發。
本文作者周耀旗教授是深圳灣實驗室資深研究員,擔任系統與物理生物學研究所副所長,也是礪博生物科技有限公司的科學創始人、暢銷書《出發:不斷走出舒適區的科研生活之旅》的作者。他長期致力于結構生物信息學研究,曾經多次在國際蛋白質/RNA結構預測和功能預測比賽中名列前茅,因相關科研成果入選了全球前2%頂尖科學家“終身科學影響力排行榜”“年度科學影響力排行榜”“中國高被引學者(生物學)榜”等