巨型AI蛋白質設計模型生成了新型熒光蛋白

2024-12-31 00:00:00思羽/編譯

世界科學 2024年8期

EvolutionaryScale（一家AI新銳公司）的蛋白質語言模型ESM3是生物學領域最大的AI模型之一，已創造出新型熒光蛋白。這一進展贏得了市場積極的關注。

科學家已經使用一個“能講蛋白質語言”的人工智能（AI）模型——它是迄今為止生物學領域開發的最大模型之一——生成新式熒光分子。

2024年7月，位于紐約市的EvolutionaryScale宣布了這個原理驗證示范成果，同時宣布新籌得1.42億美元的資金，未來將把該模型應用于藥物開發、可持續發展和其他科研方向。這家公司由之前在科技巨擘Meta公司工作過的幾位科學家創立，是日益擁擠的研究領域的最新成員。該領域正在將針對語言和圖像進行訓練的前沿機器學習模型應用于生物數據。

“我們想要構造能讓生物學編程成為可能的工具。” EvolutionaryScale的首席科學家亞歷克斯 · 里夫斯（Alex Rives）說道。他參與了Meta公司將AI應用于生物數據的科研工作。

EvolutionaryScale的AI工具名叫ESM3，是一種被稱為蛋白質語言模型的東西。科學家利用超過27億個蛋白質序列和結構以及這些蛋白質功能有關的信息來訓練這個模型。它可以按照用戶提供的規格生成蛋白質，類似于ChatGPT之類的聊天機器人生成文本。

“它將會成為人人關注的生物學AI模型之一。”威斯康星大學麥迪遜分校的計算生物學家安東尼 · 吉特（Anthony Gitter）說道。

煥發光彩

里夫斯和他的同事在Meta公司時研究了ESM模型更早期的迭代，但在Meta公司終止這個領域的研究工作之后，他們決定單干。他們此前曾使用ESM-2模型創建了一個包含6億個預測蛋白質結構的免費數據庫。自那時起，其他團隊已經使用ESM-1的不同版本來設計對抗包括SARS-CoV-2在內的病原體時具有更好活性的抗體，并通過基因工程技術重新設計出“抗CRISPR”蛋白質，從而提高基因編輯工具的效率。

2024年，另一家生物學AI公司——位于加州伯克利的Profluent公司——使用自身的蛋白質語言模型創造出全新的、由CRISPR激發的基因編輯蛋白質，并使其中一個蛋白質可以免費獲取使用。

為了展示最新模型，里夫斯的團隊著手徹底革新生物科技中廣泛使用的另一個工具：綠色熒光蛋白（GFP）。

GFP能夠吸收藍光，發出綠光。研究者在20世紀60年代從水晶水母（Aequorea victoria）中分離出GFP。后來的研究工作——隨著這一發現獲得諾貝爾獎——揭示了GFP如何在顯微鏡下標記其他蛋白質，解釋了其發出熒光的分子基礎，還開發出了發光更亮、顏色不同的GFP合成版本。

自那時起，研究者已經確定其他有著類似形狀的熒光蛋白質，這些蛋白質都有一個能吸收光線、發出光線的“發色團”核心，核心外面包圍著一層桶形支架。里夫斯的團隊要求ESM3生成類似GFP、含有一組在GFP的發色團中找到的關鍵氨基酸的蛋白質實例。

研究者人工合成出其中88個最具希望的設計對象，測量它們發出熒光的能力。大多數設計都失敗了，但其中一個設計對象與已知的熒光蛋白質不太相似，能發出淡淡的熒光——大約只有天然形態的GFP的熒光亮度的1/50。研究者使用這個分子的序列作為起點，再給ESM3派下改進工作的命令。等到研究者在得到的設計對象中選出大約100個合成為蛋白質后，發現其中有好幾個蛋白質的亮度可媲美天然的GFP，但這仍舊比實驗室用基因工程修改得到的變體晦暗了許多。

ESM3設計出的最亮的蛋白質之一，被命名為esmGFP，被預測擁有一種類似天然熒光蛋白質的結構。然而，它的氨基酸序列極為不同，與訓練數據集中最為相近的熒光蛋白質的氨基酸序列匹配度不到60%。在bioRxiv服務器上張貼的一篇預印本論文中，里夫斯和同事們說，根據自然突變速率，這種程度的序列差異需要“超過5億年的進化”才能實現。

但是，吉特擔心這種比較是一種毫無意義而且有可能誤導他人的方式，不該這樣來描述前沿AI模型產品。他說：“當你把AI和加速進化放在一起考慮，這聽上去就很恐怖。我感覺，夸張地宣傳一個模型做了些什么，可能會傷害該研究領域，對于公眾也可能是危險的。”

ESM3通過迭代各種不同序列而生成新的蛋白質，在里夫斯眼中，這個過程與進化類似。“大自然會需要什么來生成類似這樣的物質？我們認為，從這個角度來做思考挺有意思的。”他補充道。

風險閾值

2023年的一項美國總統行政命令要求，AI模型在訓練時使用的算力達到一定閾值，開發方就要通知美國政府，并報告風險緩解措施，而ESM3是第一批被要求這么做的生物學AI模型之一。EvolutionaryScale表示，公司已經聯系了美國科學與技術政策辦公室。

該版本的ESM3超過了這一閾值，包含將近1000億個參數（即模型用來代表序列之間關系的變量），是無法公開獲取的。對于較小規模的開源版本，某些序列（譬如來自病毒的序列，以及來自一份美國政府列出的、令人憂慮的病原體和毒素清單的序列）被排除在訓練數據之外。對外發布的ESM3-open是無論哪兒的科學家都能下載和獨立運行的，但無法對其進行升級并讓它生成那些危險的蛋白質。

馬丁 · 帕斯薩（Martin Pacesa）是瑞士洛桑聯邦理工學院的一位結構生物學家，他對于開始用ESM3來做研究感到興奮。他指出，ESM3是第一批允許研究者使用自然語言描述蛋白質的性質與功能、進行個性化設計的生物學模型之一。他也迫不及待地想看到這些特色功能在實驗中表現如何。

EvolutionaryScale發布了一個ESM3的開源版本，還清晰地描述最大型版本的ESM3是如何訓練的，這些給帕斯薩留下深刻印象。但是，獨立開發最大型AI模型需要龐大的計算資源。他說：“沒有一家大學實驗室具有復制它的能力。”

里夫斯渴望將ESM3應用于其他設計。帕斯薩參與的一支研究團隊使用另一種蛋白質語言模型制造出新的CRISPR蛋白質，他說在ESM3上做同樣的事會很有趣。里夫斯希望能把ESM3應用于可持續性發展（公司網站上的一個視頻顯示了能蠶食塑料的酶的設計方案）、抗體和其他基于蛋白質的藥物研發方面。他說：“它確實是一個前沿模型。”

資料來源 Nature