人工智能是蛋白質(zhì)科學(xué)的終結(jié)者嗎？

2024-12-31 00:00:00劉迪一/編譯

世界科學(xué) 2024年8期

2020年12月，由于疫情令面對面會議難以舉辦，數(shù)百位計算科學(xué)家在電子屏幕前線上集會，并見證了科學(xué)新時代的到來。

他們參加的會議是一場友好競賽，正式名稱為“結(jié)構(gòu)預(yù)測關(guān)鍵評估”（CASP），一般被叫作“國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽”，每兩年舉辦一次。有的學(xué)者已經(jīng)參加了近三十年。參會同行們都癡迷于同一個問題，那就是蛋白質(zhì)折疊問題。他們較量的方式很簡明：能否根據(jù)最簡單的蛋白質(zhì)一級結(jié)構(gòu)信息，即多肽鏈中氨基酸殘基的排列順序，準(zhǔn)確預(yù)測蛋白質(zhì)分子的三維形狀？蛋白質(zhì)形狀決定其行為，因此準(zhǔn)確預(yù)測形狀將為我們理解疾病、生產(chǎn)新藥和洞見生命運作方式帶來深遠(yuǎn)影響。

科學(xué)家總要在競賽中測試自己最新的蛋白質(zhì)折疊工具，但一直難以企及理想的預(yù)測結(jié)果。回顧歷史，CASP呈現(xiàn)的進展總是小幅度的，因此對于2020年底的第十四屆CASP（CASP14），同行們并不認(rèn)為會有驚喜。

直到他們親眼見證劃時代的AlphaFold2。

在CASP14上，蛋白質(zhì)科學(xué)界新人約翰 · 江珀（John Jumper）介紹了一款來自谷歌DeepMind的人工智能新工具AlphaFold2。他展示的數(shù)據(jù)表明，AlphaFold2的3D蛋白質(zhì)結(jié)構(gòu)預(yù)測模型擁有超過90%的準(zhǔn)確率——是最接近它的競爭對手的5倍。蛋白質(zhì)折疊問題一下子從觸不可及落入尋常任務(wù)。

在CASP14的總結(jié)發(fā)言中，會議組織者約翰 · 莫爾特（John Moult）確信：AlphaFold2“很大程度上解決了”蛋白質(zhì)折疊問題，并永遠(yuǎn)改變了蛋白質(zhì)科學(xué)。“這不是結(jié)束，而是開始。”他的語氣激動又伴有些不安。

當(dāng)谷歌的公關(guān)將此消息大力推廣至全球，各路媒體紛紛宣稱AlphaFold2 “會改變一切”。很多一輩子研究單一蛋白質(zhì)結(jié)構(gòu)的生物學(xué)家開始擔(dān)心失業(yè)問題。當(dāng)然也有人認(rèn)為上述成果不會帶來什么改變，所謂變革只是炒作。

距離AlphaFold2問世已過去三年半。現(xiàn)在我們對于蛋白質(zhì)三維結(jié)構(gòu)的AI預(yù)測有了比較全面深入的認(rèn)識。

AlphaFold2無疑改變了生物學(xué)家研究蛋白質(zhì)的方式。它能非常巧妙地解決蛋白質(zhì)折疊問題的一部分，解決方式不同于科學(xué)家，但這個強大預(yù)測工具并非無所不知，也無法取代生物實驗，反倒凸顯了生物實驗的必要性。

AlphaFold2最大的影響或許是讓生物學(xué)家意識到人工智能的力量。它啟發(fā)了新算法，包括用于設(shè)計本不存在于自然界的新蛋白質(zhì)的算法，也催生了新的生物技術(shù)企業(yè)和科學(xué)實踐方式。它的進階版AlphaFold3于2024年5月發(fā)布，能結(jié)合DNA或RNA等分子的結(jié)構(gòu)信息對蛋白質(zhì)建模，這推動生物預(yù)測更上一層樓。

然而，人工智能目前還無法模擬蛋白質(zhì)隨時間的變化情況，也難以對細(xì)胞內(nèi)環(huán)境物質(zhì)中的蛋白質(zhì)進行建模。

=============第1部分=============

提出問題

一張紙可以折成輕盈滑翔的紙飛機，可以承載祝愿的千紙鶴抑或其他復(fù)雜精妙的折紙藝術(shù)品。紙的折疊形態(tài)決定其功用。同樣地，一長串氨基酸分子只有折疊成特定形狀（生物學(xué)家稱之為結(jié)構(gòu)）時才具備功能。蛋白質(zhì)的結(jié)構(gòu)決定它如何與其他分子結(jié)合或相互作用，而這決定了它在細(xì)胞內(nèi)的作用。

地球上已知的蛋白質(zhì)有幾億種，未知的更多。它們可謂無所不能：血紅蛋白和肌紅蛋白幫助機體運輸、儲存氧氣；角蛋白構(gòu)成頭發(fā)、指甲和皮膚的結(jié)構(gòu)；胰島素使葡萄糖進入細(xì)胞并轉(zhuǎn)化為能量。蛋白質(zhì)可以呈現(xiàn)無數(shù)種形狀（結(jié)構(gòu)），對應(yīng)它們?yōu)樯龅臒o數(shù)種工作。

哥倫比亞大學(xué)系統(tǒng)生物學(xué)系專家穆罕默德 · 艾爾庫萊希（Mohammed AlQuraishi）說道：“從原子到生態(tài)系統(tǒng)，蛋白質(zhì)結(jié)構(gòu)就像一種通用語言。一切都發(fā)生于蛋白質(zhì)。”

細(xì)胞將氨基酸分子連接成多肽鏈，再令肽鏈盤曲折疊形成空間結(jié)構(gòu)，從而制得蛋白質(zhì)。它選擇的氨基酸類型取決于DNA提供的一組基本指令。多肽鏈會在形成后瞬間就精確地彎曲折疊，成為三維形狀的蛋白質(zhì)。一旦結(jié)束“組裝”，蛋白質(zhì)便匆忙開展工作。

若蛋白質(zhì)不能很好完成折疊過程，機體就會遭遇一系列災(zāi)難。許多疾病和病癥，如鐮狀細(xì)胞性貧血病，都由蛋白質(zhì)錯誤折疊引起。錯誤折疊的蛋白質(zhì)會聚集成團塊——這是阿爾茨海默病和帕金森綜合征等神經(jīng)退行性疾病的標(biāo)志。

然而，一直沒人真正知曉蛋白質(zhì)折疊的具體過程。由氨基酸分子連接而成的肽鏈的序列信息，怎樣編碼出了蛋白質(zhì)的復(fù)雜形狀？約翰霍普金斯大學(xué)生物物理學(xué)名譽教授喬治 · 羅斯（George Rose）表示，這是“我們可以提出的最深刻的問題”。

早在1930年代，學(xué)界就開始探究上述問題。不過真正意義上的探索始于1950年代中期。當(dāng)時生物化學(xué)家克里斯蒂安 · 安芬森（Christian Anfinsen）將蛋白質(zhì)添加到特定化學(xué)溶液里，以破壞蛋白質(zhì)的化學(xué)鍵使其不再折疊或錯誤折疊，然后觀察下一步反應(yīng)。安芬森發(fā)現(xiàn)，不折疊或錯誤折疊的蛋白質(zhì)能自發(fā)地重新折疊成正確結(jié)構(gòu)。這一后來為他贏得諾貝爾獎的發(fā)現(xiàn)證明了蛋白質(zhì)的三維形狀是由內(nèi)部編碼（氨基酸序列串）指導(dǎo)形成的。

因此，安芬森假設(shè)，應(yīng)當(dāng)有一種方法可以根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測其形狀。從此便有了所謂蛋白質(zhì)折疊問題。

多肽鏈只要組裝完成，就可于千分之一秒內(nèi)完成折疊，變作真正的蛋白質(zhì)。這個時間尺度讓分子生物學(xué)家賽勒斯 · 列文塔爾（Cyrus Levinthal）感到困惑。他在1969年論文《如何雅致地折疊》（How to Fold Graciously）中指出：如果蛋白質(zhì)嘗試所有可能的折疊方式，它將需要非常長的時間才能組裝完成。他認(rèn)為，一定有某種東西讓蛋白質(zhì)更直接地沿正確路徑折疊。

隨著時間推移，蛋白質(zhì)折疊問題分化出一些新問題。當(dāng)時主要有三大問題：能否根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測其結(jié)構(gòu)？指導(dǎo)折疊的編碼是什么？折疊機制是什么？

這些問題早在1960年代初就開始縈繞科學(xué)家腦海。彼時第一批通過實驗確定的蛋白質(zhì)結(jié)構(gòu)問世。劍橋大學(xué)的兩位生物學(xué)家馬克斯 · 佩魯茨（Max Perutz）和約翰 · 肯德魯（John Kendrew）將蛋白質(zhì)培養(yǎng)成晶體，用X射線轟擊它們，并測量射線的彎曲程度——此項技術(shù)被稱為X射線晶體學(xué)。通過這種方式以及二十多年的努力，他們確定了血紅蛋白和肌紅蛋白的三維結(jié)構(gòu)，后來因此共享諾貝爾獎。

自那以后，大量研究人員不光分析各種蛋白質(zhì)的結(jié)構(gòu)形態(tài)，還努力了解它們怎樣折疊出這些結(jié)構(gòu)。

格拉斯哥大學(xué)結(jié)構(gòu)生物學(xué)家海倫 · 沃爾登（Helen Walden）表示：“想看清事物外觀是人類的本能，因為只有這樣你才能了解它們的功能。”有些人研究化學(xué)性質(zhì)，另一些人研究物理學(xué)。實驗人員通過艱苦、繁重的實驗室工作重建蛋白質(zhì)形狀。計算生物學(xué)家借助模型尋找線索，使用不同的算法規(guī)則組合對其進行編程和重新編程。

隨著越來越多蛋白質(zhì)結(jié)構(gòu)的出現(xiàn)，蛋白質(zhì)科學(xué)界需要一種能組織和共享這些結(jié)構(gòu)的方法。1971年，學(xué)界建立起蛋白質(zhì)數(shù)據(jù)庫。它作為一個蛋白質(zhì)結(jié)構(gòu)的檔案庫，免費對外開放，成為任何需要了解蛋白質(zhì)結(jié)構(gòu)以探究生物學(xué)問題的人的可靠工具。

蛋白質(zhì)數(shù)據(jù)庫剛開放時，存有7種蛋白質(zhì)的結(jié)構(gòu)。近50年過后，谷歌DeepMind用它來訓(xùn)練AlphaFold2時，面對的是超過14萬種蛋白質(zhì)結(jié)構(gòu)的儲備，而且每種結(jié)構(gòu)都是被結(jié)構(gòu)生物學(xué)家費力解碼過的。

實驗者的痛苦

從1970年代中期開始，結(jié)構(gòu)生物信息學(xué)家珍妮特 · 桑頓（Janet Thornton）每隔幾個月就會收到一份包裹。包裹內(nèi)是一盤約30厘米長的磁帶，存儲著蛋白質(zhì)數(shù)據(jù)庫中新的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。桑頓會急切地拆開包裹并分析新結(jié)構(gòu)。她收到的第一盤磁帶上只有20個結(jié)構(gòu)。

每一個蛋白質(zhì)結(jié)構(gòu)背后都是研究人員多年的科研努力。博士生通常會花費四年甚至更長時間來結(jié)晶單個蛋白質(zhì)，從中收集數(shù)據(jù)或解釋數(shù)據(jù)以找出折疊結(jié)構(gòu)。

那時桑頓所在的牛津大學(xué)生物物理系是全球X射線晶體學(xué)的中心之一。1965年，蛋白質(zhì)晶體學(xué)先驅(qū)之一戴維 · 菲利普斯（David Phillips）首次確定了溶菌酶的蛋白質(zhì)結(jié)構(gòu)（免疫系統(tǒng)依靠此酶攻擊細(xì)菌）。牛津大學(xué)的生物物理學(xué)家利用X射線晶體學(xué)繪制了蛋白質(zhì)電子密度圖。桑頓表示，她和同事將這些電子密度圖打印到塑料片上，并將它們一張疊一張地堆起來，從而繪制出蛋白質(zhì)形貌的“等高線圖”。

之后，他們將蛋白質(zhì)的“地形圖”轉(zhuǎn)換成物理模型。生物物理學(xué)家弗雷德里克 · 理查茲（Frederic Richards）于1968年發(fā)明了理查茲盒（以他的名字命名）。這是一種大型光學(xué)比較儀，能幫助晶體學(xué)家通過半鍍銀鏡觀察堆疊的電子密度片，以構(gòu)建蛋白質(zhì)結(jié)構(gòu)的物理模型。桑頓將由塑料片承載的地圖放入理查茲盒，盒內(nèi)一面傾斜的鏡子把地圖反射到工作區(qū)，讓觀察者準(zhǔn)確看清每個原子相對其他原子的位置。然后，他們用球和棍構(gòu)建物理模型。

這種方法既煩瑣又受限制。1971年，后來成為著名晶體學(xué)家的路易斯 · 約翰遜（Louise Johnson）正努力給磷酸化酶建模。磷酸化酶含842個氨基酸，是當(dāng)時研究過的最大蛋白質(zhì)。為了建模，約翰遜必須爬上梯子，進入一個兩層樓的理查茲箱。

模型完成后，科學(xué)家用尺子測量原子之間的距離，得出蛋白質(zhì)結(jié)構(gòu)的坐標(biāo)。然后他們將坐標(biāo)輸入計算機。桑頓表示，計算機版本看起來像一片茂密的森林，原子雜亂地聚集在一起。只有通過3D眼鏡觀察結(jié)構(gòu)時，她才能看到蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。

桑頓說道：“這是個非常痛苦的過程，但最后還是完成了，真是太神奇了。”

經(jīng)過年復(fù)一年的艱苦努力，他們終于達(dá)成了研究目標(biāo)。只要是自己有信心的蛋白質(zhì)結(jié)構(gòu)，科學(xué)家就將其提交至蛋白質(zhì)數(shù)據(jù)庫。到1984年，庫內(nèi)已存152種蛋白質(zhì)；到1992年，存儲量更是高達(dá)747種。

當(dāng)實驗人員努力構(gòu)建物理模型時，計算科學(xué)家嘗試另一條路徑來解決問題。安芬森相信蛋白質(zhì)結(jié)構(gòu)可以通過氨基酸序列預(yù)測得到，計算派當(dāng)然也認(rèn)同此觀點，但他們對預(yù)測結(jié)構(gòu)一事過于樂觀了。

制定自己的規(guī)則

1960年代初，約翰 · 莫爾特還是個想做物理學(xué)家的本科生。后來他了解到蛋白質(zhì)折疊問題。“有人來做講座，說生物學(xué)太重要了，不能把它留給生物學(xué)家。我不知深淺地當(dāng)真了。”莫爾特被深深吸引，然后改變了生涯規(guī)劃。

畢業(yè)后，莫爾特開始研究蛋白質(zhì)晶體學(xué)。他破譯了幾種蛋白質(zhì)的結(jié)構(gòu)，包括β-內(nèi)酰胺酶（一種能破壞青霉素的細(xì)菌酶），并于1970年獲得牛津大學(xué)分子生物物理學(xué)博士學(xué)位。但當(dāng)他開始博士后研究時，實驗派方法令其厭倦，他選擇轉(zhuǎn)向日益發(fā)展的蛋白質(zhì)計算領(lǐng)域。不同于實驗派，計算生物學(xué)家嘗試編寫算法來證明安芬森的理論正確：只要給程序輸入一串氨基酸，就可生成正確的蛋白質(zhì)結(jié)構(gòu)。

從生物實驗到計算機的轉(zhuǎn)變并不容易。莫爾特解決單個蛋白質(zhì)結(jié)構(gòu)問題時習(xí)慣慢工出細(xì)活。在新領(lǐng)域，計算派的論文常常聲稱已經(jīng)解決了蛋白質(zhì)折疊問題以及相關(guān)子問題。莫爾特對此表示懷疑。

在虛擬世界里，若自然世界的法則行不通，計算派學(xué)者會編寫自己的規(guī)則。他們設(shè)計算法，使原子以某種方式粘在一起，或控制蛋白質(zhì)總是折疊向右或向左。日積月累，模型離現(xiàn)實越來越遠(yuǎn)。

盡管如此，莫爾特還是看到了兩派各自的價值。實驗派的工作精確但緩慢；計算派的工作快速卻與真實的生物物理相差很大，因此常有謬誤。

他相信，一定有某種方法可以結(jié)合實驗與計算的優(yōu)點。

“跺木地板”

1990年代初，莫爾特與同事克日什托夫 · 菲德利斯（Krzysztof Fidelis）發(fā)起一項社區(qū)科學(xué)實驗，即前文提到的CASP。

作為CASP的組織者，莫爾特和菲德利斯會發(fā)布一份蛋白質(zhì)氨基酸序列的列表。這些蛋白質(zhì)的結(jié)構(gòu)都是不久前被實驗人員破譯并提供給他們的，但破譯結(jié)果尚未公布。來自全球各地的計算團隊會盡最大努力，利用能用的任何方法來預(yù)測結(jié)構(gòu)。針對參與者建立的模型，會有一個獨立的科學(xué)家小組通過比較計算結(jié)果與實驗證實的結(jié)構(gòu)來做評估。

CASP很快成為蛋白質(zhì)折疊問題的計算模型試驗場。當(dāng)時AI尚未誕生，計算方法涉及分子物理學(xué)的模擬。CASP是科學(xué)家進行公開試驗以檢驗自己想法的平臺。桑頓說道：“這本不是比賽，卻變成了比賽。”

CASP每兩年舉辦一次，參會的科學(xué)家相聚加州蒙特雷的阿西洛馬會議中心。除了聽到比賽結(jié)果，計算派學(xué)者們還會談?wù)撟约旱姆椒āＤ獱柼毓膭顓咴诼牭讲幌矚g的內(nèi)容時，跺木地板。

曾師從桑頓的倫敦大學(xué)學(xué)院生物信息學(xué)教授戴維 · 瓊斯（David Jones）回憶道：如果討論陷入細(xì)節(jié)，生物學(xué)家就會跺腳；如果某個主張被夸大了，他們也跺腳；如果發(fā)言者說話重復(fù)啰嗦，也免不了跺腳伺候……不過瓊斯指出，那是友好的跺腳，“并不令人討厭”。瓊斯表示，有一年，他與同事提出一種叫作“線程”（threading）的計算方法：氨基酸按已知的蛋白質(zhì)結(jié)構(gòu)被編織成特定序列，以尋找相互匹配的序列和結(jié)構(gòu)。 “這個方法令我們非常高興，可后來就不靈了……”瓊斯笑著回憶道。

當(dāng)被問及彼時CASP的成果如何時，莫爾特選擇用好壞不一來形容。有些方法表現(xiàn)超出預(yù)期，比如“同源建模”，即通過比較已知蛋白質(zhì)的結(jié)構(gòu)來推斷未知蛋白質(zhì)的結(jié)構(gòu)；另一些方法則一無所獲。莫爾特說，大多數(shù)結(jié)構(gòu)預(yù)測都是“看上去很痛苦的物體”。

荷蘭癌癥研究所和烏得勒支大學(xué)的結(jié)構(gòu)生物學(xué)家阿納斯塔西斯 · 佩拉基斯（Anastassis Perrakis）開玩笑道：“我很高興看到他們失敗，我們喜歡在科學(xué)上互相取笑。”佩拉基斯負(fù)責(zé)將實驗確定的結(jié)構(gòu)提供給CASP組織者用于比賽。

在競逐與取笑的過程中，有人開始引領(lǐng)前沿。

1996年，第二屆CASP結(jié)束后，一位名叫大衛(wèi) · 貝克（David Baker）的年輕人邀請瓊斯一起打的去機場。貝克聽過瓊斯的演說。當(dāng)時正研究自己的計算模型的他其實沒有為CASP2準(zhǔn)備好模型，但他想聊聊。瓊斯在車?yán)锫犃怂南敕ǎ瑥臎]想過會再次見到他。

在1998年舉辦的CASP3上，貝克憑借其Rosetta算法一鳴驚人。瓊斯認(rèn)為他成了“最強選手”。Rosetta等算法模擬氨基酸分子的原子之間的相互作用，從而預(yù)測它們的折疊方式。不過貝克表示，算法“還不夠好，也不夠準(zhǔn)確，還難以發(fā)揮作用”。

2008年，人類智能仍碾壓計算機的時候，已在華盛頓大學(xué)管理自己實驗室的貝克開發(fā)出一款名為Foldit的免費網(wǎng)游——游戲玩家需將氨基酸序列折疊成蛋白質(zhì)結(jié)構(gòu)。貝克團隊于《自然》（Nature）雜志發(fā)表論文稱，F(xiàn)oldit的人類玩家在蛋白質(zhì)建模方面的表現(xiàn)優(yōu)于Rosetta。

不過人類的領(lǐng)先優(yōu)勢并未持續(xù)多久。2010年代初，共同進化這一概念的重大突破推動了領(lǐng)域發(fā)展，后來又被證明對人工智能至關(guān)重要。已存在幾十年的共同進化概念其實很簡單：通過仔細(xì)比較千百種蛋白質(zhì)中相關(guān)的氨基酸序列，科學(xué)家可以識別出發(fā)生突變的氨基酸，關(guān)鍵在于，能確定它們是否與其他氨基酸同步突變。如果兩種氨基酸一起變化，它們很可能以某種方式相關(guān)聯(lián)。

但在2010年代初以前，這種預(yù)測工作的準(zhǔn)確度始終欠佳，徘徊于20%～24%的水平。后來計算派注意到自己統(tǒng)計方法有錯：將一些本無聯(lián)系的氨基酸認(rèn)定為相關(guān)。

完善了統(tǒng)計工具后，2016年，預(yù)測準(zhǔn)確率升至47%。又過兩年，這一數(shù)字變作70%。貝克的算法建立于這一成功的預(yù)測基礎(chǔ)：2014年，Rosetta生成了兩種蛋白質(zhì)結(jié)構(gòu)，其準(zhǔn)確率之高令CASP評判員認(rèn)為貝克可能已經(jīng)解決了蛋白質(zhì)折疊問題。

勞倫斯伯克利國家實驗室的結(jié)構(gòu)生物學(xué)家保羅 · 亞當(dāng)斯（Paul Adams）表示，共同進化的見解“太棒了”。在未使用機器學(xué)習(xí)的情況下，共同進化是“真正推動該領(lǐng)域向前發(fā)展的重大事件之一”。

然而，該研究領(lǐng)域目前的發(fā)展還很有限。共同進化需要大量相似的蛋白質(zhì)用于比較，而實驗人員解決蛋白質(zhì)結(jié)構(gòu)的速度不夠快，無法滿足計算人員的需求。

=============第2部分=============

走出深淵

2016年，戴維 · 瓊斯于《自然》雜志撰文勾勒未來。谷歌DeepMind團隊的研究人員詳細(xì)介紹他們的算法如何利用所謂“深度學(xué)習(xí)”在圍棋博弈中擊敗人類頂尖棋手。

深度學(xué)習(xí)是一種人工智能，其靈感源于人類大腦。大腦中的分子信息通過一個相互連接的腦細(xì)胞（稱為神經(jīng)元）網(wǎng)絡(luò)發(fā)送。神經(jīng)元的樹突就像手臂，抓住相鄰神經(jīng)元發(fā)送的分子，而這些分子會告訴接收它們的神經(jīng)元是否放電并傳播信號。

布朗大學(xué)計算機科學(xué)教授邁克爾 · 利特曼（Michael Littman）指出：“如果某個神經(jīng)元的活動足夠多，它就會放電。”

1950年代，計算機科學(xué)家意識到他們可以將電子比特連接在一起以創(chuàng)建“神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)的每個單元都是一個節(jié)點，相當(dāng)于大腦的一個神經(jīng)元：神經(jīng)元A1從其他神經(jīng)元，比如A0處接收信息，然后計算是否向下一個神經(jīng)元，比如A2處發(fā)射信號。在神經(jīng)網(wǎng)絡(luò)中，信息在多層神經(jīng)元之間傳播以產(chǎn)生特定結(jié)果，例如從某圖像中識別出狗。

利特曼表示，神經(jīng)元層數(shù)越多，可執(zhí)行的計算就越復(fù)雜。但早期神經(jīng)網(wǎng)絡(luò)僅兩層。1990年代，層數(shù)增加至三層，并于此后20年間一直保持該水平。“我們無法確定如何可靠地創(chuàng)建比這更深層的網(wǎng)絡(luò)。”

自1990年代以來，包括瓊斯和莫爾特在內(nèi)的結(jié)構(gòu)生物學(xué)家就一直嘗試在蛋白質(zhì)科學(xué)中應(yīng)用神經(jīng)網(wǎng)絡(luò)，但淺層網(wǎng)絡(luò)和稀疏數(shù)據(jù)的局限阻礙了發(fā)展。到2010年代初期，計算科學(xué)家學(xué)會了如何更好地構(gòu)建神經(jīng)網(wǎng)絡(luò)，從而更高水平地訓(xùn)練更多層。網(wǎng)絡(luò)深度增加到20、50、100甚至數(shù)千層。利特曼說道：“為將其與90年代的方法區(qū)分開，人們開始稱之為深度學(xué)習(xí)。”

深度學(xué)習(xí)改變了人工智能，產(chǎn)出了擅長識別照片或聲音特征的算法。而且事實證明，它能在智力對決中擊敗人類。

2016年3月，DeepMind聯(lián)合創(chuàng)始人德米斯 · 哈薩比斯（Demis Hassabis）在首爾見證了他的AI系統(tǒng)AlphaGo擊敗圍棋世界冠軍李世石。那時他也回想起自己大學(xué)期間玩Foldit的情景：如果DeepMind的研究人員可以編寫一種算法來模仿圍棋大師的直覺，是不是也能寫出模仿Foldit游戲玩家直覺的算法——雖對生物學(xué)一無所知，卻善于折疊蛋白質(zhì)？

芝加哥豐田技術(shù)學(xué)院的許錦波教授也預(yù)見到通過深度學(xué)習(xí)解決蛋白質(zhì)折疊問題的前景。這些網(wǎng)絡(luò)在圖像識別領(lǐng)域的應(yīng)用啟發(fā)了他。當(dāng)時，計算科學(xué)家已經(jīng)在卷積網(wǎng)絡(luò)方面取得了巨大成功（卷積網(wǎng)絡(luò)可編寫深度學(xué)習(xí)算法，從而將圖像分解成碎片，并識別它們之間的模式）。許錦波將該技術(shù)應(yīng)用于蛋白質(zhì)折疊。他使用矩陣來表示哪些氨基酸在空間上靠得很近，然后將數(shù)據(jù)作為圖像輸入卷積網(wǎng)絡(luò)。算法從圖像中尋找模式，以預(yù)測組成蛋白質(zhì)的原子的三維坐標(biāo)。

2016年，許教授于arxiv.org發(fā)布了上述研究的預(yù)印本文章，并正式發(fā)表在《PlOS計算生物學(xué)》（PLOS Computational Biology）雜志上。莫爾特表示，此項工作對該領(lǐng)域“影響頗大”，向人們展示了“深度學(xué)習(xí)能做到什么”。

不久后，蛋白質(zhì)結(jié)構(gòu)研究小組開始涉足深度學(xué)習(xí)。艾爾庫萊希及其團隊率先開發(fā)出一種能直接使用神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法，即所謂的“端到端”方法，但效果并不好。

瓊斯說道：“我并不確切知道自己想用深度學(xué)習(xí)做什么，但我明白自己需要搞深度學(xué)習(xí)。”

在收到谷歌DeepMind詢問CASP競賽情況的郵件前，瓊斯已經(jīng)開始撰寫資助申請，希望加入前者團隊。“他當(dāng)然也回復(fù)表示愿意提供幫助，我當(dāng)時以為他們只想秀一秀強大的計算機實力。但會面后，我發(fā)現(xiàn)谷歌的野心非常大。”

新玩家

2016年，當(dāng)瓊斯開始擔(dān)任DeepMind的顧問，負(fù)責(zé)后來被稱為AlphaFold的項目時，約翰 · 江珀正于芝加哥大學(xué)攻讀理論化學(xué)博士學(xué)位。

十幾歲時，江珀自學(xué)了計算機編程。他還擅長物理。因此上大學(xué)后，他決定專攻數(shù)學(xué)和物理。他的工程師父母都曾擔(dān)心他以后找不到工作。

在范德堡大學(xué)讀本科時，江珀與費米國家加速器實驗室的研究人員合作，研究亞原子粒子夸克的奇異性質(zhì)。一天，與同事坐一塊兒吃午餐時，他受到了刺激。江珀問同事：“我們正在搞的這個實驗，什么時候能搞出點名堂來？”其中一位教授表示可能要等到自己退休以后了，另一位年紀(jì)更大些的教授則說自己可能活不到那天了。

江珀說道：“我想在更短的時間內(nèi)完成科學(xué)研究。”本科畢業(yè)后的他開始攻讀凝聚態(tài)物理學(xué)博士學(xué)位，但很快就退學(xué)了，之后得到紐約一家生物化學(xué)研究公司——蕭爾研究有限公司（D. E. Shaw Research）的工作。該公司當(dāng)時正創(chuàng)建蛋白質(zhì)的基本模擬，希望通過了解蛋白質(zhì)如何移動和變化，更深刻揭示肺癌等各種疾病的機制。

這是江珀第一次意識到自己工作的潛在意義。在接下來的三年里，江珀在公司的超級計算機上模擬蛋白質(zhì)運動，這些計算機專為更快速模擬分子而打造。“我在某個工作日的模擬量比我讀博期間所做的全加一塊兒都要多。”

2011年，他再次嘗試讀研，進入芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍對蛋白質(zhì)結(jié)構(gòu)和運動感興趣，同時也為學(xué)術(shù)界緩慢的進展而沮喪。他想知道能否借助人工智能——“當(dāng)時我們稱之為統(tǒng)計物理學(xué)”——達(dá)到快速模擬的程度。他開始涉足機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。

在此期間，他思索著蛋白質(zhì)折疊問題并猜測，來自蛋白質(zhì)數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)可用于解決這個問題。至2012年，該數(shù)據(jù)庫已包含超過76 000種蛋白質(zhì)結(jié)構(gòu)。“我相信數(shù)據(jù)足夠了，但想法不夠。”

2017年，江珀聽聞DeepMind將進軍蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域。當(dāng)時他剛剛完成博士學(xué)位——正利用機器學(xué)習(xí)模擬蛋白質(zhì)折疊和動力學(xué)。他申請了研究科學(xué)家的職位。當(dāng)時“該項目仍處于保密狀態(tài)”。

2017年10月，他來到DeepMind位于倫敦的辦公室。在顧問瓊斯幫助下，團隊深入開發(fā)AlphaFold。瓊斯回憶道：“那是段非常有趣的時光。我們把能想到的各種想法都擺出來討論。最終，一個很棒的核心思路出現(xiàn)了，接下來就是付諸實踐。”

為訓(xùn)練算法，DeepMind團隊使用了來自蛋白質(zhì)數(shù)據(jù)庫的14多萬個結(jié)構(gòu)。他們將這些信息輸入卷積網(wǎng)絡(luò)，但未對AI架構(gòu)本身做太多改變。江珀表示這是“標(biāo)準(zhǔn)的機器學(xué)習(xí)”。

到2018年春天，AlphaFold已為參加CASP做好準(zhǔn)備，欲與真正的蛋白質(zhì)科學(xué)家較量。不過DeepMind團隊曾爭論是否匿名參賽，因為他們怕丟面子。

團隊后來決定以谷歌 DeepMind之名提交成果。在12月會議召開的幾個月前，瓊斯收到CASP組織者的來信。后者建議DeepMind團隊參加會議，因為AlphaFold確實表現(xiàn)優(yōu)異。

最終，AlphaFold以2.5倍于第二名團隊的成績斬獲佳績。這次華麗登場給眾人留下了深刻印象。

重啟算法

但DeepMind團隊很清楚，他們離解決蛋白質(zhì)折疊問題還差很遠(yuǎn)。哈薩比斯幾個月前就召集了他們，并向各位發(fā)問：“我們到底要不要解決這個問題？”江珀回憶他當(dāng)時說的話：如果不行，那就讓我們找到可以產(chǎn)生真正巨大影響的問題吧。

憑借在物理、化學(xué)、生物和計算方面的多學(xué)科背景，江珀為頭腦風(fēng)暴會議帶來獨到見解。很快，他就領(lǐng)導(dǎo)了團隊。

后來創(chuàng)立AI驅(qū)動生物技術(shù)公司Atomic AI的拉斐爾 · 湯森（Raphael Townshend）曾于2019年在DeepMind實習(xí)。學(xué)術(shù)界的專家們往往缺少合作交流，自顧自開展科研項目。而在DeepMind，統(tǒng)計學(xué)、結(jié)構(gòu)生物學(xué)、計算化學(xué)、軟件工程等領(lǐng)域的專家共同研究蛋白質(zhì)折疊問題，他們背后還有谷歌龐大的財務(wù)和計算資源。湯森還表示，倫敦的DeepMind辦公室充滿活力，而大部分活力都來自江珀。計算科學(xué)家艾倫 · 鐘（Ellen Zhong）2021年時在DeepMind實習(xí)，現(xiàn)為普林斯頓大學(xué)的助理教授。她也認(rèn)為：“江珀是個真正的天才，也是一個很謙虛的人。他深受團隊愛戴。”

在江珀的領(lǐng)導(dǎo)下，AlphaFold得以重建。湯森表示，DeepMind設(shè)計了一種新型的轉(zhuǎn)換器架構(gòu)——這種深度學(xué)習(xí)“為過去五年間發(fā)生的每一項機器學(xué)習(xí)突破提供了動力”。該神經(jīng)網(wǎng)絡(luò)調(diào)整了連接強度，以創(chuàng)建更準(zhǔn)確的數(shù)據(jù)（關(guān)于蛋白質(zhì)進化和結(jié)構(gòu)的數(shù)據(jù)）。它通過另一個轉(zhuǎn)換器運行該數(shù)據(jù)，從而預(yù)測蛋白質(zhì)三維結(jié)構(gòu)。然后，算法通過將其與一些修訂后的數(shù)據(jù)一起通過轉(zhuǎn)換器運行多次，進一步完善結(jié)構(gòu)。

當(dāng)江珀團隊剛開始研究AlphaFold2時，他們的算法“很糟糕”，但通過進一步完善，算法預(yù)測的效率和準(zhǔn)確性有了飛躍。

團隊決定進行內(nèi)部實驗，看看他們打造的系統(tǒng)是否有助于生物學(xué)家。實驗結(jié)果轉(zhuǎn)化為大約50篇刊載于《科學(xué)》《自然》和《細(xì)胞》等頂尖刊物的論文——不僅描述了新的蛋白質(zhì)結(jié)構(gòu)，還從結(jié)構(gòu)中獲得了有關(guān)蛋白質(zhì)功能的見解。江珀等人想確定，AlphaFold2是否真能經(jīng)得起實驗派工作的檢驗。

他們向系統(tǒng)輸入氨基酸序列，AlphaFold2運行其預(yù)測引擎。對于每個序列，它都能給出接近論文提出的實驗結(jié)構(gòu)的預(yù)測。但團隊認(rèn)為它還不夠準(zhǔn)確，這些結(jié)構(gòu)缺少實驗人員了解的有關(guān)蛋白質(zhì)的關(guān)鍵細(xì)節(jié)。

在接下來6個月里，團隊小步快跑地不斷優(yōu)化系統(tǒng)。到2020年CASP競賽的蛋白質(zhì)候選物發(fā)布的幾周前，他們進行了另一次實用性測試。江珀對結(jié)果很滿意。DeepMind于2020年春季向CASP提交了預(yù)測結(jié)果，然后等待回復(fù)。

行業(yè)巨震

初夏時節(jié)，莫爾特收到了一封CASP評估員發(fā)來的郵件。郵件附有DeepMind解析的蛋白質(zhì)結(jié)構(gòu)，并指出：“看看這個，太厲害了。”莫爾特也贊嘆不已，但他認(rèn)為自己眼前的只是個例。

后來他又收到第二封郵件，以及第三封、第四封……一大堆近乎完美的蛋白質(zhì)預(yù)測全部來自DeepMind。到了夏末，“我們很快意識到……行業(yè)正經(jīng)歷大變革。”

CASP評估員將預(yù)測的蛋白質(zhì)結(jié)構(gòu)與已證實的實驗結(jié)構(gòu)進行比較，從而對參賽者提交每份的論文做出評分。滿分為100分，代表模型與現(xiàn)實是逐個原子相匹配的。莫爾特一直認(rèn)為，任何超過90分的評估結(jié)果都表明算法已有效解決蛋白質(zhì)結(jié)構(gòu)問題。AlphaFold的大多數(shù)結(jié)構(gòu)都達(dá)到或超過了90分。

從某種意義上說，DeepMind確實解決了蛋白質(zhì)折疊問題的預(yù)測部分。AlphaFold2能根據(jù)蛋白質(zhì)的氨基酸序列準(zhǔn)確給出蛋白質(zhì)結(jié)構(gòu)。瓊斯感慨道：“我最喜歡的項目死了，DeepMind終結(jié)了它。”

多年來，佩拉基斯一直向CASP競賽貢獻未發(fā)表的實驗結(jié)果。當(dāng)他看到自己團隊辛苦實驗得來的結(jié)構(gòu)被AlphaFold2完美預(yù)測時，他屬實有點心情復(fù)雜。

=============第 3 部分=============

震撼與敬畏

結(jié)構(gòu)生物學(xué)領(lǐng)域的結(jié)構(gòu)突然凌亂了。

帕多瓦大學(xué)生物信息學(xué)教授西爾維奧 · 托薩托（Silvio Tosatto）自CASP成立之初就一直參賽。用托薩托的話說，面對顛覆行業(yè)的AlphaFold2，“我們進行了大量自我反省”，一些結(jié)構(gòu)生物學(xué)家擔(dān)心自己的工作會被淘汰，另一些人則聲稱AlphaFold2并不準(zhǔn)確。

計算生物學(xué)家一直在努力解決蛋白質(zhì)折疊問題，有些人甚至已為此奮斗幾十年。AlphaFold2的登場讓他們心中五味雜陳。CASP大賽結(jié)束后，艾爾庫萊希發(fā)表感慨：“就像在面對自己孩子第一次離家。”

許多科學(xué)家因AlphaFold2欣喜若狂。那些不做結(jié)構(gòu)研究的學(xué)者過去必須與結(jié)構(gòu)生物學(xué)家合作才能確定蛋白質(zhì)結(jié)構(gòu)。現(xiàn)在，只需動動手指按按鍵，理想結(jié)構(gòu)就擺在眼前。

媒體報道中的AlphaFold2是無與倫比的AI新突破，不過科學(xué)家倒是花費數(shù)月甚至數(shù)年時間才弄清楚AlphaFold2究竟能做什么，不能做什么。佩拉基斯回憶道：“AlphaFold2發(fā)布后的第二天，我們就試圖安裝使用它。”生物學(xué)家開始行動。

很多情況下，結(jié)構(gòu)生物學(xué)家以發(fā)現(xiàn)蛋白質(zhì)的功能為目標(biāo)。借助 AlphaFold2，他們能于幾分鐘內(nèi)提出假設(shè)，而不必等待數(shù)月甚至數(shù)年直至實驗確定結(jié)構(gòu)。然而，AlphaFold2并未如某些人預(yù)期那樣立即產(chǎn)出各種新藥——研究人員很快發(fā)現(xiàn)其局限性。AlphaFold2的預(yù)測并不完美，結(jié)果仍然需要實驗驗證，但可以幫助研究人員更快地轉(zhuǎn)向?qū)嶋H的結(jié)構(gòu)研究。

這種轉(zhuǎn)變已經(jīng)開始。2022年6月，《科學(xué)》雜志的一期特刊揭示了人類核孔復(fù)合體的近原子結(jié)構(gòu)。過去幾十年間，這種由30種不同蛋白質(zhì)構(gòu)成、巨大而復(fù)雜的結(jié)構(gòu)一直是生物學(xué)難題。科學(xué)家利用AlphaFold2預(yù)測填補了冷凍電鏡難以解構(gòu)蛋白質(zhì)結(jié)構(gòu)的缺口。

江珀表示，看到那篇關(guān)于AlphaFold2助力其他學(xué)者取得生物學(xué)突破的論文后，“我意識到AlphaFold真的非常重要”。

一些生物學(xué)家已經(jīng)開始研究 AlphaFold2 的用途，而不僅僅是辨別已知蛋白質(zhì)的結(jié)構(gòu)和功能，甚至設(shè)計自然界中不存在的蛋白質(zhì)——這是幫助設(shè)計新型藥物的關(guān)鍵技術(shù)。

下一個前沿

在2020年CASP大賽上看過江珀演講后，貝克幾乎立刻重啟他的Rosetta算法研究。當(dāng)時谷歌尚未分享AlphaFold2的底層源代碼。盡管如此，“我們還是開始嘗試他們提出的一些想法”。谷歌DeepMind于《自然》雜志發(fā)表AlphaFold2的同一天，貝克團隊也宣布RoseTTAFold的到來。

作為同樣高度精準(zhǔn)的AlphaFold挑戰(zhàn)者，RoseTTAFold也使用深度學(xué)習(xí)預(yù)測蛋白質(zhì)結(jié)構(gòu)，但其底層架構(gòu)與AlphaFold2 截然不同。

托薩托指出：“某個科學(xué)理念被提出后，人們可能對其做逆向工程并嘗試以它為基礎(chǔ)進行構(gòu)建。”

RoseTTAFold并非孤軍奮戰(zhàn)。其他AlphaFold的競爭對手，包括Meta，都設(shè)計了自己的算法以求解決蛋白質(zhì)結(jié)構(gòu)預(yù)測及相關(guān)問題。包括湯森的Atomic AI在內(nèi)的一些公司已將研究范圍擴展到蛋白質(zhì)之外，利用深度學(xué)習(xí)理解RNA結(jié)構(gòu)。

不過在單一結(jié)構(gòu)預(yù)測領(lǐng)域，用桑頓的話說，“迄今仍無人能與AlphaFold比肩準(zhǔn)確性”。

貝克和江珀延續(xù)了CASP建立的富有科學(xué)生產(chǎn)力的競爭傳統(tǒng)。貝克表示：“他們可能覺得我在與他們競爭，但我覺得他們激勵了我們前行。”江珀也歡迎這樣的競爭。

繼續(xù)前進的貝克現(xiàn)在重點關(guān)注蛋白質(zhì)科學(xué)的一個新領(lǐng)域：蛋白質(zhì)設(shè)計。根據(jù)他的設(shè)想，生物學(xué)家不應(yīng)受限于大自然已經(jīng)發(fā)明的蛋白質(zhì)列表，人類要自己設(shè)計新型蛋白質(zhì)——能分解塑料的，能利用陽光的，能作為藥物或疫苗基礎(chǔ)的……

擔(dān)任華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所主任的貝克表示，蛋白質(zhì)設(shè)計本質(zhì)上是“逆蛋白質(zhì)折疊問題”。蛋白質(zhì)設(shè)計師不再將氨基酸序列輸入深度學(xué)習(xí)算法，等待其輸出蛋白質(zhì)結(jié)構(gòu)，而是反向操作：向系統(tǒng)輸入結(jié)構(gòu)，要求它輸出序列。反向操作完成后，設(shè)計師使用該氨基酸序列在實驗室里構(gòu)建蛋白質(zhì)。

貝克還更新了前文介紹蛋白質(zhì)折疊游戲Foldit，將他的癡迷融入其中：玩家不再構(gòu)建蛋白質(zhì)結(jié)構(gòu)，而是設(shè)計蛋白質(zhì)。改版帶來驚喜，貝克的實驗室已圍繞幾種出自玩家手筆的蛋白質(zhì)撰寫論文。全球頂尖的Foldit玩家之一現(xiàn)已是研究生，與貝克的一位同事在華盛頓大學(xué)共事。

信任練習(xí)

AlphaFold2的成功無疑改變了生物學(xué)家對人工智能的態(tài)度。推動卷積網(wǎng)絡(luò)發(fā)展的計算生物學(xué)家許錦波說道：“生物學(xué)家現(xiàn)在相信我們的東西了，以前他們總懷疑預(yù)測結(jié)果的可靠性。”

AlphaFold2平臺的一個功能就是發(fā)揮這種信任的作用：不僅生成蛋白質(zhì)3D模型，還可根據(jù)從0到100的置信度來給結(jié)構(gòu)的不同部分評分，完成對預(yù)測準(zhǔn)確性的自我評估。

2022 年7月，DeepMind發(fā)布2.18億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測（幾乎涵蓋了世界上所有已知蛋白質(zhì)）后，保羅 · 亞當(dāng)斯決定分析AlphaFold2的自我報告。他將這些預(yù)測與已有結(jié)構(gòu)進行比較，并獨立評估其準(zhǔn)確性。

亞當(dāng)斯表示：“好消息是，當(dāng)AlphaFold認(rèn)為它正確時，它通常就相當(dāng)正確；機器不信任時，結(jié)果往往就錯。”當(dāng)然，當(dāng)AlphaFold2對預(yù)測“非常有信心”時（置信度量表上的得分至少達(dá)到90分），仍存在約10%的意外情況，即預(yù)測與實驗結(jié)果不符。

大多數(shù)生物學(xué)家認(rèn)為AlphaFold2只是預(yù)測工具，但有些人把這工具用過頭了——這可能導(dǎo)致人們過度依賴其結(jié)論。一部分曾與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家選擇用AlphaFold2取代老同事，并將機器預(yù)測視作真理。佩拉基斯指出，一些論文介紹的新蛋白質(zhì)結(jié)構(gòu)在任何結(jié)構(gòu)生物學(xué)家看來都錯得明顯。但作者會說：“好吧，這就是AlphaFold提供的結(jié)構(gòu)。”美國國立衛(wèi)生研究院研究員勞倫 · 波特（Lauren Porter）表示：“有些人過于相信（甚至可謂迷信）這類深度學(xué)習(xí)模型的能力了。我們應(yīng)盡可能多地使用深度學(xué)習(xí)模型，但也要謹(jǐn)慎地對待它們。”

瓊斯聽說：“現(xiàn)在大家普遍的看法是，DeepMind都大功告成了，你們?yōu)槭裁催€搞蛋白質(zhì)結(jié)構(gòu)預(yù)測？”但他認(rèn)為這方面工作仍是必要的，因為AlphaFold2會出錯。

非常擅長預(yù)測小型、簡單的蛋白質(zhì)結(jié)構(gòu)，但在預(yù)測包含多個部分的蛋白質(zhì)結(jié)構(gòu)時不夠準(zhǔn)確，也無法解釋蛋白質(zhì)的環(huán)境或與其他分子的結(jié)合情況，這些因素會改變蛋白質(zhì)在自然狀態(tài)下的形狀。有時蛋白質(zhì)需要被某些離子、鹽或金屬包圍才能正確折疊。

海倫 · 沃爾登指出：“目前AlphaFold距離確定蛋白質(zhì)所處環(huán)境還有一段路要走。”沃爾登團隊通過實驗確定了AlphaFold2無法預(yù)測的幾種結(jié)構(gòu)。

此外，AlphaFold2對幾種動態(tài)蛋白質(zhì)的預(yù)測并不理想，而它們的功能也很重要。變形蛋白，又稱折疊轉(zhuǎn)換蛋白，并不是靜態(tài)的，其形狀會隨著與其他分子的相互作用而改變。有的蛋白質(zhì)可能具備相同氨基酸序列，卻折疊成截然不同的形狀。波特表示，折疊轉(zhuǎn)換蛋白“挑戰(zhàn)了一種氨基酸序列只編碼一種蛋白質(zhì)結(jié)構(gòu)的范式”。

還有一些蛋白質(zhì)愛“蹦跶”。內(nèi)在無序的蛋白質(zhì)（或蛋白質(zhì)的部分區(qū)域）缺乏穩(wěn)定結(jié)構(gòu)，不斷地擺動和重塑。哥本哈根大學(xué)計算蛋白質(zhì)生物物理學(xué)教授克雷斯滕 · 林多夫-拉森（Kresten Lindorff-Larsen）說道：“這些蛋白質(zhì)的很多方面都被忽視了，因為它們有點煩人。”大約44%的人類蛋白質(zhì)都有一個由至少30個氨基酸組成的無序區(qū)域。AlphaFold2可以預(yù)測某個區(qū)域何時可能出現(xiàn)內(nèi)在無序，但無法告訴你這種無序是怎樣的。

對江珀而言，他最大的挫敗感在于AlphaFold2 識別不出只存在一處氨基酸不同，即所謂點突變的蛋白質(zhì)。江珀認(rèn)為點突變“可能產(chǎn)生相當(dāng)顯著的影響，有時影響蛋白質(zhì)結(jié)構(gòu)，但通常都會影響蛋白質(zhì)功能”。

2023年9月，DeepMind發(fā)布AlphaMissense。這是一種能預(yù)測上述突變影響的深度學(xué)習(xí)算法。它無法顯示結(jié)構(gòu)變化，但會根據(jù)已知致病蛋白質(zhì)中的類似突變，告知用戶突變會否令蛋白質(zhì)致病或異常。

然而，即使AlphaFold2完美預(yù)測所有蛋白質(zhì)，也遠(yuǎn)遠(yuǎn)達(dá)不到模擬生物現(xiàn)實的水平，因為細(xì)胞內(nèi)的蛋白質(zhì)不是孤立的存在。

細(xì)胞太復(fù)雜

細(xì)胞內(nèi)部復(fù)雜而混亂。細(xì)胞外膜包裹著一個生化環(huán)境，其中充滿各種分子成分——蛋白質(zhì)、信號分子、信使RNA、細(xì)胞器等等。蛋白質(zhì)彼此結(jié)合，也與其他分子結(jié)合，從而改變形態(tài)和功能。AlphaFold2能預(yù)測單個蛋白質(zhì)的結(jié)構(gòu)，但無法幫助生物學(xué)家真正理解復(fù)雜原生環(huán)境下的蛋白質(zhì)。這一缺口也指引著該領(lǐng)域現(xiàn)階段的發(fā)展方向。

蛋白質(zhì)科學(xué)界當(dāng)前的AI巨人DeepMind以及大衛(wèi) · 貝克領(lǐng)銜的蛋白質(zhì)設(shè)計研究所正改進深度學(xué)習(xí)算法，力求預(yù)測蛋白質(zhì)在與其他分子相互作用時呈現(xiàn)的結(jié)構(gòu)。

2024年春季，他們都各自發(fā)表論文，介紹了步調(diào)一致的新進展。算法升級了，名字當(dāng)然也更新了——AlphaFold3和RoseTTAFold All-Atom。它們都能預(yù)測彼此結(jié)合的蛋白質(zhì)、DNA、RNA以及其他小分子的結(jié)構(gòu)。

生物學(xué)家才剛開始測試這些新版神器。根據(jù)艾爾庫萊希說法，目前AlphaFold3比RoseTTAFold All-Atom準(zhǔn)確得多，但它的飛躍并不像AlphaFold2之于一代那么夸張。對于某些大分子，例如RNA結(jié)構(gòu)，AlphaFold3的準(zhǔn)確性仍低于其他基于物理的系統(tǒng)和實驗。

無論如何，新算法朝著正確方向邁出了一大步。蛋白質(zhì)與其他分子間的相互作用是它們在細(xì)胞內(nèi)的功能的關(guān)鍵。為了開發(fā)能停靠于蛋白質(zhì)上并根據(jù)需要改變自身活性的藥物，研究人員需要了解這些復(fù)合物的造型。當(dāng)然，亞當(dāng)斯指出，上述兩大算法都不太可能在短期內(nèi)用于新藥研發(fā)。

DeepMind的新產(chǎn)品還有另一重大變化。AlphaFold2的底層代碼是開源的，因此其他研究者可將其應(yīng)用于自己的項目。但AlphaFold3的源代碼至今仍是商業(yè)機密。至少現(xiàn)階段，還沒人能像用AlphaFold2那樣用AlphaFold3。

艾爾庫萊希期待著，到2040年，深度學(xué)習(xí)將能模擬整個細(xì)胞及其內(nèi)部所有結(jié)構(gòu)和動態(tài)。而要實現(xiàn)此目標(biāo)，實驗和計算兩方面都需要飛躍式進步。

新世界

70年前，人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì)。現(xiàn)在，蛋白質(zhì)世界的新結(jié)構(gòu)一個接一個——可以是大自然所造，也可以由人類設(shè)計。

佩拉基斯表示，蛋白質(zhì)生物學(xué)領(lǐng)域“現(xiàn)在比AlphaFold出現(xiàn)前更令人興奮”，因為學(xué)界看見了再度基于分子結(jié)構(gòu)研發(fā)藥物發(fā)現(xiàn)的希望，更加快節(jié)奏地創(chuàng)建假設(shè)的前景，以及理解細(xì)胞內(nèi)復(fù)雜相互作用的可能。

艾爾庫萊希表示，“這感覺就像是基因組學(xué)革命”，數(shù)據(jù)太多了，無論是身處實驗室還是坐在電腦前的生物學(xué)家，都才剛開始弄清楚怎樣處理這些數(shù)據(jù)。

但就像其他任何領(lǐng)域的AI突破一樣，蛋白質(zhì)科學(xué)里AI應(yīng)用也有其上限。

AlphaFold2的成功建立在訓(xùn)練數(shù)據(jù)的可用性之上——數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)由耐心的實驗人員精心確定。雖然AlphaFold3和其他相關(guān)算法在確定分子化合物結(jié)構(gòu)方面取得了一些成功，但準(zhǔn)確性落后于專攻蛋白質(zhì)的前輩，部分原因就是可用的訓(xùn)練數(shù)據(jù)少很多。

桑頓表示，蛋白質(zhì)折疊問題“幾乎是AI解決方案的完美范例”，算法對以統(tǒng)一方式收集的數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)進行訓(xùn)練。不過蛋白質(zhì)數(shù)據(jù)庫可能也是生物學(xué)中組織數(shù)據(jù)共享的一個特例。如果沒有高質(zhì)量的數(shù)據(jù)來訓(xùn)練算法，它們就無法做出準(zhǔn)確預(yù)測。

沒人知道深度學(xué)習(xí)在解決蛋白質(zhì)折疊問題上的成功會否延伸至其他科學(xué)領(lǐng)域。一些人對此持樂觀態(tài)度。艾爾庫萊希表示：“蛋白質(zhì)折疊實際上只是冰山一角。化學(xué)家需要執(zhí)行工作量很大的計算。借助深度學(xué)習(xí)，這些計算的速度比從前快了一百萬倍。”

人工智能毫無疑問可以推進特定類型的科學(xué)問題。但它或許只能推進知識的發(fā)展。從歷史上看，科學(xué)的目的一直是理解自然，理解生命和宇宙的“過程”。如果科學(xué)依靠深度學(xué)習(xí)的工具向前發(fā)展，只提供解決方案，卻不揭示其中過程，那它還是真正的科學(xué)嗎？

另一方面，CASP組織者正努力解決另一個問題：如何繼續(xù)他們的比賽和會議。CASP成就了AlphaFold2，AlphaFold2則解決了CASP的主要問題。那么接下來，CASP的主要問題是什么？2022年，CASP會議在土耳其安塔利亞舉行。谷歌DeepMind沒有參賽，但人們?nèi)愿惺苤拇嬖凇Ｓ铆偹沟脑捳f，因為 “大家或多或少都在使用 AlphaFold”。

資料來源 Quanta Magazine

本文作者亞瑟明·薩普拉克奧盧（Yasemin Saplakoglu）是《量子雜志》的生物學(xué)專欄作家，廣泛報道神經(jīng)科學(xué)、健康相關(guān)主題，曾為《科學(xué)美國人》（Scientific American）、《圣荷西水星報》（San Jose Mercury News）等報刊撰稿