999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能是蛋白質(zhì)科學(xué)的終結(jié)者嗎?

2024-12-31 00:00:00劉迪一/編譯
世界科學(xué) 2024年8期
關(guān)鍵詞:結(jié)構(gòu)

2020年12月,由于疫情令面對面會議難以舉辦,數(shù)百位計算科學(xué)家在電子屏幕前線上集會,并見證了科學(xué)新時代的到來。

他們參加的會議是一場友好競賽,正式名稱為“結(jié)構(gòu)預(yù)測關(guān)鍵評估”(CASP),一般被叫作“國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽”,每兩年舉辦一次。有的學(xué)者已經(jīng)參加了近三十年。參會同行們都癡迷于同一個問題,那就是蛋白質(zhì)折疊問題。他們較量的方式很簡明:能否根據(jù)最簡單的蛋白質(zhì)一級結(jié)構(gòu)信息,即多肽鏈中氨基酸殘基的排列順序,準(zhǔn)確預(yù)測蛋白質(zhì)分子的三維形狀?蛋白質(zhì)形狀決定其行為,因此準(zhǔn)確預(yù)測形狀將為我們理解疾病、生產(chǎn)新藥和洞見生命運作方式帶來深遠(yuǎn)影響。

科學(xué)家總要在競賽中測試自己最新的蛋白質(zhì)折疊工具,但一直難以企及理想的預(yù)測結(jié)果。回顧歷史,CASP呈現(xiàn)的進展總是小幅度的,因此對于2020年底的第十四屆CASP(CASP14),同行們并不認(rèn)為會有驚喜。

直到他們親眼見證劃時代的AlphaFold2。

在CASP14上,蛋白質(zhì)科學(xué)界新人約翰 · 江珀(John Jumper)介紹了一款來自谷歌DeepMind的人工智能新工具AlphaFold2。他展示的數(shù)據(jù)表明,AlphaFold2的3D蛋白質(zhì)結(jié)構(gòu)預(yù)測模型擁有超過90%的準(zhǔn)確率——是最接近它的競爭對手的5倍。蛋白質(zhì)折疊問題一下子從觸不可及落入尋常任務(wù)。

在CASP14的總結(jié)發(fā)言中,會議組織者約翰 · 莫爾特(John Moult)確信:AlphaFold2“很大程度上解決了”蛋白質(zhì)折疊問題,并永遠(yuǎn)改變了蛋白質(zhì)科學(xué)。“這不是結(jié)束,而是開始。”他的語氣激動又伴有些不安。

當(dāng)谷歌的公關(guān)將此消息大力推廣至全球,各路媒體紛紛宣稱AlphaFold2 “會改變一切”。很多一輩子研究單一蛋白質(zhì)結(jié)構(gòu)的生物學(xué)家開始擔(dān)心失業(yè)問題。當(dāng)然也有人認(rèn)為上述成果不會帶來什么改變,所謂變革只是炒作。

距離AlphaFold2問世已過去三年半。現(xiàn)在我們對于蛋白質(zhì)三維結(jié)構(gòu)的AI預(yù)測有了比較全面深入的認(rèn)識。

AlphaFold2無疑改變了生物學(xué)家研究蛋白質(zhì)的方式。它能非常巧妙地解決蛋白質(zhì)折疊問題的一部分,解決方式不同于科學(xué)家,但這個強大預(yù)測工具并非無所不知,也無法取代生物實驗,反倒凸顯了生物實驗的必要性。

AlphaFold2最大的影響或許是讓生物學(xué)家意識到人工智能的力量。它啟發(fā)了新算法,包括用于設(shè)計本不存在于自然界的新蛋白質(zhì)的算法,也催生了新的生物技術(shù)企業(yè)和科學(xué)實踐方式。它的進階版AlphaFold3于2024年5月發(fā)布,能結(jié)合DNA或RNA等分子的結(jié)構(gòu)信息對蛋白質(zhì)建模,這推動生物預(yù)測更上一層樓。

然而,人工智能目前還無法模擬蛋白質(zhì)隨時間的變化情況,也難以對細(xì)胞內(nèi)環(huán)境物質(zhì)中的蛋白質(zhì)進行建模。

=============第1部分=============

提出問題

一張紙可以折成輕盈滑翔的紙飛機,可以承載祝愿的千紙鶴抑或其他復(fù)雜精妙的折紙藝術(shù)品。紙的折疊形態(tài)決定其功用。同樣地,一長串氨基酸分子只有折疊成特定形狀(生物學(xué)家稱之為結(jié)構(gòu))時才具備功能。蛋白質(zhì)的結(jié)構(gòu)決定它如何與其他分子結(jié)合或相互作用,而這決定了它在細(xì)胞內(nèi)的作用。

地球上已知的蛋白質(zhì)有幾億種,未知的更多。它們可謂無所不能:血紅蛋白和肌紅蛋白幫助機體運輸、儲存氧氣;角蛋白構(gòu)成頭發(fā)、指甲和皮膚的結(jié)構(gòu);胰島素使葡萄糖進入細(xì)胞并轉(zhuǎn)化為能量。蛋白質(zhì)可以呈現(xiàn)無數(shù)種形狀(結(jié)構(gòu)),對應(yīng)它們?yōu)樯龅臒o數(shù)種工作。

哥倫比亞大學(xué)系統(tǒng)生物學(xué)系專家穆罕默德 · 艾爾庫萊希(Mohammed AlQuraishi)說道:“從原子到生態(tài)系統(tǒng),蛋白質(zhì)結(jié)構(gòu)就像一種通用語言。一切都發(fā)生于蛋白質(zhì)。”

細(xì)胞將氨基酸分子連接成多肽鏈,再令肽鏈盤曲折疊形成空間結(jié)構(gòu),從而制得蛋白質(zhì)。它選擇的氨基酸類型取決于DNA提供的一組基本指令。多肽鏈會在形成后瞬間就精確地彎曲折疊,成為三維形狀的蛋白質(zhì)。一旦結(jié)束“組裝”,蛋白質(zhì)便匆忙開展工作。

若蛋白質(zhì)不能很好完成折疊過程,機體就會遭遇一系列災(zāi)難。許多疾病和病癥,如鐮狀細(xì)胞性貧血病,都由蛋白質(zhì)錯誤折疊引起。錯誤折疊的蛋白質(zhì)會聚集成團塊——這是阿爾茨海默病和帕金森綜合征等神經(jīng)退行性疾病的標(biāo)志。

然而,一直沒人真正知曉蛋白質(zhì)折疊的具體過程。由氨基酸分子連接而成的肽鏈的序列信息,怎樣編碼出了蛋白質(zhì)的復(fù)雜形狀?約翰霍普金斯大學(xué)生物物理學(xué)名譽教授喬治 · 羅斯(George Rose)表示,這是“我們可以提出的最深刻的問題”。

早在1930年代,學(xué)界就開始探究上述問題。不過真正意義上的探索始于1950年代中期。當(dāng)時生物化學(xué)家克里斯蒂安 · 安芬森(Christian Anfinsen)將蛋白質(zhì)添加到特定化學(xué)溶液里,以破壞蛋白質(zhì)的化學(xué)鍵使其不再折疊或錯誤折疊,然后觀察下一步反應(yīng)。安芬森發(fā)現(xiàn),不折疊或錯誤折疊的蛋白質(zhì)能自發(fā)地重新折疊成正確結(jié)構(gòu)。這一后來為他贏得諾貝爾獎的發(fā)現(xiàn)證明了蛋白質(zhì)的三維形狀是由內(nèi)部編碼(氨基酸序列串)指導(dǎo)形成的。

因此,安芬森假設(shè),應(yīng)當(dāng)有一種方法可以根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測其形狀。從此便有了所謂蛋白質(zhì)折疊問題。

多肽鏈只要組裝完成,就可于千分之一秒內(nèi)完成折疊,變作真正的蛋白質(zhì)。這個時間尺度讓分子生物學(xué)家賽勒斯 · 列文塔爾(Cyrus Levinthal)感到困惑。他在1969年論文《如何雅致地折疊》(How to Fold Graciously)中指出:如果蛋白質(zhì)嘗試所有可能的折疊方式,它將需要非常長的時間才能組裝完成。他認(rèn)為,一定有某種東西讓蛋白質(zhì)更直接地沿正確路徑折疊。

隨著時間推移,蛋白質(zhì)折疊問題分化出一些新問題。當(dāng)時主要有三大問題:能否根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測其結(jié)構(gòu)?指導(dǎo)折疊的編碼是什么?折疊機制是什么?

這些問題早在1960年代初就開始縈繞科學(xué)家腦海。彼時第一批通過實驗確定的蛋白質(zhì)結(jié)構(gòu)問世。劍橋大學(xué)的兩位生物學(xué)家馬克斯 · 佩魯茨(Max Perutz)和約翰 · 肯德魯(John Kendrew)將蛋白質(zhì)培養(yǎng)成晶體,用X射線轟擊它們,并測量射線的彎曲程度——此項技術(shù)被稱為X射線晶體學(xué)。通過這種方式以及二十多年的努力,他們確定了血紅蛋白和肌紅蛋白的三維結(jié)構(gòu),后來因此共享諾貝爾獎。

自那以后,大量研究人員不光分析各種蛋白質(zhì)的結(jié)構(gòu)形態(tài),還努力了解它們怎樣折疊出這些結(jié)構(gòu)。

格拉斯哥大學(xué)結(jié)構(gòu)生物學(xué)家海倫 · 沃爾登(Helen Walden)表示:“想看清事物外觀是人類的本能,因為只有這樣你才能了解它們的功能。”有些人研究化學(xué)性質(zhì),另一些人研究物理學(xué)。實驗人員通過艱苦、繁重的實驗室工作重建蛋白質(zhì)形狀。計算生物學(xué)家借助模型尋找線索,使用不同的算法規(guī)則組合對其進行編程和重新編程。

隨著越來越多蛋白質(zhì)結(jié)構(gòu)的出現(xiàn),蛋白質(zhì)科學(xué)界需要一種能組織和共享這些結(jié)構(gòu)的方法。1971年,學(xué)界建立起蛋白質(zhì)數(shù)據(jù)庫。它作為一個蛋白質(zhì)結(jié)構(gòu)的檔案庫,免費對外開放,成為任何需要了解蛋白質(zhì)結(jié)構(gòu)以探究生物學(xué)問題的人的可靠工具。

蛋白質(zhì)數(shù)據(jù)庫剛開放時,存有7種蛋白質(zhì)的結(jié)構(gòu)。近50年過后,谷歌DeepMind用它來訓(xùn)練AlphaFold2時,面對的是超過14萬種蛋白質(zhì)結(jié)構(gòu)的儲備,而且每種結(jié)構(gòu)都是被結(jié)構(gòu)生物學(xué)家費力解碼過的。

實驗者的痛苦

從1970年代中期開始,結(jié)構(gòu)生物信息學(xué)家珍妮特 · 桑頓(Janet Thornton)每隔幾個月就會收到一份包裹。包裹內(nèi)是一盤約30厘米長的磁帶,存儲著蛋白質(zhì)數(shù)據(jù)庫中新的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。桑頓會急切地拆開包裹并分析新結(jié)構(gòu)。她收到的第一盤磁帶上只有20個結(jié)構(gòu)。

每一個蛋白質(zhì)結(jié)構(gòu)背后都是研究人員多年的科研努力。博士生通常會花費四年甚至更長時間來結(jié)晶單個蛋白質(zhì),從中收集數(shù)據(jù)或解釋數(shù)據(jù)以找出折疊結(jié)構(gòu)。

那時桑頓所在的牛津大學(xué)生物物理系是全球X射線晶體學(xué)的中心之一。1965年,蛋白質(zhì)晶體學(xué)先驅(qū)之一戴維 · 菲利普斯(David Phillips)首次確定了溶菌酶的蛋白質(zhì)結(jié)構(gòu)(免疫系統(tǒng)依靠此酶攻擊細(xì)菌)。牛津大學(xué)的生物物理學(xué)家利用X射線晶體學(xué)繪制了蛋白質(zhì)電子密度圖。桑頓表示,她和同事將這些電子密度圖打印到塑料片上,并將它們一張疊一張地堆起來,從而繪制出蛋白質(zhì)形貌的“等高線圖”。

之后,他們將蛋白質(zhì)的“地形圖”轉(zhuǎn)換成物理模型。生物物理學(xué)家弗雷德里克 · 理查茲(Frederic Richards)于1968年發(fā)明了理查茲盒(以他的名字命名)。這是一種大型光學(xué)比較儀,能幫助晶體學(xué)家通過半鍍銀鏡觀察堆疊的電子密度片,以構(gòu)建蛋白質(zhì)結(jié)構(gòu)的物理模型。桑頓將由塑料片承載的地圖放入理查茲盒,盒內(nèi)一面傾斜的鏡子把地圖反射到工作區(qū),讓觀察者準(zhǔn)確看清每個原子相對其他原子的位置。然后,他們用球和棍構(gòu)建物理模型。

這種方法既煩瑣又受限制。1971年,后來成為著名晶體學(xué)家的路易斯 · 約翰遜(Louise Johnson)正努力給磷酸化酶建模。磷酸化酶含842個氨基酸,是當(dāng)時研究過的最大蛋白質(zhì)。為了建模,約翰遜必須爬上梯子,進入一個兩層樓的理查茲箱。

模型完成后,科學(xué)家用尺子測量原子之間的距離,得出蛋白質(zhì)結(jié)構(gòu)的坐標(biāo)。然后他們將坐標(biāo)輸入計算機。桑頓表示,計算機版本看起來像一片茂密的森林,原子雜亂地聚集在一起。只有通過3D眼鏡觀察結(jié)構(gòu)時,她才能看到蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。

桑頓說道:“這是個非常痛苦的過程,但最后還是完成了,真是太神奇了。”

經(jīng)過年復(fù)一年的艱苦努力,他們終于達(dá)成了研究目標(biāo)。只要是自己有信心的蛋白質(zhì)結(jié)構(gòu),科學(xué)家就將其提交至蛋白質(zhì)數(shù)據(jù)庫。到1984年,庫內(nèi)已存152種蛋白質(zhì);到1992年,存儲量更是高達(dá)747種。

當(dāng)實驗人員努力構(gòu)建物理模型時,計算科學(xué)家嘗試另一條路徑來解決問題。安芬森相信蛋白質(zhì)結(jié)構(gòu)可以通過氨基酸序列預(yù)測得到,計算派當(dāng)然也認(rèn)同此觀點,但他們對預(yù)測結(jié)構(gòu)一事過于樂觀了。

制定自己的規(guī)則

1960年代初,約翰 · 莫爾特還是個想做物理學(xué)家的本科生。后來他了解到蛋白質(zhì)折疊問題。“有人來做講座,說生物學(xué)太重要了,不能把它留給生物學(xué)家。我不知深淺地當(dāng)真了。”莫爾特被深深吸引,然后改變了生涯規(guī)劃。

畢業(yè)后,莫爾特開始研究蛋白質(zhì)晶體學(xué)。他破譯了幾種蛋白質(zhì)的結(jié)構(gòu),包括β-內(nèi)酰胺酶(一種能破壞青霉素的細(xì)菌酶),并于1970年獲得牛津大學(xué)分子生物物理學(xué)博士學(xué)位。但當(dāng)他開始博士后研究時,實驗派方法令其厭倦,他選擇轉(zhuǎn)向日益發(fā)展的蛋白質(zhì)計算領(lǐng)域。不同于實驗派,計算生物學(xué)家嘗試編寫算法來證明安芬森的理論正確:只要給程序輸入一串氨基酸,就可生成正確的蛋白質(zhì)結(jié)構(gòu)。

從生物實驗到計算機的轉(zhuǎn)變并不容易。莫爾特解決單個蛋白質(zhì)結(jié)構(gòu)問題時習(xí)慣慢工出細(xì)活。在新領(lǐng)域,計算派的論文常常聲稱已經(jīng)解決了蛋白質(zhì)折疊問題以及相關(guān)子問題。莫爾特對此表示懷疑。

在虛擬世界里,若自然世界的法則行不通,計算派學(xué)者會編寫自己的規(guī)則。他們設(shè)計算法,使原子以某種方式粘在一起,或控制蛋白質(zhì)總是折疊向右或向左。日積月累,模型離現(xiàn)實越來越遠(yuǎn)。

盡管如此,莫爾特還是看到了兩派各自的價值。實驗派的工作精確但緩慢;計算派的工作快速卻與真實的生物物理相差很大,因此常有謬誤。

他相信,一定有某種方法可以結(jié)合實驗與計算的優(yōu)點。

“跺木地板”

1990年代初,莫爾特與同事克日什托夫 · 菲德利斯(Krzysztof Fidelis)發(fā)起一項社區(qū)科學(xué)實驗,即前文提到的CASP。

作為CASP的組織者,莫爾特和菲德利斯會發(fā)布一份蛋白質(zhì)氨基酸序列的列表。這些蛋白質(zhì)的結(jié)構(gòu)都是不久前被實驗人員破譯并提供給他們的,但破譯結(jié)果尚未公布。來自全球各地的計算團隊會盡最大努力,利用能用的任何方法來預(yù)測結(jié)構(gòu)。針對參與者建立的模型,會有一個獨立的科學(xué)家小組通過比較計算結(jié)果與實驗證實的結(jié)構(gòu)來做評估。

CASP很快成為蛋白質(zhì)折疊問題的計算模型試驗場。當(dāng)時AI尚未誕生,計算方法涉及分子物理學(xué)的模擬。CASP是科學(xué)家進行公開試驗以檢驗自己想法的平臺。桑頓說道:“這本不是比賽,卻變成了比賽。”

CASP每兩年舉辦一次,參會的科學(xué)家相聚加州蒙特雷的阿西洛馬會議中心。除了聽到比賽結(jié)果,計算派學(xué)者們還會談?wù)撟约旱姆椒āD獱柼毓膭顓咴诼牭讲幌矚g的內(nèi)容時,跺木地板。

曾師從桑頓的倫敦大學(xué)學(xué)院生物信息學(xué)教授戴維 · 瓊斯(David Jones)回憶道:如果討論陷入細(xì)節(jié),生物學(xué)家就會跺腳;如果某個主張被夸大了,他們也跺腳;如果發(fā)言者說話重復(fù)啰嗦,也免不了跺腳伺候……不過瓊斯指出,那是友好的跺腳,“并不令人討厭”。瓊斯表示,有一年,他與同事提出一種叫作“線程”(threading)的計算方法:氨基酸按已知的蛋白質(zhì)結(jié)構(gòu)被編織成特定序列,以尋找相互匹配的序列和結(jié)構(gòu)。 “這個方法令我們非常高興,可后來就不靈了……”瓊斯笑著回憶道。

當(dāng)被問及彼時CASP的成果如何時,莫爾特選擇用好壞不一來形容。有些方法表現(xiàn)超出預(yù)期,比如“同源建模”,即通過比較已知蛋白質(zhì)的結(jié)構(gòu)來推斷未知蛋白質(zhì)的結(jié)構(gòu);另一些方法則一無所獲。莫爾特說,大多數(shù)結(jié)構(gòu)預(yù)測都是“看上去很痛苦的物體”。

荷蘭癌癥研究所和烏得勒支大學(xué)的結(jié)構(gòu)生物學(xué)家阿納斯塔西斯 · 佩拉基斯(Anastassis Perrakis)開玩笑道:“我很高興看到他們失敗,我們喜歡在科學(xué)上互相取笑。”佩拉基斯負(fù)責(zé)將實驗確定的結(jié)構(gòu)提供給CASP組織者用于比賽。

在競逐與取笑的過程中,有人開始引領(lǐng)前沿。

1996年,第二屆CASP結(jié)束后,一位名叫大衛(wèi) · 貝克(David Baker)的年輕人邀請瓊斯一起打的去機場。貝克聽過瓊斯的演說。當(dāng)時正研究自己的計算模型的他其實沒有為CASP2準(zhǔn)備好模型,但他想聊聊。瓊斯在車?yán)锫犃怂南敕ǎ瑥臎]想過會再次見到他。

在1998年舉辦的CASP3上,貝克憑借其Rosetta算法一鳴驚人。瓊斯認(rèn)為他成了“最強選手”。Rosetta等算法模擬氨基酸分子的原子之間的相互作用,從而預(yù)測它們的折疊方式。不過貝克表示,算法“還不夠好,也不夠準(zhǔn)確,還難以發(fā)揮作用”。

2008年,人類智能仍碾壓計算機的時候,已在華盛頓大學(xué)管理自己實驗室的貝克開發(fā)出一款名為Foldit的免費網(wǎng)游——游戲玩家需將氨基酸序列折疊成蛋白質(zhì)結(jié)構(gòu)。貝克團隊于《自然》(Nature)雜志發(fā)表論文稱,F(xiàn)oldit的人類玩家在蛋白質(zhì)建模方面的表現(xiàn)優(yōu)于Rosetta。

不過人類的領(lǐng)先優(yōu)勢并未持續(xù)多久。2010年代初,共同進化這一概念的重大突破推動了領(lǐng)域發(fā)展,后來又被證明對人工智能至關(guān)重要。已存在幾十年的共同進化概念其實很簡單:通過仔細(xì)比較千百種蛋白質(zhì)中相關(guān)的氨基酸序列,科學(xué)家可以識別出發(fā)生突變的氨基酸,關(guān)鍵在于,能確定它們是否與其他氨基酸同步突變。如果兩種氨基酸一起變化,它們很可能以某種方式相關(guān)聯(lián)。

但在2010年代初以前,這種預(yù)測工作的準(zhǔn)確度始終欠佳,徘徊于20%~24%的水平。后來計算派注意到自己統(tǒng)計方法有錯:將一些本無聯(lián)系的氨基酸認(rèn)定為相關(guān)。

完善了統(tǒng)計工具后,2016年,預(yù)測準(zhǔn)確率升至47%。又過兩年,這一數(shù)字變作70%。貝克的算法建立于這一成功的預(yù)測基礎(chǔ):2014年,Rosetta生成了兩種蛋白質(zhì)結(jié)構(gòu),其準(zhǔn)確率之高令CASP評判員認(rèn)為貝克可能已經(jīng)解決了蛋白質(zhì)折疊問題。

勞倫斯伯克利國家實驗室的結(jié)構(gòu)生物學(xué)家保羅 · 亞當(dāng)斯(Paul Adams)表示,共同進化的見解“太棒了”。在未使用機器學(xué)習(xí)的情況下,共同進化是“真正推動該領(lǐng)域向前發(fā)展的重大事件之一”。

然而,該研究領(lǐng)域目前的發(fā)展還很有限。共同進化需要大量相似的蛋白質(zhì)用于比較,而實驗人員解決蛋白質(zhì)結(jié)構(gòu)的速度不夠快,無法滿足計算人員的需求。

=============第2部分=============

走出深淵

2016年,戴維 · 瓊斯于《自然》雜志撰文勾勒未來。谷歌DeepMind團隊的研究人員詳細(xì)介紹他們的算法如何利用所謂“深度學(xué)習(xí)”在圍棋博弈中擊敗人類頂尖棋手。

深度學(xué)習(xí)是一種人工智能,其靈感源于人類大腦。大腦中的分子信息通過一個相互連接的腦細(xì)胞(稱為神經(jīng)元)網(wǎng)絡(luò)發(fā)送。神經(jīng)元的樹突就像手臂,抓住相鄰神經(jīng)元發(fā)送的分子,而這些分子會告訴接收它們的神經(jīng)元是否放電并傳播信號。

布朗大學(xué)計算機科學(xué)教授邁克爾 · 利特曼(Michael Littman)指出:“如果某個神經(jīng)元的活動足夠多,它就會放電。”

1950年代,計算機科學(xué)家意識到他們可以將電子比特連接在一起以創(chuàng)建“神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)的每個單元都是一個節(jié)點,相當(dāng)于大腦的一個神經(jīng)元:神經(jīng)元A1從其他神經(jīng)元,比如A0處接收信息,然后計算是否向下一個神經(jīng)元,比如A2處發(fā)射信號。在神經(jīng)網(wǎng)絡(luò)中,信息在多層神經(jīng)元之間傳播以產(chǎn)生特定結(jié)果,例如從某圖像中識別出狗。

利特曼表示,神經(jīng)元層數(shù)越多,可執(zhí)行的計算就越復(fù)雜。但早期神經(jīng)網(wǎng)絡(luò)僅兩層。1990年代,層數(shù)增加至三層,并于此后20年間一直保持該水平。“我們無法確定如何可靠地創(chuàng)建比這更深層的網(wǎng)絡(luò)。”

自1990年代以來,包括瓊斯和莫爾特在內(nèi)的結(jié)構(gòu)生物學(xué)家就一直嘗試在蛋白質(zhì)科學(xué)中應(yīng)用神經(jīng)網(wǎng)絡(luò),但淺層網(wǎng)絡(luò)和稀疏數(shù)據(jù)的局限阻礙了發(fā)展。到2010年代初期,計算科學(xué)家學(xué)會了如何更好地構(gòu)建神經(jīng)網(wǎng)絡(luò),從而更高水平地訓(xùn)練更多層。網(wǎng)絡(luò)深度增加到20、50、100甚至數(shù)千層。利特曼說道:“為將其與90年代的方法區(qū)分開,人們開始稱之為深度學(xué)習(xí)。”

深度學(xué)習(xí)改變了人工智能,產(chǎn)出了擅長識別照片或聲音特征的算法。而且事實證明,它能在智力對決中擊敗人類。

2016年3月,DeepMind聯(lián)合創(chuàng)始人德米斯 · 哈薩比斯(Demis Hassabis)在首爾見證了他的AI系統(tǒng)AlphaGo擊敗圍棋世界冠軍李世石。那時他也回想起自己大學(xué)期間玩Foldit的情景:如果DeepMind的研究人員可以編寫一種算法來模仿圍棋大師的直覺,是不是也能寫出模仿Foldit游戲玩家直覺的算法——雖對生物學(xué)一無所知,卻善于折疊蛋白質(zhì)?

芝加哥豐田技術(shù)學(xué)院的許錦波教授也預(yù)見到通過深度學(xué)習(xí)解決蛋白質(zhì)折疊問題的前景。這些網(wǎng)絡(luò)在圖像識別領(lǐng)域的應(yīng)用啟發(fā)了他。當(dāng)時,計算科學(xué)家已經(jīng)在卷積網(wǎng)絡(luò)方面取得了巨大成功(卷積網(wǎng)絡(luò)可編寫深度學(xué)習(xí)算法,從而將圖像分解成碎片,并識別它們之間的模式)。許錦波將該技術(shù)應(yīng)用于蛋白質(zhì)折疊。他使用矩陣來表示哪些氨基酸在空間上靠得很近,然后將數(shù)據(jù)作為圖像輸入卷積網(wǎng)絡(luò)。算法從圖像中尋找模式,以預(yù)測組成蛋白質(zhì)的原子的三維坐標(biāo)。

2016年,許教授于arxiv.org發(fā)布了上述研究的預(yù)印本文章,并正式發(fā)表在《PlOS計算生物學(xué)》(PLOS Computational Biology)雜志上。莫爾特表示,此項工作對該領(lǐng)域“影響頗大”,向人們展示了“深度學(xué)習(xí)能做到什么”。

不久后,蛋白質(zhì)結(jié)構(gòu)研究小組開始涉足深度學(xué)習(xí)。艾爾庫萊希及其團隊率先開發(fā)出一種能直接使用神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法,即所謂的“端到端”方法,但效果并不好。

瓊斯說道:“我并不確切知道自己想用深度學(xué)習(xí)做什么,但我明白自己需要搞深度學(xué)習(xí)。”

在收到谷歌DeepMind詢問CASP競賽情況的郵件前,瓊斯已經(jīng)開始撰寫資助申請,希望加入前者團隊。“他當(dāng)然也回復(fù)表示愿意提供幫助,我當(dāng)時以為他們只想秀一秀強大的計算機實力。但會面后,我發(fā)現(xiàn)谷歌的野心非常大。”

新玩家

2016年,當(dāng)瓊斯開始擔(dān)任DeepMind的顧問,負(fù)責(zé)后來被稱為AlphaFold的項目時,約翰 · 江珀正于芝加哥大學(xué)攻讀理論化學(xué)博士學(xué)位。

十幾歲時,江珀自學(xué)了計算機編程。他還擅長物理。因此上大學(xué)后,他決定專攻數(shù)學(xué)和物理。他的工程師父母都曾擔(dān)心他以后找不到工作。

在范德堡大學(xué)讀本科時,江珀與費米國家加速器實驗室的研究人員合作,研究亞原子粒子夸克的奇異性質(zhì)。一天,與同事坐一塊兒吃午餐時,他受到了刺激。江珀問同事:“我們正在搞的這個實驗,什么時候能搞出點名堂來?”其中一位教授表示可能要等到自己退休以后了,另一位年紀(jì)更大些的教授則說自己可能活不到那天了。

江珀說道:“我想在更短的時間內(nèi)完成科學(xué)研究。”本科畢業(yè)后的他開始攻讀凝聚態(tài)物理學(xué)博士學(xué)位,但很快就退學(xué)了,之后得到紐約一家生物化學(xué)研究公司——蕭爾研究有限公司(D. E. Shaw Research)的工作。該公司當(dāng)時正創(chuàng)建蛋白質(zhì)的基本模擬,希望通過了解蛋白質(zhì)如何移動和變化,更深刻揭示肺癌等各種疾病的機制。

這是江珀第一次意識到自己工作的潛在意義。在接下來的三年里,江珀在公司的超級計算機上模擬蛋白質(zhì)運動,這些計算機專為更快速模擬分子而打造。“我在某個工作日的模擬量比我讀博期間所做的全加一塊兒都要多。”

2011年,他再次嘗試讀研,進入芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍對蛋白質(zhì)結(jié)構(gòu)和運動感興趣,同時也為學(xué)術(shù)界緩慢的進展而沮喪。他想知道能否借助人工智能——“當(dāng)時我們稱之為統(tǒng)計物理學(xué)”——達(dá)到快速模擬的程度。他開始涉足機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。

在此期間,他思索著蛋白質(zhì)折疊問題并猜測,來自蛋白質(zhì)數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)可用于解決這個問題。至2012年,該數(shù)據(jù)庫已包含超過76 000種蛋白質(zhì)結(jié)構(gòu)。“我相信數(shù)據(jù)足夠了,但想法不夠。”

2017年,江珀聽聞DeepMind將進軍蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域。當(dāng)時他剛剛完成博士學(xué)位——正利用機器學(xué)習(xí)模擬蛋白質(zhì)折疊和動力學(xué)。他申請了研究科學(xué)家的職位。當(dāng)時“該項目仍處于保密狀態(tài)”。

2017年10月,他來到DeepMind位于倫敦的辦公室。在顧問瓊斯幫助下,團隊深入開發(fā)AlphaFold。瓊斯回憶道:“那是段非常有趣的時光。我們把能想到的各種想法都擺出來討論。最終,一個很棒的核心思路出現(xiàn)了,接下來就是付諸實踐。”

為訓(xùn)練算法,DeepMind團隊使用了來自蛋白質(zhì)數(shù)據(jù)庫的14多萬個結(jié)構(gòu)。他們將這些信息輸入卷積網(wǎng)絡(luò),但未對AI架構(gòu)本身做太多改變。江珀表示這是“標(biāo)準(zhǔn)的機器學(xué)習(xí)”。

到2018年春天,AlphaFold已為參加CASP做好準(zhǔn)備,欲與真正的蛋白質(zhì)科學(xué)家較量。不過DeepMind團隊曾爭論是否匿名參賽,因為他們怕丟面子。

團隊后來決定以谷歌 DeepMind之名提交成果。在12月會議召開的幾個月前,瓊斯收到CASP組織者的來信。后者建議DeepMind團隊參加會議,因為AlphaFold確實表現(xiàn)優(yōu)異。

最終,AlphaFold以2.5倍于第二名團隊的成績斬獲佳績。這次華麗登場給眾人留下了深刻印象。

重啟算法

但DeepMind團隊很清楚,他們離解決蛋白質(zhì)折疊問題還差很遠(yuǎn)。哈薩比斯幾個月前就召集了他們,并向各位發(fā)問:“我們到底要不要解決這個問題?”江珀回憶他當(dāng)時說的話:如果不行,那就讓我們找到可以產(chǎn)生真正巨大影響的問題吧。

憑借在物理、化學(xué)、生物和計算方面的多學(xué)科背景,江珀為頭腦風(fēng)暴會議帶來獨到見解。很快,他就領(lǐng)導(dǎo)了團隊。

后來創(chuàng)立AI驅(qū)動生物技術(shù)公司Atomic AI的拉斐爾 · 湯森(Raphael Townshend)曾于2019年在DeepMind實習(xí)。學(xué)術(shù)界的專家們往往缺少合作交流,自顧自開展科研項目。而在DeepMind,統(tǒng)計學(xué)、結(jié)構(gòu)生物學(xué)、計算化學(xué)、軟件工程等領(lǐng)域的專家共同研究蛋白質(zhì)折疊問題,他們背后還有谷歌龐大的財務(wù)和計算資源。湯森還表示,倫敦的DeepMind辦公室充滿活力,而大部分活力都來自江珀。計算科學(xué)家艾倫 · 鐘(Ellen Zhong)2021年時在DeepMind實習(xí),現(xiàn)為普林斯頓大學(xué)的助理教授。她也認(rèn)為:“江珀是個真正的天才,也是一個很謙虛的人。他深受團隊愛戴。”

在江珀的領(lǐng)導(dǎo)下,AlphaFold得以重建。湯森表示,DeepMind設(shè)計了一種新型的轉(zhuǎn)換器架構(gòu)——這種深度學(xué)習(xí)“為過去五年間發(fā)生的每一項機器學(xué)習(xí)突破提供了動力”。該神經(jīng)網(wǎng)絡(luò)調(diào)整了連接強度,以創(chuàng)建更準(zhǔn)確的數(shù)據(jù)(關(guān)于蛋白質(zhì)進化和結(jié)構(gòu)的數(shù)據(jù))。它通過另一個轉(zhuǎn)換器運行該數(shù)據(jù),從而預(yù)測蛋白質(zhì)三維結(jié)構(gòu)。然后,算法通過將其與一些修訂后的數(shù)據(jù)一起通過轉(zhuǎn)換器運行多次,進一步完善結(jié)構(gòu)。

當(dāng)江珀團隊剛開始研究AlphaFold2時,他們的算法“很糟糕”,但通過進一步完善,算法預(yù)測的效率和準(zhǔn)確性有了飛躍。

團隊決定進行內(nèi)部實驗,看看他們打造的系統(tǒng)是否有助于生物學(xué)家。實驗結(jié)果轉(zhuǎn)化為大約50篇刊載于《科學(xué)》《自然》和《細(xì)胞》等頂尖刊物的論文——不僅描述了新的蛋白質(zhì)結(jié)構(gòu),還從結(jié)構(gòu)中獲得了有關(guān)蛋白質(zhì)功能的見解。江珀等人想確定,AlphaFold2是否真能經(jīng)得起實驗派工作的檢驗。

他們向系統(tǒng)輸入氨基酸序列,AlphaFold2運行其預(yù)測引擎。對于每個序列,它都能給出接近論文提出的實驗結(jié)構(gòu)的預(yù)測。但團隊認(rèn)為它還不夠準(zhǔn)確,這些結(jié)構(gòu)缺少實驗人員了解的有關(guān)蛋白質(zhì)的關(guān)鍵細(xì)節(jié)。

在接下來6個月里,團隊小步快跑地不斷優(yōu)化系統(tǒng)。到2020年CASP競賽的蛋白質(zhì)候選物發(fā)布的幾周前,他們進行了另一次實用性測試。江珀對結(jié)果很滿意。DeepMind于2020年春季向CASP提交了預(yù)測結(jié)果,然后等待回復(fù)。

行業(yè)巨震

初夏時節(jié),莫爾特收到了一封CASP評估員發(fā)來的郵件。郵件附有DeepMind解析的蛋白質(zhì)結(jié)構(gòu),并指出:“看看這個,太厲害了。”莫爾特也贊嘆不已,但他認(rèn)為自己眼前的只是個例。

后來他又收到第二封郵件,以及第三封、第四封……一大堆近乎完美的蛋白質(zhì)預(yù)測全部來自DeepMind。到了夏末,“我們很快意識到……行業(yè)正經(jīng)歷大變革。”

CASP評估員將預(yù)測的蛋白質(zhì)結(jié)構(gòu)與已證實的實驗結(jié)構(gòu)進行比較,從而對參賽者提交每份的論文做出評分。滿分為100分,代表模型與現(xiàn)實是逐個原子相匹配的。莫爾特一直認(rèn)為,任何超過90分的評估結(jié)果都表明算法已有效解決蛋白質(zhì)結(jié)構(gòu)問題。AlphaFold的大多數(shù)結(jié)構(gòu)都達(dá)到或超過了90分。

從某種意義上說,DeepMind確實解決了蛋白質(zhì)折疊問題的預(yù)測部分。AlphaFold2能根據(jù)蛋白質(zhì)的氨基酸序列準(zhǔn)確給出蛋白質(zhì)結(jié)構(gòu)。瓊斯感慨道:“我最喜歡的項目死了,DeepMind終結(jié)了它。”

多年來,佩拉基斯一直向CASP競賽貢獻未發(fā)表的實驗結(jié)果。當(dāng)他看到自己團隊辛苦實驗得來的結(jié)構(gòu)被AlphaFold2完美預(yù)測時,他屬實有點心情復(fù)雜。

=============第 3 部分=============

震撼與敬畏

結(jié)構(gòu)生物學(xué)領(lǐng)域的結(jié)構(gòu)突然凌亂了。

帕多瓦大學(xué)生物信息學(xué)教授西爾維奧 · 托薩托(Silvio Tosatto)自CASP成立之初就一直參賽。用托薩托的話說,面對顛覆行業(yè)的AlphaFold2,“我們進行了大量自我反省”,一些結(jié)構(gòu)生物學(xué)家擔(dān)心自己的工作會被淘汰,另一些人則聲稱AlphaFold2并不準(zhǔn)確。

計算生物學(xué)家一直在努力解決蛋白質(zhì)折疊問題,有些人甚至已為此奮斗幾十年。AlphaFold2的登場讓他們心中五味雜陳。CASP大賽結(jié)束后,艾爾庫萊希發(fā)表感慨:“就像在面對自己孩子第一次離家。”

許多科學(xué)家因AlphaFold2欣喜若狂。那些不做結(jié)構(gòu)研究的學(xué)者過去必須與結(jié)構(gòu)生物學(xué)家合作才能確定蛋白質(zhì)結(jié)構(gòu)。現(xiàn)在,只需動動手指按按鍵,理想結(jié)構(gòu)就擺在眼前。

媒體報道中的AlphaFold2是無與倫比的AI新突破,不過科學(xué)家倒是花費數(shù)月甚至數(shù)年時間才弄清楚AlphaFold2究竟能做什么,不能做什么。佩拉基斯回憶道:“AlphaFold2發(fā)布后的第二天,我們就試圖安裝使用它。”生物學(xué)家開始行動。

很多情況下,結(jié)構(gòu)生物學(xué)家以發(fā)現(xiàn)蛋白質(zhì)的功能為目標(biāo)。借助 AlphaFold2,他們能于幾分鐘內(nèi)提出假設(shè),而不必等待數(shù)月甚至數(shù)年直至實驗確定結(jié)構(gòu)。然而,AlphaFold2并未如某些人預(yù)期那樣立即產(chǎn)出各種新藥——研究人員很快發(fā)現(xiàn)其局限性。AlphaFold2的預(yù)測并不完美,結(jié)果仍然需要實驗驗證,但可以幫助研究人員更快地轉(zhuǎn)向?qū)嶋H的結(jié)構(gòu)研究。

這種轉(zhuǎn)變已經(jīng)開始。2022年6月,《科學(xué)》雜志的一期特刊揭示了人類核孔復(fù)合體的近原子結(jié)構(gòu)。過去幾十年間,這種由30種不同蛋白質(zhì)構(gòu)成、巨大而復(fù)雜的結(jié)構(gòu)一直是生物學(xué)難題。科學(xué)家利用AlphaFold2預(yù)測填補了冷凍電鏡難以解構(gòu)蛋白質(zhì)結(jié)構(gòu)的缺口。

江珀表示,看到那篇關(guān)于AlphaFold2助力其他學(xué)者取得生物學(xué)突破的論文后,“我意識到AlphaFold真的非常重要”。

一些生物學(xué)家已經(jīng)開始研究 AlphaFold2 的用途,而不僅僅是辨別已知蛋白質(zhì)的結(jié)構(gòu)和功能,甚至設(shè)計自然界中不存在的蛋白質(zhì)——這是幫助設(shè)計新型藥物的關(guān)鍵技術(shù)。

下一個前沿

在2020年CASP大賽上看過江珀演講后,貝克幾乎立刻重啟他的Rosetta算法研究。當(dāng)時谷歌尚未分享AlphaFold2的底層源代碼。盡管如此,“我們還是開始嘗試他們提出的一些想法”。谷歌DeepMind于《自然》雜志發(fā)表AlphaFold2的同一天,貝克團隊也宣布RoseTTAFold的到來。

作為同樣高度精準(zhǔn)的AlphaFold挑戰(zhàn)者,RoseTTAFold也使用深度學(xué)習(xí)預(yù)測蛋白質(zhì)結(jié)構(gòu),但其底層架構(gòu)與AlphaFold2 截然不同。

托薩托指出:“某個科學(xué)理念被提出后,人們可能對其做逆向工程并嘗試以它為基礎(chǔ)進行構(gòu)建。”

RoseTTAFold并非孤軍奮戰(zhàn)。其他AlphaFold的競爭對手,包括Meta,都設(shè)計了自己的算法以求解決蛋白質(zhì)結(jié)構(gòu)預(yù)測及相關(guān)問題。包括湯森的Atomic AI在內(nèi)的一些公司已將研究范圍擴展到蛋白質(zhì)之外,利用深度學(xué)習(xí)理解RNA結(jié)構(gòu)。

不過在單一結(jié)構(gòu)預(yù)測領(lǐng)域,用桑頓的話說,“迄今仍無人能與AlphaFold比肩準(zhǔn)確性”。

貝克和江珀延續(xù)了CASP建立的富有科學(xué)生產(chǎn)力的競爭傳統(tǒng)。貝克表示:“他們可能覺得我在與他們競爭,但我覺得他們激勵了我們前行。”江珀也歡迎這樣的競爭。

繼續(xù)前進的貝克現(xiàn)在重點關(guān)注蛋白質(zhì)科學(xué)的一個新領(lǐng)域:蛋白質(zhì)設(shè)計。根據(jù)他的設(shè)想,生物學(xué)家不應(yīng)受限于大自然已經(jīng)發(fā)明的蛋白質(zhì)列表,人類要自己設(shè)計新型蛋白質(zhì)——能分解塑料的,能利用陽光的,能作為藥物或疫苗基礎(chǔ)的……

擔(dān)任華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所主任的貝克表示,蛋白質(zhì)設(shè)計本質(zhì)上是“逆蛋白質(zhì)折疊問題”。蛋白質(zhì)設(shè)計師不再將氨基酸序列輸入深度學(xué)習(xí)算法,等待其輸出蛋白質(zhì)結(jié)構(gòu),而是反向操作:向系統(tǒng)輸入結(jié)構(gòu),要求它輸出序列。反向操作完成后,設(shè)計師使用該氨基酸序列在實驗室里構(gòu)建蛋白質(zhì)。

貝克還更新了前文介紹蛋白質(zhì)折疊游戲Foldit,將他的癡迷融入其中:玩家不再構(gòu)建蛋白質(zhì)結(jié)構(gòu),而是設(shè)計蛋白質(zhì)。改版帶來驚喜,貝克的實驗室已圍繞幾種出自玩家手筆的蛋白質(zhì)撰寫論文。全球頂尖的Foldit玩家之一現(xiàn)已是研究生,與貝克的一位同事在華盛頓大學(xué)共事。

信任練習(xí)

AlphaFold2的成功無疑改變了生物學(xué)家對人工智能的態(tài)度。推動卷積網(wǎng)絡(luò)發(fā)展的計算生物學(xué)家許錦波說道:“生物學(xué)家現(xiàn)在相信我們的東西了,以前他們總懷疑預(yù)測結(jié)果的可靠性。”

AlphaFold2平臺的一個功能就是發(fā)揮這種信任的作用:不僅生成蛋白質(zhì)3D模型,還可根據(jù)從0到100的置信度來給結(jié)構(gòu)的不同部分評分,完成對預(yù)測準(zhǔn)確性的自我評估。

2022 年7月,DeepMind發(fā)布2.18億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(幾乎涵蓋了世界上所有已知蛋白質(zhì))后,保羅 · 亞當(dāng)斯決定分析AlphaFold2的自我報告。他將這些預(yù)測與已有結(jié)構(gòu)進行比較,并獨立評估其準(zhǔn)確性。

亞當(dāng)斯表示:“好消息是,當(dāng)AlphaFold認(rèn)為它正確時,它通常就相當(dāng)正確;機器不信任時,結(jié)果往往就錯。”當(dāng)然,當(dāng)AlphaFold2對預(yù)測“非常有信心”時(置信度量表上的得分至少達(dá)到90分),仍存在約10%的意外情況,即預(yù)測與實驗結(jié)果不符。

大多數(shù)生物學(xué)家認(rèn)為AlphaFold2只是預(yù)測工具,但有些人把這工具用過頭了——這可能導(dǎo)致人們過度依賴其結(jié)論。一部分曾與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家選擇用AlphaFold2取代老同事,并將機器預(yù)測視作真理。佩拉基斯指出,一些論文介紹的新蛋白質(zhì)結(jié)構(gòu)在任何結(jié)構(gòu)生物學(xué)家看來都錯得明顯。但作者會說:“好吧,這就是AlphaFold提供的結(jié)構(gòu)。”美國國立衛(wèi)生研究院研究員勞倫 · 波特(Lauren Porter)表示:“有些人過于相信(甚至可謂迷信)這類深度學(xué)習(xí)模型的能力了。我們應(yīng)盡可能多地使用深度學(xué)習(xí)模型,但也要謹(jǐn)慎地對待它們。”

瓊斯聽說:“現(xiàn)在大家普遍的看法是,DeepMind都大功告成了,你們?yōu)槭裁催€搞蛋白質(zhì)結(jié)構(gòu)預(yù)測?”但他認(rèn)為這方面工作仍是必要的,因為AlphaFold2會出錯。

非常擅長預(yù)測小型、簡單的蛋白質(zhì)結(jié)構(gòu),但在預(yù)測包含多個部分的蛋白質(zhì)結(jié)構(gòu)時不夠準(zhǔn)確,也無法解釋蛋白質(zhì)的環(huán)境或與其他分子的結(jié)合情況,這些因素會改變蛋白質(zhì)在自然狀態(tài)下的形狀。有時蛋白質(zhì)需要被某些離子、鹽或金屬包圍才能正確折疊。

海倫 · 沃爾登指出:“目前AlphaFold距離確定蛋白質(zhì)所處環(huán)境還有一段路要走。”沃爾登團隊通過實驗確定了AlphaFold2無法預(yù)測的幾種結(jié)構(gòu)。

此外,AlphaFold2對幾種動態(tài)蛋白質(zhì)的預(yù)測并不理想,而它們的功能也很重要。變形蛋白,又稱折疊轉(zhuǎn)換蛋白,并不是靜態(tài)的,其形狀會隨著與其他分子的相互作用而改變。有的蛋白質(zhì)可能具備相同氨基酸序列,卻折疊成截然不同的形狀。波特表示,折疊轉(zhuǎn)換蛋白“挑戰(zhàn)了一種氨基酸序列只編碼一種蛋白質(zhì)結(jié)構(gòu)的范式”。

還有一些蛋白質(zhì)愛“蹦跶”。內(nèi)在無序的蛋白質(zhì)(或蛋白質(zhì)的部分區(qū)域)缺乏穩(wěn)定結(jié)構(gòu),不斷地擺動和重塑。哥本哈根大學(xué)計算蛋白質(zhì)生物物理學(xué)教授克雷斯滕 · 林多夫-拉森(Kresten Lindorff-Larsen)說道:“這些蛋白質(zhì)的很多方面都被忽視了,因為它們有點煩人。”大約44%的人類蛋白質(zhì)都有一個由至少30個氨基酸組成的無序區(qū)域。AlphaFold2可以預(yù)測某個區(qū)域何時可能出現(xiàn)內(nèi)在無序,但無法告訴你這種無序是怎樣的。

對江珀而言,他最大的挫敗感在于AlphaFold2 識別不出只存在一處氨基酸不同,即所謂點突變的蛋白質(zhì)。江珀認(rèn)為點突變“可能產(chǎn)生相當(dāng)顯著的影響,有時影響蛋白質(zhì)結(jié)構(gòu),但通常都會影響蛋白質(zhì)功能”。

2023年9月,DeepMind發(fā)布AlphaMissense。這是一種能預(yù)測上述突變影響的深度學(xué)習(xí)算法。它無法顯示結(jié)構(gòu)變化,但會根據(jù)已知致病蛋白質(zhì)中的類似突變,告知用戶突變會否令蛋白質(zhì)致病或異常。

然而,即使AlphaFold2完美預(yù)測所有蛋白質(zhì),也遠(yuǎn)遠(yuǎn)達(dá)不到模擬生物現(xiàn)實的水平,因為細(xì)胞內(nèi)的蛋白質(zhì)不是孤立的存在。

細(xì)胞太復(fù)雜

細(xì)胞內(nèi)部復(fù)雜而混亂。細(xì)胞外膜包裹著一個生化環(huán)境,其中充滿各種分子成分——蛋白質(zhì)、信號分子、信使RNA、細(xì)胞器等等。蛋白質(zhì)彼此結(jié)合,也與其他分子結(jié)合,從而改變形態(tài)和功能。AlphaFold2能預(yù)測單個蛋白質(zhì)的結(jié)構(gòu),但無法幫助生物學(xué)家真正理解復(fù)雜原生環(huán)境下的蛋白質(zhì)。這一缺口也指引著該領(lǐng)域現(xiàn)階段的發(fā)展方向。

蛋白質(zhì)科學(xué)界當(dāng)前的AI巨人DeepMind以及大衛(wèi) · 貝克領(lǐng)銜的蛋白質(zhì)設(shè)計研究所正改進深度學(xué)習(xí)算法,力求預(yù)測蛋白質(zhì)在與其他分子相互作用時呈現(xiàn)的結(jié)構(gòu)。

2024年春季,他們都各自發(fā)表論文,介紹了步調(diào)一致的新進展。算法升級了,名字當(dāng)然也更新了——AlphaFold3和RoseTTAFold All-Atom。它們都能預(yù)測彼此結(jié)合的蛋白質(zhì)、DNA、RNA以及其他小分子的結(jié)構(gòu)。

生物學(xué)家才剛開始測試這些新版神器。根據(jù)艾爾庫萊希說法,目前AlphaFold3比RoseTTAFold All-Atom準(zhǔn)確得多,但它的飛躍并不像AlphaFold2之于一代那么夸張。對于某些大分子,例如RNA結(jié)構(gòu),AlphaFold3的準(zhǔn)確性仍低于其他基于物理的系統(tǒng)和實驗。

無論如何,新算法朝著正確方向邁出了一大步。蛋白質(zhì)與其他分子間的相互作用是它們在細(xì)胞內(nèi)的功能的關(guān)鍵。為了開發(fā)能停靠于蛋白質(zhì)上并根據(jù)需要改變自身活性的藥物,研究人員需要了解這些復(fù)合物的造型。當(dāng)然,亞當(dāng)斯指出,上述兩大算法都不太可能在短期內(nèi)用于新藥研發(fā)。

DeepMind的新產(chǎn)品還有另一重大變化。AlphaFold2的底層代碼是開源的,因此其他研究者可將其應(yīng)用于自己的項目。但AlphaFold3的源代碼至今仍是商業(yè)機密。至少現(xiàn)階段,還沒人能像用AlphaFold2那樣用AlphaFold3。

艾爾庫萊希期待著,到2040年,深度學(xué)習(xí)將能模擬整個細(xì)胞及其內(nèi)部所有結(jié)構(gòu)和動態(tài)。而要實現(xiàn)此目標(biāo),實驗和計算兩方面都需要飛躍式進步。

新世界

70年前,人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì)。現(xiàn)在,蛋白質(zhì)世界的新結(jié)構(gòu)一個接一個——可以是大自然所造,也可以由人類設(shè)計。

佩拉基斯表示,蛋白質(zhì)生物學(xué)領(lǐng)域“現(xiàn)在比AlphaFold出現(xiàn)前更令人興奮”,因為學(xué)界看見了再度基于分子結(jié)構(gòu)研發(fā)藥物發(fā)現(xiàn)的希望,更加快節(jié)奏地創(chuàng)建假設(shè)的前景,以及理解細(xì)胞內(nèi)復(fù)雜相互作用的可能。

艾爾庫萊希表示,“這感覺就像是基因組學(xué)革命”,數(shù)據(jù)太多了,無論是身處實驗室還是坐在電腦前的生物學(xué)家,都才剛開始弄清楚怎樣處理這些數(shù)據(jù)。

但就像其他任何領(lǐng)域的AI突破一樣,蛋白質(zhì)科學(xué)里AI應(yīng)用也有其上限。

AlphaFold2的成功建立在訓(xùn)練數(shù)據(jù)的可用性之上——數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)由耐心的實驗人員精心確定。雖然AlphaFold3和其他相關(guān)算法在確定分子化合物結(jié)構(gòu)方面取得了一些成功,但準(zhǔn)確性落后于專攻蛋白質(zhì)的前輩,部分原因就是可用的訓(xùn)練數(shù)據(jù)少很多。

桑頓表示,蛋白質(zhì)折疊問題“幾乎是AI解決方案的完美范例”,算法對以統(tǒng)一方式收集的數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)進行訓(xùn)練。不過蛋白質(zhì)數(shù)據(jù)庫可能也是生物學(xué)中組織數(shù)據(jù)共享的一個特例。如果沒有高質(zhì)量的數(shù)據(jù)來訓(xùn)練算法,它們就無法做出準(zhǔn)確預(yù)測。

沒人知道深度學(xué)習(xí)在解決蛋白質(zhì)折疊問題上的成功會否延伸至其他科學(xué)領(lǐng)域。一些人對此持樂觀態(tài)度。艾爾庫萊希表示:“蛋白質(zhì)折疊實際上只是冰山一角。化學(xué)家需要執(zhí)行工作量很大的計算。借助深度學(xué)習(xí),這些計算的速度比從前快了一百萬倍。”

人工智能毫無疑問可以推進特定類型的科學(xué)問題。但它或許只能推進知識的發(fā)展。從歷史上看,科學(xué)的目的一直是理解自然,理解生命和宇宙的“過程”。如果科學(xué)依靠深度學(xué)習(xí)的工具向前發(fā)展,只提供解決方案,卻不揭示其中過程,那它還是真正的科學(xué)嗎?

另一方面,CASP組織者正努力解決另一個問題:如何繼續(xù)他們的比賽和會議。CASP成就了AlphaFold2,AlphaFold2則解決了CASP的主要問題。那么接下來,CASP的主要問題是什么?2022年,CASP會議在土耳其安塔利亞舉行。谷歌DeepMind沒有參賽,但人們?nèi)愿惺苤拇嬖凇S铆偹沟脑捳f,因為 “大家或多或少都在使用 AlphaFold”。

資料來源 Quanta Magazine

本文作者亞瑟明·薩普拉克奧盧(Yasemin Saplakoglu)是《量子雜志》的生物學(xué)專欄作家,廣泛報道神經(jīng)科學(xué)、健康相關(guān)主題,曾為《科學(xué)美國人》(Scientific American)、《圣荷西水星報》(San Jose Mercury News)等報刊撰稿

猜你喜歡
結(jié)構(gòu)
DNA結(jié)構(gòu)的發(fā)現(xiàn)
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
論結(jié)構(gòu)
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結(jié)構(gòu)的應(yīng)用
模具制造(2019年3期)2019-06-06 02:10:54
循環(huán)結(jié)構(gòu)謹(jǐn)防“死循環(huán)”
論《日出》的結(jié)構(gòu)
縱向結(jié)構(gòu)
縱向結(jié)構(gòu)
我國社會結(jié)構(gòu)的重建
人間(2015年21期)2015-03-11 15:23:21
創(chuàng)新治理結(jié)構(gòu)促進中小企業(yè)持續(xù)成長
主站蜘蛛池模板: 91九色视频网| 国产免费好大好硬视频| 亚洲色图综合在线| 亚洲人成日本在线观看| 欧美色视频网站| 久青草国产高清在线视频| 免费xxxxx在线观看网站| 国产在线无码av完整版在线观看| 国产99视频精品免费视频7| 亚洲黄色片免费看| 2048国产精品原创综合在线| 国产亚洲视频免费播放| jizz在线免费播放| 毛片网站免费在线观看| 97成人在线观看| 欧美一区二区三区欧美日韩亚洲| 人妻一本久道久久综合久久鬼色| 欧美日韩国产系列在线观看| 欧美成人a∨视频免费观看| 欧美亚洲一区二区三区导航| 中文字幕人妻无码系列第三区| 国产人成网线在线播放va| 亚洲大尺码专区影院| 亚洲日本中文字幕乱码中文 | 亚洲成年人网| 久久精品无码国产一区二区三区| 青青操国产| 久久国产毛片| 夜夜拍夜夜爽| 青青草一区二区免费精品| 青青青国产视频手机| 亚洲国产精品国自产拍A| 99久久亚洲精品影院| 日韩天堂视频| 欧美一区福利| 亚洲国产精品一区二区高清无码久久| 国产成人精品综合| 极品国产在线| 国产成人高清精品免费| 国产成人三级| 亚洲国产无码有码| 99久久成人国产精品免费| 久久久久亚洲精品成人网| 免费不卡在线观看av| 国产 在线视频无码| jijzzizz老师出水喷水喷出| 美女被躁出白浆视频播放| 55夜色66夜色国产精品视频| 欧美精品v| 欧美午夜在线观看| 凹凸精品免费精品视频| 亚洲国内精品自在自线官| 精品少妇人妻av无码久久| 特级欧美视频aaaaaa| 中文字幕永久在线看| 婷婷六月综合| 91小视频版在线观看www| 欧美日韩精品一区二区在线线| 国内精品久久久久久久久久影视 | 国产欧美日韩在线在线不卡视频| 日韩高清欧美| 最新亚洲人成网站在线观看| 99久久精品免费观看国产| 高清免费毛片| 亚洲性日韩精品一区二区| 亚洲欧美在线综合一区二区三区 | 国产精品99久久久| 嫩草在线视频| 99在线观看视频免费| 一本大道无码日韩精品影视| 色综合久久久久8天国| 亚洲av无码久久无遮挡| 国产精品无码AⅤ在线观看播放| 欧美日韩久久综合| 欧美日韩精品综合在线一区| 激情亚洲天堂| 久无码久无码av无码| 久久久受www免费人成| 一区二区欧美日韩高清免费| 内射人妻无套中出无码| 好紧好深好大乳无码中文字幕| 国产麻豆福利av在线播放|