德米斯?哈薩比斯
2020年12月,我們向世界介紹AlphaFold 2及其在預測蛋白質(zhì)結(jié)構方面的超凡能力。當時,評估者認為這是解決困擾科學界50年的重大問題——解析蛋白質(zhì)三維結(jié)構——的最佳工具。2021年7月,我們在《自然》(Nature)刊載了兩篇論文,發(fā)布了AlphaFold的開源代碼,解釋這個高度創(chuàng)新的體系是怎么來的;同時,我們還分享包括人體中存在的每一種蛋白質(zhì)以及常用于科學研究的20種生物體的蛋白質(zhì)的高質(zhì)量預測。
科學家試圖尋找各類疾病的治療方法,也希望解決人類面臨的其他重大問題,包括抗生素耐藥性、微塑料污染和氣候變化。如果能有對蛋白質(zhì)結(jié)構的更深入理解,研究工作無疑會因此獲益。蛋白質(zhì)就像小巧精致的生物機器,而機器的結(jié)構決定了它的功能,因此揭示蛋白質(zhì)的結(jié)構可以幫助我們理解蛋白質(zhì)的功能。
AI是支持研究人員工作的強大工具,而我們相信AlphaFold是迄今為止人工智能領域提供的最強科學輔助。通過實驗確定蛋白質(zhì)結(jié)構是一項耗時且艱苦的工作,但AlphaFold卻證明人工智能可以在幾分鐘內(nèi)以原子級精度預測蛋白質(zhì)的形狀。借助AlphaFold收獲對蛋白質(zhì)的更深見解,為我們在生物學和醫(yī)學領域取得更多新突破奠定了基礎。
此次突破得益于AlphaFold團隊五年來不知疲倦的探索和驚人的創(chuàng)造力——他們創(chuàng)造性地解決了大量極具難度的問題,得到了許多新的復雜算法,這些都是攻克終極難關所必需的;還得益于過去幾個月與我們在一起的歐洲生物信息研究所(EMBL-EBI)的密切合作,我們現(xiàn)在才能與世界共享這寶藏。
不久前我們還與EMBL-EBI合作推出了AlphaFold蛋白質(zhì)結(jié)構數(shù)據(jù)庫,提供迄今為止最完整且準確的人類蛋白質(zhì)組的結(jié)構圖——數(shù)量是此前人類已積累的兩倍還多。除了人類蛋白質(zhì)組(人類基因組表達的蛋白質(zhì)共約2萬種)之外,我們還提供其他20種生物的蛋白質(zhì)組,總計超過35萬種蛋白質(zhì)結(jié)構的數(shù)據(jù)訪問權限。從大腸桿菌到酵母菌,從果蠅到小鼠,這20種生物極具科研意義,是無數(shù)研究論文的主題和眾多科學進展的主角。我們計劃之后將數(shù)據(jù)庫的覆蓋范圍擴大至幾乎所有已知蛋白質(zhì)——超過1億個結(jié)構,涵蓋UniProt蛋白質(zhì)數(shù)據(jù)庫的大部分內(nèi)容。這是一本名副其實的世界蛋白質(zhì)年鑒。未來我們將繼續(xù)投入對AlphaFold的改進,系統(tǒng)和數(shù)據(jù)庫也會定期更新。
最令人激動的是,這本全新的蛋白質(zhì)年鑒能在世界各地的科學家手中發(fā)揮神奇力量,推動相關研究,提升人類對蛋白質(zhì)的理解。通過早期合作,我們已經(jīng)看到了研究人員在自己的工作中利用好AlphaFold的可能。而這些只是結(jié)構生物信息學革命的開始。隨著AlphaFold的發(fā)展,現(xiàn)有大量數(shù)據(jù)有望轉(zhuǎn)變?yōu)槲磥淼目茖W進步。
AlphaFold的成功建立在幾代科學家的努力之上,從蛋白質(zhì)成像和晶體學領域的早期先驅(qū),到蛋白質(zhì)結(jié)構預測專家和結(jié)構生物學家,眾多研究者很早就開始投入到相關探索中,并留下大量實驗結(jié)果,為此項創(chuàng)新奠定了基礎。
我們認為人工智能可以大幅加速許多科學領域的突破,進而推動人類進步。我們相信AI有望徹底改變21世紀的科研方式,也熱切期待著AlphaFold幫助科學界解鎖下一個神奇。