編譯 苦山
2019年,美國麻省理工學院的科學家在現代醫學領域做到了一件不同尋常的事——他們發現了一種新的抗生素,哈爾素(halicin)。今年5月,另一個團隊發現了第二種新抗生素,阿鮑素(abaucin)。這兩種化合物引人注目的地方不僅在于它們能夠對抗兩種已知最危險的抗生素耐藥細菌,還在于人們找出它們的方式。
在兩個案例中,研究人員都使用了人工智能模型來篩選數百萬種候選化合物,以識別哪些化合物最適合對付某種“超級細菌”。這個模型的訓練數據是幾千種已知抗生素的化學結構,以及它們在實驗室里對抗細菌的效果之優劣。在這個訓練過程中,該模型找出了化學結構和成功破壞細菌之間的聯系。一等到人工智能給出候選名單,科學家就在實驗室里對它們進行了測試,并確定了他們要找的抗生素。麻省理工學院的計算機科學家蕾吉娜 · 巴茲萊(Regina Barzilay)參與了阿鮑素和哈爾素的發現過程,她表示,如果說發現新藥就像在干草堆中尋找一根針,那么人工智能就像是金屬探測器。將候選藥物從實驗室投入到臨床需要多年的醫學試驗。但毫無疑問,人工智能加速了該過程前期的反復試錯部分。巴茲萊博士表示,它提供了全新的可能性。“有了人工智能,我們將要提出的問題類型將與我們今天提出的問題大不相同。”巴茲萊說。
藥物發現并不是唯一一個被人工智能的潛力震撼的領域。從預測天氣,到為電池和太陽能板尋找新材料,再到控制核聚變反應——處理著世界上最復雜和最重要問題的研究人員紛紛轉向了人工智能,以增強或加快他們的研究進程。
人工智能的潛力是巨大的。總部位于倫敦的谷歌D e e p M i n d的聯合創始人戴米斯 · 哈薩比斯(Demis Hassabis)表示:“人工智能可能會引領科學發現的新一輪文藝復興,成為人類創造力的放大器。”他把人工智能比作望遠鏡,一種能讓科學家比裸眼看得更遠、理解得更深的基本科技。
盡管人工智能自20世紀60年代以來一直是“科學工具箱”的一部分,但在多數時間里,它的應用場合都局限在那些科學家們已經精通計算機代碼的學科領域,例如粒子物理學或數學。然而,根據澳大利亞科學機構聯邦科學與工業研究組織的數據,到了2023年,隨著深度學習的興起,超過99%的研究領域都產出了與人工智能相關的結果。倫敦艾倫 · 圖靈研究所的首席科學家馬克 · 吉羅拉米(Mark Girolami)表示:“民主化是導致這種爆炸性增長的重要因素。”過去需要計算機科學學位和一系列晦澀難懂的編程語言才能完成的工作,現在可以通過方便用戶使用的人工智能工具來實現,這些工具通常在向OpenAI的聊天機器人ChatGPT送出查詢指令后即可開始運作。因此,科學家們可以輕松地得到一位堅韌、超人般的研究助手,它能夠解出方程,還能不知疲倦地篩選大量數據,以尋找其中的任何模式或相關性。
例如,在材料科學領域,研究者面臨的問題與藥物發現領域類似——可能存在的化合物數量多得難以想象。當英國利物浦大學的研究人員在尋找具有制造更好電池所需的特殊性質的材料時,他們使用了一種被稱為“自動編碼器”的人工智能模型,在世界上最大的無機晶體結構數據庫中搜索了所有已知的20萬種穩定的晶體化合物。此前,該人工智能已經學習了新電池材料實現其目標所需的最重要的物理和化學特性,它將這些條件應用到了搜索中。它成功地將科學家需要在實驗室中測試的候選化合物從幾千種減少到了僅僅五種,節省了時間和金錢。
最終的候選材料是一種結合了鋰、錫、硫和氯的材料,這種材料很新穎,不過要判斷它是否能投入商業應用還為時過早。然而,這種人工智能方法正被研究人員用于發現其他類型的新材料。
人工智能還可以用于預測。蛋白質在細胞中形成后折疊成的形狀對于其發揮功能至關重要,然而科學家們尚未了解蛋白質是如何折疊的。但在2021年,谷歌深腦開發了阿爾法折疊模型(AlphaFold),該模型通過自學學會了如何僅憑蛋白質的氨基酸序列預測其結構。自發布以來,阿爾法折疊生成了一個數據庫,內含超過2億種預測出的蛋白質結構,已有超過120萬名研究人員使用過它。例如,英國牛津大學的生物化學家馬修 · 希金斯(Matthew Higgins)利用阿爾法折疊找出了蚊子體內一種蛋白質的形狀,這種蛋白質對蚊子時常攜帶的瘧原蟲非常重要。隨后,他結合阿爾法折疊的預測,計算出這種蛋白質的哪些部分最容易被藥物靶向。另一個團隊利用阿爾法折疊在短短30天內找到了一種蛋白質結構,該蛋白質會影響某類肝癌的增殖,從而為設計新的靶向療法開辟了道路。
阿爾法折疊也對生物學其他方面的理解作出了貢獻。例如,一個細胞的細胞核存在多個“門”,可以將物質帶入細胞內以產生蛋白質。數年前,科學家知道核“門”的存在,但對它們的結構知之甚少。通過阿爾法折疊,科學家預測出了“門”的結構,這也有助于理解細胞的內部機制。阿爾法折疊的發明者之一、如今擔任谷歌深智“科學人工智能”團隊負責人的普什米特 · 科利(Pushmeet Kohli)表示:“我們并不真正、完全理解(人工智能)是如何得出這種結構的。但是,一旦它構造出了這個結構,實際上就提供了一種基礎,如今,整個科學界都可以在此基礎上進行建設。”
在加速復雜的計算機模擬方面,人工智能也證明了自己可堪大用。例如,天氣模型是基于能夠描述地球大氣在任何給定時間狀態的數學方程構建的。然而,預報天氣的超級計算機價格昂貴、耗能大,并且計算需要花費大量時間。此外,為了跟上來自全球氣象站的不斷涌入的數據,模型必須一次又一次地運行。
因此,氣候科學家和私營公司開始利用機器學習以加快速度。盤古氣象是由中國企業華為構建的人工智能系統,它可以預測一周內的天氣,預測速度比現行標準快數千倍,成本也低至原來的數千分之一,且精確度沒有任何顯著下降。由美國芯片制造商英偉達構建的傅測網絡模型(FourCastNet)可以在不到兩秒鐘的時間內生成此類預報,并且是第一個以高空間分辨率準確預測降雨的人工智能模型,這對于預測山洪暴發等自然災害至關重要。這兩種人工智能模型都是通過學習觀測數據或超級計算機的模擬輸出數據來訓練預測天氣的。而它們僅僅是開始——英偉達已經宣布計劃建立地球的數字孿生體,名為“地球二號”(Earth-2),該公司希望這個計算機模型能夠在更區域性的層面上提前幾十年預測氣候變化。
與此同時,試圖掌握核聚變能量的物理學家一直在使用人工智能來控制復雜的設備。聚變研究的方法之一是在一種叫托卡馬克的甜甜圈形容器內制造氫等離子體(一種過熱的帶電氣體)。當溫度足夠高時(約1億攝氏度左右),等離子體中的粒子開始融合并釋放能量。但如果等離子體接觸到托卡馬克的容器內壁,就會冷卻并停止工作,因此物理學家要將氣體約束在磁籠中。找到正確的磁場配置極其困難,手動控制它則需要設計數學方程來預測等離子體的行為,然后每秒鐘對大約10個不同的磁線圈進行數千次小調整。相比之下,谷歌深智和瑞士洛桑聯邦理工學院的科學家構建的人工智能控制系統允許科學家們在計算機模擬中對不同形狀的等離子體進行嘗試,然后人工智能會找到最佳方案。
自動化和加速物理實驗及實驗室工作是另一個引發興趣的領域。“自運行實驗室”可以規劃實驗,使用機械臂執行實驗,隨后分析結果。自動化可以用比過去快最高1 000倍的速度發現新化合物,或是找到更好的方法去制造現有化合物。
隨著2022年ChatGPT的問世,生成式人工智能迅速成為公眾關注的焦點,但科學家們對它的研究已經持續了很長一段時間,它在科學上有兩種主要的用途。首先,它可以用于生成數據。“超分辨率”人工智能模型可以將廉價、低分辨率的電子顯微鏡圖像增強為原本因過于昂貴而無法記錄的高分辨率圖像。人工智能對材料或生物樣本的同一小塊區域的高分辨率和低分辨率圖像進行比較。該模型學習兩種分辨率圖像之間的差異,此后就可以在它們之間進行轉換。
正如大語言模型(LLM)可以通過預測序列中的下一個最佳單詞來生成流暢的句子一樣,生成式分子模型可以一個原子一個原子、一個鍵一個鍵地構建分子。大語言模型結合自學的統計數據和從互聯網上挑選出來的數萬億字的訓練文本,以模仿人類的方式進行寫作。“全新分子設計”模型通過大量已知藥物及其性質的數據庫進行訓練,它可以找出哪些分子結構最有可能做哪些事情,并據此構建。總部位于美國加利福尼亞州的沃希恩制藥公司就以這種方式制造出了候選藥物,其中幾種正在動物身上進行試驗,還有一種精準抗凝劑目前正處于臨床試驗的第一階段。與人工智能識別出的新型抗生素和電池材料一樣,由算法設計出的化學品也需要在現實世界中進行常規試驗,然后才能評估其有效性。
滑鐵盧大學的心理學家伊戈爾 · 格羅斯曼(Igor Grossmann)為大語言模型提供了一種更具未來主義色彩的用途。如果在輸入真實(或虛構的)背景故事作為提示指令后,大語言模型能夠準確地反映人類參與者可能說出的話語,那么它們在理論上就可以取代焦點小組,或者被用作經濟學研究的決策主體。我們可以用不同的人格形象訓練大語言模型,這樣,它們的行為就可以被用來模擬實驗,如果得出的結果有意思的話,之后可以通過人類受試者進行確認。
遍布宇宙
多種類型的人工智能已經在廣泛的科學學科中得到了應用
計數瀕危動物
野生動物保護
神經網絡能夠識別照片中的有害海星并計數無人機圖片中的瀕危物種。在一項研究中,人工智能對320萬張圖片自動分類,節省了8.4年的人力。
理解大腦
神經科學
“幾何”式的深度學習解碼了神經元群體如何協同工作。從形狀觀察大腦可以幫助科學家更好地理解大腦的疾病和正常運作。
揭示扭結中的隱藏模
純數學
研究者用一種神經網絡找到了扭結的幾何和代數表達之間存在著某種此前未知的聯系。該人工智能還發現了它們底層結構的新方面。
從大量的資料中可以看出,冬季凍害和早春霜凍預防是非常重要的,幾乎所有關于葡萄的技術資料中都有很詳細的介紹,果農可以根據自己的情況選擇應用。
檢測異常
基礎物理學
大型強子對撞機內的粒子碰撞在每小時內產生的數據比臉書(Facebook)每年產生的數據還多。機器學習幫助科學家篩選數據,并在2012年發現了希格斯玻色子。
解碼鯨的聲音
語言學
研究人員使用生成對抗網絡來推斷抹香鯨發聲中的哪些聲音對該動物來說意義最重大,朝著解碼鯨的交流系統邁出了一步。
量化不確定性
研究方法
人工智能可以全程追蹤一個復雜實驗或觀測中的不確定性和錯誤。例如,從望遠鏡的初始測量一直追蹤到計算機分析的最后一步。
大語言模型已經讓科學家自身變得更高效了。根據GitHub的數據,使用像其“協力者”(Copilot)這樣的工具可以幫助程序員在編寫軟件時速度提高55%。對所有科學家來說,在開始一個項目之前閱讀該領域的背景研究都可能是一項艱巨的任務——現代科學文獻的規模之龐大對于個人來說實在難以掌握。由美國非營利研究實驗室應然(Ought)創建的免費在線人工智能工具“引導者”(Elicit)可以使用大語言模型幫助人們梳理大量的研究文獻并總結重要內容,其速度要以比任何人類都快得多。不少學生和年輕科學家已經在使用它了,他們中的許多人發現它有助于找到可引用的論文,或在面對大量文本時定義研究方向。大語言模型甚至可以幫助人們從數百萬份文件中提取結構化信息——例如使用特定藥物進行的每一項實驗。
人工智能也可以幫助人們擴大對學科內知識的獲取。在日內瓦的歐洲核子研究中心,大型強子對撞機的每個探測器都需要配備專門的操作員和分析師團隊。如果負責各個探測器的物理學家不聚在一起分享他們的專業知識,就不可能整合和比較它們的數據。但對于想要快速測試新想法的理論物理學家來說,這個方法并不總是可行。因此,加州大學河濱分校的物理學家米格爾 · 阿拉蒂亞(Miguel Arratia)提出,利用人工智能將多個基礎物理實驗(甚至是宇宙觀測)的測量數據整合起來,這樣理論物理學家就可以快速探索、組合和重復利用這些數據來進行自己的工作。
人工智能模型已經證明了自己可以處理數據、自動計算和部分實驗室工作。但吉羅拉米博士警告說,雖然人工智能可能有助于幫助科學家填補知識空白,但這些模型仍然難以超越已知知識的邊界。這些系統擅長內插(將現有的點連接起來),但在外推方面表現不佳(即想象下一個點可能落在何處)。
還有一些難題,即使是當今最成功的人工智能系統也無法解決。比如,阿爾法折疊并不是每次都能正確預測出所有的蛋白質結構。位于加州拉霍亞的斯克里普斯研究所的結構生物學家簡 · 戴森(Jane Dyson)說,她的研究重點是“無序”的蛋白質,對于這類蛋白質,人工智能的大部分預測都一塌糊涂。“這不是一場讓我們所有科學家都失業的革命。”此外,阿爾法折疊也仍未能解釋為什么蛋白質會以這些方式折疊。“不過,也許人工智能有一個我們還不能理解的理論。”科利博士說。
盡管存在這些局限性,結構生物學家仍然認為阿爾法折疊使他們的工作變得更高效了。滿是蛋白質預測值的數據庫讓科學家能夠在幾秒鐘內推測出某種蛋白質可能的結構,而不必花費數年時間和數萬美元。
而在加速科學研究和發現的步伐,盡可能地提高效率方面,人工智能還大有可為。最近,經濟合作組織(OECD)發表了一份有關人工智能在科學領域之應用的報告,報告表示:“雖然人工智能正在滲透到科學界的所有領域和階段,但它還遠未發揮出全部的潛力。”報告總結道,人工智能可能帶來巨大的收益:“在人工智能的所有用途中,加快研究的生產力可能是最具經濟和社會價值的。”
如果人工智能工具能夠提高研究的生產率,世界無疑將獲得哈薩比斯博士所預言的“人類創造力的放大器”。但人工智能的潛力仍不止于此:就像望遠鏡和顯微鏡讓科學家看到世界的更多角落一樣,人工智能中使用的概率論的、數據驅動的模型將越來越讓科學家能夠更好地建模和理解復雜系統。在氣候科學和結構生物學等領域中,科學家已經知曉復雜的過程正在發生,但迄今為止,研究人員主要試圖通過自上而下的規則、方程和模擬來理解這些課題。人工智能可以幫助科學家自下而上地處理問題——首先測量大量數據,然后利用算法來提取出規則、模式、方程和此后的科學理解。
如果說,過去幾年見證了科學家們在人工智能的淺水區中“試水”,那么接下來的十年乃至更長時間里,他們必須潛入人工智能的深水區,游向彼岸的地平線。
資料來源TheEconomist