編譯 苦山
“通過放大人類的智慧,人工智能也許會開啟一場全新的文藝復興,或是啟蒙運動的新階段。”今年早些時候,現代人工智能的教父之一楊立昆提出了這樣的觀點。人工智能已經可以令部分現有的科學過程變得更快、更高效,但它能否通過變革科學本身的運作方式做到更多呢?
此類變革在歷史上已然發生過。在17世紀,隨著科學方法的涌現,研究人員開始更加信任實驗觀察以及他們從中得出的理論,而非古代流傳下來的智慧。科學期刊的誕生為這一過程提供了關鍵的支持,它們讓研究人員得以分享他們的發現,既是為了聲明優先權,也是為了鼓勵其他人復制和推進他們的研究成果。期刊創造了一個圍繞共享知識體系而建的國際科學共同體,激發了大量的科學發現,如今,這一時期被稱為科學革命。
19世紀末,隨著研究實驗室的建立,進一步的變革開始發生。這些實驗室是創新之工廠,讓思想、人員和材料得以在工業規模上結合。這導致了從化學品、半導體到制藥領域內創新的進一步涌現。這些轉變并不只是提高了科學生產力。它們還徹底改變了科學本身,開辟了研究和發現的新領域。人工智能要如何才能做類似的事情呢?不僅是產生新結果,還要產生能催生新結果的新方法?
一個頗有前景的方法是“基于文獻的知識發現”(LBD),顧名思義,它旨在通過分析科學文獻來做出新的發現。第一個LBD系統是由芝加哥大學的唐 · 斯旺森(Don Swanson)在20世紀80年代建立的,它在醫學期刊數據庫MEDLINE中尋找研究之間的新穎關聯。在一次早期的成功關聯中,它將兩個獨立的觀察結果——雷諾病(一種循環系統疾病)與血液黏度有關,以及魚油可以降低血液黏度——關聯到一起,并由此提出魚油可能是一種行之有效的治療方法。這一假設隨后得到了實驗的證實。
然而,斯旺森博士的LBD系統未能在當時的人工智能社群之外流行開來。如今,人工智能系統在自然語言處理方面已經變得比當年強大太多,并且有更大的科學文獻語料庫可供分析訓練。現在,在其他領域,尤其是材料科學領域,對類似LBD的方法的興趣正日益增長。
例如,2019年,當時在美國勞倫斯伯克利國家實驗室的瓦赫 · 茨托揚(Vahe Tshitoyan)領導了一個研究小組,使用一種名為“無監督學習”的人工智能技術來分析材料科學論文的摘要,并將有關不同材料性質的信息提取成名為“詞嵌入”的數學表達。這些數學表達將概念放置在一個多維空間中,相似的概念會被分入相同的組。這個系統因此獲得了一種“化學直覺”,例如,它可以給出與另一種材料具有相似性質的材料。隨后,人工智能被要求舉出可能具有熱電性質的材料(將溫差轉化為電壓、并將電壓轉化為溫差的能力),盡管文獻中不曾指出這些材料是否具有熱電性質。人工智能選出十種最有希望的候選材料,經實驗測試發現,這十種材料確實表現出異常強烈的熱電性質。
接下來,研究人員重新訓練他們的系統,在文獻庫中刪去近幾年的論文,并要求系統預測會有哪些新的熱電材料在這幾年里被發現。該系統在預測此類發現方面的準確性是僅憑偶然性預測的8倍。它還可以使用其他術語(如“光伏”)做出準確的發現預測。研究人員得出結論:“這種基于語言的推理方法可以成為自然語言處理與科學交叉的全新研究領域。”
今年,美國芝加哥大學的社會學家賈姆希德 · 蘇拉蒂(Ja mshid Sourati)和詹姆斯 · 埃文斯(James Evans)在《自然 · 人類行為》上發表了一篇論文,以一種新穎的方式擴展了這種方法。該研究始于這一發現:LBD系統傾向于關注論文中的概念,而忽略了它們的作者。因此,他們訓練了一個同時考慮這兩個因素的LBD系統。在預測材料科學的新發現方面,新系統的優異程度是茨托揚博士的團隊所搭建系統的兩倍,并且預測出實際發現者的準確率超過40%。但研究人員隨后更進了一步。他們沒有跟隨研究的主流方向去預測研究人員將在哪里做出新發現,而是要求他們的模型避開主流方向,識別出那些“異質”的假設:這些假設在科學上是合理的,但在正常情況下,人們不太可能在不久的將來發現它們。因此,研究人員認為,該系統既可以加速近期的發現,又可以探測到那些等待研究者做出新發現的“盲區”。
將作者身份納入考慮的LBD系統不僅能夠提出可供研究的新假設,還可以給出現實中不見得認識彼此的潛在合作者。在識別從事不同領域工作的科學家時,這種方法或許會格外有效,從而橋接互補的研究領域。美國南加州大學的計算機科學家尤蘭達 · 吉爾(Yolanda Gil)表示,在人工智能的介入下,跨學科的研究合作“將從罕見變得更為普遍”。隨著LBD系統得到擴展,能夠處理表格、圖片和數據(如基因序列和編程代碼),它們將變得更加能干。未來,研究人員可能會依賴此類系統來監控新科學論文的洪流,找出并凸顯相關結果,為研究提出新的假設,甚至幫他們與潛在的研究伙伴建立聯系,像是“科學相親”一樣。這樣,人工智能工具便可以擴展和改造現有的、擁有數世紀歷史的科學出版領域的基礎設施。
如果LBD讓人們看到了用人工智能大力革新學術期刊的美好前景,那么“機器人科學家”或是“自運行實驗室”承諾為實驗室做到同樣的事情。這些機器超越了諸如藥物篩選平臺這樣現有的實驗室自動化形式。取而代之的是,人們以數據、研究論文和專利的形式向它們灌輸某一特定研究領域的背景知識。隨后,它們用人工智能來形成假設,用機器人進行實驗、評估結果、修改假設,并重復這個循環。2009年,威爾士的阿伯里斯特威斯大學制造了機器“亞當”,它對酵母代謝中基因和酶之間的關系進行了實驗,并成了第一臺自主發現新科學知識的機器。
亞當的后繼者名為“夏娃”,它做的是藥物發現實驗,并擁有更復雜的軟件。在規劃和分析實驗時,它使用機器學習來創建“定量結構活性關系”,即將化學結構與生物效應關聯起來的數學模型。例如,夏娃發現,牙膏中使用的抗菌化合物三氯生可以抑制引發瘧疾的寄生蟲體內的一種基本機制。
劍橋大學的人工智能研究員羅斯 · 金(Ross King)創造了亞當,他將未來的機器人科學家與現在被造來下國際象棋和圍棋的人工智能系統進行了類比。曾經人們以為,機器要想擊敗最好的人類玩家似乎是幾十年后才會發生的事,但是技術的進步之速超出了預期。此外,人工智能系統為這些游戲開發出了人類玩家未曾考慮過的策略。當機器人科學家變得更加能干時,可能會發生類似的事情。“假如人工智能可以探索完整的假設空間,甚至擴大這個空間,那么它可能會表明,人類——或許是出于他們自身的科學偏見——只探索了假設空間的一小部分。”金博士說。
機器人科學家還可以通過另一種方式改變科學:幫助解決困擾科學事業的某些問題。其中一個問題是,從各種衡量標準來看,科學的生產力正在下降,推動知識前沿正變得越來越困難、越來越昂貴。對于個中原因,人們提出了數種理論:例如,最簡單的發現可能已經被做出,而且如今科學家需要更多的訓練才能到達科學前沿。人工智能驅動的系統可以比人類更快、更廉價、更精確地完成實驗室工作。不同于人類,機器人可以晝夜不停地工作。正如計算機和機器人已經使得天文學領域的大規模項目(例如大型天空調查或是對系外行星的自動搜索)成為可能,機器人科學家可以解決系統生物學領域的重大問題,比如那些原本因規模之巨而不切實際的問題。“我們不需要全新的科學來解答這些問題,我們只是需要付出極大的工作量。”金博士說。
自動化還可能有助于解決另一個問題:可重復性危機。理論上,當科學家發表他們的研究成果時,其他人可以復制并驗證他們的研究。但復制研究無法帶來什么榮譽和青睞,因此十分少見。當有人真的去復制研究時,許多嘗試都會失敗,這表明原始研究是無效的,甚至是欺詐性的。科學家幾乎沒有動力去重復其他人的成果,他們面臨的壓力在于發布新結果,而不是驗證現有的結果。同樣,機器人科學家可以在某些研究領域(比如分子生物學)提供相應幫助。2022年,英國曼徹斯特大學的凱瑟琳 · 羅珀(Katherine Roper)發表的一項研究分析了超過12 000篇關于乳腺癌的論文,并選取了74個生物醫學結果,用夏娃機器人對它們進行驗證,最終復現了其中43個結果。研究人員得出的結論是,自動化“可能緩解可重復性危機”,而且它“繞過了社會和職業層面對復制研究的抑制因素”。機器可不介意發表驗證過往結果的研究。不同于人類科學家,它們也不會因為發表負面結果而感到尷尬——例如,某個特定分子未能與給定的目標發生相互作用。發表負面結果可以告訴未來的研究人員不要做什么,從而減少無謂的努力。此外,機器人科學家能可靠地記錄它們工作的每一個細節,這(在理論上)有助于后續的結果分析。“人工智能的創新可以在所有的這些領域改進科學事業。”吉爾博士說。
障礙重重。除了需要更好的硬件和軟件,以及兩者之間更緊密的集成之外,實驗室自動化系統之間還需要更強的互操作性,以及允許人工智能算法交換和詮釋語義信息的共同標準。標準化微孔板含有數百個小型試管,允許實驗室樣品分批處理,它的引入使某些類型的分析生產率提高了幾百倍。如今,我們需要在數據方面實現同樣的事,例如,生物實驗室中,微孔板陣列的大部分數據最終都記錄在電子表格或論文的表格中,而這些形式是無法被機器讀取的。
另一個障礙在于科學家對基于人工智能的工具缺乏熟悉度。而且,和大多數工人一樣,部分研究者擔心自動化會威脅到他們的工作。但吉爾博士說,情況正在發生變化。她在2014年調查科學界對人工智能的態度時,發現在大多數領域,“對人工智能的興趣似乎相對有限”。將人工智能納入科研的大多數嘗試都來自人工智能領域的研究人員,而他們經常要面對他人的疑慮或冷淡。但如今,吉爾博士說,人工智能的影響已經“深遠而普遍”。她表示,現在許多科學家在“主動尋找人工智能合作者”。人工智能的潛力得到越來越多人的認可,特別是在材料科學和藥物發現領域,從業人員正在構建他們自己的人工智能動力系統。“如果我們能讓機器像人類一樣擅長科學,那將是一個根本性的突破,因為你可以制造很多這樣的機器。”金博士說。
科學期刊改變了科學家發現信息的方式,也改變了他們在彼此工作基礎上推進研究的方式。研究實驗室擴大了科研規模,并使實驗工業化。通過擴展和結合此前的這兩場變革,人工智能確實可以改變科學工作的方式。
資料來源TheEconomist