在爭議不斷的浪潮中,
一種接管科研流程的工具成了新一波浪頭。
當一個國際研究團隊著手創建一位“人工智能科學家”來處理整個科研流程時,他們并不確定自己最終能走多遠。他們創造的系統真的能夠生成有趣的假設、進行實驗、評估結果并撰寫論文嗎?
研究員陸聰(Cong Lu,音譯)表示,他們最終得到的成果是一個據他們判斷相當于低年級博士生的人工智能工具。他說,該系統有“一些創造力驚人的點子”,但這些好點子的數量遠遠少于壞點子。它很難流暢連貫地將自己的結果撰寫成論文,有時還會誤解自己的實驗結果,陸聰說:“它和一個盲目猜測某種現象為何成立的博士生水平差不太多。”而且,也許就像那些還沒搞懂學術倫理的低年級博士生一樣,盡管研究人員竭力讓它保持誠實,它有時還是會在論文中胡編亂造。
陸聰是加拿大不列顛哥倫比亞大學的博士后研究員,他與其他數位學者以及來自東京熱門初創公司“魚群”(Sakana AI)的研究人員共同參與了這一項目。該團隊最近在預印本平臺ArXiv上發布了他們的成果。盡管這篇論文預印本中包含了對成果局限性和倫理問題的探討,但文中也使用了一些極盡夸張的語言,稱這個人工智能科學家是“科學發現的新時代之開端”,并且是“第一個全自動實現科學發現的綜合框架,能夠讓前沿的大型語言模型(LLMs)獨立進行研究并傳達其發現”。
人工智能科學家似乎捕捉到了時代精神。它正乘著將人工智能應用于科學的熱潮乘風破浪,但一些批評者認為,這股浪潮最終不會在科學領域留下任何有價值的東西。
“將人工智能應用于科學”的熱潮
這項研究是“將人工智能應用于科學”這一更廣泛趨勢的參與者之一。可以說,這股熱潮是由谷歌DeepMind在2020年引發的——當時它推出了AlphaFold,這一人工智能系統以前所未有的精確度預測了蛋白質的三維結構,令生物學家們大為驚嘆。自從生成式人工智能問世以來,越來越多的大型企業紛紛參與其中。索尼人工智能公司的高級研究員塔雷克 · 貝索德(Tarek Besold)負責主持該公司的人工智能促進科學發現項目,他表示,將人工智能應用于科學是“人工智能社區可以為之團結的目標,不僅是為了推進底層技術的發展,更重要的是,為了幫助人類應對我們這個時代最緊迫的一些問題”。
然而,這股浪潮也面臨批評。2023年,DeepMind發表了一篇論文,聲稱發現了220萬個新的晶體結構(“相當于近800年的知識量”),但不久后,兩位材料科學家隨機抽取了部分結構進行分析,發現“幾乎沒有證據表明其中的化合物能同時滿足新穎性、可信性和實用性三要素”。換句話說,人工智能雖然能快速生成大量結果,但這些結果未必真正有用。
人工智能科學家的工作原理
在人工智能科學家項目中,陸聰和合作者們僅在計算機科學領域測試了他們的系統。他們要求它研究與大語言模型和擴散模型相關的課題。大語言模型為聊天機器人(如ChatGPT)和人工智能科學家自身提供了驅動力,擴散模型則是DALL-E等圖像生成器的重要動力源。
人工智能科學家運作的第一步是生成假設。基于它所研究模型的代碼,它會自由生成一系列旨在提高模型性能的實驗想法,并根據趣味性、新穎度和可行性對每個想法進行評分。它可以在這一步進行迭代,生成最高分想法的不同變體。隨后,它會在學術搜索引擎“語義學者”(Semantic Scholar)上檢查其提議是否與既有研究過于相似。接著,它會用一款名為“援手”(Aider)的編程助手來運行代碼,并以實驗日志的形式記錄結果。它可以基于這些結果生成后續實驗的點子。
下一步是讓人工智能科學家根據會議指南模板將研究結果寫成論文。然而,陸聰表示,該系統很難寫出一篇條理清晰、九頁長的論文來解釋其結果。“撰寫階段可能和實驗階段一樣難以搞定。”他說。因此,研究人員將這一過程分解為多個步驟:人工智能科學家每次只寫一個章節,并將每個章節與其他章節進行核對,以剔除重復和相互矛盾的信息。此外,它還會再次使用“語義學者”來查找引用文獻并生成參考書目。
然而,還有所謂的“幻覺”問題——這個術語指的是人工智能會編造信息。陸聰表示,盡管他們指示人工智能科學家只使用實驗日志中的數據,“但它有時仍然不聽話”。陸聰說,模型不聽話的時間不到10%,但“我們認為10%大概仍是不可接受的”。他說,他們正在研究解決方案,例如指示系統將論文中的每個數字鏈接到它在實驗日志中的出現位置。不過,系統還會犯一些不太明顯的推理和理解錯誤,這些問題似乎更難解決。
此外,讓人意想不到的是,人工智能科學家甚至包含了一個同行評審模塊,用于評估它所生成的論文。陸聰說:“我們早就知道我們想要某種自動化的評估功能,這樣我們就不必花費數小時審閱所有稿件。雖然總有人擔心這像是我們自己給自己的作業打分,但評審員模型是基于頂級人工智能會議神經信息處理系統大會(NeurIPS)的審稿指南確立的,結果發現,它在總體上比人類評審員更為嚴苛。理論上,同行評審功能可以用來指導下一輪實驗。”
對人工智能科學家的批評
盡管研究人員將他們的人工智能科學家局限于機器學習實驗,但陸聰表示,團隊與其他領域的科學家進行了幾次有趣的對話。他說,理論上,人工智能科學家能在任何可以通過模擬運行實驗的領域提供幫助。“一些生物學家表示,他們有很多工作可以通過計算機模擬完成。”他還提到,量子計算和材料科學也是人工智能科學家可能參與的研究領域。
但對于人工智能促進科學運動的一些批評者可能會對這種廣泛的樂觀態度提出異議。2024年早些時候,美國加州大學伯克利分校的計算生物學教授詹妮弗 · 利斯特加藤(Jennifer Listgarten)在《自然-生物技術》(Nature Biotechnology)期刊上發表了一篇文章,認為人工智能不太可能在多個科學領域帶來突破。她寫道,與自然語言處理和計算機視覺等人工智能領域不同,大多數科學領域都不具備訓練模型所需的大量公開數據。
另外兩位研究科學實踐的學者,美國耶魯大學的人類學家麗莎 · 梅塞里(Lisa Messeri)和普林斯頓大學的心理學家莫莉 · 克羅克特(M. J. Crockett)于2024年在《自然》期刊上發表了一篇論文,試圖揭穿圍繞“將人工智能應用于科學”這一話題的炒作。當被問及對這位人工智能科學家的看法時,兩人重申了她們對于將“人工智能產品視為自主研究人員”的擔憂。她們認為,這樣做可能會將研究范圍局限成適合人工智能處理的問題,使我們失去推動真正創新的多元化視角。她們表示:“盡管‘人工智能科學家’所承諾的生產力對某些人來說很有吸引力,但創造論文和創造知識可不是一回事,忘記這一點可能會讓我們產出得更多,但理解得更少。”
但另一些人認為人工智能科學家是朝著正確方向邁出的一步。索尼人工智能公司的貝索德表示,他認為這是一個很好的實例,說明當今的人工智能在應用于正確的領域和任務時,可以為科學研究提供支持。“這可能會成為幫助人們構想人工智能在科學發現領域的應用前景的少數幾個早期原型之一。”
人工智能科學家的下一步發展
陸聰表示,團隊計劃繼續開發人工智能科學家,在提升其性能的過程中會有很多容易實現的階段性成果。至于這些人工智能工具最終是否會在科學流程中發揮重要作用,他表示:“時間會證明這些模型的真正價值。” 在研究項目的早期階段,當研究人員試圖勾勒多個可能的研究方向時,這類工具或許會大有幫助——盡管批評者指出,我們需要等待未來的研究,看這些工具是否真的足夠全面、公正,從而真正提供幫助。
陸聰還說,如果這些模型能被改進到相當于“一名優秀的三年級博士生”的水準,那么對于任何試圖鉆研某個科研創意的人來說,這些模型都能成為強大的助力。“到那時,任何人都可以成為教授,實施自己的研究計劃,”陸聰說,“這是十分激動人心的前景,我很期待。”
資料來源 IEEE
本文作者艾麗莎 · 斯特里克蘭(Eliza Strickland)是《IEEE綜覽》的高級編輯,主要負責人工智能與生物醫學工程方面的報道