AI能夠評議科學文獻嗎？

2024-12-28 00:00:00編譯苦山

世界科學 2024年12期

人工智能有助于科研人員快速總結研究成果，但也伴隨著風險。

在薩姆 · 羅德里克斯（Sam Rodriques）還是一名神經生物學的研究生時，他突然意識到了科學存在一種基本的局限性。他說：“即使研究人員已經得出了理解人類細胞或大腦所需的所有信息，我也不確定我們是否能知曉這件事，因為沒有人有能力理解或閱讀所有的文獻并獲得全面的觀點。”

5年后，羅德里克斯說，借助人工智能（AI），他離解決這個問題更近了一步。2024年9月，他和他在美國初創公司未來之家（FutureHouse）的團隊宣布，他們開發了一套基于人工智能的系統，可以在幾分鐘內生成比維基百科頁面更準確的科學知識綜述。該團隊迅速生成了大約17 000個人類基因的維基百科式詞條，其中大部分在此前都沒有詳細的百科頁面。

羅德里克斯并非唯一一個借助人工智能來協助科學總結的人。數十年來，學者們一直試圖加快將研究成果匯編成綜述的繁重工作。“它們太長了，整理時的工作量大得驚人，而且往往在撰寫時已經過時。”英國倫敦國王學院從事研究綜合學的伊恩·馬歇爾（Iain Marshall）表示。不過，隨著世界對大語言模型（這些生成式人工智能程序是ChatGPT等工具的基礎）的興趣激增，人們對綜述任務自動化產生了新的興趣。

某些更為新型的基于人工智能的科學搜索引擎已經可以通過查找、分類和總結出版物來幫助人們撰寫陳述性文獻綜述（對各類研究的書面回顧）。不過，它們還不能自己生成高質量的綜述。綜述中最艱巨的挑戰是被視為“黃金標準”的系統綜述，它包含嚴格的論文搜索和評估程序，通常還需要進行薈萃分析來綜合結果。大多數研究人員都認為，這些綜述距離完全自動化還有很長的路要走。“我相信我們最終會實現這個目標，”位于澳大利亞黃金海岸市的邦德大學的證據和系統綜述專家保羅·格拉西烏（Paul Glasziou）表示，“但我沒法兒告訴你這要等到10年后還是100年后。”

然而，與此同時，研究人員也擔心人工智能工具可能會催生出更草率、不準確或是誤導性的綜述，進而污染文獻。倫敦大學學院研究證據綜合的詹姆斯·托馬斯（James Thomas）表示：“我們擔心的是，幾十年來有關如何進行有效證據綜合的研究會遭到破壞。”

計算機輔助綜述

幾十年來，計算機軟件一直在幫助研究人員搜索和解析研究文獻。早在大語言模型出現之前，科學家就已經在使用機器學習和其他算法來幫助識別特定的研究或是快速地從論文中提取發現。但是，ChatGPT等系統的出現引發了人們對于將大語言模型與其他軟件相結合來加速這一過程的狂熱興趣。

研究人員指出，直接要求ChatGPT（或任何其他人工智能聊天機器人）從零開始撰寫一篇學術文獻綜述是過于天真的行為。這些大語言模型通過大量的文本訓練來生成內容，但是大多數商業人工智能公司都不會透露這些模型的訓練數據。馬歇爾表示，如果要求像ChatGPT這樣的大語言模型對某一主題的研究做綜述，它們可能會采用可信的學術研究、不準確的博客文章以及天知道哪里來的其他信息。“它們無法權衡哪些是最相關、最高質量的文獻。”馬歇爾說。而且，由于大語言模型的工作原理是通過反復生成統計上“看起來可信的”的詞語來響應提問，因此它們會對同一個問題產生不同的回答，還會出現“幻覺”式錯誤，包括聲名狼藉的捏造式學術參考文獻。馬歇爾表示：“沒有一種流程符合研究綜述的最佳實踐標準。”

一種更復雜的流程是將一組預選論文的語料庫上傳到大語言模型，并要求它僅基于這些文獻提取見解。這種“檢索增強生成”方法似乎可以減少幻覺現象，但無法完全避免。這一過程還可以設置為讓大語言模型對其信息來源作引用標注。

這也是像“共識”（Consensus）和“引導”（Elicit）這樣的專業人工智能科學搜索引擎的基礎。“引導”總部位于美國加州奧克蘭，能夠搜索約1.25億篇論文；位于馬薩諸塞州波士頓的“共識”公司則能夠搜索超過2億篇論文。大多數公司并不透露其系統運行的具體細節，但通常會將用戶的問題轉化為計算機在“語義學者”（Semantic Scholar）和“公共醫療”（PubMed）等學術數據庫的搜索，并返回相關度最高的結果。

然后，大語言模型會對每項研究進行總結，并將其綜合為一個注明出處的答案；用戶可以通過各種選項來篩選出他們希望包含的研究成果。新加坡管理大學數據服務部門負責人、人工智能工具主題博客作者亞倫 · 鄭（Aaron Tay）說：“至少它們引用的內容是完全真實的。”

丹麥歐登塞南丹麥大學的博士后研究員穆什塔克·比拉爾（Mushtaq Bilal）表示，這些工具“肯定可以讓你的閱讀和寫作過程變得更高效”。比拉爾為學者提供人工智能工具方面的培訓，并設計了自己的人工智能工具“研究搭檔”（Research Kick）。又例如，另一款名為“科學引用”（Scite）的人工智能系統可以快速生成支持或反駁某種主張的論文的詳細分類。“引導”等其他系統還可以從論文的不同部分（方法、結論等）提取見解。比拉爾表示：“你可以將大量勞動外包出去。”

但是，比拉爾說，大多數人工智能科學搜索引擎都無法自動生成準確的文獻綜述。它們的輸出結果更像是“一個本科生熬夜整理出的幾篇論文的要點”。他說，研究人員最好將這些工具用于優化綜述流程的某些部分。“引導”公司的工程主管詹姆斯·布雷迪（James Brady）表示，該公司的用戶用該產品擴充綜述的各步驟，“效果很好”。

包括“引導”在內的數款工具的另一個局限是，它們只能搜索開放獲取的論文和摘要，而非文章的全文。比拉爾指出，很多研究文獻都是付費的，而且搜索全文需要耗費大量的計算資源。“讓人工智能應用程序搜索數百萬篇文章的全文會耗費大量時間，成本也會高到無法承受。”他說。

全文搜索

錢對于羅德里克斯來說不是問題。他手頭的資金非常充裕，因為位于加州舊金山的非營利公司“未來之家”得到了谷歌前首席執行官埃里克·施密特（Eric Schmidt）和其他投資者的支持。“未來之家”成立于2023年，旨在利用人工智能實現研究任務的自動化。

2024年9月，羅德里克斯和他的團隊發布了未來之家的開源人工智能原型系統“論文問答2”（PaperQA2）。每當“論文問答2”收到一次查詢，就會在多個學術數據庫中搜索相關論文，并嘗試訪問開放存取和付費內容的全文。隨后，系統會識別和總結相關度最高的要素。他提到，“論文問答2”的運行成本較高，部分原因在于它處理的是論文全文。

在測試該系統時，未來之家團隊用它生成了關于多種單個人類基因的維基百科式文章。隨后，他們將這些文章中的幾百條由人工智能撰寫的陳述語句，以及維基百科上針對同一主題的（人類撰寫的）真實文章中的陳述語句，交給一個由博士和博士后生物學家組成的盲評小組。該小組發現，與人工智能工具生成的內容相比，真人撰寫的文章中包含的“推理錯誤”——引用內容未能充分支持論點的情況——是前者的兩倍。由于該工具在這方面的表現優于人類，研究小組將其論文命名為“語言智能體實現了科學知識的超人綜合”。

亞倫 · 鄭表示，與傳統搜索引擎相比，“論文問答2”和另一款名為“潛思”（Undermind）的工具需要更長的時間（幾分鐘而不是幾秒鐘）才能返回結果，因為它們進行的是更復雜的搜索，例如利用初始搜索的結果來追蹤其他引文和關鍵短語。他表示：“這一切意味著計算成本非常高，速度也非常慢，但搜索質量卻大大提高了。”

系統綜述的挑戰

文獻的敘述性綜述已經夠難寫了，但系統綜述更難寫，后者可能需要花費數月甚至數年的時間才能完成。

根據格拉西烏團隊的分析，完成一份系統綜述至少涉及25個細致的步驟。在對文獻進行梳理之后，研究人員必須對長名單進行篩選，找出相關性最高的論文，然后提取數據，篩查研究中可能存在的偏差，并對結果進行綜合。（其中許多步驟還要由另一名研究人員重復執行，以檢查是否存在不一致之處。）這種方法費力且耗時，但因其嚴格、透明和可重復性，在醫學等領域被認為是值得一做的，因為臨床醫生會依據其結果來指導治療病人的重要決策。

2019年，在ChatGPT問世之前，格拉西烏和他的同事們就已嘗試創造一項科學領域的世界紀錄：在兩周內完成一份系統綜述。當時，他和馬歇爾、托馬斯等人已經開發出了一些計算機工具，以減少所需要的時間。當時可用的軟件包括“機器人搜索”（RobotSearch），這是一種經過訓練的機器學習模型，可以從一系列研究中快速識別隨機試驗。另一款人工智能系統“機器評議員”（RobotReviewer）則可以幫助評估某項研究是否因未做充分盲法試驗等因素而存在偏倚風險。“所有的這些都是減少系統綜述寫作時間的重要小工具。”格拉西烏表示。

這一挑戰于2019年1月21日周一上午9：30開始計時，在總計9個工作日后，團隊在2月1日周五的午餐時間完成了任務。“我可激動了。”當時在邦德大學主持這項研究、現任職于英國牛津大學的流行病學家安娜 · 梅 · 斯科特（Anna Mae Scott）說。眾人用蛋糕慶祝了這項成就。此后，團隊將這一紀錄縮短到了5天。

這個過程是否還能更快？其他研究人員也一直在努力實現系統綜述各個環節的自動化。2015年，格拉西烏成立了“系統綜述自動化國際協作組織”，這個小眾團體也很符合自身定位，產出了若干篇關于系統綜述自動化工具的系統綜述。但馬歇爾表示，即便如此，“仍然沒有多少（工具）被廣泛接受。這取決于技術的成熟度”。

“引導”是聲稱其工具可幫助完成系統綜述，而非僅僅是敘述性綜述的公司之一。布雷迪表示，該公司的系統并不能一鍵生成系統綜述，但確實實現了一些步驟的自動化，包括篩選論文以及提取數據和見解。布雷迪指出，大多數使用“引導”撰寫系統綜述的研究者都上傳了他們使用其他搜索技術找到的相關論文。

系統綜述愛好者擔心人工智能工具可能無法滿足研究的兩個基本標準：透明性和可重復性。“如果我看不到它所使用的方法，那么它就不是一篇系統綜述，只是一篇普通的綜述文章。”賈斯汀·克拉克（Justin Clark）表示。他是格拉西烏團隊的一員，負責開發綜述自動化工具。布雷迪說，研究者上傳到“引導”網站上的論文就是“出色、透明的”初始文獻記錄。“至于可重復性，我們不能保證在重復相同步驟時，結果始終完全一致，但我們致力于在合理的范圍內實現這一點。”他補充說，透明性和可重復性會是公司改進系統時的關注重點。

綜述領域的專家表示，希望看到更多關于人工智能文獻綜述輔助工具系統的準確性和可重復性的公開評估研究。“開發好用的工具和嘗試新事物真的很有趣，”克拉克說，“但進行一項嚴謹的評估研究卻是相當艱巨的任務。”

2024年早些時候，克拉克牽頭，對使用生成式人工智能工具輔助做系統綜述的研究做了一次系統綜述。他和他的團隊發現，只有15項已發表的研究對人工智能的表現與人類的表現做了充分的比較。那些尚未發表或尚未經過同行評審的結果表明，這些人工智能系統可以從上傳的研究中提取部分數據，并評估臨床試驗的偏倚風險。“在閱讀和評估論文方面，人工智能系統似乎沒什么問題，”克拉克表示，“但在其他任務上都表現得非常糟糕，包括設計和執行全面的文獻檢索。”（現有的計算機軟件已經可以通過薈萃分析完成數據綜合的最后一步。）

格拉西烏和他的團隊仍在努力通過改進工具來縮短綜述產出所需的時間，這些工具可以在他們命名為“證據綜述加速器”的網站上找到。“這不會成為一件前無古人后無來者的大事，而是每年都會讓綜述產出變得越來越快。”格拉西烏預測道。例如，在2022年，該團隊發布了一款名為“方法向導”（Methods Wizard）的計算機化工具，該工具會向用戶詢問一系列有關其研究方法的問題，然后在不使用人工智能的情況下為他們編寫一份研究方案。

匆忙趕制的綜述？

信息綜合的自動化也伴隨著風險。多年來，研究人員一直清楚，許多系統綜述存在冗余或質量差的問題，而人工智能可能會加劇這些問題。部分作者可能在有意或無意中使用人工智能工具快速完成一篇并未遵循嚴格程序或是包含低質量研究的綜述，從而得出誤導性的結果。

格拉西烏說，與此形成對比的是，人工智能也可以鼓勵研究人員對以前發表的文獻進行快速檢查，而原本他們是不會有閑心這么做的。“人工智能可能會提高他們的研究水平。”他說。布雷迪則表示，在未來，人工智能工具可以通過識別諸如P值操縱（一種數據操縱形式）等蛛絲馬跡，幫助標記和過濾掉低質量的論文。

格拉西烏認為這種情況是兩種力量的平衡：人工智能工具可以幫助科學家產出高質量的綜述，但也可能會助長劣質綜述的產生。“我不知道這對已發表文獻的總體影響會是如何。”

有些人認為，綜合和理解全球知識的能力不應該完全掌握在不透明、以盈利為目的的公司手中。克拉克希望看到非營利組織開發并仔細測試人工智能工具。近期，英國的兩家資助機構宣布將向證據綜合系統投資7000多萬美元，他和其他研究人員對此表示歡迎。“我們只是希望保持謹慎和小心，”克拉克說，“我們想要確保（技術）輔助提供給我們的答案是正確的。”

資料來源 Nature