李國琪
天津市醫學科學技術信息研究所《天津醫藥》編輯部 天津 300070
美國OpenAI公司于2022年11月30日推出了聊天機器人模型Chat Generative Pre-trained Transformer(ChatGPT),并引起了不小轟動,其發布后首月用戶達5 700萬[1],發布2個月即擁有1億活躍用戶,已成為用戶數量增長最快的應用程序。據統計,2023年1月,每天約有1 300萬獨立訪客使用ChatGPT,是2022年12月的2倍[2]。ChatGPT是一種人工智能(AI)技術驅動的大型語言模型(large language model,LLM)處理工具,其基于神經網絡模型,在源自互聯網的人類語言文本大型數據庫中,通過模擬、理解、學習,根據用戶的需求或指令生成文本,并進行互動交流[3]。既往AI模型主要為深度學習模型,設計目的是對數據信息進行學習和識別,LLM是一種新的AI算法,可基于既有文本字符預測字符間排序的可能性,從而產生新的符合人類自然語言特征的文本[4]。
在ChatGPT發布前不久,Nature即報道過聊天機器人用于輔助科研工作,如啟發研究思路、對工作進行反饋、撰寫代碼及總結歸納文獻等[5]。經訓練后,ChatGPT可以自動學習大量文本數據集,然后生成復雜的、類似智能的文本。通過與ChatGPT就任何主題對話,可以快速得到與提出的問題或請求相匹配的類似人工撰寫的內容。如針對某一主題撰寫文本、獲取信息,根據特定人、語氣及用途生成電子郵件或短信,對文本進行潤色或修正等[6]。
ChatGPT能以英語或其他語種就廣泛范圍議題與用戶互動,并且使用免費、操作簡便、可持續學習,已有研究人員、學生等開始使用ChatGPT等工具完成作業或演講稿、分析總結文獻、撰寫論文、尋找研究空白、編寫計算機代碼及統計分析。可以預見,在不久的將來,ChatGPT能勝任研究設計、稿件撰寫、同行評議、稿件留用或拒收等流程工作。有科研人員認為,AI工具可輔助完成部分枯燥、艱巨或重復的工作,從而加快科研進程。因此,可將簡單、基礎的工作交予AI工具完成,以便集中精力思考“高層次”的問題。但ChatGPT在給人們帶來諸多新奇體驗的同時也引發了不少爭議[7]。多數人認為,AI工具可用來輔助,而不是完全取代人的工作[8]。
ChatGPT的發布意味著LLM直接面向公眾提供免費服務,而社會公眾在使用過程中產生了大量令人啼笑皆非的情形;ChatGPT還很容易生成垃圾郵件、勒索軟件及其他令人擔憂的產物,盡管OpenAI公司力圖讓其步入正軌,但使用者總有辦法為其所用[9]。ChatGPT的廣泛使用已無法避免,但不加規范地隨意使用會對社會公眾及科技期刊出版造成不良影響[10]。本文初步描述了ChatGPT對科技期刊出版生態的沖擊和影響,并對出版機構及相關組織的反應和對策進行匯總,為期刊工作者了解AI技術介入科技期刊出版的利弊提供參考。
近期,已能在PubMed、Dimensions中檢索到多篇將ChatGPT列為作者的論文,其中一篇為Nurse Educ Pract的社評,但主編聲明此為工作疏忽所致,會盡快更正[11]。Pediatr Infect Dis J的一篇論文將ChatGPT列為第二作者,闡述了ChatGPT等AI技術對科技期刊出版的影響[12]。Oncoscience刊登了一篇以ChatGPT為合著者的論文,作者稱其所在公司已發表了超過80篇AI工具生成的論文[13]。預印本平臺也出現了ChatGPT輔助完成的論文,一篇發布于medRxiv的論文將ChatGPT列為第三作者,展示了ChatGPT在美國執業醫師資格考試(USMLE)過程中的出色表現,預測ChatGPT在醫學教育乃至臨床決策方面有潛在輔助價值,該文隨后刊登于PLOS Digit Health,但作者列表中已不見ChatGPT。
有學者采用ChatGPT輔助撰寫論文,但未將其列為作者。Manohar等[14]在撰寫一例罕見病例報告時,以ChatGPT為輔助,認為使用體驗良好。Nachshon等[15]也展示了類似過程,并在致謝中說明了ChatGPT使用情況,認為ChatGPT生成內容與用戶輸入請求較為一致,能提供研究背景信息,但無法生成嚴格意義上的科學報告,甚至不能完成簡單的病例報告,也不能對該病例情感和人格方面的特點進行歸納或評價。
一項針對672位Nature讀者的在線問卷調查顯示,約有80%受訪者至少使用過1次ChatGPT或類似AI工具,約38%的受訪者知道其他研究人員在研究或教學中使用AI工具;57%的受訪者表示僅將ChatGPT或類似AI工具用于娛樂,而不是研究。對489位使用ChatGPT或類似AI工具的受訪者的統計表明:將ChatGPT等AI工具用于研究時,最常見用途為頭腦風暴,有27%的受訪者嘗試過,用于寫計算機代碼者為24%;寫論文、簡歷或進行文獻綜述者為16%,申請基金資助時使用者僅為10%,還有10%將其用于生成圖表。
除輔助科學研究、論文寫作外,ChatGPT還可協助編輯篩查稿件中的問題(如剽竊、圖片造假、倫理學問題等)、對稿件進行分類、核對參考文獻、將稿件編碼轉換為不同的媒體傳播類型、提高論文出版后的搜索熱度和曝光度等[16]。
會話互動式AI可能引發學術研究及出版的變革,機遇與挑戰并存。ChatGPT對科技期刊出版既有正面意義,又有負面影響。一方面,ChatGPT能提升科研效率、拓展科研視野,能極大地加速論文撰寫、修改進程,有助于研究人員從繁重的論文寫作任務中解放出來,從而將精力更多集中于科研本身;同時,ChatGPT還能減輕期刊編輯的工作負擔,并協助同行評議專家審閱稿件。另一方面,ChatGPT等AI工具也會影響科研的質量和透明度,能從根本上改變科研人員的主動性。ChatGPT及其他LLM生成的文本有可能是錯誤的,如不加區分地運用于實際,則會歪曲科研的本質,并導致以訛傳訛。AI生成文本用于科技期刊出版會引發人們對倫理問題的擔憂,如AI的濫用可能導致論文質量低劣、剽竊問題頻發,最終腐蝕科研誠信氛圍;ChatGPT還會造成科研人員作為論文作者角色的缺位或弱化,導致撰寫高質量論文的技能隨之下降。
一項針對Nature讀者的在線問卷調查顯示,有受訪者寄希望于AI工具能通過提供快捷、簡便、可編輯為最終版本的模板來加速科技期刊出版進程。這對于母語非英語的研究人員尤其重要,AI工具可扮演專業語言編輯的角色,能夠幫助作者更加順暢地完成論文寫作過程。也有人擔憂AI工具的可靠性及被濫用的可能性,如產生似是而非的虛假信息、被論文工廠用于制作論文等。AI可幫助研究人員組織、形成創新點、完成論文初稿,但AI生成內容不能提出新的觀點,論文的寫作必須以作者本人的思路為出發點,AI不能取代研究者本人的認知、創新性及批判思維。此外,由于ChatGPT等工具是基于既往的信息運行的,所以不能實時動態更新,過于依賴此類AI技術反而可能阻礙科技進步。
ChatGPT生成內容的可靠性或準確性是值得擔憂的問題,軟件可能由于未能收集到足夠的數據而導致得到錯誤的回復。基于算法訓練,在對包含明確的科學結論和假設的內容進行分析后,ChatGPT輸出的文本可能是歪曲或有失偏頗的[17]。
有學者認為,ChatGPT生成內容明晰、易懂,能達到出版要求,尤其是參考文獻格式準確,這對于未使用參考文獻管理軟件者是個福音[14]。但仔細審讀后,會發現文本看似流暢、富含信息量,卻并未提供正確的科學數據,不符合學術寫作的要求,參考文獻也有重復,且大多數文獻與實際需求關聯性不強,這是ChatGPT用于論文寫作時令人擔憂之處。當論文提交出版時,期刊難以辨別每處參考文獻引用的準確性,此類論文出版后會誤導讀者。
有學者展示了利用ChatGPT進行學術論文語言編輯的過程和體驗,在就某主題向ChatGPT提問后,ChatGPT給出了一大段文字描述作為回答,隨后詢問ChatGPT有無參考文獻,ChatGPT列出了4條文獻,經檢索,文獻題目、作者均為虛假;然而,ChatGPT在修改英文語法、句型錯誤及精煉、潤色語言方面的表現令人滿意,這對母語非英語的作者來說是利好消息。目前,對于將ChatGPT用于學術論文語言潤色、修改方面,尚無明確規范要求,但提供潤色服務者不能列為作者是無可置疑的,而且ChatGPT可能產生虛假信息,作者需要仔細甄別、核實后才能將其作為論文內容的一部分,并在適當位置說明AI工具的使用情況[18]。
創新是科學進步的核心,也是學術論文的“靈魂”,即便ChatGPT解決了生成內容的真實性、可靠性問題,但其在創新性方面堪當大任嗎?Zheng等[19]選取了其于2022年發表的一篇論文,以該論文的關鍵內容向ChatGPT提問,當時ChatGPT的訓練數據庫僅更新至2021年,該論文不在ChatGPT的訓練數據庫中,ChatGPT的回復看似語句通順、令人信服,足以讓非該專業讀者或經驗不足的審稿人難辨真偽,但均為錯誤、虛假的內容,更遑論創新性。現階段,ChatGPT生成內容尚不足信,無法直接用于學術論文,科研人員須慎重對待ChatGPT生成的所謂“事實”、陳述及參考文獻。作者應對ChatGPT參與寫作的論文直接負責,而不是讓ChatGPT承擔學術不端的后果。期刊如不加審核把關就刊登ChatGPT參與寫作的論文,則可能面臨撤稿量明顯增加及期刊信譽度下降的問題。純粹由ChatGPT生成的內容缺失人類嚴密的邏輯思維和推理過程,是沒有“靈魂”的作品,會潛在地危害學術誠信和阻礙科學進步。原創性是學術論文寫作的根本所在,直接接收完全由ChatGPT生成的論文可能構成剽竊。目前,ChatGPT尚不足以勝任學術論文寫作。
鑒別ChatGPT生成內容是期刊出版方無法回避的難題。自ChatGPT發布起,學術界即對其可能產生的科研倫理問題表示擔憂,無論采用查重檢測系統,還是邀請科學家人工鑒定,準確區分ChatGPT生成與科研人員親自撰寫的論文內容都是比較困難的。在初審及同行評議過程中,對包含ChatGPT生成內容的論文中可能存在的捏造、虛構、造假問題進行鑒別是對編輯和外審專家的一大挑戰,如作者未認真核實相關內容的準確性,問題將更為嚴重[19]。發布于bioRxiv的一篇文獻顯示,研究者選取了JAMA、The New England Journal of Medicine、The BMJ、The Lancet、Nature Medicine刊登的50篇醫學論文的摘要,同時指令ChatGPT以論文題目及其來源期刊格式生成相應的摘要。結果顯示,ChatGPT生成的摘要全部通過了論文剽竊工具的檢測,即未檢測到剽竊;人工智能檢測器(The AI-output detector)檢測出了50篇AI生成摘要中的33篇(66%),科學家準確鑒定出了50篇AI生成摘要中的34篇(68%),但也將7篇原創摘要(14%)誤判為AI生成[20]。ChatGPT等聊天機器人生成的假論文或論文中的部分內容如未被識別,則可能產生不良后果,會誤導相關領域學者的研究方向、路線,還會對以研究結果為依據的政策制定過程施加負面影響。對學術界來說,最緊迫的問題之一是缺乏透明性,而ChatGPT的基礎訓練集和LLM也未公開。
期刊方也期待采用更先進的自動檢測系統對AI生成內容進行識別、標記,但實施起來并不容易。雖然已經出現了較傳統剽竊檢測工具、人工辨別更強的區分原創與ChatGPT生成的論文摘要的檢測工具,但有時也會錯誤地將原創摘要標記為虛假。OpenAI公司發布的classifier能在一定程度上區分所提交文本“可能”還是“非常可能”由AI生成的,但也坦承其存在局限性,辨別“可能”的準確率僅有26%,人們可通過重新編輯修改AI生成內容的方式蒙混過關;如果訓練數據集中未囊括特定內容,則classifier也無法準確檢出。計算機專家表示,除classifier外,其他檢測工具也存在同樣的問題。也許更好的辦法即將出現,OpenAI聲稱,其正致力于對AI生成內容進行水印標記,并能被搜索引擎檢測到。斯坦福大學一個研究團隊推出了DetectGPT,與其他檢測工具不同,DetectGPT不需經過訓練,可通過創建多重檢測、隨機變異,并向文本生成工具提交詢問請求,進而對文本為AI工具生成的可能性進行排序,最終判斷文本源自特定AI工具的可能性,但還需進一步完善才可用于稿件處理。TurnItIn公司旗下的剽竊檢測工具市場占有率較高,該公司宣稱將推出針對AI生成內容的檢測工具,對ChatGPT生成文本的檢出率可達97%,假陽性率僅1%。目前尚無有效的工具軟件可持續檢測、分辨AI生成文本。
英國科研誠信辦公室(UK Research Integrity Office)科研誠信負責人Matt Hodgkinson表示,作者資格指南中已明確ChatGPT不能作為合著者,成為合著者必須對論文有重要貢獻,ChatGPT等AI工具可能符合此條件,但另一條件是必須同意作為合著者并對研究內容(至少是其參與的部分)負責,這是其成為合著者的一大障礙[21]。
世界醫學編輯協會(World Association of Medical Editors,WAME)2023年1月20日公布了科技期刊出版物中涉及ChatGPT等聊天機器人的推薦規范,主要包括:①聊天機器人不能被列為作者;②如使用聊天機器人,則作者應明確披露并說明具體如何使用;③作者應對論文中聊天機器人參與寫作的內容負責,包括內容的準確性;④編輯應利用有效的檢測工具對AI生成或修改的內容進行檢測,檢測費用應當合理,需在期刊可承受范圍之內。鑒于AI技術領域發展迅速,有關AI運用于科技期刊出版方面的推薦規范也應及時更新[22]。
國際出版倫理委員會(Committee on Publication Ethics,COPE)2023年2月13日發布了《作者資格與人工智能工具》(Authorship and AI tools),立場聲明,COPE聯合WAME、JAMA Network等組織或機構不接受ChatGPT或其他LLM等AI工具作為論文作者;AI工具無法對所投論文負責,不具備作者資格;如在論文撰寫中利用AI工具生成圖表、收集分析數據,則必須在資料和方法部分詳細披露AI工具名稱及使用方法;作者須對稿件內容負全部責任,包括AI工具生成的內容[23]。
第40次國際機器學習大會(International Conference on Machine Learning,ICML)宣布,此次會議征文不接收完全由ChatGPT及其他LLM工具撰寫的論文,但允許LLM相關內容出現在研究方法部分;作者使用LLM對本人撰寫的論文進行修改、潤色是無可非議的[24]。
ChatGPT等AI工具運用于科研的趨勢已不可阻擋,作為科研全過程重要鏈條的科技期刊出版環節自然無法“獨善其身”,學術期刊、學術會議組織方等科學評價、傳播、出版機構應針對AI生成內容的相關問題制定政策,如果允許在適當情形下使用AI語言工具技術,則應當完善相應的披露制度。在涉及人類安全和健康領域,尤其是醫學方面,期刊應采取更為嚴格的措施,加強對信息準確性的甄別。大部分出版商及預印本平臺認為ChatGPT等AI工具無法對學術論文的內容及真實性負責,所以不能被列為作者,也有一些出版商認為應當承認AI工具在論文撰寫過程中的貢獻,并體現在文內適當位置,但不必列為作者[21]。技術在進步,編輯出版政策也應動態更新。
部分期刊的新政策要求作者披露AI工具的使用情況并禁止將ChatGPT等LLM列為合著作者,重申了人類作者對文本準確性的責任,Nature、Springer Nature系列期刊、JAMA Network及倡導出版過程最佳實踐的相關組織COPE、WAME均作如是觀。
Nature、Science的主編均不認可ChatGPT具備作者的資格。Nature及所有Springer Nature系列期刊公布了以下2個原則作為現行作者指南的補充:第一,LLM工具不能作為學術論文的署名作者,因為AI工具無法對研究工作負責;第二,在論文寫作過程中,以任何方式合理輔助使用LLM時,都應在方法、致謝或其他部分適當位置明示。Science主編撰寫社論時指出,Science系列期刊的作者需簽署協議承諾其作品為原創,“原創”一詞足以否定ChatGPT生成的文本,換言之,Science系列期刊不接受剽竊自ChatGPT的內容,作者須對其論文中的研究內容負責。為了明晰相關規定,Science系列期刊正在更新編輯出版政策和協議,重申論文不得包含ChatGPT或其他AI工具生成的文本、圖片、表格等內容,也不可將AI程序列為作者,違反以上規定則視為剽竊;在論文中合理地引用AI產生的合法的數據集(不作為論文內容)不在上述禁止范圍;Science認可AI在科研過程中有重要作用,但只能作為科學假設、研究設計、結果解讀的輔助工具,最終的研究結論應由學者本人總結、闡釋、公之于眾[25]。
JAMA于2023年2月28日刊登了社論,闡述了非人類“作者”及其對科學出版誠信及醫學知識的可能影響,申明AI、語言模型、機器學習等技術工具不具備作者資格,如其被用于創建內容或輔助論文寫作,則作者須對相關內容的誠信問題負責,并在方法中詳細說明[16]。
Elsevier發布了對學術寫作過程中使用AI及AI輔助技術的新要求,將適用范圍限定于提高論文的可讀性及改進語言風格,且必須在文內披露使用情況;作者必須對AI生成內容進行人工核對;由于AI工具無法對論文負責,所以不能被列為作者[10]。
一些出版商尚未明確公布針對AI生成文本的政策。大部分出版商為避免徹底否定AI生成文本,要求作者披露AI工具使用情況。國際光學工程學會(SPIE)可能采取該措施:SPIE旗下系列期刊不接收將ChatGPT或其他LLMs列為作者的論文,如作者在研究或撰寫論文過程中使用了AI工具,則必須在論文的資料、方法中詳細闡明[26]。Taylor&Francis出版倫理與誠信部門負責人Sabina Alam表示,尚未接收到將ChatGPT列為作者的稿件,公司正在評估出版政策,申明作者應對研究工作的真實性和有效性負責,并在致謝部分對其使用LLM的情況進行說明,如果作者在撰寫系統綜述時合理利用AI工具對文獻進行檢索,進而決定是否納入相關文獻,則屬于可被接受的范疇,但將AI生成的內容作為自己的觀點是不可取的;出版政策會隨著處理類似問題經驗的累積而動態更新,如今是早期階段。
近期,國內學術期刊也開始對ChatGPT的使用情形作出回應,《暨南學報(哲學社會科學版)》不接受任何LLM工具如ChatGPT單獨或聯合署名的論文,如在論文創作中使用過相關工具,則需詳細解釋如何使用及論證作者自身的創造性,對于引用AI工具寫作的論文作為參考文獻的,需提供詳細的引用論證。《天津師范大學學報(基礎教育版)》倡導合理使用新工具、新技術,建議作者在參考文獻、致謝等文字中對使用ChatGPT等AI工具的情況予以說明。
如前文所述,medRxiv發布過將ChatGPT列為作者的論文。bioRxiv共同發起人Richard Sever聲稱,正在討論學術論文寫作時使用ChatGPT等AI工具并將其列為作者是否恰當。目前,bioRxiv平臺尚未檢索到將ChatGPT列為作者的論文。物理學預印本平臺arXiv正在準備發布AI工具運用方面的要求,其負責人Steinn Sigurdsson表示,ChatGPT等工具不能作為投稿的作者,并即將制定新的作者資格指南[21]。
ChatGPT問世僅短短數月,但對科學研究、科技期刊的影響已初見端倪,期刊出版相關各方也迅速回應,發表聲明,制定或更新指南、規范。雖然出現了將ChatGPT列為作者的個例,但大部分科技期刊出版機構、學術會議組織方或相關機構對此表示反對,對于合理使用ChatGPT等AI工具則基本持開放但謹慎的態度,強調作者的責任與義務,以規避科研倫理風險。即使是起初采取更為嚴厲的措施、宣布拒收任何AI生成內容的Science系列期刊也表示該政策可能會有所松動[17]。目前的風險在于,如果部分作者沒有盡到披露、核實義務,甚至惡意使用ChatGPT,或論文工廠利用ChatGPT批量生產虛假論文,而期刊并無得力的檢測工具來應對,則會出現比較混亂的局面。
ChatGPT也引發了軟件開發競爭熱潮,“中國版ChatGPT”呼之欲出。面對AI技術的沖擊,國內學術期刊難以置身事外,應盡快制定預案,更新編輯出版指南,防患于未然。