沈錫賓 王立磊 劉紅霞
摘 要:近年來,人工智能(AI)技術的飛速發展使得AI生成內容(AIGC)技術得到了極大的提升,其中最為著名的是OpenAI研發的ChatGPT模型。ChatGPT模型在智能問答、分類、摘要、翻譯、綜述等的成功應用,引發了學術期刊界的廣泛熱議,給我們帶來了機遇和挑戰:一方面,AI使學術論文在寫作、編輯、生產、出版、傳播、知識服務方面受益匪淺;另一方面,學界也面臨著AI應用伴生的困惑,諸如作者貢獻、論文造假、論文抄襲、版權保護和隱私保護等方面的問題。對此,筆者認為,學術期刊出版行業需要保持樂觀態度,迎接AIGC時代的到來,深入探究AIGC技術的優勢和局限性,成為AIGC技術的主宰者,加強對AIGC技術的監督和管理,建立相應的規范和標準,確保AI在學術期刊出版中的合法合規使用;并結合自身實際情況制訂出個性化應用方案,以利用其優勢,提高論文的質量和可讀性,擴大論文的傳播力,提升知識服務的廣度和深度的同時注意避免其局限性和可能帶來的問題。
關鍵詞:人工智能;人工智能生成內容;學術期刊;機遇;挑戰;ChatGPT
DOl: 10.3969/j.issn.2097-1869.2023.02.005
2017年,國務院發布《新一代人工智能發展規劃》[1],該規劃指明了人工智能(AI)在學術期刊發展中的應用方向,表明了深度融合AI是期刊發展的趨勢。2018年,STM發布《科技出版的技術趨勢2022》[2],該報告的主題為“Entering the AI Era Creative Humans & Smart Machines”(進入AI時代 創意人類&智能機器),恰在2022年底,OpenAI的大型語言生成模型 ChatGPT上線后火爆網絡,它擁有流暢對話、編寫代碼、閱讀文獻、撰寫報告等能力[3-4],將人機對話推向新的高度,深刻地影響了我們的生活和工作。近期,全球各大科技企業都在積極擁抱 AIGC,不斷推出相關的技術、平臺和應用[5]。這印證了STM 2018年的預測,同時也宣告學術期刊出版進入了一個新的時代——人工智能生成內容(AI-Generated Content,AIGC)時代。
AI作為一項極具前瞻性的技術,經過多年的發展創新,已經廣泛應用于計算機、制造、交通、醫療、教育、安防等多個領域,也包括學術出版領域[6]。在全新的AIGC時代,AI廣泛地、大規模地參與到學術期刊出版的方方面面已經成為不可逆轉的發展趨勢[7],對AI的利弊有更全面的認識和更充分的理解,也成為每一位出版行業同仁的“必修課”,只有掌握AIGC發展的客觀規律,才能夠制定相應的規范和措施,充分利用其優勢,規避其弊端和風險,以促進學術期刊事業蓬勃健康發展。
1 AIGC技術為學術期刊帶來機遇
AIGC技術已經滲透到學術期刊從內容生產到傳播的各個階段,可充分利用其能力發揮其優勢。AI可以作為工作助手,輔助完成部分工作,提高工作人員的工作效率和工作質量;代替大量的枯燥的重復性勞動,從而解放編輯人員,使其將精力投入到創造性的工作當中;可以成為工作流程的一部分,與人共同完成復雜的工作,協同優化工作流程。以下是筆者整理的當前AI應用于科技期刊產業的主要場景。
1.1 科研實踐階段
學術知識圖譜(Knowledge Graph, KG):AI可以將海量的學術文獻進行知識圖譜化,利用圖神經網絡、自然語言處理等方式,對KG進行深度挖掘和分析,實現知識的檢索、推薦、發現和融合,有效地幫助研究者更好地理解學術領域的知識結構,從而提高其對于專業領域的發現和理解能力。
科研協作平臺:AI可以基于云計算和大數據技術,提供一站式的科研協作平臺,讓不同領域的研究者輕松合作、共享資源,提高科研效率和質量。科研中會產生大量文本數據、圖像數據、文圖多模態等各類數據,利用深度學習技術可以對各類數據進行處理、解析與理解。據報道,AI可以為科研平臺帶來效率革命、模型強化、資源復用等特點,使工作效率提升約500倍[8]。
1.2 論文寫作階段
AI可以提供各種優秀的服務,讓寫作過程更加高效和智能化。除了大家熟知的自動摘要、關鍵詞提取、文獻綜述、語言潤色、英文檢測和翻譯等服務外,還有以下兩個方面:
選題策劃:通過學習用戶的各種行為記錄和科研屬性,為用戶形成畫像及定位,為其進行各種個性化智能推薦,如感興趣的期刊及論文,相匹配的研究領域和方向,合適的合作者/機構等,這些都可以輔助研究者提高論文寫作的效率和質量。
AI作畫(自動海報、視頻生成):AI可以制作海報、視頻來展示研究成果,通過自然語言理解學習論文內容和相關數據后,自動創作生成對應內容的海報甚至宣傳視頻,提高科研成果的展示效果和傳播效率。
1.3 投稿和評審階段
AI已經開始在科研論文的投稿和評審階段[3]發揮了重要作用,輔助完成了許多重要的工作,如投稿智能推薦、研究完整性檢查、同行評議推薦、作者與單位消歧、稿件自動提交與跟蹤、原創性檢查等多種工作。
1.4 生產階段
自動結構化和預處理:借助eXtyles這樣的自動化工具,可以幫助學術期刊完成文本排版和格式化,轉換成標準的XML文檔。AI可以協助自動處理各種常見的出版格式問題,例如作者與作者單位對應關系、文中與文后參考文獻對應關系、文中和圖表的對應關系,以及批量處理冗余符號和非標準標點字符等。
術語糾錯、內容審查檢測:自動檢查、修正語法和拼寫錯誤,特別是對專業術語進行糾錯和翻譯,輔助檢查文章的語言、邏輯和文本結構,提高文章的可讀性和條理性;輔助檢測文章中可能存在的敏感詞匯,以規避意識形態問題和倫理道德風險。
內容優化及增強:根據作者的意圖和特定目標受眾,對文章進行語言潤色和文本優化,提高文章的可讀性和吸引力;通過圖像處理技術,檢測和改善圖片的分辨率和質量,提高論文中圖片的清晰度和美觀度等。
1.5 出版階段
在出版環節中,AI的應用也是非常廣泛的。將PDF文件、語音文件轉換為可編輯文本格式,便于后期編輯和網絡出版;自動提取元數據信息,進行分類和歸一化,方便讀者檢索查找;對稿件數據進行分析和理解,幫助編輯發現潛在聯系和規律,提高出版物質量和價值;對出版物內容進行分析,提取實體和關系,構建知識三元組,為未來的知識管理、推演、融合提供支持。
1.6 發現和傳播階段
AI在論文的發現與傳播方面的應用包括個性化搜索與推薦、基于知識的搜索、自然語言問答、搜索引擎優化(SEO)、用戶畫像、個性化內容顯示等服務。
搜索服務:首先,可通過對用戶的歷史搜索記錄、閱讀記錄和行為數據等進行分析和挖掘,實現更加精準的搜索和推薦服務;其次,可實現知識搜索,更加準確地理解用戶的查詢意圖,并且給出更加全面、精確的搜索結果;再者,自然語言技術可以將用戶口語化的表達轉化為機器可理解的語言形式,再通過自動推理和知識庫的支持,為用戶提供準確、快速、便捷的搜索服務,提升用戶搜索的滿意度和體驗感[9]。最后,通過AI技術可以實現多種媒體內容的檢索,包括圖片、音頻、視頻數據。
SEO:通過分析和理解用戶行為和興趣,系統可以自動化地優化相關內容和排版,從而使得論文更容易被搜索引擎收錄和排名,提高其曝光率和傳播度。Atypon近些年推出了一些服務,例如一句話摘要、自動標題生成、非專業版本摘要,這些服務可以提升論文的可讀性和可發現性,加快學術內容的傳播。
全文翻譯:筆者測試ChatGPT的翻譯功能已經達到了相當高的水準,相比谷歌翻譯更為出色,而且其翻譯不受語種局限,可以實現多種語言的切換翻譯。此項能力,對于非英文學術期刊的傳播是重大利好,若在傳播平臺中植入機器翻譯功能,可實現語言的無縫切換,達到全球傳播的目標。
1.7 知識服務階段
在數字化時代,知識服務已經成為一種重要的商業模式和服務方式,是融合出版轉型的最高形態。在知識服務的過程中,運用AI、大數據等技術,對大量數據分析和學習,分析和挖掘出與用戶需求相關的信息和知識,為用戶提供更加精準、高效的解決方案和支持服務。
筆者團隊對ChatGPT在醫療領域知識服務能力的測試結果顯示[10],ChatGPT具備基本醫學常識和多輪對話的能力,相當優秀的病例閱讀、理解和糾錯的能力,也具備了醫學知識的推理能力,能夠從現有的醫學知識中發現新的規律和關聯,從而提供更準確、更全面的醫學建議。此外,ChatGPT具備信息抽取和術語標準化的能力,能夠快速準確地提取和歸納醫學知識,并將其整合到一個標準化的術語體系中。
在融合出版視域下,業界熱衷于討論專業知識庫的建設,一些出版機構投入了大量的人力、物力和精力,在自身學術資源之上創建KG,以此向用戶提供知識服務能力,但隨著基于大型語言模型(Large Language Models, LLM)技術的飛躍式發展,筆者對于是否還采用KG路徑去實施知識服務的信念產生了動搖。
尤其在2023年3月15日ChatGPT升級至4.0版本,提供了私域信息庫檢索的服務,可以將內部的文檔乃至個人筆記,通過第三方插件進行調用,利用這些私域數據進行訓練和學習,以提供完全個性化的服務。這一變革足以令筆者相信,在不遠的將來,學術期刊出版機構可以利用AIGC技術對期刊文本內容進行訓練,來創建專屬的領域知識庫,因為KG的構建過程需要大量的人工標注和整合,工作量比較大,且考慮到知識的更迭,很難做到可持續發展,而AIGC可以快速地處理大量的非結構化數據,雖然在處理復雜、深層次的知識和關系時,可能會出現一些誤差和不準確性,但隨著技術的進步、模型的完善,是可以達到應用水平的。所以,筆者團隊也在規劃如何利用中華醫學會雜志社積累多年的臨床診療指導類文獻和病例報告類文獻,訓練成為臨床醫學領域的知識庫,以提供基于解決方案的搜索服務,以輔助臨床診療實踐,從而提升醫療從業人員的診療水平。
2 AIGC技術給學術期刊帶來新的問題和困擾
2023年,《科學》雜志主編Holden Thorp公開撰文稱,在不到兩個月的時間里,生成式AI軟件ChatGPT已經成為一種“文化轟動”。“這在文學創作中可能會變得很有趣,但對科學界和學術界可能會造成嚴重的影響。”[11]一方面,AI可以提高期刊的質量、影響力和傳播效率。但另一方面,AI也會被人利用,為學術期刊帶來諸多問題,這些問題不僅可能損害學術期刊的公信力和聲譽,也威脅科學研究的真實性和有效性[12]。目前學術期刊界普遍關心的困擾主要集中于以下幾點:
2.1 作者、貢獻者問題
隨著研究人員不斷利用AI獲得生成流暢語言的能力,開始大量制造越來越難以與人類生成文本區分的內容。國內外的學術期刊在承認它們的合法用途外,也在制定明確的指導方針以避免濫用。譬如《自然》《科學》雜志制定了準則,規定AI程序不能成為作者[13-14]。這意味著,如果一篇論文或研究報告的內容是由AI程序生成的,那么該程序不能被列為該論文或報告的作者。國內的《暨南學報(哲學社會科學版)》《天津師范大學學報(基礎教育版)》等部分高校的學術期刊也認為,使用ChatGPT等工具可能引發學術造假和道德問題,因此要求作者在提交論文時聲明是否使用了這類工具,并提供詳細的引用論證。違反這一政策將構成學術不端行為,與篡改圖像或抄襲現有論文的行為沒有差異。
2.2 內容抄襲和版權問題
目前法律界還不能明確解決由AI生產的文字、圖片以及視頻的版權歸屬問題。在美國,版權法通常要求版權歸屬于人類創作者,因此尚未確定由AI創造的作品是否可以獲得版權保護。在歐盟,對于AI生成內容的版權歸屬問題也還在探討中。在中國,國家知識產權局已經開始研究AI創作產權保護的相關問題,但是尚未出臺具體的法規或者司法解釋。
另外,即便AI生成的內容可能被認為是有版權的,如何確保這些內容不會侵犯其他人的版權也是一個挑戰。因為AI系統可能會從網絡上收集和學習大量的數據,包括版權受保護的內容,在生成新內容之后沒有標注任何來源信息,即使后期標注了,使用該內容的人也可以將其刻意刪除;或者被作者進行多次改寫,直至與原文的表達方式存在很大差異,但是對于眾多被引用的原創作者來說這也是屬于知識產權的一種侵犯行為。
2.3 內容造假問題
包括ChatGPT在內的AIGC技術有能力生成以前未見的單詞、短語和句子的新組合,往往難以辨別真偽。因此,有些人利用這些技術制造了大量的虛假學術論文、研究報告等,以欺騙學術出版機構、學術界和公眾。ELSE測試發現,ChatGPT生產出的學術摘要足以騙過期刊審稿人[15],這將是學術期刊評審機制的噩夢。大量的造假內容會極大擾亂學術出版市場,嚴重擾亂學術出版的秩序,如果AIGC等生產的內容不斷通過同行評議(可以設想,這種事情可能正在發生),這將嚴重影響學術界的公信力和價值體系[16]。而且,這些虛假的學術論文和研究報告會浪費大量的出版資源和時間,阻礙了真正有價值的研究成果的發表和傳播。
2.4 隱私保護和數據安全問題
AIGC技術的應用還將面臨著數據安全和隱私保護的挑戰。比如ChatGPT會收集大量的用戶信息,用戶也需要通過交互界面向其傳輸數據,這可能會泄露用戶輸入的敏感信息,如商業秘密、個人隱私等[17]。ChatGPT-4提供了基于個人數據的知識庫服務,科研人員可以將個人研究方向有關的私人文獻、數據、文檔等投喂給ChatGPT,使其成為私人助手,替他們解答各種問題,還可以替用戶檢索知識信息庫,總結文獻,編制綜述,乃至運算科研數據等,這加快了科研成果的產出效率;但同時也存在科研數據的泄漏問題,尤其在當前的政治環境下,中國政府如何確保研究學者不會將敏感信息和機密數據上傳至ChatGPT是個非常棘手的問題。
另外,當AIGC技術應用于醫療健康領域時,我們要確保不暴露過多的患者隱私數據。筆者團隊的測試證實,ChatGPT已經可以輕松地閱讀病例報告,并給予患者相當準確的診斷結果和合理的治療建議,這為我們提供了非常便利的應用,但與此同時,它也在收集患者的隱私數據,包括檢查報告、影像圖片等,這些數據如果被惡意分發將給患者帶來極大的傷害。
此外,AIGC技術可能會被惡意利用,以便制造虛假信息、誘導用戶行為、偽造身份等,這也將帶來不可預計的后果。
3 學術期刊的應對策略
為了應對上述問題,期刊界一方面需要加強學術出版市場的監管和審查機制,以確保發表的學術論文和研究報告的真實性和可信度;另一方面,也需要更多地針對AI發展利弊的展開宣傳及辯論,以此不斷提高公眾的科學素養,加強對學術論文和研究報告的辨別能力。此外,研究人員和學術出版機構也應該加強對AI技術的應用和可能帶來的風險的認識和研究,以更好地應對這一挑戰。
3.1 迎接新時代的到來
比爾·蓋茨說“不要過度擔憂AI的發展”,“為了善用這項新技術,提升人們的生活品質,我們需要關聯風險并把AI的優點跟更多人分享”。AIGC的發展和突破確實已經為學術期刊出版行業帶來新的手段和方法,作為學術期刊的把關人,編輯人員不僅要具備開闊的視野和廣博的專業知識,還要掌握AIGC相關的技術和應用,以嶄新的姿態迎接AIGC時代的到來。
我們要意識到,AIGC時代的到來是不可逆的趨勢,就跟20世紀末計算機和互聯網的發展一樣,這些技術為學術期刊帶來了嬗變,促進了學術期刊生產的集群化、規模化,內容發布的平臺化,傳播模式的多元化和商業模式的多樣化。中國在過去的20年沒能很好地把握住這些發展趨勢,創建享譽全球的學術期刊出版平臺[18]。在當下,我們更應珍惜這些技術發展的紅利,使其變為我們的利器,擺脫“科技大國、期刊小國”的困局。
3.2 成為AI的主宰者
AI將深刻地改變學術期刊出版的發展方向,但這并不意味著它會取代人類。與之相反,它將提供更多的工具和資源,使我們能夠更好地發揮自己的才能和創造力。我們要保持對AI技術的樂觀態度,它只是可以與人類協同工作的一種工具,而不是人類的替代品。
為此,學術期刊編輯首先應該關注AIGC領域的進展,拓展自己的知識面和視野,關注其在各個學科領域的應用和影響,了解AIGC對學術出版模式和規范的改變,增強自身的專業素養和競爭力。其次,學術期刊編輯要意識到,AIGC技術可以幫助優化出版流程中的各個環節,提高出版效率、質量和傳播力,從而節省編輯的時間和精力,讓編輯更專注于學術內容和價值的評估。最后,學術期刊編輯應該加強與AIGC相關領域的作者、審稿人、讀者、研發人員的溝通與合作,建立良好的學術生態。
3.3 努力應對AIGC問題
作為一種新興的技術,AIGC引發了學術界關于其在著作權歸屬、學術誠信風險、算法黑箱風險、數據安全、隱私保護等方面的擔憂,學術界正在努力采取有效措施進行防范和治理,以應對AIGC帶來的困擾。
首先,學者們普遍強調對AIGC技術的監督和管理,建立相應的規范和標準,確保AI在學術期刊出版中的合法合規使用[4]。
其次,提出提高對AIGC的識別和檢測能力,防止基于AI的剽竊行為,維護學術期刊的學術品質,目前已知有類似的產品比如Turnitin可以檢測AI寫作,在其實驗室中可以識別97%的ChatGPT和GPT-3撰寫的寫作,誤報率低于1/100,計劃于2023年4月早期將此功能添加到其核心寫作完整性產品中。
再者,我們需要采取嚴格的數據保護和隱私保護措施,通過匿名化處理、數據加密、訪問控制等手段,確保科研人員,尤其是患者的個人信息不會被泄露或濫用。
最后,我們需要遵循透明原則,比如《科學》在早期就主張對方法和證據公開透明,無論當時流行的是哪種技術。《自然》雜志也制定了類似原則,要求研究方法必須透明,作者必須誠實、真實,畢竟這是科學賴以發展的基礎。透明原則同時也保護了AIGC所依賴的數據來源的權利。
4 結語
在學術期刊出版的征程中,我們告別了一個又一個時代,又迎接一段又一段萬象更新。AI正在改變出版業,不僅改變我們讀書的方式,也在改變我們創造、編輯和出版內容的方式。對于學術期刊而言如何利用好AI的優勢,規避好AI的風險,是學術期刊面臨的重大課題。
我們認為,學術期刊從業人員要開放胸襟,擁抱AIGC時代的到來,主動抓握AIGC技術,促使其協助編輯優化出版流程,降低出版成本,提升創作效率,增強傳播和知識服務能力,提供決策支持和數據分析,使學術期刊出版更加透明化和智能化。AI是出版業的未來趨勢,對學術期刊出版行業的職業需求和人才培養提出了新的挑戰和機遇,需要從業者不斷學習和適應新的技術和模式,時刻牢記我們才是AI的主人。我們相信,技術可以鑄就出版的新形態,但出版才會賦予技術新風姿;沒有人知道學術期刊的未來,但只要在抉擇中秉承信念、堅守夢想、大膽描摹、書寫現實,我們總歸會在風浪中披荊斬棘,勇立潮頭。
作者簡介
沈錫賓,男,中華醫學會雜志社新媒體部主任,編審,研究方向:數字出版、融合出版。
王立磊,男,中華醫學會雜志社新媒體部產品經理,研究方向:數字出版、融合出版。
劉紅霞,女,中華醫學會雜志社新媒體部學術編輯,副編審,研究方向:數字出版、融合出版。
作者貢獻聲明
沈錫賓:設計論文框架,收集資料,撰寫論文;王立磊:收集資料,撰寫論文;劉紅霞:修改論文。
透明度聲明
作者利用Bing和ChatGPT 3.5進行了資料的檢索,利用ChatGPT 3.5輔助完成英文摘要翻譯,關鍵詞提取和部分文章內容的潤色工作。
參考文獻
國務院.國務院關于印發新一代人工智能發展規劃的通知[C/OL].(2017-07-20)[2023-3-30].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
STM.Entering the Al Era Creative Humans & Smart Machines[C/OL].(2017-07-20)[2023-3-30].https://www.stm-assoc.org/2021_03_29_STM_Tech_Trends_Brain.pdf.
Van Dis EAM,BOLLEN J,ZUIDEMA W,et al. ChatGPT:Five priorities for research[J].Nature,2023,614:224–226.
LIEBRENZ M,SCHLEIFER R,BUADZE A,et al.Generating scholarly content with ChatGPT:Ethical challenges for medical publishing[J].Lancet Digit Health,2023,5: e105–106.
ChatGPT風靡全球,突飛猛進的AIGC機會何在[EB/OL].(2017-02-11)[2023-03-09].https://posts.careerengine.us/p/63e817c6c1d447146421f236.
CURTIS N.ChatGPT.To ChatGPT or not to ChatGPT? The impact of artificial intelligence on academic publishing[J].Pediatr Infect Dis J.,2023,42(4):275.
WEN J,WANG W.The future of ChatGPT in academic research and publishing:A commentary for clinical and translational medicine[J].Clin Transl Med,2023,13(3):e1207.
趙泓維.借大模型東風,中康科技撬動臨床科研大數據價值[EB/OL].(2023-03-17)[2023-3-30].https://www.vbdata.cn/1518901407.
BOLTON E,HALL D,YASUNAGA M,et al. PubMedGPT 2.7B[EB/OL].(2022-12-15)[2023-02-25].https://crfm.stanford.edu/2022/12/15/pubmedgpt.html.
SHEN X B.Test dataset of ChatGPT in medical field[DS/OL].Science Data Bank,2023[2023-03-30].https://DOI.org/10.57760/sciencedb.o00130.00001.
THORP H H.ChatGPT is fun,but not an author[J].Science,2023,379(6630):313.
HOMOLAK J.Opportunities and risks of ChatGPT in medicine,science,and academic publishing:A modern Promethean dilemma[J].Croat Med J,2023,64(1):1-3.
Science Journals:Editorial Policies[EB/OL].[2023-3-30].https://www.science.org/content/page/science-journals-editorial-policies#authorship.
Authorship[EB/OL].[2023-3-30].https://www.nature.com/nature/editorial-policies/authorship.
ELSE H.Abstracts written by ChatGPT fool scientists[J].Nature,2023,613:423–423.
ZOHNY H,MCMILLAN J,KING M.Ethics of generative AI[J].J Med Ethics,2023,49:79–80.
楊慶豐,鄒昭,施宇.ChatGPT引發的AI監管問題思考與建議[EB/OL].(2023-03-07)[2023-03-20].https://www.secrss.com/articles/51651.
沈錫賓,劉紅霞,王海娟,等.芻議推動科技期刊創新發展的7大科技趨勢[J].編輯學報,2021,33(2):129.
Abstract: The recent artificial intelligence (AI) technology has greatly improved the technology of AI-generated content (AIGC), among which the most famous is the ChatGPT model developed by OpenAI. The successful applications of the ChatGPT model in intelligent questions and answers, classification, abstract, translation, and reviews have attracted widespread attention in the academic journal industry, bringing opportunities and challenges. On the one hand, AI has greatly benefited researchers in writing, editing, producing, publishing, communicating, and knowledge serving. On the other hand, academia also faces difficulties accompanying AI applications, such as author contributions, academic fraud, plagiarism, and privacy protection. Therefore, the publishing industry of academic journal needs to embrace the AIGC era, explore the advantages of AIGC technology, strengthen the supervision and management of AIGC technology, establish corresponding standards and guidelines, and ensure the legal and compliant use of AI in academic journal publishing. In addition, the academic journal publishing industry should formulate personalized application plans in accordance with the reality by taking advantage of AIGC technology to improve the quality and readability of academic papers in order to foster communication efficiency, enhance the breadth and depth of knowledge service as well as avoid its limitations and potential problems.
Keywords: Artificial intelligence; AI-generated content; Academic journal; Opportunities; Challenges; ChatGPT