陳星潼
ChatGPT作為首批可以與用戶在廣泛主題里進行令人較為信服對話的人工智能生成模型,自2022年11月上線以來,引起了國內外各行各業的高度關注。僅兩月內,ChatGPT的月活躍用戶數已達1億,是史上用戶數增長最快的消費者應用。
在學術出版領域,ChatGPT已經成為合著作者,出現在了多篇發表的論文和預印本中。ChatGPT在學術寫作中的作用引發了廣泛爭議,有學者認為它是提升效率、簡化流程的高效工具,也有學者認為其對作者身份的完整性構成威脅。包括《自然》《科學》在內的期刊為此更新了規則,國內部分刊物也對此發表了聲明,限制ChatGPT作為作者署名。而在我國,包括百度在內的科技公司已經聲明,也將推出類似工具。因此,關注并思考這一主題具有現實意義。本文探索新一代人工智能與出版深度融合進程中存在的潛在風險和應用前景,為后續研究提供參考。
ChatGPT是由美國OpenAI公司開發的會話語言模型。它集成了自然語言處理的各種能力,包括問答、講故事、邏輯推理、代碼調試等。GPT是生成式預訓練(Generative Pre-Training)的縮寫,其發展主要得益于近年來大規模語言模型(Large Language Model,LLM)的發展。這些模型使用語言模型(Language Model,LM)對大規模數據進行訓練,并構建巨大的神經網絡模型。語言模型是一種自監督的文本信號, 旨在基于上述上下文預測下一個單詞的概率。其起源于GPT-3,是InstructGPT的后續模型。2018年6月,OpenAI發表論文《通過生成式預訓練加強語言理解》,首次介紹了自己的語言模型GPT-1。它在深度學習模型Transformer架構上, 使用了內含幾十億個文本文檔的超大規模語言資料庫進行訓練,參數量為1.17億。2019年2月,升級版GPT-2發布,模型參數達到15億,且訓練模型的數據庫也更大。2020年, 規模達1750億參數的GPT-3誕生?;诨ヂ摼W包含大規模的文本數據,通過不斷地增加數據、增加模型大小,模型的能力不斷提升;通過指令微調、代碼訓練以及強化學習等[1],其高級思維能力出現了跨越式的增長, 產生了思維鏈 (Chain-of-Thought,CoT)能力和涌現能力(Emergent Ability)。它具備連續對話、上下文理解、用戶意圖捕捉,以及敢于質疑的能力,在寫郵件、翻譯、編寫代碼等各項應用上的表現令人印象深刻。2023年3月14日,OpenAI發布GPT-4。其不僅可以對文本進行處理和分析,還可以處理圖像、音頻和視頻等多種模態的數據, 且在對話交互和情感分析方面有了進一步提升。
以ChatGPT代表的人工智能大模型被認為是實現人工通用智能(AGI)的可能方法。當前,布局大規模智能模型已成為全球引領性趨勢。 除了ChatGPT這樣的語言理解類生成模型,還有圖片生成、代碼生成、音頻生成、視頻生成等多種類別。
2023年1月,美國89%的大學生注冊并使用ChatGPT做作業, 部分學生借助ChatGPT完成的論文獲得了授課老師的最高評價等級。《自然》雜志報道稱,一些科學家已經在使用聊天機器人作為研究助手——幫助組織他們的思維、產生對工作的反饋、協助編寫代碼和總結研究文獻。由于一些預印本和發表的文章已經把ChatGPT作為署名作者之一, 關于ChatGPT等人工智能工具能否署名引起了廣泛關注。 鑒于軟件不能對出版物承擔有意義的責任,不能為其工作主張知識產權,許多大型出版機構對此紛紛更新了收稿要求, 禁止或限制撰稿人使用類似ChatGPT的人工智能工具。在國內,包括《天津師范大學學報(基礎教育版)》《暨南學報(哲學社會科學版)》等期刊也在第一時間做出更新。
出版商或編輯部的聲明只能從道德層面來約束作者行為,而從實際看,ChatGPT及其他生成式人工智能的廣泛應用可能對科技出版提出以下挑戰:
1.識別難度巨大。雖然計算機程序(如Microsoft Word和Grammarly)多年來一直包含自動文本編輯功能,例如檢查拼寫和語法,但這些程序并非旨在創建內容。新興的生成式人工智能為研究倫理和研究誠信提出了重要問題,尤其是在傳統的抄襲檢測軟件對其失靈的情況下。ChatGPT能夠在不添加其他想法的情況下, 使用程序來改寫句子,從而減少被視作抄襲的百分比,這顯然是違反學術誠信的行為。已有研究表明,使用ChatGPT生成的研究摘要,基本可以通過抄襲檢測器、AI輸出檢測器和人工審查員的檢查[2]。在一項研究中,ChatGPT撰寫的50篇文章中,有40篇表現出令人矚目的原創水平[3]。為了回應科學出版界的擔憂,OpenAI宣布訓練了一個分類器來區分人類和AI作者,但目前分類器的效果還有待提升[4]。對于期刊編輯而言,未來如何保證來稿的原創性將是一個難點。
2.虛假內容泛濫。由于對話型人工智能沒有解釋和理解內容的能力, 它經常會自動生成并不存在的參考文獻。因此,ChatGPT生成的手稿可能具有誤導性——基于不可信或完全虛構的來源。 正如ChatGPT的創建者所承認的那樣:“ChatGPT有時會寫出看似合理但不正確或荒謬的答案?!比斯ぶ悄苷Z言機器人無法理解新信息、產生見解或深入分析,這將極大影響論文的質量。ChatGPT寫出的文本甚至可能會欺騙審稿人和讀者, 導致錯誤信息的大量積累,可能會帶來重大的社會危害。
3.偏見與有害信息尚存。ChatGPT是在大量現有文本數據上進行訓練的, 這意味著它可能會從訓練數據中繼承偏見和刻板印象。在其預訓練數據中,92.647%的數據為英文,而中文僅占據0.099%,對于其他語言和文化,可能會生成偏見和不當內容。同時,由于ChatGPT是一種功能強大的人工智能技術,它可能被惡意利用,造成嚴重的安全隱患,產生法律風險。
在科技期刊編輯出版過程中,ChatGPT及生成式人工智能有著廣闊的應用前景,具體如下:
1.選題策劃。一方面,使用ChatGPT等工具,在適當提示詞引導的情況下,可以對不同的概念和想法進行類比,并可能產生創造性的聯系, 生成有啟發性和創意性的內容,為策劃???、構思主題等提供新路徑。另一方面,通過其開展信息抽取、知識圖譜構建,能夠對某一領域的知識進行完整掃描分析,并從中發現可能的前沿方向。
2.編輯加工。第一,ChatGPT等新一代人工智能工具可以提供語言潤色和語法檢查服務,由于其基于海量語言訓練,行文邏輯清晰、用語較為準確,可以為編校工作提供幫助;第二,其可以協助期刊編輯檢查實驗報告與數據、美化圖表,提升編輯效率。
3.傳播推送。優秀成果展示也是科技期刊的使命和服務內容之一。利用生成式人工智能工具,可以基于期刊論文,自動生成定制化、高水平的推廣內容。例如,適用于不同社交平臺推廣的文案、富有吸引力的郵件、基于稿件內容制作的圖像與視頻、 適用于不同年齡段讀者的科普文案,從而豐富傳播路徑,擴大期刊的影響面。
4.閱讀體驗。中文科技期刊的國際化、數字化轉型升級,首先要突破語言隔閡。目前,僅通過摘要翻譯模式,很難提升中文科技期刊的國際影響力。 由于受母語遷移的影響和英語水平的限制, 國內科技期刊的摘要翻譯良莠不齊。通過ChatGPT等工具,可開啟類似科技學術期刊外文版工程的全文翻譯工程, 甚至探索同時刊發多種語言版本的新出版模式, 讓中國科技期刊更加靈活快速地在國際舞臺展現風采。
5.讀者服務。ChatGPT可以基于上下文信息,生成與用戶意圖相匹配的多輪回答,增強會話交互模式下的用戶體驗。如將大模型基于期刊語料庫進行二次預訓練,可以使其在工作場景中成為“代言人”,極大暢通與作者、審稿人、讀者的交流渠道,解決溝通不及時的問題。
對于ChatGPT和生成式人工智能這樣的技術浪潮,既不能過于擔心、一禁了之,也不能毫不擔心、放之任之。我們必須未雨綢繆、趨利避害。為此,筆者提出以下建議。
1.從國家層面,應規范生成式人工智能的發展和應用。我國近年把人工智能作為戰略性新興產業,并且重視其中的倫理規范問題, 國家新一代人工智能治理專業委員會出臺了《新一代人工智能治理原則——發展負責任的人工智能》和《新一代人工智能倫理規范》等文件。面對新技術的沖擊, 一要修訂《網絡安全法》《數據安全審計法》等已有互聯網法律法規,明確生成式AI技術和應用中涉及政治、民族、宗教和互聯網等相關的法律底線和紅線問題,明確“可為”與“不可為”的范圍和內容;二要加快生成式AI知識產權保護研究, 明確人工智能生成的數字內容知識產權與數據權益保護規則, 建立大模型產出物的內容審定和版權界定標準; 三要推進生成式AI內容監控平臺建設,加強對生成式AI應用的內容監管和監控,對以生成式AI為技術手段的新型網絡欺騙、 網絡詐騙等違法違規行為加快、加重處罰,維護人工智能產業健康生態。
2.從期刊層面,應審慎探索出版領域人工智能實踐。一要針對人工智能工具, 提前制定學術規章制度, 按照“允許人工智能提升研究論文可讀性,但不能取代作者完成關鍵任務”的原則,規范作者來稿;二要探索建立人工智能寫作識別和懲戒機制, 積極應用新一代抄襲檢測工具,將檢測重點從相似性檢查轉移到驗證內容來源上;三要大力推動人工智能應用,在期刊經營管理、數據整合、資源平臺、安全防護等方面,運用新一代人工智能做好國際交流和科研引領工作。
3.從編輯層面,應積極主動提升數字素養。雖然“Chat-GPT取代編輯”的新聞標題滿天飛,但真正取代編輯崗位的并非人工智能, 而更可能是其他善于使用人工智能的人。因此,作為期刊編輯,一要樹立終身學習的思維觀念,以積極包容的心態了解并學習新一代人工智能工具,創新應用場景,將其應用于采編、策劃、科研工作中,推進人機融合,大力推動科技期刊的數字化轉型;二要跟進了解國內外人工智能前沿發展,洞悉新一代人工智能工具可能帶來的對編輯崗位職責的沖擊和安全風險問題,牢牢把握新時代我國科技期刊的本質屬性與出版規律,為提升學術引領貢獻力量。
雖然國內的科技期刊界至今還未受到ChatGPT的明顯沖擊,但生成式人工智能的顛覆式創新終將波及這一行業。我們不必“妖魔化”或過高估計ChatGPT,但仍需未雨綢繆,擇善而從。新技術的應用如水,宜通不宜堵,宜順不宜逆,相信通過科技出版同仁的不懈努力,生成式人工智能及其應用將成為提升我國科技期刊出版智能化水平的重要工具,在建設世界一流科技期刊的道路上,更好地推動科學研究和科技傳播的百花齊放。