曹聯養
摘 要:本文探討人工智能生成內容(AIGC)在學術研究中的風險和前置審查這一學術出版可以采取的應對策略。AIGC技術飛速發展,在學術研究中的應用勢不可當,但AIGC生成內容或存在嚴重質量問題,在學術研究中使用存在重要風險,包括來源不可溯且準確性存疑、重要事實信息可信度存疑、內容創新性存疑等。為了規避這些風險,本文首次提出了前置審查的應對策略,包括更新作者反學術不端承諾、在常規查重外使用自動化工具檢查辨識AIGC、對成果中重要觀點的來源進行核查、對學術成果所依據的主要事實和數據進行核查等。前置審查與學術出版常規操作相銜接,將有效規避AIGC可能帶來的潛在風險,保證學術出版不因AIGC的應用而降低質量甚或造假等學術不端。
關鍵詞:學術出版 人工智能生成內容 前置審查
出版業的發展始終與技術進步同步,廣泛應用的人工智能技術不可避免地會對內容生產領域和出版行業產生重大影響。2023年10月,《互聯網周刊》發布了“2023人工智能分類排行榜”,推選出基礎層(芯片、服務器、數據生產)、技術層(人工智能算法、人工智能平臺)、應用層(智能機器人、智慧政務服務、自動駕駛、智慧醫療、AIGC、人臉識別算法、虹膜識別算法、智慧金融、智慧農業、智能安防、智能家居、智能客服、智能SaaS)、學術科研等4個大類19個子類的領軍企業及機構340余家。[1]該榜單大致反映了中國人工智能的最新發展,從中亦可感知人工智能技術在中國發展應用之快、之廣、之深。
該榜單中人工智能生成內容(AIGC)被單列為一個子類。本文聚焦于人工智能技術中的人工智能生成內容技術,探討其在學術研究中應用的主要風險,提出了在學術出版中應對AIGC風險的策略——前置審查。
一、人工智能生成內容(AIGC)在學術研究中的應用勢不可當
2022年底Open AI發布聊天生成預訓練轉換器ChatGPT后,谷歌推出了能夠生成音視頻內容的多模態第二代通用語言模型PaLM2,微軟推出了集成多模態生成式預訓練大模型4(GPT-4)的新必應(New Bing)搜索引擎,亞馬遜也發布了大型語言模型泰坦(Titan)。[2]2023年5月中國科學技術信息研究所在中關村論壇上發布的《中國人工智能大模型地圖研究報告》顯示,中國已發布的人工智能大模型數量為79個。[3]
中國的AIGC技術居于世界第一方陣,領先的企業、工具及應用領域見表1。
表中信息顯示了中國領先的AIGC企業及其產品。在制造業、服務業及日常生活中,自動生成文本、圖像、視頻、音樂、游戲等內容的AIGC技術已得到廣泛應用,公眾使用AIGC已沒有技術障礙。自然地,AIGC也在人文社科領域得到應用,為學術研究帶來了新思路和新方法。
張萌、朱鴻軍認為ChatGPT在學術研究中的輔助創新方式是多維度的,貫穿于整個創作流程中,其可能完成的輔助性任務包括翻譯、簡潔呈現研究結果、文本生成、提煉摘要、上下文理解、數據分析等,其在推理、對話和總結方面的突出表現,可充分滿足人們在短時間內低成本獲取密集知識的需求。[4]
駱飛、馬雨璇認為AIGC對學術生態的生產、評價、傳播三個環節均產生了重要影響。在學術生產環節,AIGC可以輔助文獻梳理和收集工作,可以輔助進行觀點評述與討論,可以輔助提升寫作質量。[6]
作為新的能夠提升學術研究生產力的工具,AIGC逐漸被研究者接受和掌握,得到越來越廣泛的使用。
二、人工智能生成內容(AIGC)在學術研究中的主要風險
AIGC在學術研究中得到廣泛應用,但也暴露出嚴重的質量問題。學術研究應熱情擁抱AIGC技術,同時也應警惕AIGC帶來的風險。
(一)AIGC或存在嚴重質量問題
施普林格·自然集團大中華區暨全球圖書業務總裁Niels Peter Thomas認為,AIGC產生大量文本,可減少重復性勞動,但同時導致信息冗余、數據爆炸;其語言、評論相對中立,但可能存在科學性、邏輯性缺陷,與事實存在偏差;可幫助研究人員提高效率,集中精力攻克核心問題,但其僅總結歸納現有知識,缺乏創新性想法;可協助找到針對性內容,匹配合適信息,但難以識別或發現突破性成果。[7]
AIGC技術雖廣泛應用,但其生成內容的質量卻并不令人滿意。2023年3月20日至4月16日,莫祖英等使用ChatGPT、Microsoft Designer等工具對22個問題進行測試,包括數據、客觀事實、新聞、文學作品、學術信息、健康信息等不同類別,共獲得AIGC信息28條,其中虛假信息21條,錯誤率為75%。[8]2023年5月28日,Douglas Johnson等發布的研究成果表明,ChatGPT回答醫學問題的正確率為57.8%、全面率為53.5%。[9]
AIGC存在的質量問題,需要學術研究者及出版者高度關注。
(二)AIGC質量風險的根源
1.大規模語言模型(LLM)天然的算法缺陷
AIGC的核心是基于數據集預訓練產生的大規模語言模型(LLM)。在大模型中,以語言符號表達的人類知識被抽象為字詞token的參數與權重特征,這些參數與權重形成了模型理解的知識結構。在用戶提出問題時,AIGC以概率算法的方式預測用戶期望獲取的內容并通過復制底層數據來實現內容生成。
大模型模仿人類語言和信息模式,在技術上卻并不理解其概念和語義內涵。這種天然的算法缺陷會使其僅關注信息在數據集中的權重,卻忽略信息本身的真實、準確和客觀,導致基于錯誤或虛假的信息而生成新的錯誤或虛假信息。
2.AIGC受限于預訓練數據集的質量
人工智能專家Alan D.Thompson博士于2023年3月對全球主要人工智能大語言模型數據集的來源進行了估測,其中GPT-3模型所使用的數據集容量為753GB,該數據集中維基百科的占比為1.51%,書籍的占比為2.79%,期刊的占比為13.41%,Reddit鏈接的占比為6.64%,常見網絡爬蟲數據的占比則高達75.65%。[10]
預訓練數據集的局限性會自然傳導成為大規模語言模型的局限性。預訓練數據集包括了大量利用爬蟲從互聯網上抓取的信息,這些信息可能是錯誤的、過時的、有偏見的或人為精心策劃的,還包含來自社會和歷史的偏差。對于如此龐大的預訓練數據集,要進行徹底的人工數據審計與加工幾乎是不可能的。這也導致AIGC生成內容必然面臨準確性、真實性和客觀性的問題。
3.AIGC的質量取決于人工標注
為提高AIGC質量,通常由人類專家對數據集中的樣本數據進行標注,AIGC基于專家對數據所做標記、分類或注釋進行機器學習和算法優化。另外,AIGC的評估和反饋也以人工方式進行,標注最佳答案,進一步優化模型,以提高生成內容的真實性、準確性和相關性,減少歧視和偏見。
顯見,標注人員的專業水準、政治傾向、教育背景、成長經歷、社會文化環境等會對人工標注的質量產生決定性的影響。有報道指出,OpenAI在肯尼亞進行了剝削性標注工作,由一群工資過低、不穩定的工人承擔了數據人工標注工作。[11]不全面的標注和低質量的標注必然會降低AIGC的質量。
(三)人工智能生成內容(AIGC)的主要學術風險
1.人工智能生成內容(AIGC)來源不可追溯且準確性存疑
生成式人工智能的模型訓練過程是通過對大量數據的統計學習和模仿來實現的,并非直接依賴于特定的來源。由于生成式人工智能的模型具有創造性和靈活性,它可以生成與訓練數據集中不同的新文本。對于這些新生成的文本,可能無法直接追溯到具體的來源。事實上,AIGC一般不包含來源信息,要求AIGC同時提供來源信息時,其輸出內容在很大程度上也是錯誤的或虛假的。不可追溯來源而使用他人學術成果會造成學術研究的倫理失范問題,導致潛在的剽竊和抄襲風險。
2.人工智能生成內容(AIGC)重要事實信息可信度存疑
AIGC生成的內容主要是通過已有的數據進行學習和模擬,其工作機理是基于形式的邏輯關系,并非基于對事實和觀點的理解。以“時間”信息為例,一方面,AIGC擅長使用文本邏輯,或對時間等重要信息并不敏感,或時間等重要信息有很強的重復性、相似性,因而所生成內容常不包含時間信息或提供了虛假的時間信息,這一點已被大量測試所證明;另一方面,AIGC依賴于龐大的訓練數據集進行訓練,而這些數據往往存在一些不準確或者錯誤的時間信息,因此其生成內容中也可能包含這些錯誤的信息。
類似地,AIGC所表現出的“一本正經地胡說八道”“人工智能幻覺”等錯誤比比皆是。如果查詢一個根本不存在的人物,AIGC必然會生成內容,但生成的內容卻會讓人啼笑皆非。明顯的錯誤容易分辨,但隱性的錯誤將產生導致學術研究基礎崩塌的可能。
3.人工智能生成內容(AIGC)其創新性存疑
AIGC是基于已有的數據集進行學習和模擬的,雖然AIGC可以生成新的內容,但其基礎是已有的知識或信息,且這些數據可能是重復的、低質量的或者老舊的。圍繞AIGC智能“涌現”的不少討論認為,在大模型、大數據、大算力的條件下,AIGC“涌現”出智能或類似于人的意識是可能的。關鍵在于,在瞬間生成的大量內容中浪里淘沙,以人力找出并確認什么是AIGC涌現的智能而不是已有知識的重復是困難的,即便識別出了AIGC涌現的智能,以人力判斷其創新性在成本上也是不合算的。基于AIGC目前的技術水平,其在開拓新的研究領域、使用新的研究方法、運用新的資料、創新闡述已有觀點或理論等方面能夠創新的可能性也是存疑的。
三、前置審查:學術出版中應對AIGC生成內容風險的策略
使用AIGC進行學術研究的風險會給學術出版造成新的壓力。《科學》系列期刊規定來自AI、機器學習或類似算法工具生成的文本不能用于在科學期刊上發表的論文中;除非得到編輯的明確許可,否則不得使用此類工具生成的圖表、圖像或圖形;AI程序不能成為科學期刊論文的作者,違反此政策構成科學不端行為。[12]《自然》雜志不接受任何LLM工具作為研究論文的合格作者,認為AI工具無法承擔著作者責任;可使用LLM工具但應在方法或致謝部分說明使用情況。[13]
為了既擁抱AIGC技術帶給學術研究的便利,也有效規避AIGC可能帶來的風險,筆者認為,可在學術出版常規流程之前,增設AIGC前置審查環節,以有效剔除AIGC創作的成果,識別并提升學術成果中應用AIGC生成內容的質量。AIGC前置審查要點如下。
(一)更新作者反學術不端承諾,要求聲明成果中包含的AIGC
學術出版機構應更新作者反學術不端承諾,增加作者使用AIGC相關規定。要求作者負責任和誠實地使用生成式人工智能,可要求作者具體說明論文是如何使用AIGC的,提供所使用AIGC的名稱、版本、型號和來源。限于不同研究者的不同情況,僅靠個人自覺不能徹底解決AIGC生成內容的判別問題,還需要后續配套措施。
(二)在查重之外,使用自動化工具檢查辨識AIGC生成內容
常用的查重工具較難識別AIGC生成內容。Khalil等使用ChatGPT生成了50篇論文,對一半的論文使用Turnitin軟件進行檢查,其平均相似度為13.72%;對另一半的論文使用iThenticate平臺進行檢查,其平均相似度為8.76%。[14]這表明,ChatGPT生成的論文可能會被一般的查重工具誤判為高度原創的作品。筆者以ChatGPT 3.0生成的文本為樣例,利用國內使用較廣的中文查重工具進行檢測,其識別AIGC生成內容的效率也并不高。
目前,已有多種反作弊檢測器被運用于識別機器生成的文本。如普林斯頓大學研發的反作弊檢測器DetectGPT和GPTZeroX,OpenAI推出的人工智能文本分類器,抄襲檢測服務公司Turnitin研發的AI寫作檢測工具等,在一定程度上能夠識別人工智能的抄襲痕跡,檢測出未做聲明和標識的人工智能生成內容。[15]國內首個AI機器生成文本檢測工具包括AIGC-X已于2023年3月1日開始公測,可對人工撰寫與機器生成文本進行區分,對內容抄襲、信息造假、垃圾郵件等方面進行識別和標記。[16]
出版機構的編輯在收到稿件后,在常規查重之外,還應使用自動化工具檢查辨識稿件中的AIGC生成內容,為審稿決策及編校加工提供參考。
(三)對成果中的重要觀點的引用來源進行核查
如前文所述,AIGC生成內容的來源通常不可追溯,因而,稿件中如有重要支撐性觀點卻沒有標注來源,使用常用學術檢索工具也未能查詢到準確來源,則有較大可能為AIGC生成內容。如有多處類似情況,可高度懷疑稿件大量使用了AIGC生成內容。學術出版單位可制訂業務指引,對類似稿件是否退稿及如何處理做出規定。
(四)對學術成果所依據的主要事實和數據進行核查
與上條類似,如果稿件中使用了重要的支撐性事實和數據卻沒有標注來源,使用常用學術檢索工具核查確認其為錯誤的或虛假的,可高度懷疑其為AIGC生成內容。對于使用虛假事實、數據的稿件,應作退稿處理。
針對AIGC生成內容存在的質量問題及在學術研究中使用AIGC存在的重要風險,本文首次提出了增設“前置審查”應對策略,這一策略與后續學術出版常規操作有機銜接,將有效規避AIGC可能帶來的風險,避免學術出版因研究者使用AIGC而降低質量甚或造假等學術不端。
(作者單位系陜西師范大學出版總社)