


關鍵詞:人工智能生成內容;AIGC;AI 文本檢測;知網AIGC 檢測服務系統;鑒字源AIGC 文本識別系統;技術缺陷;學術期刊;因應策略
DOI:10.19619/j.issn.1007-1938.2024.00.027
作者單位:深圳大學學報(人文社會科學版)編輯部
引文格式:周濛. AIGC 論文檢測系統的技術缺陷與學術期刊因應[J]. 出版與印刷,2024(4):20-30.
隨著人工智能生成內容(artificial intelligencegenerated content,英文縮寫AIGC)技術在學術出版領域的發展與滲透,一些作者已經開始利用AI 工具,例如ChatGPT,來撰寫學術論文,AI 代寫現象頻發。甚至在國際知名期刊之中,也能發現AIGC 的痕跡。例如,2024 年3 月愛思唯爾(Elsevier)出版集團旗下期刊《表面與界面》(Surfaces and Interfaces)上的一篇論文出現了ChatGPT 常用生成語——“當然,以下是關于您主題可參考的介紹”;2023 年8 月物理學一流期刊《物理寫作》(Physica Scripta)發表的一篇論文中出現了 ChatGPT 的按鈕標簽——“生成回答”(regenerate response)。這些AI 生成的毫無意義的措辭竟然能在作者、編輯、審稿人、校對的審校后幸存下來,說明學術出版主體在應對AIGC 技術的能力方面存在不足。為了應對這一情況,已有部分科技出版企業相繼研發并推出AIGC 論文檢測系統,探索AIGC運行規律,嘗試攻克內容識別、算法效率、可信評估等技術難題,以識別學術文本中的AI 生成內容。在利用AIGC 論文檢測系統的實踐之中,探究學術期刊出版單位如何警惕系統的技術缺陷,應對機器風險與技術風險,并發揮獨立于機器之上的主觀能動性以構建有效的AIGC 識別策略,對于推動學術期刊的數智化發展具有重要意義。
就AIGC 對于學術期刊的影響這一研究主題,已有較多國內外學者進行了探討。在實證研究領域,國外的Catherine A. Gao 等學者[1] 以及國內的沈錫賓等[2] 通過比較AI 檢測工具和人工評審者在AI 寫作判別能力上的差異,指出特定AI 檢測工具可以較好識別出ChatGPT 改寫的醫學論文摘要,借助這些工具可以幫助學術編輯更好地發現AI 代寫行為。在制度研究領域,張凌寒等[3] 認為應設計AIGC 質量光譜標識,要求對生成來源、責任主體、內容質量進行強制標識,以激活標識制度在信息內容篩選中的實質作用;蔣雪穎等[4] 則提出要建構多元主體協同監管的學術出版生態框架,嘗試為AIGC 技術下我國學術生態的良性發展提供可能的進路。在行業研究領域,王鵬濤等[5] 分析了AIGC 技術與知識生產的耦合性,識別由AIGC 引發的信任危機,在此基礎上探索學術出版行業的信任機制理論模型與實踐路徑;張重毅等[6] 指出學術出版行業存在AI 工具使用程度不易把握、隱性學術不端行為更不易識別、科研倫理問題更加不易發現、現行同行評議制度權威性不易保證、著作權及研究成果分配不易處理等方面的挑戰,提出出版主體要清晰認識自身的核心優勢和定位。在對策研究領域,趙凱[7]提出了以人機協同審核、編輯價值重塑迎接新挑戰的策略構想,使AI 真正成為新的內容生產力和審核力引擎;曹聯養[8] 則提出了前置審查的應對策略,包括更新作者反學術不端承諾、在常規查重外使用自動化工具檢查辨識AIGC、對成果中重要觀點的來源進行核查、對學術成果所依據的主要事實和數據進行核查等解決方案。
已有研究成果雖然多方位、多角度地指出了AIGC 的具體風險與影響,并為學術期刊應對AI 代寫現象提供了出版政策、行業、主體層面的建議,但尚未涉及AIGC 檢測系統的技術原理和技術缺陷,也未能明確說明出版單位如何在實操層面利用AIGC 檢測技術來解決問題。具體而言,該研究領域還有待從以下三個方面進行補充:第一,在實證檢測方面,可識別醫學領域AI 改寫摘要的檢測系統未必能推廣至其他學科,尤其對于語言邏輯或詞匯多樣性更為復雜的人文社科領域,以及經過多次語料投喂而能夠模仿用戶寫作風格的高級AI 工具,AIGC 檢測系統的效果可能不盡如人意;第二,在技術缺陷層面,目前的研究鮮少提及AIGC 檢測系統的誤報、漏報現象,也忽略了不同學科、場景、領域、類型的文本檢測標準缺乏通用性的問題;第三,在實操因應層面,現有研究的對策與制度構想還不能滲透進具體的學術出版活動之中,出版單位如何理解AIGC 檢測系統的技術原理與功能,以及如何在審稿校對過程中將人工審核與機器檢測相互結合,仍舊是難以克服的現實問題。基于以上不足,本文在已有研究基礎上作進一步探索:首先,使用兩個國內較知名的AIGC 論文檢測系統對10 篇由ChatGPT 生成的法學論文摘要和10 篇由其他AI 改寫的法學論文摘要分別進行檢測,以驗證檢測工具的AI 鑒別能力;其次,通過分析檢測結果總結檢測工具的技術缺陷,并基于其技術原理分析缺陷成因;最后,將缺陷與成因置于學術出版單位的出版場景中,總結出版主體使用AIGC 檢測系統需要避免的問題,提出實操層面的技術應對策略。
一、數據來源和研究方法
1. 檢測樣本說明
由于國內現有研究使用的檢測樣本僅來源于醫學文獻,為了進一步檢測AIGC 論文檢測系統的AI 識別能力,本文選取了2023年發表在某中文核心期刊的10篇法學文獻。法學論文的語言邏輯層次和詞匯組合難度相對而言更為豐富和復雜,AI 工具也更加難以模仿法學學者的文風和思路,大幅提升了識別測試的難度。
樣本分為三組:①對照組,為入選的10篇文獻摘要原文,均在400 字左右,不對其作任何文字處理;②AI 生成組,先通過向ChatGPT 投喂原文標題、摘要以及關鍵詞,生成對原文內容的分析與評價,再基于相應回答(response)使用提示詞(prompt)“根據此題目與對話內容,重新生成500 字左右的學術論文摘要”,最終獲得10 篇AI 代寫樣本,不對其作刪改處理;③AI 改寫組,使用國內一款聲稱能夠降低AIGC 疑似程度的AI改寫軟件,向其輸入10 篇AI 生成組樣本,最終獲得10 篇字數為600 字左右的AI 改寫樣本,改寫軟件默認與原AI 生成組的文本相似度控制在65%—80%,不再對其作刪改處理。
2. 具體檢測方式
本研究并不試圖尋求嚴格意義上的統計學結果,僅針對檢測系統的直觀輸出結果進行簡要的數據分析,并對檢測失敗的樣本進行具體的文本分析以尋求技術缺陷根源。目前國內市面上的AIGC 論文檢測系統一般兼具文獻相似性檢測與AIGC 文字占比檢測雙重功能,由于此前已有學者實證分析過AI 代寫文本能否通過文獻相似率檢測,且重復率結果與本文研究目的并不相關,因此本研究不再對樣本進行相似性檢測。
對于具體的檢測系統,本研究選擇了較多科研與出版機構使用的同方知網(北京)技術有限公司的“知網AIGC 檢測服務系統”(簡稱“知網檢測系統”)以及南京智齒數匯信息科技有限公司的“鑒字源AIGC 文本檢測系統”(簡稱“鑒字源檢測系統”)進行判別。
二、技術缺陷表征:檢測系統的低準確度、高差異率與弱敏感性
通過對AI 生成組、AI 改寫組以及對照組的共30 篇樣本同時使用知網檢測系統和鑒字源檢測系統進行檢測,最終生成60 條檢測記錄,數據結果如下表1所示。
知網檢測系統與鑒字源檢測系統都以疑似AIGC 片段的字數占全文的百分比為檢測數據,經過不同的賦值方式,標記檢測的片段有多大概率屬于AIGC。知網檢測系統的結果是經過系統加權計算的數值,系統通過對不同程度的疑似片段分別進行系數賦值(高度疑似AIGC 值為0.9—1,中度疑似AIGC 值為0.7—0.9,輕度疑似AIGC 值為0.5—0.7,不予標識為0—0.5。左側臨界值包含在對應范圍內,如AIGC 值=0.5,即為輕度疑似AI生成,AIGC 值<0.5 則系統不進行標注,判定不屬于AIGC),最終得到系統評估的AIGC片段占比而非實際占比。例如,AI 生成組第6 篇摘要在知網檢測系統中被標記為中度疑似的字數實際只占全文的46.5%,但系統經評估后為其疑似程度賦值為0.79,最終得到加權占比36.7%。鑒字源檢測系統的結果則是實際字數占比,被標記為高度、中度、輕度的片段,其疑似AIGC 的概率分別為70%—100%、60%—70%、50%—60%,概率小于50% 的片段不予識別為AIGC;左側臨界值判定同知網檢測系統。例如AI 改寫組第3 篇摘要全文都被鑒字源檢測系統標記為AIGC, 其中前41.6% 的片段為高度疑似,后58.4% 的片段則為輕度疑似。通過分析表中數據,可以初步總結出目前AIGC 檢測系統的三點缺陷,即低準確度、高差異率與弱敏感性。
1. 低準確度
總體來看,對照組的檢測結果都為0%,說明兩個系統對于發現哪些文本由真人撰寫具有優秀的鑒別能力;而從生成組的結果來看,不管是知網檢測系統還是鑒字源檢測系統,能夠成功判別存在AIGC 的篇數都只有4 篇,成功率只有四成,都未能達到及格線。由此可見,目前流行的檢測系統雖然能夠大概率確認真人不是AI,但并無能力準確判別AI 就是AI。知網檢測系統對不同疑似程度分別進行賦值的做法雖然看起來更加科學,但總體來看其實際檢測出的疑似片段并不如鑒字源檢測系統多,尤其對于兩者都判別為高度疑似的生成組第2 篇摘要,鑒字源檢測系統的檢測結果要遠高于知網。由此可知系統的準確度與生成結果計算方法的復雜程度并無直接關聯。
從改寫組的檢測結果來看,AI 改寫軟件降低AIGC 占比與程度的能力明顯不足,有時還會適得其反。只有對生成組第8、9、10篇摘要的改寫成功避開了系統檢測,其他改寫要么降低得不多,要么進一步加重AI成分。但從改寫軟件的降AI 原理來說,其本身就是將AIGC 詞句替換為類似真人的表達方式,如果檢測系統反而評估改寫后片段的AI 成分更多,則從側面表明了檢測系統在識別真人語氣方面仍然不夠敏感。
2. 高差異率
生成組中知網檢測系統和鑒字源檢測系統檢測結果較為一致的只有4 篇,差異率達到60%(此處的差異率為兩個系統檢測結果不一致的篇數相對于總檢測篇數的占比,是否一致只針對系統能否識別到AIGC 片段,不論占比是否完全一樣)。其中生成組第2 篇都被檢測出高度疑似,第3、4、7 篇都被檢測為無AI 創作成分;其他6 篇文章的檢測結果則完全不同,有的知網檢測系統能夠檢測出AI 創作成分,有的鑒字源檢測系統能夠檢測出AI 創作成分。以上結果說明不同AIGC 檢測系統的技術原理和參考模型存在差異,訓練程度與應用場景也各有不同,對于典型AI標識詞的識別也不一致,差異性特征較為明顯。雖然改寫組中知網檢測系統和鑒字源檢測系統檢測結果較為一致的有9 篇,差異率僅10%,但這只能側面說明AI 改寫軟件的降AI 方式非常機械化,檢測系統只能對簡單易識別的AI 改寫標識詞具有一致的鑒別能力。
3. 弱敏感性
針對生成組檢測結果為0% 即未被查出具有AI 創作成分的樣本,本研究進一步對其中的文本進行了細致分析,可以發現一些人工較為容易辨識的AI 標識詞也通過了檢測,例如“以上內容強調了”“本文得出了”“以下是”等詞句,可見檢測系統的AI 詞庫與智能語言模型的發展訓練水平落后于ChatGPT一類的大語言模型,致使系統對于AI 詞匯、語句、語氣的識別高度不敏感。而基于AI 改寫組中同時通過兩個系統檢測的4 篇文本,可以發現一些降AI 方式反而更為夸張與生硬(如刻意加入模板化的關聯詞或語氣詞、使用過于主觀化的描述方式等),可見檢測系統對部分機械化的反AI 技巧也不夠敏感。
三、技術缺陷根源:模型訓練不足、算法優化不當、預設詞庫匱乏
本研究的數據結果反映了AIGC論文檢測系統的實際鑒別能力并不理想,在輔助出版主體識別AI 代寫行為方面還有很大不足。就表層原因而言,一方面可能是由于檢測難度的提高,檢測的樣本是由經過語料投喂與簡易訓練的AI 工具生成的,且使用了語言邏輯復雜性較高的法學文獻素材;另一方面則是由于AI 工具的機器學習速度遠遠超過了檢測系統的更新迭代速度,就同一AI 工具依據不同版本或不同發展階段的語言模型生成的類似文本,檢測系統可能只具有鑒別舊模型的能力,對新模型則無能為力。與此同時,通過仔細分析檢測系統的技術原理,還能夠發現一些技術領域的深層次原因。
以“AI 文本檢測”作為關鍵詞在中國專利公布公告網( http://epub.cnipa.gov.cn/Index)上進行搜索,只得到同方知網的專利公告記錄。該專利名稱為“一種AI 生成文本的檢測方法、裝置、介質及設備”,專利申請號為2023110993486,公布/公告號為CN17151074A。專利摘要聲稱該發明可以判定待檢測文本是否為 AI 生成文本,不僅檢測效率高,而且不受審核人員的主觀因素影響,使得檢測結果更加準確。從專利摘要附圖(圖1)可以看出,檢測方法主要由文本分類模型、目標損失函數、預設字典及預測模型四部分構成(S101—106為包含專利權利要求的具體實施例)。檢測步驟如下:①文本分類模型輸出待檢測文本的第一概率值,以評估該文本是AI 生成的可能性;②目標損失函數輸出待檢測文本的偏離度特征,以評估該文本與真人文本之間的差異程度;③預測模型及預設字典輸出待檢測文本的擴散度特征值,以表明文本中的詞匯多樣性和使用頻率;④經過統計分析得出待檢測文本的句子長度特征及字詞分布特征,結合第一概率值、偏離度特征、擴散度特征值綜合判定待檢測文本是否為AI 生成文本。此外,知網檢測系統首頁的宣傳語表明,它主要以知網結構化、碎片化和知識元化的高質量文獻大數據資源為基礎,基于預訓練大語言模型算法邏輯,結合“知識增強AIGC檢測技術”和若干檢測算法,從語言模式和語義邏輯兩條鏈路,應用AI 檢測AIGC。
1. 語言模型訓練水平不足
從以上公開的技術內容可以看出,知網的AIGC 檢測系統主要由系統自身建立的大語言模型以及配套算法構成。通過比較,可以發現檢測系統的大語言模型與ChatGPT 等AI 生成工具的大語言模型存在較多不同(詳見表2),其中最重要的差異就是兩者的訓練機制不同。檢測系統的大語言模型依附于技術主體提供的海量學術文獻數據庫,它通過對海量學術文獻進行深度學習,構建了一個龐大的知識庫。當有新文章提交檢測時,系統會將其與知識庫中的文獻進行比對,從而快速找出相似或重復的內容。因此,其訓練語料的來源主要由兩部分構成,一是基于現有文獻構建的知識庫,二是機構或個人用戶提供的海量檢測樣本,前者構成了檢測的人工對照組,而后者則構成了檢測的AI對照組。由于現有文獻豐富,基于人工對照組的識別與區分訓練相對容易,這就可以解釋為何前述檢測可以大概率識別真人是真人。相反,不管是知網檢測系統還是鑒字源檢測系統,目前開放使用的時間都很短,用戶直接提交AI 代寫論文交由系統檢測的案例相對較少,進而導致AI 對照組的語料來源相對匱乏,其文本識別與區分訓練成熟度遠遠不及人工對照組,即本研究結果反饋的檢測系統較難識別AI 是AI。
此外,不同檢測系統大語言模型的結構復雜性存在差異,再加上訓練時間與語料質量的參差,其實現的迭代次數不同,進而導致模型學習成熟度的不同。就知網檢測系統與鑒字源檢測系統相比,知網檢測系統雖然依托著中國最大的學術期刊庫,語言模型建構基礎較好,但使用價格較高,容易導致學校、科研機構等用戶選擇價格較為便宜、迭代更為成熟的鑒字源檢測系統,進而使其模型訓練水平受限。這一點也能在一定程度上印證為何測試結果中鑒字源檢測系統檢測出的疑似占比更高。
2. 算法中目標函數的優化不當
不同的模型可能采用不同的算法進行訓練和優化,這些算法的效率和適應性也會影響語言模型的最終表現。以知網檢測系統為例,算法中的目標損失函數是比較檢測文本與AI 對照組差異的重要手段,其運行效率和方式的改變將會直接導致模型在優化過程中所關注的文本特征發生變化,進而影響檢測性能。隨著語言模型不斷深入地進行機器學習,當初設計的目標損失函數可能難以繼續匹配容量更大的知識庫樣本,新增的多樣化文本類型與特征也會使計算資源不堪重負,如果不對函數功能進行優化、對性能進行提升,則會導致模型迭代緩慢、檢測效率變低,最終影響檢測結果的準確度。
此外,相關函數可能還會設定識別、區分文本特征的評價指標,不同系統設定的指標不同,語言模型在優化的方向上也會存在差異,比如更側重于提高局部的精細度還是整體的準確度。就本研究的數據來看,雖然知網檢測系統輸出結果的疑似占比并不高,但其對于片段鑒別的精細度更高,原因就在于其評價指標的多樣性,即以句子長度特征及字詞分布特征、第一概率值、偏離度特征、擴散度特征值這四個指標綜合判定待檢測文本的可疑性。對于疑似程度賦予更為精細的權值而不是以簡單的范圍作為函數運算的輸入值,將能夠較大程度體現文本的疑似特征。相反,鑒字源檢測系統雖然標識了較多范圍的疑似片段,但局部精細度明顯不足,難以突出特定語句的疑似特征。由此可以反向推出,鑒字源檢測系統評價指標的多樣性稍顯欠缺。
3. 人工預設詞庫匱乏
知網檢測系統中的“預設字典”指的是一個事先定義好的詞匯集合或詞匯數據庫,它用于輔助檢測系統在分析和識別AI 生成文本時,對特定詞匯或表達方式的使用進行評估。預設字典通常包括AIGC 的高頻詞匯、特殊表達、語言模式、錯誤或異常用法等詞庫。設定此類詞庫的目的在于提供一組標準或參考,以便檢測系統可以有效地對文本進行分析和判定。通過比較待檢測文本中的詞匯使用、表達方式、語言模式等與預設字典中的條目,檢測系統可以更準確地判斷文本是否為AI 生成。
然而,如果預設字典只由檢測系統通過檢測樣本進行收集與擴充,那么在檢測從未遭遇過的AIGC 片段時,系統很難判別此樣本是否為AI 代寫。知網檢測系統與鑒字源檢測系統之所以對AI 樣本具有弱敏感性,根本原因還在于預設字典中缺少人為添加AIGC詞庫的功能。本研究AI 生成組中一些人工能夠大概率辨識的模板化AIGC 片段(模板句式雖然也會由真人使用,但一般不會在段落中循環反復出現,這容易被檢測系統忽略),如ChatGPT 被高頻提示詞引導后經常生成的句首“本研究的結論強調了”“本文主要探討了”“本文揭示了”等通過了檢測,足以說明目前市面上的研發企業對檢測系統的設計忽略了這一點。相反,本研究使用的AI 改寫軟件卻具有自定義詞庫的功能,能夠不斷收錄用戶偏好的詞句,通過不斷學習和模仿用戶的文風和寫作習慣,以增強其對AIGC 的反偵測能力。如此發展下去,AIGC 檢測系統將會在AI 改寫軟件迭代更新中落于下風,陷入止步不前的困境。
四、學術期刊因應:系統研發與期刊發展的良性互動
不管是AI生成技術的濫用,還是更有針對性的AI 改寫技術的迭代,學術期刊都面臨著識別和管理AI 生成文本的挑戰,與廣泛普及的文獻重復率檢測系統一樣,未來期刊主體對AIGC 檢測系統的使用也是勢在必行。但正如前文所述,目前的AIGC 論文檢測系統還存在較多技術缺陷,如果期刊主體引入相關系統卻不善于運用和訓練系統,以輔助審稿,則難以應對飛速發展的AIGC 技術并實現學術期刊的數智化發展。為此,本研究認為應當將出版科技企業對檢測系統的研發目標滲透到學術期刊行業的整體發展層面,雙方在這個過程中需要積極構建人機協同、良性循環的溝通與合作。學術期刊作為技術需求主體,則需從研發配合、行業發展、編輯實踐三個層面促成這種良性互動。
1. 系統研發配合層面
首先,學術期刊出版單位應主動與技術提供商進行溝通,了解最新的AIGC 檢測技術,并根據自身的需求提出建議,以促進系統研發的不斷完善和發展。在測試系統的使用過程中,筆者曾與系統推廣人員進行溝通,并將部分檢測結果以及測試樣本反饋給相關后臺人員。在溝通過程中能夠發現,檢測系統的銷售推廣人員與技術服務人員并非十分清楚系統的功能設計不足與技術機制缺陷,對于AI 生成工具與改寫工具的迭代現狀與市場發展也缺乏細致了解。這很大程度是由于學術科研機構與期刊單位對于檢測系統的使用不夠深入,負面反饋不足。系統研發人員通常沒有學術出版行業的從業經驗,因而對于系統的升級與完善未充分考慮用戶的實際使用體驗和感受。期刊單位作為檢測系統的最龐大用戶群體,如若不積極主動地提供自身的需求與建議,則難以使研發人員實時推進大語言模型的發展、相關算法的優化以及預設字典的擴充。
其次,學術期刊出版單位應積極參與新版本檢測系統的測試,根據論文類型、學科場景、應用領域提供更為豐富的檢測樣本,幫助技術提供商優化語言模型和配套算法,使其更加精準和高效。如前文所述,檢測系統大語言模型的訓練需要兼備海量的學術文獻知識庫和AIGC 文本,而目前用戶向系統中輸入的AIGC 文本還遠不能夠匹配現有知識庫,導致訓練素材與活動的匱乏。不同領域、學科、行業的期刊具有多樣性的專業實踐基礎,可以在出版活動中基于日常收稿輸出大量經過訓練的具有高質量、高專業度、高仿真性的AIGC 文本。這些優質文本可以大幅度縮減語言模型的迭代時間間隔,不斷提高系統對不同場景的適應性和檢測不同學科論文的準確度。
最后,學術期刊出版單位應注重日常積累并記錄在出版活動中發現的疑似AI 生成的特殊詞匯或語句,將其分門別類地添加到基于特定學科或實務場景的詞庫中,以供預設字典作為參考。僅依靠研發企業自身收集的詞庫難以滿足語言模型進行識別與比較文本時所需的語料資源,而期刊審稿、編輯、校對人員在各個出版環節中積累的高頻詞匯、特殊表達、語言誤用或異常用法能夠大幅度彌補系統收集能力的不足,進一步完善比照標準。預設字典的完善本質上是一種人機協同的發展過程,系統將單個期刊人工創建的詞庫收集起來,發布到整個期刊集群之中,詞庫再被其他期刊利用來檢測AI 文本,輸出正向反饋,以此可形成期刊與期刊之間、期刊與系統之間的良性互動。
2. 期刊行業發展層面
AIGC 論文檢測系統反饋的疑似文字占比實際上是一種類似于論文重復率的中性數值,但與單純的抄襲、不規范引用不同,AIGC的具體內容并不一定對于學術研究與期刊行業發展毫無用處。期刊行業作為知識創新的守門人,把握著知識生產的演進方向,[9] 因而更需要客觀評價檢測系統的結果,以規避AI 代寫的學術不端行為和辯證利用AI 生成的高質量與真實性知識內容作為使用檢測系統的雙重目標。
一方面,學術期刊要以篩除低質量AI 文本為目標,嚴格把關惡意利用AI 工具的學術不端行為。為此,可以基于AIGC 檢測系統建立學術期刊互聯的內部局域網與期刊行業云,建立更緊密的檢測系統處理與期刊結果反饋評價之間的互聯互通,實現AI 稿件拒稿信息以及AIGC疑似文本的共享。目前知網騰云采編系統在升級版本(V10.3)中就采用了“刊群”功能用于期刊互聯,不管是因一稿多投還是其他學術不端行為被退稿,作者及文章都有可能會被期刊社群體拉黑、拒稿。同時,該系統還實現了正常退稿后作者的一鍵轉投功能,大大提升了期刊對同領域論文的資源共享能力。AIGC 檢測系統的發展同樣可以利用刊群的共享機制,通過召集期刊出版單位共同打擊AI 代寫慣犯、共同評價AI代寫文本,使期刊行業能夠齊心協力應對學術科研領域的AI 亂象。
另一方面,學術期刊要以合理利用高質量AI 文本為目標,充分發揮AIGC 技術的知識生產能力。在評估AIGC 檢測系統提供的疑似文字占比時,期刊單位應考慮AI 生成內容的質量和真實性。在適當引用和標注的前提下,高質量的AI 生成內容也能推動學術發展。同時,期刊出版單位要嚴格把控學術原創性的標準,善于引導作者有效、規范地利用AI 工具,展現自身的獨立思考和學術貢獻,避免學術不端行為出現。
3. 期刊編輯實踐層面
編輯是在期刊出版活動中實際利用AIGC檢測系統的主體,檢測結果是否準確最終應當由編輯決定。對于一些經過深入訓練和調教而生成的高度類人化文本,雖然檢測系統難以通過語句成分和邏輯表達識別其AI 成分,但編輯依然可以憑借對內容真實性和科學性的判斷來把握真偽。正是由于AIGC 檢測系統尚未成熟以及具有種種缺陷,編輯更應該發揮人機關系協同者的身份,樹立正確的人機協同理念,引導系統的最優化發展。[10]
第一,學術期刊編輯要不斷關注和促進AIGC 檢測系統中大語言模型的迭代,推動模型配套算法的性能優化,完善個性化的預設詞庫。雖然大多數期刊編輯只具有學科特長而不具有技術敏感性,但大模型賴以進化的資源根本上還是來源于編輯的日常審稿校對活動。通過對檢測結果進行更為準確的人工標注,不斷反饋給系統并修正AI 評價指標,編輯可以正確引導語言模型向有利于學術出版實踐的方向發展。此外,不同期刊的編輯通過積極參與刊群、共同監測異常等方式建設模型公共訓練平臺,可以有效避免AIGC內容擴散并污染文獻知識庫,確保系統基礎文獻資源的可靠性。[11]
第二,學術期刊編輯要主動培養自身識別AIGC 的技能,知己知彼才能克服AIGC檢測的各種缺陷。隨著OpenAI 在2024 年4月1 日宣布ChatGPT 無須注冊即可使用,越來越多的期刊編輯將能夠更加容易學習并使用最前沿的AI 工具。期刊編輯只有在相關操作實踐中才能深入理解AIGC 的工作原理、算法,在期刊出版工作中利用好AIGC 檢測系統分析結果,從而發揮基于系統之上的獨立思考能力,做到活學活用,用AI 打敗AI。[12]
第三,學術期刊編輯要構建自身的AIGC評判標準,基于學科專業性、場景適用性、知識創新性來鑒別檢測系統的輸出結果。這樣的標準旨在確保能夠有效識別和利用AI 生成內容,同時保護學術誠信和促進原創性研究。學科專業性意味著文章是否展現了必要的專業知識和理論深度,文中專業術語的使用是否準確,以及是否恰當地反映了學科的當前發展狀態;場景適用性意味著文章內容與學術期刊的主題和范圍是否高度相關,是否符合目標讀者群體的特定需求和學術興趣;知識創新性意味著文章的理論、方法、實驗設計或研究結果是否新穎,引用內容是否是對現有文獻的簡單復述。遵循這些符合期刊發展規律的實際評判標準,才能打破AICG檢測系統的機械化認知,真正讓AI 服務于編輯工作。
五、結語
隨著AIGC 技術的成熟以及使用門檻的降低,作為學術不端行為守門人的期刊編輯將承擔防范AI 代寫行為的重任。筆者測試比較了兩種AIGC 論文檢測系統的檢測能力,從技術人員視角對系統的語言模型、算法函數、評價參數進行了較為細致的梳理,分析得出系統技術缺陷背后的問題根源;再從學術期刊編輯的視角將缺陷的解決引入期刊實踐工作之中,最終提出學術期刊需要與技術提供方進行良性互動,讓系統的發展成果能夠真正輔助期刊編輯鑒別AI 代寫行為并合理利用AIGC 的優質內容。由于經濟成本與篇幅原因,本研究未能獲取更多學科的檢測樣本,也未能使用更多的檢測系統獲取更多的檢測數據,使得研究在大規模的統計學意義上缺乏更加可信的數據結果。此外,由于難以獲取有關檢測系統更為詳細的公開技術信息,對于技術原理的分析存在一些只基于技術邏輯但未經現實檢驗的推測,有待于系統技術人員的進一步證實。未來期待在多學科、多場景、多環節的AI 文本檢測領域繼續推進該主題的研究。
延伸閱讀:在學術出版中合理利用AIGC技術
2024年4月,知名期刊《自然》(Nature)的專欄文章《ChatGPT 通過三種方式幫助我進行學術寫作》(Three Ways ChatGPT Helps Me in My AcademicWriting)引起學術界的廣泛關注。文章提出AIGC 可以為學術出版提供以下三點幫助,但要提供精確的指示。
第一,潤色學術寫作。作者使用AIGC 來完善論文某個部分時,可先概述上下文,再使用如下指令:我正在為一份【學科】學術期刊寫一篇關于【主題】的論文。我在以下部分試圖表達的是【具體觀點】。請重新措辭,使其更加清晰、連貫和簡潔,確保每個段落之間的流暢銜接。使用專業術語。
第二,提高同行評審。專家在閱讀稿件后可以使用AIGC組織評審報告。如使用以下指令:根據我對【領域】中一篇關于【主題】的論文的總結,提供一份詳細的評審報告,順序如下:①簡要論述其核心內容;②指出論文的局限性;③給出修改建議。始終保持簡潔和專業的語氣。
第三,優化編輯反饋。AIGC 可以幫助編輯撰寫精確、可操作的審稿意見。如使用以下指令:根據我的筆記,起草一篇審稿意見。指出文稿的關鍵問題,并解釋為什么盡管文稿的選題有一定意義,但由于無法提供足夠的借鑒參考價值而難以發表。請保持專業和尊重的語氣。
AIGC技術給學術出版帶來了挑戰,但也可以提高學術出版工作的質量。AIGC 技術可以輔助我們寫作、審閱和編輯文稿,并改善我們交流研究的方式。