張田勘
據英國《自然》雜志報道,2023年被撤回的研究論文數量已超過1萬篇,創下了年度紀錄。大部分被撤回的論文來自出版機構辛迪維,該機構已撤回的論文數量超過8000篇。此前,我國教育部科學技術與信息化司發布通知,決定在各高校開展撤稿論文的自查工作。
被撤回的1萬多篇論文可能只是冰山一角。根據《自然》雜志的分析,在過去10年中,論文撤回率(即每年發表的論文被撤回的比例)增加了兩倍以上。2022年,這一比例超過了0.2%,相當于每發表500篇論文就會有1篇被撤回。此外,全球公布的撤回論文總數已超過5萬篇,還有更多的論文被認定為論文工廠生產的造假論文,數量多達10萬篇,其中一些撤稿還在論證中。
引起論文撤回的原因很多,除了存在同行評議的缺陷和系統性操控之外,論文工廠生產的論文也是一個重要因素。論文工廠是指那些專門生產大量學術論文的機構,它們通過雇傭寫手撰寫論文,然后出售給需要發表論文的人或機構,以獲取高額利潤。這些論文即使沒有被閱讀,也會被作為綜述性文章統計,并被“洗白”成為主流文獻。雖然一些論文撤回是因為作者發現了研究工作中的錯誤,但是絕大多數撤稿都源于科研誠信問題。
還有大量混雜在正常論文中的造假論文尚未被發現,也未被撤回。從比例來看,目前的撤稿率是0.2%,但估計實際的論文造假率可能為2%,造假率是撤稿率的10倍。
另一篇發表于《自然》雜志的文章指出,在過去20年已發表的40萬篇科學論文中,約有7萬篇是在2022年發表的。在2022年發表的所有科學論文中,有1.5%~2%與論文工廠的“作品”非常相似;而在生物學和醫學論文中,這一比例最高,達到了3%,這說明生物學和醫學領域的論文造假率最高。
德國神經心理學家、《恢復性神經病學和神經科學》期刊主編薩貝爾進行了一項調查,得出了與《自然》雜志類似的結論。他使用論文造假檢測器對5000篇論文進行了驗證,在2020年發表的神經科學論文中,有34%的論文涉嫌抄襲,而在醫學類論文中,這一比例為24%。這些論文造假率遠高于薩貝爾預估的2%。薩貝爾在醫學預印本平臺(MedRxiv)上發表的報告還顯示,過去10多年,造假論文從逐漸增加到快速增加,2010—2020年,論文造假率從16%上升到28%。 在生物醫學領域,僅2020年就有30萬篇論文涉嫌造假。
近年來,高產研究人員大量增加,也從一個側面反映了論文泡沫化現象。美國斯坦福大學伊安尼迪斯團隊對2000—2022年斯科普斯數據庫(Scopus)中的文章進行了研究,發現高產作者的數量成倍增加。2016年以前物理學領域“極端高產”作者數量較多,但2016年以后該領域高產作者數量逐年下降;與此同時,非物理學領域此類作者的數量卻持續增加。除了物理學以外,大多數高產作者來自臨床醫學領域,到2022年,該領域已有近700名高產研究者。農業、漁業和林業是高產研究者數量增長速度最快的領域,從2016年到2022年增長了14倍。僅在2022年,非物理學領域就有1266名作者每5天發表一篇論文。相比之下,2016年只有387人這樣高產。
科學研究是追求真理的人類行為,大量論文造假導致的泡沫不僅影響社會文明的提升和經濟的發展,還可能對人們的健康和生命安全構成嚴重威脅。正如薩貝爾所言,如果30%的論文都是偽造的,那就意味著人們所接觸到的信息中有30%是不可靠的,甚至是有害的。
那么,為什么會出現大量的論文泡沫呢?利益的誘惑是根本原因—偽造論文能夠獲得豐厚的收入。在全球各種網站和社交媒體上,充斥著大量論文工廠的小廣告。這些論文工廠甚至承諾能夠將論文發表在頂級學術期刊上,根據論文的難易程度收取費用,每篇1000~25000美元。據估算,如果每篇造假論文的均價為1萬美元,那么論文造假行業的年營收可能高達30億~40億美元。論文工廠雇傭的論文寫手主要為科學領域的學生、學者和顧問,他們極為高產。一些論文工廠甚至宣稱自己擁有數百名寫手,每個月能夠穩定產出超過100篇可發表的學術論文。
從時間段上看,高產作者的數量和產出率在2014年開始趨于穩定,但近期卻突然增加。這表明高產作者極有可能利用了以 ChatGPT為代表的生成式人工智能工具。
這些人工智能工具為眾多論文工廠提供了幾乎是零成本的生產工具。他們可以使用人工智能技術(如文本生成、數據統計、圖像處理等)“生產”論文并使其看起來更真實,甚至一些科研人員也借助ChatGPT撰寫論文。
盡管科學界和出版商希望能夠檢測出所有由大型語言模型(LLM)生成的文本,但迄今為止,人工智能檢測工具還無法可靠地識別由LLM生成的論文。一些研究團隊正在致力于研發能夠為所有LLM產品添加水印的技術,然而目前尚未有相關軟件問世。因此,在揭露和打擊論文泡沫方面,一些研究人員認為應該對人工智能產品進行立法,例如,對LLM產品進行披露或添加水印,并將刪除水印視為非法行為。此外,薩貝爾還建議將任何提供非學術電子郵件地址的文章視為可能是論文工廠的“作品”而加以標記。
人工智能正在改變世界,因此需要對人工智能工具的使用進行引導并制定規則,從而減少論文造假和撤稿的情況。一項對100家出版商和期刊進行的研究發現,截至2023年5月,約17%的出版商和70%的期刊已發布了關于如何使用LLM的指導方針,但這些指導方針在很多細節上存在差異。因此,未來可能需要國際社會制定一套統一的指導方針和準則,以幫助研究人員報告他們使用人工智能工具的情況,并區分原創內容和人工智能生成內容 。這將有助于確保學術界的誠信和公正性。
【責任編輯】張小萌