李娜娜,李 爽,李 楊,李銀平
(1.天津市第一中心醫院 《實用器官移植電子雜志》編輯部 天津 300192;2.天津市天津醫院 《中華危重病急救醫學》雜志社 天津 300050)
近年來,學術不端的行為屢見報道,2015年英國出版商現代生物出版集團撤稿生物醫學論文 43篇。2017年,施普林格出版集團撤銷《腫瘤生物學》期刊論文107篇[1],此次撤稿事件在學術界引起軒然大波,不僅刷新了全球學術期刊一次性撤稿論文數量的紀錄,更是首次將科研誠信問題推至風口浪尖。尤其在我國,科研誠信得到了前所未有的重視,科研誠信危機浮出水面。加強科研誠信建設,提升學術道德水平,已成為我國學術界一項刻不容緩的重要任務。
當前,隨著知識大爆炸時代的到來,人工智能(Artificial Intelligence,AI)、“互聯網+”、數據挖掘、深度學習正在融入我們的生活,同時對傳統行業提出了挑戰。國務院于2017年7月頒布了《新一代人工智能發展規劃》的通知,明確指出要全面貫徹、深入學習習近平總書記系列重要講話精神和治國理政新理念、新思想、新戰略,將提升新一代AI科技創新能力作為未來發展的重要戰略方針,構建 AI科技與社會和諧發展的創新體系,爭取到 2030年,我國的 AI理論、技術與應用總體可以位于世界領先地位[2]。AI是研究、開發用于模擬人的思維過程和行為的學科,該領域的研究包括機器人、音頻識別、語言輸入及處理等。隨著以數據挖掘、深度學習、互聯網為基礎的 AI時代的到來,人們逐步感受到了其帶來的沖擊和影響。作為發表重要科技成果、知識與信息傳播及引領輿論導向的重要行業[3],出版業一直是與人們生活密切相關并緊跟科技潮流的行業,尤其是期刊領域,在人工智能不斷崛起的背景下,各種智能科技已開始逐步被應用,未來將進入智能出版時代[4]。因此,利用大數據挖掘、機器深度學習、VR/AR、人機交互等工具進行學術不端檢測,逐漸成為新的趨勢。
目前,學術不端行為檢測系統是各出版社甄別學術不端的主要工具。與國內相比,國外的檢測系統起步較早,反抄襲技術相對成熟。Turnitin檢測軟件創建于 1998年,是目前全球最權威、使用最多的英文檢測軟件[5],支持中文、意大利文、法文、英文等多種語言。在我國,中國知網在2008年開發的AMLC系統是目前國內期刊出版單位使用最多的檢測系統,其優點是檢測速度快、準確率高、抗干擾性強,支持的文件格式多樣。隨后萬方數據庫和維普資訊也相繼推出WFSD系統及WPCS系統,相比AMLC系統,這2個系統都支持個人使用。WFSD的優勢為算法精準科學,報告詳實全面;WPCS的優勢為檢測資源豐富,有創新性檢測指標。北京智齒數匯科技有限公司針對大部分高校畢業生推出了 PaperPass檢測系統,其比對指紋數據庫由 9000多萬種學術期刊和學位論文、超過10億的互聯網網頁數據庫組成[6]。
以上4種是目前我國使用比較普遍的檢測系統,但仍然存在諸多問題:①各個系統存在檢測差異;②數據庫中的論文存在滯后性或缺失;③檢測算法不夠智能;④不能區分合理的自引、他引或抄襲;⑤不能檢測論文中的圖片、圖表抄襲。
這些問題已存在許久,但是隨著 AI、“互聯網+”、AR/VR等新興技術的崛起,信息傳播更加智能、精準,智媒時代已經開啟[7],AI與文化產業的交集逐漸擴大,為 AI在學術不端行為檢測中的應用提供了可能,其中的跨語言檢測技術和語義識別技術可幫助檢測軟件有效解決“思想抄襲”的問題[6]。
想在海量的論文中分辨出相似、相近文章以及判斷文章的價值,需要一個龐大的數據庫系統。因此,未來將利用AI、機器學習、深度學習不斷擴大和完善數據庫。機器學習指用算法解析數據,通過學習對周圍發生的事做出判斷、預測;深度學習是實現機器學習的一種技術,利用人工神經網絡(Artificial Neural Network,ANN)實現,它的構想源自于大腦的神經元,擁有獨立的層、連接以及數據傳播方向。每一個神經元會對輸入的信息進行權衡,確定權重,搞清它與所執行任務的關系,比如有多正確或多么不正確,最終的結果由所有權重來決定[8]。
數據庫系統與AI系統是相輔相成的,AI系統使用大量標準的算法去執行搜索與推理、高效檢索訪問以及管理海量數據庫。數據庫技術中引入AI,實現了兩者的完美結合:數據庫智能化和智能化數據庫。數據庫智能化,就是將數據庫系統作為 AI系統,利用AI技術實現數據庫系統的智能表達、推理和查詢功能;智能化數據庫表現為數據庫定時自我更新的功能,使其具備一定的翻譯、推理功能,提高系統的智能化程度[9]。目前,國內的 AMLC、WFSD、WPCS、PaperPass等系統均不能達到智能化效果,同時還存在數據庫不穩定、更新不及時、缺乏外文以及小語種文獻、覆蓋范圍不全面、缺乏網絡或會議發表文章等問題,不能將同一作者、導師、單位進行歸類,在文獻檢測的時候,通常不能排除同一作者的文章。另外,各系統缺乏數據共享平臺,不同系統的檢測結果無法進行共享對比。出版巨頭愛思唯爾誠信部門主管也表示,出版商需要創建一個共享的數據庫,以便進行相關檢索,查實論文圖片重復使用的情況。而 AI不僅能建立完善的數據庫系統,甚至構建數據共享平臺,為學術不端檢測打造扎實的基礎。
在文章相似性檢測中,圖片的相似性檢測往往是最困難的,因為目前沒有任何一個軟件或算法能夠準確分析2張圖片的相似性,尤其是在作者刻意進行修改的前提下。在中國,論文文字查重體系一直到2005年前后才建立。后來,人們又不斷優化這個系統,從能識別“復制粘貼型”抄襲,到能識別改變用詞和句法的抄襲,但圖片重復一直是論文查重的死角[10]。在過去,圖片審核的工作往往需要人力完成。Nature雜志會對收到的稿件隨機抽樣進行檢查,并要求作者提供未編輯的圖像作參考;《細胞生物學雜志》和《歐洲分子生物學組織雜志》也是對圖片進行手工查重。手工查重不僅耗時、耗力,更重要的是效率低,甚至檢測不出,以至于多數刊物都沒有采用這項流程。
2018年億歐智庫發布的《2017人工智能+內容生產研究報告》中提到的“圖像相似性檢測”或許將帶來新的希望。近 2年,在 AI芯片和服務器集群逐步完善,算力越發強大的基礎上,無監督學習、深度強化學習、遷移學習、生成對抗網絡等算法的研究繼續深入,在文本處理、音頻處理和圖像處理方面持續取得突破。將這一技術用于文章相似性檢測的想法,很快就實現了。同年,美國紐約雪城大學的研究員丹尼爾·阿庫納等研發出一套算法,可以利用 AI識別學術論文中的圖像造假,對論文圖片進行查重。他們檢測了 76萬篇論文,并從中提出有效圖片 263萬張。其中,約 9%的圖像存在高度重復,該團隊又在其中選取了約4000張可疑圖片進行人工核查。經測算,在所有論文中,約 1.5%存在學術不端的嫌疑,0.6%確認存在圖像方面的論文造假。
現有的檢測系統只能粗略檢測大段的文字復制,無法對篡改、偽造進行檢測,并不能根據語義、語境、同義詞、近義詞等進行檢測。中文博大精深,如果作者刻意對語言文字進行修飾、篡改,現有檢測系統是不能及時發現的。自然語言處理(Natural Language Processing,NLP)是利用計算機對人類自然語言信息進行處理和加工,最終實現人機對話的理論和方法[11]。目前,NLP與 ANN技術被應用于學術不端檢測,大幅提高了編輯的效率[12]。無論字還是詞組,在形式上都可從發散或收斂、分或合,來產生或排除相應的形式歧義,形成涉及形式語義的判定。另外,由于年代、方言和人際的種種復雜因素,其交叉重疊的內容與形式之間增加了無數歧義,很多文章難以判斷,而 AI可以很好地解決這一難題。
此外,另一個檢測難點為外文翻譯,某些作者提交的文章是直接翻譯外文文獻后拼湊而成,目前各大檢測系統尚無法識別這種類型的文章。但是隨著 AI的發展,AI翻譯也逐漸變得簡單、便捷。AI翻譯是指通過計算機等芯片軟件,基于規則的機器翻譯,根據統計規律來進行翻譯,這是通過詞典和規則庫來構成知識源,以一定的規則為基礎來進行的翻譯。隨著AI的發展,基于 ANN的機器翻譯誕生,通過深度神經網絡,自動地在數據庫中學習翻譯知識,通過理解源句子,經過復雜的推導運算和學習計算,生成流暢且符合規范的譯文。這種基于ANN的機器翻譯實現了學習功能,從各個方面使人工智能翻譯取得質的飛躍[13]。而文獻檢測系統可以利用這一技術,檢測中文文章與外文文獻的相似性,進一步杜絕不勞而獲的現象。
總之,學術期刊作為把控學術論文真實性的重要環節之一,深刻影響了國內學術環境的學術誠信。科研人員及科研單位作為源頭,更應充分了解國內學術誠信現狀和學術態度的影響因素,加強學術誠信建設,以提高論文的質量和可靠性,提高我國學術誠信和國際影響力。在當今人工智能迅速發展的時代,“互聯網+”、AI、數據挖掘等已經為我們的生活帶來了許多便利,積極擁抱人工智能帶來的變革,探索利用人工智能促進學術誠信建設的新方法,將會為學術期刊發展帶來新的動力。