兩種中文文獻檢測系統在實際工作中的比較分析研究*

2016-03-17 17:57:41范曉鵬劉潔云浙江工商大學杭州310018

高校圖書館工作 2016年6期

●王倩范曉鵬劉潔云項珍 (浙江工商大學杭州 310018)

●王倩范曉鵬劉潔云項珍 (浙江工商大學杭州 310018)

如何阻止學術造假，端正學術風氣已經成為當前學術界迫切需要解決的問題。目前國內很多機構都開始使用各種文獻檢測系統應用于論文審核的工作。文章分析了國內主流的兩種文獻檢測系統，并對它們進行了比較，指出因系統的差異性而導致的實際工作中所出現的問題及如何回避或處理這些問題，為檢測員的論文檢測工作提供了幫助。參考文獻7。

文獻檢測系統論文檢測學術不端學術造假行為

1 國內主要文獻檢測系統概述

文獻檢測系統，是一些大型的學術出版機構以自身所擁有的龐大的數字資源為數據支撐，開發出的用以檢測論文內容是否抄襲的輔助性工具。國外著名的檢測系統有Tumitin、CrossCheck、SafeAssign、PERK等等［1］。而國內的一些數據商也相繼開發出中文檢測系統，包括中國知網學術不端文獻檢測系統、萬方論文相似性檢測系統、維普通達論文查重系統、PaperRater論文檢測系統等。其中以中國知網學術不端文獻檢測系統(下簡稱知網系統)和萬方論文相似性檢測系統(下簡稱萬方系統)這兩種檢測系統開發和進入市場的時間最早，影響范圍最大，技術也最為成熟。

1.1 中國知網學術不端文獻檢測系統

由中國學術期刊(光盤版)電子雜志社與同方知網(北京)技術有限公司研發的多語種圖文抄襲檢測系統，2008年底正式推出。該系統可為全國各行各業在學術出版、論文答辯、科研項目審批和鑒定驗收、學術職稱評定等項工作中防治學術不端行為提供專門的信息咨詢服務［2］。現在由最初的單一檢測版本發展為多個，可分別為學位論文、期刊文章、人事評審、工作報告等做專門檢測。

1.2 萬方論文相似性檢測系統

由北京萬方數據股份有限公司基于萬方海量學術文獻資源所開發，2010年推出。該系統能對學術成果進行相似性檢測，并提供客觀詳實的檢測報告，為學術出版、科研管理、學位論文管理等提供支持［3］。目前從客戶端檢測過渡到了遠程平臺檢測，并根據用途分為了新論文檢測和已發表論文檢測，最近又新增了大學生論文檢測入口。

這兩種檢測系統雖然同時發布了多個不同用途的版本，但是同個系統之間有不同版本所用底層技術與數據量都是同出一源，只在界面上做了一些開發。所以本文只選取兩種系統各自發布最早、使用最多的兩個版本：知網的學術不端文獻檢測系統5.0與萬方的新論文檢測系統，以這兩個版本為例，來說明兩個系統的區別，以下即簡稱知網系統和萬方系統。

2 兩種檢測系統的特點

2.1 擁有海量文獻比對資源

文獻檢測系統檢測結果的精準度與后臺作支撐的數據量覆蓋范圍有關，檢測時所比對的資源越豐富，數據量越多，系統所得到的檢測結果就越精確。這兩種檢測系統是國內排名前列的兩大學術出版機構所開發的，其文獻資源從數量和種類都十分豐富。

知網系統的文獻資源覆蓋了國內絕大部分的中文期刊報紙、中文學位論文、專利數據庫，還收錄了有合作關系的港澳臺文獻和國內出版的圖書資源，網上的優質免費資源(包括博客、豆丁、百度文庫)等。除此之外，知網檢測系統還與其它外文庫如Springer、Taylor＆Francis合作，收錄了一部分英文文獻，使外文論文的檢測也變為可能。

萬方系統的文獻資源涵蓋了萬方數據公司所收錄的中文期刊、中文學位論文、中文會議論文、網頁資源等。截止到2015年11月，其比對庫文獻的數量達3 400多萬篇。

2.2 擁有強大的檢測技術

知網系統采用基于數字指紋的多階快速檢測方法，對用戶指定的文檔做數字指紋，與相關文檔指紋比對，按照文檔類型與內容特征不同，支持從詞到句子、篇章級別的數字指紋。相似字符串檢測閾值根據用戶需求可調，以獲得用戶希望的最佳檢測結果［4］。該系統還提供了去除本人文獻檢測結果，無論受檢方是受檢論文的第幾作者，均可排除同名作者的相似文獻。

萬方檢測系統基于滑動窗口的低頻特征部分匹配算法，可以批量檢測，可處理多種格式的文獻，支持斷點續傳續檢，并能智能識別出參考文獻，進而輔助排除第一作者的自引情況。

2.3 系統操作與管理便捷易懂

兩種系統均以創建組來對檢測任務進行管理，知網支持在線創建虛擬文件夾功能，在同一文件夾下的任務都具有同一檢測條件，如檢測時間范圍，檢測子庫范圍等。相較之下，在萬方系統中，未發表論文檢測的創建組功能，雖然便于對文獻進行分類檢測，但是欠缺更細化的檢測條件限定。在管理檢測報告上，兩種系統都能批量地下載報告，還可對報告進行一些統計分析，對檢測工作進行回顧和總結。

知網的管理員賬號下可以下分子賬戶，一個管理員下最多可分為20個子賬戶，管理員可以劃分下屬子賬戶的工作權限，并可以檢查子賬戶的論文檢測結果，便于了解與掌握子賬戶的工作情況。

萬方系統的賬戶采用分級管理，可以控制賬戶的權限，并與其它既有系統集成，例如，高校將其與本校的論文管理系統集成，使兩個系統的功能都得到增強與互補。而出版社則將其與原有的投稿審稿系統集成，可以加快稿件的初步篩選工作。

3 兩種檢測系統的局限性

3.1 文獻格式限制

兩種系統均支持多種主流的文獻格式 doc、docx、txt、pdf等。但知網系統還支持其自有格式caj、kdh、nk格式的文獻上傳。經實際測試，將同一篇文獻，用從知網數據庫主站下載的自有格式文獻與其它數據庫中下得的包括pdf在內的其它格式在知網檢測系統中檢測，結果證明，上傳知網格式所得到的文字復制比數值更精準。而將同一文獻的不同數據庫存儲的通用格式在萬方系統的檢測結果，精準度最高的則變成萬方數據庫的通用格式文獻。兩種系統的檢測結果都說明，不同的文獻格式在兩種檢測系統中得到的檢測結果會產生差異。

3.2 字數限制

知網系統以字符為計算單位，與計算機學的定義不同，所謂的字符數包括了中文字符與標點符號等非中文字符的計數，其漢字、數字、英文字母、標點都算一個字符。知網系統一次上傳文獻最大字符數為300 000，也就是說理論上最多一次性可以上傳30萬字的文獻。

萬方系統是在上傳文獻限制為10M之內，理論上計算出它一次上傳的最大字數為5 242 880，但這種限制更多是在上傳文件的大小上，即字數限制是可以用文件格式轉換等方法來規避。

字數的限制讓圖書、學位論文等文獻的檢測變得復雜，一些字數長的文獻需要分為多個文檔進行上傳。但出現多人合寫，各自負責章節的情況，就可以較為明晰地判斷出侵權的具體責任方。

3.3 上傳方式的限制

知網系統支持對從電腦本地上傳受檢論文，但若在撰寫時使用了輔助軟件如Spss、ChemBioDraw、Origin等，或使用了大量的圖片、表格，相對的中文字數較少，這些文獻在上傳時易被系統判定為文獻字數過短而無法檢測。

萬方系統較知網系統而言，其上傳方式更為多樣化，除本地上傳外，還提供在線查找論文的功能，自動搜索與后臺數據庫中錄入信息相匹配的文獻，保證了文獻來源的可靠性。另外還提供了直接粘貼文本至網頁的上傳方式，可以避免檢測已發表文獻時，出現多余的非該篇文獻內容的弊端。

3.4 比對范圍的局限性

兩種檢測系統的比對資源都以中文的論文資源為主，但是實際上為了提高市場競爭力，知網和萬方都偏向與各個出版社簽署獨家使用協議，買斷該刊物的電子版權。這就造成了兩個系統所依仗的數據庫資源的缺失，造成檢測結果的偏差。同樣因知識產權的原因，檢測系統比對范圍不能將中外文圖書、外文論文資源特別是非英語類的外文學術成果都包括。

通過對比兩種檢測系統，我們發現它們由于各自設計理念的差異、數據庫資源覆蓋側重等各種主客觀原因，在實際應用中也表現出很大的區別。檢測機構需要針對檢測系統的特點和自身的檢測需求來選擇相應的檢測系統。例如，萬方系統對學位論文的檢測可能更能做到系統化的管理，而知網系統更加適用于對團隊型學術成果文獻的檢測等。而檢測員如果發現選擇的檢測系統在實際應用中與自身檢測需求不甚相符，那就需要在檢測時根據檢測系統的性能來進行相應的設置與調整。

4 檢測工作應注意到的問題

4.1 注意受檢文獻的來源，根據所使用的系統選擇檢測文獻的格式與方法

盡管兩種檢測系統都支持多種格式的檢測，但檢測員在檢測時應設定默認的文獻格式，筆者推薦以大部分數據庫支持的doc或pdf格式。如果是對已發表文獻的檢測，為保證其來源可靠性，受檢文獻應優先從檢測系統的數據庫中查找并下載。如果該數據庫未收錄，則再從其它數據庫中下載。檢測員要確認受檢文獻內容與發表的紙本完全一致，不要輕信他人所提交的來源未知文獻。若是對未發表文獻或是已發表但數據庫中尚未收錄的文獻檢測，可以讓受檢者提交word版的論文文檔，但受檢者須作出責任聲明，確保該文為發表的最終定稿。若之后發現文獻有出入，則將被視為學術不端行為來處理。

4.2 部分學術造假手段需要第三方進行審核和監督

由于系統目前存在一些不足，一些學術造假行為，如數據篡改、圖表抄襲、將外文論文翻譯成中文后重復發表等行為都無法使用檢測系統甄別出來。在論文審核工作中，使用文獻檢測系統只是進行初步篩選，并不代表論文審核工作的完成。之后通過系統初選的文獻還需要同行專家評審，建議論文檢測工作參考目前編輯出版所普遍采用的雙向匿名評審制度［5］，請第三方匿名的專家參與文獻檢測工作。審核方還要在檢測工作完成后公示審核通過名單，開通申訴渠道，便于公眾監督舉報。

4.3 對待系統自動生成的檢測結果，需要加入適當的人工干預

在實際的檢測過程中，筆者發現有以下情況之一出現時，不能簡單地依靠系統智能分析，必須加以辨別：

(1)無參考文獻或引注不規范的論文。長期以來，學術界大部分人對于論文引注都視為細枝末節，統一的引注規范出臺很晚。到了上世紀90年代，問題日益突顯，對判定某篇論文是惡意抄襲還是過度引用的問題上，許多學者各執一詞。在檢測發表時間較早的文獻時，其引注普遍存在不規范的現象，檢測結果誤差較高。特別是在文藝性通俗性較強的報紙和雜志，往往受到版面限制，本身對參考文獻要求較低或者根本不作要求，導致發表在這些刊物上的文章檢測結果大都不太理想。此外，一些文章的腳注和文中引注也常被誤判。

(2)同一作者進行的有延續性的團隊型研究成果。作者發表文章，主旨在于闡述自己的學術觀點，即是作者對自己所獲取的知識的深度思考與總結。論文就是捍衛自己理論成果、延續自身科研活動的證明。作者自引是一種合理的文獻使用，不屬于學術不端。雖然一般情況下不會產生學術糾紛，但如果該作者發表的文獻是屬于所參與團隊的科研成果，除排除作者本人的著作之外，檢測員還應將團隊成員發表的相關文獻也考慮在內。

而對于自引的排除，檢測員還要注意這樣一種學術作假情況：惡意冒認或抄襲同名作者科研成果。檢測員在檢測中要考慮到作者重名的情況，需要通過論文發表時附后的作者簡介、工作單位等信息來判斷。

(3)綜述型論文。對原始文獻觀點提煉和總結所寫出的綜述型論文，與一般學術論文相比，其引用文獻的內容與數量都比較多［6］。綜述型論文的這種特點造成在論文檢測中，綜述型論文的文字相似值要遠高于一般學術論文。而這種情況的出現需要檢測員對文章進行詳細的內容甄別。

(4)權威性文獻集中的專業。一些專業如法學、馬克思主義哲學、歷史學等，在撰寫這類論文時需要引用大量的文獻原文，但這些引用文獻并不涉及知識產權等問題而常被作者忽視，檢測系統也經常誤判致使檢測結果數值增高。檢測員在檢測時需要認真核查全文，凡是內容涉及政府公開的報告、文件、法律法規、史料文獻、定義定理等信息，即使作者未加以標注，也應當作為參考文獻來對待。

(5)出現參考文獻相同的文獻耦合關系。文獻耦合是指若兩篇論文同時引用一篇或多篇論文的情況，即這兩篇論文有共同的參考文獻。目前文獻檢測系統可以根據上傳文章的參考文獻判斷出現在文章正文中的引用，但是無法分析出兩篇參考文獻相同的情況，造成檢測的文章的參考文獻經常由于文獻耦合而被誤判。在這種文獻耦合關系發生時，進行人工干預必須給予特別注意。因為目前的兩種檢測系統，對被誤判的文字部分，只能以去除對比文獻的方式來降低數值，這種數據糾正方式很可能導致與所去除文獻的其余相似部分也一并去除。例如，檢測論文A，與論文B的比對結果是有30%的文字重復，但其中A與B存在5%的文字是共引于另一篇文章C，但若要去除這5%的數值誤差，只能選擇人工干預，將論文B從比對庫中去除，但這樣會把B剩余25%的相似文字一并刪除，最終檢測結果卻造成了近25%的數據誤差。

以上5種情況都是檢測時比較常出現的需要進行數據糾正的情況。最為合理的數據糾正方式應是可以將該處文字直接判斷為合理引用，系統可以自動統計出這一部分的重合字數，但目前的兩個系統都缺乏這一功能，意味著檢測工作不是簡單的一檢了之，人工干預必須存在。

4.4 謹慎使用系統的輔助及其新增功能

一般來說，系統升級所新增的功能通常為解決實際應用中出現的問題而增設的，但因檢測員對其不熟悉而出現效果倒退現象也較為常見。另一方面，對新增功能的使用還可能容易導致檢測標準與往年不統一的情況，因此要經實際測試并深入了解后再決定是否使用。例如，知網系統的跨語言檢測和中文繁體文獻的檢測，萬方系統從新論文檢測中劃分出的學位論文檢測項等。

4.5 要制定正規公正公平的文獻檢測系統使用規范

檢測機構需要對文獻檢測系統制定相應的使用規范。論文檢測其本意應是端正學術風氣，而一旦濫用或誤用都會造成與本意截然相反的結果。一些不法機構及個人用戶也可能以此牟利，掩蓋學術不端行為，成為學術不端的保護傘。所以針對受檢方的檢測要求，檢測機構需要謹慎操作，以公平公正的原則，嚴格按規定流程進行，對檢測結果反復審核，出具準確的檢測報告，并按照規定交由受檢方作最終處理。檢測員需要有良好的道德水準與行為準則，除受檢方外，不得隨意向他人透露檢測結果［7］;檢測機構及檢測員不可使用該系統牟取商業利益。檢測機構應嚴格管理賬號并定期核查系統的操作日志。

5 對文獻檢測系統及檢測工作的一些思考

兩種文獻檢測系統都各有特色，但還存在著一些缺陷，檢測結果的誤差可能長期都無法得到根本性的解決。檢測機構和檢測員應把檢測系統做為一種輔助的文獻審核工具，把檢測結果作為判斷的參考依據，不能完全依賴其給出的檢測結果。

對于將論文檢測系統應用到學生的學位論文檢測、師生投稿文獻方面，要防止出現“倒果為因”現象，將檢測出現的問題進行修飾后從而通過檢測系統，使檢測工作不但未起到端正學風的作用，還助長了學術不端行為，背離了檢測方的本意。

檢測機構還要注意照顧受檢方的心理，給出檢測結果時，表達態度與行為舉動要充分考慮到受檢方心理的承受能力，防止因受檢方心理素質不過關而出現的過激行為，造成負面的不良影響。

無論是哪種文獻檢測系統，都是一把雙刃的利劍，關鍵是在于運用它的人。檢測者應握起它來捍衛學術，最終讓它成為學術界的達摩克利斯之劍，還學術界一個清新安寧的科研氛圍。

［1］張旻浩，高國龍，錢俊龍.國內外學術不端文獻檢測系統平臺的比較研究［J］.中國科技期刊研究，2011(4)：514－521.

［2］學術不端文獻檢測系統宣傳冊.［EB/OL］.http：//check.cnki.net/downloadfile/.［2014－01－13］.

［3］萬方數據相似性論文檢測.［EB/OL］.http：//check.wanfangdata.com.cn/.V.［2014－01－13］

［4］學術不端文獻檢測系統用戶手冊.［EB/OL］.http：//check.cnki.net/Article/downloadf/Index.html.［2014－01－13］.

［5］周莉華.取舍之間：如何正確判斷學術不端及專家意見［J］.出版發行研究，2013(3)：79－81.

［6］朱大明.研究型論文與綜述型論文引文量的對比分析［J］.編輯學報，2010(1)：33－34.

［7］譚華，崔潔.學術不端文獻檢測系統的使用建議［J］.編輯學報，2010(2)：153－155.

(賴寧編發)

Comparative Analysis Study of two Chinese Literature Detection Systems

Wang Qian Fan Xiaopeng Liu Jieyun Xiang Zhen
(Zhejiang Gongshang University，Hangzhou，Zhejiang 310018，China)

It is an urgent problem to prevent academic fraudulent practices and offer good academic atmosphere in present academia.Many domestic institutions have used different literature detection system in paper detection.The paper analyzes and compares domestic two mainstream literature detection systems and points out what should be paid attention to during detecting so as to help checkers to check papers.7 refs.

Literature detection system.Paper detection.Academic misconduct.Academic fraudulent practices.

G25

1003－7845(2016)06－0049－04

王倩，館員，范曉鵬，副研究館員;劉潔云，副研究館員;項珍，館員;現在浙江工商大學圖書館工作。

2016－03－20

* 本文系浙江工商大學2015年高等教育研究立項課題“高校論文檢測系統的應用與實踐研究”(項目編號：xgy15079)研究成果之一。