文/趙曉蘭
近年來,學術界虛假浮躁之風盛行,學術不端事件時有發生。據中國學術期刊(光盤版)電子雜志社學術不端檢測研發部門于2009年檢測統計,在3200家學術期刊上傳的92萬多篇文獻中,僅文字重合率在30%以上的就高達近10萬篇。[1]“國際學術期刊《晶體學報》聲稱來自中國某大學兩位教師至少70篇論文被證明是偽造的;英國《自然》雜志報道,中國某期刊發現31%的投稿存在抄襲;國內多家媒體披露,一篇醫學論文遭16個單位25人6輪連環抄襲”。[2]學術不端行為因其嚴重程度的不斷加深,已經脫離了學術領域而成為公共話題,科學道德問題受到了廣泛關注。學術不端的高發現象將科研機構、高校以及學術期刊推向了輿論的風口浪尖,運用技術手段防范學術不端,研制一種能夠幫助學術期刊、高校、科研機構進行全文快速比對查重的檢測軟件勢在必行。
在國際上,20世紀70年代就開始了利用技術手段檢測不端行為的研發工作。90年代以后,提出了數字指紋等檢測方法,并得到了應用,如論文作業抄襲檢查平臺turnitin,研發后應用于多所高校及科研機構,包括美國加州大學伯克利分校、杜克大學、德國漢堡大學等;加拿大sciworth公司開發的mydropbox,提供學生作業抄襲檢測服務;mydropbox使用微軟搜索技術,可以檢測互聯網資源、可公共存取的部分數據庫資源以及機構內部文檔,等等。[3]
隨后,我國的研發工作也陸續展開,最具代表性的是中國學術期刊(光盤版)電子雜志社與同方知網公司的共同研發。他們首先建起了《中國學術文獻網絡出版總庫》,該數據庫收錄了包括期刊論文、學位論文、工具書、年鑒、報紙、專利等在內的多種文獻,覆蓋了工程技術、信息技術、自然科學、農業、醫學、哲學、人文社會科學、經濟與管理等各個領域。它還是世界上最大的連續動態更新的全文數據庫,并成為隨后研制的學術不端文獻檢測系統的比對數據庫。2006年下半年,中國學術期刊(光盤版)電子雜志社與同方知網公司開始合作研制學術不端文獻檢測系統,這“是一個系統工程,涉及檢測方法設計、比對數據庫建設、規范數據庫建設、大規模數據測試、系統性能測試等多個環節。”[4]2008年12月,學術不端文獻檢測系統開發完成,研發者宣布將在各相關機構開放使用。
學術不端文獻檢測系統的比對數據庫為《中國學術文獻網絡出版總庫》,檢測時輸入任何一篇文章,就能同數據庫中的所有文章進行比對,從而發現這篇文章跟數據庫中的哪篇文章、哪些句子是重復的。它還是世界上第一個以全文文獻為比對資源的檢測系統,國外的檢測系統基本上是題錄摘要的檢測而非全文檢測。學術不端文獻檢測系統可用于期刊審稿、學位論文檢測、職稱評定、項目立項評審、項目驗收評審和報告審查等方面。為了從多個角度反映文字復制情況,檢測系統設計了總重合字數、總文字數、總文字復制比等多個檢測指標。而對于篇幅較大的學位論文,除了設置總檢測指標,系統對每一章節都設定了文字復制比、重合字數、引用復制比、段落數、最大段長等多個子檢測指標,用以檢測每一章節的復制情況。
該檢測系統面世后,迅速地被各相關機構采用,不少機構還以公告形式宣布啟用該系統。例如《浙江大學學報(人文社會科學版)》,在檢測系統剛面世的2008年年底,就正式建立了該系統的使用賬號,在全國社科期刊中率先采用了這一系統,通過檢測后的論文才能進入下一輪的專家審稿流程。《中國腫瘤生物治療雜志》宣布:“稿件審查過程中,本刊編輯部將采用‘學術不端文獻檢測系統’,通過大量國內外學術文獻的全文比對,對稿件進行學術不端行為的檢查。”[5]目前,我國大部分學術期刊已使用該軟件對來稿進行不端檢測,高等學校、科研機構等也廣泛采用了該系統。
以學術不端文獻檢測系統為標志的反剽竊軟件的出現,反映了人們希望凈化學術生態環境的良好愿望。然而,學術不端是一個非常敏感的話題,以技術手段檢測學術不端行為是個更為敏感的話題。系統投入使用后,迅速引起各方的強烈反響,人們有著許多不同的看法。“這個‘檢測系統’還沒正式應用,它的準確性和科學性便受到一些老師和學生的質疑,繼而引發了一場爭論。”[6]雖然學術不端文獻檢測系統的范圍包括期刊論文、學位論文、職稱論文、項目評審等多個領域,但目前對檢測系統進行學術研究的多為期刊編輯,所以熱烈的學術討論也基本在期刊編輯中展開。
不少期刊編輯認為,檢測系統為防范與抵制學術不端行為提供了行之有效的技術手段,它是學術失范的克星,他們將檢測系統稱之為“學術不端行為測試儀”。該軟件具有搜索速度快、精確度高、范圍廣泛的特點,通過它編輯能夠快速掌握被測文獻的信息,給學術期刊帶來了巨大的應用價值。“在已發表的論文中,研究者無一例外首肯了學術不端文獻檢測系統的使用,有效地防止了一批抄襲、剽竊、偽造、篡改、不當署名、一稿多投文章的發表;與以往檢測文章的方法相比較,其方便、快捷、高效的優點是顯而易見的。”[7]
在學術不端文獻檢測系統誕生之前,編輯要將來稿在海量的學術論文中進行查重比對。查找學術不端證據難度較大,要對每一篇來稿都進行學術不端方面的檢查幾乎是不可能的。編輯只能對某篇有懷疑的稿件進行查證,而查證的主要方法是根據題目、關鍵詞等在數據庫中進行檢索,如果作者將題目、關鍵詞進行改變或者替換,就很難驗證查找了。學術不端文獻檢測系統完全改變了這一狀況,該系統具有快速鑒別的能力,秒級響應速度,對一般的抄襲、重復發表等不端行為的檢測十分快速、精確、有效,論文從上傳至結果顯示,僅僅需要幾秒鐘。它還能提供具體的比對結果與抄襲百分比。有研究者認為,學術不端文獻檢測系統在學術論文審查過程中主要有以下幾方面作用:①在審稿中能快速檢測學術不端行為,特別是多源抄襲的論文,所有相似文獻與復制比例都能顯示出來。②判斷稿件修改情況,利用檢測系統,將論文修改前后的內容進行比對,輔助編輯對論文修改情況作出判斷。③利用檢測系統對參考文獻進行比對,有助于編輯核對參考文獻著錄的準確性。④通過查閱已發表文獻檢測報告,了解投稿人的誠信情況,多方防止學術不端行為發生。[8]
還有一些期刊編輯認為,反剽竊軟件為學術期刊提供了有效的技術支持,其效果十分明顯。為了使它成為防范學術不端行為的最重要防線,還應該加大使用頻度,初審、刊前、刊后都實行檢測,從而將檢測系統的反剽竊功能發揮到最佳。[9]
總之,學術不端文獻檢測系統在遏制學術不正之風方面取得了較好的成效。“試用一年多來,學術不端現象下降效果明顯,據統計,1000多個期刊下降了約80%,1500多個期刊下降了60%,230多個研究生培養單位降低了70%以上。”[10]“檢測的目的,符合學術研究和學術期刊質量提升的要求,也符合學術規范和學術標準、期刊規范和期刊標準的要求。……在當今學術不端較為泛濫的年代,為避免和遏制學術不端,提升學術期刊的質量,文獻檢測無疑起到了不可缺少的重要作用。”[11]
在許多研究者對檢測系統大加贊賞的同時,也有不少人提出了不同意見,認為決不能以檢測結果作為判定是否學術不端的唯一標準,它存在許多負面效應。他們認為,檢測系統僅僅是編輯提高檢測效率的輔助工具,而不是判定是否學術不端的唯一標準,檢測結果可能存在假陽性。“《中國青年報》就高校引進學位論文學術不端行為檢測系統反抄襲對網民調查的結果顯示: 有77.01%的網民不相信僅僅靠檢測系統就能杜絕造假。有人擔心系統全面推廣會成為人肉搜索和互相傾軋的工具; 有人認為為防止造假而制造專門的學術‘測謊儀’是學術界的悲哀; 還有相當比例的人擔心越檢測造假越精明。”[12]而且,利用機器進行檢測必然存在使用盲點,它還有許多需要進一步完善的地方。
1.知網數據庫收錄文獻的有限性。《中國學術文獻網絡出版總庫》是檢測系統的全文比對數據庫,盡管數據庫的收錄種類上已經具有明顯的優勢,但收錄上的盲區仍然存在,例如圖書,大量的博客、微博、論壇上的文章,大量的外文文獻,內部資料文獻,期刊的增刊論文,內部刊物論文,其他一些網絡數據庫的文獻,等等,未能收錄。任何數據庫資料的收集都有一個范圍,任何檢測系統所依托的數據庫都不可能窮盡所有文獻,如果抄襲了來自數據庫以外的文獻,反剽竊軟件就無能為力。所以,檢測系統的辨別范圍是有局限的。
2.檢測出的文字復制比并不等同于抄襲度。一般情況下,文字復制比與抄襲度呈正比,重復文字越多學術不端越嚴重。但數量是相對的,文字復制比對判定是否存在學術不端只能起到一個輔助作用,因為有些重合的文字并非抄襲,屬于合理使用。而有些文章復制比并不高,但重復的是文章的核心部分,這種情況仍然可以判定為學術不端。反剽竊軟件不能分辨是正常引用還是抄襲。此外,對比較隱蔽的學術不端行為,檢測系統也無法識別,比如改頭換面、變換句式、調整語序,等等。對剽竊他人的研究方法與研究觀點的行為也無法用儀器檢測,觀點與方法是抽象的、邏輯性的東西,檢測系統主要采用“外形”比對,所以意義抄襲、觀點抄襲這種隱蔽抄襲很難比對出來。還有,檢測系統對文字敏感,對圖表則手段缺乏,科技論文中的化學方程式、數學公式、插圖等均不能有效識別。
3.檢測系統的滯后性。一篇論文從投稿到發表有一個時滯,如果有人利用這個時間差將文章同時投向幾個刊物,由此產生的重復發表系統是無法檢測的。此外,一篇論文在印刷版刊出后,仍然需要一兩個月甚至更長時間才能上傳到知網數據庫,才能在《中國學術文獻網絡出版總庫》中以電子版的形式發表,這也是文獻利用中出現的一個時間“盲區”,如果復制這一時段里已經發表但未上網的學術論文并快速發表,也能逃避系統檢測。
總之,檢測系統投入使用后,迅速成為各方關注的焦點,引發了各界尤其是學術期刊編輯的普遍關注與熱烈討論。筆者認為,檢測軟件確實存在著不完善之處,正如《學術不端檢測系統 - 基本簡介》所說的:“鑒于中國學術不端文獻的實際情況,還需繼續開發能夠檢測英文學術不端文獻以及從英文翻譯為中文的不端文獻,同時比對數據庫應同時擴展到英文數據庫與互聯網文獻,事實數據庫也應同步擴展,并建立中英文對照的規范數據庫。因此,進一步的研發工作還很多”。[13]但是,它的積極意義在于,反剽竊軟件作為全文快速比對查重的檢測軟件,確實提高了人們辨別不端文獻的能力,為防范學術不端提供了技術支持。因此,我們應該以積極的態度對待它,同時不斷地完善它,使之更好地為我們服務。我們可以將機器檢測與人工檢測相結合,在機器檢測的基礎上輔以人工再判定,認真甄別機器檢測出的文字復制比,這樣就能得出相對客觀、合理的結論。這也是符合研發者的初衷的,“研發者解釋,檢測報告的作用是為判斷論文性質提供相關依據”而不是結論。相信通過不斷改進的技術手段以及日益完善的制度保障,我們終將營造出良好的學術生態環境。
[1]宋如華.從初審環節防范學術不端論文[N].科學時報, 2009-12-11
[2]周少英.擔憂“偽學術”的侵害[J].編輯之友,2011(2)
[3]學術不端檢測系統 - 基本簡介[EB/OL].http://book.zjelib.cn/views/specific/2929/EncyDetail.jsp?dxid=900013372132&d=482F1E5 BB07786159BDA8C5C2F515A70
[4]學術不端檢測系統 - 基本簡介[EB/OL].http://book.zjelib.cn/views/specific/2929/EncyDetail.jsp?dxid=900013372132&d=482F1E5 BB07786159BDA8C5C2F515A70
[5]《中國腫瘤生物治療雜志》關于抵制學術不端行為的聲明[J].中國腫瘤生物治療雜志,2011(1)
[6]高校反抄襲用上“測謊儀” 新疆一些高校引進學術不端檢測系統檢測博士碩士畢業論文遭質疑[N].羊城晚報, 2009-04-22
[7]王宇.學術不端文獻檢測系統研究綜述[A].第十屆(2012)全國核心期刊與期刊國際化、網絡化研討會論文集[EB/OL].http://d.g.wanfangdata.com.cn/Conference_7733797.aspx
[8]李祥,楊夢媛.“學術不端文獻檢測系統”是治理學術不端的有效手段[J].云南大學學報(自然科學版),2011(S2)
[9]王音,田喆.從編輯部公告看使用學術不端檢測系統中存在的問題[J].編輯學報,2011(5)
[10]“學術不端文獻檢測系統”成功推廣[J].中國教育報,2010-08-31
[11]胡政平.學術不端文獻檢測與期刊質量的提升[J].出版發行研究,2012(11)
[12]譚華,崔潔.學術不端文獻檢測系統的使用建議[J].編輯學報,2010(2)
[13]學術不端檢測系統 - 基本簡介[EB/OL].http://book.zjelib.cn/views/specific/2929/EncyDetail.jsp?dxid=900013372132&d=482F1E 5BB07786159BDA8C5C2F515A70
[14]學術論文不端行為檢測系統向本市40余所高校推廣[N].北京青年報,2009-04-24