黃東平 何山
【摘 要】學術(shù)評估乏力導致學術(shù)不端事件頻頻發(fā)生,為此產(chǎn)生了各種各樣的學術(shù)不端行為檢測系統(tǒng)。雖然檢測系統(tǒng)快速、智能、功能強大,客觀上對“學術(shù)不端行為”起到了警示和震懾作用,但在實踐中發(fā)現(xiàn)其仍然存在著一些問題,對此提出了一些解決方法,并建議應(yīng)結(jié)合專家意見合理看待、理性使用檢測結(jié)果,加強宣傳教育,預防為主,建立健全相應(yīng)的監(jiān)督體制和誠信檔案。
【關(guān)鍵詞】學術(shù)不端;檢測系統(tǒng);TMLC2
中圖分類號: G643.8文獻標識碼: A文章編號: 2095-2457(2019)36-0151-002
DOI:10.19694/j.cnki.issn2095-2457.2019.36.069
The Use and Suggestion of Academic Misconduct Detection System
HUANG Dong-ping HE Shan
(South China University of Technology Library, Guangzhou Guangdong 510641, China)
【Abstract】Weak academic assessment leads to lots of academic misconduct, and a wide variety of academic misconduct detection system appear to solve these problems. Although these detection systems are fast, intelligent, powerful, frightening the “academic misconduct”, but we find that there are still some problems with them in practice , we find a number of solutions, and suggest we should have a reasonable view, rational use of the test results combining expert advices, strengthen publicity and education, prevention, establish and improve the supervision system and the integrity of files.
【Key words】Academic misconduct; Detecting system; TMLC2
0 引言
“汪暉事件”、“唐駿事件”、 “李連生事件”等頻頻發(fā)生的學術(shù)不端事件背后反映出學術(shù)評估乏力[1],為了遏制學術(shù)不端行為的產(chǎn)生,營造良好的學術(shù)氛圍。各種各樣的學術(shù)不端行為檢測系統(tǒng)陸續(xù)產(chǎn)生:CNKI學術(shù)不端檢測系統(tǒng)、萬方論文相似性檢測系統(tǒng)、維普通達論文引用檢測系統(tǒng)、ROST反剽竊系統(tǒng)、Turn it in系統(tǒng)、CrossCheck系統(tǒng)、SafeAssign系統(tǒng)、PERK系統(tǒng)等[2]。國內(nèi)機構(gòu)目前用得較多的是CNKI學術(shù)不端檢測系統(tǒng)。
1 CNKI學術(shù)不端檢測系統(tǒng)簡介
CNKI學術(shù)不端檢測系統(tǒng)是由中國學術(shù)期刊電子雜志社與清華同方知網(wǎng)共同研制的[3],2006年開始立項研發(fā),主要包括以下7個子系統(tǒng):科技期刊學術(shù)不端文獻檢測系統(tǒng)(AMLC2)、社科期刊學術(shù)不端文獻檢測系統(tǒng)(SMLC2)、學位論文學術(shù)不端行為檢測系統(tǒng)(TMLC2)、大學生論文抄襲檢測系統(tǒng)、中學生作文檢測系統(tǒng)、英文檢測系統(tǒng)、中英對照檢測系統(tǒng)。而學術(shù)不端文獻檢測系統(tǒng)VIP版主要是對針對博碩士畢業(yè)論文和科研論文的檢測,包括AMLC2、SMLC2、TMLC2等三個子系統(tǒng)。
該系統(tǒng)采用CNKI自主研發(fā)的自適應(yīng)多階指紋特征檢測技術(shù)[3]。算法的最小指紋粒度為句子,即只要被檢論文與樣本庫中的文獻存在一個句子相同就可以被系統(tǒng)發(fā)現(xiàn)。支持超長篇幅文獻,改寫、組合等變形文獻,句子、段落等各層級的檢測。
自2008年底開通以來,已被全國各高校、科研機構(gòu)、出版單位廣泛使用。截至目前用戶數(shù)量已達5000家,累計檢測70萬篇論文[3]。用于畢業(yè)論文檢測、項目立項、驗收、報告審查,期刊審稿等。檢測功能強大、智能、快速,絕大部分結(jié)果客觀正確。
2 檢測系統(tǒng)存在的問題及改進建議
本館受本校研究生院委托對本校博碩士學位論文使用TMLC2系統(tǒng)進行檢測,結(jié)合實際過程中的使用經(jīng)驗,參考學生、網(wǎng)友意見和一些文獻的信息,發(fā)現(xiàn)檢測系統(tǒng)主要存在以下問題:
(1)對于“改寫型”論文反抄襲能力不足。有些學生把抄襲的文字或調(diào)換句子順序[4];或主動變被動、被動變主動;或增加一些擴充性解釋;或長句變短句、短句變長句等等。對于這類論文系統(tǒng)并不能很好地檢測出來。我們只能期待系統(tǒng)的檢測算法能夠?qū)⒅讣y粒度從句子變?yōu)楦毜恼Z法單位或者采用模糊比對算法[5],甚至也像人一樣根據(jù)語義去判定抄襲與否。
(2)對于參考英文等外文文獻的論文反抄襲能力不足。互聯(lián)網(wǎng)上流行一種反反抄襲的方法“google新用”[4]:先把自己的論文利用google在線翻譯的方法先翻譯成英文,再將翻譯成的英文再用google翻譯成中文,然后再對其中的少量病句錯詞稍加修改即可,這樣每句話跟原來的就不一樣了,或者英文水平較好的學生將來自不同外文文章的資料按論文框架整合在一起然后翻譯成中文。甚至一些學生將外文文獻直接翻譯成中文然后照搬進論文中,從而達到反反抄襲的目的。無論是“google新用”還是“翻譯法”都告訴我們,檢測系統(tǒng)還不能檢測這類跨語言的抄襲。在未來或許可以開發(fā)出按語義的檢測系統(tǒng),用于彌補當今只是針對文字的檢測系統(tǒng)的不足。
(3)對于參考書籍等紙質(zhì)文獻的論文反抄襲能力不足。cnki檢測系統(tǒng)目前比對范圍是:中國學術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士學位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士學位論文全文數(shù)據(jù)庫、中國重要會議論文全文數(shù)據(jù)庫、中國重要報紙全文數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫、互聯(lián)網(wǎng)資源、英文數(shù)據(jù)庫(涵蓋期刊、博碩、會議的英文數(shù)據(jù)以及德國Springer、英國Taylor&Francis 期刊數(shù)據(jù)庫等)、港澳臺學術(shù)文獻庫、優(yōu)先出版文獻庫、互聯(lián)網(wǎng)文檔資源、個人比對庫。未含任何紙質(zhì)圖書。故而對于抄襲紙質(zhì)圖書的論文無法檢測。在未來可以將對比庫擴充,將紙質(zhì)圖書文獻包含進來,雖然可能因此導致檢測時間增長,但卻可以大大提高檢測系統(tǒng)反抄襲的能力。
(4)對于英文等外文書寫的論文反抄襲能力不足。英文等外文檢測樣本庫太少甚至沒有包含某些外文文獻的數(shù)據(jù)庫。目前TMLC2系統(tǒng)只包含涵蓋期刊、博碩、會議的英文數(shù)據(jù)以及德國Springer、英國Taylor&Francis 期刊數(shù)據(jù)庫等少量數(shù)據(jù)庫。這就導致對英文論文檢測能力非常有限而對日文、俄文、法文、德文等文字書寫的論文毫無檢測能力。雖然目前國內(nèi)高校畢業(yè)生論文一般都用中文書寫,但是也有部分學生如外國語學院的學生、留學生用英文寫論文,這就會導致這些學生的重復率比較低,反抄襲的能力就大大下降了。
(5)對于理工科學生的論文反抄襲能力不足。理科工學生的論文一般是要進行一些實驗或編寫一些軟件[4]。如果他們把實驗的數(shù)據(jù)改一改,實驗步驟稍加變通,這樣實驗的結(jié)果,圖表就會不一樣了。還有編寫軟件,可以根據(jù)自己的框架需要,上網(wǎng)下載一些源代碼,然后根據(jù)需要修改一下,放進自己的框架里,這樣軟件就設(shè)計完了,論文也大功告成了。而目前的檢測系統(tǒng)只根據(jù)文字進行檢測,是無法對這類論文進行反抄襲的。
(6)對于公式占比較大篇幅的論文可能存在文字復制比過高的情況。數(shù)學類專業(yè)的論文中可能有較大篇幅的公式及公式推導,而這類公式推導如果在樣本庫的文獻里也曾出現(xiàn)過,系統(tǒng)將其斷定為抄襲似乎有些不合理了,這時需要評審專家認真地查看、綜合地考慮檢測報告。
(7)不能很好地區(qū)分同名不同人的情況[6]。即如何斷定參考的文獻是作者本人的,如果僅僅是同個作者姓名斷定,有可能出現(xiàn)不是作者本人的文獻當作作者本人的文獻處理了。這樣導致去除本人已發(fā)表文獻復制比過低,結(jié)果不準確。
(8)只顯示兩篇論文存在抄襲現(xiàn)象,不能斷定誰抄誰的。在高校里導師或團隊的研究是延續(xù)的,同一團隊的人員的學術(shù)研究成果是共有的,有可能低年級的學生將研究成果發(fā)表了,而即將畢業(yè)的高年級的學生的畢業(yè)論文又將研究成果放進論文,這就會導致是師兄師姐抄襲師弟師妹的論文的情況,甚至導師抄襲學生的情況。這對于即將畢業(yè)的學生來說是很不合理的。
(9)有時會出現(xiàn)論文上傳不了或讀取不了。一般出現(xiàn)這種問題的論文可能含有比較多的公式、特殊符號、圖片,這時一般是把論文轉(zhuǎn)換為07版的word文件或者pdf文件即可。
(10)上傳不了文件比較大的論文。曾經(jīng)碰到過超過100M的文件上傳不了的情況,這時可以將文件格式轉(zhuǎn)為pdf文件,壓縮文件的大小。
(11)系統(tǒng)批量導出的檢測結(jié)果的信息不夠全面,目前只含有檢測結(jié)果、重合字數(shù)、去除引用、去除本人、總字數(shù)等字段。如若能夠?qū)С龈娴男畔ⅲ瑢⒖梢詼p輕工作人員的負擔。
3 工作建議
鑒于學術(shù)不端檢測系統(tǒng)并非萬能的,同時該系統(tǒng)的使用又關(guān)系到畢業(yè)生、科技工作者的切身利益,關(guān)系到黨和國家科技事業(yè)的發(fā)展,故而在實際工作中,應(yīng)該慎重地、合理地使用該系統(tǒng),注意好以下幾點:
(1)正確地看待引用和抄襲[5]。對于高校里的研究生等青年學生來說,他們從事研究的時間尚短,撰寫論文的經(jīng)驗尚淺,適當?shù)匾们叭说难芯砍晒潜匾暮捅匦璧模绕涫钱斔麄冏珜懸栽u論、綜述為主的論文時。他們的性質(zhì)與故意抄襲有著本質(zhì)的區(qū)別,我們應(yīng)該正確地區(qū)分和看待。
(2)判定論文是否抄襲時,不應(yīng)只根據(jù)報告中的復制比判斷,而應(yīng)該是評審專家參考檢測報告,根據(jù)報告中所列舉的被抄襲的期刊名、作者名、文章名去綜合考慮。因為有可能是同個團隊或同個導師的文章。
(3)無須追求過低的復制比。復制比的高低與論文質(zhì)量的好壞、創(chuàng)新性的強弱沒有必然的聯(lián)系。復制比低、重復字數(shù)少只能說明該論文抄襲的嫌疑比較低,原創(chuàng)性的可能性比較大,但并不表明這是篇好論文。一篇復制比為零的論文也可能是經(jīng)過“巧改”、“翻譯”、“google新用”等手段“整容”而成的。而且我們的研究一般是站在前人的、巨人的肩膀上進行的,需要引用前人的研究成果。故而無須追求過低的復制比,過少的重復字數(shù),我們應(yīng)該正確地看待、理性地使用檢測報告的結(jié)果。
(4)確定合理的合格標準。首先對于博士和碩士應(yīng)該采用不同的標準[5],碩士因其做研究的時間比較短,故而標準應(yīng)該寬些,博士應(yīng)該嚴些;另一方面因為博士論文字數(shù)10萬字左右,碩士3至5萬字,所以看檢測結(jié)果時博士應(yīng)該重點看重復的字數(shù),而碩士應(yīng)該重點看文字復制比。其次對于不同的學院專業(yè)應(yīng)該采用適宜該學院專業(yè)的標準,理工科專業(yè)可以稍微嚴些,而像法學專業(yè)類的文科專業(yè),應(yīng)該寬些,畢竟某些法律條文不得不引用,而且這些引用的法律條文也一個字也不能修改。再次,以最新研究成果為主的論文應(yīng)該嚴些;以實用型應(yīng)用性技術(shù)為主的論文應(yīng)該寬些;以評論、綜述為主的論文應(yīng)該寬些,且要求有適當?shù)囊摹?/p>
(5)檢測系統(tǒng)不能解決所有問題,要從制度和監(jiān)管上加以約束和懲治。[5]
4 結(jié)束語
通過以上分析,我們知道檢測系統(tǒng)對學術(shù)不端行為起到了震懾作用,但是由于系統(tǒng)推出不久,仍然存在著一些不足,同時也面臨著一些精心抄襲、造假的論文的挑戰(zhàn),我們在期待系統(tǒng)進一步改善的同時,也必須從制度上加強監(jiān)管和約束,綜合檢測報告和評審專家意見鑒別論文是否存在抄襲行為,并通過宣傳教育的手段,引導師生和科技工作者加強學術(shù)道德修養(yǎng),設(shè)立學術(shù)道德必修課,建立學術(shù)道德誠信檔案[5],健全獎懲體制,從源頭上防止學術(shù)不端行為的產(chǎn)生,營造良好的學術(shù)氛圍。
【參考文獻】
[1]盤點2010年學術(shù)造假事件:唐駿張悟本等上榜[EB/OL].[2013-7-4].http://news.qq.com/a/20101224/001355.htm.
[2]張旻浩,高國龍,錢俊龍.國內(nèi)外學術(shù)不端文獻檢測系統(tǒng)平臺的比較研究.中國科技期刊研究,2011,22(4):514-521.
[3]CNKI科研誠信管理系統(tǒng)研究中心[EB/OL].[2013-7-4].http://check.cnki.net/Article/about/2009/06/59.html.
[4]“反抄襲”軟件遭遇大學生“反反抄襲”[EB/OL].[2013-7-4].http://www.cnbeta.com/articles/103798.htm.
[5]顏峻,候風華,黃莉,徐勝.防范學術(shù)不端“凈化高校學風”——使用“學術(shù)不端文獻檢測系統(tǒng)”的體會.編輯學報,2010,12:8-10.
[6]胡朝明.學術(shù)不端文獻檢測系統(tǒng)的使用與建議.圖書館工作與研究,2012,4:33-35.