王 佳
(齊魯工業大學 圖書館參考咨詢部,濟南 250353)
學術不端是指在申請課題、實施研究報告結果的過程中,出現的捏造、篡改或抄襲行為。不端行為主要被限定在“偽造、篡改、抄襲”(Fabrication,Falsification,Plagiarism,簡稱 FFP )三者中。隨著學術競爭日漸激烈,學術界存在某些弄虛作假、行為不良或失范的風氣。在職稱晉升、申請立項、畢業答辯等科研環節中,存在剽竊他人研究成果、稍加改動甚至全盤照搬占為己有的行為,或者一稿多投以數量取勝為自身謀取利益等現象。目前在國內學術界,這些違背科學精神和道德的現象廣泛存在于科研機構、大專院校等各個層面,極大地敗壞了學術風氣,阻礙了學術進步,給科學和教育事業帶來嚴重的負面影響。鑒于學術不端嚴重削弱了學術界的公平競爭,很多單位在職稱評聘、應屆畢業生答辯資格取得、新文章發表等工作中,適時引入了相似性檢測這一硬性規定,針對著作、中外文期刊論文等科研成果進行嚴格的相似性檢測,規定了一定的相似比,相似性處于該相似比之內的成果方可過關,否則一票否決。
針對相似性檢測,當前國內多家數據商均研發了學術不端檢測系統,后臺比對數據庫資源豐富、涵蓋面廣,包括期刊全文數據庫、學位論文數據庫、會議論文數據庫、報紙全文數據庫、互聯網數據庫、港澳臺數據庫、優先出版數據庫等;針對英文文獻,也增加了相關的期刊、博碩、會議的英文比對數據庫。比對范圍廣泛全面,比對系統日趨完善。而且根據被檢測人自身文獻的發文狀況,還引入了個人比對庫,使得檢測的嚴格性和人性化相結合,在一定程度上凈化了學術競爭環境,促進了學術競爭公平、公正地發展。
隨著科研的飛速發展和更高要求,國內科研人員越來越注重外文研發,英文專著、學位論文、期刊論文的數量日漸增多。為了適應這一現狀,學術不端檢測系統也相應地整合了多個英文資源比對數據庫,如中國知網國際文獻總庫、德國Springer全文期刊數據庫、英國Taylor&Francis期刊數據庫、荷蘭Elsevier數據庫等。比對的英文文獻類型包括期刊論文、會議論文、學位論文、圖書等。在相似性檢測過程中,英文文獻查重存在一些技巧,比如外刊檢索中優先出版、出版周期、刊種確定、時間確定等。而且由于文獻內容涉及各個學科,文獻原始格式、出版格式、呈現形式多種多樣,每一個環節的界定都直接影響著檢測結果,這就要求檢測人員在檢測過程中要充分用心,于不規律中探尋規律,嚴格采用統一標準對待各篇送檢文獻,對申報者負責。
英文文獻撰寫者通常使LATEX等軟件編輯,自動生成PDF格式,故申報者在申報系統中提交的的英文文獻多為PDF格式。①PDF格式的英文原文在正常未加密的情況下,檢測過程一般比較順利,可以正常生成檢測報告。但是有時PDF格式會出現加密的情況,一旦出現這種情況,原文文字信息無法復制,文章在相似性檢測系統中無法導入,或者導入之后生成亂碼報告等,這些情況一旦出現,需要立即將原文章轉換格式。常用的格式轉換軟件有漢王PDFOCR、ABBYYFineReader等,格式轉換之后,通常情況下檢測過程會歸于正常;②有時相似性檢測系統后臺比對的外文數據庫會涉及版權問題,文章允許比對但不提供無縫下載鏈接,所以當原文無法在數據庫下載時,有時會需要作者本人提供原文,這時可能會出現Word等非PDF格式的文章被提交上來,檢測方法和過程與PDF格式的文章相同,但前提是作者本人提交的版本內容必須與發表、收錄的內容完全一致,這需要人事處、科研處等相關部門嚴格審核。另外,從數據庫下載的原文中,如果因排版等原因摻雜有其他文章內容,須轉換為Word格式,剔除不相關內容之后重新上傳檢測;③某些學科領域如生化、數學、藝術等文章中,有時會出現大量統計圖表、設計圖、公式、分子結構示意圖等,通常因格式轉換軟件技術限制而導致格式轉換效果欠佳,從而相似性檢測系統無法檢測,而圖表、公式本身傳達一定的信息量又不宜刪除,故需要采取其他方式進行相似性鑒定。
相似性檢測的重要一環是檢測時間點的界定,即比對截止時間點。規定按收稿日期、期刊發行日期、會議日期等酌情選擇。原文如果是出版社正規單行本格式,一般會標注收稿日期。英文文獻的收稿日期一般標注格式為ReceivedTime、AcceptedTime等;會議文獻按照會議召開日期,可檢索會議名稱確定會議時間;期刊文獻按照期刊發行日期,網絡優先出版的文獻按照網上出版日期,標注格式為AvailableonlineTime等。本著對申報者負責的精神,時間點盡量取前不取后,收稿日期和期刊發行日期如果同時檢索到,選擇收稿日期作為檢測時間點。檢測時間點的界定需要嚴格慎重,時間間隔會造成檢測結果存在很大差異。例如,某篇文章系統認定的出版時間為2012年7月15日,總文字復制比為34%,超過了文字復制比須在30%以下的要求,但收稿日期為2011年11月4日,如果按該時間點檢測,總文字復制比則為10.3%,符合要求。有的期刊發行日期不明確,則需要按照該刊出版周期、出版頻率來確定每期的出版時間,從而確定檢測時間點。例如,雙月刊為每兩個月出版發行一次,如無具體的出版日期,則規定6期的出版日期為前一年12月31日以及該年2月28日、4月30日、6月30日、8月31日、10月31日;季刊為每季度出版發行一次,如無具體的出版日期,則規定四期的出版日期為前一年12月31日以及該年3月31日、6月30日、9月30日;此外還有半月刊、旬刊、周刊、不定期出版等多種情況,如無具體出版日期,則選擇各小周期的前一天或者按照出版頻率均攤時間來確定。
對于無收稿日期、非會議文獻的期刊文獻,需要借助數據庫、網站等資源,確定該刊的出版周期、出版頻率等,從而確定具體某期的出版日期。常用的數據庫如EICompendex、Springer等,在數據庫收錄文獻的題錄信息里可檢索到英文期刊的完整刊名、國際標準刊號(ISSN)、數字對象唯一標識符(DOI)、出版時間或年卷期號。利用刊名或刊號可檢索期刊的出版周期或頻率,常用的網站有中國報刊網、中科院國家科學圖書館、中國知網國際文獻總庫、中國圖書進出口總公司期刊查詢等。如利用http://periodical.cnpeak.com /periodical.aspx 檢 索 英 文 期 刊 《Insurance:MathematicsandEconomics》,期數共6期,雙月刊。對于非常規周期出版的期刊,如《Philosophy&SocialCriticism》,期數共10期,通常按照一年的總天數均攤時間計算每期的出版時間。有些外刊每年出版的周期不同,如 《InternationalJournalofDatabase TheoryandApplication》,該刊2008-2013年每年出版的期數分別為1期、4期、4期、4期、4期、6期,遇到此類情況,須按照每年期數分別計算出版日期。此外,還可以利用數字對象唯一標識符檢索, 如利用網站 http://dx.doi.org/檢索 DOI為 10.1007 /s00339-013-8018-3的文獻,可以確定出版時間為2014年3月。有些期刊的ISSN號分為印刷版和電子版兩種,印刷版為pISSN,電子版為eISSN, 兩 者 內 容 一 樣 。 例 如 《JournalofConvergence InformationTechnology》,ISSN 為 1975-9321 (Print),2233-9299(Online)。
在英文文獻相似性檢測中,EICompendex等收錄國際會議文獻的數據庫均可用來檢索會議文獻信息。根據國際會議名稱,可檢索該會議的詳細題錄信息,確定會議日期。另外,還可以利用google等學術搜索引擎,輸入會議名稱或縮寫,檢索會議日期。EI收錄文獻可直接在題錄信息中查看會議日期,如EITRT 2013,會議日期為2013年 10月 25日~10月27日;CCDC2014,會議日期為2014年5月31日~6月2日。通常選取會議召開的前一天作為檢測時間點。會議論文集的出版時間有時在會議召開的時間之前,有時在會議之后,按照“選前不選后”的原則,選擇靠前的日期作為檢測時間點。
外文著作相似性檢測是針對書名、作者位次、ISBN、CIP查真,利用中國人民共和國新聞出版總署、國家圖書館等網站查詢CIP數據及ISBN的真實性,同時核對作者位次。有時作者位次不是第一位,或者與其他人合著,則網站無法顯示具體信息,須作者提供著作原件或掃描件予以鑒定。
相似性檢測結果中,如果被檢測文獻與申報者本人的學位論文或者會議論文有相似片段,則剔除申報者本人學位論文和會議論文相似部分,不計算重合率。以某篇檢測文獻為例,如圖1所示,該文獻總文字復制比為50.3%,但是去除本人學位論文會議論文之后,文字復制比為3.9%,符合要求。
但是,因數據庫收錄時著錄內容、著錄人員等因素影響,某些文獻著錄信息缺失,導致系統無法自動對應到某位作者名下予以剔除,因此會導致文字復制比較高。解決方法,一是手動計算相似片段字數與原文字數的比例,從總文字復制比中減去;二是向數據商或更高權限賬戶提交申請,從數據庫中直接剔除本人該篇學位論文或會議論文,重新檢測。
圖1 檢測結果
外文文獻因其原文格式、發表收錄以及外刊出版等多種原因,表現出復雜性、多樣性的特點,要求檢測人員具備較高的專業素質和外語水平。在相似性檢測過程中除了常規流程操作,更應具體情況具體分析,在公平、公正的前提下,采取靈活化、人性化的檢測方法和技巧,保證檢索信息無誤、查全查準,檢測結果真實、準確。