英文文獻在論文相似性檢測中的檢索技巧

2015-12-27 08:33:08王佳

中國管理信息化 2015年13期

王佳

（齊魯工業大學圖書館參考咨詢部，濟南 250353）

學術不端是指在申請課題、實施研究報告結果的過程中，出現的捏造、篡改或抄襲行為。不端行為主要被限定在“偽造、篡改、抄襲”（Fabrication，Falsification，Plagiarism，簡稱 FFP ）三者中。隨著學術競爭日漸激烈，學術界存在某些弄虛作假、行為不良或失范的風氣。在職稱晉升、申請立項、畢業答辯等科研環節中，存在剽竊他人研究成果、稍加改動甚至全盤照搬占為己有的行為，或者一稿多投以數量取勝為自身謀取利益等現象。目前在國內學術界，這些違背科學精神和道德的現象廣泛存在于科研機構、大專院校等各個層面，極大地敗壞了學術風氣，阻礙了學術進步，給科學和教育事業帶來嚴重的負面影響。鑒于學術不端嚴重削弱了學術界的公平競爭，很多單位在職稱評聘、應屆畢業生答辯資格取得、新文章發表等工作中，適時引入了相似性檢測這一硬性規定，針對著作、中外文期刊論文等科研成果進行嚴格的相似性檢測，規定了一定的相似比，相似性處于該相似比之內的成果方可過關，否則一票否決。

針對相似性檢測，當前國內多家數據商均研發了學術不端檢測系統，后臺比對數據庫資源豐富、涵蓋面廣，包括期刊全文數據庫、學位論文數據庫、會議論文數據庫、報紙全文數據庫、互聯網數據庫、港澳臺數據庫、優先出版數據庫等；針對英文文獻，也增加了相關的期刊、博碩、會議的英文比對數據庫。比對范圍廣泛全面，比對系統日趨完善。而且根據被檢測人自身文獻的發文狀況，還引入了個人比對庫，使得檢測的嚴格性和人性化相結合，在一定程度上凈化了學術競爭環境，促進了學術競爭公平、公正地發展。

隨著科研的飛速發展和更高要求，國內科研人員越來越注重外文研發，英文專著、學位論文、期刊論文的數量日漸增多。為了適應這一現狀，學術不端檢測系統也相應地整合了多個英文資源比對數據庫，如中國知網國際文獻總庫、德國Springer全文期刊數據庫、英國Taylor＆Francis期刊數據庫、荷蘭Elsevier數據庫等。比對的英文文獻類型包括期刊論文、會議論文、學位論文、圖書等。在相似性檢測過程中，英文文獻查重存在一些技巧，比如外刊檢索中優先出版、出版周期、刊種確定、時間確定等。而且由于文獻內容涉及各個學科，文獻原始格式、出版格式、呈現形式多種多樣，每一個環節的界定都直接影響著檢測結果，這就要求檢測人員在檢測過程中要充分用心，于不規律中探尋規律，嚴格采用統一標準對待各篇送檢文獻，對申報者負責。

1 相似性檢測中的影響因素

1．1 英文文獻格式

英文文獻撰寫者通常使LATEX等軟件編輯，自動生成PDF格式，故申報者在申報系統中提交的的英文文獻多為PDF格式。①PDF格式的英文原文在正常未加密的情況下，檢測過程一般比較順利，可以正常生成檢測報告。但是有時PDF格式會出現加密的情況，一旦出現這種情況，原文文字信息無法復制，文章在相似性檢測系統中無法導入，或者導入之后生成亂碼報告等，這些情況一旦出現，需要立即將原文章轉換格式。常用的格式轉換軟件有漢王PDFOCR、ABBYYFineReader等，格式轉換之后，通常情況下檢測過程會歸于正常；②有時相似性檢測系統后臺比對的外文數據庫會涉及版權問題，文章允許比對但不提供無縫下載鏈接，所以當原文無法在數據庫下載時，有時會需要作者本人提供原文，這時可能會出現Word等非PDF格式的文章被提交上來，檢測方法和過程與PDF格式的文章相同，但前提是作者本人提交的版本內容必須與發表、收錄的內容完全一致，這需要人事處、科研處等相關部門嚴格審核。另外，從數據庫下載的原文中，如果因排版等原因摻雜有其他文章內容，須轉換為Word格式，剔除不相關內容之后重新上傳檢測；③某些學科領域如生化、數學、藝術等文章中，有時會出現大量統計圖表、設計圖、公式、分子結構示意圖等，通常因格式轉換軟件技術限制而導致格式轉換效果欠佳，從而相似性檢測系統無法檢測，而圖表、公式本身傳達一定的信息量又不宜刪除，故需要采取其他方式進行相似性鑒定。

1．2 檢測時間點界定

相似性檢測的重要一環是檢測時間點的界定，即比對截止時間點。規定按收稿日期、期刊發行日期、會議日期等酌情選擇。原文如果是出版社正規單行本格式，一般會標注收稿日期。英文文獻的收稿日期一般標注格式為ReceivedTime、AcceptedTime等；會議文獻按照會議召開日期，可檢索會議名稱確定會議時間；期刊文獻按照期刊發行日期，網絡優先出版的文獻按照網上出版日期，標注格式為AvailableonlineTime等。本著對申報者負責的精神，時間點盡量取前不取后，收稿日期和期刊發行日期如果同時檢索到，選擇收稿日期作為檢測時間點。檢測時間點的界定需要嚴格慎重，時間間隔會造成檢測結果存在很大差異。例如，某篇文章系統認定的出版時間為2012年7月15日，總文字復制比為34%，超過了文字復制比須在30%以下的要求，但收稿日期為2011年11月4日，如果按該時間點檢測，總文字復制比則為10．3%，符合要求。有的期刊發行日期不明確，則需要按照該刊出版周期、出版頻率來確定每期的出版時間，從而確定檢測時間點。例如，雙月刊為每兩個月出版發行一次，如無具體的出版日期，則規定6期的出版日期為前一年12月31日以及該年2月28日、4月30日、6月30日、8月31日、10月31日；季刊為每季度出版發行一次，如無具體的出版日期，則規定四期的出版日期為前一年12月31日以及該年3月31日、6月30日、9月30日；此外還有半月刊、旬刊、周刊、不定期出版等多種情況，如無具體出版日期，則選擇各小周期的前一天或者按照出版頻率均攤時間來確定。

2 外文期刊檢索的方法及技巧

對于無收稿日期、非會議文獻的期刊文獻，需要借助數據庫、網站等資源，確定該刊的出版周期、出版頻率等，從而確定具體某期的出版日期。常用的數據庫如EICompendex、Springer等，在數據庫收錄文獻的題錄信息里可檢索到英文期刊的完整刊名、國際標準刊號（ISSN）、數字對象唯一標識符（DOI）、出版時間或年卷期號。利用刊名或刊號可檢索期刊的出版周期或頻率，常用的網站有中國報刊網、中科院國家科學圖書館、中國知網國際文獻總庫、中國圖書進出口總公司期刊查詢等。如利用http：／／periodical．cnpeak．com ／periodical．aspx 檢索英文期刊《Insurance：MathematicsandEconomics》，期數共6期，雙月刊。對于非常規周期出版的期刊，如《Philosophy＆SocialCriticism》，期數共10期，通常按照一年的總天數均攤時間計算每期的出版時間。有些外刊每年出版的周期不同，如《InternationalJournalofDatabase TheoryandApplication》，該刊2008－2013年每年出版的期數分別為1期、4期、4期、4期、4期、6期，遇到此類情況，須按照每年期數分別計算出版日期。此外，還可以利用數字對象唯一標識符檢索，如利用網站 http：／／dx．doi．org／檢索 DOI為 10．1007 ／s00339－013－8018－3的文獻，可以確定出版時間為2014年3月。有些期刊的ISSN號分為印刷版和電子版兩種，印刷版為pISSN，電子版為eISSN，兩者內容一樣。例如《JournalofConvergence InformationTechnology》，ISSN 為 1975－9321 （Print），2233－9299（Online）。

3 國際會議文獻的檢索技巧

在英文文獻相似性檢測中，EICompendex等收錄國際會議文獻的數據庫均可用來檢索會議文獻信息。根據國際會議名稱，可檢索該會議的詳細題錄信息，確定會議日期。另外，還可以利用google等學術搜索引擎，輸入會議名稱或縮寫，檢索會議日期。EI收錄文獻可直接在題錄信息中查看會議日期，如EITRT 2013，會議日期為2013年 10月 25日～10月27日；CCDC2014，會議日期為2014年5月31日～6月2日。通常選取會議召開的前一天作為檢測時間點。會議論文集的出版時間有時在會議召開的時間之前，有時在會議之后，按照“選前不選后”的原則，選擇靠前的日期作為檢測時間點。

4 外文著作相似性檢測

外文著作相似性檢測是針對書名、作者位次、ISBN、CIP查真，利用中國人民共和國新聞出版總署、國家圖書館等網站查詢CIP數據及ISBN的真實性，同時核對作者位次。有時作者位次不是第一位，或者與其他人合著，則網站無法顯示具體信息，須作者提供著作原件或掃描件予以鑒定。

5 文字復制比分析

相似性檢測結果中，如果被檢測文獻與申報者本人的學位論文或者會議論文有相似片段，則剔除申報者本人學位論文和會議論文相似部分，不計算重合率。以某篇檢測文獻為例，如圖1所示，該文獻總文字復制比為50．3%，但是去除本人學位論文會議論文之后，文字復制比為3．9%，符合要求。

但是，因數據庫收錄時著錄內容、著錄人員等因素影響，某些文獻著錄信息缺失，導致系統無法自動對應到某位作者名下予以剔除，因此會導致文字復制比較高。解決方法，一是手動計算相似片段字數與原文字數的比例，從總文字復制比中減去；二是向數據商或更高權限賬戶提交申請，從數據庫中直接剔除本人該篇學位論文或會議論文，重新檢測。

圖1 檢測結果

6 結語

外文文獻因其原文格式、發表收錄以及外刊出版等多種原因，表現出復雜性、多樣性的特點，要求檢測人員具備較高的專業素質和外語水平。在相似性檢測過程中除了常規流程操作，更應具體情況具體分析，在公平、公正的前提下，采取靈活化、人性化的檢測方法和技巧，保證檢索信息無誤、查全查準，檢測結果真實、準確。