文/聞麗 羅列
近年來,學術不端行為呈現了新變化,由于獲取信息途徑更多,抄襲成本降低,形式越來越多樣化,隱蔽性越來越強,逐漸顯現常態化。學術不端行為對學術環境的不良影響也越來越受到關注。科技期刊作為科技成果的重要交流平臺,是干預和阻止學術不端行為的最后防線,在凈化學術環境中占有重要地位。目前,科技期刊出版流程中對于學術不端行為的防范主要是在審稿階段通過同行評議、檢測系統查重、要求作者簽署“誠信承諾書”等措施來進行,同行評議和新興起的查重軟件均存在一定的不足,簽署科研誠信承諾書基本流于形式,收效甚微,使得學術不端行為向隱蔽性更強、發現難度更大等方向發展[1]。
目前,關于論文出版階段科技期刊防范學術不端行為的研究主要是集中在學術不端行為規律及其防范措施方面。徐石勇等以《絲綢》為例,對近年來該期刊遇到的作者學術不端的現象進行匯總、分析,并總結了針對這些學術不端現象的防范措施[2];吳寧對科技期刊中學術不端行為的變化特點進行了分析,并提出了一些應對措施[3];王子君等提出在修改稿件過程中如何判斷學術不端行為[4]。研究表明,由于各途徑均存在疏漏,在科技期刊出版中防范學術不端行為最重要的途徑還是加強期刊人才建設和提高其素質,不端行為的發現往往需要依賴編輯的責任心和專業素養,需要充分發揮編輯的主觀能動性[5-7],這就難免造成學術不端行為的漏查。
作為一種科技期刊出版的發展業態,關于語義出版的研究多集中于出版流程中語義出版技術的實現,鮮見有關語義出版在防范學術不端方面的研究。本研究基于語義技術在科技期刊的應用,詳細、多角度闡述語義出版在技術實施方面如何實現對不端學術行為的防控,旨在為科技期刊語義出版發展中對于學術不端行為的規避提供參考,使得科技期刊成為維護學術生態環境的重要屏障和學術評價的公器。
由于從第一次重復率檢測到上網的滯后期,在刊發前編輯可能需對稿件進行多次重復率檢測。真正的語義出版工作始于作者進行論文創作,由于文章與檢測系統的無縫銜接,確保稿件每次修改都自動生成實時相似性檢測,超過預設值則自動發出預警,為編輯工作帶來極大的便利。語義出版在稿件的審查階段,不僅可以防范同行評議、判斷創新性中出現學術不端,還可以幫助編輯對于稿件的研究背景、學科進展、應用前景進行預估,不再是單一的進行相似性檢測。
應用語義技術有利于基于最少的工作建立一個真正意義上的全網協同平臺,實現最大限度的知識產權保護和學術不端行為的發現。從單一的重復性檢測到全網協同、實時重復性檢測再到創新性判斷,語義技術的應用對于盡早發現學術不端行為、對研究內容低水平重復篩選將發揮重要作用。
由于傳統出版中的期刊版面限制,作者無法提供數據的分析過程,為數據篡改和偽造提供了便利。為了提高研究的可重復性,科研人員要求期刊提供研究論文原始數據的期望越來越強烈。論文投稿時提交和發表時公布支撐數據,已成為越來越多科技期刊的基本要求,例如Science、Nature、Cell等,然而傳統出版的有限版面難以滿足這一要求[8]。
2014年,由Nature出版集團創立的Scientific Data電子期刊和中國科學院地理科學與資源研究所、中國地理學會創立的“全球變化科學研究數據出版系統”均已實施了實體數據與數據論文關聯出版的模式。目前,國內已有《地理學報》等30多家期刊就關聯數據發表論文達成了共識,已有部分期刊提出了提交支撐數據的要求。如《中華健康管理學雜志》從2016年起,逐步要求原始研究類稿件提供相應的原始材料,例如原始數據、原始結果、量表、干預方法、問卷等,但限于傳統出版和當前數據出版的局限性,這些資料不能完全發揮其本身的所有潛能。
通過查重軟件檢測可以發現部分學術不端行為,但軟件查重存在的漏洞和不足也使學術不端行為更加隱蔽,檢測出該行為的難度增大。語義技術的應用不僅使得出版內容發生改變,也可使得查重技術更加智能化,查重結果更為準確。目前,語義技術是查重軟件應用的技術之一即是基于詞頻統計的方法。此方法引自向量空間的檢索模型,和信息檢索技術相關。首先要統計每篇文檔中各個單詞的出現次數,再根據指定規則將單詞頻度轉化為空間特征向量,最后采取度量向量之間的距離來計算相似度,從而達到查重的目的[9]。
近年來,中國知網開發的科研誠信管理系統實現了基于內容的信息指紋技術與語義分析技術的有效結合,不僅保證了檢查結果的精準性,還具備了較強的抗干擾能力,支持文獻改寫、重組、翻譯等多種變換形式的檢測,檢測系統已實現了語義級別內容的檢測。該系統不僅可對圖、表等特殊檢測對象進行基于標題、上下文、圖表內容結合的相似性檢測處理[10],還可根據特定的概念、觀點、結論等內容進行智能信息分類處理。隨著語義技術在查重系統中應用的逐步成熟,粒度可調地融入語義特征的相似性分析技術,以句子為基本分析單位,專門用于文本相似性的快速準確比對。其強大的查重功能將會加大學術不端檢測力度,即使是一般的低水平重復也會被檢測出來,普通的逃避查重行為更是無處遁形,從而在剽竊和抄襲方面的學術不端行為防范中發揮重要作用。
另外,僅根據相似比來判斷是否存在學術不端行為,決定稿件“去”與“留”有著一定的不科學性。要真正地減少跟風、重復選題,遏制平庸不良選題,不僅要杜絕“形抄”,更要杜絕“意抄”。應用語義技術的科技期刊出版,將呈現智能化出版模式。智能化的信息獲取方式,可以讓電腦根據已有信息和用戶的偏好,直接獲得完成分析結果。
通過碎片化論文內容加上關聯原始數據信息,可以完整再現作者的研究過程,數據來源更清晰,文章質量更可信,并可實現對論文內容的再分析,客觀評價其對科學發展的價值和影響。復證是檢驗學術出版內容真實性和科學性的有效手段,通過使用論文中數據和方法進行重復操作,將試驗結果與由獲得原始數據進行比較,判斷學術成果的真實性、可信性和可靠性。利用語義技術進行關聯數據出版,可完整展示試驗過程,提供復證基礎,增大了不端行為被發現的可能性。通過語義出版共享這些資源,還可讓更多的數據資源使用者從多個方面主動參與論文“真偽”的辨別。雖然不能完全排除數據篡改和偽造的可能性,但是造假本身所需付出的成本被擴大。
大量的網絡信息被不加選擇地廣泛推送給不同的用戶。一般的主動性推送,在引起用戶焦慮的同時也容易被忽略。而量體裁衣的精準推送可以解決這一問題。通過分析用戶的偏好庫,語義出版可以智能地將出版內容主動推送給相關領域的專家和學者,這樣“被作者”和“被免冠作者”的情況就會被及時發現。由于專業所限,一般的科研圈子范圍有其有限性,語義出版的精準智能推送增大了抄襲行為對于目標對象的曝光概率,將使得此類情況無處遁形。
現行的版權保護模式已經不能適應時代的需求,一紙簡單的“誠信承諾書”,也僅是道德層面的約束。語義出版實踐的數據發布過程中采取的是FAIR原則,這一原則與去中心化所遵循的原則有較大的重疊,即數據存儲獨立于服務提供商、具有交互性、可訪問性以及自由表達和處理網絡信任的能力[11]。語義出版天然具有去中心化的特點,而去中心化可以防止文章被任意篡改。真正的語義出版是在論文創作階段就開始了語義分析和處理[11],如果語義出版自研究人員從試驗數據的記錄開始,其后續發生數據篡改、版權爭議等事件的概率將大大降低。
單一的重復性檢測不足以充分發揮語義技術的優勢。學術不端檢測需要一個盡可能完備的全文數據比對資源庫。目前,中國知網的科研誠信管理系統不僅可以與知網所提供的《中國知識資源總庫》內所收錄文獻的比對,還可與互聯網部分開放的資源進行比對,但是對于其它數據庫的資源無法涉及。語義出版與數據的開放共享是互利的,可以實現學術不端檢測的全網協作,但是這與各數據庫出版商的利益存在沖突。
語義出版是有限的去中心化,通過與其他技術聯合使用,設計具有可信任性的語義出版物,實現完全去中心化,如區塊鏈技術。區塊鏈是通過密碼學方式形成的一個由集體維護的分布式數據庫,數據塊相連組合成鏈條,各節點互相監督,整個工作流程中移除了傳統第三方,信息互聯互通而又無法被篡改,安全性高[12]。通過區塊鏈技術可以對內部數據塊進行版權登記,并且其共識機制使版權交易公開透明[13]。雖然區塊鏈技術在版權方面的運用還在探討與嘗試階段,但其不失為知識產權保護的有效方法之一。王眾等就兩項技術在農產品質量安全追溯領域的聯合應用提出了一個概念性的驗證系統[14]。在語義出版的基礎上應用區塊鏈技術,通過智能合約的方式建立共識機制,保障數據獲取的安全性和權益歸屬,為科技論文出版添加上信任的紐帶和數據安全的保障。語義技術是使得信息可用,而區塊鏈技術是確保隱私不被非法獲取和數據安全,二者間存在著一定的沖突。雖然區塊鏈技術與語義技術的融合對于防范學術不端頗具效力,但其可行性還需驗證。
語義出版是具有彈性擴展、動態分配和資源共享等特點的數字內容出版,它催生大量新型出版業信息服務,帶動出版格局的整體變革。充分利用語義技術強大的語義分析功能,可提高查重檢測的精確度,通過語義出版從多方面提高論文學術不端行為的辨識率,從技術手段方面防范學術不端,有利于對科技期刊的出版流程進行更為科學的控制和管理,建立科技期刊知識版權的保護壁壘,從而確保科技期刊的綠色健康發展,建立良好的學術環境。
在開放科學的大背景下,出版數據的開放共享趨勢明顯。在語義出版中,可以實施出版數據的開放共享與部分有償使用。在進行學術不端檢測時,通過與各出版商的利益關聯,綜合性無償服務與個性化有償服務相結合,提高其共享數據的積極性,從而實現全網協同檢測。
目前,內容組織的語義化已成為大數據時代科技期刊發展的主要趨勢。但是要使廣大的作者及編輯人員熟練地應用語義技術來寫作和編輯論文,還須開發出友好的軟件操作界面以供使用。各刊社要重視專業人才的培養及現有人員知識的更新,有條件的單位可考慮引進相關專業技術人才,已形成集群的科技期刊則可采取遠程的專業智力資源共享。