探究計算機程序抄襲檢測系統設計及應用

2018-11-09 17:49:54周瓊

中國信息化 2018年10期

周瓊

一、引言

計算機程序抄襲檢測系統是一款能夠避免學術抄襲、造假等情況的計算機軟件。雖然很多計算機程序被研發出來，但也出現了很多反抄襲的軟件系統。這就需要在保障檢測抄襲精準性前提下，提出更高級別的檢測系統。如果只是圍繞反抄襲軟件展開設計，會顯得較為被動。現如今，我國大部分計算機程序抄襲檢測系統都是針對中文文檔而設計的，國際上、英文環境下所開發的計算機程序抄襲系統無法被借鑒利用。針對此類情況，需要加強國內學術和世界學術界間的接軌，不斷優化程序系統，提高抄襲檢測的性能，這樣才能夠全面凈化學術環境。

二、計算機程序抄襲檢測系統中的關鍵技術

在信息時代下，由于網絡信息共享度不斷提高，因此文獻信息獲取變得更加便捷，學術抄襲問題也層出不窮。針對此類問題，抄襲檢測系統也在不斷更新，提出了多種檢測技術，應用較為廣泛的抄襲檢測技術有：

（一）模擬匹配技術

模擬匹配技術是抄襲檢測領域應用最為廣泛的技術之一，融入了基礎檢測、文檔搜尋、語句匹配等內容，是一種十分精確的算法之一。整個技術中包括單模/多模檢測匹配方法。

單模算法是指讓長度為N的字符串Y中的找出長度為M字符串X有相似率的子串，如果在搜索中找出了相應的字符串，就提對應指定位置，如果沒有找到相似的字符串就會自動歸零。

多模算法是指采用集合算法，建設處串集合，如N={N1，N2...Nx}，對字符串的Z進行匹配分析，找到相似的字符串并轉回到指定位置上，如果沒有找到相應的字符串就會返回到零。多模與單模算法不同，多模是采用同時計算方法，能和多個字符進行匹配，從而大大提高了抄襲檢測精度和效率。

（二）相似度算法

隨著我國抄襲檢測技術不斷發展，系統愈加完善，抄襲人員也在不停的更改抄襲方法，例如同義詞更換、添加/刪除字符等方法，也可以調換詞語順序來規避檢測，針對此類現象可以采用相似度算法進行匹配。從本質上說，相似度算法也是一種匹配算法，針對不同字符串的相似度算法，包括匹配相似度算法、集合相似度算法、空間向量模型相似度算法等等。

（三）中文分詞技術

在進行文獻檢測過程中如果采用了整句搜索關鍵詞方法，會導致所檢測的內容或匹配信息過于片面，并且檢測過程也十分復雜，檢測時間較長，與當代學術爆炸時代不相符。基于此，可以采用中文分詞技術展開檢測。在實際應用當中，通過對詞匯進行分割，找出句子當中的相同/相似字符相似率，從而判定句子相似率，從而提高檢測精度和效率。該項技術包含了字符串匹配分詞、統計方法分詞、知識理解分詞等技術手段。

三、計算機程序抄襲檢測系統功能分析

抄襲檢測系統設計需要結合用戶的使用需求和功能需求兩個方面開展，只有保證檢測系統設計的針對性，才能夠提高系統程序設計的適用性。究根結底，設計抄襲檢測系統主要是為了最大程度上檢測出文檔抄襲，但也要關注整個軟件的可操作性與效率性。

（一）使用需求分析

一篇文檔完成之后，如果沒有進行抄襲檢測，則他人無法認定文檔當中哪個部分存在抄襲問題，所以大部分文檔都需要展開抄襲檢測或匹配檢測，我國大部分軟件都是以百分比的形式表示抄襲比例，如知網檢測、paperpass、萬方檢測等。同時，也需要充分考慮抄襲檢測系統用戶的使用邏輯思維和習慣，這就要在不同程序文檔進行相似度匹配后，對這些相似度計算內容展開方向性排序，采用上述計算分析處理后即可找出相似度最高文檔，這樣即可更加精準、高效的找出抄襲內容。

（二）使用功能分析

1.按照抄襲檢測的邏輯程序將抄襲檢測系統的檢測路徑和名稱進行檢測，也可以對這些的文檔進行刪除與添加將，之后可以采用分析需求方法，把指定程序文檔進行部分刪除或全部刪除，也可以清空處理。

2.設計文檔相似度計算功能，需要將這些將要被抄襲系統對被檢測的程序文檔進行相互匹配計算，也就是把文檔內容展開匹配分析，并在此基礎上對這些文檔的相似度進行計算。之后把上述程序文檔相似度計算結果，把被抄襲文獻的抄襲比例由高向低進行一一排序。由此可見，將相似度匹配技術應用到抄襲系統當中，可以有效提高檢測精度，這也是整個檢測系統的核心功能。

3.對于被檢測文檔相似度較高的對象（文獻）展開進一步的劃分和處理。相似度較高的程序文檔能夠說明此文檔存在較高的抄襲性，所以在相似度匹配結果上要對文獻內容進行細致分析，從而進一步確定被檢測文檔是否存在著抄襲情況。在系統分析當中，需要把兩個相似度最高的文獻展開深度對比，并將相似/抄襲部分用特殊顏色標注。如果相似度匹配結果較低，可以確定這些文檔幾乎不存在相互抄襲的情況。

四、計算機程序抄襲檢測系統的設計思路

雖然當今我國很多檢測軟件都能夠在很大程度上分析文檔的抄襲率，但從宏觀層面上看，檢測系統依然不夠完善，還存在著一些漏洞問題，如中英文環境沖擊和反抄襲功能需求。所以，檢測系統要重點從適應英文文獻下的抄襲檢測技術工具，也就是讓該系統中具備對英文字符進行分割，從而展開相似度匹配計算方法，之后將相似匹配過程展開模糊、分割匹配計算方法，這樣即可對英文文獻字符進行檢測分析，提高抄襲檢測的精準性和廣泛性，根據檢測個層次字符串標準，對被檢測文檔進行相似度匹配計算，為抄襲現象提供相應的依據。

再者，為了能夠提高檢測系統的實用性，還要在檢測數據庫中存儲、添加劑中英文文檔，保證資源庫的及時更新性，加強數據庫資源的維護，可以把過于老舊或廢氣的文獻剔除，提高數據庫的空間率。以此為思路，結合抄襲檢測系統的功能模塊功能，對整個系統進行開發設計和優化升級。本文認為，檢測系統功能模塊設計中，需要服務的對象主要包括以下幾點：

（一）在系統設計中，重點內容就是面向系統用戶的功能設計方法，結合用戶的實際需求，提供之前檢測系統所欠缺的用戶個人數據維護、新用戶注冊、信息定時/實時更新、數據修改與完善、會員登錄、提交信息資源文檔、查詢檢測結果、強化操作處理等多個方面。

（二）在計算機程序抄襲檢測系統設計層面上，也要針對系統管理員展開針對性設計。也就是結合管理員的實際操作內容和標準，提供文檔資源數據庫中的中英文程序文檔操作功能，主要包括相關文檔的添加/闡述、維護信息資源、信息資源列表、定時/實時更新等方面。與此同時，為了能夠提高整個系統在實際操作中的適應性，還需要提供針對管理人員的數據庫系統操作內容，包括界面操作、模塊化服務功能，設立模塊接口，以便于后續的功能增添和操作。

（三）在以上設計的理念與思路下，該檢測系統的登錄過程和應用流程如下：首先，系統管理人員可以先注冊登錄管理人員的身份賬號，并賦予相應的操作權限；其次，管理人員通過輸入相應的賬號密碼登錄到檢測系統平臺中，把所檢測的中英文檔添加到信息資源庫當中，這樣即可提高文檔檢測的便捷性。系統用戶在完成系統平臺注冊登錄后即可檢測文檔抄襲率或相似率；再次，整個檢測系統對被檢測的文檔進行匹配計算后（與數據庫資源進行匹配），即可由高到低羅列出相似度較高的文檔信息；最后，把這些相似度較高的文檔進行對照對比，采用兩兩對比分析的方法，將最終的計算結果反饋給操作用戶。

五、結束語

綜上所述，為了能夠提高抄襲檢測精度、效率、適用性，需要在現有的檢測系統上進行升級改造或再設計，將整個系統設計出注冊、篩選、抄襲檢測、后臺信息維護等多個模塊，并保證每個模塊可以相互獨立運行，這樣即可更好的為抄襲檢測系統提供服務。