●李萬武
識別畢業論文抄襲的實驗研究
●李萬武
近幾年來,大學生畢業論文抄襲現象較為嚴重,通過組織學生參加設計論文抄襲識別系統實踐,即可人工智能識別出抄襲的論文,又能提高學生的實踐能力。文章通過整理分析計算機學院現存的大量論文資料,設計了符合專業特征的論文抄襲識別系統,用一定數量的論文進行了系統檢驗,識別的結論正確。
論文抄襲 面向對象 特征選擇 相似度計算
近年來,部分計算機學院大學畢業論文中總會出現全部或部分抄襲他人論文的現象。受我國大學生就業壓力的影響,部分大四畢業生于畢業設計期間在外實習工作,這部分學生的畢業設計活動指導教師不好控制,容易出現抄襲的畢業設計論文。畢業生指導教師根據學校制度,以開題答辯、中期檢查和畢業答辯形式指導、檢查和監督學生的設計,在整個設計期間指導教師負責任地和畢業生保持緊密的聯系,但以目前的工作方式并不能阻擋抄襲行為上升勢頭。
受經濟利益驅使,網絡上出現販賣計算機專業畢業設計論文的網站,這使畢業生花錢能輕易獲得論文。學校制定嚴格的懲處措施處理畢業論文抄襲的學生,指導教師只接觸少量畢業生論文,因此發現論文抄襲的幾率不高,大部分違紀學生還是逃脫了懲罰。
我們針對計算機專業,利用實驗室設備組織了學生設計抄襲論文識別實驗。教師提出論文相似性計算方法和編制實驗方案,學生在理解論文相似性算法后,按照實驗方案做信息分析和編寫軟件,并將完成的作品發布在網絡上,初步使用在本院的畢業設計論文抄襲檢查中。該實驗一定程度上制約了學生論文抄襲行為,并激發了學習興趣、提高了學生動手能力。
相似的文本具有相似的關鍵詞或相對詞頻,因此可以基于關鍵詞向量或關鍵詞相對詞頻向量來計算一組文本的相似度。文本與詞的相關矩陣如圖1所示,其中表示第i篇文本與第j個詞的相關程度,取值范圍為[0,1]。相關矩陣中的行描述一篇文本的特征,稱之為文本特征向量,列表示每個特征項與文獻集的相關程度。

圖1 文本與詞的相關矩陣
文本相似性算法有多種,但考慮到本校學生的接受能力,算法選擇《數據挖掘》課程中教授的余弦算法。
利用文本與詞的相關矩陣可以通過分析文本之間的相關性。相關性的大小可以用相關系數S來度量,第i篇文本與第j篇文本的相關系數可以表示為Sij。
文檔向量之間的關系用余弦法表示為:

學院共有3臺供教學實驗用的SUN品牌服務器和四個計算機實驗室,在教務科存儲有歷年學生提交的畢業設計論文光盤(估計有11000張左右),每個實驗室有學生實驗用的計算機50臺左右,均網絡連接。從實際情況出發,實驗按如下四個階段進行:

圖2 實驗室計算機網絡結構拓撲圖
1.建設網絡平臺。四個計算機實驗室通過交換機級聯能互相訪問,其中的信息控制實驗室有一條專用線路與學校網絡信息中心的主路由器連接,理論上此鏈路能到達全校網絡上開放的每個計算機。3臺SUN品牌服務器中,2臺作為應用服務器,1臺作為數據庫服務器。實驗室內計算機實驗室網絡連接拓撲結構如圖2。
應用服務器1安裝Windows Server2003操作系統+IIS服務,應用服務器2安裝linux操作系統+Tomcat服務,數據庫服務器安裝Windows Server2003操作系統+SQL Server數據庫。
2.建論文信息庫。如果用常用的漢語詞典的詞表示文本特征的詞匯,則因為詞匯數量大,造成相應詞頻矩陣的維度過高、信息處理的效率低。為此首先應建立能表示計算機專業畢業論文特征的低維詞匯庫。初步從大量論文中提取2000個左右的計算機專業詞匯庫,利用編制的計算機專業詞匯庫建立論文的特征向量矩陣,即建立教務科存儲的光盤中每篇論文的特征向量矩陣,存儲到已建好的數據庫服務器中。
3.開發應用軟件。應用服務器1中的應用程序用asp.net開發,應用服務器2中的信息處理應用Jsp+Ajax開發。軟件開發采用面向對象方法,系統中完成一定功能的核心代碼asp.net中封裝為Activex組件,java環境中封裝為類庫,使用CSS美化頁面。
微軟公司提供了office產品外部訪問的com接口。C++訪問接口主要代碼如下:

教師用c++開發工具設計了獲取word文件中文本的COM組件,即為學生開發的軟件提供訪問word文檔的接口。
學生開發web應用軟件實現如下功能:①獲取word文件中文本,根據計算機專業詞匯集合建立論文特征向量矩陣,將向量矩陣存入到paper數據庫中;②假設有n個論文,應用余弦算法后臺計算n個論文之間的相似度,得到n×n的數據表格存入paper數據庫中;③從paper數據庫中排序讀取相似度表格,根據相似度識別出抄襲的論文。
從學院各班級中選拔出優秀學生10名,按上述的設計方案進行實驗。
1.網絡環境搭建。首先在實驗室中三臺服務器中分別安裝操作系統和數據庫,并配置相應Web服務,新建名為paper的數據庫。經過測試檢查確認實驗室網絡運行正常。
2.信息分析。從教務科調出有代表性的100篇電子版畢業論文,每個學生分配10篇論文,安排他們從各自論文集中挖掘出2000個計算機專業詞匯,按規定格式保存在Excel文件中。教師對收集的Excel文件中詞匯集進行比對篩選,最終選出2015個計算機專業詞匯,并將這2015個詞匯導入到已建好的paper數據庫中。
3.軟件開發。5個學生一組用asp.net開發運行在IIS服務環境下的信息處理系統,其他5個學生用java開發運行在tomcat服務環境下的應用。經過35天開發,學生開發的應用軟件在服務器調試運行。兩組學生使用了一致的算法,將100篇論文進行了比對,得出論文之間相似度矩陣,將結論以行列100×100關系型數據表格形式顯示。對數據按相似度排序,有2篇論文之間的明顯相似度數值大,相似度為0.891,可認為是抄襲的論文。經人工判斷,2篇論文內容大部分相似,計算機自動判斷結論正確。
雖然已完成的論文抄襲識別系統能初步滿足要求,但實際應用中還需要改進。主要改進的方面有:提煉計算機專業詞庫;提高算法精度;加快識別速度。
1.提煉計算機專業詞庫。編制的計算機專業詞庫沒有經過實踐的檢驗,需要在學院保存11000篇論文進行識別過程中,進一步迭代整理詞庫,使之能精確反映計算機專業論文特征。
2.提高算法精度。沒有考慮詞的權重,也沒考慮詞與詞之間的依賴性,在一定程度上影響了精確度,需要改進算法。
3.加快識別速度。由于在論文相似性比對過程中,處理的信息量巨大,僅依靠實驗室中兩臺服務器處理,運行時間慢長、效率低。計劃將實驗室中計算機(大約200臺)參與到分布式計算中,期待提高論文相似度計算速度。
互聯網上提供的大量計算機專業論文資料,使畢業生能輕易抄襲他人論文。目前僅靠學校嚴格的管理手段和指導教師的認真負責并不能完全杜絕論文抄襲現象,而利用計算機技術人工智能識別論文抄襲,在技術上高效地打消了畢業生僥幸心理。
組織學生實現的論文抄襲識別系統實驗作品,經進一步改進后可以實際使用在計算機教學管理工作中。通過本項目實驗活動,提高了學生的網絡、程序開發、信息整理等方面的實踐能力,同時也教育了大學生努力學習、拒絕抄襲。
[1] 于守健,夏小玲,樂嘉錦.基于語義描述的分布式W eb服務發布與發現[J].計算機工程,2007
[2] 于守健,朱勤,樂嘉錦.一種基于分布式哈希表的W eb服務目錄系統[J].計算機工程,2007
[3] 李曉暉等.基于O racle的文獻資料庫全文檢索技術[J].成都信息工程學院學報,2003
[4] 閔小玲.W eb應用系統設計的JSP技術方法[J].黃石理工學院學報,2005
[5] 陳治綱,何丕廉,孫越恒.基于向量空間模型的文本分類系統的研究與實現.中文信息學報,2005
[6] 王秀娟.文本檢索中若干問題的研究[D].北京:北京郵電大學,2006
[7] 劉群,李素建.基于“知網”的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會,2002
[8] R.Yangaber,R.Grishman,P.Tapainen.Unsupervised Discovery of Scenario LevelPatterns for Information Extraction.In Proceedings of the Sixth Applied NaturalLanguage Processing Conference,Seattle A,2000,282-289
[9] Zhang YiQi,Zhou Qiang.The auto identification of Chinesebase phrase[J].Journal of Chinese Information Processing,2003,16(3):1-8
[10] 劉群,張華平,張浩.計算所漢語詞性標記集Version3.0[Z].2004
[11] Roger Levy and Christopher D.Manning.Is it harderto parse Chinese or the Chinese Treebank?[A].In:proceedings of the 41st Annual Meeting of theAssociation for Computational Linguistics[C].200
[12] Daniel M.Bikel and David Chiang.Two statisticalparsing models applied to the Chinese Tree-bank[A].In::proceedings of the Second ChineseLanguage Processing W orkshop,ACL[C],2000
[13] 張浩,劉群,白碩等.結構上下文相關的概率句法分析[A].第一屆學生計算語言學研討會論文集[C].北京大學,2002
[14] Zhengping Jiang.Statistical Chinese parsing[Z].Honours thesis,2004,National University of Singapore
[15] M ichael Conllins.Head-Driven Statistical Models for Natural Language Parsing[D].University of Pennsylvania,1999
(作者單位:黑龍江科技大學計算機學院 黑龍江哈爾濱 150027)
(責編:呂尚)
G645
A
1004-4914(2014)01-263-03