999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

識別畢業論文抄襲的實驗研究

2014-04-28 03:44:18李萬武
經濟師 2014年1期
關鍵詞:詞匯實驗室計算機

●李萬武

識別畢業論文抄襲的實驗研究

●李萬武

近幾年來,大學生畢業論文抄襲現象較為嚴重,通過組織學生參加設計論文抄襲識別系統實踐,即可人工智能識別出抄襲的論文,又能提高學生的實踐能力。文章通過整理分析計算機學院現存的大量論文資料,設計了符合專業特征的論文抄襲識別系統,用一定數量的論文進行了系統檢驗,識別的結論正確。

論文抄襲 面向對象 特征選擇 相似度計算

引言

近年來,部分計算機學院大學畢業論文中總會出現全部或部分抄襲他人論文的現象。受我國大學生就業壓力的影響,部分大四畢業生于畢業設計期間在外實習工作,這部分學生的畢業設計活動指導教師不好控制,容易出現抄襲的畢業設計論文。畢業生指導教師根據學校制度,以開題答辯、中期檢查和畢業答辯形式指導、檢查和監督學生的設計,在整個設計期間指導教師負責任地和畢業生保持緊密的聯系,但以目前的工作方式并不能阻擋抄襲行為上升勢頭。

受經濟利益驅使,網絡上出現販賣計算機專業畢業設計論文的網站,這使畢業生花錢能輕易獲得論文。學校制定嚴格的懲處措施處理畢業論文抄襲的學生,指導教師只接觸少量畢業生論文,因此發現論文抄襲的幾率不高,大部分違紀學生還是逃脫了懲罰。

我們針對計算機專業,利用實驗室設備組織了學生設計抄襲論文識別實驗。教師提出論文相似性計算方法和編制實驗方案,學生在理解論文相似性算法后,按照實驗方案做信息分析和編寫軟件,并將完成的作品發布在網絡上,初步使用在本院的畢業設計論文抄襲檢查中。該實驗一定程度上制約了學生論文抄襲行為,并激發了學習興趣、提高了學生動手能力。

一、論文相似性計算

相似的文本具有相似的關鍵詞或相對詞頻,因此可以基于關鍵詞向量或關鍵詞相對詞頻向量來計算一組文本的相似度。文本與詞的相關矩陣如圖1所示,其中表示第i篇文本與第j個詞的相關程度,取值范圍為[0,1]。相關矩陣中的行描述一篇文本的特征,稱之為文本特征向量,列表示每個特征項與文獻集的相關程度。

圖1 文本與詞的相關矩陣

文本相似性算法有多種,但考慮到本校學生的接受能力,算法選擇《數據挖掘》課程中教授的余弦算法。

利用文本與詞的相關矩陣可以通過分析文本之間的相關性。相關性的大小可以用相關系數S來度量,第i篇文本與第j篇文本的相關系數可以表示為Sij。

文檔向量之間的關系用余弦法表示為:

二、設計方案

學院共有3臺供教學實驗用的SUN品牌服務器和四個計算機實驗室,在教務科存儲有歷年學生提交的畢業設計論文光盤(估計有11000張左右),每個實驗室有學生實驗用的計算機50臺左右,均網絡連接。從實際情況出發,實驗按如下四個階段進行:

圖2 實驗室計算機網絡結構拓撲圖

1.建設網絡平臺。四個計算機實驗室通過交換機級聯能互相訪問,其中的信息控制實驗室有一條專用線路與學校網絡信息中心的主路由器連接,理論上此鏈路能到達全校網絡上開放的每個計算機。3臺SUN品牌服務器中,2臺作為應用服務器,1臺作為數據庫服務器。實驗室內計算機實驗室網絡連接拓撲結構如圖2。

應用服務器1安裝Windows Server2003操作系統+IIS服務,應用服務器2安裝linux操作系統+Tomcat服務,數據庫服務器安裝Windows Server2003操作系統+SQL Server數據庫。

2.建論文信息庫。如果用常用的漢語詞典的詞表示文本特征的詞匯,則因為詞匯數量大,造成相應詞頻矩陣的維度過高、信息處理的效率低。為此首先應建立能表示計算機專業畢業論文特征的低維詞匯庫。初步從大量論文中提取2000個左右的計算機專業詞匯庫,利用編制的計算機專業詞匯庫建立論文的特征向量矩陣,即建立教務科存儲的光盤中每篇論文的特征向量矩陣,存儲到已建好的數據庫服務器中。

3.開發應用軟件。應用服務器1中的應用程序用asp.net開發,應用服務器2中的信息處理應用Jsp+Ajax開發。軟件開發采用面向對象方法,系統中完成一定功能的核心代碼asp.net中封裝為Activex組件,java環境中封裝為類庫,使用CSS美化頁面。

微軟公司提供了office產品外部訪問的com接口。C++訪問接口主要代碼如下:

教師用c++開發工具設計了獲取word文件中文本的COM組件,即為學生開發的軟件提供訪問word文檔的接口。

學生開發web應用軟件實現如下功能:①獲取word文件中文本,根據計算機專業詞匯集合建立論文特征向量矩陣,將向量矩陣存入到paper數據庫中;②假設有n個論文,應用余弦算法后臺計算n個論文之間的相似度,得到n×n的數據表格存入paper數據庫中;③從paper數據庫中排序讀取相似度表格,根據相似度識別出抄襲的論文。

三、實驗

從學院各班級中選拔出優秀學生10名,按上述的設計方案進行實驗。

1.網絡環境搭建。首先在實驗室中三臺服務器中分別安裝操作系統和數據庫,并配置相應Web服務,新建名為paper的數據庫。經過測試檢查確認實驗室網絡運行正常。

2.信息分析。從教務科調出有代表性的100篇電子版畢業論文,每個學生分配10篇論文,安排他們從各自論文集中挖掘出2000個計算機專業詞匯,按規定格式保存在Excel文件中。教師對收集的Excel文件中詞匯集進行比對篩選,最終選出2015個計算機專業詞匯,并將這2015個詞匯導入到已建好的paper數據庫中。

3.軟件開發。5個學生一組用asp.net開發運行在IIS服務環境下的信息處理系統,其他5個學生用java開發運行在tomcat服務環境下的應用。經過35天開發,學生開發的應用軟件在服務器調試運行。兩組學生使用了一致的算法,將100篇論文進行了比對,得出論文之間相似度矩陣,將結論以行列100×100關系型數據表格形式顯示。對數據按相似度排序,有2篇論文之間的明顯相似度數值大,相似度為0.891,可認為是抄襲的論文。經人工判斷,2篇論文內容大部分相似,計算機自動判斷結論正確。

四、改進系統

雖然已完成的論文抄襲識別系統能初步滿足要求,但實際應用中還需要改進。主要改進的方面有:提煉計算機專業詞庫;提高算法精度;加快識別速度。

1.提煉計算機專業詞庫。編制的計算機專業詞庫沒有經過實踐的檢驗,需要在學院保存11000篇論文進行識別過程中,進一步迭代整理詞庫,使之能精確反映計算機專業論文特征。

2.提高算法精度。沒有考慮詞的權重,也沒考慮詞與詞之間的依賴性,在一定程度上影響了精確度,需要改進算法。

3.加快識別速度。由于在論文相似性比對過程中,處理的信息量巨大,僅依靠實驗室中兩臺服務器處理,運行時間慢長、效率低。計劃將實驗室中計算機(大約200臺)參與到分布式計算中,期待提高論文相似度計算速度。

五、結束語

互聯網上提供的大量計算機專業論文資料,使畢業生能輕易抄襲他人論文。目前僅靠學校嚴格的管理手段和指導教師的認真負責并不能完全杜絕論文抄襲現象,而利用計算機技術人工智能識別論文抄襲,在技術上高效地打消了畢業生僥幸心理。

組織學生實現的論文抄襲識別系統實驗作品,經進一步改進后可以實際使用在計算機教學管理工作中。通過本項目實驗活動,提高了學生的網絡、程序開發、信息整理等方面的實踐能力,同時也教育了大學生努力學習、拒絕抄襲。

[1] 于守健,夏小玲,樂嘉錦.基于語義描述的分布式W eb服務發布與發現[J].計算機工程,2007

[2] 于守健,朱勤,樂嘉錦.一種基于分布式哈希表的W eb服務目錄系統[J].計算機工程,2007

[3] 李曉暉等.基于O racle的文獻資料庫全文檢索技術[J].成都信息工程學院學報,2003

[4] 閔小玲.W eb應用系統設計的JSP技術方法[J].黃石理工學院學報,2005

[5] 陳治綱,何丕廉,孫越恒.基于向量空間模型的文本分類系統的研究與實現.中文信息學報,2005

[6] 王秀娟.文本檢索中若干問題的研究[D].北京:北京郵電大學,2006

[7] 劉群,李素建.基于“知網”的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會,2002

[8] R.Yangaber,R.Grishman,P.Tapainen.Unsupervised Discovery of Scenario LevelPatterns for Information Extraction.In Proceedings of the Sixth Applied NaturalLanguage Processing Conference,Seattle A,2000,282-289

[9] Zhang YiQi,Zhou Qiang.The auto identification of Chinesebase phrase[J].Journal of Chinese Information Processing,2003,16(3):1-8

[10] 劉群,張華平,張浩.計算所漢語詞性標記集Version3.0[Z].2004

[11] Roger Levy and Christopher D.Manning.Is it harderto parse Chinese or the Chinese Treebank?[A].In:proceedings of the 41st Annual Meeting of theAssociation for Computational Linguistics[C].200

[12] Daniel M.Bikel and David Chiang.Two statisticalparsing models applied to the Chinese Tree-bank[A].In::proceedings of the Second ChineseLanguage Processing W orkshop,ACL[C],2000

[13] 張浩,劉群,白碩等.結構上下文相關的概率句法分析[A].第一屆學生計算語言學研討會論文集[C].北京大學,2002

[14] Zhengping Jiang.Statistical Chinese parsing[Z].Honours thesis,2004,National University of Singapore

[15] M ichael Conllins.Head-Driven Statistical Models for Natural Language Parsing[D].University of Pennsylvania,1999

(作者單位:黑龍江科技大學計算機學院 黑龍江哈爾濱 150027)

(責編:呂尚)

G645

A

1004-4914(2014)01-263-03

猜你喜歡
詞匯實驗室計算機
計算機操作系統
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
本刊可直接用縮寫的常用詞匯
電競實驗室
電子競技(2019年22期)2019-03-07 05:17:26
電競實驗室
電子競技(2019年21期)2019-02-24 06:55:52
電競實驗室
電子競技(2019年20期)2019-02-24 06:55:35
電競實驗室
電子競技(2019年19期)2019-01-16 05:36:09
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
主站蜘蛛池模板: 毛片卡一卡二| 日本三区视频| 91精品亚洲| 黄色网站不卡无码| 91网红精品在线观看| 日韩AV无码一区| 一级毛片高清| 亚洲欧美在线精品一区二区| 亚洲成人精品| 国产色爱av资源综合区| 国产激情在线视频| 高清无码一本到东京热| 人妻丝袜无码视频| 婷婷色中文网| 午夜激情婷婷| 狼友视频国产精品首页| 国产精品免费露脸视频| 91久久大香线蕉| 91麻豆国产视频| 免费一级成人毛片| 黄色a一级视频| 国产精品视频999| 99在线国产| 国产女人18毛片水真多1| 国产第四页| 国产亚洲欧美另类一区二区| 五月婷婷丁香综合| 视频一区视频二区日韩专区| 日本成人精品视频| 亚亚洲乱码一二三四区| 亚洲日韩久久综合中文字幕| 美女内射视频WWW网站午夜| 免费国产在线精品一区| 国产成a人片在线播放| 91精品情国产情侣高潮对白蜜| 免费国产无遮挡又黄又爽| 99久久人妻精品免费二区| 亚洲日韩每日更新| 爱做久久久久久| 久久免费视频6| 成人毛片免费在线观看| 亚洲天堂网在线视频| 最近最新中文字幕在线第一页| 毛片在线区| 国产成人免费视频精品一区二区| 成年人国产网站| 日韩国产亚洲一区二区在线观看| 精品国产Av电影无码久久久 | 国产亚洲欧美在线人成aaaa| 91成人免费观看| 91成人试看福利体验区| 波多野结衣一区二区三区AV| 亚洲国产一区在线观看| 午夜国产精品视频黄| 色男人的天堂久久综合| 性激烈欧美三级在线播放| 成人免费黄色小视频| 欧美精品啪啪一区二区三区| 亚洲精品爱草草视频在线| 美女一级毛片无遮挡内谢| 日韩免费毛片| 精品视频一区二区观看| 一级毛片在线免费看| 国产丰满成熟女性性满足视频| 国产一区二区三区免费观看| 2020精品极品国产色在线观看| 久久精品人人做人人爽电影蜜月 | 欧美日一级片| 天天色天天综合网| 亚洲欧美成人网| 国产日韩欧美在线视频免费观看| 毛片免费在线视频| 亚洲最大综合网| 色国产视频| 98精品全国免费观看视频| 亚洲天堂视频在线观看免费| 啦啦啦网站在线观看a毛片| 免费国产好深啊好涨好硬视频| 伊人久久婷婷| 毛片基地视频| 狠狠v日韩v欧美v| 亚洲综合色在线|