999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子作業相似性檢測技術的研究與實現

2017-10-12 06:58:05張海騰冷春霞
電子設計工程 2017年19期
關鍵詞:特征文本作業

張海騰,翟 潔,冷春霞

(華東理工大學 信息科學與工程學院,上海200237)

電子作業相似性檢測技術的研究與實現

張海騰,翟 潔,冷春霞

(華東理工大學 信息科學與工程學院,上海200237)

隨著作業數據的電子化,為了能夠更好地監督學生的抄襲行為,本文研究了電子作業相似性檢測的相關技術,分析了作業檢測的流程,給出了文本內容提取、中文分詞、文本特征提取和文本相似性計算4個部分的關鍵技術和實現算法,并在此基礎上開發了一個作業相似性檢測系統,實現了對作業文檔的對比和檢測,系統的實現為將來作業電子化進一步發展提供了技術指導和理論依據。

電子作業;相似性;文本檢測;作業抄襲

Abstract:With the electronic of student homework,in order to better monitor the students'copying behavior, this paper studied the related technologies of similarity detection in electronic work, analyzed the work flow of electronic homework similarity detection,and presented the key technologies of text content extraction, Chinese word segmentation, text feature extraction and text similarity calculation.On the basis of this,a homework similarity detection system was developed to implement the comparison and detection of the homework documents,the realization of the system provided the technical guidance and theoretical basis for the better development of the electronic homework in the future.

Key words:electronic homework; similarity; text detection; plagiarism

作業是老師檢驗學生學習效果的一種重要手段,當前隨著網絡的不斷普及,大學教學當中,老師和學生之間作業的互動模式也產生了很大的變化,很多時候,學生的作業不再需要手工書寫去完成,而是借助于各種電子寫作工具去完成,學生提交作業不再是手工提交,而是借助于各種作業管理平臺進行在線提交[1]。但是,隨著師生之間作業互動模式發生變革的同時,也產生了一些新的問題,一些學生會以其他學生的作業文檔作為模板,只做少量甚至不做修改就交給老師,這種行為嚴重地影響了老師的教學效果,對學生自身的學習也是有害的。

綜上所述,在當今的信息時代,如何針對作業大數據進行相似性檢測成為了一個重要的研究課題,也是提高高校教育教學效率和質量的一個重要課題[2]。因此,針對上述問題,設計一個電子作業相似性檢測系統,實現對學生的作業相似性進行自動比對,這樣一方面能夠幫助教師從大量作業中找出有抄襲嫌疑的作業對象,減輕教師的工作負擔,提高教師工作效率;另一方面,作業相似性檢測系統的使用也可以較好地遏制學生抄襲作業的行為,促進學生去獨立完成作業,對提高學生的學習成績也有很大的幫助。

1 檢測流程

實現作業相似性檢測的主要目的就是針對一個作業集當中的作業進行兩兩比對,度量兩個文檔內容之間的相關程度,并用一個具體的數值量化這兩個文檔間的相似性。相似性越高,表示這兩個作業中共同的元素越多,作業抄襲的可能性就越大,反之,相似性越低,則表示這兩個作業文檔的內容重復性較少,作業抄襲的可能性就越小。

實現作業相似性檢測的工作流程如圖1所示。首先要提取出作業文本中的主要內容,并對這些文本進行分詞操作,切割出文檔中的關鍵詞語,統計出有效的關鍵詞作為文本的特征項,然后計算出這些特征項的權重,并利用信息模型領域廣泛使用的向量空間來表示文本的內容,文本就可以被看作是由一組互相獨立的詞項組成的向量空間集,每個文本被表示成文本特征項及相應權重所組成的一個向量,這樣通過向量間距離的計算就可以求得兩個文本之間的相似性。

圖1 作業相似性檢測流程圖

2 技術實現

2.1 文本內容提取

對于作業文本,相似性檢測的首要工作就是要提取出相應電子文本的正文內容,這是文本相似性檢測的前提。要想提取文本的主題內容就必須首先分析文本內容的語法結構。實際操作中,學生提交的作業,一般是兩種類型的文檔,一種是Word文檔,一種是PDF文檔。

Word文檔中包含了一系列可操作的對象庫,例如,Application對象用來表示Word應用程序,Document對象用來表示當前文檔,Paragraph對象用來表示選定的內容或者段落。了解了Word文檔的這些可操作對象庫以后,就可以通過操作不同的對象來對文檔進行相應的操作。目前針對Word文檔的讀取操作主要采用第三方的Apache POI[3]組件,該組件是一個Apache的開源項目,它提供了API給Java語言,以實現對Microsoft的Office文檔進行讀寫操作。

PDF文檔也是常見的作業文檔提交形式,如果要抽取它的文本內容,需要解析PDF文檔的格式。PDF文檔包含了多種對象類型,并且將文字、格式、字型、顏色以及獨立于設備和分辨率的多種圖形圖像元素封裝起來。對于PDF文檔內容的提取,可以借助PDFBox[4]完成,PDFBox也是一個開源項目,它為開發人員讀取和創建PDF文檔提供了純Java類庫。它具有提取PDF文檔的文本內容、對PDF文檔文檔進行加密和解密,將一個PDF文檔切割成多個文檔,將PDF文檔轉換成文本文檔或者將文本文檔轉換成PDF文檔等多個特性。

2.2 中文分詞

中文分詞是作業文本處理中的一個重要環節,分詞的主要目的是采用某種技術和方法將指定的文本序列切割成有一個個具有獨立意義的詞語[5]。除此之外,中文分詞還包括去除停用詞、去除標點符號等多個方面的工作。

中文分詞領域里廣泛采用的方法是基于詞典的分詞方法[6]。該方法的基本思想是以漢語詞典作為基礎,采用一定的匹配策略將需要分詞的作業文本串與詞典當中的詞條進行匹配,如果能在詞典中匹配到某個字符串,就把相應的字符串切割出來[7]。本文在匹配時采取了正向掃描和最大匹配的策略。首先從左至右對作業文本中的字符串逐一進行掃描,取出文本中的第一個字,將這個字與詞典中的詞條進行匹配,查看該字是否存在于詞典當中,如果不存在,則該字被舍棄掉,如果存在,則標記這個字,繼續從文本中讀出下一個字,與前面的字組成新詞,并與詞典中的詞條再次匹配,依此類推,逐字增加,直到不能匹配到為止,這些字組成的最大匹配詞被分割出來,一次分詞結束。繼續掃描剩余的文本內容,重復上面的操作,直到文本末尾,這樣,作業文本中的詞條被一個個切分出來。基于詞典的分詞方法實現起來較為簡單,分詞也較為準確,與其他方法比較具有較為明顯的優點,因此本文中使用該方法完成作業文本內容的分詞操作。

2.3 文本特征提取

作業文本相似性檢測中,如果對兩個完整的作業文本中的所有詞條進行完全比對,計算的復雜度比較大,因此需要從待檢測文檔中抽取出最具有代表性的詞條組成文本的特征項集合,這些特征項集合能夠反映出整篇文本的內容和特點。實際操作中,文本特征提取的常用方法是:首先通過中文分詞方法得到文檔中的所有詞條,剔除不必要的詞,并計算每個詞條的權重,當某些詞條被賦予了較低的權重時,表示它們在整個文檔中具有較少的代表性,不適合將這些詞作為特征項,需要將這些詞條從原始的特征空間當中剔除。通過這種方法,可以有效地降低特征空間的維數。

目前計算文檔中詞條權重最為廣泛使用的方法是TF-IDF (Term Frequency-Inverse Document Frequency)方法[8],TF(Term Frequency)稱為詞頻,指某個詞條在給定文本中出現的頻數,頻數越高,表明該詞條在給定文本中的重要性越大。IDF(Inverse Document Frequency)稱為反文檔頻度,用來表示一個特定詞條在整個文本集中出現的頻數,該詞條在文本集中出現的頻數越高,則表示該詞條的區分能力越弱[9]。本文中使用TF-IDF方法計算權重的公式為wi=tfi×idfi;其中wi表示文本中第i個特征項的權重,tfi表示第i個特征項在文本中的頻數,idfi表示第i個特征項的反比文本頻數。TF-IDF方法表明,如果某個詞條在當前文本中出現的頻數較高,而在整個文本集中出現的頻數較低,說明這個詞條表達該文本主題內容的能力越強[10]。

將特征項和特征項的權重綜合起來,一個作業文檔就可以表示為:D=(t1,w1;t2,w2;…;ti,wi;…;tn,wn),其中ti表示第i個特征項,wi表示ti在文檔D中的權重值。 如果把 t1,t2,…ti,…tn,看作一個 n 維坐標系中的坐標軸,w1,w2,…,wi…wn是對應的坐標值,那么由 t1,t2,…ti,…tn分解得到的正交矢量組就構成了一個文檔的向量空間。應用向量空間來表示作業文檔,能夠較為準確地體現出文檔的特征,還能方便地用它來完成對文檔的分類和聚類等工作,所以本文中采用向量空間模型來表示文本是較為理想的方法。

2.4 文本相似性計算

當把每個作業文本用特征項及其權重表示為一個向量空間后,作業文本相似性檢測的問題就轉換為了向量空間的運算問題[11]。兩個文檔內容間的相似性,可以借助于向量之間的距離來表示[12]。向量之間的距離通常用向量之間的內積或者夾角余弦值來度量[13]。

假設兩個作業文本 D1(w11,w12,…w1i,…,w1n)和D2(w21,w22,…w2i,…,w2n),w1i表示文本 D1中特征項的權重,w2i,表示文本D2中特征項的權重,則兩個文本的相似性用向量的內積來計算得到,公式為:也可以使用夾角余弦值計算得到,公式為

除此之外,還有一些采用其他的文檔距離計算方法,如:數量積法、相關系數法、指數相似系數法、最大-最小法、幾何平均最小法、算術平均最小法等,這些算法可以用來更好的改進文本相似度的計算結果[14]。

3 檢測結果

基于以上技術的分析,本文基于JAVA EE[15]實現了一個B/S結構的電子作業相似性檢測系統,當用戶登錄成功后,點擊作業檢測功能,出現作業檢測頁面如圖2所示。用戶可以在左右兩側分別提交需要進行相似性檢測的兩個文檔,文檔類型可以為Word或者PDF格式。文檔提交后,系統可以自動提取出文檔的內容,并顯示出來。點擊開始比較按鈕后,系統開始進行文檔的相似性檢測,并顯示出檢測結果。如圖2所示,文檔中不相同的部分,用帶下劃線的文字在兩個文檔中顯示出來。

圖2 作業相似性檢測結果

4 結束語

本文分析了當前電子作業存在的問題,給出了電子作業相似性檢測的工作流程,并對其中涉及到的關鍵技術,如文本內容提取、中文分詞、文本特征提取和文本相似性計算方法進行了研究和探討,最后綜合運用以上技術實現了一個作業相似性檢測系統,并給出了檢測結果顯示,為作業電子化的進一步發展提供了強有力的技術保障。

[1]馮凌凌,劉海霞.大數據環境下作業抄襲檢測研究[J].考試周刊,2015(51):128-129.

[2]劉曉環,梁云,吳穎.自然語言文檔復制檢測技術研究[J].電信技術研究,2011(4):15-20.

[3]apache.The Apache POI project[EB/OL].http://poi.apache.org/,2012-02-01.

[4]牛永潔,薛蘇琴.基于PDFBox抽取學術論文信息的實現[J].計算機技術與發展,2014,24(12):61-63.

[5]莫建文,鄭陽,首照宇,等.改進的基于詞典的中文分詞方法[J].計算機工程與設計,2013,34(5):1802-1807.

[6]江華麗.中文分詞算法研究與分析[J].物聯網技術,2016,6(1):87-89.

[7]馮永,李華,鐘將,等.基于自適應中文分詞和近似SVM的文本分類算法[J].計算機科學,2010(1):251-254.

[8]王慶福,常廣炎.基于TF-IDF優化算法在文本分類中的應用研究[J].電腦編程技巧與維護,2014(10):11-12.

[9]張瑾.基于改進TF-IDF算法的情報關鍵詞提取方法[J].情報雜志,2014,33(4):153-155.

[10]張保富,施化吉,馬素琴.基于TF-IDF文本特征加權方法的改進研究[J].計算機應用與軟件,2011,2(2):17-20.

[11]趙華茗.分布式環境下的文檔相似度研究與實現[J].現代圖書情報技術,2011(7):14-20.

[12]薛蘇琴,牛永潔.基于向量空間模型的中文文本相似度的研究 [J].電子設計工程,2016,24(10):28-31.

[13]胡偉偉,孫遜,王婷婷.基于向量空間模型的項目申報書查重系統設計[J].天津科技,2015,42(8):33-34.

[14]李連,朱愛紅,蘇濤.一種改進的基于向量空間文本相似度算法的研究與實現[J].計算機應用與軟件,2012,29(2):282-284.

[15]王國輝.Java Web開發實戰寶典[M].北京:清華大學出版社,2010.

Research and implementation on similarity detection of electronic homework

ZHANG Hai-teng, ZHAI Jie, LENG Chun-xia
(Academy of Information Science and Engineering,East China University of Science and Technology,Shanghai200237,China)

TN02

A

1674-6236(2017)19-0043-03

2016-08-03稿件編號201608026

上海市經濟和信息化委員會軟件集成電路專項資金(150809)

張海騰(1976—),女,山西孝義人,博士,講師。研究方向:服務計算,智能學習。

猜你喜歡
特征文本作業
快來寫作業
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
作業
故事大王(2016年7期)2016-09-22 17:30:08
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 啪啪啪亚洲无码| 国产麻豆精品在线观看| 四虎成人精品在永久免费| 欧美三级视频网站| 看国产一级毛片| 自拍中文字幕| jizz国产视频| 99久久国产综合精品2020| 亚洲成人在线网| 茄子视频毛片免费观看| 国产精品999在线| 国产欧美综合在线观看第七页| 欧美视频在线不卡| 69av在线| 日韩欧美91| 精品人妻系列无码专区久久| 高潮毛片免费观看| 在线观看国产网址你懂的| 久久久成年黄色视频| 欧美激情视频一区| 国产男人天堂| 国产高清毛片| 国产精品开放后亚洲| 亚洲最大在线观看| 久久综合丝袜日本网| 伊人色婷婷| 免费观看男人免费桶女人视频| 无码一区中文字幕| 精品视频在线观看你懂的一区| 亚洲天堂网2014| 久久精品这里只有国产中文精品| 亚洲欧美日韩另类| 三级欧美在线| 99在线视频免费| 亚洲无码精品在线播放| 精品国产美女福到在线不卡f| 亚洲av日韩综合一区尤物| 538国产在线| 国产精选自拍| 东京热一区二区三区无码视频| 99色亚洲国产精品11p| 色偷偷一区二区三区| 91无码人妻精品一区| 国产亚洲现在一区二区中文| 免费人成又黄又爽的视频网站| 亚洲国产精品无码久久一线| 天天躁夜夜躁狠狠躁图片| 色欲国产一区二区日韩欧美| 国产乱人免费视频| 亚洲乱码在线播放| 国产精品成人观看视频国产 | 91在线播放国产| 国产精品播放| 91系列在线观看| 日本欧美精品| 精品精品国产高清A毛片| 国产剧情一区二区| 久久中文字幕不卡一二区| 99ri精品视频在线观看播放| 国产情侣一区二区三区| 亚洲国产系列| 国产欧美网站| 久久99国产综合精品女同| 中文国产成人精品久久| 亚洲女同一区二区| 黄色三级毛片网站| 亚洲AV无码不卡无码| 亚洲一区二区无码视频| 亚洲欧美日韩动漫| 91精品视频网站| 在线日本国产成人免费的| 亚洲 日韩 激情 无码 中出| 热这里只有精品国产热门精品| 妇女自拍偷自拍亚洲精品| 成人免费午间影院在线观看| 99这里精品| 一本久道久综合久久鬼色| 99九九成人免费视频精品| 国产高清无码麻豆精品| 婷婷色一区二区三区| 国产欧美视频在线| 国产精品浪潮Av|