999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于余弦文本相似度計(jì)算的英語(yǔ)作文評(píng)分算法的應(yīng)用研究

2018-03-15 23:49:15許浩周亞萍趙亞慧
教育教學(xué)論壇 2018年6期

許浩 周亞萍 趙亞慧

摘要:本文采用TF-IDF算法以及余弦相似度的思想,提出了一種大批量英文作文的評(píng)分系統(tǒng)。首先以提高大批量英語(yǔ)作文評(píng)分效率為出發(fā)點(diǎn),介紹了英文文本處理現(xiàn)狀及機(jī)器自動(dòng)評(píng)分發(fā)展現(xiàn)狀。其次對(duì)如何實(shí)現(xiàn)機(jī)器評(píng)分做出了詳細(xì)的介紹。最后將機(jī)器評(píng)分結(jié)果與人工打分結(jié)果相對(duì)比,驗(yàn)證機(jī)器評(píng)分可行性,評(píng)價(jià)其優(yōu)缺點(diǎn),并對(duì)其未來(lái)發(fā)展做出展望。

關(guān)鍵詞:批量處理;機(jī)器評(píng)分;預(yù)處理;余弦相似度;TF-IDF

中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2018)06-0255-02

一、引言

自然語(yǔ)言處理(Natural Language Processing,NLP)的應(yīng)用領(lǐng)域非常廣泛,它是人工智能領(lǐng)域的重要內(nèi)容。計(jì)算機(jī)自動(dòng)評(píng)分(Computer-Automated Scoring)是指通過(guò)計(jì)算機(jī)程序來(lái)對(duì)導(dǎo)入的開(kāi)放式試題文件來(lái)按照一定的標(biāo)準(zhǔn)來(lái)進(jìn)行評(píng)分[1]。英語(yǔ)寫(xiě)作是我國(guó)英語(yǔ)教學(xué)中很重要的一個(gè)教學(xué)環(huán)節(jié),英語(yǔ)作文一般被老師用來(lái)檢測(cè)學(xué)生的英語(yǔ)綜合應(yīng)用能力。而隨著評(píng)分試卷數(shù)量的劇增,教師為了給學(xué)生批改英語(yǔ)作文,需要費(fèi)心費(fèi)力,一字一句的對(duì)作文進(jìn)行評(píng)卷檢查。長(zhǎng)時(shí)間的評(píng)卷會(huì)造成教師過(guò)度勞累,導(dǎo)致評(píng)卷速度慢,效率低。再加上對(duì)作文這樣的開(kāi)放式命題進(jìn)行人工評(píng)分,教師難免對(duì)作文會(huì)有一些個(gè)人偏向和喜好,不同的老師批改同樣的作文也會(huì)批出不一樣的分?jǐn)?shù)。

二、預(yù)處理

文本預(yù)處理(Text preprocessing),英文的文本預(yù)處理包括以下幾個(gè)步驟:除去數(shù)據(jù)中非文本部分,文本更正(如果忽略拼寫(xiě)錯(cuò)誤,這一步可以省略),詞干提?。╯temming)和詞干還原(lemmatization),轉(zhuǎn)換為小寫(xiě),去除停用詞。

1.去除數(shù)據(jù)中非文本部分。由于英語(yǔ)本身就以空格作為分隔符,因此不需要像漢語(yǔ)文本分詞那樣使用不同的算法進(jìn)行分詞。(1)去除所有的標(biāo)點(diǎn)符號(hào)。(2)去除所有非英文字母的字符。(3)將所有的大寫(xiě)英文字母轉(zhuǎn)換為小寫(xiě)。

2.詞干提取。英語(yǔ)單詞總數(shù)雖沒(méi)有漢語(yǔ)組詞個(gè)數(shù)多,但具有非常豐富的詞形變化。對(duì)作文進(jìn)行分詞后,應(yīng)對(duì)每個(gè)詞進(jìn)行詞干提取,以方便去除停用詞或更好地進(jìn)行詞頻統(tǒng)計(jì)。詞項(xiàng)詞干化對(duì)于分詞結(jié)果的影響不大,但可以節(jié)省存儲(chǔ)空間和提高搜索和處理效率。詞干提取的方法大體可以分為兩類:基于規(guī)則的方法,基于統(tǒng)計(jì)的方法。

3.去除停用詞。停用詞:在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語(yǔ)言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過(guò)濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動(dòng)化生成的,生成后的停用詞會(huì)形成一個(gè)停用詞表[3]。但是,并沒(méi)有一個(gè)明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來(lái)支持短語(yǔ)搜索的[4]。

三、TD-IDF算法

對(duì)于一篇非常長(zhǎng)的文章,想要提取它的關(guān)鍵詞,只使用詞頻作為依據(jù)是不夠的,比如在一篇研究高斯算法的文章中“均值”、“方差”、“算法”這三個(gè)詞出現(xiàn)的次數(shù)是一樣的,但是卻不能說(shuō)這三個(gè)詞的重要性是一樣的。根據(jù)我們?nèi)斯し治?,很明顯地知道在高斯算法中“均值”、“方差”比“算法”更重要,單靠詞頻不能完全反映詞項(xiàng)的權(quán)重。但是如果在這篇文檔中“均值”出現(xiàn)的次數(shù)非常多,也應(yīng)當(dāng)給它較大的權(quán)重,單靠文檔頻率不能完全反映詞項(xiàng)的權(quán)重。因此為了正確反映某個(gè)詞項(xiàng)的重要性,引入了TF-IDF算法[6]。

詞頻越大說(shuō)明該詞在該作文中出現(xiàn)的次數(shù)越多,逆文檔頻率越大說(shuō)明該詞越重要,因此選取TF-IDF最大的20個(gè)詞作為關(guān)鍵詞(若學(xué)生作文字?jǐn)?shù)不足60詞或去除停用詞后詞項(xiàng)不足20個(gè)則該作文作為不規(guī)范作文,評(píng)分時(shí)只給2-5分辛苦分)。對(duì)于范文和需要評(píng)分的作文均按照以上方法選取20個(gè)關(guān)鍵詞。

四、余弦相似度

余弦相似度(Cosine similarity)是用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)文本之間的相似度。如果兩篇文本之間用詞越相似,那么這兩篇文本之間的內(nèi)容也就越相似。這就是余弦相似性的基本思想[7]。向量空間模型(VSM:Vector space model)在自然語(yǔ)言處理領(lǐng)域中是很常用的相似度計(jì)算模型,在目前的研究和發(fā)展中得到了很廣泛的應(yīng)用[7]。在向量空間模型中,我們可以根據(jù)每篇文章的詞頻計(jì)算得到一個(gè)詞頻向量,把兩篇文章的詞頻向量想象成空間中的兩條從坐標(biāo)原點(diǎn)出發(fā),指向不同方向的兩條線段。這兩條線段之間一定會(huì)形成一個(gè)夾角,夾角越小,也就意味著計(jì)算所得的余弦值越接近1,即兩個(gè)向量距離越小,也就是用詞越相似,在不涉及上下文的情況下,我們可以認(rèn)為這兩個(gè)文本的內(nèi)容越相似。假定a向量是[x1,y1],b向量是[x2,y2],那么可以將余弦定理改寫(xiě)成下面的形式:

五、實(shí)驗(yàn)設(shè)置

收集延吉市延邊二中某次英語(yǔ)考試所掃描答題卡1000份,從中隨機(jī)挑出205份作文,整理成文本文檔,統(tǒng)一命名,方便批量讀入程序。從中隨機(jī)挑出4篇題目,每個(gè)題目隨機(jī)挑出205份作文,整理成文本文檔,統(tǒng)一命名,方便批量讀入程序。

機(jī)器評(píng)分與人工評(píng)分之間是存在一定差異的,這是由于教師在為作文評(píng)分的時(shí)候是根據(jù)上下文對(duì)學(xué)生的作文進(jìn)行評(píng)分,主要以作文的語(yǔ)義為主,而機(jī)器評(píng)分不根據(jù)上下文對(duì)學(xué)生的作文進(jìn)行評(píng)分,只關(guān)注與范文之間的相似度,對(duì)于跑題的作文可以給出很好的評(píng)判,但是對(duì)抄襲的作文無(wú)法給出很好的評(píng)判。

六、結(jié)束語(yǔ)

本系統(tǒng)使用Matlab編程實(shí)現(xiàn),可以對(duì)任何統(tǒng)一命名的英語(yǔ)作文進(jìn)行批量評(píng)分,對(duì)格式的要求不高,可以應(yīng)用于各大高校以及各初高中,在不涉及上下文語(yǔ)義的情況下,能夠比較客觀地對(duì)大批量英文作文做出合理評(píng)分,能夠減少教師由于主觀判斷導(dǎo)致的作文誤判和錯(cuò)判,對(duì)作文跑題的處理非常有效。

參考文獻(xiàn):

[1]陳?ài)?李生.自然語(yǔ)言處理基本理論和方法[M].哈爾濱工業(yè)大學(xué)出版社,2013:08.

[2]孔明.國(guó)外計(jì)算機(jī)自動(dòng)評(píng)分研究現(xiàn)狀述評(píng)[D].北京師范大學(xué).

[3]CSDN博客,shijiebei2009,最全英文停用詞表整理(891個(gè)),2014,9-30[Z].

[4]百度百科[EB/OL].baike.baidu.com.

[5]CSDN博客,一座青山,TF-IDF及其算法,2016,9-15[Z].

[6]阮一峰.TF-IDF與余弦相似性的應(yīng)用,2013,3-13[Z].

[7]博客園,CNBlog,文本相似度算法——空間向量模型的余弦算法和TF-IDF,2014[Z].

主站蜘蛛池模板: 亚洲伦理一区二区| 中文字幕欧美成人免费| 日韩AV无码免费一二三区| 亚洲无线国产观看| 玩两个丰满老熟女久久网| 一本大道东京热无码av| 日韩 欧美 小说 综合网 另类| 5555国产在线观看| 亚洲无码熟妇人妻AV在线| 欧美激情,国产精品| 玖玖精品视频在线观看| 香蕉网久久| 久久免费观看视频| jizz在线观看| 国产精品亚洲欧美日韩久久| аⅴ资源中文在线天堂| 日韩欧美91| 视频二区亚洲精品| 亚洲免费毛片| 人妻21p大胆| 亚洲爱婷婷色69堂| 亚洲精品自在线拍| 国产精品视频3p| 亚洲 成人国产| 日本欧美一二三区色视频| 熟女日韩精品2区| 五月婷婷综合网| 亚洲成aⅴ人在线观看| 婷婷色婷婷| m男亚洲一区中文字幕| 国产在线无码av完整版在线观看| av尤物免费在线观看| 丁香五月激情图片| 真实国产乱子伦高清| 国产精品美人久久久久久AV| 99热这里只有精品免费国产| av在线5g无码天天| 四虎国产成人免费观看| 国国产a国产片免费麻豆| 国产精品妖精视频| 91视频首页| 92精品国产自产在线观看| 免费高清毛片| 欧美成人影院亚洲综合图| 老司机精品久久| 国产欧美日韩综合在线第一| 日韩a在线观看免费观看| 亚洲婷婷丁香| 91精品国产情侣高潮露脸| 亚洲一区免费看| 欧美a级完整在线观看| 色噜噜狠狠狠综合曰曰曰| 亚洲AV人人澡人人双人| 欧美不卡视频一区发布| 国产日本欧美在线观看| 多人乱p欧美在线观看| 国产精品视频导航| 精品三级网站| 国产交换配偶在线视频| 久久久久久久97| 99er这里只有精品| 一本久道久综合久久鬼色| 欧美精品亚洲二区| 尤物午夜福利视频| 99色亚洲国产精品11p| 亚洲视频一区| 日韩在线永久免费播放| 伊在人亚洲香蕉精品播放 | 白浆免费视频国产精品视频| 国产乱人伦AV在线A| 亚洲精品片911| 99久久精品国产自免费| 国产精品中文免费福利| 欧美亚洲国产一区| 免费日韩在线视频| 国外欧美一区另类中文字幕| 野花国产精品入口| 国产精品13页| 国产极品美女在线观看| 99福利视频导航| 日韩免费毛片视频| 午夜影院a级片|