999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英語作文自動評分系統研究與實現

2019-09-10 07:22:44張銳捷宋萬里劉琪范圓圓姜戴銳葛藝
現代信息科技 2019年4期

張銳捷 宋萬里 劉琪 范圓圓 姜戴銳 葛藝

摘 要:隨著近幾年來人工智能技術的發展,計算機技術被越來越多地應用到教育領域,英語作文自動評分就是其中的一個方面。為達到英語作文自動評分的要求,該系統提取作文內容等一系列特征進行綜合考評,使用自然語言處理、文本特征提取、潛在語法分析等技術,實現英語作文自動評分功能。本系統可通過添加自定義的停用詞詞典,而擴展運用到更多的場景。

關鍵詞:自動評分;潛在語義分析;文本特征提取

中圖分類號:TP319 文獻標識碼:A 文章編號:2096-4706(2019)04-0027-03

Research and Implementation of English Composition Automatic Scoring System

ZHANG Ruijie,SONG Wanli,LIU Qi,FAN Yuanyuan,JIANG Dairui,GE Yipeng

(Nanjing Xiaozhuang University,Nanjing 211171,China)

Abstract:With the development of artificial intelligence technology in recent years,computer technology has been more and more applied to the field of education. The automatic scoring of English composition is also one of the aspects to achieve automatic scoring of English composition. In order to meet the requirement of automatic scoring of English compositions,the system extracts a series of features such as the content of the compositions for comprehensive evaluation,and uses natural language processing,text feature extraction,potential grammar analysis and other technologies to achieve automatic scoring of English compositions. The system can be extended to more scenarios by adding a custom dictionary of stop words.

Keywords:automatic scoring;latent semantic analysis;text feature extraction

0 引 言

計算機越來越廣泛地被運用到輔助教學的場景中,在英語助教領域也有點讀機、視頻教學、智能翻譯等多種應用。在英語教學過程中,聽、說、讀、寫都是英語的基本技能,在日常的教學、訓練、考核中,寫作能力是比較難培養的[1],也是最耗費老師精力的。寫作作為一種語言輸出形式,是評價學生英語綜合水平和應用能力的一個重要指標。目前國內英語大規模考試中,如:英語高考、大學生英語四、六級考試,都有英語作文寫作的考核,但是在閱卷的時候英語作文區別于客觀題需要進行人工閱卷,人工閱卷不僅在判題時有較強的主觀性,甚至需要多人重復判一份試卷來保證結果的公正,這會導致工作量翻倍,耗費優秀教師大量的時間和精力。英語作文自動評分系統的開發和使用,可有效的解決上述問題。

最早的英語作文自動評分(AutomatedEnglishScoring,簡稱AES)系統是1966年由美國杜克大學的Ellis Batten Page等學者開發的PEG(Porject Essay Grader),后來許多AES系統被開發、實驗甚至投入商用,例如:IEA、E-Rater、IntelliMetric、BETSY等。其中最具代表性的有PEG、IEA和E-Rater三種[2]。這三種系統在考評時側重點不同:PEG重點比較表層語言特征,包括用詞、句型、結構等;IEA側重考察作文內容,即淺層語義;E-Rater在作文的表現形式和內容意義兩個方面均有考慮。國內的相關研究起步較晚,但近幾年許多學者都開始在英語作文自動評分上投入精力與成本。目前國內也已經有一些投入使用的AES系統,如句酷批改網、新東方批改網和冰果英語作文評閱系統等。也有學者實地研究并得出結論,英語作文自動評分系統作為大學英語輔助教學工具,可以幫助學生在寫作時養成更加關注句法運用、篇章邏輯結果等習慣,進而有效提高學生寫作和自主學習的能力[3]。目前許多學者追求的目標就是在可預計的未來中,能在考試場景中應用英語作文自動評分系統。本文在調研大量文獻的基礎上,使用自然語言處理、文本特征提取、潛在語法分析等技術,實現英語作文自動評分。

1 系統設計

本系統通過預處理文本、提取文本關鍵字等技術先對作文進行預處理,提取能代表作文內容的特征單詞;之后將這些特征單詞應用于潛在語義模型中,獲得能代表作文內容的特征項;接著提取作文語言方面的信息,如單詞正確率,語法錯誤情況,句子的長度等,作為作文語言方面的特征項;然后將這些特征共同組成代表作文寫作水平的特征向量;最后利用潛在語義分析和K近鄰算法對英語作文進行評分。本文采用方法的基本算法流程如圖1所示。

2 系統實現

作文單詞特征提取與評價模塊,主要功能是對作文的用詞和句子結構進行分析與評價,讀入整篇作文后分別以句和單詞為單位進行拆分,并對作文中的語句的內容以及復雜程度進行評分,同時給出一定的語句錯誤提示;針對作文中單詞的使用情況(拼寫錯誤率,語法錯誤率等)進行評分,同時給出對應的參考用詞。首先基于Lucene Analyzer的分詞[4],Lucene內置提供的Analyzer不能滿足本系統的需求,我們還添加了自定義的停用詞表。在分詞后,參考了WordNet[5,6]里詞條和詞條的同義詞集的內容,對單詞進行檢測,同時進行單詞正確率的計算。借助JWML在WordNet中查詞,統計出正確單詞的個數,拼寫錯誤單詞的個數,獲得正確單詞的詞根等。最后借助Lucene中已有的SpellChecker工具[7]來實現拼寫檢查功能。本系統使用了四六級詞匯表作為檢查范圍,并從中選出前5個作為參考詞,同時結合詞性標注之后的結果給出更合理的建議。

作文特征向量的抽取與評價模塊,主要完成的是提取文章特征值(關鍵詞),并根據學生作文的特征詞集與作文主題的貼合度進行評分。本系統為了提取在當前作文中有效單詞對于文章主題的表達情況,使用TF-IDF(term frequency-inverse document frequency)[8,9]統計方法。我們認為字詞的重要性隨著它在當前文章或同主題文章中出現的次數成正比增加,但同時會隨著它在不同主題文章中出現的頻率成反比下降。在算出單詞對于文章的重要性的時候,我們綜合考慮信息熵和條件熵[10],將待打分作文排序的前30詞和高分標準作文集進行歸一化處理,得出該文章和高分標準作文集的相似性,最終得出文章的特征分數。

作文語句特征分析與評價模塊主要是對作文中語句的詞法和句法特點進行提取,然后根據文章中語句表達的完整性和句型的復雜程度進行評分,并針對語法和句法錯誤給出一定的錯誤提示信息。在系統實現時,本系統主要使用了斯坦福大學Stanford parser開源句法分析器,生成句法樹模型,對句子進行評價。將句子評價建立在單詞評價模塊對拼寫錯誤單詞的簡單詞法矯正的基礎上,這樣能夠獲得單詞與句子相對應的樹狀結構和句子成分間的依賴關系。在這個過程中還通過對句子成分的詞性分析,結合修正過拼寫的單詞表達的意思給出關于用法錯誤的單詞的建議。語法錯誤檢查運用的方法主要是基于規則和結構樹的語法檢查。基于規則的語法檢查方法需要用到一個代表英語語法結構的規則集,這些規則集盡可能多的覆蓋英語語法特征。

作文篇章結構分析與評價模塊,主要是分析文章不同段落之間的語義聯系,考察上下文是否緊湊、是否圍繞同一主題進行陳述,并根據段落間語義聯系程度進行評分。通過LSA[11]在大量訓練集作文文本上構建一個矩陣,該矩陣的一行代表一個詞,一列代表一個文檔,矩陣元素代表該詞在該文檔中出現的次數;為了減小計算壓力,在矩陣上使用奇異值分解(SVD);接著通過計算皮爾森相關系數(Pearson correlation coefficient)[12]來標識兩個詞語對應的兩組線性數據的相關程度,這個過程借助了JAMA工具計算;最后通過對矩陣的計算,得到一個在0~1之間的值,作為段落間關聯度評分的依據。

作文自動評分模塊,主要完成的是綜合評價,并獲取最終得分。在經過前面多方面的處理后,可獲得四個基礎特征值,分別為單詞結構評價、句子結構評價、篇章結構評價以及主題貼合度評價。這一部分在實現的時候本系統選擇了WEKA工具[13,14]中的KNN算法[15]。WEKA中所有算法對輸入的數據集都有統一要求,即ARFF格式,并要求以單一關系列表的形式輸入。這些數據可從文件中讀取或由數據庫產生。前期處理得出的四個屬性值便可利用以上信息增益的計算方法為作文中的每個屬性計算其信息增益,從而完成加權,即越大的信息增益值的屬性將被賦予越大的權值。

3 實驗結果與結果分析

為了模擬本系統在真實環境中的使用情況,實驗數據選取了南京曉莊學院某學院2015級的英語期末考試卷共240份(兩種話題作文各120份)。使用了對比實驗的方法,分別統計了240份作文在期末試卷、批改網打分、本系統考評的分數情況,因為期末考試作文滿分是20分,其他兩種系統都是百分制的,為了方便對比我們將三個分數都轉換成對應的百分制。圖2是隨機抽取34篇作文的評分結果。

通過數字比較和圖形觀察都可以比較明顯的看出,本系統的打分結果更貼近老師真實的英語閱卷情況。

4 結 論

本系統通過預處理文本和提取文本關鍵字對作文先進行預處理,提取能代表作文內容的特征單詞;之后將這些特征單詞應用在潛在語義模型中,獲得能代表作文內容的特征項;接著提取作文語言方面的信息,如單詞正確率、語法錯誤情況、句子的長度等,作為作文語言方面的特征項;然后將這些特征共同組成代表作文寫作水平的特征向量;最后利用潛在語義分析和K近鄰算法對英語作文進行評分。

通過實驗表明,本文提出的英語作文自動評分系統基本滿足話題作文的閱卷參考需要,下一步是利用更好的分詞算法提高中間數據的清潔度,并優化算法提高語義分析精準度,進而使英語作文評分的成績更貼合實際情況。

參考文獻:

[1] 任霞.計算機輔助英語教學 [J].科技創新導報,2008(17):223.

[2] 梁茂成,文秋芳.國外作文自動評分系統評述及啟示 [J].外語電化教學,2007(5):18-24.

[3] 熊松榮,汪陽.寫作自動評價系統在大學英語寫作教學中的應用 [J].湖北函授大學學報,2018,31(17):156-157.

[4] Luo H,Guo S.The improvement of Chinese word analyzer based on Lucene [J].Microcomputer & Its Applications,2018,34(11):76-78+82.

[5] Miller G A. WordNet:a lexical database for English [J].Communications of the ACM,1995,38(11):39-41.

[6] Fellbaum C.WordNet:An Electronic Lexical Database [J].Library Quarterly Information Community Policy,1998,25(2):292-296.

[7] Grainger T,Potter T. Solr in Action [M].Manning Publications Co.,2014.

[8] 楊倩倩,徐棟.TFIDF方法在英語句子相似度計算中的應用初探 [J].電腦知識與技術,2012,8(17):4127-4128.

[9] Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization [C]// International Conference on Machine Learning,1996:143-151.

[10] 李榮陸.文本分類及其相關技術研究 [D].上海:復旦大學,2005.

[11] 桂詩春.潛伏語義分析的理論及其應用 [J].現代外語,2003,26(1):76-84.

[12] Pearson K. Note on Regression and Inheritance in the Case of Two Parents [J]. Note on Regression and Inheritance in the Case of Two Parents,1895,58:240-242.

[13] Hall M,Frank E,Holmes G,et al. The WEKA data mining software:an update [J] .Acm Sigkdd Explorations Newsletter,2009,11(1):10-18.

[14] Holmes G,Donkin A,Witten I H. WEKA:a machine learning workbench [C]// Conference on Intelligent Information Systems,2002:357-361.

[15] Hastie T,Tibshirani R. Discriminant adaptive nearest neighbor classification [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1996,18(6):607-616.

作者簡介:張銳捷(1996-),女,漢族,山西太原人,本科生,研究方向:智能教育技術、計算機軟件技術;宋萬里(1981-),男,漢族,遼寧法庫人,副教授,研究方向:智能教育技術、數據挖掘;劉琪(1996-),女,漢族,本科生,研究方向:計算機軟件技術;范圓圓(1997-),女,漢族,本科生,研究方向:計算機軟件技術;姜戴銳(1997-),男,漢族,本科生,研究方向:計算機軟件技術;葛藝芃(1997-),女,漢族,本科生,研究方向:計算機軟件技術。

主站蜘蛛池模板: 国内精品手机在线观看视频| 欧美a级在线| 日韩成人免费网站| 国产精品无码影视久久久久久久 | 久久精品无码专区免费| 欧美成人午夜视频| 午夜不卡福利| 青青青国产视频| 亚洲欧美在线精品一区二区| 狠狠色噜噜狠狠狠狠色综合久 | 国产在线精彩视频二区| 波多野结衣中文字幕一区二区| 亚洲综合专区| 性喷潮久久久久久久久| 激情综合激情| 色悠久久综合| h网站在线播放| jijzzizz老师出水喷水喷出| 国产特级毛片aaaaaaa高清| 成人精品在线观看| 国产v精品成人免费视频71pao| 久久这里只有精品23| 亚洲区一区| 精品国产电影久久九九| 黄色网在线免费观看| 奇米精品一区二区三区在线观看| 99re这里只有国产中文精品国产精品 | 欧美午夜网| 在线免费看片a| 欧美不卡二区| 亚洲AⅤ永久无码精品毛片| 精品一区二区三区视频免费观看| 亚洲欧洲一区二区三区| 波多野结衣爽到高潮漏水大喷| 中字无码av在线电影| 亚洲国产精品无码久久一线| 亚洲色无码专线精品观看| 欧美亚洲国产一区| www精品久久| 真人高潮娇喘嗯啊在线观看| 白浆视频在线观看| 亚洲国产中文在线二区三区免| 色天堂无毒不卡| 国产无遮挡猛进猛出免费软件| 99在线视频免费观看| 日韩精品无码一级毛片免费| 免费国产高清精品一区在线| 不卡无码h在线观看| 日韩成人在线网站| 欧美 国产 人人视频| 激情爆乳一区二区| 色偷偷男人的天堂亚洲av| 综合社区亚洲熟妇p| 久热精品免费| 久无码久无码av无码| 中文成人无码国产亚洲| 国产精品成人一区二区| 亚洲三级视频在线观看| 国产导航在线| 少妇露出福利视频| 亚洲AV电影不卡在线观看| 亚洲一区网站| 中文无码日韩精品| 91无码视频在线观看| 中文字幕在线看视频一区二区三区| www.av男人.com| 日本久久网站| 久久99热这里只有精品免费看| 久久久成年黄色视频| 久久99热这里只有精品免费看| 有专无码视频| a级毛片网| 国内精品免费| 国产99热| 不卡午夜视频| 亚洲国产在一区二区三区| 精品福利网| 国产精品9| 在线看片国产| 在线观看av永久| AV片亚洲国产男人的天堂| 精品无码人妻一区二区|