蘭雅迪 王鐫澤 王海波
摘要:本文論述了機器學習在英語作文批改中的應用,即在原有中國學習者語料庫和NUCLE-release2.2語料庫的基礎上建立優秀英語作文數據庫,首先將作文進行初步分類,根據語句詞匯量的豐富度,深度等進行評判,算出語句各詞出現的概率以及出現語法錯誤的概率,將相對概率小的結果標注實現自主批閱英語作文的功能。
關鍵詞:機器學習;數據庫;自主批閱
一、研究背景
互聯網的出現幫助各行各業快速發展,在信息化的影響下各方面實現智能化成為時代發展的必然趨勢,教育工作走在了智能化的前沿,英語成為最受大家關注的學科之一,受到了教育部門、教師、學生、家長的普遍重視。英語寫作是英語教學中一個棘手的問題,由于我國師生比例相差較大,在英語批改方面存在以下問題,首先教師在工作中不能夠保證對每位同學的作文進行批改,提出意見;
針對這一現狀我們依靠對現有的語料庫進行預處理實現計算機自主進行英語作文批閱。在減少老師教學壓力的基礎上,學生也可通過計算機自行評判英語作文的模型,了解自己錯誤,也在最大程度上幫助學者改正作文。
二、研究內容
機器學習涉獵概率論、統計學、算法復雜度等多領域學科,以求自主的獲得新的知識并運用學習到的規律預測位置的事物。隨著機器學習的出現以及語料庫語言學的發展與更新,提高了人們自行處理自然語言的能力。國內的批閱系統依靠的主要是對語料庫進行預處理。目前,主要的兩個語料庫分別是:中國學習者語料庫以及NUCLE-release2.2語料庫,這兩種語料庫均包含人工標注。其中中國學習者語料庫對中國英語教育更具有針對性,提供大范圍學習英語的群體中進行語料庫訓練,訓練英語范圍包括中學英語、大學英語和四六級英語。
在進行英語作文評定時,首先搜集大量的英語優秀作文形成優秀作文數據庫,根據數據庫中的作文進行數據標準化處理。評判一篇作文時,根據作文是切題或跑題為判斷依據,英語題目確定,切題作文的特點是詞匯使用率大致相同,因此首先將作文進行聚類分析,區分出跑題作文與切題作文,這一部分主要考慮詞匯。
第二部分進行語法檢測,在后臺語料庫中進行匹配與改進,輸出修改意見供筆者參考。
第三部分要進行語義檢測,運用后臺數據庫對英語作文進行擬翻譯,根據語義的通順程度給出建議。筆者得到的結果是綜合考慮到詞匯的豐富程度、語法的正確度以及語義的通順的等多個條件進行修改的意見。糾錯系統的設計與分析流程圖如下圖所示:
三、數據分析:
我們針對批改系統進行了準確性測試,分別請10位英文教師對200份英語四六級作文試卷進行批閱,統計出作文成績的均值與機器所算成績作出比較,結果呈現如下:
以100份四級作文為例(15分滿分),分別由教師評分與機體評分進行均值比較,結果如下所示:
教師評分 機體評分
9.61分 9.59分
以100份六級作文為例(15分滿分),分別由教師評分與機體評分進行均值比較,結果如下:
教師評分 機體評分
7.02分 7.02分
由以上數據分析可以看出,教師評分與機體評分的相似程度吻合度極高,可見批改系統還是很理想的,可以進行后期批閱工作。
四、結語:
通過以上數據分析結果,可以看出機器自主的進行英語作文的批閱可信度較高,可以進行推廣。極大程度的提高教師的教學效率,提高同學們可以清楚的認識自己的錯誤,提高自主學習效率。
參考文獻:
[1]李艷玲,田夏春.iWrite 2.0 在線英語作文評分信度研究,2018:76-78.
[2]桂師春,楊慧中.中國學習者語料庫[M].上海:上海外語教育出版社,2002:710-713。
[3]李悅,[D]英語作文輔助評閱系統中語法檢查的設計與實現.中國科技大學,2015:10-22.
[4]張梅,英語論文自動評分系統探索[J]重慶大學學報.社會科學版,2005(3):95-97。
[5]HeiftT,Schulze M. Errors and intelligence in computer- assisted language learning: Parsers and pedagogues.Routledge,2007.
該論文支撐遼寧科技學院2018年省級大學生創新創業訓練計劃項目:《基于機器學習的英語四六級助考平臺》