許浩 周亞萍 趙亞慧
摘要:本文采用TF-IDF算法以及余弦相似度的思想,提出了一種大批量英文作文的評分系統。首先以提高大批量英語作文評分效率為出發點,介紹了英文文本處理現狀及機器自動評分發展現狀。其次對如何實現機器評分做出了詳細的介紹。最后將機器評分結果與人工打分結果相對比,驗證機器評分可行性,評價其優缺點,并對其未來發展做出展望。
關鍵詞:批量處理;機器評分;預處理;余弦相似度;TF-IDF
中圖分類號:TP391.1 文獻標志碼:A 文章編號:1674-9324(2018)06-0255-02
一、引言
自然語言處理(Natural Language Processing,NLP)的應用領域非常廣泛,它是人工智能領域的重要內容。計算機自動評分(Computer-Automated Scoring)是指通過計算機程序來對導入的開放式試題文件來按照一定的標準來進行評分[1]。英語寫作是我國英語教學中很重要的一個教學環節,英語作文一般被老師用來檢測學生的英語綜合應用能力。而隨著評分試卷數量的劇增,教師為了給學生批改英語作文,需要費心費力,一字一句的對作文進行評卷檢查。長時間的評卷會造成教師過度勞累,導致評卷速度慢,效率低。再加上對作文這樣的開放式命題進行人工評分,教師難免對作文會有一些個人偏向和喜好,不同的老師批改同樣的作文也會批出不一樣的分數。
二、預處理
文本預處理(Text preprocessing),英文的文本預處理包括以下幾個步驟:除去數據中非文本部分,文本更正(如果忽略拼寫錯誤,這一步可以省略),詞干提取(stemming)和詞干還原(lemmatization),轉換為小寫,去除停用詞。……