大學英語作文智能評閱之問題和對策

2019-08-30 08:10:30余小梅

青年時代 2019年21期

余小梅

摘要：自動評分系統(tǒng)在我國高校語言評價測試領(lǐng)域逐漸被推廣使用。本文通過在線訪談、論壇和問卷調(diào)查3種方式對我國高校廣泛使用的冰果智能評閱系統(tǒng)進行了全面考察。梳理來自作文智能評閱系統(tǒng)設(shè)計者、系統(tǒng)使用者雙方的觀點，整理寫作直接參與者的直觀體驗，重點分析智能評閱存在的不足，提出人工欣賞型評閱與智能預(yù)選型評分結(jié)合的人機協(xié)同寫作批改模式，高分示范，低分重新手寫，以激發(fā)學生英語寫作的興趣，最終提高學生英語寫作水平。

關(guān)鍵詞：大學英語寫作;智能評閱;人機協(xié)同評價模式

英語寫作能力一直是衡量大學生外語能力的一個重要尺度，其重要性從歷年各級各類考試分值占比可見一斑。誠然，寫作水平的發(fā)展與相鄰學科的學習密切相關(guān)，但與之有著直接垂直關(guān)聯(lián)的兩方面分別是教和寫、評和改。由于計算機統(tǒng)計技術(shù)、自然語言處理技術(shù)和信息檢索技術(shù)甚至人工智能技術(shù)等的進步以及電腦設(shè)備硬件的普及，越來越多的高校采用智能評閱系統(tǒng)。毫無疑問，這減輕了教師在人工批改的過程中體能的消耗、情緒喜好等因素的干擾以及對相應(yīng)的評分公正與否的心理擔憂。但這是否意味著英語教師就此解放，借助機器評閱可以實現(xiàn)一勞永逸？語言學習者寫作能力是否在這樣一個-技術(shù)控制的客觀的評閱反饋下得到了提升？下文將以我國高校使用最為廣泛的寫作評分系統(tǒng)——冰果智能評分系統(tǒng)就此問題展開探討。

一、研究過程和反饋

為了呈現(xiàn)一個有關(guān)智能評閱系統(tǒng)的客觀圖景，在該主題的調(diào)查過程中，筆者結(jié)合了多種方法，收集了多方觀點。

（一）在線訪談

筆者帶著“智能作文評閱系統(tǒng)如何能評閱千差百異的作文”這一疑問對該評閱系統(tǒng)的技術(shù)人員進行了一個簡短的訪談，反饋的信息如下：

該技術(shù)人員稱，英語智能作文評閱系統(tǒng)基于核心機器學習技術(shù)和對我國英語教學現(xiàn)狀的深入理解，并利用現(xiàn)代互聯(lián)網(wǎng)技術(shù)，自主研發(fā)一套對批量英語作文進行機器評閱的網(wǎng)絡(luò)平臺產(chǎn)品，旨在突破性地實現(xiàn)對大批量英語作文進行精準快速的機器評閱，解決當前國內(nèi)英語教學界大學中學英語寫作教學的實際問題，并且應(yīng)用在大型英語水平考試的評閱體系中，大大節(jié)省人工投入，使工作效率提高了50%以上。

這一段反饋主要是講述該系統(tǒng)研發(fā)的目的，即節(jié)省人工勞動量，提高批閱的效率，這一優(yōu)勢毋庸置疑。

針對系統(tǒng)批改原理，該技術(shù)人員指出，打分機制及案例基于語言學專家開發(fā)的大型詞法、句法和語義規(guī)則庫，對學生作文進行語言方面的多維度評估。這種多維度批改具體內(nèi)容涵蓋以下幾個方面：①內(nèi)容及主題思想;②篇章結(jié)構(gòu)——連貫性;③句子結(jié)構(gòu)準確度——語法;④語言流利程度——文風;⑤詞語運用——拼寫和詞語運用。系統(tǒng)批改原理的依據(jù)是后臺開發(fā)的語料庫，而不是一篇一篇作文集合而成的作文語料庫。

對于“既然你們的語料庫是基于詞法、句法和語義規(guī)則，那么怎么能評判主題和風格呢？”這一問題，該技術(shù)員沒有給出回答。顯然，技術(shù)員在如何評判“風格”“主題”問題上的沉默代表著智能評閱系統(tǒng)的難度。

（二）教師論壇意見

教師A：“這是我一個學生100分的作文，n多明顯的錯誤;我還不止一個學生得100;同樣的題目，學生找了篇和主題無關(guān)的范文的得分。”

教師B：“據(jù)我的考察，機器的低分判定很多情況下都比較符合事實，而機器的高分判定結(jié)果很多情況下與作文的真實價值好像有所出入。系統(tǒng)有主題偏離分析。”

教師C：“機器肯定是問題多多，更何況面對的是作文這種不可量化的東西。”

以上表述顯然具有代表性，一部分教師并不愿意或者不信賴智能評分系統(tǒng)，事實上的確出現(xiàn)讓教師不信任的理據(jù)，尤其在高分評定上。

將作文與評語相對照，系統(tǒng)打分明顯是基于語言語法最基礎(chǔ)的方面，而對于風格、文采等方面的處理印證了上述教師的觀察。

（三）問卷調(diào)查

筆者在任教的大學一年級平行班級推行使用國內(nèi)高校普遍采用的冰果作文智能評分系統(tǒng)，在一個學年內(nèi)，布置了一定數(shù)量的寫作任務(wù)，在學生提交之后，同期做了一個問卷調(diào)查，所有問卷都收回，真實有效，收回反饋卷兩個班各38份。問卷設(shè)計的問題和統(tǒng)計結(jié)果反饋分別如表1和表2所示。

從表1、表2中可以看出，學生使用者顯然對智能評閱系統(tǒng)也存在不滿，評價系統(tǒng)仍有很大的提升空間。各方觀點在一定程度上反映出智能評分系統(tǒng)的信度，如評判得準確與否、滿分和高分的評定、智能評閱對學生寫作習慣和水平的影響以及學生是否改正錯誤。不難看出學生方有3個突出趨向：（1）針對一個寫作任務(wù)，學生需要一篇甚至若干篇范文作為修改參考;（2）需要評閱者對全文的宏觀構(gòu)思、主旨和微觀語言詞句表達都能作出準確的、針對性強的而非過于籠統(tǒng)的點評，糾錯的同時指出作文的優(yōu)點;（3）雖然智能評分系統(tǒng)能減輕教師的評閱負擔，但82%和84%的學生選擇人工評閱。

二、對策

“計算機自動作文評分屬于典型的智能計算。”（葛詩利，陳瀟瀟，2009）當前使用的各種智能評分系統(tǒng)如PEG、IEA、E-rater等都很大程度地依托淺層文本特征統(tǒng)計，即詞匯的統(tǒng)計。“自動作文評分中對內(nèi)容的評分只能是對人工文章內(nèi)容評分的一種近似的模仿。”（同上）對作文語言使用的評價通常包括詞匯、句型、語法和操作細節(jié)幾個方面。文秋芳（2007：67）指出，“詞匯指作文所用單詞的詞頻高低、單詞的搭配以及恰當性;句型指作文所用句型的復(fù)雜度和多樣性;語法指作文所用語言是否符合語法規(guī)則;操作細節(jié)指拼寫、大小寫、標點等使用情況。”有鑒于此，筆者針對以上調(diào)查和梳理出的問題，建議采取以下評閱模式。

（1）針對每一次寫作任務(wù)，提供一篇甚至若干篇同一課題的論文作為評閱參照，確保學生有范文可自行學習，從而延伸課堂教學，使評閱更為合理。因此，很有必要建設(shè)智能評閱系統(tǒng)主題作文語料庫。

（2）技術(shù)層面，系統(tǒng)在設(shè)置評閱變量時，效仿TOEFL考試中應(yīng)用的E-rater，從語言形式和闡述內(nèi)容兩方面對作文進行針對性強的評價。鑒于智能評閱系統(tǒng)在低分作文評定方面有較高的信度以及無論從局部還是全局“手寫作文的錯誤的改正率大于在線作文的錯誤的改正率”的現(xiàn)狀，可以讓機器對作文先作一個預(yù)批閱，篩查出低分作文。對于這些低分作文，教師要求學生重新手寫，以促反思改進。對于高分作文，在機器評閱的基礎(chǔ)上讓教師進行人工審閱，在課堂進行公開示范點評，并對其優(yōu)點、主旨、篇章結(jié)構(gòu)、內(nèi)容邏輯性和連貫性等方面突出分析。80%以上的學生選擇人工評閱，這揭示出互動和情感因素在學習過程中發(fā)揮的重要作用。這需要教師人工的積極干預(yù)、對優(yōu)點的褒獎和對不足的中肯貼切的建議。因此，自動評分要以人工評分為準，尤其是高分作文。

三、結(jié)語

面對多次數(shù)大規(guī)模的寫作評閱，回歸全面人工在很大程度上是倒退，那么只有一方面不斷完善智能評分系統(tǒng)提高其評閱的信度即可靠性，另一方面加強教師對寫作評閱的積極干預(yù)，將注重語言特征的機器和注重高層次寫作技巧的人工結(jié)合起來，采取人機協(xié)同評閱模式，評分之外更注重學習者自主學習和反思，才能真正激發(fā)學生的英語寫作興趣并提升學生的寫作水平。

參考文獻：

[1]陳亦挺.在線英語寫作有效性研究——基于冰果英語智能作文評閱系統(tǒng)[D].杭州：浙江大學，2012.

[2]陳蕓.基于自動作文評分系統(tǒng)的英語寫作調(diào)查分析[J].語文學刊，2011（11）：72.

[3]郭春珍.冰果英語作文智能評閱的應(yīng)用與利弊[J].湖北函授大學學報，2017（7）：148-149.

[4]梁茂成.大規(guī)模考試英語作文自動評分系統(tǒng)的研制[M].北京：高等教育出版社，2012.

青年時代2019年21期

青年時代的其它文章: 自來水公司基建檔案管理體系的創(chuàng)新模式建設(shè); 生命教育在初中語文教學中的實現(xiàn)路徑; 高職院校實踐課程評價體系的構(gòu)建與研究; 高職院校創(chuàng)建學習型、服務(wù)型、創(chuàng)新型基層黨支部的實踐與探索; 醫(yī)院圖書館對醫(yī)學科研工作促進作用研究; 新時期高職院校圖書館“紅色經(jīng)典”閱讀推廣創(chuàng)新模式研究