余小梅

摘 要:自動評分系統在我國高校語言評價測試領域逐漸被推廣使用。本文通過在線訪談、論壇和問卷調查3種方式對我國高校廣泛使用的冰果智能評閱系統進行了全面考察。梳理來自作文智能評閱系統設計者、系統使用者雙方的觀點,整理寫作直接參與者的直觀體驗,重點分析智能評閱存在的不足,提出人工欣賞型評閱與智能預選型評分結合的人機協同寫作批改模式,高分示范,低分重新手寫,以激發學生英語寫作的興趣,最終提高學生英語寫作水平。
關鍵詞:大學英語寫作;智能評閱;人機協同評價模式
英語寫作能力一直是衡量大學生外語能力的一個重要尺度,其重要性從歷年各級各類考試分值占比可見一斑。誠然,寫作水平的發展與相鄰學科的學習密切相關,但與之有著直接垂直關聯的兩方面分別是教和寫、評和改。由于計算機統計技術、自然語言處理技術和信息檢索技術甚至人工智能技術等的進步以及電腦設備硬件的普及,越來越多的高校采用智能評閱系統。毫無疑問,這減輕了教師在人工批改的過程中體能的消耗、情緒喜好等因素的干擾以及對相應的評分公正與否的心理擔憂。但這是否意味著英語教師就此解放,借助機器評閱可以實現一勞永逸?語言學習者寫作能力是否在這樣一個-技術控制的客觀的評閱反饋下得到了提升?下文將以我國高校使用最為廣泛的寫作評分系統——冰果智能評分系統就此問題展開探討。
一、研究過程和反饋
為了呈現一個有關智能評閱系統的客觀圖景,在該主題的調查過程中,筆者結合了多種方法,收集了多方觀點。
(一)在線訪談
筆者帶著“智能作文評閱系統如何能評閱千差百異的作文”這一疑問對該評閱系統的技術人員進行了一個簡短的訪談,反饋的信息如下:
該技術人員稱,英語智能作文評閱系統基于核心機器學習技術和對我國英語教學現狀的深入理解,并利用現代互聯網技術,自主研發一套對批量英語作文進行機器評閱的網絡平臺產品,旨在突破性地實現對大批量英語作文進行精準快速的機器評閱,解決當前國內英語教學界大學中學英語寫作教學的實際問題,并且應用在大型英語水平考試的評閱體系中,大大節省人工投入,使工作效率提高了50%以上。
這一段反饋主要是講述該系統研發的目的,即節省人工勞動量,提高批閱的效率,這一優勢毋庸置疑。
針對系統批改原理,該技術人員指出,打分機制及案例基于語言學專家開發的大型詞法、句法和語義規則庫,對學生作文進行語言方面的多維度評估。這種多維度批改具體內容涵蓋以下幾個方面:①內容及主題思想;②篇章結構——連貫性;③句子結構準確度——語法;④語言流利程度——文風;⑤詞語運用——拼寫和詞語運用。系統批改原理的依據是后臺開發的語料庫,而不是一篇一篇作文集合而成的作文語料庫。
對于“既然你們的語料庫是基于詞法、句法和語義規則,那么怎么能評判主題和風格呢?”這一問題,該技術員沒有給出回答。顯然,技術員在如何評判“風格”“主題”問題上的沉默代表著智能評閱系統的難度。
(二)教師論壇意見
教師A:“這是我一個學生100分的作文,n多明顯的錯誤;我還不止一個學生得100;同樣的題目,學生找了篇和主題無關的范文的得分。”
教師B:“據我的考察,機器的低分判定很多情況下都比較符合事實,而機器的高分判定結果很多情況下與作文的真實價值好像有所出入。系統有主題偏離分析。”
教師C:“機器肯定是問題多多,更何況面對的是作文這種不可量化的東西。”
以上表述顯然具有代表性,一部分教師并不愿意或者不信賴智能評分系統,事實上的確出現讓教師不信任的理據,尤其在高分評定上。
將作文與評語相對照,系統打分明顯是基于語言語法最基礎的方面,而對于風格、文采等方面的處理印證了上述教師的觀察。
(三)問卷調查
筆者在任教的大學一年級平行班級推行使用國內高校普遍采用的冰果作文智能評分系統,在一個學年內,布置了一定數量的寫作任務,在學生提交之后,同期做了一個問卷調查,所有問卷都收回,真實有效,收回反饋卷兩個班各38份。問卷設計的問題和統計結果反饋分別如表1和表2所示。
從表1、表2中可以看出,學生使用者顯然對智能評閱系統也存在不滿,評價系統仍有很大的提升空間。各方觀點在一定程度上反映出智能評分系統的信度,如評判得準確與否、滿分和高分的評定、智能評閱對學生寫作習慣和水平的影響以及學生是否改正錯誤。不難看出學生方有3個突出趨向:(1)針對一個寫作任務,學生需要一篇甚至若干篇范文作為修改參考;(2)需要評閱者對全文的宏觀構思、主旨和微觀語言詞句表達都能作出準確的、針對性強的而非過于籠統的點評,糾錯的同時指出作文的優點;(3)雖然智能評分系統能減輕教師的評閱負擔,但82%和84%的學生選擇人工評閱。
二、對策
“計算機自動作文評分屬于典型的智能計算。”(葛詩利,陳瀟瀟,2009)當前使用的各種智能評分系統如PEG、IEA、E-rater等都很大程度地依托淺層文本特征統計,即詞匯的統計。“自動作文評分中對內容的評分只能是對人工文章內容評分的一種近似的模仿。”(同上)對作文語言使用的評價通常包括詞匯、句型、語法和操作細節幾個方面。文秋芳(2007:67)指出,“詞匯指作文所用單詞的詞頻高低、單詞的搭配以及恰當性;句型指作文所用句型的復雜度和多樣性;語法指作文所用語言是否符合語法規則;操作細節指拼寫、大小寫、標點等使用情況。”有鑒于此,筆者針對以上調查和梳理出的問題,建議采取以下評閱模式。
(1)針對每一次寫作任務,提供一篇甚至若干篇同一課題的論文作為評閱參照,確保學生有范文可自行學習,從而延伸課堂教學,使評閱更為合理。因此,很有必要建設智能評閱系統主題作文語料庫。
(2)技術層面,系統在設置評閱變量時,效仿TOEFL考試中應用的E-rater,從語言形式和闡述內容兩方面對作文進行針對性強的評價。鑒于智能評閱系統在低分作文評定方面有較高的信度以及無論從局部還是全局“手寫作文的錯誤的改正率大于在線作文的錯誤的改正率”的現狀,可以讓機器對作文先作一個預批閱,篩查出低分作文。對于這些低分作文,教師要求學生重新手寫,以促反思改進。對于高分作文,在機器評閱的基礎上讓教師進行人工審閱,在課堂進行公開示范點評,并對其優點、主旨、篇章結構、內容邏輯性和連貫性等方面突出分析。80%以上的學生選擇人工評閱,這揭示出互動和情感因素在學習過程中發揮的重要作用。這需要教師人工的積極干預、對優點的褒獎和對不足的中肯貼切的建議。因此,自動評分要以人工評分為準,尤其是高分作文。
三、結語
面對多次數大規模的寫作評閱,回歸全面人工在很大程度上是倒退,那么只有一方面不斷完善智能評分系統提高其評閱的信度即可靠性,另一方面加強教師對寫作評閱的積極干預,將注重語言特征的機器和注重高層次寫作技巧的人工結合起來,采取人機協同評閱模式,評分之外更注重學習者自主學習和反思,才能真正激發學生的英語寫作興趣并提升學生的寫作水平。
參考文獻:
[1]陳亦挺.在線英語寫作有效性研究——基于冰果英語智能作文評閱系統[D].杭州:浙江大學,2012.
[2]陳蕓.基于自動作文評分系統的英語寫作調查分析[J].語文學刊,2011(11):72.
[3]郭春珍.冰果英語作文智能評閱的應用與利弊[J].湖北函授大學學報,2017(7):148-149.
[4]梁茂成.大規模考試英語作文自動評分系統的研制[M].北京:高等教育出版社,2012.