寫作機評原理及應用述評

2016-05-14 09:02:37黃萬武項頒

校園英語·上旬 2016年9期

黃萬武項頒

【摘要】本文依據語言測試領域的作文評分要素，對國外具有代表性的三種寫作機評系統原理和國內主要的寫作機評應用進行評介和比較，指出這些評分系統和軟件在評分信度和效度等方面優勢和劣勢，并分析這些作文自動評分系統為我國自主開發作文自動評分系統所提供的借鑒作用。

【關鍵詞】寫作機評系統原理寫作機評應用評分要素

寫作自動評分系統對能夠提高語言測試的效率和降低成本，本文著重介紹國外內經典的寫作機評原理，并簡要分析他們的優缺點。

一、經典的寫作機評原理

1.基于語言形式的機評系統——PEG。PEG于1966年由美國杜克大學的Ellis Page等人開發。PEG的設計者認為作文質量有賴于作文的深層結構，而機器無法直接衡量，因此，他們以文本表層特征項為切入點，間接評價作文質量。

PEG寫作機評分三階段：變量提取、多元回歸分析和把多元回歸得到的beta值代入計算機程序換算出作文得分。PEG首先收集了一部分人工評分后的作文，再利用自然語言處理技術，從作文中提取若干個文本特征項，并在這些文本特征項與人工評分之間進行相關性分析。然后，Page選擇與人工評分相關的文本特征項作為自變量，把人工評分作為因變量，進行多元回歸分析，得到回歸方程。回歸方程為每一個變量確定了beta值，這樣，在對新的作文進行評分時，PEG只需要提取這些變量，并把beta值代入回歸方程之中，就可以預測出這些作文的得分。PEG目前的程序中包含很多復雜的變量，但PEG的開發者們并沒有對這些 “復雜的變量”作出明確的界定。

2.基于內容的機評系統——IEA。IEA（Intelligent Essay Assessor）是一種基于潛伏語義分析的作文自動評分系統，由美國科羅拉多大學的Thomas Landauer等學者開發。不同于PEG，潛伏語義分析著重分析文本的內容，而不是語言。

潛伏語義分析集理論與技術于一體。在理論層面上，它認為任何文本都有一個潛在的語義結構，這一潛在的語義結構即全部詞匯的語義之和。然而，自然語言中存在大量的多詞同義和一詞多義現象，這對我們正確理解文本造成嚴重干擾。就技術而言，潛伏語義分析屬于一種矢量空間模型技術，它可通過降維的方法，有效排除干擾，析取數據中的潛在語義結構。潛在語義結構可由一個詞匯項文檔矩陣來代表，矩陣中的每行表示一個詞匯項，每列表示一個文檔，而矩陣的每個單元格中的元素為相應詞匯項在相應文檔中出現的頻數。

運用矩陣代表潛在語義結構，可進行奇異值分解的矩陣運算，通過該運算，原來的矩陣可以被分解成為三個不同的矩陣。降維后，對這三個矩陣展開進一步的運算。該矩陣保持了原來矩陣中最重要的語義聯想關系，同時又屏蔽了大量的干擾信息。

將潛伏語義分析用于學生作文自動評分時，待評分的作文與范文均被視作矢量，完成矢量間的比較后，可得到每篇待評分作文與范文在內容上的相似度評分。根據Landauer等人的報告，該系統所評出的作文得分與人工評分之間的相關性達到r=0.85。

3.基于層次結構的機評系統——E-rater。E-rater是由美國教育考試處于20世紀90年代開發，其目的是評估GMAT考試中的寫作水平。該系統利用了多項技術，其中包括統計技術、矢量空間模型技術和自然語言處理技術。因此，它不僅能像PEG那樣評判作文的語言質量，還能像IEA那樣評判作文的內容質量。另外，E-rater還可分析語篇結構。類似于PEG，E-rater的評分方法基于線性回歸模型。E-rater圍繞三個層面評析作文的質量：第一層為話語結構（亦即篇章結

構），主要靠在文本中搜索“To begin with”、“In conclusion”等篇章銜接詞的方法得以實現；第二層為句法多樣化，根據作文中句子結構的多樣化來評判作文的語言質量；第三層為內容。這里，E-rater通過矢量空間模型，檢測作文中是否包含了充足的與作文題目高度相關的主題詞。

研究表明，E-rater與人工評分之間的一致性一直高于97%。但E-rater的三個層次結構中具體包括哪些變量，則是眾說紛紜。Kukich報告聲稱E-rater可析取100多個變量，Power et al.表示E-rater可析取50多個變量，而Attali和Burstein的報告則堅持認為最新版本的E-rater “依據有關理論對寫作能力的若干方面給予考慮”，只提取12個變量。

二、有代表性的寫作機評應用

1.國外主要英語作文自動評價工具軟件。國外最有代表性的寫作機評應用當Writing Roadmap 2.0（WRM 2.0）。著名學者吳一安和唐錦蘭考察了機評系統WRM 2.0對高校英語寫作教學的影響。學研究表明，學生寫作能力、自主學習能力及寫作教學過程在一定程度上與WRM 2.0的應用正相關。另外，他們得出結論，寫作教學應從關注語言形式和寫作結果向關注內容深度和寫作過程靠攏。蔣學清等對寫作機評系統在大學英語寫作中的教學應用研究發現，通過一學期的教學，實驗組和對照組的英語寫作水平都有了明顯進步，且實驗組的進步幅度更大。這表明形成性評價方式和具有自動反饋功能的在線寫作工具可輔助學習者寫作。此外，王淑雯、楊玲結合教學實踐，介紹了在寫作教學中如何使用WRM 2.0為師生提供多元化反饋，最后闡述了該系統的長處和不足。周穎剖析了WRM 2.0寫作機評系統的問題，原因和對策。

2.國內主要英語作文自動評價工具軟件。

（1）句酷批改網。批改網的核心算法是計算待評文本和標準語料庫之間的距離，再將對應的距離映射為作文分數和評語。技術要點是將每一篇輸入的作文分解成可測量的192個維度，分析過程充分利用了自然語言技術和機器學習的方法，每篇作文先被自動切分成句子，然后對每個句子進行深層語義分析，從中抽取詞、搭配、詞組等結構化單元。主要功能包括分數即刻顯現、圖文報表式作文分析結果抄襲檢測等。

（2）冰果英語智能作文評閱系統。它可以即時給出作文評分，并從詞匯、語法、文風、內容等方面給出反饋，但該系統目前無法做到對同一篇作文反復修改與評閱。

（3）TRP（ Teaching Resource Program）教學資源平臺。它根據寫作教學需求，將數字化、網絡化與區域化教學平臺進行了有機的整合，并涵蓋了資源建設、平臺構建、寫作學習、句型練習、語法測驗、作文評分、寫作研究與評語生成作為考試等功能。

（4）易改機評軟件。其主要功能包括：1）一鍵檢查：檢查英語文本拼寫、語法糾錯和文章風格等；2）錯誤解釋：對錯誤類型和錯誤原因給予詳盡的解釋；3）寫作潤色：在維持原意的情況下為文本潤色。它采用了基于自然語言處理與機器學習相結合的糾錯方法，讓機器學習模型大量閱讀（一萬億詞級別）正確的英語，構建一個極為精確的模型。每遇到一個輸入的句子，易改的后端模型會首先分析每個句子結構，然后通過實例語料模型中的上下文來判斷寫作是否有誤。

（5）大規模考試英語作文自動評分系統 EFL Assay Evaluator 1.0。它結合第二語言習得理論、語料庫語言學理論、測試學、統計學，利用自然語言處理技術，挖掘出穩定的文本特征變量，構建評分模型。但該軟件在研制過程中僅使用了1000多篇學生作文作為實驗樣本，與大規模考試中的作文總體樣本量差距較大，評分信度較低。另外，它難以判斷極具創新性的寫作文本的質量，僅適用于對議論文和說明文體的作文進行評價。

三、結論

作文自動評分是利用多學科技術來模擬人工評分，從而高效評定作文質量。一個合理的作文自動評分系統應該充分利用統計技術、自然語言處理技術、信息檢索技術及其它可能利用的技術，從作文文本中挖掘能夠直接反映作文質量的文本特征項作為變量，有效地提高評分模型對作文質量的預測能力。

參考文獻：

[1]Chung G.，& ONeil H.Jr.Methodological Approaches to Online Scoring of Essays[R]（Report No.CSE-TR-461）.Los Angeles.CA：University of California.Los Angeles Center for the Study of Evaluation 1997.

[2]Foltz，P.W.，Kintsch，W.& Landauer，T.K.The Measurement of Textual Coherence with Latent Semantic Analysis[J].Discourse Process.1998.25，285-308.

[3]Valenti，S.，Neri，F.and Cucchiarelli，A.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education.2003.2，112-130.

[4]桂詩春.潛伏語義分析的理論及其應用[J].現代外語，2003，（1）.

[5]蔣學清.探析自動作文評價系統對大學生英語寫作能力發展的影響[J].山東外語教學，2011（6）.

[6]雷曉東.英語作文自動評價系統技術的國內研究與應用[J].科技視界，2015（35）.

[7]梁茂成，文秋芳.國外作文自動評分系統評述及啟示[J].外語電化教學，2007（5）.

[8]梁茂成.大規模考試英語作文自動評分系統的研制[M].北京：外語教學與研究出版社，2012.

[9]王淑雯.如何利用Writing Roadmap 2.0進行在線英語寫作反饋[J].現代教育科技，2011（3）.

[10]吳一安，唐錦蘭.融入自動評價系統的英語寫作實驗教學對高校英語教師的影響研究[J].外語電化教學，2012（4）.

[11]楊玲.作文自動評價系統在高水平學生英語寫作學習中的應用[J].現代教育技術，2013（5）.

[12]周穎.在線形成性評價工具在英語寫作中的應用——困難及對策探究[J].現代教育技術，2011（9）.

作者簡介：

黃萬武（1972.9-），男，副教授，碩士生導師，研究方向：外國語言學及應用語言學。

項頒（1989.7-），女，湖北工業大學外國語學院研究生在讀，研究方向：外國語言學及應用語言學。

校園英語·上旬2016年9期

校園英語·上旬的其它文章: Vegetation and climate changes in Central Asia during the last 28，000 yrs： A high—resolution pollen record from Valikhanovsection， Kazakhstan; 論國際商務英語翻譯的多元化標準; Work Ethics and General Morality; Research on Application of Edible Landscape in Rural Tourism： A Case of Dendrobium Landscape in Pu’er City; 創傷理論視角下的《藻海無邊》; 從格萊斯的會話含義理論的角度分析《當幸福來敲門》中的人物對白