英語作文自動評分發展歷程的探究*

2015-07-24 02:25:04周志蓮

武漢冶金管理干部學院學報 2015年1期

周志蓮

(桂林電子科技大學外國語學院，廣西桂林541004)

一、引言

美國的埃利斯·巴滕·佩吉(Ellis Batten Page)在60 年代提出了使用計算機批改作文的想法，1997 年后PEG，IEA，E -Rater，Intellimetric，BETSY 等多個英語作文自動評分(Automated English Scoring，簡稱AES)系統相繼在美國的大規模考試中得到應用。我國已經自主研發了一些AES 系統，如梁茂成的計算機輔助評分系統、句酷批改網、冰果、東方批改網，但是就信度、效度和應用范圍來說，遠遠不如美國的AES 系統，而且無一系統能在我國大規模考試中得到應用，與之相關的學術介紹和研究也是鮮見。目前國內外關于AES的研究主要體現在三個方面:英語作文自動評分系統的總體介紹、基于各種自動評分系統的效度和信度研究和自動評分系統的技術介紹。本文將從AES 產生的教育背景和研究團隊來介紹國外作文自動評分的發展歷程，以期對我國AES 系統的研發與應用提供具有參考價值的研究資料。

二、作文自動評分發展的背景

作文自動評分是利用計算機技術在短時間內對大規模的學生作文進行自動批改，提供分數、甚至評語和改錯建議等功能的機器批改行為。作文自動評分技術從探索到應用已經經歷了四十個春秋。它的起源離不開測試和計算機輔助教學(Computer Aided Instruction，以下簡稱CIA)的發展。

1.作文測試評估的發展

(1)作文評估浪潮。教學理論往往影響測試題型。傳統的外語教學方法主要是語法翻譯法，因此傳統的測試方法十分重視考察學生的語法、詞匯、閱讀、翻譯和寫作，但是當時的命題人因缺乏理論知識，常常忽略測試的可信性、客觀性和科學性。對于現代的寫作測試，Yancey 提出三次作文評估浪潮，第一次是1950 -1970 年的客觀題測試，第二次是1970 -1986 年的作文全面評估(holistical writing assessment)，第三次是1986 至今的porftolio 評估。三個浪潮是重疊的，第二個浪潮時期，寫作的客觀題測試題仍然存在，第三個浪潮時期，作文全面評估和客觀題測試題依然用于寫作評估的方式。

以選擇題形式進行的寫作測試在當時頗受歡迎，成為Yancey 描述的第一次寫作評估浪潮的基石。例如，托福考試在相當一段長時間內只有客觀性試題，直到1986 年7 月開始加試作文。1970-1986 年的作文全面評分(holistical writing assessment)主要指為保證測試的效度，模仿教室的寫作教學進行主觀題測試。同時為了提高測試的信度，設計了寫作提示、評分導向以及計算評分的措施。第三次寫作評估浪潮是1986 年至今的porftolio 評估，即指通過布置不同的多次作文進行評估，例如在教室環境下完成多次不同體裁的作文、比一次評估更有效。只要能解決測試成本、提高評估效度，這種常規評估是最合適的。porftolio評估目前已成為形成性評估或者一種學習方式。我國大學英語教學中，一般都采用porftolio 評估，一個學期布置四到五次寫作作業來評估學生的平時學習成績。

(2)AES 思想的形成。美國率先開展對自動評分系統的研發主要是源于中學生的作文量太多，無法及時批改，其次，聘人批改作文的成本高。總體而言，美國寫作測試逐漸增多，不僅為教師增加了評分負擔，而且人工評分耗時、耗錢，評分者還存在固有的主觀性。因此，這個國家不得不通過技術解決這一難題，開發作文自動評分系統。

2.CIA 的發展與AES 的萌芽

如果說現代英語作文評估有四次評估浪潮，那么第四次就是作文自動評分。AES 的核心技術是計算語言學，它的實現離不開計算機技術的發展。埃利斯·佩吉和迪特爾·保盧斯1968 年出版的《計算機的作文分析》是研究作文自動評分的最早文章。但是以當時的技術，計算機作文評分的成本高、信度較低，遭到許多人的質疑，因此他們的AES 系統研發進度在后來的二十年里相當緩慢。

20 世紀90 年代以后，CAI 發展到新的階段，主要表現在建構主義(constructivism)學習理論的應用和多媒體、計算機網絡的廣泛應用。在這一時期，虛擬現實在教育中得到應用，它允許學生與虛擬環境中的各種信息進行交互，學生在學習中的主動性、創造力得到較好的發揮，因此許多國家如美國、加拿大、澳大利亞等國都在學校中進行虛擬現實應用的實驗，并取得引人注目的效果。90年代后，各國在發展計算語言學技術的同時，發展作文自動評分技術，其目的不完全在于解決學校批改作文的負擔，有時是技術發展和競爭的結果。

二、國外作文自動評分的研究團隊

1.PEG 和埃利斯·巴滕·佩吉

佩吉(1924 - 2005)被普遍認為是自動作文評分之父。1962 年佩吉到康涅狄格州大學擔任教育心理學教授和教育研究局主任時，受到計算語言學，人工智能技術的啟發，于是結合他的高中英語教學經驗，從1964 年下半年開始研發PEG(Project Essay Grade )軟件，主要使用代理量度標準(proxy measures)和最佳模擬人工評分的回歸系數進行作文自動評分。1966 年應美國大學委員會的請求在康涅狄格大學與同事們創建初始版本，1973 年獲得成功。1979 年到2002 年，佩吉到杜克大學任教，更新了PEG，直到1993 年，成立Tru-Judge 公司，挖掘此軟件潛在的商業應用價值。該系統修改后的版本發布于20 世紀90 年代，通過使用自然語言處理工具增強了評分模型，如側重語法檢查器和語音終端標注(part of speech tagging)的句法分析。1997 年用于GRE 測試評估。

自動作文評分是探索計算機評估和學生寫作，尤其是作文得分的一個多學科領域。自1966年佩吉提出計算機作文評分的可能性和出版相關的著作和介紹PEG 的程序，他發表了大量關于教育心理和教育評估的文章。佩吉在60 年代中期開發PEG 軟件的開創性工作為緊隨其后的20 世紀90 年代電腦作文評分技術的實際應用奠定了基礎。

2.IEA 和皮爾遜知識技術集團

IEA(Intelligent Essay Assessor)系統由商業公司皮爾遜的知識技術集團(Pearson Knowledge Technologies)開發，使用托馬斯·蘭道爾開發的“知識分析技術”評分引擎，于1997 年首次投入GMAT 的評分使用。2004 年皮爾遜購買知識分析科技公司(Knowledge Analysis Technologies)后，成立皮爾遜知識技術集團。這家公司于2008 年收購了Ordinate Corporation，2011 年收購INTEGRE。知識分析科技公司由三位大學教授托馬斯·蘭道爾，彼得·福爾茲和達雷爾·拉罕姆1998年成立。當他們意識到需要改進測試評分，于是創造了唯一的自動文本分析技術，用于評估書面段落。統籌公司Ordinate Corporation 由兩名斯坦福大學的教授賈里德·伯恩斯坦和布倫特·湯森于1996 年成立。他們認為有必要使用語音處理技術、計算語言學和心理縮放來開發口語測試系統并申請此專利。INTEGRE 由唐納德·迪蘭與山姆·杜利于1991 年創建。唐納德是MathQuery的原創者，MathQuery 是構建- 響應數學的一個以標準為基礎的自動化評分技術。山姆·杜利是W3C 數學組中的“特邀專家”。MathQuery 可以實現局部的信用評分，提供詳細的分析和報告，并為學生提供糾正反饋。

皮爾遜知識技術集團綜合了三家公司的實力，成為教育評估領域的佼佼者，具備了聽說讀寫四種技能的測試評估系統。除了IEA，還擁有幫助提高和評估讀寫技能的WriteToLearn 系統、提高和評估閱讀總結技能的Summary Street 系統、口語測試系統Versant 和漢語口語測試系統Spoken Chinese Tests。IEA 是基于潛在語義分析(LSA)技術基礎上開發，利用線性代數模型分析作文的深層意義。該系統非常適合科技、社會研究、歷史、醫藥或商業說明文的分析與評分，雖然主要在于評價文章內容方面的質量，但也包含了對語法、文體以及操作細節方面的評分與反饋。

3.Intellimetric 和華帝學習公司

Intellimetric 是華帝學習公司(Vantage Learning')的AES 引擎，一個投資超過千萬美元的商用系統，于1996 年開發和1998 年用于商業用途。基于人工智能創建的Intellimetric，被世界各地領先的評估機構利用于高風險及進展性評估。Intellimetric 采用AI 和NLP 技術評估作文中的語義、句法、篇章三個層次的300 多項特征。Intellimetric 需要采用專家級評卷員已經評好分數的作文集進行訓練，構建模型，然后用小點的測試集檢測模型的效度和概括度。兩項得到確認后，便用于作文自動評分。

自1990 年以來，華帝學習公司為學生成績和學校改進提供了問責制的解決方案(accountability solutions)后，就以滿足教育行業的需求為目標，不斷提供成熟的技術和開發專業的資源來培養學生、家長和教師之間的有意義互動。憑借如人工智能，自然語言理解和基于Web 的學習對象、在線評估、教學計劃和可定制的數據管理系統領域等技術，華帝學習公司被公認為教育行業的領導者。

4.E-Rater 和ETS

教育考試服務中心(ETS)提供的電子評價者是一個自動作文評分程序E -Rater，于1999 年2月第一次用于商業。ETS 的CriterionSM 在線寫作評估服務使用電子評價者引擎E -Rater 提供分數和有針對性的反饋。E-rater 采用NLP 工具包分析所有的句子，包括詞性標注器、句法分析器、篇章分析器、詞匯相似度量器。E -rater 采用語料庫方法建模，使用統計和自然語言處理技術來提取待評分文章的語言學特征，然后對照人工閱卷的標準作文集進行評分。E - rater 從1999年開始，已評閱超過750，000GMAT 作文，也被用于托福考試作文的評分。

吉爾·伯斯坦(Jill Burstein)是團隊的領隊，具有深厚的語言學學術背景，專業研究涉及計算語言學、自然語言處理、語料庫語言學、文本分析、教育技術、教師培訓等多個方面。她的產品和發明包括:E -rater 自動作文評分系統和ETS 的基于Web 的自動作文評價體系Criterion。

5.BETSY 和勞倫斯·拉德納

BETSY(Bayesian Essay Test Scoring Ystem)由美國教育部投資、馬里蘭大學的勞倫斯·拉德納(Lawrence M. Rudner)基于訓練語料對文本進行分類而開發的程序，可以免費在線使用。文本分類采用的是樸素貝葉斯模型，系統也因此得名。

勞倫斯·拉德納于1971 年獲雪城大學(Syracuse University)的數學以及初級教育學士專業的理學學士，1973 年獲西康涅狄格州立大學得教育理學碩士學位，1977 年獲美國天主教大學的教育心理學博士學位，1991 年獲馬里蘭大學的工商管理金融與創業專業的碩士。勞倫斯·拉德納擔任研究生入學管理委員會研究和發展會(GMAC)的副會長，工作包括測試驗證，適應性測試，專業水準，QTI 規范，測試安全，數據取證，以及GMAT考試的監督合同。

從以上五個系統和研究團隊的介紹，我們可以發現美國的AES 系統具有強大的團隊、長久的高額投資，學術研究型的領軍人物，并且獲得廣泛的應用，如表一。

三、國外作文自動評分的未來

美國的作文自動評分仍然在如火如荼地發展。2012 年，休利特基金會資助一個叫做學生自動評估獎(Automated Student Assessment Prize ，簡稱ASAP)的Kaggle 在線競賽，目的在于表明AES是可靠的或者比人工評分更可靠。201 名挑戰者參加比賽，被要求使用AES 系統預測評委打出的作文分數。在這場比賽中，9 個供應商的AES 系統對ASAP 數據進行獨立的演示，結果表明自動作文評分能像人工評分一樣可靠。美國教育部資助兩個跨州聯盟PARCC (artnership for Assessment of Readiness for College and Careers)和SBAC (Smarter Balanced Assessment Consortium)開發下一代的評估，這兩個評估體系正在努力鉆研，爭取在2014 -2015 年學年實現基于計算機的測試。美國的作文自動評分正在有條不紊地進行，扎扎實實地邁向更高水平。

表1

四、總結

美國的PEG，IEA，E - Rater，Intellimetric，BETSY 系統擁有強大的團隊，堅強的后盾和跨學科知識，并且不段更新系統，追求技術的成熟和應用的價值。然而，這些國外系統在評估中國學生的英語作文時，其評分結果與教師的人工評分結果存在著明顯差異，并且它們也無法很好地檢查與糾正中國學生英語作文中的常見英語單詞錯誤與常見英語語法錯誤。如果我國對英語作文測試的信度和效度要求越來越高的話，作文自動評分將會成為我國大規模作文測試的主流方式。國外各種智能評分系統的技術涉及專利問題，雖然還未完全公開，但是豐富的理論研究對我國的研究團隊不無裨益。只要我國繼續在技術、人力和資金等方面加大對AES 研發的投入，同時教育部門提供相應的支持，我國的AES 將會擁有更加美好的前景。

［1］ Herrington，Anne，and Charles Moran. “What Happens When Machines Read Our Students’Writing?”College English 63.4 (March 2004):480 -499.

［2］Semire Dikli. (2006). An Overview of Automated Scoring of Essays. The Journal of Technology，Learning and Assessment. Volume 5，Number 1.

［3］Semire Dikli，(2006)Automated Essay Scoring.Turkish Online Journal of Distance Education-TOJDE，ISSN 1302 -6488 Volume:7 Number:1 Article:5.

［4］Shermis，M. D.，Burstein，J.，Higgins，D.，＆Zechner，K. (in press). (2010). Automated essay scoring:Writing assessment and instruction. In E. Baker，B. McGaw＆ N. S. Petersen (Eds.)，International encyclopedia of education (3 ed.). Oxford，UK:Elsevier.

［5］Shermis，M. D. ＆ Burstein，J. (2003). Automated Essay Scoring:A Cross Disciplinary Perspective. Mahwah，NJ:Lawrence Erlbaum Associates.

［6］Yancey，Kathleen Blake. “Looking Back as We Look Forward:Historicizing Writing Assessment.”CCC 50:3(Feb 1999):483 -503.

［7］陳瀟瀟，葛詩利. 自動作文評分研究綜述［J］. 解放軍外國語學院學報，2008，(9).

［8］葛詩利.面向大學英語教學的通用計算機作文評分和反饋方法研究［D］.北京語言大學，2008.

［9］梁茂成，文秋芳.國外作文自動評分系統評述及啟示［J］.外語電化教學，2007，(10).

［10］梁茂成.中國學生英語作文自動評分模型的構建［M］.北京:語教學與研究出版社，2011.

［11］梁茂成.大規模考試英語作文自動評分系統的研制［M］.北京:高等教育出版社，2012.

［12］何旭良.句酷批改網英語作文評分的信度和效度研究［J］.現代教育技術，2003，(5).

［13］張梅，印勇.英語作文計算機評分技術綜述［J］.外語電化教學，2010，(11).

［14］張仲德，李雅萍.基于文本基礎上冰果智能英語作文的分析與研究［J］.長春大學學報，2013，(8).