黃萬武 項頒
【摘要】本文依據(jù)語言測試領域的作文評分要素,對國外具有代表性的三種寫作機評系統(tǒng)原理和國內(nèi)主要的寫作機評應用進行評介和比較,指出這些評分系統(tǒng)和軟件在評分信度和效度等方面優(yōu)勢和劣勢,并分析這些作文自動評分系統(tǒng)為我國自主開發(fā)作文自動評分系統(tǒng)所提供的借鑒作用。
【關鍵詞】寫作機評系統(tǒng)原理 寫作機評應用 評分要素
寫作自動評分系統(tǒng)對能夠提高語言測試的效率和降低成本,本文著重介紹國外內(nèi)經(jīng)典的寫作機評原理,并簡要分析他們的優(yōu)缺點。
一、經(jīng)典的寫作機評原理
1.基于語言形式的機評系統(tǒng)——PEG。PEG于1966年由美國杜克大學的Ellis Page等人開發(fā)。PEG的設計者認為作文質(zhì)量有賴于作文的深層結(jié)構(gòu),而機器無法直接衡量,因此,他們以文本表層特征項為切入點,間接評價作文質(zhì)量。
PEG寫作機評分三階段:變量提取、多元回歸分析和把多元回歸得到的beta值代入計算機程序換算出作文得分。PEG首先收集了一部分人工評分后的作文,再利用自然語言處理技術,從作文中提取若干個文本特征項,并在這些文本特征項與人工評分之間進行相關性分析。然后,Page選擇與人工評分相關的文本特征項作為自變量,把人工評分作為因變量,進行多元回歸分析,得到回歸方程。回歸方程為每一個變量確定了beta值,這樣,在對新的作文進行評分時,PEG只需要提取這些變量,并把beta值代入回歸方程之中,就可以預測出這些作文的得分。PEG目前的程序中包含很多復雜的變量,但PEG的開發(fā)者們并沒有對這些 “復雜的變量”作出明確的界定。
2.基于內(nèi)容的機評系統(tǒng)——IEA。IEA(Intelligent Essay Assessor)是一種基于潛伏語義分析的作文自動評分系統(tǒng),由美國科羅拉多大學的Thomas Landauer等學者開發(fā)。不同于PEG,潛伏語義分析著重分析文本的內(nèi)容,而不是語言。
潛伏語義分析集理論與技術于一體。在理論層面上,它認為任何文本都有一個潛在的語義結(jié)構(gòu),這一潛在的語義結(jié)構(gòu)即全部詞匯的語義之和。然而,自然語言中存在大量的多詞同義和一詞多義現(xiàn)象,這對我們正確理解文本造成嚴重干擾。就技術而言,潛伏語義分析屬于一種矢量空間模型技術,它可通過降維的方法,有效排除干擾,析取數(shù)據(jù)中的潛在語義結(jié)構(gòu)。潛在語義結(jié)構(gòu)可由一個詞匯項文檔矩陣來代表,矩陣中的每行表示一個詞匯項,每列表示一個文檔,而矩陣的每個單元格中的元素為相應詞匯項在相應文檔中出現(xiàn)的頻數(shù)。
運用矩陣代表潛在語義結(jié)構(gòu),可進行奇異值分解的矩陣運算,通過該運算,原來的矩陣可以被分解成為三個不同的矩陣。降維后,對這三個矩陣展開進一步的運算。該矩陣保持了原來矩陣中最重要的語義聯(lián)想關系,同時又屏蔽了大量的干擾信息。
將潛伏語義分析用于學生作文自動評分時,待評分的作文與范文均被視作矢量,完成矢量間的比較后,可得到每篇待評分作文與范文在內(nèi)容上的相似度評分。根據(jù)Landauer等人的報告,該系統(tǒng)所評出的作文得分與人工評分之間的相關性達到r=0.85。
3.基于層次結(jié)構(gòu)的機評系統(tǒng)——E-rater。E-rater是由美國教育考試處于20世紀90年代開發(fā),其目的是評估GMAT考試中的寫作水平。該系統(tǒng)利用了多項技術,其中包括統(tǒng)計技術、矢量空間模型技術和自然語言處理技術。因此,它不僅能像PEG那樣評判作文的語言質(zhì)量,還能像IEA那樣評判作文的內(nèi)容質(zhì)量。另外,E-rater還可分析語篇結(jié)構(gòu)。類似于PEG,E-rater的評分方法基于線性回歸模型。E-rater圍繞三個層面評析作文的質(zhì)量:第一層為話語結(jié)構(gòu)(亦即篇章結(jié)
構(gòu)),主要靠在文本中搜索“To begin with”、“In conclusion”等篇章銜接詞的方法得以實現(xiàn);第二層為句法多樣化,根據(jù)作文中句子結(jié)構(gòu)的多樣化來評判作文的語言質(zhì)量;第三層為內(nèi)容。這里,E-rater通過矢量空間模型,檢測作文中是否包含了充足的與作文題目高度相關的主題詞。
研究表明,E-rater與人工評分之間的一致性一直高于97%。但E-rater的三個層次結(jié)構(gòu)中具體包括哪些變量,則是眾說紛紜。Kukich報告聲稱E-rater可析取100多個變量,Power et al.表示E-rater可析取50多個變量,而Attali和Burstein的報告則堅持認為最新版本的E-rater “依據(jù)有關理論對寫作能力的若干方面給予考慮”,只提取12個變量。
二、有代表性的寫作機評應用
1.國外主要英語作文自動評價工具軟件。國外最有代表性的寫作機評應用當Writing Roadmap 2.0(WRM 2.0)。著名學者吳一安和唐錦蘭考察了機評系統(tǒng)WRM 2.0對高校英語寫作教學的影響。學研究表明,學生寫作能力、自主學習能力及寫作教學過程在一定程度上與WRM 2.0的應用正相關。另外,他們得出結(jié)論,寫作教學應從關注語言形式和寫作結(jié)果向關注內(nèi)容深度和寫作過程靠攏。蔣學清等對寫作機評系統(tǒng)在大學英語寫作中的教學應用研究發(fā)現(xiàn),通過一學期的教學,實驗組和對照組的英語寫作水平都有了明顯進步,且實驗組的進步幅度更大。這表明形成性評價方式和具有自動反饋功能的在線寫作工具可輔助學習者寫作。此外,王淑雯、楊玲結(jié)合教學實踐,介紹了在寫作教學中如何使用WRM 2.0為師生提供多元化反饋,最后闡述了該系統(tǒng)的長處和不足。周穎剖析了WRM 2.0寫作機評系統(tǒng)的問題,原因和對策。
2.國內(nèi)主要英語作文自動評價工具軟件。
(1)句酷批改網(wǎng)。批改網(wǎng)的核心算法是計算待評文本和標準語料庫之間的距離,再將對應的距離映射為作文分數(shù)和評語。技術要點是將每一篇輸入的作文分解成可測量的192個維度,分析過程充分利用了自然語言技術和機器學習的方法,每篇作文先被自動切分成句子,然后對每個句子進行深層語義分析,從中抽取詞、搭配、詞組等結(jié)構(gòu)化單元。主要功能包括分數(shù)即刻顯現(xiàn)、圖文報表式作文分析結(jié)果抄襲檢測等。
(2)冰果英語智能作文評閱系統(tǒng)。它可以即時給出作文評分,并從詞匯、語法、文風、內(nèi)容等方面給出反饋,但該系統(tǒng)目前無法做到對同一篇作文反復修改與評閱。
(3)TRP( Teaching Resource Program)教學資源平臺。它根據(jù)寫作教學需求,將數(shù)字化、網(wǎng)絡化與區(qū)域化教學平臺進行了有機的整合,并涵蓋了資源建設、平臺構(gòu)建、寫作學習、句型練習、語法測驗、作文評分、寫作研究與評語生成作為考試等功能。
(4)易改機評軟件。其主要功能包括:1)一鍵檢查:檢查英語文本拼寫、語法糾錯和文章風格等;2)錯誤解釋:對錯誤類型和錯誤原因給予詳盡的解釋;3)寫作潤色:在維持原意的情況下為文本潤色。它采用了基于自然語言處理與機器學習相結(jié)合的糾錯方法,讓機器學習模型大量閱讀(一萬億詞級別)正確的英語,構(gòu)建一個極為精確的模型。每遇到一個輸入的句子,易改的后端模型會首先分析每個句子結(jié)構(gòu),然后通過實例語料模型中的上下文來判斷寫作是否有誤。
(5)大規(guī)模考試英語作文自動評分系統(tǒng) EFL Assay Evaluator 1.0。它結(jié)合第二語言習得理論、語料庫語言學理論、測試學、統(tǒng)計學,利用自然語言處理技術,挖掘出穩(wěn)定的文本特征變量,構(gòu)建評分模型。但該軟件在研制過程中僅使用了1000多篇學生作文作為實驗樣本,與大規(guī)模考試中的作文總體樣本量差距較大,評分信度較低。另外,它難以判斷極具創(chuàng)新性的寫作文本的質(zhì)量,僅適用于對議論文和說明文體的作文進行評價。
三、結(jié)論
作文自動評分是利用多學科技術來模擬人工評分,從而高效評定作文質(zhì)量。一個合理的作文自動評分系統(tǒng)應該充分利用統(tǒng)計技術、自然語言處理技術、信息檢索技術及其它可能利用的技術,從作文文本中挖掘能夠直接反映作文質(zhì)量的文本特征項作為變量,有效地提高評分模型對作文質(zhì)量的預測能力。
參考文獻:
[1]Chung G.,& ONeil H.Jr.Methodological Approaches to Online Scoring of Essays[R](Report No.CSE-TR-461).Los Angeles.CA:University of California.Los Angeles Center for the Study of Evaluation 1997.
[2]Foltz,P.W.,Kintsch,W.& Landauer,T.K.The Measurement of Textual Coherence with Latent Semantic Analysis[J].Discourse Process.1998.25,285-308.
[3]Valenti,S.,Neri,F(xiàn).and Cucchiarelli,A.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education.2003.2,112-130.
[4]桂詩春.潛伏語義分析的理論及其應用[J].現(xiàn)代外語,2003, (1).
[5]蔣學清.探析自動作文評價系統(tǒng)對大學生英語寫作能力發(fā)展的影響[J].山東外語教學,2011(6).
[6]雷曉東.英語作文自動評價系統(tǒng)技術的國內(nèi)研究與應用[J].科技視界,2015(35).
[7]梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示[J].外語電化教學,2007(5).
[8]梁茂成.大規(guī)模考試英語作文自動評分系統(tǒng)的研制[M].北京:外語教學與研究出版社,2012.
[9]王淑雯.如何利用Writing Roadmap 2.0進行在線英語寫作反饋[J].現(xiàn)代教育科技,2011(3).
[10]吳一安,唐錦蘭.融入自動評價系統(tǒng)的英語寫作實驗教學對高校英語教師的影響研究[J].外語電化教學,2012(4).
[11]楊玲.作文自動評價系統(tǒng)在高水平學生英語寫作學習中的應用[J].現(xiàn)代教育技術,2013(5).
[12]周穎.在線形成性評價工具在英語寫作中的應用——困難及對策探究[J].現(xiàn)代教育技術,2011(9).
作者簡介:
黃萬武(1972.9-),男,副教授,碩士生導師,研究方向:外國語言學及應用語言學。
項頒(1989.7-),女,湖北工業(yè)大學外國語學院研究生在讀,研究方向:外國語言學及應用語言學。