張威 蔡文育 (哈爾濱理工大學)
英語寫作作為一種重要的語言輸出,是測試學生綜合能力和認知水平的一種非常有用的方法,也是英語學習者聽、說、讀、寫、譯這五種語言應用能力中最難以培養的。在傳統的英語寫作教學過程中,學生寫作水平的提高主要依靠自身練習與教師引導,教師要從內容、詞匯、語法、篇章結構、格式規范等各方面對學生的作文進行評改,長期以來學生和教師都投入了大量的時間和精力,但是收效甚微。在全國大學英語四、六級考試中,學生的聽力和閱讀成績在近年來都有較明顯進步,而寫作成績卻少有提高。這是由于大班授課、寫作練習及評改不足、反饋不及時、主觀性較強等多種原因造成的。因此,張雪梅(2006:28)認為由于現行教學中的教師反饋質量不高、教學針對性不強,我國大學英語寫作存在著費時、低效的現象。
教育部于2016年頒布的《大學英語教學指南》為下一步的大學英語寫作教學改革指明了方向,“大學英語應大力推進最新信息技術與課程教學的融合,繼續發揮現代教育技術,特別是信息技術在外語教學中的重要作用。大學英語教師要與時俱進,在具體的課堂設計與實施過程中,融入并合理使用信息技術元素”。鑒于此,主動適應大數據、“互聯網+”時代下大學英語教學發展的需求,充分利用現代信息技術手段提高教學效果,深入促進教育信息化的發展及寫作教學的轉變,實現教育與信息技術相互交融及創新發展,已成為高等院校未來發展的必然趨勢。
所謂自動寫作評改系統(Automated Essay Evaluation System,AEES),是指使用專門的計算機程序為教育環境中的作文自動評估與評分。自動寫作評分是一種教育評估的方法,也是一種自然語言處理的應用。這個方向的研究始于美國上世紀60年代,其在國外主要經歷了三個發展階段。
第一階段是第一套自動寫作評分系統PEG(Project Essay Grade),由美國杜克大學Ellis Page 等人于1966年開發(Page,2003),Page 是第一個探索、記錄和驗證基于計算機的寫作評估的人,因其開拓性的研究,Page 被視為“自動寫作評分系統之父”。Page 使用回歸模型,將文本的表面特征(如:文本長度、詞長和標點符號)作為自變量,將論文得分作為因變量來衡量作文,不涉及內容、組織、體裁等。
第二階段是由美國科羅拉多州皮爾遜知識技術公司于20世紀90年代研發的IEA(Intelligent Essay Assessor)、美國教育考試服務中心(Educational Testing Service,簡稱ETS)研發的E-rater 和美國新澤西州Vantage 學習公司研發的IntelliMetric,這幾個系統對寫作的評估更為系統化,增加了詞法、句法、語篇及結構的分析。IEA 基于潛在語義分析(Latent Semantic Analysis)分析隱藏在文本中的潛在的語義結構(Semantic Structure),即所有詞匯項(terms)的語義之和?;趯Υ罅课谋荆ㄍǔ閿登У綌蛋偃f字)的統計分析,LSA 得出高維語義空間,單詞和段落在該語義空間中表示為矢量,待評分作文可以通過這些LSA 矢量來表征,與已知寫作質量的作文進行比較,它們的相似性通過語義空間中包含角度的余弦來度量,兩文之間的角度越小,語義或概念內容則越相似,并基于它們的相似性得出作文評分(Similarity Score);E-rater 利用了統計技術、矢量空間模型技術和自然語言處理技術,既能像PEG 那樣評判作文的語言形式,又能像IEA 那樣評判作文的內容質量,還能對作文的篇章結構進行分析。E-rater 圍繞這三個主要方面(即三個模塊)分析和評判作文質量,分別是話語結構(Discourse)(即篇章結構)分析模塊、句法多樣性(Syntactic Variety)(即語言形式)分析模塊、內容(Content)分析模塊(唐冬寧, 張威2017);IntelliMetric 則更為先進,以基于大腦或基于思維的認知模型為基礎,借鑒了認知加工,人工智能,自然語言理解和計算語言學的傳統。能分析400 多種語義、句法和話語層次的特征,能提供整體評分以及中心思想與一致性、文章展開與細節描述、文章組織與結構、句子結構、技巧及慣用規則這五大類特征的分數。
第三階段是2000年以來,基于上述評分系統開發的My Access!、Criterion、Bayesian Essay Test Scoring System(BETSY)、Hot Online Essay Scoring 和Writing Roadmap 等系統,這幾個系統不僅可以反饋寫作分數、詞匯和語法,還能夠有針對性和個性化地反饋寫作的內容質量、篇章組織及格式規范,因此它們在美國的課堂教學中也成為重要的形成性評價工具,但它們主要針對英語本族語學習者。
國內對寫作自動評改系統的研究始于20世紀初,主要側重介紹與探討。最早涉足該領域者是梁茂成(2005),他在研制適合中國學生的英語寫作自動評分系統方面進行了大膽的探索。李亞男(2006)將自動評改技術用于中國少數民族漢語水平測試的寫作研究中。曹亦薇和楊晨(2007)是第一個使用潛語義分析技術對漢語作文進行自動評分研究的開創者,并得出潛語義分析在漢語寫作的自動評分中起著至關重要作用這一結論。韓寧(2009)介紹并評價了美國英語考試及教學中最流行的七個寫作自動評分系統。梁茂成(2011)開發了大型英語考試寫作自動評分系統,即EFL Essay Evaluator1.0。該系統把1000 多篇人工評分的中國大學生議論和說明文體的英語命題作文文本作為語料庫,對前期的評分模型進行驗證和優化,從而建立出系統架構,其主要圍繞作文的語言質量、內容質量以及篇章結構這三個方面進行評判。
目前,國內已出現了一些商用自動評改系統,廣泛使用的主流系統有句酷批改網、冰果英語智能作文評閱系統、TRP 教學資源平臺、iWrite2.0 英語寫作教學與評閱系統和易改英語等。與國外寫作自動評改系統60 多年的發展歷史相比,國內在這一領域的研究還比較薄弱和短暫,且研究主題相對單一和滯后,多以漢語寫作自動評改系統的研究為主。針對英語寫作自動評改系統的實證研究數量不多,多為介紹西方的成果和技術的理論研究。
國內的英語寫作自動評改系統也存在著一些不足之處,如:沒有對作文的內容質量進行分析,且訓練樣本有限,實用價值不高;無法對文章的語義內容進行有效的評估,而且可以通過寫一些優美的句子欺騙系統獲取高分;機器評分與人工評分有較大出入,常出現高分低判、低分高判等問題。該領域的研究面臨著前所未有的機遇,也面臨著諸多挑戰。
在大規模外語標準化測試中,寫作部分通常必須由兩位及以上人工評分員打分,造成了批閱成本很高,使得一些國家在標準考試中已放棄了重要的寫作測試。目前,自動評改系統還處在人機耦合的階段。如果在標準化測試中,用機器人評分員取代其中一位必要的人工評分員,若機器人與人工評分員的意見截然不同,則此作文將被標記并轉發給另一位人工評分員做進一步的評估,那么既可以保證評分質量,又可以提高評分效率。
EdX 總裁Anant Agarwal 稱,智能自動評分的優點不僅僅是能節省寶貴的時間,新技術所實現的即時反饋對學習也有積極影響。在傳統教學模式中,由于大班授課的壓力,許多寫作課教師難以提供即時有效的反饋,作文的評改常流于形式。而寫作自動評改系統的使用可以使師生實現即時溝通,第一時間有針對性地討論問題,并及時反饋效果。學生的寫作成果也可以作為分析學生語言能力發展的重要數據,反映他們語言水平的發展情況,實現學習過程和結果的動態管理。
總之,運用自動評改系統進行英語寫作教學,可以提高學生學習的主動性,實現學生的自主學習。但寫作自動評改系統(AEES)的開發是一項全新且富有挑戰性的復雜技術,研究涉及諸多領域。鑒于此,國內相關領域的工作者應遵循跨學科發展的理念、多學科交叉協作,高校與企業緊密合作、積極互動,將計算語言學、二語寫作的研究成果與大數據、人工智能、機器學習、深度學習等技術整合,將國外先進的技術引入中國英語學習者的寫作自動評改系統中去,為我國的英語寫作教學提供一個強有力的輔助工具。