陳周云 遲秀湘 牛潔珍
摘 要: 現代教育信息技術應用于語言測試和教學領域是大勢所趨,本文介紹了目前國外比較流行的八種寫作測評工具。相比較而言,國內對于寫作在線測評工具的研究尚處于初始階段,主要體現在三個方面:理論介紹、模型構建和實證研究。雖然這項技術具備很大優勢,但是在技術革新和實際應用方面仍然面臨諸多挑戰,急需更多的實證研究達到最佳應用效果。
關鍵詞: 寫作在線測評工具 信息技術 語言測試
一、引言
現代教育技術的發展與普及為語言教學和語言測試的發展帶來了契機,寫作在線測評工具不斷研制、開發和應用就是一個極好的例子。寫作在線測評工具就是利用現代教育技術對語言學生的作文進行在線判斷、評分并且給出及時反饋的計算機軟件系統。它以反饋、調控和改進為目的,具有改善教學活動、監控寫作過程的功能,能夠達到及時反饋、改進、調控學生學習進程的效果。作為衡量語言輸出能力的重要指標——寫的能力,無論是檢測還是平時訓練,都需要客觀、公正的評閱者,給予及時、中肯的反饋,同時為學生提供不斷修正、改進的機會,敏銳地捕捉他們的點滴進步,調動他們的寫作積極性。計算機技術和信息系統的日新月異為解決這一亙古難題帶來了希望,國內外各個領域的專家學者們紛紛研制開發寫作在線評閱工具。這種寫作在線評閱工具主要應用于語言測試和語言教學領域,針對已經輸入計算機內部的學生作文文本進行評閱,主要用在高風險考試中,作為人工評分的補充進行實際評分;還可以用在語言教學中,對學生的寫作能力進行診斷、提供修改建議等。
二、國外寫作測評工具綜述
該項技術的研究始于20世紀60年代的美國,目前國外較為成熟的寫作自動測評工具主要包括:Project Essay Grade(PEG),Intelligent Essay Assessor(IEA),Electronic Essay Rater(E-rater),Criterion,IntelliMetric,Bayesian Essay Test Scoring System(BETSY),My Access!,以及Writing Roadmap2.0(WRM)系統等。
1.PEG
作為最早被開發出來的寫作自動測評工具,PEG主要針對所輸入文本的一些容易量化的特征,如:長度(包括文章、句子、甚至單詞的長度)、標點符號、語法等因素,利用統計中的多元回歸分析,給文章評分。盡管PEG在實際應用中與人工評分有著很高的相關性,準確率也很高,但是由于PEG的評分標準只是表層特征,忽視或者說沒有辦法量化文章的本質特征,如:內容的相關性、組織體裁、作者的觀點態度、篇章結構等,而且不能提出反饋,因此沒有得到教育界的認可和接受。不管怎樣,PEG是利用計算機代替人工閱卷的首次嘗試,為后來的技術改進奠定了基礎。
2.IEA
IEA的基本原理是潛在語義分析——LSA(latent semantic analysis)技術。潛在語義分析用于作文評分時有三個步驟:首先,要挑選出有代表性的作文范文樣本;其次,這些樣本被表示為潛在語義分析中使用的變量;最后,待評分作文在內容和概念的相關性上與這些樣本進行比較,從而取最類似范文的平均分數(韓寧,2009)。與PEG只關注文本的表面語言特征相比,IEA關注文本的整體內容,同時包含對文本的寫作技巧,如語法、標點等的反饋,與人工評分的相關性也很高,具有更大的教育價值,是作文自動評分系統的重大突破。由于該方法只能對作文內容進行評價,而不顧作文的語言質量,因此評分效度很難保證。而且其設計初衷是為評價本族語作文所用,如果用于評測外語學習者的作文,其信度和效度就很難取得令人滿意的效果。
3.E-rater
E-rater利用了多種技術,如統計技術、矢量空間模型技術和人工智能中的自然語言處理技術,因此,E-rater既能夠像PEG那樣評判作文的語言表層特征,又能夠像IEA那樣評判作文的內容質量。此外,E-rater還能夠對作文的篇章結構進行分析。E-rater兼顧作文的內容和語言形式,是一種混合的自動評分系統,與人工評分之間的一致性達到了最高點。然而,E-rater并非十全十美。其旨在分析語言質量的句法多樣性分析模塊不能全面衡量語言質量的其他方面,如詞法、語言的準確性等,從而影響了評分信度。另外,其旨在分析內容質量的主題內容,分析模塊所使用的信息檢索技術,與IEA所使用的潛在語義分析相比,有點落伍,不能有效排除由于詞匯同義和歧義所產生的干擾信息。其帶有創新意義的篇章結構分析模塊主要靠在文本中搜索話語標記語,像in conclusion、first of all等容易產生不良的反撥作用,致使考生認為,只要多使用這些話語標記語就可以得高分。(梁茂成,文秋芳,2007)
4.Criterion
作為一個基于互聯網的作文評分和評價服務系統,Criterion不僅可以用于考試評分,還可以給出作文個性化的診斷性反饋。其技術核心是綜合了E-rater和另一個軟件系統Critique,前者提供評分,后者可以對作者寫作能力提供診斷信息,包括語法、用詞及寫作機制(比如大小寫、標點符號)等多方面。Criterion的改進主要體現在三個方面:能評判與分析事先訓練過的作文題目、能夠給出所有題目(包括新提供的題目)的診斷反饋信息、可以適用于母語非英語的寫作。雖然其反饋的類型比較有限,但是Criterion在提供形成性反饋信息方面畢竟邁出了一大步,開創了寫作評價工具服務于教學的先河。
5.IntelliMetric
IntelliMetric是第一套基于人工智能技術開發出的作文評分系統,取代E-rater用來給GMAT作文評分。它能夠模仿人工評卷,對作文的內容、形式、組織和寫作習慣進行評分,集中了人工智能、自然語言處理和統計技術的長處,是一種能夠內化專家級評卷員集體智慧的學習機。它開發了能夠分析詞性和句法關系的自然語言處理技術,依據英語標準書面語的主要特征,內化作文中與某些特征相關的每一個得分點評判作文。IntelliMetric能夠評估作文中語義、句法、篇章3個層次的300多項特征。據稱在性能方面能夠跟專家級評卷員給出的分數一樣準確。另外,IntelliMetric能夠評閱除了英語以外的其他多種語言的作文。
6.BETSY
BETSY以概率論為指導,其核心原理是貝葉斯分析方法,基于訓練語料對文本進行分類的程序。該系統使用了包括內容與形式方面的一個大型特征集,根據優、良、合格、不合格四個類型尺度,把一篇作文劃分到一個最合適的集合中。其開發者聲稱這個程序集合了PEG、LSA、E-rater的優點并且具有自己的特色。例如,能夠用于短文評測,產生診斷性結果,可以非常方便地應用于不同的學科專業范圍,并且其結果對非統計人員來說通俗易懂,可免費下載使用。
7.My Access!
My Access!主要為學生提供一個寫作環境,能夠迅速形成結構化的形成性反饋和診斷報告,學生可以根據這些結果修改自己的作文,改進寫作技巧。同時也為教師提供了一個基于網絡的輔導環境,可以選擇多種的報告格式,瀏覽學生的歷史記錄,分析學生的錯誤,把學生按水平分組,等等。My Access!還被大規模地應用于課堂教學。大部分研究表明教師和學生對My Access!的使用持積極肯定態度,使用后學生成績也有明顯提高。教師對系統的積極態度和正確使用及對學生的正面引導,系統評價、教師評價、同行互評等相結合是最佳使用方法。
8.WRM2.0
WRM2.0是美國McGraw-Hill公司設計的寫作在線形成性評價工具。該系統可以針對作文的語言形式(如拼寫、詞匯、語法結構等)和語篇的內容及組織結構等提供多種形式的電子評語反饋信息,同時還具備教師調整評分功能,便于教師提供更加準確、客觀、全面的評語和修改建議。該系統除了提供一個綜合評分以外,還可以根據六個維度(思想和內容、組織機構、體裁、詞匯運用、流暢度、拼寫及語法正確率等)給出分項分值,并且根據這六個維度和作文的篇章結構給予評語反饋與修改建議。關于WRM的實證研究主要集中于美國的弗吉尼亞州,研究結果表明,使用WRM2.0的學生在州統考中成績明顯高于沒有使用的學生。WRM2.0已經被國內引進,一些關于該工具的應用文獻,將在下文進一步闡述。
三、國內研究現狀
國內的一些專家和學者比較關注現代信息技術在語言教學中的應用。然而,關于寫作在線測評工具在語言教學和測試中的研究尚屬于初始階段,主要集中于三個方面:理論介紹、模型構建和實證研究。
1.理論介紹
國內對寫作在線評價工具的興趣主要始于本世紀初,集中在對國外寫作自動評價系統的原理和特點的介紹。梁茂成、文秋芳(2007)評價和比較了國外具有代表性的三種作文自動評分系統:PEG、IEA、E-rater,指出這些評分系統在訓練及作文的人工評分方法和機器評分效度等方面存在的問題,并分析了這些作文自動評分系統為我國自主開發作文自動評分系統所提供的借鑒作用。葛詩利、陳瀟瀟(2007)討論了國外的寫作自動評價工具在二語寫作評分方面的表現,分析了自動作文評分技術在英語作為外語寫作領域的發展及針對中國英語學習者作文自動評分的研究,并且提出適合中國國情的研究方向及可能應用的方法。陳瀟瀟、葛詩利(2008)介紹了國外比較有影響力的六種寫作自動評價工具,分析了國內市場對寫作自動評價工具的需求,介紹了國內對寫作自動評價工具的開發研究,指出了英語作為外語的作文自動評價工具研究的發展與不足之處。韓寧(2009)具體介紹了目前美國較流行的用于大規模考試評分和英語教學中的七個寫作自動評分系統,詳細地闡明了各自的工作原理和特點,同時也指出了今后的主要研究方向,尤其是在國內引入這些評價系統時需要改進的地方。
2.模型構建
國內最早設計符合中國學生英語作文自動評價工具模型構建的應該是梁茂成(2005)。他的建模方法兼顧了PEG和IEA的長處,設立訓練集和驗證集,在訓練集的基礎上得到評分模型,用驗證集交叉驗證模型的可信度,進而采用雙重交叉驗證。他的模型是在訓練集中提取大量的作文淺層文本特征,連同作文的內容作為自變量,人工評分作為因變量一起用于多元回歸計算,得到作文評分的回歸方程。提取待評分作文的相關特征值,代入回歸方程即可得到該作文的得分。其模型的評分準確率很高,但是由于樣本數量過小,作為自變量的淺層文本特征,還需要進一步研究。在此基礎上,梁茂成(2011)研制了大規模英語考試作文評分系統,基于人工評判的大量中國大學生作文語料庫建立模型,從語言、內容和組織結構三方面對作文進行評價,為開發適合中國學生練習和評價的寫作自評系統做出了很大的努力。
3.實證研究
國內的實證研究主要集中使用技術相對比較成熟的WRM2.0。王淑雯(2011)結合教學實例,強調WRM2.0系統所能夠提供的及時、全面的多元化反饋有助于提高學生的語言正確率和寫作水平。該項實驗為期三個月,對系統使用情況采用問卷調查、訪談和總結,結果顯示,所有教師對系統采取積極態度,絕大部分學生認為系統有助于提高他們的寫作水平。由于該研究主要采用定性形式,缺乏定量數據,沒有客觀的前測、后測成績比對及實驗組和對照組成績比對,而且使用周期太短,因此,其有效性還有待于進一步考查。周穎(2011)的實驗對象為某高校英語專業二年級學生,使用周期為一年,收集了以紙質調查問卷、訪談及實驗組和對照組期末考試成績作為前測和后測成績等數據,運用SPSS 16.0對回收問卷進行常規數理統計。研究結果顯示:學生對在線形成性評價工具持肯定態度,實驗組成績比對照組有顯著提高。文章還具體分析在線形成性評價工具在學生英語寫作應用過程中遇到的情況,進而提出相應的對策,為利用寫作在線測評工具進行教學提供新思路。蔣學清、蔡靜等(2011)以某高校非英語專業的二年級學生為研究對象,研究方法包括問卷調查、訪談和實驗前、后英語寫作成績的統計學分析,研究時間是一學期。研究結果發現,實驗組和對照組的英語寫作水平都有了明顯的進步,但實驗組的進步幅度更大。這說明寫作在線測評工具所提供的形成性評價方式和自動反饋功能對非母語英語學習者的寫作能力可以發揮積極的作用。該研究還發現,與對照組相比,實驗組在作文結構、語法、單詞拼寫和標點運用方面有顯著提高,但在思想內容、語體、選詞和句式變化方面的優勢則并不顯著,并且分析了原因,包括學生方面和系統本身的不完善。遲秀湘(2013)的實驗對象為某高校非英語專業二年級學生,使用周期為十周,收集的定性和定量數據包括實驗組和對照組的前測、后測成績以及調查問卷和訪談結果等。實驗結果表明:參與實驗的老師和學生普遍采取積極態度,學生成績顯著提高。但是也有個別學生持保留態度,影響他們態度和成績的因素有待進一步研究。
四、關于寫作在線測評工具應用問題反思
寫作在線測評工具在國內有著很大的潛在市場。在語言測試方面,除了漢語作文以外,作為主要外語的英語作文(這是本文及本項目主要關注的方向)出現在各種級別的語言測試中,包括中考、高考、大學生英語四、六級考試、專業英語四、八級、PETS、研究生入學考試等,閱卷工作量繁重,閱卷人員的信度也頗有爭議,急需客觀、公正、信度和效度較高的寫作測評工具。在語言教學方面,良好的自動閱卷工具會對教學產生積極正面的反撥效應。而且,如果在線測評工具能夠根據作文的不同維度,提供形成性及時反饋診斷報告,則有助于學生對寫作產生積極的態度,提高寫作水平,而且能夠減少教師作文批改量,減輕教師負擔,為教、學雙方帶來切實的好處。具體的優勢體現在以下幾個方面。
1.反饋的多元性
系統能夠及時地提供電子反饋和教師可以參與的人工反饋;分數反饋與診斷性評語反饋相結合;針對作文語言形式和語篇內容結構的反饋相結合;形成性反饋和終結性反饋相結合等多元反饋形式。
2.學生自主性和個性化
系統體現了“以學生為中心”的素質教育理念,學生可以自主安排寫作時間和地點,自主選擇符合其水平和認知風格的寫作任務;可以無限次地提交作文—獲得反饋—再修改—再提交,形成良性循環,完成寫作任務。
3.形成性
系統能夠自動記錄學生的歷次寫作情況,對寫作過程中的思維、行為、策略等進行全面反饋并記錄,創建個人寫作檔案,有助于教師隨時了解、監控學生全體或個體的寫作進展,也有助于學生了解自己的學習情況及和同學之間的差距,反思寫作中存在的問題。
4.交互性
系統不僅可以實現學生、教師與機器的互動,還可以實現學生之間的同行互評、教師與學生的多方位互動。教師不僅可以通過系統給學生布置寫作任務,還可以通過系統對電子分數和反饋進行人工干預和修改。
5.激發學習動機
系統所提供的及時評分能夠有效彌補人工評分的滯后性,大大激發學生的學習動機。同時診斷性反饋評語為學生及時修改作文給予提示,修改過后在分數上立竿見影的體現,會給學生帶來欣喜與成就感,大大調動學生寫作的積極性和主動性。
然而,寫作在線測評工具畢竟是信息技術的產物,其開發、研制和改進需要最先進的技術為支撐,需要既了解信息技術,又懂得語言教學、測試規律的復合型人才,不斷更新的信息技術是提高系統的效度和信度的關鍵。另外,寫作在線測評工具在語言教學過程中的使用離不開教師和學生,他們對系統的態度、對系統的掌握熟練程度、對系統的使用方法都會在很大程度上影響系統的實際應用效果。因此,只有當教師創造性地把軟件技術有機地融入教學中,引導學生合理有效地利用系統,才能取得最佳效果。
現代信息技術進入外語教學與測試領域是今后的發展方向,大勢所趨。雖然目前尚有需要完善的地方,但是我們要接受并且掌握它,在使用過程中探索它的潛能和局限性,為以后的完善改進提出建議。站在這項改革浪潮上的外語教學一線教師應該順勢而為、勇挑重擔,掌握應用最新的系統技術,開展全方位的實證研究,讓技術真正地服務于教學。
參考文獻:
[1]陳瀟瀟,葛詩利.自動作文評分研究綜述[J].解放軍外國語學院學報,2008,31(5):79-83.
[2]葛詩利,陳瀟瀟.中國學習者自動作文評分探索[J].外語界,2007,122(5):43-50.
[3]韓寧.幾個英語作文自動評分系統的原理與評述[J].中國考試,2009,203(3):38-44.
[4]梁茂成,文秋芳.國外作文自動評分系統評述及啟示[J].外語電化教學,2007,217(5):18-24.
[5]梁茂成.大規模考試英語作文自動評分系統的研制[M].北京:高等教育出版社,2011.
[6]周穎.在線形成性評價工具在英語寫作中的應用——困難及對策探究[J].現代教育技術,2011,21(9):88-93.
[7]梁茂成.中國學生英語作文自動評分模型的構建[D].南京:南京大學博士論文,2005.
[8]王淑雯.如何利用Writing Roadmap 2.0進行在線英語寫作反饋[J].現代教育技術,2011,21(3):76-81.
[9]蔣學清,蔡靜,唐錦蘭.探析自動作文評價系統對大學生英語寫作能力發展的影響[J].山東外語教學,2011,145(6):36-43.
[10]遲秀湘.探究在線形成性評價工具對學生英語寫作能力的影響[J].海外英語,2013,228(5):10-12.
基金項目:本研究得到北京市教育科學“十二五”規劃課題“在線形成性評價工具在英語寫作中的應用研究”(項目編號:DDB12703)的資助。