李焱偉 封偉
摘 要:自動作文評閱與人工評閱相比在文本識別速度、文本特征統計能力、評分標準執行力度方面都有明顯的優勢,但是在文本特征識別范圍方面有明顯的劣勢。這些基于自然語言處理技術的評閱系統還不能完全取代人工評閱。因此,我們在寫作教學中應該有選擇地、靈活地把人工評閱機制和機器自動評閱系統有機的結合起來,讓兩種評閱機制發揮各自的優勢。
關鍵詞:自動作文評閱;人工評閱;寫作教學
1 研究背景
近年來,隨著人工智能在社會各個領域的發展,自然語言識別技術也逐漸應用在了外語教學領域。其中一個發展迅猛的細分領域就是機器自動評閱系統在外語測試中的研究和應用。這個領域的技術在近20年里已經逐漸成熟,國內外機構研發出了多個作文自動評閱系統,并且這些系統已經在一些大規模外語測試中成為一個輔助的測評工具,甚至在一些測試中已經完全取代人工評閱。
針對這些作文自動評閱系統,國內外學者展開了一系列研究。其中國外學者主要關注自動評閱系統的設計原理、效度等問題,而多數國內學者比較關注這些系統和人工評閱的效度對比研究。國內學者普遍認為,作文自動評閱系統在評分效度上接近人工評分,但是并沒有在自動評分系統的應用途徑做深入的分析。本文認為應該全面評價一下作文自動評閱系統的優劣,并以此為基礎探索這些系統在寫作教學中的應用途徑。
2 自動作文評閱系統的優勢
Williamson(1999)認為機器評閱有五個優點:第一,準確性:自動評閱系統可以精準統計文本的細節特征。第二,客觀性:自動評閱系統不會受到情感或者觀念的干擾。第三,一致性:自動評閱系統可以保證采用同樣的評分標準評閱所有的作文。第四,復現性:自動評閱系統可以在一段時間之后仍然保證采用同樣的評分標準。第五,溯源性:由自動評閱系統給出的分數可以得到合理的解釋。
本文認為這五個優勢并非都對外語測試有指導意義,所以我們對這些Willianson的看法做了一些修正。我們認為自動評閱系統的優勢主要體現在以下三個方面:第一,從對文本特征的統計能力上看,機器更有優勢。目前的自動評閱系統可以精確統計一篇作文里的單詞個數、句子長度、重復率、以及各種語言錯誤的數目,甚至有的系統還可以統計句子之間的銜接手段的使用情況。而人工只能從整體上大概估計以下一篇作文在語言各個層面上的大概情況,然后根據自己的直覺給出評價。第二,從對評分標準的執行力度上看。機器不受其他因素干擾,能做到始終如一。這能確保系統對每篇作文采用的評分標準都是一致的。與之相反,人工評閱作文時,評分人員會受到情感影響,不同的評分人員對于評分標準的理解也有差異,或者在執行這些評分標準時過于偏重于某些標準。第三,從對文本的識別速度上看,機器識別速度更快。這能確保學生及時得到反饋信息。目前的評閱系統不僅可以對一篇文章進行評分,還以從文章結構、銜接連貫、詞匯搭配和語法等各個層面上對一篇文章提供評價,甚至標注出一些詞匯和語法錯誤并提出修改意見。這些任務的確也可以被教師完成,但是自動評分系統可以在幾秒之內把這些反饋提供給學生,而指導學生數量較多的教師可能需要幾天時間才能完成這些批改任務。
3 自動作文評閱系統的劣勢
自動評閱系統一個最大的弊端是系統不能直接理解作文,只能通過一篇作文的表層的相關特征來間接的判斷一篇作文的質量。因此,自動評閱系統在識別文本的范圍上就有很大的局限性。通常來說,一篇作文里的一些基礎特征,比如拼寫,標點符號、語法錯誤、某些詞匯搭配都可以被識別。但是,文章的內容扣題程度、連貫和銜接、論點的擴展、修辭手段都不能被系統直接識別。盡管每個系統都通過各種手段來分析作文的篇章或者觀點方面的特征,也能針對這些問題為學生提供反饋信息。但是,這些手段都是間接的,并且也不夠成熟。比如,Powers(2001)就做了一次實驗來挑戰e-rater系統的有效性。他們發現,考生如果故意使用一些比較復雜的詞匯或者較長的句子就可以取得比較高的分數。我們也做了一些相似的實驗測試國內的批改網系統。如果在一篇文章中多加入幾個銜接詞,系統就會給這篇文章的銜接方面給以較好的評價。
此外,即便是在語法和詞匯這些基礎的文本體征識別方面,自動評閱系統也不能做出完全正確的判斷。我們測試了批改網、Iwrite 和Realskill這三個國內自動評閱系統,發現這些系統能較好地識別主謂一致、動詞形式等方面的語法錯誤,但是在比較復雜的語法錯誤查準率就偏低。在識別詞匯使用錯誤方面表現就更差一些,多數系統只能識別一些比較簡單的介詞搭配錯誤,而對于其他詞性的搭配錯誤或者語義錯誤的識別度很低。雖然說各個系統都聲稱基于一些大型英語語料庫,但是由于一些詞匯都是有多個含義,而系統無法識別語境,因此系統還是很難判斷大多數詞匯使用是否準確。這些劣勢都讓作文自動評閱系統的效度受到質疑,并且給學生提供的反饋也不是完全可靠。
4 利用自動作文評閱系統的方式
既然自動作文評閱系統在評閱作文的效率更高、更加客觀、反饋更加及時,我們就有必要在寫作教學中利用起這個教學工具。但是,我們也要意識到這些系統盡管在不斷升級還是不能準確識別一些文本特征。這就意味著我們要充分利用自動作文評閱系統的優勢,在一定范圍內容使用這些系統代替人工評閱。在一些情況下,作文自動評閱系統只能成為人工評閱的輔助工具。
4.1 機器評閱為主
在我國大學英語教學中,一個教師通常需要指導上百名甚至數百名學生,在一個學期的寫作課程中又需要多次布置寫作練習。在這種情況下,教師就很難抽出足夠的時間評閱數千篇學生作文。因此,自動評閱系統的優勢在這個情況下就可以得到充分的發揮。況且,平時練習的分數至多也就是平時成績的一部分,所以評分即便有所差錯也不會對學生的期末總評產生太大的影響。其次,系統還可以對學生每一次練習的作文提供及時的反饋,這些反饋雖然有一定局限性,但是對學生的語法、詞匯和連貫銜接等層面的學習也有一定的指導作用。
在這個模式中,教師的只需要抽查有異常的評分結果。畢竟,教師對自己的學生的寫作水平還是有大概的了解,當發現機器評分和自己預期結果有明顯差異時,教師可以通過人工評閱的方式進行檢驗核實。國內一些作文自動評閱系統也會對一些有抄襲或者機譯嫌疑的作文做出標注,教師只需要對這些作文進行人工評閱。教師在這個過程中是一個監督者和質量控制者的角色。這個模式可以極大減輕教師的工作量,又能確保學生得到及時的反饋。
4.2 機器評閱占一定比例
在這個模式中,機器評分和人工評分可以各占一定的比重,比如,自動評閱系統和評卷人對一篇作文評分后,分別得出一個分數。這兩個分數的平均值就是考生的本次寫作考試的最終成績。這種模式是為了發揮自動評閱系統的客觀性和一致性的優勢,避免人工由于受到情感因素出現的偏差。而加上人工評閱又能確保評分的效度。這個模式適合應用到一些重要的寫作測試中,比如,目前的托福考試的寫作部分評分就引入了e-rater的評分。在這個評分模式中,人工評分和系統評分一定會有一定的差異。通常來說,都是預先設定一個差值的范圍。當人工評出的分數和機器評出的分數差異超出預設的范圍時,可以再找另外一個評卷人進行人工評閱。哪兩個分數最接近,就取哪兩個分數的平均值。目前,國內各種考試都是紙質考試,如果引入機器評分,必須有足夠的基于網絡考試的考位。因此,考位的匱乏決定了這個模式在目前還不能大規模開展。
4.3 機器評閱為輔
在第三種模式中,系統和評卷人都需要給每篇作文評分,但是系統評出的分數并不會出現在成績單里,只是用來確保驗證人工評分具有一致性。當系統評出的分數和人工評分的差異超過了預設的范圍時,就會找另外一名評閱人來做出裁決。這個模式注重人工評閱的結果,是因為有些寫作測試更加看重的是作文的觀點是否新穎或者有批判性思維。而這些文本特征是很難被機器識別的。比如,目前在GRE考試中,就采取了這個評分的模式。這個模式不太適用于國內英語寫作考試,畢竟國內英語考試主要考查多數英語學習者對英語基本知識的掌握情況,而并不關注觀點的新穎或者有獨到的見解。
5 總結
總之,基于自然語言處理技術的自動評閱系統雖然在不斷智能化,但是目前還不能完全取代人工評閱的方式。因此,在寫作測試和寫作教學中,這個自動評閱系統還是應該和人工評閱結合起來。既要發揮系統的優勢,又要避免他們的劣勢,確保評分結果的客觀性、一致性和準確性,也讓學習者得到更及時的反饋。
參考文獻:
[1]Williamson,D.M.,Bejar,I.I.,& Hone,A.S.(1999).Mental model comparison of automated and human scoring.Journal of Educational Measurement,36,158-184.
[2]Powers,D.,Burstein,J.,Chodorow,M.,Fowles,M.,& Kulich,K.(2001).Stumping e-rater:Challenging the validity of automated essay scoring(RR-01-03).Princeton,NJ:Educational Testing Service.
[3]陳冰情,張荔.基于自動作文評閱系統反饋的修改過程研究——以批改網為例[J].當代外語研究,2017,(4):37-48.
資助項目:本文系石家莊學院校級教學改革研究與實踐項目“自動作文評閱系統在英語寫作教學中的反饋效果研究”的階段性成果(項目編號:JGXM-201507A)
作者簡介:李焱偉(1980-),男,碩士,講師,主要從事于外語教學研究。