趙慧 唐建敏



摘 要:英語寫作能力培養一直是大學英語教學的重點和難點,目前自動作文評分AES(Automated Essay Scoring)技術已得到廣泛應用,但如何將其與大學英語寫作教學有效結合仍有待深入研究。鑒于此,根據我國大學英語寫作教學現狀,結合L2(Second Language)語言學習特點,在分析AES技術相關原理基礎上,對大學英語寫作教學模式進行分析研究。結果表明,當前中國大學英語寫作教學需結合AES技術和L2語言學習特點,構建基于AES的大學英語教學模式,以激發學生學習興趣,提升學生英語寫作能力。
關鍵詞:自動作文評分;英語寫作教學;教學模式;自然語言處理
0 引言
大學英語“聽說讀寫譯”5種能力培養中,寫作能力培養難度相對較大,必要的訓練和有效的反饋是提升學生寫作能力的有效途徑[1-2]。文獻[1]表明教師反饋非常受學生歡迎,特別是在錯誤處標注錯誤類型等相關反饋;文獻[2]探討了評閱中指出錯誤類型可能產生的效果。然而,與選擇題、翻譯題、填空題等題型相比,寫作練習往往只有參考答案,甚至沒有答案,只有分數的評閱反饋或沒有針對性的反饋往往難以促進學生寫作能力提升。詳盡的作文評閱反饋往往需要耗費大量人力,這在當前我國大學英語教學中較難實現[3]。
近年來,自動作文評分AES(Automated Essay Scoring)技術也稱AWS(Automated Writing Scoring)或ATS(Automated Text Scoring)受到高度關注,并在GRE、TOEFL等考試中得到了成功應用[4],極大減少了評閱者的工作量。文獻[4]就提升AES預測分數相關性展開研究,主要面向以英語為第一語言的學習者;文獻[5]總結了AES技術的發展歷程及各階段的主要特點;文獻[6]基于多元回歸、K近鄰和支持向量機3種方法對AES作了分析;文獻[7]以英語議論文為研究對象分析了AES和人工反饋對作文修改的影響;文獻[8]基于AES對大學英語寫作能力提升及寫作教學過程變化展開了研究;文獻[9]則對基于AES的自主寫作、多維反饋進行了研究分析。已有研究對AES技術應用于英語寫作教學持肯定態度,但都沒有將教學模式和AES技術特點相結合加以綜合考慮和研究。隨著自然語言處理技術的飛速發展,AES技術也獲得了長足進步[10-18]。本文針對大學英語寫作教學現狀,結合L2語言學習特點,在分析AES技術相關原理的基礎上,對大學英語寫作教學模式進行分析研究。
1 問題提出
從20世紀80年代開始,我國高校非英語專業的英語寫作教學一般采用教師講授、批改為主,學生自我練習為輔的模式。在這種教學模式中,教師是教學活動的中心,教師根據學生水平、教學內容等選擇合適的寫作題目,由學生完成后逐篇批改,然后有選擇地進行解析,并回答學生提問。學生也可以根據自己的興趣和條件自主開展寫作練習,但一般不容易獲得反饋評價。在上述英語寫作教學模式中,教學程序完全由教師掌控,評價、反饋也完全依賴于教師。隨著大學生規模的擴大,教師工作量加大,這種教學模式的效果也難以得到保證。
進入21世紀后,智能評閱技術AES開始應用于大學英語教學中。在國外,AES主要用于各類英語考試,如ETS的作文評閱[3-4];國內高校正致力于將自動作文評分AES技術與大學英語寫作教學相結合,并探究相應的教學模式,以激發學生學習興趣,提升學生英語寫作能力。
2 相關概念及原理
2.1 基于統計的AESS
最早出現的AES技術大多基于統計的方法,這種技術大多借用了從小樣本數據獲取信息的思想[11]。AESS(AES based on Statistics)工作流程如圖1所示。整個流程可分為3部分:首先是前期準備,其核心是作文評分標準需要由經驗豐富的教師完成,再根據評分標準確定選擇哪些文本表示特征以及評分準則,并建立相應的例程庫,這需要由軟件研發者與英語教師共同完成;其次由任課教師有選擇性地挑選特定數量的優秀作文集合{e},然后在{e}上提取相關表示特征并建立AESS模型及其評分準則(例如采用多元回歸或K-近鄰方法等),再由該模型完成每一份試卷{s}的判別;再次由任課教師對基于AESS技術的作文評閱結果進行監督。
從圖1可以看出,AESS系統中對最終結果的準確度具有決定性影響的是由教師制定的作文評判標準以及據此標準選擇的特征。美國ETS(Educational Testing Service)中心制定了分別適用于TOEFL、GRE、TOEIC等不同類型考試的整體標準,并將其應用于E-rater系統中[3]。教學實踐中,大學英語作文評分標準通常可以映射為如下4類表示特征:①基本統計特征,包括但不局限于:作文的單詞數目、長單詞數目、每個句子的平均單詞個數、句子數目等;②句法特征,主要使用PoS(Part of Speech)標簽[12]進行衡量;③單詞拼寫錯誤和句法錯誤,前者的實現較為簡單,而后者需要根據上下文無關句法模型進行句法樹搜索確定[13];④語義相關性特征,可以通過分析測試作文與優秀作文之間的距離,如余弦相似距離確定。
AESS是早期自動評閱技術的主流,但由于體現評分標準的特征沒有覆蓋語義、聚合度等深層作文特征,因此很容易被學生通過書寫長句、長單詞等方法欺騙。
2.2 基于機器學習的AESML
一個典型的AESML(AES based on Machine Learning)如圖2所示。與圖1所示的AESS不同,圖2中的AESML技術雖然也需要教師參與選擇并確定作文的表示特征,但其由計算機自動建立作文評分模型,前提是需要提前獲得大量由教師批改過的且最好是由兩個或兩個以上教師的評分作文作為訓練樣本集合{e}(后文稱其為標簽樣本)。這些標簽樣本需要涵蓋“優、良、中、差”等所有不同級別的作文。在使用機器學習方法對標簽樣本進行訓練時,可以采用SVM(Supported Vector Machine)[14-15]、RF(Random Forest)[14,16]等不同的方法,或者將這些方法結合起來的Adaboost等[14]。不同的機器學習訓練方法對最后的評分準確度也有不同程度的影響。
2.3 基于深度學習的AESDL
AESDL(AES based on Deep Learning)比AESS評分相關度更好。但AESML也存在兩個問題:一是AESML輸出分數與教師標注分數仍有一定距離;二是仍然需要手工選擇作文的表示特征。這兩個問題從本質上看具有深刻的內在聯系:低分作文的特征往往可以較好地歸類,而很多高分作文往往很難用事先指定的特征模型描述。例如優秀作文中“文字優美”的標準,反映到表示特征上,基本要求是沒有錯誤單詞,但這僅僅只是初步要求,“優美”如何定義呢?最近幾年開始出現的AESDL解決了該問題。
如圖3所示,與AESS和AESML不同,AESDL不需要人工確定使用哪些表示特征。AESDL采用端到端(end-to-end)的學習方式,將大量經過人工批閱具有標簽(分數)的作文作為訓練樣本,系統會自動根據這些標簽數據對神經網絡模型進行訓練。AESDL一般可以使用RNN(Recurrent Neural Network)或LSTM(Long Short-Term Memory)神經網絡[17-18]構建。對AESDL完成訓練后,輸入需要批閱的作文,系統會給出該作文相應的分數。相關研究表明,在ASAP數據集合上[15]使用LSTM的AESDL英語作文評閱系統的QWK(Quadratic Weighted Kappa)系數可以達到0.7,而皮爾遜相關系數則可以達到0.8甚至超過0.9[17-18]。這表明設計良好的AESDL系統所給出的評分與測試標簽之間的相關性可能在某些情況下高于某些教師的評閱分數相關性。
但是AESDL也存在一些問題:首先訓練所需要的數據往往非常多,如ASAP(Automated Student Assessment Prize)數據集[20]包括8個種類,作文總數超過了12 000份,每份作文都有兩位或多位教師給出評分;其次,訓練往往要花費很長時間。筆者將基于LSTM的AESDL系統應用于ASAP數據集上,當參數epoch設為200時,在PC上(CPU I7 3770, 內存8G,顯卡NVida Gtx660 2G顯存)的訓練時間超過了20小時。
3 大學英語寫作教學模式
本文從AESS 、AESML 、AESDL 這3種自動作文評分系統的優缺點入手,研究大學英語寫作教學模式。
3.1 3種AES方法優缺點
從考試作文評分角度看,3種方法在評分精度上越來越高。但從高校英語寫作教學角度看,它們則各有優缺點,如表1所示。
從作文評分相關性角度看,AESDL是最優的,但從教學角度看,AESDL提供的反饋往往只有一個分數,不利于學生寫作能力提升。換言之,從反饋角度看,除分數外學生更需要明確的、有針對性的解釋,比如作文哪些方面還需改進。因此,從該角度看,AESS和AESML反而具有更大優勢。此外,在教學過程中評分標準也需要根據具體的教學對象、教學階段進行靈活調整。比如,學生備考四、六級等階段或者其它學期特殊階段,AESDL、AESML由于需要的訓練樣本多,訓練也非常耗時,反而不易實施。相對而言,AESS可以手動調整參數,需要的訓練樣本數也較容易滿足。因此,大學英語寫作教學需要綜合上述3種方法各自優點進行。
3.2 本文模式
結合上述分析,本文設計了一種新的基于AES的大學英語寫作教學模式,其工作流程如圖4所示。主要包括如下階段:
(1)教師準備階段。該階段需要由教師根據當前教學對象、教學進度和教學目標設定當前英語作文“優、良、中、差”等各級別的評分標準,并根據評分標準選擇所需要使用的作文表示特征集合,同時還需要積累各類標簽數據。
(2)標簽樣本訓練建模階段。對搜集到的標簽數據提取相應特征,完成訓練工作。在此階段需要根據標簽數據的數量決定使用何種AES技術。考慮到作文解析的教學要求,所有情況下都要包含AESS模型。當標簽數據較少時,例如不超過50份,只能使用AESS方法;當標簽數據小于400時,建議使用ASEML方法;當標簽數據較多時,推薦使用AESDL方法。
(3)作文評分階段。使用選定的AES方法對輸入的作文進行評分,并輸出各種統計數據、錯誤標注等信息,包括整體信息和個體信息。
(4)評價階段。評價是促進學生水平提升的重要手段和途徑[1,6,7,20],包括教師評價和學生評價。教師首先對評閱結果進行評價,包括評分是否準確、錯誤反饋是否準確、是否有未包含的錯誤等,然后將修正后的評閱結果反饋給學生。學生對獲得的評閱結果進行評價,重點是該評閱結果是否有助于提高學生寫作能力。
(5)反饋修正階段。教師根據學生反饋進行調整,優化模型參數、表示特征等,并再次布置題目。
3.3 需注意的問題
整個教學實施過程中需注意以下問題:
(1)根據教學目標分階段設定評分準則。準確的分數有利于衡量學生寫作水平,但是不同層次的學生水平不同,不能使用同一個標準。因此需要建立與當前教學對象相適應的多套評分準則。不同的評分準則意味著需要不同階段的大量標簽樣本。
(2)標簽樣本收集。目前比較完備的英語作文標簽數據集來自ASAP[20],但這些數據基本上都是以英語為母語的美國學生的作文,用于我國大學英語日常教學的AES訓練模型,可能會有較大偏差[21]。雖然文獻[22]提供了有效數據達9 864篇的中國學生英語作文,但這些作文都是沒有評分的。因此,需要不斷積累標簽數據才能使AES模型更為有效。
(3)從實施角度講,本文基于AES的英語寫作教學模式更適用于學生自主練習,與教師布置的題目互為補充,從而更好地提升學生英語寫作能力。教師在AES評價基礎上形成的最終評價往往對學生具有關鍵指引作用,但如何實現仍有待深入研究。
4 結語
將自動作文評分相關技術引入大學英語寫作教學中,結合AES技術和L2語言學習特點,建立基于AES的大學英語寫作教學新模式,有助于激發學生自主學習熱情,提升學生英語寫作能力,并擺脫過去大學英語教學中的“啞巴”英語陷阱。目前,相關技術尚處于初步應用階段,不管是理論和操作程序上,還是評價方法和標準方面,都需繼續在實踐中進一步完善。
參考文獻:
[1] 金曉宏. 非英語專業大學生對不同形式英語寫作評改反饋的接受程度研究[J]. 外語研究,2016(5):58-62.
[2] 左年念. 外語作文評閱與學生寫作能力提高之間的關系——研究綜述[J]. 外語教學與研究,2002,34(5):55-59.
[3] 葛詩利,陳瀟瀟. 大學英語作文自動評分研究中的問題及對策[J]. 山東外語教學,2009,30(3):21-26.
[4] ATTALI Y,BURSTEIN J. Automated essay scoring with e-rater[R] V.2.[J]. Journal of Technology Learning & Assessment,2006,4(2):1-21.
[5] 王勃然,金檀,趙雯. 自動寫作評價研究與實踐五十年——從單一、合作到交互[J]. 外語研究,2015(5):50-56.
[6] 葛詩利. 大學英語作文自動評分方法比較研究[J]. 廣東外語外貿大學學報,2010,21(3):87-90.
[7] 武永. 作文自動評閱和人工反饋對大學生英語議論文修改的影響[D]. 北京:清華大學,2016.
[8] 唐錦蘭, 吳一安. 寫作自動評價系統在大學英語教學中的應用研究[J]. 外語與外語教學, 2012(4):56-62.
[9] 唐錦蘭. 探究寫作自動評價系統在英語教學中的應用模式[J]. 外語教學理論與實踐,2014(1):49-57.
[10] BURSTEIN J,MARCU D. Benefits of modularity in an automated essay scoring system [C]. Luxembourg:Proceedings from the Workshop on Using Toolsets and Architectures to Build NLP Systems, 18th International Conference on Computational Linguistics, 2000.
[11] FORMAN G,COHEN I. Learning from little: comparison of classifiers given little training, knowledge discovery in databases:PKDD [M]. Berlin: Springer, 2004.
[12] KRISTINA T,DAN K,CHRISTOPHER M,et al. Feature-rich part-of-speech tagging with a cyclic dependency network[C]. Proceedings of HLT-NAACL,2003:252-259.
[13] RONAN C,JASON W,LéON B,et al. natural language processing (almost) from scratch[J]. Journal of Machine Learning Research (JMLR),2011(12):2493-2537.
[14] LARKEY,L S. Automatic essay grading using text categorization techniques[C]. Melbourne:Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1998:90-95.
[15] HAYKIN, SIMON.Neural networks and learning machines[M]. 申富饒,徐燁等,譯. 北京:機械工業出版社,2009.
[16] MITCHELL TOM M. Machine Learning[M]. 曾華軍,張銀奎,等,譯. 北京:機械工業出版社,2013.
[17] TAGHIPOUR K,NG H T. A neural approach to automated essay scoring[C]. Austin:Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016: 1882-1891.
[18] ALIKANIOTIS D,YANNAKOUDAKIS H,REI M. Automatic text scoring using neural networks[C]. Berlin: In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,2016.
[19] PICARD M. Second language learning theories(review)[J]. Language,2001,77(1):178-179.
[20] ASAP data [EB/OL].? https://www.kaggle.com/c/asap-aes/.
[21] 朱彥. 透過“反饋”之鏡,傾聽課堂之音——大學英語學習者對口頭糾錯反饋的信念探究[J]. 外語與外語教學,2016(1):33-40.
[22] 許家金. “中國學生萬篇英語作文語料庫”介紹[J]. 語料庫語言學, 2016(2):108-112.
(責任編輯:孫 娟)