鄧元
摘 ? 要: 本文通過大學英語寫作課堂自動評分和同伴評分的對比研究,得出以下發現:寫作自動評分和同伴評分的評分結果存在顯著差異,自動評分分數整體偏高;教師和學生均對自動評分和同伴評分持有積極的態度,兩種評分模式具有可行性。自動評分和同伴評分各有優劣,結合教師有效的課堂干預和評分組織,是大學英語寫作教學中較為理想的評分模式。
關鍵詞: 大學英語寫作 ? 自動評分 ? 同伴評分 ? 對比研究
1. 引言
英語寫作教學是大學英語教學的重要組成部分,一直是我國大學英語教學中的薄弱環節(甘小亞,孟艷琴,2013)。對于大學英語教師而言,由于教學對象眾多,教學計劃安排緊張,大學英語寫作教學的實施和反饋難度較大,其中最突出的是寫作評分的操作問題。常規的教師評分耗時耗力,教師作文批改負擔過重,易導致學生寫作訓練不足,學生寫作水平提升緩慢,教學效果欠佳(葛詩利、陳瀟瀟,2009)。基于已有文獻,本研究旨在對比寫作自動評分和同伴評分,探討大學英語寫作課堂采用自動評分和同伴評分的可行性問題。
2.研究現狀
眾多學者對自動評分系統進行了研究評述(白麗芳,2017;葛詩利,陳瀟瀟,2007;梁茂成,文秋芳,2007;唐錦蘭,吳一安,2011),概述了國內外英語寫作自動評分系統的相關應用成果。
隨著信息技術的發展,作文自動評分系統(Automated Essay Scoring,AES)相繼問世,發展迅猛。最早的AES系統是美國Ellis Page教授等在二十世紀六十年代開發的Project Essay Grade(PEG)系統,基于文章表面語言特征的分析評估作文的水平。之后,Landauer等基于統計技術中的潛在語義分析技術開發了Intelligent Essay Assessor (IEA)系統。美國教育考試中心 ETS開發了Electronic Essay Rater (E-rater),用于評估GMAT考試的作文質量。與PEG重語言形式、IEA重內容不同,E-rater是一個包含話語(篇章)、句法、內容三個模塊結構的混合評分系統。到二十一世紀初,在已有系統的開發基礎上,更多的寫作自動評分系統如My Access!、 Criterion等投入使用。在國外AES技術的影響下,國內AES系統逐步發展。2015年,梁茂成教授及研究團隊和外語教學與研究出版社合作,開發了iWrite英語寫作教學與評閱系統2.0。商業性AES系統,如句酷批改網、冰果英語智能作文評閱系統等在各大高校推廣應用。
何旭良(2013)對句酷批改網英語作文評分進行了研究,指出批改網評分的一致性比教師人工評分高,但前者的評分顯著高于后者,尚不能反映學生英語作文的真實水平。李艷玲和田夏春(2018)進行了作文自動評分的信度研究,通過對645篇作文的機評、人評總分的一致性計算,認為iWrite2.0的寫作評分效度非常理想。鄒申、陳煒(2010)指出,評分效度是考試效度之一,在需要人工評分的考試項目,如寫作中,評分效度是考試效度的根本保證,計算機輔助評分可以有效提高人工評分的準確性和公正性。
另外,同伴互評能夠提高大學生寫作自主性(莫俊華,2007),在大學英語寫作教學課堂得到了廣泛應用。本研究中的同伴評分,是指評閱者依據一定標準,給同伴的作業、學習成果、課堂活動表現等打分(Topping 1998; Falchikov & Goldfinch 2000)。
劉興華和紀小凌(2018)進行了大學英語寫作同伴評分的可行性和有效性研究,指出學生普遍認可并接受同伴評分活動,同伴評分具有可行性;學生整體式評分兼具良好的信度和效度,分項式評分總體信度和效度不高。
學者們對大學英語寫作反饋方式進行了大量的對比研究(蔡基剛,2011;吳雪峰,周靜,2017;周一書,2013等)。其中,蔡基剛跟蹤調查網絡環境下61名大學生英語寫作的同伴反饋和教師反饋,指出在線同伴反饋寫作可以明顯激發學生的寫作熱情、豐富作文內容和提高語言質量。相關研究提出,教師評分質量明顯高于學生評分質量,整體來說兩類評分結果具有較好的一致性,同伴互評可以作為重要的輔助性手段參與寫作教學與評估(吳雪峰,周靜,2017)。
綜上可見,已有研究中自動評分和同伴評分的對比研究較少,較多研究從教師評分和自動評分的角度入手??紤]教師評分的實施難度,在大學英語課堂寫作教學實踐中,筆者同時引入基于句酷批改網的自動評分和同伴評分兩種評分方式,通過對寫作自動評分和同伴評分的實施效果的對比研究,探索大學英語寫作教學中評分模式的應用。
3.研究設計
3.1研究問題
本研究通過在大學英語寫作課堂中實施同伴評分,結合句酷批改網的自動評分,具體回答如下問題:
(1)自動評分和同伴評分的寫作評分結果是否具有顯著差異?
(2)寫作課堂上自動評分、同伴評分等非常規評分模式的可行性如何?
3.2研究對象
本研究選取了華中地區某高校兩個平行班的大二非英語專業學生,全程完成同伴評分并填寫問卷接受訪談的學生共計117人,平均年齡20歲,其中男生23人(19.7%),女生94人(80.3%)。
受試學生的英語寫作課由同一英語教師授課,該教師大一、大二均任教該批學生,了解全體學生的學習情況,具有較豐富的教學經驗。
3.3研究過程
寫作課前一周,老師布置了寫作話題“Where would you like to work after graduation, in a big city or in a small town?”,要求學生線上提交作文。自動評分系統采用句酷批改網(簡稱批改網),是基于語料庫和云計算的英語作文自動批改在線服務,通過計算學生作文和標準語料庫之間的距離,即時生成作文的得分和評語及內容分析結果。學生上課前已提交作文并獲得了批改網的評分(滿分100)。
寫作課上,老師進一步講解作文的寫作思路,分發學生作文紙質稿,并對學生進行評分培訓、講解示例,要求學生采取分項式評分,從內容主題、篇章結構、語言表達、語意連貫四個方面綜合評判同伴的作文,打出總分(滿分100),并從四個角度給出作文批閱的整體建議。
課后,請任課老師收集批改網的評閱分數和同伴評分的分數,這是本研究的定量分析數據。同時,筆者對任課老師和部分學生代表進行訪談,詢問師生對于自動評分、同伴評分可行性的看法和態度,獲取定性分析數據。
本研究使用SPSS21.0進行數據分析,并結合定性分析回答兩個研究問題。
4.結果與討論
4.1自動評分和同伴評分的對比
自動評分和同伴評分的獨立樣本T檢驗的結果顯示p=.000,表明本次實驗中寫作自動評分和同伴評分的評分結果存在顯著差異。描述性統計數據顯示:117名學生的批改網自動評分平均值79.24分,同伴評分平均值75.47分。
AES系統自動評分分數整體偏高,是部分教師使用者在批改網使用過程中發現的一個問題,同時是學生提交作文后多次修改刷分的結果。
筆者選取某受試學生的作文仔細審閱,按照分項式評分的標準,任課教師和筆者獨立打分,分別只給出80分和82分的成績。該作文在批改網上得到了88分的成績,排名自動評分第一,同伴評分得分79分。以下是批改網對該篇作文的評語:“語句間的銜接成分用得不錯,同時文章中的過程性詞匯很豐富;作者詞匯基礎扎實,拼寫也很棒;作者在句法層面做得很棒?!?/p>
這些評語都是模板性的評語,系統根據文章高、中、低三個檔次,隨機匹配每檔次的三條評語之一,無法完全體現學生的真實寫作水平。前文也提到,批改網計算的是學生作文和標準語料庫之間的距離,其實細看本篇作文,學生多處地方對于句子主語的把握出錯,語法概念不清楚,列舉簡單,思維深度有待加強,都是批改網已有的標準語料庫難以識別和判斷的。
葛詩利、陳瀟瀟(2009)的研究指出,將作文自動評分系統引入大學英語寫作教學時面臨的難題包括如何確定形式化的評分標準、如何研發適應通用的有關語言使用的自動作文評分模型,體現了目前我們使用的自動評分系統存在的漏洞和缺陷,需要在今后開發中進一步加以改進,才能逐漸改變自動評分“虛高”的現象。
同伴評分的結果偏低也是意料之中的。一方面,任課教師在一年多的任教過程中并沒有經常培訓學生進行同伴評分,本次實驗前的培訓也只是進行了細致講解和示范,沒有給學生留足操練時間,要求學生評分達到專家教師評分的精度和準確度是不太可能的。另一方面,結合學生訪談結果,我們發現,少數學生對于同伴評分的信心不足,害怕自己評分過高產生不良影響,故打分相對保守;出于保全同伴的面子的心理,對于寫作水平偏低的文章未完全打低分數。這些因素導致同伴評分的作文高低水平區分不明顯,同伴評分結果比自動評分結果偏低,兩者出現了顯著差異。充分說明了反饋培訓和合理組織評分是開展有效同伴評價的先決條件和重要保障(Stanley 1992; Zhu 1995; Min 2005)。
4.2自動評分和同伴評分的可行性
關于大學英語寫作課堂采用自動評分和同伴評分的可行性問題,對任課教師和部分學生代表進行的訪談結果如下:
從受訪教師的角度來說,教師對于自動評分和同伴評分抱有積極的態度,認為目前自動評分系統“很大程度上減輕教師評閱、反饋作文的壓力”,同伴評分能夠“融入更多學生參與寫作的思考過程,提高學生上課的積極性和主動性”。
受訪教師認為,自動評分系統的反饋過于呆板,比如對作文內容和連貫性的判斷差強人意,主要還是對單詞拼寫和句子結構方面的判斷,少數判斷也是比較模糊的,并沒有提供改正方法,諸如“疑似句子不完整”這種反饋。對于學生使用者來說是存在挑戰的,水平較低的學生無法獲得真正的作文反饋輔導,兼顧學生水平差異的話,需要教師的人工干預。同伴評分的實施挑戰在于教師無法監管同伴評分的所有過程,若評分培訓不到位,則學生的同伴評分容易走過場,打保守分,造成評分效度問題。筆者認為,寫作課堂中采用自動評分或同伴評分或兩者結合使用時,以教師評分為標桿,教師實施有效的課堂干預,能夠有效確保評分的效度和信度。
關于自動評分系統的問題,如以往研究(葛詩利,陳瀟瀟,2009)提出的,我們應考慮開發具有針對性的、面向大學英語寫作教學的自動評分,研究中國大學生英語作文的寫作特點,然后廣泛參考自動作文評分研究中的各種技術手段,最后根據自然語言處理發展的狀況確定最適合的自動評分方法。
從學生訪談結果來看,絕大多數學生對于自動評分和同伴評分表示認可,傾向于兩者結合使用。學生認為自動評分“給予更多的寫作自主性”“即時反饋非常不錯”“使用方便,不受時空限制”“反饋的建議有助于提高寫作水平”“能夠修改刷分數,提高寫作自信”。對于同伴評分,學生提出“給同學作文打分感覺很有意思”“能夠學習同學的寫作思路,好詞好句”“發現我們有類似的語言錯誤”“能從老師的角度理解寫作的要求和評分標準”。這和前人發現是一致的,劉興華等(2018)提出學生普遍認可并接受同伴評分活動,同伴評分具有可行性。莫俊華(2007)的研究提出同伴互評能夠代替部分教師批改,絕大多數學生喜歡獲得同伴反饋,能夠激發自我修改。
就存在的問題而言,學生認為自動評分的“反饋比較單一,評語不夠真實”“部分修改意見無從下手”“分數感覺比自己實際水平偏高”“文章有點跑題分數也還行”“缺乏教師監管,容易應付”;同伴評分“缺乏老師監管,感覺不可信”“礙于情面不好打低分”“挺費時間學習評分標準的”。結合前人發現(莫俊華,2007),學生在同伴互評中易于關注文章表面錯誤,少數學生在沒有教師監控教學的情況下,并未認真對待同伴互評。教師監管在自動評分實施過程中是一個問題,學生用不相關的文本也可以獲得較好的評分,學生容易滋生懶惰學習(唐芳等,2017)。呼應了之前的研究發現,即批改網在某些情況下不能考查文章內部的邏輯性和關聯性(何旭良,2013)。
5.結語
大學英語課堂的寫作評分模式探索是一個重要的教學問題。從統計學意義來說,本研究發現寫作自動評分的結果顯著高于同伴評分的結果,教師和學生均肯定了兩種方式對于課堂寫作的積極意義,也提出了相應的問題亟待解決。自動評分和同伴評分各有優劣,結合教師有效的課堂干預和評分組織,在大學英語寫作教學中運用兩者具有可行性,有助于大學英語寫作課堂的良性發展。
參考文獻:
[1]Falchikov N & Goldfinch J. tudent Peer Assessment in Higher Education: A Meta-Analysis Comparing Peer and Teacher Marks[J]. Review of Educational Research, 2000,70(3): 287-322.
[2]Landauer T K, Laham D, Foltz P W. Automated Essay Scoring and Annotation of Essays with the Intelligent Essay Assessor[A]. In M D Shermis and J Burstein (ed.), Automated Essay Scoring: A Cross Disciplinary Perspective[C]. Mahwah, NJ: Lawrence Erlbaum Associates, 2003: 87-112.
[3]Min H T. Training Students to Become Successful Peer Reviewer [J]. System, 2005,33(2): 293-308.
[4]Page E B. Grading Essays by Computer: Progress Report [A]. In Educational Testing Service (Ed.), Proceedings of the Invitational Conference on Testing Problems[C]. New York City: Princeton, N J: Educational Testing Service, 1967: 87-100.
[5]Stanley J. Coaching Student Writers to be Effective Peer Evaluators[J]. Journal of Second Language Writing, 1992,1(3): 217-233.
[6]Topping K. Peer Assessment Between Students in Colleges and Universities[J]. Review of Educational Research, 1998(68):249-276.
[7]Zhu W. Effects of Training for Peer Response on Students Comments and Interaction[J]. Written Communication,1995,12(4):492-528.
[8]白麗芳. 國內外作文自動批改系統效度研究概述[J]. 教育現代化, 2017,4(40):191-193.
[9]蔡基剛. 中國大學生英語寫作在線同伴反饋和教師反饋對比研究[J]. 外語界,2011(2):65-72.
[10]甘小亞, 孟艷琴. 國內大學英語寫作教學中的同伴互評研究現狀分析[J]. 齊齊哈爾大學學報, 2013(5):168-171.
[11]葛詩利, 陳瀟瀟. 國外自動作文評分技術研究[J]. 外語電化教學, 2007(5):25-29.
[12]葛詩利, 陳瀟瀟. 大學英語作文自動評分研究中的問題及對策[J].山東外語教學, 2009(3): 21-26.
[13]何旭良. 句酷批改網英語作文評分的信度和效度研究[J]. 現代教育技術, 2013(5):64-67.
[14]梁茂成, 文秋芳.國外作文自動評分系統評述及啟示[ J] .外語電化教學, 2007 (5): 18-24.
[15]劉興華, 紀小凌. 大學英語寫作通版評分的可行性和有效性研究[J]. 外語界,2018 (5) : 63-70.
[16]莫俊華. 同伴互評:提高大學生寫作自主性[J]. 解放軍外國語學院學報, 2007 (3) : 35-39.
[17]唐芳, 莊翠娟, 鞏藝超. 作文自動評分系統在大學英語寫作教學中的應用——以句酷批改網為例[J]. 海外英語, 2017 (20) : 48-49, 51.
[18]唐錦蘭, 吳一安. 在線英語寫作自動評價系統應用研究述評[J]. 外語教學與研究, 2011 (2): 273-282.
[19]吳雪峰, 周靜. 基于多層面Rasch模型的英語寫作教師評分與同伴互評對比研究[J]. 重慶第二師范學院學報, 2017 (6) : 85-90.
[20]周一書. 大學英語寫作反饋方式的對比研究[J]. 外語界, 2013 (3): 87-96.
[21]鄒申, 陳煒. TEM4 評分效度與計算機輔助評卷[J].外語電化教學, 2010 (131): 56-60.
本研究系湖南省教育廳課題“虛擬仿真實驗教學環境下英語專業學生跨文化交際能力測評研究”的初期研究成果(課題編號19C1173)。