摘 要:線上教學對大學英語作文訓練提出了重大挑戰,作文自動評分系統重要性日益突顯。本研究聚焦阿里釘釘學習圈中的“英語作業”功能,邀請5名大學英語學生開展小范圍的實證研究,嘗試回答:1)“英語作業”功能的賦分是否可信;2)如何理解點評內容兩個問題。研究結果顯示,和人工得分相比,釘釘得分無顯著差異。釘釘評語詳盡,層次分明,學生可以先關注錯誤、再關注警示性點評、“學習提示”和“推薦表達”,最后關注“近義詞表達學習”和“拓展辨析”,有步驟地提升自己。
關鍵詞:釘釘;“英語作業”;作文自動評分
1 引言
近年來,大學英語線上教學蓬勃發展,也遭遇了諸多挑戰。大學英語教學無法回避寫作訓練,詳盡的反饋是學生提高寫作能力的根本保證,但教師人工反饋的成本極高,網絡授課更加劇了這種情況。作文自動評分(Automated Essay Scoring,AES)系統除自動評分外,還具備了錯誤分析、維度分析、個性化反饋、寫作輔助等功能,十分適合信息化時代大學英語的教學要求。因此,找到可靠的AES系統就成了化解這個突出矛盾的關鍵。釘釘的“英語作業”功能就具備自動評閱功能,極大方便了師生,但它的可靠性有待檢驗。
2 “英語作業”簡介
釘釘使用了“分類建群”的思想,不同類型的群配備不同的群應用。“英語學習”程序內置于釘釘培訓群中,需手工添加,提供“老師布置作業,學員提交作業,老師點評等功能”。它允許老師設置批改方式、學生修改次數,還能設置批改公式,適應不同考試培訓需求,它的主要功能是批閱文字中的詞匯和語法,十分適合大學外語教學的需要。教師點擊任務,就可以設置作文的標題、字數、具體要求、提交時間等內容并發布到學生群。面對新技術,雖然師生主觀上覺得它是好工具,但對評分的信任度以及如何運用它來輔助教學仍不清楚。本文設計了小規模實驗,探討以下兩個研究問題:1)“英語作業”功能的賦分是否可信?2)如何理解點評內容?
3 實驗設計
研究隨機選取了5名大學英語學生作為被試,外語成績不做要求但必須自愿。被試均未通過四級考試或渴望刷分,十分愿意接受測試,因此可以排除被試消極應付實驗的可能。
研究利用四級訓練課完成,教師在“英語學習”程序中發布一個模擬測試題,被試在教室當堂線下寫作,限時30分鐘,寫作期間不得使用手機,以排除被試求助線上資源的可能。寫作完成后,被試需在釘釘里提交電子版,并上交紙質版,教師核驗兩個版本完全一致后,實驗方可結束。釘釘會自動批閱,顯示分數和評語。
實驗邀請2名教師獨自人工判分,按照0-15分給分,允許保留小數點后一位。由于釘釘主要反饋的是學生的語言表述,因此教師人工判分的內容主要也是語言表述。當分差≥2分時,需第三位教師干預。所有評分人的算術平均分記為該被試的人工得分。使用獨立樣本T檢驗檢查釘釘得分和人工得分是否存在顯著性差異,同時分類統計評語,探究其內在邏輯,分析評語的內在價值。
4 討論
4.1 獨立樣本T檢驗
被試的人工評閱得分分別為12.25,12.5,11.25,12.75和13,均值12.35,方差0.456。釘釘得分為12.2,12.4,11.6,13.1和13.5,均值12.56,方差0.536。
使用Excel進行F檢驗-雙樣本方差,驗證方差齊性。當α=0.05時,P(F≤f)=0.422,因此認為兩組數據的方差沒有明顯差異,可以進行T檢驗。T檢驗結果顯示,當α=0.05時,P(T≤t)=0.327,因此認為兩組數據也沒有明顯差異。
T檢驗的結果不支持兩種評分具有顯著差異的假設,因此認為釘釘判分是可靠的。當然,任何AES系統都是基于人類評分員訓練出來的,因此該結果也在情理之中。
4.2 點評內容
“英語作業”提供逐句點評功能,點評看似復雜,卻均由三部分組成:
[序號] [類型] [評語]
5篇作文共123條點評,以紅、黃、綠三色呈現。整理后發現紅色代表錯誤,綠色代表表揚,黃色可以歸納為警告或提示。這種分類剛好和交通規則相匹配,大大提高了評語的辨識度。
每種顏色的評語又細分出許多子類型。紅色評語共23處,7個子類型,都是明確的語法錯誤,如“動詞錯誤”、“名詞錯誤”等,顯然學習者應優先關注錯誤的內容。綠色評語共6處,分為“精彩句型”和“閃光短語”,它們類似語文學習中的好詞好句,釘釘發現后提出表揚而已。因此對于學生提高語言技能的幫助不是很大,倒不必過多關注。
黃色評語最多且看起來都比較雷同,容易導致學生不想看。其中警示性內容最多,這類評語的描述和紅色的錯誤幾乎一樣,但多了“疑似”、“是否”等表述,這體現了釘釘評語的嚴謹性,可以當作是疑似錯誤,學習者可以向教師請教是否存在錯誤并改正。其余點評都是擴展性內容,意在引導學生開拓視野。“學習提示”側重漢語和英語表述一對多的情況,提示學生加以辨析,因此可以理解為易錯詞。比如漢語的學院/大學,對應英語中多個單詞,很容易用錯。“推薦表達”則提醒學生使用高級表達,暗示原文表述不夠好。而“近義詞表達學習”則是希望學習者頻繁更換表述,增加語言美感。“拓展辨析”聚焦兩個詞之間的差異,也會頻繁提示語料庫中的頻次,不過這個功能對于學生提高語言能力,幫助不大,可以忽略。
5 結語
本次小規模實驗的結果顯示,釘釘判分大致可靠,而且點評及時,評語詳盡,能有效化解人工反饋的巨大成本矛盾。釘釘評語類型劃分合理,邏輯清晰,在提高學生英語語言表述方面具有重要的參考意義。學生可以按照重要性逐一消化,首先關注錯誤、其次關注警示性點評、“學習提示”和“推薦表達”,最后可以關注“近義詞表達學習”和“拓展辨析”。
參考文獻
[1]翰寧.幾個英語作文自動評分系統的原理與評述[J].中國考試,1994:38-44.
[2]宋毅寧.自動作文評分系統對大學生英語寫作能力的影響實證研究[J].大學教育,2019:132-134.
[3]唐錦蘭,吳一安.寫作自動評價系統在大學英語教學中的應用研究[J].外語與外語教學,2012(4):53-59.
[4]王勃然,金檀,趙雯.自動寫作評價研究與實踐五十年—從單一、合作到交互[J].外語研究,2015(5):50-56.
[5]葛詩利,陳瀟瀟.大學英語作文自動評分研究中的問題及對策[J].山東外語教學,2009:21-26.
作者簡介
李晨輝(1991-),男,漢族,浙江嘉興人,碩士,助教,研究方向:大學英語教學。