李艷 劉淑君 李小麗 楊普光



摘要:智能作文評價系統是人工智能、互聯網、語言認知等多個領域交叉融合的產物,能為作文提供即時評分和內容反饋,其研發和應用為人機協同寫作教學奠定了基礎。隨著中文智能作文評價系統進入教學應用階段,人機協同作文評價在中文寫作教學中是否有效這一議題越來越受到學界關注。以Z校寫作拓展課的28名七年級學生為樣本開展的準實驗研究將學生分為實驗組和對照組,分別接受人機協同作文評價和教師作文評價,用以探究人機協同作文評價對初中寫作教學的影響。實驗結果顯示:(1)接受過評價反饋的作文終稿成績都較初稿有顯著提升,但接受人機協同作文評價和教師作文評價的兩組學生的作文成績之間沒有顯著差異;(2)相較于教師評價,人機協同作文評價能顯著提升學生寫作激情,但在自信和毅力維度沒有顯著差異;(3)人機協同作文評價條件下,教師反饋數量和提問型反饋比率都較教師評價條件下有所下降,但二者在低階反饋和高階反饋比率方面不存在顯著差異;(4)雖然學生整體上認可人機協同評價的價值,但對繼續使用該評價方式持保留態度。總之,雖然人機協同作文評價在促進寫作教學效果方面具有潛在優勢,但其作用的充分發揮還有賴于教師專業素養的提升、學習環境的支持和系統功能改進等多種因素的共同推動。
關鍵詞:智能作文評價;作文成績;寫作動機;教師反饋;人機協同作文評價
中圖分類號:G434文獻標識碼:A文章編號:1009-5195(2022)01-0063-12 doi10.3969/j.issn.1009-5195.2022.01.008
基金項目:2019年度國家社會科學基金重大項目“人工智能促進未來教育發展研究”(19ZDA364)子課題“人工智能支撐大規模教育的個性化實現研究”。
作者簡介:李艷,博士,教授,博士生導師,浙江大學教育學院(浙江杭州310058);劉淑君,博士,講師,湖州師范學院(浙江湖州313000);李小麗,教師,浙江大學教育學院附屬學校(浙江杭州310013);楊普光,教師,鄭州外國語學校(河南鄭州450001)。
一、引言
人工智能(Artificial Intelligence,AI)的教育應用正在重塑教育生態,教和學的關系正經歷全新的變革(中華人民共和國中央人民政府,2019),教師也面臨著角色轉換和專業知識結構更新的挑戰。人機結合的思維方式可以輔助人類突破個體認知的極限,教師與智能設備的協同教學應是未來教育的理想范式(余勝泉等,2019)。在傳統中小學寫作教學中,教師批改作文耗時耗力且反饋滯后,學生也普遍存在畏難情緒,寫作動機不高。近年來,智能作文評價為寫作教學革新帶來新契機。智能作文評價系統是人工智能、互聯網、語言認知等多個領域交叉融合的產物,能為作文提供即時評分和內容反饋,其研發和應用為人機協同寫作教學奠定了基礎。
智能作文評價可以追溯到20世紀60年代美國學者Page(2003)研發的第一款智能作文評價系統PEG(Project Essay Grade)。早期的智能作文評價系統只能為作文評分,不提供任何形式的內容反饋。上世紀90年代以后,智能作文評價技術發展迅速,美國研發的Criterion、MY Access!E-rater、Intelligent Essay Assessor(簡稱IEA)等代表性工具不僅能對作文進行自動評分,還提供多維度反饋,適用于形成性和總結性的作文評價,有的已經被應用在TOEFL(Test of English as a Foreign Language)和GMAT(GraduateManagement Admission Test)等大規模英語測試中(唐錦蘭等,2011)。近年來,智能作文評價系統的評價對象也逐漸由英語擴展到阿拉伯語、中文、日語等其他語種(Ishioka et al.,2006;Hao et al.,2016;Azmi et al.,2019),IN課堂語文作文智能批改系統(簡稱IN課堂)、愛語文APP等都是具有代表性的中文智能作文評價系統。先前研究表明,IN課堂的評分效度良好,與教師作文評價在反饋類型與層次上各具特點,二者具有協同教學的基礎(劉淑君等,2021)。
人機協同就是“人”與“機器”之間的交互和協作,人與機器做各自擅長的工作,比如機器負責數據計算和部分推理工作,人類負責高階選擇和任務決策,以此實現二者的密切協作與相互協同(錢學森等,1990;劉步青,2016)。在本研究中,“人”和“機”分別指“初中語文教師”和在國內應用較廣的“IN課堂語文作文智能批改系統”。IN課堂屬于交互式的智能作文批改和反饋平臺,于2018年正式投入應用。它借助自然語言處理技術,從語料庫中挖掘打分細則、評級參數和偏誤規則,不僅可以對學生作文即時評分,還能提供反饋建議。利用IN課堂,學生可隨時提交作文并獲得即時反饋,教師可通過系統建立虛擬班級、發布作業、補充反饋信息、查看學生寫作的行為和結果數據等。IN課堂支持“學生—系統”“教師—系統”和“教師—學生”等維度的多元交互(IN課堂,2018)。“人機協同”指教師和IN課堂密切協作、優勢互補,為學生寫作提供盡可能多的支持。本研究將借助Z校寫作拓展課探究人機協同作文評價在初中寫作教學中的應用效果,以期為智能技術與寫作教學的深度融合提供借鑒。
二、相關文獻綜述
智能作文評價通過在技術、學生、教師和同伴之間建立交互來支持寫作教學。在“學生—系統”的交互中,學生能借助系統完成構思和寫作,并自動獲得評分和反饋,繼而修改和完善文本,這增加了寫作練習與反饋的機會,有利于學生寫作能力提升(Kellogg,2008)。“教師—系統”的交互包括教師查看學生寫作行為與結果數據、監控學生寫作進度等,有助于教師及時調整教學計劃(Grimes et al.,2010)。借助系統,學生還可以向教師發送信息,教師也能對學生作文做調整性評分和補充反饋。有的智能系統還開通了同伴互評功能,增加學生之間的深度互動(Balfour,2013)。
經過多年的研究和發展,作文的智能評分算法已具備一定的準確性和可靠性。多項研究表明,人機評分一致性已達到較高的水平(Shermis,2014;劉淑君等,2021)。然而,智能作文評價的教學應用效果依然存在爭議。一些研究者認為智能作文評價會削弱寫作固有的社會性,擔心學生僅與機器交互會讓其作文變得呆板(National Council of Teachers of English,2013)。因此,研究者持續探究智能作文評價對學生寫作質量的影響。近年來,其對學生寫作動機以及教師教學行為的影響也被廣泛關注。
1.智能作文評價對學生寫作質量的影響
研究者發現,不同評價工具、學生樣本、教學環境下,智能作文評價系統對學生寫作質量的影響效果并不一致(Stevenson et al.,2014)。一方面,Wang等(2013)對57名以英語為非母語的大學生實施為期16周的對照實驗(實驗組31人、對照組26人),發現智能反饋組較對照組(教師反饋)在文本準確性上有顯著優勢;Chodorow等(2010)針對463名大學生的作文文本分析表明,智能反饋系統Criterion可以降低非母語學生的英語文本錯誤率;Choi(2010)的研究也發現,當智能反饋融入以英語為非母語的大學生寫作教學時,學生作文質量往往會得到提高。另一方面,Shermis等(2008)對美國某地區2017名不同年級的學生借助智能作文反饋系統完成的11685篇文章進行分析,結果發現,經過一段時間的練習,各年級學生作文質量都進步顯著,且八年級學生作文成績提升幅度以及錯誤率降低幅度都最大,但這可能主要是學生寫作修改能力隨著年級遞增而帶來的結果。Ware(2014)的研究則發現,接受同伴反饋、教師反饋和智能反饋(Criterion)的三組初中生在作文準確性、流暢性與整體分數上沒有顯著差異,教師反饋與同伴反饋較智能反饋對學生文體要素使用有更積極的影響。還有學者將美國某地區114名六年級學生分為實驗組(PEG反饋)和對照組(使用谷歌文檔編輯文本)開展對照實驗,結果也發現,兩組學生后測作文質量無顯著差異,且較前測都沒有顯著提升(Wilson et al.,2020)。可見,當前智能作文評價的教學應用效果尚未獲得學界共識。
2.智能作文評價對學生寫作動機與寫作自我效能感的影響
寫作動機是指學生對寫作的興趣、價值認知、努力程度、目標取向等,也有學者將其劃分為對寫作的興趣、毅力和激情等維度(Troia et al.,2012)。寫作自我效能感是指學生對自己寫作能力的自信程度(Bruning et al.,2016)。已有研究表明,盡管寫作態度并不能直接影響學生寫作質量,但具有積極動機和信念的學生傾向于多寫多練;學生自我效能感越強,在寫作上付出的努力就越多,也會更樂于迎接挑戰(Troia et al.,2013)。寫作反饋是影響學生寫作動機和自我效能感的關鍵因素(Dujinhower et al.,2010)。智能作文反饋對普通學生和學習障礙生的寫作動機都有一定的促進作用(Grimes et al.,2010;Morphy et al.,2012)。針對美國四所中學師生的一項調查發現,使用智能作文反饋可以提升學生的寫作動機和修改行為,提升幅度顯著高于使用文字處理軟件的對照組(Grimes et al.,2010)。使用Write-to-Learn反饋系統的學生在創作和修改的時間投入和參與持久性上都有所增加,學生寫作動機的毅力維度也有明顯提升(Foltz et al.,2013)。同時,也有研究發現,智能作文評價支持的學生寫作自我效能較傳統教師作文評價支持的學生更積極,寫作自我效能感在一定程度上調節了作文反饋條件對寫作成績的影響(Wilson et al.,2020)。可見,智能作文評價的應用對學生寫作動機和自我效能感有積極影響,后續可以推進更多場景中的研究。
3.人機協同作文評價研究
智能作文評價的教學應用離不開教師的協同支持,這種人機協同也在一定程度上影響了教師的教學實踐。Wilson等(2016)以八年級145名學生為樣本,探究了“PEG+教師”協同評價與教師單獨評價條件下教師作文反饋數量、類型與層次之間的差異。結果表明,兩組教師反饋在數量和類型上沒有顯著差異,但人機協同評價組教師的高階反饋信息數量顯著高于對照組。Link等(2020)以高校英語課中28名學習者為樣本(實驗組12人,對照組16人),研究了智能作文評價對教師反饋、學生作文修改和寫作質量的影響,結果顯示,實驗組(“教師+Criterion”評價)教師的高階反饋數量較對照組(教師評價)沒有顯著變化,然而低階反饋數量較對照組顯著減少。可見,智能作文評價會影響教師作文反饋層次,讓教師壓縮低階寫作技能反饋的時間,從而聚焦高階寫作技能反饋。
那么,人機協同作文評價的教學效果如何呢?在Wilson等(2016)的研究中,“PEG+教師”評價組的學生作文質量較教師評價組沒有顯著變化,但學生寫作動機在毅力維度得到顯著提升。而Link等(2020)的研究發現,“教師+Criterion”協同評價條件下學生文本準確性沒有顯著提升,但寫作技能留存率要高于對照組。黃靜等(2018)將句酷批改網的評價與同伴互評、教師評價等方式相結合,以25名參與大學英語課程的學生為樣本開展單組實驗,對比學生的作文初稿和終稿質量發現,人機協同評價對大學生英語寫作質量有明顯促進作用。
綜上,雖然當前有關智能作文評價、人機協同作文評價教學應用的研究已取得一定進展,但還存在爭議,且多局限于英語語境。中文智能作文評價系統興起較晚,相關研究還比較薄弱,此類系統與寫作教學的融入路徑及效果還有待實證探究。目前中小學語文的寫作教學中,評價方式單一、批改耗時費力、反饋滯后等問題依然是頑疾。人機協同作文評價能否破解作文教學和評價中的難題,促進中小學寫作教學實踐,已成為人們關注的重要話題。
三、研究設計
1.研究目的與問題
為了探究人機協同作文評價在初中寫作教學中的應用效果以及智能作文評價融入初中寫作教學的路徑,本研究依托Z中學七年級寫作拓展課開展了一項教育準實驗研究。研究者將選課學生分為實驗組和對照組,分別接受人機協同作文評價和教師作文評價的教學實踐,以此探究人機協同作文評價對學生作文成績、寫作動機和教師作文反饋的影響,并調研學生對人機協同作文評價的態度。研究問題包括:(1)人機協同作文評價能提升學生的作文成績嗎?(2)人機協同作文評價對學生寫作動機的影響如何?(3)人機協同作文評價對教師反饋信息的數量、類型和層次是否有影響?(4)學生對人機協同作文評價的體驗和感受如何?
2.研究對象
本研究選取參加Z校寫作拓展課的28名七年級學生為研究對象,學生來自同一個教學班,日常學習環境和課程任務安排保持一致。實驗課程持續5周,每周2個課時。研究者根據語文成績和性別均衡原則將學生分為兩組,實驗組14人(男生7人,女生7人),對照組14人(男生8人,女生6人)。兩組學生在完成作文初稿后分別在人機協同評價和教師作文評價的輔助下修改文本。
3.準實驗設計
寫作拓展課之前,授課教師為師生申請IN課堂賬號,并建立虛擬班級,學生在機房練習賬號登錄、上傳作文、查看反饋內容、修改提交等操作。準實驗前,所有學生完成寫作動機前測問卷調查。在準實驗過程中,教師以“倒敘的魅力”和“描寫:描出世間景象”為主題開展兩次寫作活動,每次活動持續兩周時間,每周2個課時。第一周,教師對學生進行寫作前指導,然后學生完成作文初稿并上交。第二周,學生在機房根據作文反饋信息修改作文;之后教師適時組織交流活動。兩組學生寫作前指導和撰寫初稿的環境保持一致,準實驗干預主要表現在作文評價、反饋與修改環節。實驗組學生提交初稿后,教師將作文上傳IN課堂系統得到智能評分和內容反饋;之后,在審閱智能評價的基礎上,教師對學生作文進行評分,并以文內批注和文末總評的方式完成反饋。IN課堂會針對標點、錯別字、語法等提供低階反饋建議,也會針對內容意義、結構、構思等提出高階提升建議。鑒于機器反饋存在低階反饋欠全面、高階反饋欠具體等問題,教師需要在審閱機器反饋的基礎上進行補充性反饋。對照組學生提交初稿后,教師直接以文內批注和文末總評的方式書寫反饋信息并評分。在修改作文環節,實驗組學生可以登錄IN課堂平臺,上傳初稿得到智能評價,之后可多次修改并得到反饋;同時學生還可參照教師反饋信息改進作文。對照組學生僅根據教師反饋內容修改作文。兩組學生修改滿意后需向教師提交終稿。
準實驗過程中,研究者收集學生初稿和終稿成績數據,整理教師作文反饋信息。實驗結束后,學生完成寫作動機后測問卷和批改方式體驗問卷,研究者對實驗組學生開展小組焦點訪談,同時計算學生作文成績,并對兩組教師作文反饋信息進行編碼分析。
4.數據收集與分析
本研究的數據包括學生作文成績、學生寫作動機、教師作文反饋、學生體驗與感受等內容。
(1)學生作文成績數據的收集與分析
首先,研究以教師評分和IN課堂評分的均值作為衡量學生成績的指標。教師評分和IN課堂評分都遵循中考作文評分標準,以40分為滿分成績。研究者將學生作文初稿和終稿都提交IN課堂系統,由此得到智能評分數據;同時教師對兩組學生的初稿和終稿成績進行評分,由此得到教師評分數據。研究者取兩組評分的均值作為學生作文最終成績。其次,研究以學生作文初稿成績為協變量、以作文評價方式為自變量、以作文終稿成績為因變量做單因素協方差分析,用以調查在排除前測成績影響之后,兩組學生作文終稿成績是否存在顯著差異;同時研究對兩組學生作文練習的初稿和終稿成績分別執行配對樣本t檢驗,以此調查兩組學生作文終稿成績較初稿的變化情況。
(2)學生寫作動機數據的收集與分析
研究者在準實驗前后分別調查兩組學生的寫作動機。學生寫作動機量表改編自Piazza等學者提出的量表(Piazza et al.,2008),共11題,包括學生對寫作的自信(3個題項)、毅力(4個題項)和激情(4個題項)三個維度,采用李克特七點量表設計。該量表在研發階段的克隆巴赫系數為0.89,在前后測中,總量表和三個維度的克隆巴赫系數都處于0.75~0.92,表明量表信度良好。
研究以兩組學生寫作動機前測為協變量、評價方式為自變量、寫作動機后測為因變量執行單因素協方差分析,用以驗證經過實驗干預兩組學生的寫作動機是否存在差異;同時對兩組學生寫作動機前后測得分進行配對樣本t檢驗,以此探究兩組學生寫作動機在準實驗前后的變化情況。
(3)教師作文反饋數據的收集與分析
本研究借鑒Wilson等(2016)的作文反饋信息分類方法,根據國內作文批閱習慣進行改編,比如,將“拼寫和大小寫”合并為“錯別字”,將“語法和句子結構”合并為“句式語法”等,最終構建了適用于國內中學作文評價的反饋信息編碼表(見表1)。該表將用于對教師作文反饋信息的編碼分析。
研究首先將兩組教師作文反饋信息逐條錄入Excel表格,隨后將反饋信息拆分為有獨立意義的反饋單元。遵循文獻中反饋單元的拆分程序(Cho et al.,2006;Hayes et al.,2010),先抽取5篇作文的反饋信息,研究者和合作教師分別對其做單元拆分,隨后比對拆分結果,對不一致處通過協商達成共識。之后,研究者完成全部作文反饋信息的拆分工作,合作教師再對拆分后的反饋單元進行抽樣檢查。通過以上拆分程序,本研究共得到677條作文反饋單元,其中實驗組289條,對照組338條。為了盡可能避免作文長度對教師反饋數量的影響,研究者將每篇作文的反饋單元數轉化為每千字的反饋單元數,之后用SPSS 23對兩組數據執行獨立樣本非參數檢驗,以比較兩組間教師反饋數量的差異。
參照已有研究中的編碼程序(劉淑君等,2021),研究者與合作教師從反饋類型與層次兩個維度對所有反饋單元進行編碼,反饋類型的編碼一致性為0.91,反饋層次的編碼一致性為0.83。編碼樣例如表2所示。
為避免作文長度和作文篇數對教師反饋的影響,研究者計算了每篇作文中直接反饋、提問型反饋、信息型反饋和表揚等4種反饋類型的比率,以及高階和低階反饋所占比率,以便對兩組教師作文反饋類型與層次進行科學對比。之后,研究者借助SPSS 23對兩組教師作文反饋的類型與層次比率執行一系列非參數檢驗,用以驗證兩組教師在反饋類型與層次上是否存在差異。
(4)學生體驗與感受類數據的收集與分析
準實驗結束后,實驗組學生完成對人機協同作文評價的體驗問卷。該問卷改編自已有研究文獻(Grimes et al.,2010;Palermo et al.,2018),主要調查學生對人機協同作文評價的反饋有效性和接受度等方面的感知。問卷采用李克特五點量表設計,共7題。此外,研究者將實驗組學生分為兩組,每組7人,圍繞學生對人機協同作文評價的體驗與感受開展小組焦點訪談,訪談問題包括學生對人機協同作文評分與反饋的態度、針對IN課堂的改進建議等,每場訪談時間為25~30分鐘,訪談全程錄音。
研究采用SPSS 23對學生問卷各題項得分做描述性統計,之后將其均值與中立分(3分)做均值差異比較,用以檢驗學生對人機協同作文評價的態度是否顯著高于中立分。所有訪談錄音都被轉錄為電子文檔,研究者圍繞焦點問題對訪談內容分類整理,深入調查學生對人機協同作文評價的體驗與感受。
四、研究發現
1.人機協同作文評價對學生作文成績的影響
研究以作文初稿成績為協變量、反饋方式為自變量、終稿成績為因變量對學生兩次作文終稿成績進行協方差分析。表3顯示,兩次作文中,兩組學生終稿成績之間都不存在顯著差異(p>0.05)。
研究者對兩組學生作文初稿和終稿成績分別進行配對樣本t檢驗(見表4),結果顯示在兩次作文練習中,實驗組和對照組的作文終稿成績都較初稿有顯著提升(p<0.05)。由此可見,盡管兩種評價都有助于提高學生的作文成績,但人機協同作文評價相對于教師單獨評價對學生作文成績的影響并不顯著。

2.人機協同作文評價對學生寫作動機的影響
研究以學生寫作動機前測為協變量、評價方式為自變量、后測為因變量對寫作動機三個維度的得分進行單因素協方差分析。結果顯示,實驗組在寫作激情維度上得分顯著高于對照組(F=4.30,p<0.05),在自信和毅力維度上得分與對照組沒有顯著差異(見表5)。可見,人機協同作文評價可以促進學生寫作動機在激情維度上的顯著提升。
3.人機協同作文評價對教師反饋數量、類型與層次的影響
通過分析教師對學生兩次作文(共56篇)的反饋內容發現,實驗組教師每千字反饋單元的中位數為15.12,對照組為26.09,獨立樣本非參數檢驗顯示,二者之間的差異具有顯著性(Z=4.13,p<0.01)。人機協同作文評價條件下,教師的作文反饋數量顯著減少,大約是教師單獨反饋數量的2/3。
通過對教師作文反饋信息進行拆分、編碼和統計,研究者計算了兩組教師各類型反饋所占比率,并對兩組數據執行獨立樣本非參數檢驗。表6顯示,實驗組和對照組的教師反饋在直接反饋、信息型反饋和表揚等類型的比率上沒有顯著差異;然而,人機協同評價組的提問型反饋比率(0.13)低于對照組的提問型反饋比率(0.23),且該差異具有顯著性(Z=2.42,p<0.05)。由此可見,人機協同作文評價會減少教師反饋數量,并顯著降低教師提問型反饋的比率。
對兩組教師反饋層次的比率進行獨立樣本非參數檢驗,如表7所示,在高階反饋的具體類別中,實驗組教師反饋在主題立意(Z=2.09,p<0.05)和結構構思(Z=2.11,p<0.05)層面的比率都顯著高于對照組;然而在寫作特色層面的反饋比率卻顯著低于對照組(Z=2.16,p<0.05)。從整體上看,人機協同評價組的教師高階反饋比率(0.75)高于教師評價組(0.70),然而這種差異并不具有顯著性(Z=1.36,p>0.05);同時,兩組教師低階反饋比率之間也不存在顯著差異(Z=1.12,p>0.05)。可見,人機協同作文評價能提升教師對主題立意、結構構思等層面的高階反饋比率,降低教師對寫作特色維度的反饋比率;然而,從整體上看,人機協同評價對教師高、低階反饋比率的影響并不顯著。
4.學生對人機協同作文評價的體驗與感受
問卷調查發現(見表8),實驗組學生7個題項得分都顯著高于中立分。可見,學生對人機協同作文評價的態度整體上比較積極。從各題項的描述統計看,前6題學生選擇“強烈同意”和“同意”的超過60%。然而,針對第7題(我希望之后繼續采用“教師+IN課堂”的作文評價方式),50%的學生選擇“強烈同意”或“同意”,還有50%的學生選擇“中立”,可見,一半學生對“繼續采用‘教師+IN課堂的作文評價方式”持保留態度。


學生訪談分析顯示,有3位同學(21.43%)對人機協同作文評分持肯定態度,10位同學(71.43%)持否定態度,1名同學(7.14%)沒有明確表態。持肯定態度的同學認為,智能作文評價系統不僅能給作文進行整體評分,還可以從內容、表達和發展等維度分項評分,能彌補教師只打整體分的不足;系統做到“秒評分”,能讓學生產生持續修改提交的動力;另外,用智能評分和教師評分的均值作為作文最后得分,也讓評分更公正。持否定態度的同學將矛頭指向修改過程中的智能評分,比如有同學認為自己“修改了錯別字,疏通了語句,還豐富了內容,作文分數不升反降”;也有同學提出,“有時什么都沒改,作文分數會莫名提升”。學生認為系統對文本內容變化的反應不靈敏。
針對人機協同作文反饋,有8位同學(57.14%)持肯定態度,6位(42.86%)持保留態度。持肯定態度的同學認為教師和IN課堂合作給出的反饋信息更全面,能更好地支持學生修改作文;系統善于尋找句段亮點,“不吝表揚”也能提升學生的寫作信心和興趣。持保留態度的同學認為,IN課堂低階反饋不全面,高階建議存在籠統、重復和套路化等問題,修改難度較高。有同學以作文《吃遍天下荷蘭豬》舉例說,系統“建議選取有情感的材料、事件,以增強文章的可讀性和感染力”,她并沒有找到具體修改方向;而教師建議她“考慮一下,和同伴相比,這只豬的生活發生了什么變化?他滿意嗎?周圍的人滿意嗎?當他空閑下來時,是否會思考曾經的夢想和人生意義?等等”,看到這些問題,她會不由自主地想去回答,而回答就能讓作文內容得到擴展。此外,也有人提出,修改作文過程中既要查看教師反饋信息,也要登錄IN課堂查看評價結果,思維需要在二者之間切換,會有點手忙腳亂。學生接收到的信息過多時,需要對信息進行篩選和甄別,這會分散注意力,增加學生的認知負荷。
學生也對人機協同作文評價提出了改進建議,提及頻率最高的前三條包括:提高智能評分的準確性和靈敏性;提升智能反饋內容的全面性和具體性;教師需調整寫作修改程序,讓操作更便捷。這些為人機協同作文評價的未來發展指明了努力方向。
五、討論
通過為期5周的教學準實驗,本研究探討了人機協同作文評價和教師作文評價條件下學生寫作表現與教師反饋的差異,獲得了一些有意義的研究發現。
1.相較于教師作文評價,人機協同作文評價對學生作文成績并沒有產生顯著影響
盡管兩組學生的作文終稿成績都較初稿有顯著提升,然而,人機協同作文評價與教師作文評價相比,在提升作文終稿成績方面并沒有表現出明顯優勢,這與先前類似研究結果具有一致性(Wilson et al.,2016;Link et al.,2020)。該結果可以從以下三方面來理解:首先,對照組采用教師作文評價,教師對作文精批細改,這是順應師生多年習慣的反饋方式,具有較好的效果。其次,作文反饋質量和學生落實反饋的效果有時并不一致。反饋實施的效果不僅受反饋內容本身的影響,也取決于學生對反饋信息的理解和認同程度(Nelson et al.,2009)。高寫作水平的學生能理解各類反饋信息并將其落實在寫作修改中,由此帶來終稿成績的大幅提升;而低寫作水平的學生能落實部分低階修改建議,對高階建議的落實程度往往并不理想。因此,即使人機協同評價可以提供更全面和豐富的反饋,如果學生不能有效落實,也不能帶來寫作質量的顯著提升。最后,寫作是一項復雜技能,其提升需要長時間的持續干預,本次實驗時間有限,學生寫作能力的細微進步未必能體現在初稿到終稿的成績變化中,也難以在與對照組的對比中達到顯著水平。
2.相較于教師評價,人機協同作文評價能顯著提升學生寫作激情
寫作能力的理論模型和實證研究都強調了寫作動機對提高學生寫作質量的重要性(Graham et al.,2007;Hayes,2012)。經過實驗干預,實驗組學生寫作動機的激情維度得分顯著高于對照組,兩組學生在自信和毅力兩個維度沒有顯著差異。這與已有研究結論基本一致。多項研究發現,智能作文評價系統的教學應用,不管是單獨使用還是與教師反饋協同作用,都可以讓學生寫作動機在某些維度得到顯著提升(Warschauer et al.,2008;Grimes et al.,2010;Wilson et al.,2016)。學生訪談顯示,智能作文評價會帶給學生一些新鮮的體驗,能激發學生對寫作的興趣;同時,系統提供多次修改和反饋機會,也能提升學生迎接挑戰的興致。
值得注意的是,兩組學生寫作動機的自信和毅力兩個維度都沒有顯著差異,或許我們還需要慎重推論人機協同作文評價對學生寫作動機的積極影響。本階段教學實驗時間較短,寫作動機從個別維度提升擴展到全方位的進步需要時間積淀。后續研究可以考慮讓學生在更多輪次的“寫作—反饋—修改”實踐中提升寫作的自信心、成就感和解決問題的毅力;教師也可以在長期教學實踐中觀察學生寫作動機某個維度的發展是否會促進其他維度的提升,并研究這種提升與寫作質量之間的相關性(Ramineni et al.,2015)。值得注意的是,如果寫作動機的提升是應用智能技術后的新奇效應產物,那么隨著時間的推移,寫作動機或許會停滯增長或者消退(Cheung et al.,2013)。
3.人機協同作文評價使得教師反饋數量減少,提問型反饋比率降低
人機協同作文評價條件下教師反饋數量較教師單獨評價條件下有所減少,這與Link等(2020)針對英語作文評價的相關研究結果是一致的。值得注意的是,本研究中實驗組學生接受的是教師和機器的雙重反饋,二者反饋數量之和要高于教師評價組,即學生得到的整體反饋數量是增加的。可以推測,教師審閱智能反饋建議后,會在此基礎上作補充性反饋,避免提供重復性信息。教師作文反饋數量減少意味著批改作文花費的時間縮減,批改負擔在一定程度上得到緩解。當然,鑒于教師需要審閱和甄別智能反饋信息,這對教師的專業素養和教學智慧提出了更高要求。
從反饋類型看,實驗組教師提問型反饋比率顯著低于對照組,這與先前研究結果并不一致。Wilson等(2016)的研究發現,人機協同評價和教師評價條件下的教師反饋在類型上不存在顯著差異。提問型反饋在激發學生思考和促進師生交流方面有重要作用,需要教師沉浸于文本內容與學生進行深度對話。在人機協同作文評價條件下,教師要審閱并甄別智能反饋的大量信息,并思考如何與之互補,這或許會壓縮教師與學生對話的時間和空間,繼而導致提問型反饋減少。
先前研究發現,人機協同作文評價會讓教師更專注于高階反饋(Wilson et al.,2016;Link et al.,2020),但是本研究中,實驗組教師低階反饋和高階反饋較對照組沒有顯著變化,該結果還不能為已有研究提供新證據。IN課堂作文低階反饋包括對文本中標點、錯別字、詞語運用、句法等問題的反饋,然而其反饋效果還不理想,會遺漏很多問題;同時,IN課堂提供大量針對內容選材和結構構思的高階反饋,但反饋的具體性和針對性還有待改進(劉淑君等,2021)。人機協同評價條件下,教師在低階反饋和高階反饋維度都需要對智能反饋進行補充,或許這也是教師高階比率沒有顯著提升的重要原因。比較理想的人機協同狀態應該是:機器和教師各司其職,前者負責語言質量,后者專注高階點撥。然而,基于IN課堂的中文智能作文評價對低階錯誤的識別率還有待提升,教師對作文低階反饋的工作還不能被完全代替。未來寫作教學實踐中,我們既要加強教師人工智能素養、數據素養和測評素養的培養,也要督促產品研發方不斷迭代更新評價技術,以此提升人機協同教學質量(汪瓊等,2021)。
4.學生基本認可人機協同作文評價的價值,但對繼續使用該方式持保留態度
針對人機協同作文評價的體驗與感受的問卷調查顯示,學生對該評價方式整體上持積極態度,但一半學生對繼續使用該評價方式持中立態度,即不確定是否繼續使用。該結果看似矛盾,如果結合學生訪談內容來看,會讓人有更深入的理解。學生訪談顯示,人機協同評價方式會讓評價更全面,增加修改和反饋機會,能提升學生修改作文的意愿;然而,雙重反饋信息讓寫作修改過程變得繁瑣而復雜,在一定程度上增加了學生的認知負荷。此外,學生也對IN課堂系統提出了改進建議,比如提升智能評分的精確性,增加智能反饋的具體性和全面性,調整教學設計步驟等。智能作文評價系統是計算機科學、語言學、心理學等多個學科交叉融合的成果,它應該不斷前進且持續更新(孟翀等,2021)。學生對人機協同作文評價的“矛盾”態度恰好揭示了該評價方式的潛力所在和改進方向。
在本研究中,教師反饋建立在審閱智能反饋的基礎上,受限于客觀條件,學生并沒有提前與IN課堂互動,只在人機協同反饋條件下完成一輪集中修改,寫作修改過程略顯倉促。寫作修改是一個復雜問題解決的過程,后續研究應該為學生創設更豐富的寫作場景,支持學生完成更多輪次的寫作修改,優化人機協同寫作教學的實施路徑。
六、結論與建議
隨著智能技術在教學中的廣泛應用,智能作文評價與寫作教學的深度融合是未來寫作教育的重要趨勢。本研究探究了智能作文評價融入寫作教學的重要方式“人機協同作文評價”的教學效果,得出以下基本結論:首先,與教師作文評價相比,人機協同作文評價對作文成績的影響并不顯著,然而它能在一定程度上提升學生寫作動機,對學生的“學”有積極的促進作用;其次,人機協同作文評價會對教師反饋產生影響,比如,教師反饋數量減少,提問型反饋比率降低,教師“教”的優勢還有待進一步發揮;最后,教師只有重構知識能力結構,并不斷進行教學革新,輔之智能作文評價系統的持續改進,人機協同作文評價才能發揮出最大優勢,更好地變革傳統寫作教學。
基于以上結論,本研究圍繞人機協同寫作教學領域的實踐和研究提出以下三點建議:
首先,語文教師需要探索人機協同寫作教學的多元路徑,找準定位,進一步發揮人機協同中的“人”的優勢作用。教師首先需要轉變角色,提升人工智能素養,在與智能技術的協同教學中找到最佳著力點,給予學生最切實的反饋和幫助。“人機協同”中的“人”除了語文教師外,還可以擴展為學生本人、同伴甚至家長;“人”和“機”的評價與反饋可以同時呈現,讓學生根據兩種反饋內容修改作文,也可以是時空分離的,學生在不同輪次的寫作修改活動中體驗不同的反饋方式。此外,教師對學生的寫作支持也是一個由扶到放的過程。如果始終以“精批細改”來“哺育”學生,教師的時間和精力都將難以維系,也有違現代寫作教育的初衷。因此,“人機協同”不僅要體現在評價反饋環節,也可以表現為“教師負責策略點撥與信念培育、機器負責即時反饋與過程監控”的協同范式,以此協助學生在與機器互動中提升能力,逐步成長為獨立作者。
其次,在寫作教學中,教師要好好關注和培育學生的寫作修改能力和信念。寫作修改是一個復雜認知過程,具有較強的實踐性。傳統寫作教學對寫作修改環節不夠重視,學生較少得到寫作修改的過程指導和質量評價,大部分初中生寫作修改能力較弱,寫作修改信念低下。如果師生正視這一問題并努力解決,學生就能更好地理解并落實作文反饋信息,人機協同作文評價的實施效果也會得以提升。
最后,產學研合作有利于智能作文評價系統的優化和推廣。智能作文評價的研發機構需要和中小學校一線語文教師以及教育研究者通力合作,基于寫作教學和評價規律一起探索系統的優化路徑。只有立足師生寫作教學的需求與評價標準,找準系統在人機協同教學中的定位,在技術上不斷優化,智能技術才能在人機協同作文教學中更好地發揮優勢。目前,基于IN課堂的智能作文評價在提高語言錯誤識別率、提升反饋內容具體性、加強寫作過程支持等方面還存在提升空間,產學研合作有利于匯集多方力量攻堅克難,最終讓人機協同在寫作教學中發揮輕負優質的最佳效果。
參考文獻:
[1]黃靜,何華清(2018).人機反饋對學生寫作行為的影響研究[J].外語電化教學,(1):19-24.
[2]IN課堂(2018).IN課堂——語文作文智能批改教育邁向智能化階段[EB/OL].[2021-04-22].http://inketang.com/v8/news_ detail_00.html.
[3]劉步青(2016).人機協同系統的推理機制及其哲學意蘊[D].上海:華東師范大學.
[4]劉淑君,李艷,楊普光等(2021).智能作文評價的效果研究[J].開放教育研究,27(3):73-84.
[5]孟翀,王以寧(2021).教育領域中的人工智能:概念辨析、應用隱憂與解決途徑[J].現代遠距離教育,(2):62-69.
[6]錢學森,于景元,戴汝為(1990).一個科學新領域——開放的復雜巨系統及其方法論[J].自然雜志,(1):3-10,64.
[7]唐錦蘭,吳一安(2011).在線英語寫作自動評價系統應用研究述評[J].外語教學與研究,43(2):273-282,321.
[8]汪瓊,李文超(2021).人工智能助力因材施教:實踐誤區與對策[J].現代遠程教育研究,33(3):12-17,43.
[9]余勝泉,王琦(2019).“AI+教師”的協作路徑發展分析[J].電化教育研究,40(4):14-22,29.
[10]中華人民共和國中央人民政府(2019).中共中央、國務院印發《中國教育現代化2035》[EB/OL].[2021-05-15]. http://www.gov.cn/xinwen/2019-02/23/content_5367987.htm.
[11]Azmi, A. M., Al-Jouie, M. F., & Hussain, M. (2019). AAEE-Automated Evaluation of StudentsEssays in Arabic Language[J]. Information Processing & Management, 56(5): 1736-1752.
[12]Balfour, S. P. (2013). Assessing Writing in MOOCs: Automated Essay Scoring and Calibrated Peer Review[J]. Research & Practice in Assessment, 8(1):40-48.
[13]Bruning, R. H., & Kauffman, D. F. (2016). Self-Efficacy Beliefs and Motivation in Writing Development[M]// Mcarthur, C. A., Graham, S., & Fitzgerald, J. (Eds.). Handbook of Writing Research. New York, NY: Guilford Press:160-173.
[14]Cheung, A. C. K., & Slavin, R. E. (2013). The Effectiveness of Educational Technology Applications for Enhancing Mathematics Achievement in K-12 Classrooms: A Meta-Analysis[J]. Educational Research Review, 9:88-113.
[15]Cho, K., Schunn, C. D, & Charney, D. (2006). Commenting on Writing: Typology and Perceived Helpfulness of Comments from Novice Peer Reviewers and Subject Matter Experts[J]. Written Communication, 23(3):260-294.
[16]Chodorow, M., Gamon, M., & Tetreault, J. (2010). The Utility of Article and Preposition Error Correction Systems for English Language Learners: Feedback and Assessment[J]. Language Testing, 27(3):419-436.
[17]Choi, J. (2010). The Impact of Automated Essay Scoring (AES) for Improving English Language Learners Essay Writing[D]. Charlottesville, VA: University of Virginia.
[18]Dujinhower, H., Prins, F. J., & Stokking, K. M. (2010). Progress Feedback Effects on StudentsWriting Mastery Goal, Self-Efficacy Beliefs, and Performance[J]. Educational Research and Evaluation, 16(1):53-74.
[19]Foltz, P. W., Streeter, L. A., & Lochbaum, K. E. et al.(2013). Implementation and Applications of the Intelligent Essay Assessor[M]// Shermis, M. D., & Urstein, J. J. (Eds.). Handbook of Automated Essay Evaluation. New York, NY: Routledge:66-88.
[20]Graham, S., Berninger, V., & Fan, W. (2007). The Structural Relationship Between Writing Attitude and Writing Achievement in First and Third Grade Students[J]. Journal of Educational Computing Research, 33:53-80.
[21]Grimes, D., & Warschauer, M. (2010). Utility in a Fallible Tool: A Multi-Site Case Study of Automated Writing Evaluation[J]. Journal of Technology Learning & Assessment, 8(6):1-44.
[22]Hao, S. D., Xu, Y. Y., & Ke, D. F. et al. (2016). SCESS: A WFSA-Based Automated Simplified Chinese Essay Scoring System with Incremental Latent Semantic Analysis[J]. Natural Language Engineering, 22(2):291-319.
[23]Hayes, J. R. (2012). Modeling and Remodeling Writing[J]. Written Communication, 29(3):369-388.
[24]Hayes, J. R., & Berninger, V. W. (2010). Relationships Between Idea Generation and Transcription: How the Act of Writing Shapes What Children Write[M]// Braverman, C. et al.(Eds.). Traditions of Writing Research. NewYork, NY: Routledge: 166-180.
[25]Ishioka, T., & Kameda, M. (2006). Automated Japanese Essay Scoring System Based on Articles Written by Experts[C]// Proceedingsofthe21stInternationalConferenceon Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics. Sydney, Australia: Association for Computational Linguistics:233-240.
[26]Kellogg, R. T. (2008). Training Writing Skills: A Cognitive Developmental Perspective[J]. Journal of Writing Research, 1(1):1-26.
[27]Link, S., Mehrzad, M., & Rahimi, M. (2020). Impact of Automated Writing Evaluation on Teacher Feedback, Student Revision, and Writing Improvement[J]. Computer Assisted Language Learning, (3):1-30.
[28]Morphy, P., & Graham, S. (2012). Word Processing Programs and Weaker Writers/Readers: A Meta-Analysis of Research Findings[J]. Reading and Writing, 25(3):641-678.
[29]National Council of Teachers of English (2013). NCTE Position Statement on Machine Scoring [EB/OL]. [2021-07-15]. http://www.ncte.org/positions/statements/machine_scoring.
[30]Nelson, M. M., & Schunn, C. D. (2009). The Nature of Feedback: How Different Types of Peer Feedback Affect Writing Performance[J]. Instructional Science, 37:375-401.
[31]Page, E. B. (2003). Project Essay Grade: PEG[M]// Shermis, M. D., & Burstein, J. C. (Eds.). Automated Essay Scoring:ACross-DisciplinaryPerspective.Mahwah,NJ: Lawrence Erlbaum Associates, Inc:43-54.
[32]Palermo, C., & Thomson, M. M. (2018). Teacher Implementation of Self-Regulated Strategy Development with an Automated Writing Evaluation System: Effects on the Argumentative Writing Chock for Performance of Middle School Students[J]. Contemporary Educational Psychology, 54:255-270.
[33]Piazza, C. L., & Siebert, C. F. (2008). Development and Validation of a Writing Dispositions Scale for Elementary and Middle School Students[J]. Journal of Educational Research, 101(5):275-285.
[34]Ramineni, C., Calico, T., & Li, C.(2015). Integrating Product and Process Data in an Online Automated Writing Eval-uation System[DB/OL]. [2021-06-15]. https://www.educationaldatamining.org/EDM2015/uploads/papers/paper_309.pdf.
[35]Shermis, M. D. (2014). State-of-the-Art Automated Essay Scoring: Competition, Results, and Future Directions from a United States Demonstration[J]. Assessing Writing, 20:53-76.
[36]Shermis, M., Garvan, C., & Diao, Y. (2008). The Impact of Automated Essay Scoring on Writing Outcomes[DB/OL].[2021-06-15]. https://files.eric.ed.gov/fulltext/ED501148.pdf.
[37]Stevenson, M., & Phakiti, A. (2014). The Effects of Computer-Generated Feedback on the Quality of Writing[J]. Assessing Writing, 19:51-65.
[38]Troia, G. A., Harbaugh, A. G., & Shankland, R. K. et al.(2013). Relationships Between Writing Motivation, Writing Activity, and Writing Performance: Effects of Grade, Sex, and Ability[J]. Reading and Writing, 26:17-44.
[39]Troia, G. A., Shankland, R. K., & Wolbers, K. A.(2012). Motivation Research in Writing: Theoretical and Empirical Considerations[J]. Reading and Writing Quarterly: Overcoming Learning Difficulties, 28:5-28.
[40]Wang, Y. J., Shang, H. F., & Briody, P. (2013). Exploring the Impact of Using Automated Writing Evaluation in English as A Foreign Language University StudentsWriting[J]. Computer Assisted Language Learning, 26 (3):234-257.
[41]Ware, P. (2014). Feedback for Adolescent Writers in the English Classroom: Exploring Pen-and-Paper, Electronic, and Automated Options[J]. Writing & Pedagogy, 6(2):223-249.
[42]Warschauer, M., & Grimes, D. (2008). Automated Writing Assessment in the Classroom[J]. Pedagogies: An International Journal, 3(1):22-36.
[43]Wilson, J., & Czik, A. (2016). Automated Essay Evaluation Software in English Language Arts Classrooms: Effects on Teacher Feedback, Student Motivation, and Writing Quality[J]. Computers & Education, 100:94-109.
[44]Wilson, J., & Roscoe,R. D. (2020). Automated Writing Evaluation and Feedback: Multiple Metrics of Efficacy[J]. Journal of Educational Computing Research, 58(1):87-125.
Could Human-Computer Collaborative Essay Evaluation Improve Writing Teaching?
——Evidence from Z Schools Extended Course
LI Yan, LIU Shujun, LI Xiaoli, YANG Puguang
Abstract: Intelligent essay evaluation system is an interdisciplinary product of artificial intelligence, Internet, language cognition and other disciplines. It could provide instant essay scoring and content feedback for writers. Its development and application lay a foundation for human-computer collaborative writing teaching. With the popularization of Chinese intelligent essay evaluation systems in teaching practice, the effectiveness of human-computer collaborative essay evaluation in Chinese writing teaching has attracted more and more academic attention. A quasi-experimental study was carried out and 28 students in the 7th grade from Z school participated in an extended Chinese writing course. These students were divided into two groups. One was the experimental group and the other was the control group. In order to explore the impact of human-computer collaborative writing evaluation on writing teaching in the junior middle school, students in the experimental group received human-computer collaborative essay evaluation and students in the control group received teacher essay evaluation. The experimental results are as follows. Comparing with essay scores of studentsfirst drafts, their essay scores of final drafts after receiving essay evaluation were significantly improved. However, there was no significant difference in essay scores between the two groups. Comparing with teacher evaluation, human-computer collaborative essay evaluation could significantly improve studentswriting passion. However, there was no significant difference in the dimensions of writing confidence and persistence. Comparing with the control group, the quantity and the inquiry ratio of teacher feedback in the experimental group decreased. However, there was no significant difference in the ratio of low-order feedback and high-order feedback between the two groups. In general, students appreciated the value of human-computer collaborative evaluation, while they hold reservations about continuing to use such an evaluation method. In conclusion, although human-computer collaborative essay evaluation has the potential advantages in improving teaching writing practice, the full play of its role depends on the promotion of teachersprofessional literacy, the support of learning environment and functional improvement of the intelligent system.
Keywords:IntelligentEssayEvaluation;EssayScore;WritingMotivation;TeacherFeedback; Human-Computer Collaborative Essay Evaluation