








摘要:當前,人工智能生成內容(Artificial Intelligence Generated Content,AIGC)憑借其卓越的自然語言處理和內容創新能力在教育領域引起了廣泛關注,也為創新升級作文評價工具提供了新的技術路徑,但AIGC輔助教師進行作文評價的效果仍有待進一步探究。為此,文章首先收集了104篇九年級學生的作文,并由AIGC工具和五位教師分別針對作文的內容、語言和結構維度進行評價。然后,文章采用內容分析法對兩種評價來源信息的評價數量、類型、層次以及準確度進行差異對比,并使用主題分析法分析了針對教師的訪談內容。研究結果表明,AIGC可以在作文評價中與教師達成評價策略互補,有效提高評價效率,但仍需提高評價深度和精準度。最后,文章根據研究結果得出相關啟示,揭示了AIGC輔助教師進行作文評價的效果,以期為推動AIGC與作文教學的深度融合提供參考。
關鍵詞:語文作文;作文評價;教師評價;AIGC;人機協同
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2024)10—0053—12 【DOI】10.3969/j.issn.1009-8097.2024.10.006
隨著人工智能技術的快速發展及其在教育領域的不斷深入應用,世界各國都在加快教育數字化轉型的步伐。為此,2020年,中共中央、國務院印發《深化新時代教育評價改革總體方案》,明確提出要創新評價工具,利用人工智能、大數據等現代信息技術,提高教育評價的科學性、專業性、客觀性[1]。在技術和政策的雙重推動下,人工智能技術與教育評價深度融合成為教育評價變革的關鍵契機和重要趨勢[2]。其中,作文評價作為人工智能技術應用的重要領域,正在逐步實現由人工評價向智能評價的變革。智能作文評價工具即時批改與反饋的優勢不僅大大降低了教師的評價負擔,還能解決傳統寫作教學中評價滯后、形式單一和針對性不強等問題,但其反饋內容仍多處于淺層評價[3][4]。當前,以ChatGPT為代表的AIGC技術憑借其卓越的學習能力和內容創造力,改變了傳統的內容生產和信息獲取模式,能有效彌補傳統智能作文評價工具在提供具體修改建議和高階寫作技能評價等方面的不足,為實現更加精準、個性化的作文評價提供了新的技術支持[5][6]。然而,AIGC的內容創造力是由計算機基于海量數據的學習和模擬生成的,即其生成的內容來自于人為訓練,AIGC產品能否像人類教師一樣理解作者的主題立意、寫作思路以及情感表達,能否輔助教師進行作文評價仍值得進一步探究??紤]到中學語文作文評價是既往研究關注較多的領域,本研究選取中學語文作文為語料,從評價數量、類型、層次、準確度方面對比分析教師和AIGC在作文評價中的差異,探究AIGC輔助教師進行作文評價的潛力,以期為推動AIGC與作文教學的深度融合提供參考。
一 文獻綜述
1 智能技術增強的作文評價效果研究
智能技術賦能作文評價的研究可追溯到20世紀60年代美國杜克大學Page[7]團隊開發的第一款自動作文評分系統PEG(Project Essay Grade),該系統側重于使用自身創建的作文評分模型對作文進行評分,打開了智能技術賦能作文評價的新局面。之后,隨著智能技術的快速發展,智能作文評價工具不斷升級,推動了針對文本內容的評價,在這一時期,自動寫作評估(Automated Writing Evaluation,AWE)系統開始被廣泛應用于以英文為代表的二語寫作教學[8]。針對該系統,已有研究證實其對學生英語寫作動機和自我效能均有積極的影響[9];但也有研究者認為AWE系統主要側重于詞匯、語法、單詞等淺層語言水平的評價,不能判斷內容、主題、語義內容等深層次內容[10][11]。AWE系統也促進了中文寫作教學的提質增效,有研究發現借助AWE系統,學生的作文成績得到了顯著提升,尤其是在論據、闡釋和結論等要素的使用上進步明顯,同時其對寫作毅力、修改信念方面也都有積極影響[12]。而當前隨著自然語言生成技術的快速發展,其代表產品ChatGPT憑借可輸出近乎人類復雜自然語言和具有較高復雜度的文本的特性,進一步改善了上一代智能機器人語言表達連貫性、準確性以及上下文理解能力不足等問題,且除了能檢測作文質量,還能總結文本、互動交流[13][14]。此外,既有研究還發現ChatGPT能從初階修改、中階潤色以及高階輸出方面輔助教師進行英語作文評價[15]。綜上可知,隨著數智技術的不斷進步,智能作文評價工具的智能性在逐步提升,進而推動了作文評價方式的創新變革,但AIGC在寫作教學中的應用效果仍需要更多的證據支持。
2 智能作文評價與教師作文評價的對比研究
為了探究智能作文評價工具的使用效果,研究者常將智能作文評價工具與教師進行對比。對此,現有研究主要從評價類型、評價層次、評價準確度等方面展開[16][17]。其中,評價類型通常分為直接評價和間接評價,直接評價是指教師直接糾正錯誤或提供修改意見;間接評價是指教師僅標注錯誤,并將其留待學生自己改進[18]。Guo等[19]在第二語言寫作課堂上對比ChatGPT與教師的作文評價類型,發現ChatGPT多以直接評價的形式呈現,教師則偏重間接評價。評價層次指評價信息所針對的寫作技能層次,一般分為低階評價和高階評價,前者側重針對錯別字、標點、語法等淺層的技能評價,后者聚焦內容、結構、立意等深層的技能評價[20][21]。Link等[22]在第二語言寫作課堂上對比了AWE系統與教師的評價層次,發現AWE系統對于教師評價更多的高階寫作技能方面沒有顯著影響,但未使用AWE系統的教師往往能夠提供更多的低階技能評價信息。評價準確度包括精準度和召回率兩個指標,是信息檢索和機器學習領域重要的度量指標[23][24]。精準度為評價者的正確識別數除以全部識別數(正確識別數+錯誤識別數),召回率為正確識別數除以實際錯誤數(檢驗標準),這兩個數值越高,表示機器智能評價的質量越好[25]。劉淑君等[26]對比了IN課堂與教師的評價準確度,發現兩者的精確度都比較高,但召回率有待提升,其中IN課堂的精準度略低于教師,而召回率高于教師。
總結已有研究發現:首先,在檢測智能作文評價工具的評價質量時,研究者更多地是針對評價信息本身進行量化評估,較少從教師的角度來分析評價信息的質量和實用性;其次,既有研究缺乏對AIGC和教師針對作文各維度(內容、結構、語言)的關注度對比,導致AIGC與教師合作評價作文時的分工不夠明確;最后,既有研究主要集中于以英語為代表的第二語言作文評價,針對中文寫作方面的研究還很缺乏,特別是使用AIGC工具輔助中文寫作評價的效果還需要進一步探究。為此,本研究整合教師的視角,通過比較AIGC和教師在中學語文作文中的評價數量、類型、層次以及準確度的差異,探究如何運用AIGC輔助教師進行作文評價。
二 研究設計
1 研究對象
本研究采用方便取樣法,將湖北省A市某初級中學九年級的52名學生作為研究對象,并隨機選擇該年級某兩次語文模擬考試中的104篇作文作為研究語料開展研究。同時,本研究還在該校選取了五名語文教師作為人類教師評價代表,他們均參與過中考閱卷,并具有使用技術輔助作文評價的經驗。
2 研究過程
本研究首先選擇百度公司開發的“文心一言”大語言模型完成AIGC作文評價。在對作文進行評價前,研究團隊基于“文心一言”官方提供的關于如何精準提問的輔助資料進行提示語設計,經過多次修改與試驗,創建了如下提示語:“你是一名初中語文教師,請參考湖北省中考作文評分標準,從內容、語言、結構三個維度對以下九年級學生作文進行評價,并給出修改建議,其中語言維度還包括錯別字和標點符號,請分步驟來思考?!盵27]本研究還為“文心一言”提供了詳細的《湖北省中考作文評分標準》,內容維度要求切合題意、中心突出、內容充實、情感真摯,語言維度要求準確、流暢、生動,結構維度要求結構嚴謹、條理清晰、詳略得當[28]。另外,雖然“文心一言”具有“重新生成”的功能,但為了保持反饋信息水平的一致性,本研究只選用其輸出的第一條響應內容。
然后,本研究要求四名教師(教師Z、教師L、教師M、教師C)分別評價20篇作文,剩余一名教師(教師W)評價余下的24篇。需要注意的是,為方便后續與“文心一言”的評價信息進行比較,要求教師也從內容、語言和結構三個維度對作文進行評價。同時,本研究并未給予任何其他參考與指示,教師只需按照常規的作文批閱方式進行評價即可,兩者的評價形式如圖1所示,這進一步保證了數據的真實性。此外,為避免教師個人的主觀因素影響評價效果,五名教師在評閱結束后互相進行審核,商討存在歧義的部分,并由本研究第五位作者匯總整理。
圖1 "AIGC和教師的作文評價形式
最后,本研究將“文心一言”的作文評價信息分享給各位教師,使其對“文心一言”的作文評價信息與自己的評價結果進行比較。在此基礎上,本研究對五名教師展開半結構化訪談,探討“文心一言”評價信息的特點和質量。
3 數據收集與分析
(1)作文各維度評價數量的數據收集與分析
為了統計AIGC和教師分別在內容、語言、結構方面的評價數量,本研究將104篇作文(編碼為P1~P104)的評價信息拆分為獨立的評價單元,拆分標準為解決單個問題或針對文本單個特征的獨立消息。具體過程為:研究團隊的兩名成員依據評價單元的拆分操作流程,先抽取10篇作文的評價信息分別進行單元拆分并對比拆分結果,對于拆分不一致的情況通過協商達成共識。以此流程完成剩余評價信息的拆分工作后,共得到2098個評價單元,包括1422個AIGC評價單元和676個教師評價單元,剔除76個重復的AIGC評價單元,最終得到2022個有效的評價單元[29]。在進行評價數量對比時,為了增加數據的參考價值,本研究使用中位數來計算兩種來源的評價單元數,且因評價單元數不符合正態分布,采用Mann-Whitney U檢驗來分析差異。同時,考慮到效應量r受樣本容量的影響較小,本研究使用其呈現AIGC和教師之間實際差異的程度。其中,r值越接近1和-1,表示效應量越大。
(2)評價類型的數據收集與分析
本研究首先通過研討會的形式研讀AIGC和教師的作文評價信息,掌握兩種評價信息的基本類型與特點,然后參考既往研究使用較多的Wilson等[30]提出的作文評價信息分類方法,與五名教師進行充分商討后設計了中學作文評價信息編碼表,如表1所示。
在編碼環節,仍由前文進行拆分工作的兩位研究者承擔編碼任務。為保證編碼規則的一致性,兩位編碼者先從2022個有效評價單元中隨機抽取30%的評價單元,依據中學作文評價信息編碼表進行拆分和編碼,樣例如圖2所示。編碼結束后,本研究采用歸類一致性系數檢驗編碼信度。結果顯示,兩位編碼者的編碼文本歸類一致性指數CA值均大于0.59,編碼信度系數R均達到0.83以上,表明評價單元的編碼一致性處于較高水平,可以對編碼結果執行進一步分析。
在對AIGC和教師的評價類型進行對比時,為了避免因作文長度不同而產生的干擾,本研究將四種評價類型的原始計數轉換成中位數的比例進行對比。同時,因評價類型的比例數不滿足正態分布,本研究同樣采用Mann-Whitney U檢驗來分析評價類型的差異,并使用效應量來呈現實際差異的程度。
(3)評價準確度的數據收集與分析
本研究隨機抽取25份作文作為比較評價準確度的樣本,評價準確度包含精準度和召回率兩個方面??紤]到錯別字、標點符號、詞語運用、句式語法更具客觀性,方便判斷正誤,本研究從這四個方面進行評價準確度的統計與分析。由五名教師輪流針對抽取的25份作文從以上四個方面進行錯誤標注,并互相討論直至對標注結果達成一致,標注結果將作為評價召回率的檢驗標準。
圖2 "AIGC和教師評價信息拆分和編碼樣例
(4)教師感知AIGC作文評價質量的數據收集與分析
為了進一步探究教師對AIGC輔助作文評價的看法,本研究對教師進行了半結構化訪談,訪談時間平均為30分鐘。訪談問題主要包括:“您認為文心一言的作文評價信息有什么特點?”“您認為文心一言的作文評價信息質量如何?”“您如何看待AIGC輔助語文教師進行作文評價?”本研究將收集的訪談錄音轉換成文字,按照Braun等[31]提出的主題分析步驟,先熟悉訪談內容,并將文本數據導入NVivo 12進行編碼、歸類,然后總結、命名主題,最后從優勢和不足兩個方面歸納教師訪談話語中的主題。
三 研究結果
1 AIGC和教師在作文各維度的評價數量比較
表2為AIGC和教師在作文內容、語言、結構維度的Mann-Whitney U檢驗結果。由表可知,AIGC更關注內容和語言維度,對結構維度的評價數量相對較少;教師更關注內容維度,對語言和結構維度的評價數量相對較少。同時,AIGC在內容、語言和結構維度的評價數量都顯著高于教師在這三個維度的評價數量。整體來說,AIGC和教師在語言維度的實際差異程度最大,其次是結構維度,最后是內容維度。
2 AIGC和教師在作文各維度的評價類型比較
表3為AIGC和教師在作文內容維度的評價類型Mann-Whitney U檢驗結果。由表可知,AIGC在內容維度傾向于提供建議型評價和概述型評價,教師則傾向于提供診斷型評價和表揚型評價。此外,AIGC輸出的建議型評價和概述型評價比例顯著高于教師,其中建議型評價的實際差異程度較大,而概述型評價的實際差異程度較??;教師提供的診斷型評價和表揚型評價比例顯著高于AIGC,其中診斷型評價的實際差異程度中等,表揚型評價的實際差異程度較小。
表4為AIGC和教師在作文語言維度的評價類型Mann-Whitney U檢驗結果。由表可知,AIGC在語言維度傾向于提供表揚型評價和建議型評價,教師則傾向于提供診斷型評價和表揚型評價。此外,AIGC產生的建議型、概述型和表揚型評價的比例均顯著高于教師,其中建議型評價的實際差異程度較高,概述型和表揚型評價的實際差異程度適中;教師提供的診斷型評價比例顯著高于AIGC,且實際差異程度較高。
表5為AIGC和教師在作文結構維度的評價類型Mann-Whitney U檢驗結果。由表可知,AIGC在結構維度傾向于提供表揚型評價和概述型評價,教師則傾向于提供表揚型評價和診斷型評價。此外,AIGC產生的建議型評價和概述型評價比例顯著高于教師,但實際差異程度都較??;教師提供的表揚型評價和診斷型評價比例顯著高于AIGC,其中表揚型評價的實際差異程度較小,診斷型評價的實際差異程度適中。
基于評價類型特點,本研究發現AIGC作文評價常呈現“概述+建議”和“表揚+概述”的類型組合,即概述型評價前后通常緊跟建議型評價或表揚型評價,且兩者內容密切相關,如“這篇作文對‘勤學與樂學’進行了全面探討并表達了作者的觀點,認為兩者在學習中都扮演著重要的角色。在討論勤學的優點時,還可以增加一些具體的例子或方法,這樣可以讓讀者更好地理解勤學的具體做法”(P28);教師在作文評價中常表現出“表揚+診斷”的類型組合,如“文章結構清晰,但顯得頭重腳輕,不太合理”(P2)。
3 AIGC和教師的評價準確度比較
表6為AIGC和教師作文評價精準度與召回率的對比結果。整體來說,AIGC的評價精準度低于教師的評價精準度。其中,AIGC對錯別字的評價精準度最高,其次是標點符號和詞語運用,對句式語法的評價精準度最低。教師對錯別字、標點符號以及詞語運用的評價精準度均達到了100%,句式語法的評價精準度為93%。然而,教師作文評價的總體召回率顯著低于AIGC,其中教師對錯別字的召回率相對較高,其他三項的召回率都較低;AIGC對詞語運用的召回率最高,其次是錯別字和句式語法,最后是標點符號。
4 教師感知的AIGC作文評價質量
本研究對教師的訪談數據進行主題分析后,發現教師感知的AIGC在作文評價中表現出了指導性強、策略高階、評價全面、方法多樣以及理性客觀的優勢,同時也存在評價信息錯誤、思路單一、穩定性差以及評語泛化等不足,具體評價質量如表7所示。整體來說,五名教師均認為AIGC能夠有效補充教師的作文評價,進而提升作文評價的效率,但同時也提到,在利用AIGC輔助作文評價的過程中,教師需要運用自身的專業知識去評判AIGC評價內容的質量,從中選擇正確且適切的信息納入作文評價中。
四 研究結論與啟示
1 研究結論
(1)AIGC可以在語言和結構維度補充教師關注量少的不足
作文各維度的評價數量對比結果表明,AIGC在各個維度均輸出了多于教師的評價數量,且在語言和結構維度的差異程度較大。其中,AIGC在語言維度反饋了較多關于錯別字、標點符號、詞語更換等的信息,在結構維度更多地是總結作者的寫作思路并給予表揚。更重要的是,AIGC是在數秒的時間內輸出了足夠多的評價信息。相比之下,由于日常教學評價任務較重,教師為了提高批閱作文的效率,“一般只關注每次作文重點訓練的寫作技能”(教師M),主要集中于作為文章“血肉”的內容維度,重視作文的審題立意、選材用材以及情感表達??梢?,AIGC可以有效彌補教師對語言和結構維度關注較少的不足,使教師將更多精力用于學生高階寫作能力的培養,以提升作文評價效率。
(2)AIGC可以在作文評價中與教師達成評價策略互補
評價類型體現評價的策略或方法,不同類型的評價會對學生的寫作表現產生不同的影響[32]。通過對比AIGC和教師的評價類型,可為“雙師”高效協同作文評價明晰合作路徑。
①AIGC輔助教師提供建議型評價,教師補充診斷性評價。由研究結果可知,AIGC在作文的內容和語言維度使用了較多的建議型評價,在提供建議型評價時,AIGC的評價信息是詳細且具體的,常以“指出不足+提出修改建議+明確修改目的”的形式呈現,讓學生“知其然,并知其所以然”,這與ChatGPT在英語作文評價中的特點相似[33]。教師在作文的各維度則均傾向于使用診斷型評價,常以“表揚型+診斷型”的組合形式出現,同時囿于時間和精力,教師一般僅用陳述或提問的形式指出不足之處,讓學生自己思考修改的方法,這也與劉淑君等[34]的研究結果相一致。針對這兩種評價類型,雖然建議型評價可以給予學生直接的寫作方法指導,幫助學生快速提升寫作技能,但有研究者認為建議型評價使學生失去了探究、質疑和反思的機會,容易導致學習變得扁平和單維,不利于深度學習;而診斷性評價僅僅指出問題所在,雖然留給學生更多自我思考的空間,但往往教學效率不高[35]。因此,在常規的作文評價中,兩種評價策略需要根據需要交替使用。
②AIGC輔助教師提供概述型評價。根據研究結果可知,概述型評價作為AIGC內容整合能力的體現,可以幫助學生通過總體框架反思自己的寫作思路是否與預期相一致,特別是在結構和內容維度,其常與建議型或表揚型評價組合出現,如“作文結構緊湊、材料新穎,開頭通過引用名言引出主題,中間通過舉例和對比進行論證,結尾總結全文,點明主題”。因此,AIGC可以有效補充教師因精力有限而較少使用概述型評價的不足,但同時需注意,“過多的概述型評價容易導致作文評價信息量太大,會增加學生的閱讀焦慮,反而模糊了焦點問題”(教師M)。
③AIGC輔助教師提供表揚型評價,但教師需補充個性化情感服務。研究結果表明,AIGC和教師都傾向于提供表揚型評價。表揚型評價通過向學生傳達“肯定”“欣賞”“鼓勵”的情緒,來幫助其發揮動機、情感、興趣等非智力因素的效能,提升其在寫作學習中的情感投入[36]。雖然兩者評價風格基本一致,但AIGC無法像人類教師那樣將作文中的情感表達與學生的日常表現、情感需求相結合,從而給出個性化的表揚反饋。因此,AIGC可輔助教師針對作文本身提供表揚型反饋,而教師要將更多精力集中于學生個性化的情感需求,達到立德樹人的深遠目標。
(3)AIGC在作文理解上需要提高深度和精準度
由教師的訪談信息可知,相比于傳統的智能技術,AIGC在作文評價中展現出了強大的“理解創作”能力,但囿于在作文評價方面的訓練不足,AIGC仍不能準確無誤地對作文做出評價,且召回率也有待提高:①內容維度,AIGC在中心突出、內容充實方面的判斷仍比較片面,如AIGC發現作文中使用了案例即認為內容充實,而沒有針對案例挖掘是否充分、能否切實表現主題做深入判斷;AIGC在結合上下文語境體會作者情感方面仍存在偏差,如會因未能完全理解作者情感的變化,而判定“‘慢慢地’不能和‘一鼓作氣’一起用”(P67)。②語言維度,AIGC還需進一步提升針對錯別字、標點符號、詞語應用、句式語法等低階寫作技能的評價精準度;AIGC關于語言準確、流暢方面的判斷也不夠全面,如未能發現語言平淡、啰嗦的問題。③結構維度,AIGC關于寫作“結構嚴謹”和“條理清晰”的判斷仍處于淺層級別,如AIGC提取到涉及文章開頭、中間和結尾的關鍵詞即認為結構完整,而未能再次深入判斷入題節奏是否合理、中間段落銜接是否自然、結尾是否呼應主題等細節。
2 研究啟示
(1)教師應提升AIGC應用素養,在AIGC作文評價中把好質量關
由于AIGC作文評價存在準確性不足的缺陷,因此教師要提高自身的AIGC應用素養,保障高質量的人機協同作文評價:①掌握與AIGC高質量交互的技能。教師要學會通過為AIGC設定角色、提供預期答案的標準、適當評估回答等方式幫助其理解需求。通過不斷修訂提示語,更準確地引導AIGC生成所需的內容[37]。②加強對AIGC評價結果的評判能力。AIGC生成的內容良莠不齊,甚至會出現事實性錯誤,教師需具備敏銳判斷、評價AIGC信息正確性和可靠性的意識與能力,從中篩選出具有參考價值的內容來完善自己的評價信息。③提升AIGC應用的安全與責任意識。教師應明確與AIGC交流會存在獲得虛假信息、私人信息泄露的風險,在與AIGC協同工作的過程中需具備數據安全保護和網絡安全防護能力。
(2)“雙師”協同應盡“情”盡“理”,提升評價信息的育人價值
AIGC在作文評價中對“情感”的理解和評價能力仍有待提升,此時要充分發揮教師感知“情感”的優勢,實現教師和AIGC在作文評價中的“情”“理”互補,有效提升評價信息的育人價值:①教師在作文評價中應盡“情”,既理解“情”意,又交流“情”感。教師要發揮人類教師的智慧,梳理作者的情感路線,判斷情感表達是否充分。同時,教師需彌補AIGC作為工具屬性而缺少情感體驗和道德判斷的不足,給學生提供個性化的情感互動,滿足學生的情感需求,激發學生的寫作動機[38]。②AIGC在作文評價中應盡“理”,既“理”性客觀,又有“理”有據。AIGC作為“冷靜客觀”的技術工具,不會受個人情感因素的影響,可以幫助教師保障作文評價的科學性和準確性。另外,AIGC基于龐大的語料庫,可以提供論證材料、思想觀點、名言名句等內容豐富的作文優化方案,增強評價信息的指導價值。
(3)“雙師”互學應聚焦教師專業發展,促進寫作教學創新變革
教師在與AIGC協同進行作文評價時,應借助AIGC的強大知識儲備和即時知識供給能力實現自身的專業發展,從而更好地適應智能時代對教育高質量發展的需求:①AIGC在作文評價中能全面且創造性地發現不足或提出修改建議,從而幫助教師打破思維局限,拓展評價思路,摒棄傳統評價中的“廢話”,提高評價信息的參考價值。②AIGC高時效把握前沿熱點話題和跨學科匯聚海量寫作資源的優勢,可以幫助教師豐富素材、觀點、范文、寫作技巧的日常積累,不斷完善寫作教學的知識儲備。③教師可以借助AIGC創新寫作教學方式,如借助AIGC為學生設計個性化的作文選題,幫助學生有針對性地鞏固與提升寫作技能;還可以帶領學生反向評價AIGC的信息,使學生通過發現、討論AIGC評價中的錯誤信息和具有啟發性的修改建議,反思自己在寫作過程中的投入與表現,自主構建、積累寫作知識與技能,強化寫作思維和批判性思維的培養,促進核心素養的發展[39]。
參考文獻
[1]中共中央國務院.中共中央國務院印發《深化新時代教育評價改革總體方案》[OL].
lt;https://www.gov.cn/gongbao/content/2020/content_5554488.htmgt;
[2]胡小勇,孫碩,楊文杰,等.人工智能賦能教育高質量發展:需求、愿景與路徑[J].現代教育技術,2022,(1):5-15.
[3]曹海.小學語文作文評改存在的問題及對策研究[J].語文建設,2022,(10):73-74.
[4]李華,劉勐媛.混合式教學中作文同伴互評的應用研究[J].電化教育研究,2020,(6):83-90.
[5][26][34]劉淑君,李艷,楊普光,等.智能作文評價的效果研究[J].開放教育研究,2021,(3):73-84.
[6][11]Li J, Link S, Hegelheimer V. Rethinking the role of automated writing evaluation (AWE) feedback in ESL writing instruction[J]. Journal of Second Language Writing, 2015,27:1-18.
[7]Page E. B. Grading essays by computer: Progress report[A]. Proceedings of the Invitational Conference on Testing Problems[C]. New York: Princeton, NJ: Educational Testing Service, 1967:87-100.
[8]Roscoe R D, Wilson J, Johnson A C, et al. Presentation, expectations, and experience: Sources of student perceptions of automated writing evaluation[J]. Computers in Human Behavior, 2017,70:207-221.
[9]Nazari N, Shabbir M S, Setiawan R. Application of artificial intelligence powered digital writing assistant in higher education: Randomized controlled trial[J]. Heliyon, 2021,(5):e07014.
[10]Chen C F E, Cheng W Y E C. Beyond the design of automated writing evaluation: Pedagogical practices and perceived learning effectiveness in EFL writing classes[J]. Language Learning amp; Technology, 2008,12:94-112.
[12]劉淑君,李艷,何躍偉,等.智能作文反饋能提升中學寫作教學效果嗎?[J].華東師范大學學報(教育科學版),2022,(9):90-104.
[13]令小雄,王鼎民,袁健.ChatGPT爆火后關于科技倫理及學術倫理的冷思考[J].新疆師范大學學報(哲學社會科學版),2023,(4):123-136.
[14]Deng J, Lin Y. The benefits and challenges of ChatGPT: An overview[J]. Frontiers in Computing and Intelligent Systems, 2022,(2):81-83.
[15][33]魏爽,李璐遙.人工智能輔助二語作文反饋研究——以ChatGPT為例[J].中國外語,2023,(3):33-40.
[16]王麗,李艷,陳新亞,等.ChatGPT支持的學生論證內容評價與反饋——基于兩種提問設計的實證比較[J].現代遠程教育研究,2023,(4):83-91.
[17][30]Wilson J, Czik A. Automated essay evaluation software in english language arts classrooms: Effects on teacher feedback, student motivation, and writing quality[J]. Computers amp; Education, 2016,100:94-109.
[18]Ellis R. A typology of written corrective feedback types[J]. ELT Journal, 2009,(2):97-107.
[19]Guo K, Wang D. To resist it or to embrace it? Examining ChatGPT’s potential to support teacher feedback in EFL writing[J]. Education and Information Technologies, 2024,(7):8435-8463.
[20]AbuSeileek A F. Using track changes and word processor to provide corrective feedback to learners in writing[J]. Journal of Computer Assisted Learning, 2013,(4):319-333.
[21]Matsumura L C, Patthey-Chavez G G, Valdés R, et al. Teacher feedback, writing assignment quality, and third-grade students’ revision in lower-and higher-achieving urban schools[J]. The Elementary School Journal, 2002,(1):3-25.
[22]Link S, Mehrzad M, Rahimi M. Impact of automated writing evaluation on teacher feedback, student revision, and writing improvement[J]. Computer Assisted Language Learning, 2022,(4):605-634.
[23][25]Hoang G T L, Kunnan A J. Automated essay evaluation for English language learners: A case study of MY Access[J]. Language Assessment Quarterly, 2016,(4):359-376.
[24]Liu S, Kunnan A J. Investigating the application of automated writing evaluation to Chinese undergraduate English majors: A case study of “Write To Learn”[J]. Calico Journal, 2016,(1):71-91.
[27]Tlili A, Shehata B, Adarkwah M A, et al. What if the devil is my guardian angel: ChatGPT as a case study of using chatbots in education[J]. Smart Learning Environments, 2023,(1):15.
[28]王慧敏.中考作文評分標準的層級細化[J].文教資料,2019,(33):54-55、74.
[29]Hayes J R, Berninger V W. Traditions of writing research[M]. New York: Routledge, 2009:178-192.
[31]Braun V, Clarke V. Using thematic analysis in psychology[J]. Qualitative Research in Psychology, 2006,(2):77-101.
[32]Nelson M M, Schunn C D. The nature of feedback: How different types of peer feedback affect writing performance[J]. Instructional Science, 2009,(4):375-401.
[35]汪靖,米爾外提·卡馬勒江,楊玉芹.人機共生的復合腦:基于生成式人工智能輔助寫作教學的應用發展及模式創新[J].遠程教育雜志,2023,(4):37-44.
[36]燕國材.非智力因素與教育改革[J].課程·教材·教法,2014,(7):3-9.
[37]毛太田,湯淦,馬家偉,等.人工智能生成內容(AIGC)用戶采納意愿影響因素識別研究——以ChatGPT為例[OL]. lt;http://kns.cnki.net/kcms/detail/22.1264.G2.20231103.1005.010.htmlgt;
[38]馮建軍.我們如何看待ChatGPT對教育的挑戰[J].中國電化教育,2023,(7):1-6、13.
[39]白雪梅,郭日發.生成式人工智能何以賦能學習、能力與評價?[J].現代教育技術,2024,(1):55-63.
Research on the Effect of AIGC on Assisting Teachers’ Composition Evaluation
——Taking the Ninth Grade Chinese Compositions as an Example
WU Jun-Qi " "LIU Meng[Corresponding Author] " "WANG Jia-Tong " "LEI Shuang " "WU Fei-Yan
(Faculty of Artificial Intelligence in Education, Central China Normal University, Wuhan, Hubei, China 430079)
Abstract: At present, artificial intelligence generated content (AIGC) has aroused extensive attention in the field of education with its superior natural language processing and content innovation capabilities, and also provided a new technical pathway for the innovation and upgrading of composition evaluation tools. However, the effect of AIGC on assisting teachers in composition evaluation still needs further exploration. Therefore, 104 Chinese compositions written by ninth-grade students were collected, and the compositions’ content, language, and structure dimensions were evaluated with AIGC tools and five teachers. Then, the paper used content analysis to compare the differences in the evaluation quantities, types, levels and accuracies of the two evaluation sources information, and used thematic analysis method to analyze the interview content of teachers. The results showed that AIGC can achieve complementary evaluation strategies with teachers and effectively improve evaluation efficiency, but still needs to improve evaluation depth and precision. Finally, according to the research results, the paper drew some implications revealed the effect of AIGC on assisting teachers in composition evaluation, with the aim of providing reference for deepening the integration of AIGC and composition teaching.
Keywords: Chinese composition; composition evaluation; teacher evaluation; AIGC; man-machine collaboration
*基金項目:本文為華中師范大學2023年教師教育專項研究(年度)項目“基于大語言模型的‘雙師’賦能協作學習新范式研究”(項目編號:CCNUTEI2023-04)、湖北省高等學校省級教學改革研究項目“智慧課堂中研究生協作交互的行為模式研究”(項目編號:2023098)的階段性研究成果。
作者簡介:吳軍其,教授,博士,研究方向為“人工智能+教學”、教師教育,郵箱為wujunqi@ccnu.edu.cn。
收稿日期:2024年2月17日
編輯:小時