關鍵詞:生成式人工智能;學習效果;元分析;實驗研究 【中圖分類號】G40-057【文獻標識碼】A【論文編號】1009—8097(2025)08—0036—10【DOI】10.3969/j.ism.1009-8097.2025.08.004
引言
在信息化浪潮的推動下,GenAI技術的興起豐富了教育手段和教育形式,為教育改革和創新提供了強大的技術支撐[1]。與傳統的人工智能技術相比,GenAI 更注重生成內容的創造性和多樣性,能基于學習者的學習特點和需求,動態生成個性化的學習資源和反饋,從而提升學習體驗和學習效率2]。GenAI在教育領域的應用場景日益豐富,包括寫作指導、創意設計、編程教育等,逐步改變了知識的獲取和應用方式[3][4][5]。然而,GenAI也可能在學生的自主探究學習能力、信息篩選與辨別能力以及教育倫理與公平等方面產生消極影響[6][7][8]。
為探究GenAI在教育中的實際應用效果,國內外研究者開展了實驗和準實驗研究,但得出了不同的結論,包括學習效果增強、無顯著影響和學習效果降低[9][0][I][1][1]。例如,在寫作學習方面,Boudouaia 等[14]比較了本科生使用ChatGPT-4和接受教師指導兩種方式進行英語寫作學習的效果,發現ChatGPT-4組學生的寫作表現更好,效應量較大( d=0.77 )。Escalante等[15]卻發現,ChatGPT-4生成寫作反饋和教師反饋對大學生寫作表現的影響沒有顯著差異。Niloy等[1]調查了來自10 所高校的600 名大學生使用ChatGPT-3.5輔助創意寫作的效果,結果產生了中等程度(效應量 r=-0.352 )的不利影響。因此,有必要梳理已有研究結論,并分析學科、學段、樣本規模等調節因素的作用[17]。
GenAI對學生學習效果的具體影響及其作用機制,對技術開發和實踐至關重要,但現有研究缺乏系統的梳理與分析。Sallam[18]基于60篇文獻系統分析了ChatGPT在醫療保健教育、研究、實踐中的優勢和局限性,但分析的文獻缺乏同行評議的實證研究。一些研究雖涉及人工智能技術,但未聚焦GenAI,或者缺乏對GenAI影響學生學習效果的具體分析。例如,Yan等[1]對2017年以來發表的118篇同行評議論文進行系統分析,總結了大語言模型在自動化教育任務中應用的九個類別以及一些實踐和道德挑戰。劉明等[20]對國內外38篇GenAI影響高等教育的期刊文獻進行了系統性分析,總結了GenAI重塑高等教育形態的內容、案例和路徑。還有一些研究則比較局限,如僅針對單一工具(如ChatGPT),關注特定變量(如學習參與度)、特定情境(如語言學習)、特定對象(如大學生)等[21][22][23][24]。
綜上,現有探究GenAI對學生學習效果影響的實證研究尚未形成一致結論,甚至存在矛盾,需要對其進行系統梳理與分析。有學者進行了一些嘗試,但是仍存在缺乏實證研究分析、未聚焦GenAI、研究比較局限等問題。基于此,本研究試圖通過元分析方法整合實驗證據,探究GenAI對學生學習效果的影響,以為教育實踐提供循證依據。具體問題如下: ① 與不使用GenAI相比,使用GenAI是否有助于提高學生的學習效果? ② GenAI對學生學習效果的影響受到哪些因素的調節?
一研究方法與過程
1文獻檢索與篩選
本研究以 Web of Science、EBSCO、ScienceDirect、Springer Link、中國知網、維普網、萬方數據庫為文獻檢索庫,并結合Google Scholar進行補充檢索。檢索詞分為兩組,第一組與GenAI相關,包括generativeartificial inteligence、GenAI、AIGC、generative AI、ChatGPT、生成式人工智能;第二組與學習效果相關,包括 learning、learning outcome、learning achievement、learning performance、learning effectiveness、academicachievement、學習、學習效果、學習績效、學習表現。檢索范圍為2022年11月30日(正式發布ChatGPT,GenAI教育應用的實證研究開始呈現規模化增長)至2024年6月1日(最后檢索日期)期間發表的中英文文獻。
文獻檢索與篩選過程如圖1所示。完成檢索后,將所有文獻進行歸納,剔除重復文獻,再由兩位研究者根據以下納入標準進行獨立篩選: ① 研究主題為GenAI對學生學習效果(學習表現、認知負荷、思維、能力等)的影響研究。 ② 研究設計為實驗或準實驗研究,包括組間對照和單組前后測。 ③ 研究包含元分析所需的數據信息,如樣本量、平均值、標準差、t值等。篩選過程中產生的分歧通過討論或咨詢第三方解決。最終納入39篇文獻(中文7篇,英文32篇),其中13篇文獻包含多個效應量,可用于元分析的效應量為60個。
圖1文獻檢索與篩選過程圖
圖2漏斗圖
2文獻編碼
初步閱讀納入的文獻并參考已有人工智能相關元分析后,本研究確定了文獻編碼內容,包括文獻基本信息(作者、發表年份、題目、發表刊物等)、學科、學段、樣本量、干預次數、干預時長、應用方式和應用對象等25]。學科類別參考已有元分析文獻,加上對文獻集合的原始分析,最終確定為四類:自然科學、社會科學、信息工程和醫學[2d]。在應用方式方面,依據GenAI相關研究將其分為會話交互(學生與GenAI之間的對話互動,如通過聊天機器人進行問答交流)、內容生成(利用GenAI輔助內容創作,如生成作文、設計藝術作品)、評估反饋(通過GenAI評估學習表現并即時反饋)以及混合應用(綜合多種應用方式,如同時利用GenAI生成個性化測驗題目,并根據學生回答自動批改,提供反饋)[27][28]。應用對象則分為學生直接使用GenAI(如通過與GenAI對話解決疑問)和教師使用(教師使用GenAI輔助教學或幫助學生學習,如教師利用GenAI生成教案),但最終測量的都是學生的學習效果。編碼由團隊的兩位研究者(第三作者和第四作者)在專家指導下獨立完成。編碼前,他們接受了元分析編碼標準培訓;然后以五篇文獻為例,對編碼規則進行討論,達成一致性后對剩余文獻進行獨立編碼。編碼的一致性系數Cohen's Kappa 為0.934,達到0.7以上的要求,說明編碼結果可信。不一致的編碼由兩位研究者協商確定,如無法達成一致則咨詢第三方確定,部分編碼結果如表1所示。
表1文獻特征編碼結果(部分)
3數據分析
本研究采用教育領域元分析常用的ComprehensiveMeta-Analysis(CMA)軟件(版本 3.3.070)進行數據分析,該軟件可以用于發表偏倚檢驗、異質性檢驗、整體效應分析和調節效應分析等。發表偏倚(PublicationBias)指具有統計學顯著性的研究結果較無顯著性和負向結果,被報告與發表的可能性更大的現象,這種偏倚會導致對效應量的高估,進而影響結論的可靠性。檢驗發表偏倚的方法包括漏斗圖、失安全系數法(ClassicFail-safeNTest)和肯德爾Tau秩檢驗(Kendal'sTauRank Test)等。異質性檢驗用于評估不同研究間效應量的變異程度,常用的檢驗量包括Q值和P。異質性檢驗為模型選擇提供了重要依據,即異質性較高時,使用隨機效應模型,并可以進行調節效應分析;異質性較低時,使用固定效應模型。進行整體效應分析時,本研究從各研究中提取均值、標準差、樣本量等數據,導入CMA軟件,計算合并后的總體效應量。考慮到部分納入研究的樣本量較小,本研究采用Hedges'g作為最終效應量指標,其效應量絕對值為0.2、0.5、0.8,分別對應小、中、大三種效應水平[29]。
二研究結果
1發表偏倚檢驗
本研究通過漏斗圖對發表偏倚情況進行初步判斷,結果如圖2所示,大部分效應量較均勻地分布在對稱軸中部兩側,基本呈左右對稱。進一步采用失安全系數法發現,需要 7380個額外的研究來抵消本元分析中發現的總體效應大小,遠遠大于 5k+10 (本研究中 k=60 )。肯德爾Tau秩檢驗結果未達到顯著水平0 ?p=0.075 )。綜合以上檢驗表明,本研究樣本間不存在明顯的發表偏倚,結果比較穩定。
2異質性檢驗
異質性檢驗結果顯示, Q=779.336 0 plt;0.001 ), I2=92.429 ,說明由真實效應差異引起的變異占總變異的 92.429% ,大于標準 75% ,異質性水平較高。因此,本研究進一步開展調節效應分析,以識別導致異質性的顯著影響因素,并采用隨機效應模型進行后續分析。
3整體效應分析
為了比較GenAI支持的學習與無GenAI支持的學習對學生學習效果的影響差異,本研究合并了60個獨立的效應量。合并效應量 g=0.623 ,標準誤為 0.078,95% 置信區間為[0.470,0.775], plt;0.001 ,表明GenAI技術的使用對學生學習效果具有中等偏大的積極影響。
4調節效應分析
本研究依次以學科、學段、樣本量、干預次數、干預時長、應用方式和應用對象為調節變量進行了亞組分析,以識別顯著影響GenAI學生學習效果的調節因素,結果如表2所示。其中,學科、樣本量、干預次數和應用方式的組間效應顯著( (plt;0.05) ,而學段、干預時長和應用對象的組間效應不顯著 ?pgt;0.05? 。
學科方面,組間異質性檢驗顯示 QB=19.402 ( plt;0.001 ),表明不同學科的效應量存在顯著差異:社會科學領域的研究最多,且具有中等偏大的效應量( ?g=0.628 );接著是信息工程和自然科學,分別具有中等偏小的效應量( g=0.374? )和中等偏大的效應量( ?=0.592 );醫學領域的研究較少,但展現出極高的效應量( Φ?g=1.529 ),表明GenAI在醫學教育中潛力巨大。
學段方面,組間異質性檢驗顯示 QB=0.198 ( ?=0.656 ),表明不同學段的效應量不存在顯著差異:高等教育階段的研究數量遠超基礎教育,但兩者均呈現中等效應量,高等教育( g=0.637 )略高于基礎教育( g=0.551 ),表明GenAI適用于不同教育階段。
樣本量方面,組間異質性檢驗顯示 QB725.166 ( plt;0.001 ),表明效應量在各個樣本量區間存在顯著差異。樣本量為 1~50 和 51~100 的研究較多,效應量較大( g=0.776 與 g=0.753? );樣本量為 101~150 時,效應量有所降低( g=0.597 ),但仍為中等偏大。樣本量超過150時,效應量驟減甚至變為負向結果( ?g=- 0.098)。總體來看,效應量隨著樣本量增加而遞減,表明GenAI技術在小規模教學環境中作用更顯著。干預次數方面,組間異質性檢驗顯示 QB=12.356 (plt;0.001 ),表明不同干預次數的效應量存在顯著差異。不同干預次數的研究數量均衡,單次干預效應量中等偏小( g=0.382, ),多次干預效應量較大( g=0.854) ,說明持續多次使用GenAI更能促進學生學習。干預時長方面,組間異質性檢驗顯示 QB=3.299 ( p=0.348gt;0.05 ),表明不同干預時長的效應量無顯著差異。 1~4 周干預研究最多,效應量中等偏大( ?g=0.774) );4周以上和1周以內分別具有中等偏大的效應量( g=0.618 )和中等偏小的效應量( g=0.377. );另有9項研究(3篇文獻)未明確干預時長,效應量為中等偏大( g=0.663 )。
應用方式方面,組間異質性檢驗顯示 QB=8.740 ( p=0.033lt;0.05 ),表明不同GenAI應用方式的效應量存在顯著差異:效應數反映出應用的廣泛程度,其中會話交互的應用最廣泛,效應量最大( g=0.764) ;其次是評估反饋,效應量中等偏小( g=0.340. );接著是混合應用,效應量中等偏大( g=0.564 );最少的是內容生成,具有中等偏小的效應量( g=0.397 )。
應用對象方面,組間異質性檢驗顯示 QB=1.761 ? ),表明不同GenAI應用對象的效應量無顯著差異。學生直接使用GenAI的研究遠多于教師使用間接影響學生的研究,且學生對應中等偏大效應量( g=0.645 ),教師對應中等偏小效應量( g=0.403 ),表明學生直接使用GenAI學習更具應用價值。
表2調節效應分析結果
注: ***plt;0.001 , *plt;0.05 。
三研究討論與啟示
本研究對39篇探討GenAI對學生學習效果影響的文獻進行元分析,結果顯示,GenAI對學生學習效果具有中等偏大的積極影響,總效應量為0.623,表明GenAI能有效提升學生的學習效果。亞組分析表明,學科、樣本量、干預次數和應用方式對GenAI效果有調節作用,而學段、干預時長和應用對象變量則未表現出顯著的調節效應。具體而言,GenAI在醫學學科中效果尤為突出,而在信息工程學科學習效果的影響較小;隨著樣本量的增加,GenAI的效果逐漸減弱,大規模教學環境甚至出現負向結果;持續多次的GenAI干預比一次性干預更有效,但不同GenAI干預時長下學習效果無顯著差異;與內容生成、評估反饋和混合應用相比,會話交互式GenAI應用最廣且效果最佳;此外,GenAI適用于各學段與使用對象,但目前主要集中在高等教育階段,且以學生直接使用為主。基于此,本研究提出以下啟示以進一步提升GenAI對學生學習效果的促進作用。
1促進GenAI與教學和學習的深度融合
GenAI對學生學習效果具有中等偏大的積極影響,與已有相關研究的結論一致,說明與不使用GenAI相比,使用GenAI有助于提高學生的學習效果[30][31][2]。GenAI能夠根據學生的學習習慣、能力水平及興趣偏好提供個性化的輔導材料和學習方案,幫助學生在適合自身的節奏下學習,這有助于提高學習的效率和質量[33]。GenAI也能夠即時評估學生的學習成果,并提供恰當的反饋和建議,幫助學生及時了解自己的學習狀況并做出調整,進而增強自主學習能力、問題解決能力和批判性思維[34]。但是學習效果的顯著提升也可能源于學生在干預后的測試階段再次接受了GenAI的輔助,如有研究允許參與者在干預后的學習成績評估中使用ChatGPT,這應該歸因于GenAI生成內容的質量,而不是GenAI干預本身[35][36]。因此,未來的研究應該明確指出在干預后的評估期間是否允許使用GenAI及其使用方式。此外,GenAI效果仍受制于訓練數據的完整性和代表性、系統設計的教育適切性以及師生的人機協同程度等[37]。因此,未來應積極推動GenAI技術在教育領域的應用與創新,持續優化其與教學和學習的整合程度。同時,應避免對GenAI的過度“神化”,兼顧工具理性和價值理性,實現技術賦能與教育規律的有機統一。
2實現GenAI技術的學科特色化應用
GenAI 對學生學習效果的促進作用存在顯著的學科差異,這與TPACK(Technological PedagogicalContent Knowledge)框架中技術與學科內容知識適配度的觀點相呼應。醫學教育的極高效應量可能得益于GenAI強大的數據處理和模擬能力,通過分析已有實驗研究也發現GenAI能夠幫助醫學生快速獲取最新醫學資訊、開展復雜病例的模擬教學和評估,進行診斷訓練并提供即時反饋[38]。然而,該領域的研究較少,結果穩定性仍需要更多實踐驗證。社會科學領域的GenAI應用最多且一般具有中等偏大效應量,可能源于GenAI在信息收集、處理和評估等方面的優勢,同時該類學科注重人文性和社會性,而GenAI恰好能夠以類人的對話模式與學生交互,提供仿真的學習體驗,拓展學生的認知彈性,從而促進學習[39][40]。信息工程領域較多涉及編程學習,盡管GenAI可生成簡單代碼、查找并修復錯誤代碼等,但也可能提供錯誤信息誤導學生,無法準確回答復雜問題,阻礙學生批判性思維、推理能力、決策能力的發展,導致效應量較小[41][42]。
面對不同學科獨特的知識體系、學習方法和評估標準,以及學生日益增長的個性化需求,實現GenAI技術的學科特色化應用尤為重要。教育者需根據學科特點調整應用策略,研究者應探索學科差異背后的機制,如認知負荷與教學設計中,開發者應面向學科開發專用工具和資源(醫學領域的病例生成模塊、社會科學領域的論點證據鏈可視化工具等),以精準匹配學科特性,為學習者提供量身定制的學習路徑與即時反饋。尤其在醫學、社會科學等效應量顯著領域,應持續加強應用研發力度,如在社會科學可借助GenAI進行情境模擬與案例分析。同時,應探索提升信息工程等效應量偏低領域中GenAI應用效果的方法,如對于內容抽象、技能要求高的編程學習,可以利用GenAI的自然語言處理與交互能力將復雜概念轉化為易于理解的解釋,根據學生的學習進度和能力水平自動生成編程練習題目與案例,并提供即時反饋與建議等[43]。此外,還需注意倫理風險(如醫學中的隱私)、數據偏差帶來信息不準確和過度依賴GenAI等問題。差異化應用有助于最大化GenAI的教育效益,促進學生綜合能力發展,推動教育教學的多元化與個性化。
3實施差異化教學適配不同規模場景
樣本量對GenAI應用效果具有顯著調節作用,效應量隨樣本量增大呈遞減趨勢,尤其在超過150時出現負向結果,這與部分已有研究不符[44]。原因可能在于: ① 大規模教學實驗中存在更多干擾,削弱了GenAI的積極影響,如學生背景更多樣、教學一致性難以保證等; ② 隨著樣本量增大,實驗設計、實施控制及數據分析方面的任何偏差都可能對結果產生顯著影響; ③ GenAI技術的適用性可能存在邊界條件,當超出特定范圍時,其效果可能不再顯著甚至產生負向結果。這一趨勢可能與不同教學場景下的實施復雜度、學生個體差異及教師指導策略等因素有關。這提示研究者在使用GenAI時,應優先考慮小規模、精細化的教學環境,確保其有效性和適應性。教育實踐者則需根據教學規模優化教學設計,如在常規班級(如100人以內)中可利用GenAI的個性化推薦功能實現差異化資源推送,通過學情分析模塊劃分學習小組并配置定制化學習路徑;在跨班級或跨校聯合教學中(如100人以上),可將GenAI嵌入課程主干環節(如概念講解、作業反饋)的同時保留教師主導的協作學習活動;對于大規模在線課程(如500人以上),可結合智能監控系統構建動態分組機制,通過實時學習數據分析自動調整教學節奏與內容密度。這種分層遞進的策略既符合GenAI技術的應用邊界,又能有效控制教學規模擴大帶來的干擾。
4合理設計GenAI教學實踐干預次數和時長
研究結果顯示,多次GenAI干預較單次干預更能顯著提升學習效果。原因可能在于學生需要時間適應GenAI工具、逐步掌握使用方法并將其整合到學習過程中,形成良性循環,而單次干預難以改變學習習慣或認知模式[45]。例如,在 Denny等[4]的研究中,隨著學生對 GenAI的使用熟練度提高,其學業成績也隨之上升。盡管GenAI對學生學習效果的影響在不同干預時長下沒有顯著差異,但其效應量變化趨勢揭示了關鍵的時間窗口:持續時間不到1周的干預效果有限,這可能是因為沒有為學生提供足夠的時間來充分使用GenAI并從中受益,或者這些研究大多在實驗室環境進行,沒有反映真實世界的學習環境,導致學習成績提升有限[47][48]。 1~4 周可能剛好平衡了工具熟悉和深度應用;超過4周則可能因新鮮感消退、動機降低或過度依賴GenAI降低認知水平和思維能力導致效應衰減[49][50][51]。這意味著在使用GenAI進行教學和學習時,干預時間既不能太長也不能太短,應盡可能允許學習者在合適的時間使用,使學習者逐步完成從技術適應到認知重構的轉變。例如,將GenAI應用于寫作中可以設計為持續4周的學習活動,包括“范文分析(1周)、對比改寫訓練(2周)、自主創作評估(1周)”三個環節,避免因任務持續性不足或工具新鮮感消退導致學習效果下降;同時可設置GenAI使用閾值,如限制單日對話次數和時長,防止依賴。此外,少部分未明確匯報干預時長的研究卻呈現中等偏大的效應量,后續研究應注重規范記錄干預參數和設計細節,以便后續研究跟蹤分析。
5強化GenAI應用方式與具體情境適配
不同的GenAI應用方式對學習效果的影響各異,需要根據具體教學情境靈活選擇并優化應用策略,以最大化其對學生學習的促進作用。會話交互被廣泛應用并展現出中等偏大的效應量,可能的原因是能夠模擬真實的學習互動場景,提供即時反饋和個性化指導,從而增強學生的參與度和學習動力[52]。評估反饋作為GenAI應用的一種重要方式,其效應量相對較小,可能是當前的評估反饋機制尚不完善,難以全面、準確地反映學習者的學習情況和需求[531]。未來需要不斷創新評估方法,優化反饋機制,使其更加貼近學習者的實際需求,為學習者提供更加精準、有效的學習指導。內容生成方式通過自動化生成學習材料,能夠為學生提供豐富多樣的學習資源,但其具有中等偏小的效應量,可能受到生成內容的質量、適用性和學生先前經驗等因素的影響[54]。混合應用方式則展現了中等偏大的效應量,表明將GenAI技術以多種形式整合到教學中,能夠綜合發揮不同應用方式的優勢。然而,混合應用也要求教育者具備更高的技術整合能力和教學設計能力,以充分發揮不同方式之間的協同效應,確保技術之間有機融合,實現教育價值。
四研究不足與展望
本研究也存在一定的局限性。首先,研究范圍僅關注了GenAI對學生學習效果的影響,未來可以納入更廣泛人群的研究(如特殊教育人群、成年人等),并增加對非認知結果的關注,如情感(自我效能、學習動機、滿意度等)和行為,這些變量不僅會影響學習者的即時學習成果,更關乎其長遠發展,對全面理解GenAI 的教育影響也至關重要。其次,元分析研究的調節變量選擇會受到納入文獻及其匯報信息的影響,目前GenAI在教育實踐中的應用還不夠成熟,關于其影響學生學習效果的實驗與準實驗研究較少,從而導致調節變量有限,隨著更多研究的積累,未來可以探索更多調節因子的影響。最后,本研究提取了一些研究中報告的多個效應量,這可能會導致效應量依賴性問題,未來可以采用三水平元分析(Three-levelmeta-analysis),不僅能夠解決同一研究中提取的效應量之間互相依存的問題,還能有效檢驗集群內隨機效應方差和集群間異質性方差,從而在保留完整研究信息的同時解決數據依賴性問題。
參考文獻
[1]張鵬,汪腸,尚俊杰.生成式人工智能與教育變革:價值、困難與策略[J].現代教育技術,2024,(6):14-24.
[2][30][54elseectsofgeeaieplaosoderuatesatieitelleneadgsel] Education Sciences, 2023,(11):1155.
[3][31]Song C,Song Y.Enhancing academic writing skillsand motivation: Assessing the efficacyof ChatGPTinA-assisted language learning for EFL students[J]. Frontiers in Psychology, 2023,14:1260843.
[4]Huang KL,LiuYC,Dong M Q,et al.Itegrating AIGC into product design ideation teaching: An empirical studyonselfefficacy and learning outcomes[J]. Learning and Instruction, 2024,92:101929.
[5]41]KosarT,OstojicD,LiuYD,tal.ComputerscienceeducationinChatGPera:Experiencesfromanexperientia programming course for novice programmers[J]. Mathematics, 2024,(5):629.
[6]孫立會,周亮.論生成式人工智能教育的主體性風險與規避——基于生成哲學的分析[J].現代教育技術,2024,(8):13-22.
[7]Peters MA,Jackson L,Papastephanou M, etal.AIand the future of humanity: ChatGPT-4, philosophy and educationCritical responses[J]. Educational Philosophy and Theory, 2024,(9):828-862.
[8]余暉,朱俊華.算法時代嵌入技術變革的教育權力關系重構[J].教育研究,2023,(11):29-41.
[9][14]BoudouaiaA,Mouas S,Kouider B.Astudyon ChatGPT-4asaninnovative approach to enhancing Englishasa foreign language writing learning[J]. Journal of Educational Computing Research, 2024,(6):1289-1317.
[10][52]李海峰,王煒.人機協同深度探究性教學模式——以基于ChatGPT 和QQ開發的人機協同探究性學習系統為例 [J].開放教育研究,2023,(6):69-81.
[11][15][53]Escalante J,Pack A,BarettA.AI-generated feedbackonwriting:InsightsintoefficacyandENstudent preference[J]. International Journal of Educational Technology in Higher Education,2023,20:57.
[12][7][2][34]羅恒,廖小芳,茹琦琦,等.生成式人工智能支持的教師評語研究:基于初中數學課堂的實踐探索[J].電化教 育研究,2024,(5):58-66.
[13][16]NiloyA C,Akter S,Sutana N,etal.Is Chatgpta menaceforcreative writing ability?Anexperiment[J]. Joalof Computer Assisted Learming, 2024,(2):919-930.
[18]Sallam M.ChatGPTutiltyinhealthcareeducation,research,and practice:Systematic reviewonthe promising perspectives and valid concerms[J]. Healthcare, 2023,(6):887.
[19]YanL,ShaL, ZhaoL,etal.Practicalandethcalchallengesoflrge language models ineducation: Asystematicsoping review[J]. British Journal of Educational Technology, 2024,(1):90-112.
[20]劉明,郭爍,吳忠明,等.生成式人工智能重塑高等教育形態:內容、案例與路徑[J].電化教育研究,2024,(6):57-65. [21][36][48]DengR,Jiang M, Yu X,etal. Does ChatGPTenhance student leaing?Asystematic reviewand meta-analyis of experimental studies[J]. Computers amp; Education,2025,227:105224.
[22]Lo CK,Hew KF,Jong MSY.The influenceofChatGPTonstudent engagement: Asystematic reviewand futureresearch agenda[J]. Computers amp; Education, 2024,219:105100.
[23]LyuB,LaiC,Guo J.EffectivenessofChatbots inimprovinglanguage learing: Ameta-analysisofcomparativestudes[J]. International Jourmal of Applied Linguistics, 2024,(2):834-851.
[24][45]unL,ZhouL.Does generativeartificial intellgenceimprovethe aademic achievement ofcollege students?Ametaanalysis[J]. Journal of Educational Computing Research, 2024,(7):1676-1713.
[25][44]49]ZhngL,NiJ,ZongL,etal.Teeffctivenesofartificialintellgenceonlearingacieveentandaing perception: A meta-analysis[J]. Interactive Learning Environments, 2023,(9):5650-5664.
[26]王夢倩,王帆,李敬昭,等.人工智能賦能教師專業發展的效果如何?——基于33項實驗或準實驗研究的元分析[J].現 代教育技術,2025,(5):14-22.
[27]AlNaqbiH,arounZ,Ahmed V.Enhancing work productivity troughgenerativeartificialintelligence:Acomprehensive literature review[J]. Sustainability, 2024,(3):1166.
[28]Hwang GJ, Chen NS.Editorial position paper: Exploring the potentialof generative articial intelligencein education: Applications, challenges, and future research directions[J]. Educational Technology amp; Society, 2023,(2).
[29]Cohen J.Statistical power analysis for the behavioral sciences (2nd ed.)[M]. New York: Routledge,1988:147-175. [33][35]LiH.Effects ofa ChatGPT-based flipped learning guiding appoachon learners'courseware projectperformances and perceptions[J]. Australasian Journal of Educational Technology, 2023,(5):40-58.
[37][40]和文斌,趙帥,阿不來提·瓦依提,等.基于生成式人工智能的人機協同學習更能提升學習成效?——基于20 項實驗 和準實驗的元分析[J].開放教育研究,2024,(5):101-111.
[38]Hsu MHMastering medical terminology with ChatGPandTermbot[J]. HealthEducationJournal,2024,(4):352-358. [39]Gokoglu S,Erdogdu F.The efects ofGenAIonlearning performance: Ameta-analysis study[J].Educational Technology amp; Society, 2025,(3):263-280.
[42][43]Sun D,Boudouaia A,Zhu C,et al.Would ChatGPT-facilitated programming mode impact college students' programmingbehaviors,performances,and perceptions?Anempirical study[J]. Intermational Journal of Educational Technology in Higher Education, 2024,21:14.
44 [46]DenyP,PratherJ,BeckerBA,etal.Computing educationinthe eraofgenerativeAIJ]. Communicationsof theACM, 2024,(2):56-67.
[47]Celik F,Yangin Ersanl C,Arslanbay G. Does AI simplificationof authentic blog texts improve reading comprehension, inferencing,andanxiety?Aone-shot interventioninTurkishEFLcontext[J].InternationalReviewofResearch inOpenand Distributed Learning,2024,(3):287-303.
[50]Chauhan S.Ameta-analysisof the impact of technologyonlearning efectiveness ofelementary students[J]. Computers amp; Education, 2017,105:14-30.
[51]IskederA.Holyorunholy?InterviewwithopenAI's ChatGPT[J].European JoumalofTourismResearch,2O23,34:3414.
Does the use of Generative Artificial Intelligence Help Improve Students’ Learning Outcomes?
-A Meta-analysis Based on 39 Experimental and Quasi-experimental Research Literatures
QIAN Li LI Wen-Hao[Corresponding Author] GU Ting-Xuan WANG Xiao-Han
(FacultyofArtificial IntellgenceinEducation,Central ChinaNormal UniversityWuhan,Hubei,China43009)
Abstract: Generative artificial intelligence(GenAI) technologyhasdemonstrated asignificantimpactonteachingandearing dueto itsunque generativityreativityandadaptiveproperties.However,itspractical efectonsudents’eangoutomes is controversial,threby limiting its widespread application ineducational practice.A meta-analysis method was usedto systematicallysortoutandanalyze39 experimental andquasi-experimental articles (60efectsizes)on theinfluenceofGenAI on students’leaming outcomespublished prior to June 2O24.Theanalysis revealed several key findings: GenAI exhibiteda moderately positive effect on students’ learning outcomes (g-0.623 ); GenAI can better enhance the learning outcomes of medical disciplines compared to other disciplines; The influence of GenAI on students’ learning outcomes weakened with the sample size inrease; Continuous andmultiple usesofGenAIwas more effective inenhancing students’learningthanone-time intervention,butthere wasnosignificantdiferenceacrossdiferent interventiondurations;Conversational interaction modalities outperformed other application types (content generation,assessment feedback,and blended approaches)in both prevalenceandeffectivenes; GenAI wassutiable foralleducational stages anddiferent learner groups.Basedon the above results,this study suggested to strengthen the practical effect on students’learning outcomes fromthe aspects of subject characteristics,scenediferencs,easonable intervention,andcontextadaptationtofacilitatetheimplementationofGenAI educational applications.
Keywords: generative artificial intelligence; learning effect; meta-analysis; experimental study