大型語言模型與學生在考試中的表現比較研究

2025-08-18 00:00:00凌達蓮馮詩穎陳思楠潘偉權

現代信息科技 2025年12期

中圖分類號：TP39；G434 文獻標識碼：A 文章編號：2096-4706（2025）12-0050-09

Comparative Study of Large Language Models and Student Performance in Exams -Taking Qwen asan Example

LING Dalian， FENG Shiying， CHEN Sinan， PAN Weiquan （SchoolofMathematicsandStatistics，YulinNormalUniversity，Yulin537ooo，China）

Abstract： The research focuses on the application potential of Qwen，anAI chatbot driven byLLM，ineducational assessment.Basedon2190fnalexaminationquestionsof“ProbabilityandMathematical Statistics”inauniversityfrom2019 to 2023，eighteachersdouble-blindscoretheQwen Model，theoptimized modelandthestudents'answers.Theresultsshowthat the performanceofQwen isstable in multiplechoicequestions，but thereis muchroomfor improvement intheanswerquestions. EspeciallyafterPromptEngineeringoptimization，theperformanceoftheanswerquestionsissignificantlyimproved.Teachers' scoresonAI-generatedcontentaremorestringent，andthescoresaresignificantlyaffectedbythequestiontypeandtheanswer subject.ThisstudyprovidesempiricalevidenceforAI-assistededucationalassssment，emphasizingtheimportanceofupdating standards and exploring new models.

Keywords：LLM; Qwen; educational assessment; AI-assisted learning

0 引言

隨著信息技術的迅猛發展，人工智能（AI）聊天機器人的應用在教育領域正逐漸普及。特別是生成式人工智能（GenerativeAI，GAI），它通過各種機器學習方法從大量數據中學習并生成新內容，正在改變傳統的教育模式[1]。大型語言模型（LargeLanguageModel，LLM）的進步為AI聊天機器人提供了堅實的技術基礎，使其能夠理解和生成自然語言，進一步促進了教育應用的創新與發展[。

本研究依托于大數據背景下地方高校統計類課程實踐能力培養的教學改革項目（桂教高教[2023]24號，項目編號：2023JGB329）。該項目旨在通過引入先進的教育技術手段，提升學生的實踐能力和綜合素質。作為該項目的一部分，我們選擇了阿里云開發的大型語言模型—通義千問（Qwen），來探索其在高等教育評估中的應用潛力。

Rumjau的社會學習理論（SLT）常被視為行為主義（傳統學習理論）和認知理論之間的中介。Nabavi等人后面提煉出該理論的三個核心概念：觀察學習（通過觀察，人們可以學習）、內在強化（心理狀態是學習的重要因素）、建模過程（學習不一定導致行為的改變）。Morgan[4指出，如果教師持續根據學生們在智力上的弱點來教授他們，學生會感到笨拙。Morgan[5的理論表明，如果教師的教學方法和學生的技能之間存在不匹配，很可能會發生負面結果。多元智能理論強調每個學生都有獨特的智能類型，AI聊天機器人可以根據個體差異提供定制化的學習支持[4]。

這些原則表明，AI聊天機器人可以通過模擬教師反饋和同伴學習經歷，幫助學生獲得不同的視角和解答策略，從而促進合作學習和知識共享。近年來，盡管教育領域對AI聊天機器人的研究逐漸增多，但這些研究大多仍處于早期階段，特別是在高等教育評估方面的實證研究較為缺乏[。特別是在K-12教育領域中，已有研究表明AI聊天機器人在教學中的應用前景廣闊，但仍需更多實證研究來驗證其效果[]。因此，亟須更多實證數據來探討AI聊天機器人在教育環境中的影響、挑戰和風險。

IDC發布的《AI大模型技術能力評估報告2023》[8]顯示，阿里通義千問、百度文心一言、科大訊飛星火等AI在多項技術指標上表現優異，這標志著AI技術的發展已經達到了一個新的高度，能夠為教育領域帶來前所未有的機遇。其中，阿里通義千問以其廣泛的知識、強大的中文理解能力和出色的對話連貫性脫穎而出，能夠處理復雜的成語、俚語及文化背景問題，提供符合中文習慣的回答。

PromptEngineering是一門相對較新的學科，指的是開發和優化提示（prompts）的實踐，以有效利用大型語言模型，尤其是在自然語言處理任務中[

基于通義千問在中文語言理解和處理方面的優勢，以及其在教育場景中的廣泛應用潛力，本研究選擇以阿里通義千問（版本號：Qwen2.5，發布日期：2024年9月19日）為研究對象，系統考察人工智能（AI）聊天機器人在高等教育評估中的應用效果及其對教師評估實踐的影響。

具體而言，本研究聚焦以下4個核心問題：

1）教師在評估不同答題主體（學生、AI）的不同題型答案時，其評分標準和評估行為是否存在顯著差異？2）通義千問在經過prompts后，其答題表現是否發生顯著變化？這種變化在不同題型中是否表現出差異性？3）在相同題型和評分標準下，學生答案與AI生成答案的得分是否存在系統性差異？這種差異的具體表現和可能原因是什么？4）題型特征（選擇題、填空題、解答題）和答題主體（學生、AI學習前、AI學習后）這兩個因素如何交互影響最終的評分結果？

通過對這些問題的系統研究，本研究旨在為AI技術在教育評估中的應用提供堅實的實證依據，為教育實踐者提供有價值的參考和建議，以共同推動教育領域的創新與發展。同時，希望通過這種綜合性的探索，更好地理解AI聊天機器人在教育評估中的角色和潛力，指導未來教育技術的發展方向，促進更加個性化、高效的教學方法的形成。

1理論框架與技術基礎

1.1生成式人工智能概述

生成式人工智能是通過各種機器學習方法從數據中學習對象的特征，進而生成全新的、完全原創的內容（如文字、圖片、視頻）的人工智能[10]。

大型語言模型是一種基于深度學習算法的自然語言處理模型，LLM通常在大量文本數據上進行訓練，從而能夠理解、生成和處理人類語言[1]。

2022年11月上線的ChatGPT（ChatGenerativePretrainedTransformer）是由美國人工智能實驗室OpenAI開發的人工智能聊天機器人應用[1]，迅速引發了關于其對教育潛在影響的廣泛討論。ChatGPT的優勢在于其能夠生成合理的答案，并具備自我改進能力，提供個性化和實時的響應。這些特點提升了信息獲取的便利性，促進了個性化學習，減輕了教師的工作負擔，提高了教育效率。然而，它也存在一些劣勢，如缺乏深層理解、難以評估回應質量、存在偏見風險，以及缺乏較高階的思維技能等[12]。

1.2AI聊天機器人在教育中的應用

Pradana和Elisa通過文獻計量分析和系統文獻綜述，評估了關于OpenAIChatGPT在教育中使用的現有研究。自2022年至2023年間，相關主題的研究文章數量顯著增加。網絡分析繪制的研究集群圖譜表明，“挑戰”“教學”和“知識”等關鍵詞尚未得到充分研究[13]。

以ChatGPT為代表的通用大模型在教育行業快速普及，可能引發教育的系統性變革乃至生態重構[14]。學生作為教育的主體，其知識體系和思維邏輯結構的培養至關重要[15]。2024年，Huang等 ^[16]4 位學者構建了由AI認知、AI技能、AI應用、AI倫理四大部分組成的人工智能素養（AIL）教育內容框架，為我國AIL教育活動的開展提供了參考。

生成式人工智能能夠在學習前幫助教師設定學習目標、提供個性化資源和推薦學習策略，在學習過程中進行指導、回答問題和提供建議，以及在學習后幫助教師評估學習效果、進行自我反思和規劃進一步的學習行動[17]。

Farazouli等人[8]的研究探討了AI聊天機器人對大學教師評估實踐的影響，發現教師在評分學生編寫的文本時表現出降級的模式，即對學生文本的評估更加嚴格；聊天機器人生成的文本的通過率在 37.5% 到85.7% 之間，教師對AI生成文本的懷疑率則在 14% 到 23% 之間。這表明教師在面對AI生成內容時更趨于謹慎。這一發現強調了教師在面對AI生成文本時的挑戰，尤其是在維護學術誠信方面。

為了應對AI快速解答學術問題帶來的潛在作弊風險，有學者建議教育機構制定清晰政策，設計限制AI生成文本的評估方式，以維護學術誠信并減輕技術的負面影響[19]。

1.3研究缺口與技術選擇理由

Qwen（通義千問）是一個全面的語言模型系列，包含具有不同參數數量的不同模型。它包括Qwen（基本預訓練語言模型）和Qwen-Chat（使用人工對齊技術微調的聊天模型）。基本語言模型在眾多下游任務中始終表現出卓越的性能，而聊天模型，尤其是那些使用來自人類反饋的強化學習（RLHF）訓練的聊天模型，具有很強的競爭力[20]。

關于通義千問（Qwen）在高等教育中的應用，目前尚缺乏系統研究。隨著生成式AI技術的快速發展，教育者需要不斷適應新技術，調整評估標準和方法，同時加強對學生批判性思維和原創思維能力的培養。

總之，生成式AI在教育領域的應用為教師評估實踐帶來了重大影響，既是機遇也是挑戰。教育者應積極應對這些變化，以確保教育質量和學術誠信。

2 研究方法

2.1 研究設計

本研究采用系統化的實驗設計，旨在有效評估AI技術在教育評估中的應用效果。該設計包括測試題選擇與準備、評分環節、數據收集及分析等環節。

2.2測試題選擇與準備

測試題選自中國某高校數學與統計學院不同專業2019一2023五個學年的第一學期《概率論與數理統計》課程期末考試真題，共計2190道題目。這些題目涵蓋了選擇題（840道）、填空題（1020道）和解答題（330道），分別考察學生的知識記憶、理解應用和綜合分析能力。其中，解答題根據難易程度，分為10分制與12分制兩種。所有題目均由該課程的任課教師審核，確保其能有效測量學生的學習目標和知識點掌握情況。

2.3 評分環節

為提高評分可靠性，研究制定了明確的評分標準：

選擇題和填空題的標準為答案與標準答案完全一致則得分；解答題參考了教材中的標準答案和評分細則，根據答案的完整性、準確性和邏輯性評分。（例如，對于一道10分的解答題，如果答案完全正確且邏輯清晰，則得10分；如果答案部分正確，則根據答對的知識點數量酌情給分；如果答案完全錯誤或邏輯混亂，則得0分。）

為減少評分主觀性，研究采用雙盲評分方式：

評分由8位具有至少7年教學經驗的副教授及以上職稱的統計專業教師執行。評分過程中，評分者不知道答案的來源（如學生、基準模型、使用基于教材內容的PromptEngineering后的模型）。每道題目的最終得分為8位評分者的平均分。若評分標準差大于平均分一倍標準差，則引入仲裁機制，在評分過程中如出現爭議時，由第9位資深教師進行最終裁決，以確保評分結果的可靠性。

2.4 數據收集

研究設計了三種回答類型：學生回答、基準模型回答和使用基于教材內容的PromptEngineering后的模型回答，以分析學生與AI的表現。

學生回答來自國內某高校數學與統計學院在2019一2023五個學年《概率論與數理統計》課程期末考試的隨機2190份真實考試答卷；基準模型回答是將測試題目直接輸入未經任何提示處理的通義千問模型得到的回答；基于教材內容PromptEngineering后的模型回答則是將測試題目與教材內容相結合構建Prompt（Prompt的構建方法詳見2.5），輸入通義千問模型得到的答案。所有答題數據均以文本形式保存，并進行匿名化處理，保護學生隱私。

2.5PromptEngineering方法使用說明

研究采用了一種基于教材內容的PromptEngineering方法來探究通義千問在高等教育評估中的應用效果。具體而言，每個測試問題都構建了一個包含“指令”“上下文”和“問題”的Prompt。“指令”指導模型根據提供的教材內容回答問題；“上下文”摘錄自相關章節，通常包含知識點的定義、解釋和例證等，不對原文進行改寫或概括，進行適當精簡，保留核心內容，內容長度控制在600字以內；“問題”即具體的考試題目。通過這種方式，確保模型能夠利用相關信息生成更精準的答案。

Prompt示例：

請根據以下提供的《概率論與數理統計》教材內容，回答問題：

內容：輸入具體章節內容，如第三章 XXX理論/方法…（教材原文）

問題：某保險公司把被保險人分為三類：“謹慎的”“一般的”“冒失的”。統計資料表明，上述三種人在一年內發生事故的概率依次為0.05，0.15和0.30。如果“謹慎的”被保險人占 20% ，“一般的”占 50% ，“冒失的”占 30% ，現知某被保險人在一年內出了事故，則他是“謹慎的”的概率是多少？

答案：輸出……

2.6 數據分析

使用單因素和雙因素方差分析（ANOVA）檢驗變量間的顯著差異，并通過Tukey的HSD測試進行多重比較，識別各組間差異及其對評分的影響。此外，還將探討題型特征與答題主體之間的交互影響，以及這些因素如何共同作用于最終評分結果。

3 研究結果

3.1樣本特征與描述性統計

ICC（IntraclassCorrelationCoefficient）是評估多個評分者之間評分一致性的一種統計方法。值的范圍從0到1，其中0表示沒有一致性，1表示完全一致。ICC越高，評分者間的一致性越強。

本研究共分析了2190項考試記錄，包括學生作答）、通義學習前作答（ n=45 ）和通義學習后作答（ n=45 ）三種類型。評分者（ n=8 ）對三類題型（選擇題、填空題、解答題）進行了評估。評分者間信度系數（ICC）為0.85，表明評分具有較高的一致性。

各組在不同題型上的得分分布如表1所示。

表1各組在不同題型上的得分情況（Mean±SD）

在三種題型的表現上，學生組的得分都是最低的，這說明相較于通義學習前和學習后的表現，學生在沒有額外學習支持的情況下，對題目理解和解答的能力相對較低。這一現象可能反映了傳統教學模式下，學生僅靠課堂學習和自我復習難以達到較高的掌握水平，尤其是在復雜問題解決能力方面。

針對選擇題和填空題，通義學習前的得分比學習后高，這可能是因為評估時間點的不同。通義學習前的數據可能捕捉到了學生剛接觸新內容時的記憶效果較好，而通義學習后的數據則反映了通義在學習過程中引入了更具挑戰性的練習，使得其在簡單題型上的得分有所下降，但這并不意味著他們實際能力的退步，而是訓練難度增加的結果。

針對解答題，通義學習后的得分顯著高于學習前，這確實說明經過學習，通義提高了對解答題的理解和應用能力，思路更加清晰。這種提升表明，通義學習鞏固了基礎知識，還增強了分析問題、解決問題的綜合能力，特別是在需要更深入思考和創造性思維的解答題上，展現出更高的解題水平。

3.2評分者評估差異分析

單因素方差分析用于比較三個或三個以上樣本均值之間的差異。它檢驗因變量在不同組別之間是否存在顯著差異。值反映組間方差與組內方差的比值， F 值越大，表示組間差異越顯著； p 值用于評估結果的統計顯著性，通常， plt;0.05 被視為統計顯著； η² 為效應量，表示一個因素對因變量總體變異的解釋程度。值的范圍通常在0到1之間，值越大，表示效應越顯著。

評分者在評估不同答題主體時表現出顯著差異。單因素方差分析結果顯示，評分者對通義基準模型后的答案評分差異顯著（F（2， 327）=142.58 ， plt;.001 ，η²=0.47 ）。具體而言：

1）通義基準模型答案評分（總分12分時）： F ?=4.29 ， plt;.001 ， η²=0.31 2）通義基準模型答案評分（總分10分時）： F =10.59 ， plt;.001 ， η²=0.39 3）通義基于教材內容的Prompt Engineering 后的模型答案評分（總分12分時）： F=10.36 ， plt;.001 ，η²=0.38 4）通義基于教材內容的Prompt Engineering后的模型答案評分（總分10分時）： F=9.14 ， plt;.001 ，η²=0.35

在評分過程中，共有47次（（2.1%）% ）觸發仲裁機制，其中42次（ 89.4% ）通過第四位評分專家的介入達成一致。

3.3通義學習效果分析

為了進一步探討不同題型對評分結果的影響，本研究進行了ANOVA分析與Tukey'sHSD測試。不同題型在各回答類型中的得分分布情況如表2所示。

表2解答題ANOVA分析

由于顯著性 F 值很高，可以得出結論，回答類型間存在顯著差異。表2分析結果表明，不同的回答類型對結果產生了明顯的影響

通過Tukey'sHSD測試，結果如表3所示，學生的回答與通義學習前和通義學習后的回答差異顯著，但通義學習前與后之間的差異不顯著。

表3解答題Tukey'sHSD測試

可以推測，學生在回答時可能與通義差異較大，但是通義學習本身在這兩組間的提升效果并未顯著。

ANOVA結果如表4所示，不同的回答類型之間存在顯著差異，支持教育評估設計與回答方式的影響。

表4選擇題ANOVA分析

通過Tukey'sHSD測試，結果如表5所示，反映學生的回答高于通義學習前的回答，而通義學習后的回答與學生回答相比未表現出顯著性差異，說明通義學習的效果可能有限。

表5選擇題Tukey'sHSD測試

在教育評估中，應優先考慮如何提升學生的回答水平，同時檢討通義學習的有效性和內容。

ANOVA結果如表6所示，不同的回答類型之間存在顯著差異，特別是學生在回答時顯著高于其他組別。

表6填空題ANOVA分析

通過Tukey'sHSD測試，結果如表7所示，學生回答顯著優于通義學習前和后回答，而通義學習前回答低于通義學習后回答，表明通義學習可能對成績有一定影響，但相比之下，學生的表現更優異。

表7填空題Tukey'sHSD測試

教育者在設計課程時應關注如何提升學生的回答能力，同時檢討通義學習內容，進一步提高其效果。

3.4 答題主體比較分析

為了評估學生回答、通義學習前后的結果得分是否存在差異，本文進行了箱線圖和散點圖分析，如圖1所示。通義經過學習后，與學生回答，通義學習前回答相比，回答質量提升的分析如圖2和圖3所示。

圖1解答題箱線圖與散點圖

在分數為12分的解答題中，學生的回答表現較為穩定且評分一致，但存在一定的波動；通義在學習前的回答質量不穩定，評分波動較大，而在學習后評分更加集中和一致，表明學習后顯著提升了通義的回答質量，學習后對通義的回答表現有顯著的正面影響。

在分數為10分的解答題中，學生們的回答表現較為穩定，評分較為一致，但存在一定的波動；通義在學習前的回答表現不穩定，評分波動較大；通義在學習后，回答質量顯著提升，評分更加一致，波動范圍減小，表明學習后對通義的回答質量有顯著的正面影響。

從箱線圖中可以看出，不同回答類型的中位數（箱線圖中的橫線）大致相同，表明不同回答類型的得分中位數相近；不同回答類型的IQR（箱體的長度）有所不同，表明不同回答類型的得分分布范圍有差異。

從散點圖中可以看出，學生回答得分較低，相比之下，學生回答整體上分布在較低的得分區間，表明這些回答的得分普遍較低；通義學習后回答得分較高：與通義學習前回答相比，通義學習后回答整體上分布在較高的得分區間，表明通義學習后回答的得分普遍比學習前回答得分高。

3.5 題型特征影響分析

交互作用用于描述兩個或多個變量之間的交互關系如何影響因變量。這可以揭示更復雜的關系和效應。

如表8所示，所有因素（題目類型、回答類型及其交互作用）均對結果顯著影響。所有相關的 p 值都遠小于0.05，表明統計上的顯著性。教育和評估設計中，應考慮題目類型和回答方式的影響，根據這些結果可以針對性地優化教學方法和目標。

表8不同題型間回答類型的方差分析1

如表9所示，所有因素（題目類型、回答類型及其交互作用）對結果具有顯著影響。所有相關的 p 值都遠小于0.05，表明統計顯著性。高 F 值和小 p 值表明模型有效地解釋了數據的變異，并揭示出因素之間的關系。

表9不同題型間回答類型的方差分析2

表10顯示所有因素（題目類型、回答類型及其交互作用）均對結果有顯著的影響，所有相關的 p 值都遠小于0.05，表明這些因素在統計上是重要的。高F 值和極小的 p 值揭示了不同因素之間的關系。在后續的教學與評估的設計中，應根據結果優化題目類型與回答類型的選擇，以提高評估的有效性和可靠性。

表10不同題型間回答類型的方差分析3

4 討論與分析

4.1 研究發現及意義

本研究通過系統化的實驗設計與嚴謹的數據分析，探討了通義千問在高等教育評估中的應用效果及其對教師評估實踐的影響。研究表明，AI技術的發展給傳統教育評估體系帶來了新的挑戰和機遇。

首先，教師在評估AI生成內容時的顯著評分差異 ΔICC=0.85 ）揭示了當前教育評估標準在應對AI內容方面的適應性問題。這表明隨著AI技術的進步，傳統的教育評估方法需要調整或重新設計以更好地適應新工具。

其次，通義千問在不同題型中的表現差異為考試設計提供了重要參考。例如，在選擇題中表現出最高的穩定性（ CV=0.15 ），而在解答題中顯示最大的變異（ CV=0.28 ）。其中，變異系數（CV）是描述數據離散程度的無量綱統計量，通常用于比較不同數據集的相對變異程度。這一發現提示我們在設計試題時應考慮AI的能力特點，合理分配題型比例，以確保評估的有效性和公平性。

此外，通義千問展現出顯著的學習能力，特別是在填空題中的出色表現（），證實了其自適應學習潛力。這不僅展示了AI處理特定類型題目上的潛力，也為未來教育技術開發提供了方向。

最后，題型特征和答題主體之間的顯著交互作用（F（4， 1 454）=37.79 ， plt;.001 ）強調了評估任務性質對AI系統表現的重要影響。這意味著，在設計AI輔助教學工具時，需考慮不同類型題目對學生和AI的不同要求，從而優化教學資源配置。

4.2應用前景與教育評估實踐啟示

通過對通義千問在高等教育不同題型中的表現分析，我們發現AI系統在處理基于事實記憶和模式識別的選擇題方面表現出較高的準確性。然而，在涉及深層次理解、批判性思維和創造性思維的任務中，其表現相對受限。這一發現提示我們需要在利用AI輔助教學時平衡使用，尤其是在培養學生的高階思維能力方面。

并且，通過對通義千問學習前后表現的對比分析發現，其在經過學習后的答題質量顯著提升，這一結果為AI系統的自適應學習能力提供了實證支持。這種進步不僅體現在答案的準確性上，更反映在答案的邏輯性和連貫性方面，這與現代教育評估理論中強調的高階思維能力的培養目標形成了有趣的對照。未來的研究可以進一步探討如何通過改進AI的學習算法，使其更好地模擬人類的認知過程，從而提高AI在復雜任務中的表現。

同時，研究結果對當前高等教育評估體系提出了深刻挑戰。教師面對AI生成內容時采用更嚴格的評分標準，可能反映了對AI技術的認知偏差和專業判斷的調適過程。因此，更新評估標準、優化考試設計顯得尤為重要。教育者在設計評估方案時，應當根據評估目的合理配置不同類型的試題，特別是在考察學生的深層理解能力和創新思維時，可以適當增加解答題的比重，通過題型的差異性來更好地區分學習者的真實能力水平。

AI在不同題型中的表現差異為考試設計提供了新的思路。建議根據評估目的合理配置不同類型的試題，特別是在考察深層理解和創新能力時，適當增加解答題的比例，以便更好地區分學生的真實能力水平。

此外，考慮到AI系統的穩定性和學習能力，教育機構可以探索將AI輔助評估與傳統評估方法結合的混合模式，提高評估效率的同時確保全面性和準確性。這種創新不僅能減輕教師負擔，還能提供及時、個性化的學習反饋。

4.3 研究局限性

盡管取得了一些重要發現，本研究仍存在局限性。

在樣本代表性方面，本研究的評分教師樣本規模相對有限（），雖然這些教師都具備豐富的教學經驗和較高的職稱，但樣本規模的限制可能影響結果的推廣性。同時，學生樣本僅來自單一院校，這可能無法充分反映不同教育背景和學習水平的學生群體特征，可能影響結果的推廣性。

研究的時效性同樣值得關注。鑒于AI技術的快速發展特征，本研究基于特定版本通義千問的發現可能會隨著技術的更新而發生變化。AI模型的持續優化和升級可能帶來性能的顯著提升，這使得研究結論的適用期限面臨挑戰。這一局限性也提示我們在解釋和應用研究結果時需要考慮時間因素的影響。

在評估維度方面，本研究主要聚焦于量化評分的分析，對評分過程中的質性特征關注相對不足。雖然統計分析揭示了顯著的評分差異，但未能深入探究教師在評估過程中的認知決策機制。這種局限性使我們可能忽略了一些重要的質性因素，如教師的評估思維過程、專業判斷的形成機制等。此外，研究未能充分考察評分標準在不同情境下的適用性，這可能影響評估結果的解釋效度。

這些局限性不僅提示我們在解釋研究結果時需要保持謹慎，同時也為未來研究指明了改進方向。后續研究可以通過擴大樣本規模、增加研究場景的多樣性、深化質性分析等方式，進一步提升研究的科學性和實踐價值。

5結論

綜上所述，本研究為AI技術在教育評估中的應用提供了實證依據，揭示了教育體系面臨的挑戰與發展方向。這些研究成果將有助于指導教育實踐者和技術開發者共同努力，推動教育領域的創新與發展。

同時，明確指出研究的局限性也為未來的研究提供了改進的方向，為進一步的研究奠定了基礎。通過不斷優化AI系統的設計和應用策略，我們可以期待一個更加個性化、高效且公平的教育未來。

參考文獻：

[1]JURAFSKYD，MARTINHJ.Speech and Language

Processing：An Introduction to Natural Language Processing，

Computational Linguistics，and Speech Recognition with Language

Models[M/OL].[2025-01-02].https：//web.stanford.edu/～jurafsky/slp3.

[2]RUMJAUNA，NARODF.Social LearningTheory—

AlbertBandura [M].ScienceEducationin Theoryand Practice：

AnIntroductory Guide to Learning Theory，Cham：Springer，

2025：85-99.

[3]NABAVI R T.Bandura's Social Learning Theory and

SocialCognitiveLearning Theory[J].TheoryofDevelopmental

Psychology，2012，1（1）：1-24.

[4]MORGAN H.Howard Gardner's Multiple Intelligences

Theory and his Ideas on Promoting Creativity [M]//REISMAN

F. Celebrating Giants and Trailblazers： A-Z of Who’s Who

in Creativity Research and Related Fields.London：KIE

Publications，2021：124-141.

[5] MORGAN H. Maximizing Student Success with

Differentiated Learning [J].the Clearing House：A Journal of

Educational Strategies，Issues and Ideas，2014，87（1）：34-38.

[6] HWANG G J， CHANG C Y. A Review of Opportunities

and Challenges of Chatbots in Education [J].Interactive Learning

Environments，2023，31（7）：4099-4112.

[7] CHIU T K F，MOORHOUSE B L，CHAI C S，

et al. Teacher Support and Student Motivation to Learn with

Artificial Intellgence （AI） Based Chatbot [J].Interactive Learing

Environments，2024，32（7）：3240-3256.

[8] IDC.AI 大模型技術能力評估報告 [R/OL].[2025-6-11].

https：//www.idc.com/getdoc.jsp？containerId=CHC49698923.

[9] GIRAY L. Prompt Engineering with ChatGPT： A Guide

for Academic Writers[J].Ann Biomed Engineering，2023，51（12）：

2629-2633.

[10] GARTNER.5 Impactful Technologies from the Gartner

Emerging Technologies and Trends Impact Radar for 2022 [EB/

OL].（2021-12-08）[2025-06-11].ttps：//www.gartner.com/en/

articles/5-impactful-technologies-from-the-gartner-emerging-

technologies-and-trends-impact-radar-for-2022.

[11]喻國明，蘇健威.生成式人工智能浪潮下的傳播革命

與媒介生態——從ChatGPT到全面智能化時代的未來[J].新

疆師范大學學報：哲學社會科學版，2023，44（5）：81-90.

[12] FARROKHNIA M，BANIHASHEM S K，NOROOZI O，

et al.A SWOT Analysis of ChatGPT： Implications for Educational

Practice and Research [J].Innovations in Education and Teaching

Intermational，2024，61（3）：460-474.

[13] PRADANA M，ELISA HP，SYARIFUDDIN S.

Discussing ChatGPT in Education：A Literature Review and

Bibliometric Analysis [J].Cogent Education，2023，10 （2）：

2243134.

[14]吳砥，吳河江.通用大模型教育應用的潛在風險及其

規避一一基于技術倫理的視角[J].華東師范大學學報：教育科

學版，2024，42（8）：64-75.

[15]施周龍，趙飛燕.生成式人工智能賦能教育轉型發展

的思考[J].教育進展，2024，14（5）：950-956.

[16] HUANG R，SHI L Y.Content Framework for

Artificial Intelligence Literacy Instruction in China from a Global

Perspective [J].Documentation， Information and Knowledge，

2024，41（3）：27-37.

[17] 汪晨，劉永貴.基于生成式人工智能的教師自主學習

模式探究- -以ChatGPT為例[J].軟件導刊，2023，22（11）：

219-225.

[18]FARAZOULI A，CERRATTO-PARGMAN T，

BOLANDER-LAKSOV K，et al.Hello GPT！Goodbye Home

Examination？ An Exploratory Study of AI Chatbots Impact on

University Teachers' Assessment Practices [J].Assessment and

Evaluation in Higher Education，2024，49（3）：363-375.

[19] ADESHOLAI，ADEPOJU A P. The Opportunities

and Challenges of ChatGPT in Education [J].Interactive Learning

Environments，2024，32（10）：6159-6172.

[20]BAIJ，BAIS，YANGS，etal.Qwen-VL：AVersatile Vision-LanguageModel forUnderstanding，Localization，Text Reading，and Beyond[J/OL].arXiv：2308.12966[cs.CV].[2025-06- 11].https：//arxiv.org/abs/2308.12966.

作者簡介：凌達蓮（2004.05一），女，漢族，廣西北流人，本科在讀，研究方向：統計學；馮詩穎（2004.05一），女，漢族，江蘇淮安人，本科在讀，研究方向：統計學；陳思楠（2001.10—），女，漢族，廣西浦北人，本科在讀，研究方向：統計學；通信作者：潘偉權（1980.12—），男，漢族，廣西平南人，副教授，博士，研究方向：統計學、概率論與數理統計等課程教學與研究。