
【摘 要】本研究旨在以生成式人工智能技術為例,探索大模型在題目生成、測量學分析、自動評分和過程性評價等關鍵教育測量與評價領域的變革和應用。通過對大模型的應用實例進行綜合論證、分析,意在揭示其在教育測量與評價中的應用效能,從而推動對該技術的進一步研究和討論。
【關鍵詞】大模型;教育測量與評價;生成式人工智能
【中圖分類號】G434" "【文獻標志碼】B
【論文編號】1671-7384(2024)05-012-03
在當前社會的數字化轉型過程中,人工智能(AI)已成為不可或缺的力量。特別是AI大模型,以其高級的自動化執行任務、深刻的語義理解、創新的輸出生成、精確的邏輯判斷以及處理大規模數據的能力,正在從根本上改變我們生活的各個方面[1]。生成式人工智能,作為一種能夠基于自然語言提示(Prompt)自動產生回應內容的AI技術[2],進一步深化了大模型的應用范圍,尤其是在變革教育測量與評價這一復雜領域的潛能上。盡管在該領域應用AI的例子屢見不鮮,但以生成式人工智能技術為核心的大模型在這一領域的變革潛力、實踐過程及應用效果的深入研究仍然缺乏。基于此,本研究嘗試從題目生成、測量學分析、自動評分和過程性評價四個方面系統地審視AI大模型對教育測量與評價領域的變革,全面評估大模型的潛力和面臨的挑戰。
大模型在題目生成中的應用
在教育評估領域,題目生成是核心環節之一,其質量直接影響評估的有效性和準確性。傳統的題目生成過程往往依賴于教師或專家的經驗和創造力,不僅耗時耗力,而且在題目的多樣性、創新性及個性化方面存在局限。大模型的高度智能化和自動化能力使得這一過程得到顯著改善和加速,其能夠基于廣泛的知識庫生成各類型、各難度級別的題目,同時提供更高效、更個性化的題目創作解決方案。
在生成常規題目方面,大模型能夠基于預設的知識點快速生成題目,如選擇題、填空題等,這類題目是檢測學生對基礎知識掌握情況的重要方式。大模型的應用顯著提高了題目生成的效率和多樣性,降低了人工編題的時間成本。生成此類題目時,用戶需要提供清晰的知識點和期望的題型。
在生成分層類題目方面,針對不同能力層次的學生,大模型可以定制生成分層類題目,以實現教學的個性化。這一應用幫助教師針對學生的不同理解程度提供相應難度的練習題,優化學習路徑。在生成分層題目時,需指定知識點及不同難度級別的描述。因此,要確保難度分級的合理性,以及分層題目涵蓋知識點的全面性。
在生成探究類題目方面,大模型能夠根據最新研究和情境,生成旨在培養學生批判性思維和解決問題能力的探究性題目。這種應用促進了學生的深度學習,鼓勵學生超越傳統的記憶式學習。生成探究性題目時,用戶需要提供探究的主題和目的,確保題目具有開放性,能夠激發學生的思考和探索。
下面通過教師與大模型的對話進行實例展示。教師:“我需要一組圍繞‘生態系統的能量流動’主題的分層題目,從基礎知識到應用分析?!贝竽P停骸盎A層次,我生成了一道選擇題‘在生態系統中,能量的傳遞順序是?’;中級層次,是一道簡答題‘解釋食物鏈中每個環節能量傳遞的效率問題’;高級層次,則是一道探究題‘設計一個實驗,來研究不同生態系統能量流動的差異’?!?/p>
教師:“對于高級層次的探究題,我希望增加跨學科的要求,比如結合數學建模。”大模型:“理解了,我生成這樣一個問題‘使用數學模型來預測和比較兩個不同生態系統能量流動的效率,并解釋可能導致差異的生態因素’?!?/p>
從表現來看,大模型在題目生成時具有靈活性和實用性,不僅能根據教師的需求快速生成不同類型的題目,還能夠根據具體要求調整題目難度和內容,展現了其在教育領域的巨大潛力。為確保題目的質量和準確性,生成后的題目應通過專家或教師進行審核。
大模型在測量學分析中的應用
測量學分析是保證工具質量的關鍵。從數據層面看,往往需要關注難度系數、區分度系數、內部一致性系數、效標相關等指標;從內容層面看,還需要關注工具的內容效度,判斷工具是否能夠充分反映所測構念。大模型能夠幫助初學者了解測量學分析的相關原理、步驟和解釋方法等,并輔助對內容效度做出初步判斷(以PISA的閱讀元認知策略的測評題目為例),實例展示如下(相關語句經過提煉總結)。
例1:輔助開展測量學分析
用戶:“你能告訴我計算克隆巴赫系數的SPSS語句和R代碼嗎?”
大模型:
“SPSS語句:Reliability
/VARIABLES=var1 var2 var3 var4 var5 var6 var7
/SCALE('All variables') ALL
/MODEL=ALPHA.
R 代碼:
library(psych)
data lt;- read.csv(\"data.csv\")
alpha(data)”
用戶:“我從SPSS得到的克隆巴赫系數為 0.909,我該如何解釋它?”
大模型:“通常,克隆巴赫系數高于0.7被認為是可接受的,高于 0.8表示良好的內部一致性?!?/p>
例2:輔助開展內容效度評估
用戶:“幫我評估這道測量學生閱讀元認知的題目‘快速瀏覽兩遍文章’?!贝竽P停骸霸擃}項不能提供有關文本理解詳細程度的信息。該項目的有效性取決于閱讀的目的以及文本的類型和復雜性。該項目沒有明確表明學生是否理解了文章。更好的題目是‘我快速通讀了兩遍文本,可以識別主要思想和支持細節’?!?/p>
從表現來看,大模型所提供的建議能夠幫助初學者迅速熟悉相關分析的操作方法,為評估內容效度提供參考。但其給出的建議也存在誤區,需要謹慎對待,如信度高低的判斷標準事實上與工具的應用場景有關,在高利害測驗的情景下,大模型給出的判斷標準并不適用,以及所給出的題目修改意見包含多重表述。
大模型在自動評分中的應用
自動評分是將被試在測驗中的表現自動轉換為分數的過程。自動評分的研究熱點集中在較為復雜的作文評分等任務上,大模型在這方面具有強大的潛力。表1展示的是人類和大模型對三篇作文的評分差異。在這三個有限樣本中,大模型在每個維度上的評分和人類評分者相比分差最大為1分,考慮到人類評分者之間也可能存在差異,這在容忍范圍內。
表1" 人類和大模型的評分對比
人類
評分 大模型
評分 人類基于維度的評分 大模型基于維度的評分
3 4 1;1;1;0 1;1;1;1
6 7 2;2;1;1/1;2;2;1
(兩位人類評分者) 2;2;1;2
12 9 3;3;3;3 2;2;2;3
大模型不僅能夠提供總分,還能提供每個維度的分數,并給出一些評分原因。例如,它對第二篇文章的評論如下。
主題(2分):作者講述了一個關于制作一款游戲的故事,主題鮮明,但還需要添加更多具體細節。
結構(2 分):寫作具有一定的邏輯順序,但過渡不夠清晰。
語言(1 分):寫作中語言使用較差,詞語選擇和語句結構缺乏多樣性。
語法(2 分):在語法、標點符號使用等方面符合慣例。
大模型提供的評分依據與評分標準高度一致,像是對評分標準的重述。整體而言,大模型在自動評分方面的表現處于可以接受的水平,可以替代非高利害場景下、重復性的評分工作(如日常作業),也可以為人類評分者提供參照,但尚不能獨立承擔高利害場景的評分工作。
大模型在過程性評價中的應用
大模型在支持過程性評價方面提供了顯著價值,尤其是在設計評價標準和指標、制定評價計劃、開展數據分析和結果呈現上,下面展示大模型提供的科學課程過程性評價流程和建議。
1.設計評價標準和指標
(1)定義評價目標:清晰定義評價目標,如評估學生對科學概念的掌握程度、實驗設計技能和科學思維。(2)制定評價標準:根據評價目標建立相應的評價標準。例如,掌握程度可以包括知識的正確性、深度和廣度;實驗設計技能可以涉及設計實驗、觀察數據和分析結果;科學思維可以包括推理、解決問題和創新。(3)選擇評價指標:基于評價標準,選擇具體的評價指標。例如,在評估掌握程度時,選擇學生的測試分數和他們在課堂討論中的表現作為指標;在實驗設計技能方面,選擇學生的實驗報告和實驗數據的質量作為指標;在評估科學思維時,選擇學生的思維導圖、論文寫作和解決實際問題的能力作為指標。
2.制定評價計劃
(1)確定評價時機:提供建議,說明評價將在何時進行,如每個學期結束時、每個單元結束時或每次實驗后。(2)定義評價內容:基于評價目標和標準,清楚地概述評價的具體內容。(3)選擇數據收集方法:基于評價內容,選擇適當的數據收集方法,如測試、實驗報告、問卷、觀察、自評和同伴互評等。(4)制定數據分析計劃:創建一個分析數據的計劃。這涉及組織數據、選擇合適的分析方法,并規劃結果將如何呈現。
3.開展數據分析和結果呈現
(1)數據分析:使用適當的數據分析方法,如使用Excel、SPSS、Mplus、R和Python等軟件分析數據,涉及計算平均值、標準差和頻率分布等,以更好地理解學生的學習表現。(2)結果呈現:以圖表、報告或其他適當的格式呈現分析結果。根據評價結果提供反饋和建議,以改進教學和學習過程。例如,可以創建成績報告、學生評價報告、教師反饋報告,向學生和教師展示評價結果,并基于發現提供反饋和建議。
通過上述指導,大模型可以在廣泛的過程性評價領域中提供支持,促進教育評價活動的高效、科學進行。在實際應用中,教育者應結合教學和學生的具體情況進行具體步驟的細化和需求迭代。
結論與展望
大模型在教育測量與評價的題目生成、測量學分析、自動評分、過程性評價四個關鍵領域已經展現出了變革應用的初步成效。然而,這些應用在不同場景的適用性以及脫離人類專家工作的能力方面,仍面臨一定的局限。
此外,大模型變革教育測量與評價面臨的挑戰和風險也不容忽視,包括算法性能的局限、倫理問題(如評價的公平性、隱私保護)以及技術風險(如生成不實內容、對技術的過度依賴)。為有效應對這些挑戰,關鍵在于培養批判性的評估技能、探索大模型的新應用模式,并確保在使用過程中保持人的主導地位,確保以一種負責任和遵循倫理的方式利用AI大模型,從而最大化其對教育測量與評價領域的變革效益。
注:本文系國家重點研發計劃“社會治理與智慧社會科技支撐”重點專項項目——“大規模學生跨學段成長跟蹤研究,綜合素養測評的構建課題”(課題編號:2021YFC3340801)的研究成果
參考文獻
Liu S, Wright AP, Patterson BL, et al. Using AI-generated suggestions from ChatGPT to optimize clinical decision support [J]. Journal of the American Medical Informatics Association,2023,30 (7):1237-1245.
UNESCO. Guidance for Generative AI in Education and Research [EB/OL]. (2023-09-08)[2024-03-28].https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research.