基于大語言模型的協(xié)作式兩階段考試實(shí)踐研究

2024-12-15 00:00:00鄧倩妮雷佳樂

電腦知識(shí)與技術(shù) 2024年34期

摘要：針對學(xué)生編程基礎(chǔ)差異影響合作學(xué)習(xí)積極性的現(xiàn)狀，提出一種將大語言模型與協(xié)作式兩階段考試相結(jié)合的考試流程。文章以程序設(shè)計(jì)思想與方法課程為例，介紹兩階段考試的實(shí)踐過程。學(xué)生首先獨(dú)立測試，再在大語言模型的輔助下進(jìn)行小組協(xié)作考試。研究結(jié)果表明，大語言模型在知識(shí)總結(jié)和凝練上具有顯著的輔助學(xué)習(xí)效果，結(jié)合大語言模型的兩階段考試，不僅是一種新穎的形成性評(píng)價(jià)方法，也是構(gòu)建以學(xué)生為中心的合作學(xué)習(xí)共同體的有效手段。

關(guān)鍵詞：兩階段考試；大語言模型；程序設(shè)計(jì)教學(xué)；形成性評(píng)價(jià)；合作學(xué)習(xí)

中圖分類號(hào)：G642文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2024）34-0037-03開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

0引言

采取多樣化的教學(xué)手段有利于突破“教師講、學(xué)生聽”的教學(xué)模式，促進(jìn)學(xué)生的自主思考和合作交流。協(xié)作式兩階段考試[1]作為其中的一種策略，分為學(xué)個(gè)人獨(dú)立完成和小組合作完成兩個(gè)階段，有利于激發(fā)學(xué)生的主動(dòng)學(xué)習(xí)。學(xué)生個(gè)人獨(dú)立完成第一階段考試，緊接著多人合作再次完成內(nèi)容接近的第二階段考試，考試成績由兩個(gè)階段各占一定比例構(gòu)成。在計(jì)算機(jī)教學(xué)領(lǐng)域[2-4]和其他學(xué)科[5]上開展的教學(xué)實(shí)踐都肯定了兩階段考試對提高學(xué)生學(xué)習(xí)積極性的作用。然而，兩階段考試也存在局限，如學(xué)生學(xué)習(xí)基礎(chǔ)參差不齊，導(dǎo)致部分學(xué)生在討論中參與度不高。

大語言模型的出現(xiàn)恰好能克服上述問題。諸如ChatGPT[6]等大語言模型具備豐富的知識(shí)儲(chǔ)備，能夠在知識(shí)問答、信息檢索等方面發(fā)揮獨(dú)特優(yōu)勢。將大語言模型引入兩階段考試的第二階段考試中，充當(dāng)機(jī)器人合作者，提供自適應(yīng)的個(gè)性化學(xué)習(xí)支持，有助于激勵(lì)學(xué)生理解大模型生成內(nèi)容，積極討論其正確性。本文以程序設(shè)計(jì)思想與方法課程為例，探討了基于大語言模型的協(xié)作式兩階段考試的實(shí)踐過程。研究表明，該方法不僅是一種新穎的形成性評(píng)價(jià)方法，也是構(gòu)建以學(xué)生為中心的合作學(xué)習(xí)共同體的有效途徑，為與生成式人工智能融合的計(jì)算機(jī)專業(yè)課程，以及相關(guān)專業(yè)的新工科課程的教學(xué)實(shí)踐提供參考。

1基于大語言模型的兩階段考試

1.1兩階段考試

協(xié)作式兩階段考試不同于傳統(tǒng)的終結(jié)性評(píng)價(jià)考試，通過重新組織考試形式，創(chuàng)造高效的學(xué)習(xí)環(huán)境，增加合作與交流，激發(fā)學(xué)生的學(xué)習(xí)動(dòng)力的。協(xié)作式兩階段考試形式靈活，不受班級(jí)人數(shù)的限制，既重視個(gè)人努力、又強(qiáng)調(diào)團(tuán)隊(duì)合作。考試分為個(gè)人獨(dú)立完成和小組合作完成兩個(gè)階段，成績由兩部分按比例構(gòu)成。在考試結(jié)束后及時(shí)的結(jié)果反饋，能加深學(xué)生對團(tuán)隊(duì)合作的認(rèn)同感。但兩階段考試也存在一些局限性，例如：由于學(xué)生的學(xué)習(xí)基礎(chǔ)和復(fù)習(xí)程度有差異，基礎(chǔ)差的同學(xué)難以融入討論，而基礎(chǔ)好的同學(xué)直接代替整個(gè)小組完成了協(xié)作階段的任務(wù)，出現(xiàn)“搭便車”現(xiàn)象。教師要精心設(shè)計(jì)考試內(nèi)容、管理策略和激勵(lì)措施，以應(yīng)對兩階段考試可能出現(xiàn)的副作用和挑戰(zhàn)。

1.2大語言模型

大語言模型是指通過大規(guī)模文本數(shù)據(jù)進(jìn)行訓(xùn)練，能夠理解和生成自然語言的深度學(xué)習(xí)模型。基于Transformer架構(gòu)，大語言模型能夠分析用戶輸入，并生成符合上下文邏輯的文本序列。大語言模型和生成式人工智能在技術(shù)基礎(chǔ)上有著緊密的聯(lián)系。生成式人工智能依托于大語言模型發(fā)展的同時(shí)又結(jié)合了多模態(tài)生成能力，能夠創(chuàng)造出包括文本、圖像、音頻、視頻等多種形式的內(nèi)容。在未來，生成式人工智能則用于生成虛擬學(xué)習(xí)環(huán)境、創(chuàng)造性教學(xué)內(nèi)容和沉浸式教育體驗(yàn)。隨著技術(shù)不斷發(fā)展和演進(jìn)，兩者將可能融合，形成更強(qiáng)大的實(shí)時(shí)生成與交互系統(tǒng)。然而受限于硬件算力及存儲(chǔ)的限制，尚未出現(xiàn)成熟的可大規(guī)模使用的多模態(tài)生成式人工智能應(yīng)用，以文本對話為主要形式的大語言模型仍然是生成式人工智能的主要呈現(xiàn)方式。因此，本文中的實(shí)驗(yàn)設(shè)計(jì)主要采用大語言模型對話的形式開展。

大語言模型在教育教學(xué)領(lǐng)域被用于自動(dòng)化教學(xué)助手、個(gè)性化學(xué)習(xí)路徑的生成等，為教育教學(xué)研究提供新的視角。以ChatGPT和百度文心一言為代表的商用大語言模型對話系統(tǒng)已被初步用于高等學(xué)校的計(jì)算機(jī)專業(yè)課程教學(xué)中[7]，為學(xué)生提供更為先進(jìn)和智能的教學(xué)模式。大語言模型對程序設(shè)計(jì)代碼也具有良好的兼容性，既可以根據(jù)用戶需求生成代碼片段，也可以對用戶提供的代碼輸入進(jìn)行解釋和分析，有望在程序設(shè)計(jì)基礎(chǔ)教學(xué)中輔助學(xué)生解決疑難問題，加深對知識(shí)的理解[8]。盡管國內(nèi)外許多高校出于學(xué)術(shù)不端等風(fēng)險(xiǎn)考量，對學(xué)生使用大語言模型進(jìn)行限制[9]，大語言模型與高等學(xué)校教育的結(jié)合仍將是不可阻擋的主流趨勢。

2大語言模型輔助的兩階段考試設(shè)計(jì)與實(shí)驗(yàn)

2.1兩階段考試的過程安排

將大語言模型引入到兩階段考試，采用對照實(shí)驗(yàn)的方法。將兩個(gè)教學(xué)班的學(xué)生分為實(shí)驗(yàn)組和對照組。兩組學(xué)生均為成績分布無差別的大一新生，且由同一教師采取同樣的教學(xué)方法教授。為促進(jìn)積極交流允許自由分組，每組人數(shù)為3～4人。一次兩階段考試的過程如圖1，包括個(gè)人獨(dú)立測試、小組合作測試、后測和問卷調(diào)查，實(shí)驗(yàn)組在合作考試中使用大語言模型，對照組則不使用。兩階段中的個(gè)人獨(dú)立考試與小組合作考試所占成績比例分別設(shè)置為70%和30%；一次考試的各個(gè)階段的具體安排為：

1）前測：獨(dú)立完成。

學(xué)生獨(dú)立完成測試，測試共設(shè)置20道選擇題和2道編程題，測試完成后，答卷馬上回收進(jìn)行評(píng)測。

2）復(fù)測：小組合作。

隨后3～4人自由分組進(jìn)行小組復(fù)測，精選前測中的部分難點(diǎn)題目開展討論，包括8～10道選擇題和1道編程題，組內(nèi)協(xié)作完成試題并回收答卷。測試完成后立即下發(fā)答案并講評(píng)。

3）后測：獨(dú)立完成。

兩周后再次進(jìn)行測驗(yàn)。選擇與兩周前的測驗(yàn)中相同主題的相似題目，以檢測上次合作考試的效果。將上一次測驗(yàn)的后測檢驗(yàn)與本次測驗(yàn)的關(guān)于新主題的獨(dú)立測試結(jié)合，稱為一次測驗(yàn)。

2.2流水化的多次兩階段考試設(shè)計(jì)

在一個(gè)學(xué)期中，開展了三次兩階段考試，考查的主題分別為指針與字符串、遞歸程序設(shè)計(jì)、構(gòu)造與析構(gòu)。給出了各次測驗(yàn)的前測與后測中對應(yīng)的一道樣題（見表1）。每一次兩階段考試的后測與下一次兩階段考試的前測是嵌套的，將上一次考試的后測與下一次考試的前測合并，形成一個(gè)如圖2的流水化過程，既檢驗(yàn)了學(xué)習(xí)效果，又簡化了考試管理。

2.3統(tǒng)計(jì)分析方法

引入學(xué)習(xí)增益和成績的歸一化變化值作為統(tǒng)計(jì)分析指標(biāo)，分別對三個(gè)測驗(yàn)主題進(jìn)行分析，檢驗(yàn)大語言模型在各個(gè)測驗(yàn)主題上對學(xué)生成績提升的顯著性。

1）學(xué)習(xí)增益。

學(xué)習(xí)增益g被定義為個(gè)人獨(dú)立測試的后測和前測正確率的差值，用于分析學(xué)生成績的提升程度。由于某些原因，可能導(dǎo)致部分學(xué)生第二次考試的成績低于第一次考試成績，如果將學(xué)習(xí)增益進(jìn)行歸一化，會(huì)導(dǎo)致負(fù)向增益無法解釋。因此，在統(tǒng)計(jì)分析時(shí)，不會(huì)對學(xué)習(xí)增益進(jìn)行歸一化。基于收集的學(xué)生測驗(yàn)成績，計(jì)算每個(gè)學(xué)生的學(xué)習(xí)增益比例，并對實(shí)驗(yàn)組和對照組的學(xué)習(xí)增益比例進(jìn)行方差分析。

2）歸一化變化值。

歸一化變化值c是不同于學(xué)習(xí)增益的另一個(gè)評(píng)估指標(biāo)，定義和取值分不同情況（見表2）。

其中Gpt是后測的成績，Git是前測的成績。如果學(xué)生后測的成績高于前測，評(píng)估的是增益值；如果學(xué)生后測成績低于前測成績，評(píng)估的是缺失值；二者統(tǒng)稱為歸一化變化值。使用這個(gè)評(píng)估指標(biāo)可以消除低分值偏差，分值分布對稱并容易解釋，具體可見參考文獻(xiàn)[10]。統(tǒng)計(jì)分析時(shí)計(jì)算每個(gè)學(xué)生的歸一化變化值c，并對c進(jìn)行獨(dú)立樣本t檢驗(yàn)。

3大模型輔助的兩階段考試的有效性與學(xué)生評(píng)價(jià)

3.1有效性分析

每一次測驗(yàn)都將學(xué)生分為實(shí)驗(yàn)組和對照組。實(shí)驗(yàn)組在小組復(fù)測階段采用了大語言模型輔助工具，而控制組在小組復(fù)測階段不使用大語言模型輔助工具。不同組的學(xué)生在三次測試中的平均成績（見表3）顯示，實(shí)驗(yàn)組和對照組在前測中的表現(xiàn)大致相當(dāng)。測驗(yàn)1和測驗(yàn)3中實(shí)驗(yàn)組的平均成績提升幅度明顯高于對照組，測驗(yàn)分?jǐn)?shù)提升達(dá)到10分左右，而在測驗(yàn)2中，實(shí)驗(yàn)組與對照組的平均成績提升幅度無明顯區(qū)別。這說明，大語言模型輔助的協(xié)作式兩階段測驗(yàn)在部分測驗(yàn)中，能夠有效提升學(xué)生成績。

為了評(píng)估大模型輔助的兩階段考試效果的統(tǒng)計(jì)學(xué)意義，計(jì)算了每個(gè)學(xué)生的學(xué)習(xí)增益比例g和歸一化變化值c，并進(jìn)一步分別對g進(jìn)行方差分析（見表4）以及對c進(jìn)行獨(dú)立樣本t檢驗(yàn)（見表5），從這兩個(gè)參數(shù)上進(jìn)行多維度驗(yàn)證。

從結(jié)果來看，測驗(yàn)1和測驗(yàn)3的兩個(gè)參數(shù)P值均小于0.05，且F值或t值較大，呈現(xiàn)出統(tǒng)計(jì)學(xué)上的顯著性；而測驗(yàn)2中兩個(gè)參數(shù)的P值遠(yuǎn)大于0.05，且F值或T值很小，未呈現(xiàn)出顯著性。因此，對于測驗(yàn)1和測驗(yàn)3，基于大模型的兩階段考試顯著提高了學(xué)生學(xué)習(xí)成績。而對于測驗(yàn)2遞歸程序設(shè)計(jì)，顯著性不足以從統(tǒng)計(jì)學(xué)上證明實(shí)驗(yàn)組的效果更佳。結(jié)合對應(yīng)測驗(yàn)的主題和內(nèi)容，實(shí)驗(yàn)結(jié)果表明，基于大模型的兩階段考試的直接學(xué)習(xí)效果與所考查知識(shí)點(diǎn)的類型和題型有關(guān)。對于考查程序語法以及編程概念的測驗(yàn)1和測驗(yàn)3，大語言模型總結(jié)和凝練了問題所涉及的相關(guān)知識(shí)，給出的答案能促進(jìn)學(xué)生交流討論，并幫助學(xué)生快速掌握基礎(chǔ)知識(shí)中的重點(diǎn)和難點(diǎn)，因此成績提升更顯著。但是對于測驗(yàn)2遞歸程序設(shè)計(jì)，雖然大模型能迅速生成程序設(shè)計(jì)的解決方案，但由于它只是一個(gè)知識(shí)總結(jié)助手，而非一個(gè)知識(shí)傳授工具，學(xué)生在閱讀工具自動(dòng)生成的程序后，仍難以真正理解對應(yīng)的算法設(shè)計(jì)思路和技巧，無法保證學(xué)生在考試中有限的時(shí)間內(nèi)能夠開展有效的互動(dòng)和交流。

3.2學(xué)生評(píng)價(jià)

為了理解大語言模型對學(xué)生學(xué)習(xí)態(tài)度和學(xué)習(xí)方式上的影響，課程結(jié)束后通過發(fā)放問卷對全體學(xué)生進(jìn)行調(diào)查統(tǒng)計(jì)。問卷調(diào)查期內(nèi)，回收有效問卷數(shù)共計(jì)74份，其中38位學(xué)生參與了有大模型輔助考試的實(shí)驗(yàn)組，36人參與了無大模型輔助的對照組。根據(jù)問卷結(jié)果，88%的學(xué)生表示在過去教育經(jīng)歷中從未接觸過類似的考試模式，其余12%的學(xué)生表示有過類似的考試和學(xué)習(xí)方式。這說明，對于多數(shù)學(xué)生來說兩階段考試仍然是一種比較新穎的考試形式。

對照組中，81%的學(xué)生認(rèn)為這種考查方式對學(xué)習(xí)有幫助，54%的學(xué)生認(rèn)為對促進(jìn)同伴溝通交流有幫助，僅有3.5%的學(xué)生明確表示這種方式?jīng)]有幫助。這說明大部分學(xué)生接受兩階段考試。實(shí)驗(yàn)組中，95%的學(xué)生認(rèn)為這種考查方式對學(xué)習(xí)有幫助，其中71%的學(xué)生認(rèn)為引入大模型有助于促進(jìn)主動(dòng)思考和積極交流，21%的同學(xué)認(rèn)為是否引入大模型不影響考試中的積極交流與思考，但也有3%的學(xué)生認(rèn)為自己在討論過程中因直接參考大模型生成的答案導(dǎo)致沒有積極思考。

所有參與調(diào)查的學(xué)生都在日常學(xué)習(xí)中嘗試過使用大語言模型作為學(xué)習(xí)助手，其中69%的學(xué)生認(rèn)為大語言模型對知識(shí)總結(jié)有幫助，但對編程能力提升的幫助不大。82%的同學(xué)認(rèn)為在兩階段考試中引入大模型作為輔助工具對促進(jìn)同伴交流有積極意義。

4總結(jié)

本文將大語言模型引入?yún)f(xié)作式兩階段考試的合作環(huán)節(jié)，進(jìn)行了多次流水化兩階段考試實(shí)踐探索。研究發(fā)現(xiàn)，在基礎(chǔ)知識(shí)理解和總結(jié)上，大模型的輔助學(xué)習(xí)效果明顯；但在算法編程思想的培養(yǎng)形成方面，提升則不夠顯著。本文的研究結(jié)果可以為人工智能技術(shù)在程序設(shè)計(jì)以及其他課程教學(xué)中的應(yīng)用實(shí)踐提供參考。

來隨著硬件算力的進(jìn)一步提升，以及大語言模型的不斷進(jìn)化，大語言模型將有望能夠更加深入地參與兩階段考試的團(tuán)隊(duì)合作環(huán)節(jié)中，緩解小組內(nèi)學(xué)生水平不均衡的差異，讓基礎(chǔ)較差的學(xué)生也獲得相應(yīng)的參與感和成就感，從而激發(fā)學(xué)習(xí)興趣和熱情。融合文本、圖像、音頻、視頻等多種數(shù)據(jù)的多模態(tài)生成式模型也將在不久的將來落地，多模態(tài)生成式模型能夠?yàn)閷W(xué)生提供更加舒適的交互體驗(yàn)，以機(jī)器人伙伴的身份平滑地融入兩階段考試的討論過程中，扮演小組討論中的記錄員等角色。同時(shí)也可以預(yù)見，盡管大語言模型仍在高速發(fā)展，在很長一段時(shí)間內(nèi)，算法編程思想的培養(yǎng)和形成仍是大模型輔助學(xué)習(xí)的難點(diǎn)。讓大語言模型能夠輔助學(xué)生培養(yǎng)諸如算法編程思想等專業(yè)性和邏輯性強(qiáng)的思維方法，既需要更加先進(jìn)和智能的大語言模型技術(shù)突破，也需要廣大教師和教育工作者的探索和實(shí)踐。

【通聯(lián)編輯：王力】

基金項(xiàng)目：上海高校本科重點(diǎn)教改項(xiàng)目“以智能化分類分級(jí)考試平臺(tái)為抓手，構(gòu)建面向?qū)W科交叉的計(jì)算機(jī)教學(xué)生態(tài)鏈”（2023-2024，No.152）；上海交通大學(xué)2024年教學(xué)設(shè)計(jì)師培育專項(xiàng)（CTLD24TD0001）