摘要:大語言模型為各行各業(yè)提效賦能,在線學習憑借其豐富的應用場景和海量的學習數(shù)據(jù),成為教育領(lǐng)域引入大語言模型的理想“試驗田”。然而,當前針對在線學習場景下大語言模型輔助教學的系統(tǒng)性評測較少。基于此,文章首先梳理了在線學習“教學準備-教學實施-教學評價”三個階段的大語言模型應用場景,從中選取視頻摘要生成、視頻知識點提取、單選題生成、討論題生成、單選題答疑、討論題答疑等6個任務開展評測實驗。之后,文章采用人工評價與自動評價相結(jié)合的方式,分析了Qwen-7B-chat、ChatGLM3-6B等11個大語言模型在前述6個在線學習任務中的表現(xiàn)。最后,文章總結(jié)了評測實驗的結(jié)論:在國產(chǎn)大語言模型中,GLM-3-Turbo在視頻摘要生成、視頻知識點提取、討論題生成、討論題答疑四個任務中表現(xiàn)突出,而Qwen-max-1201在單選題生成、單選題答疑兩個任務中表現(xiàn)較好;同系列模型參數(shù)量越大,在線學習任務表現(xiàn)越好。文章的研究可為在線學習場景下大語言模型的選取提供實證參考,助力大語言模型更好地賦能在線學習。
關(guān)鍵詞:大語言模型;在線學習;任務表現(xiàn);教學評測
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2024)11—0015—12 【DOI】10.3969/j.issn.1009-8097.2024.11.002
引言
作為一種教育新常態(tài),在線學習正在重塑傳統(tǒng)教與學的模式[1]。盡管在線學習具有靈活性和便捷性,但避免不了師生分離帶來的各種學習挑戰(zhàn),如教學臨場感較弱、個性化學習需求難以實現(xiàn)等[2]。而以ChatGPT為代表的大語言模型憑借其良好的語義理解和對話交互能力,可為人機協(xié)同提問、人機協(xié)同寫作、素養(yǎng)導向的教育評價等場景提供有力支撐[3],從而有效應對上述挑戰(zhàn),為在線學習注入新的活力。考慮到國外大語言模型的訓練數(shù)據(jù)以英語為主,模型生成的內(nèi)容可能會投射價值觀和文化輸出,潛移默化地對處于語言文化風格和價值觀成長期的青少年進行意識形態(tài)滲透[4],因此中文語境下的在線學習場景更適合利用國產(chǎn)大語言模型來輔助教學。
目前,國產(chǎn)大語言模型的發(fā)展呈百花齊放之勢,如智譜AI推出了ChatGLM、阿里云發(fā)布了通義千問、百度研發(fā)了文心一言、訊飛上線了星火大模型等,但針對在線學習場景下大語言模型輔助教學的系統(tǒng)性評測較少。基于此,本研究針對以視頻錄播為主的異步在線學習,按照“教學準備-教學實施-教學評價”三個階段梳理大語言模型應用場景并從中選取評測任務,并嘗試在大規(guī)模在線教育開放數(shù)據(jù)集上開展實驗,評測不同大語言模型在這些任務中的表現(xiàn),以期為在線學習場景下大語言模型的選取提供實證參考,助力大語言模型更好地賦能在線學習。
一 相關(guān)研究
1 大語言模型在教育領(lǐng)域的應用前景
許多研究者對大語言模型在教育領(lǐng)域的應用前景進行了深入探討,認為大語言模型應用潛力巨大,有望實現(xiàn)“師師有助教,生生有學伴”這一愿景[5]。例如,可以嘗試利用大語言模型實現(xiàn)個性化教學方案生成、學科知識問答、語言表達能力評測和多維度代碼解釋[6]。
作為教育的重要組成部分,在線教育有助于促進教育公平[7]。鑒于在線學習環(huán)境存在學生學習注意力不強、教師答疑缺乏即時性等問題[8][9],同時考慮到國外大語言模型存在意識滲透風險,因此有必要借助國產(chǎn)大語言模型為在線學習注入新的活力。然而,當前針對在線學習場景下大語言模型輔助教學的系統(tǒng)性評測較少,主要表現(xiàn)為:教育領(lǐng)域的大語言模型評測以英文數(shù)據(jù)為主[10][11],大語言模型在教育領(lǐng)域中文數(shù)據(jù)的評測聚焦于特定學科[12][13][14],且評測的在線學習場景以智能問答為主[15]。
2 教學過程的階段說明
按照目標管理的教學流程,有效的教學過程可劃分為三個階段:教學準備、教學實施與教學評價[16]。隨著教育信息技術(shù)的飛速發(fā)展,傳統(tǒng)的“學案導學”教學模式面臨挑戰(zhàn),有研究者依據(jù)“課前準備、課中實施、課后評價”這三個教學環(huán)節(jié)對教學模式重新整合,確保課前、課中、課后各個階段實現(xiàn)“無時不在學”[17]。按照這個階段劃分方法,在線教學的過程可以歸納為三個階段:①教學準備階段,由教師準備各類電子學習資源,包括先導視頻、教材、測試題等;②教學實施階段,由教師通過直播、錄播、互動問答等方式,組織教學活動,引導學生參與學習過程;③教學評價階段,主要開展教學成效評價,評價指標分為參與類指標、交互類指標和自律類指標[18]。
二 在線學習任務的選取及其評測方法
從時間維度來看,在線教學可以分為以直播為主的同步在線教學和以視頻錄播為主的異步在線教學[19]。然而,直播的同步性是以時間為代價的,這與在線學習所倡導的靈活性相悖,而異步交互在時間上更加靈活[20]。基于此,本研究聚焦異步在線教學,按照“教學準備-教學實施-教學評價”三個階段,梳理得到豐富多樣的大語言模型應用場景。具體來說,在教學準備階段,可以利用大語言模型生成教學大綱,提煉視頻的主要內(nèi)容與知識點,批量生成配套練習題等;在教學實施階段,可以基于大語言模型為學習者提供全天候、即時的智能答疑,增強在線學習的臨場感;在教學評價階段,可以利用大語言模型自動分析論壇討論的情感傾向。下文將從上述應用場景中選取部分在線學習任務開展評測實驗,以評測在線學習場景下大語言模型輔助教學的效果。
1 評測任務
(1)評測任務確定
①在教學準備階段,人機協(xié)同主要包括協(xié)同預習和協(xié)同備課[21]。對于以視頻錄播為主的異步在線教學,一方面可利用大語言模型基于視頻字幕生成摘要并提取知識點,幫助學習者快速預習課程;另一方面可利用大語言模型批量生成單選題、討論題等習題資源,提高教師的備課效率。基于此,本研究將視頻摘要生成、視頻知識點提取、單選題生成、討論題生成作為本階段的主要評測任務。
②在教學實施階段,教師應充分發(fā)揮課程“組織者”的角色,通過引導式提問、小組協(xié)作等方式,為學習者提供學習支持[22]。例如,可基于大語言模型為學習者提供單選題、討論題等習題的即時解答;可依托大模型實現(xiàn)主觀題的智能評閱,并快速生成評閱分數(shù)和評語;也可利用大語言模型實現(xiàn)角色扮演,讓學習者在相關(guān)的語言環(huán)境下學習第二語言[23]。考慮到與智能評閱、語言學習輔助的需求相比,在線學習者通常更需要即時消除學習疑難,因此本研究將單選題答疑、討論題答疑作為本階段的主要評測任務。
③在教學評價階段,傳統(tǒng)的教學評價需要人工完成,存在耗時、費力的缺點,而大語言模型可以高效地完成評價任務,提高評價效率[24]。例如,利用大語言模型,可以對論壇討論進行情感分析;可以基于視頻交互頻次、學習時間、學習頻率等信息,自動生成評語。鑒于教學評價高度依賴教師的主觀判斷,而且涉及對學生學習成效的考核,宜采取更審慎的態(tài)度,因此本研究暫未將教學評價階段的具體任務納入此次評測范疇。
綜上可知,本研究在教學準備階段和教學實施階段共選取了6個在線學習任務,具體的任務名稱與任務描述如表1所示。
(2)評測數(shù)據(jù)說明
MOOCCubeX是面向大規(guī)模在線教育的開放數(shù)據(jù)倉庫[25],可用于學習行為分析、課程資源推薦等在線教育研究。本研究從MOOCCubeX中的視頻字幕文件中隨機抽取100個視頻字幕、從其用戶與問答機器人交互信息中隨機抽取100道討論題、從其練習題數(shù)據(jù)中隨機抽取500道單選題,作為上述任務的評測數(shù)據(jù)。
2"評測方法
針對選取的6個在線學習任務,本研究按照圖1所示的提示詞向大語言模型提問,并記錄模型生成的回答,然后采用相應的評測指標評估大語言模型在這些任務中的表現(xiàn)。對于答案并非唯一的自然語言生成任務,相較于BLEU、ROUGE等傳統(tǒng)的自動評價方法[26][27],GPT-4自動評分與人工評分的相關(guān)性更高[28],但GPT-4作為“裁判”打分時存在位置偏好、冗詞偏好、自我傾向偏好等問題[29],因此宜將人工評分與自動評分相結(jié)合,來評測模型表現(xiàn)。針對答案唯一的自然語言生成任務,可以將大語言模型生成的答案與標準答案進行比對,并通過計算得到精確率、召回率等,據(jù)此來評測模型效果。
(1)視頻摘要生成任務的評測方法
對本任務的每個樣本,本研究主要從摘要的流暢性、連貫性、一致性三個維度進行打分,用1~5分表示從“表現(xiàn)不佳”到“表現(xiàn)出色”:①流暢性,評測句子在語法、標點、詞匯選擇方面的質(zhì)量,分數(shù)越高,表示單個語句越流暢;②連貫性,評測所有句子的整體質(zhì)量,從句子到段落再到篇章,構(gòu)建一個連貫的敘述框架;③一致性,評測內(nèi)容是否存在事實性錯誤。
(2)視頻知識點提取任務的評測方法
本任務主要關(guān)注提取的知識點是否足夠全面,暫不關(guān)注生成的知識點含義解釋是否正確流暢。參考多標簽分類任務的評測方式,本研究將MOOCCubeX中每個視頻的課程概念作為真實標簽,將大語言模型提取出的知識點作為預測標簽,對每個視頻樣本計算精確率(Precision)、召回率(Recall)和F1值,最后針對所有樣本計算這些指標的均值。
①精確率:針對給定的課程視頻,將其課程概念集合記作C={c1, c2, ..., cn},將大語言模型提取出的知識點集合記作P={p1, p2, ..., pm},按照公式(1)計算精確率。其中,cos(ci, pj)是先利用Roberta[30],得到概念ci和知識點pj的向量表示,之后通過計算得到的余弦值。余弦值越大,說明這兩個文本越相似。ⅡA是事件A的示性函數(shù),依據(jù)事件出現(xiàn)與否取值1和0。對于知識點詞匯pj,只要存在某個概念ci,兩者的余弦值大于等于給定的閾值(設(shè)置為0.8),就認為此知識點是正確的。基于此,公式(1)的分子表示被正確提取的知識點數(shù)量,分母表示模型提取出的知識點總數(shù),分式說明大語言模型提取出的知識點有多少比例是正確的。
公式(1)
②召回率:沿用公式(1)中的符號表達,針對給定的課程視頻按照公式(2)計算知識點召回率。其中,分母是該視頻對應的概念數(shù)量,分子是被大語言模型正確提煉的課程概念數(shù)量,分式表示課程概念中有多少比例可以通過視頻知識點提取任務被正確提取。
公式(2)
③F1值:F1值的計算如公式(3)所示,其中P指精確率、R指召回率。
公式(3)
(3)單選題生成任務的評測方法
由于視頻字幕包含較多冗雜信息,本研究擬基于視頻知識點提取任務得到的知識點信息來生成單選題,生成內(nèi)容包含單選題的題干、選項與答案。基于此,本研究面向本任務設(shè)計了以下評測指標:①格式有效數(shù)量,檢查生成的單選題是否包含兩個及以上選項。若包含兩個及以上選項,則認為生成的單選題格式有效,最后統(tǒng)計格式有效的題目數(shù)量。②選項有效數(shù)量。選擇兩個大語言模型作為“答題者”,觀察這兩個模型的作答結(jié)果是否一致。若作答結(jié)果一致,則認為這道題選項有效,最后統(tǒng)計選項有效的題目數(shù)量。③答案有效數(shù)量。針對格式有效且選項有效的題目,檢查原始生成的答案是否與“選項有效”校對過程中大語言模型的作答一致。若作答一致,則認為初始生成的答案有效,最后統(tǒng)計答案有效的題目數(shù)量。
(4)討論題生成任務的評測方法
鑒于視頻字幕較為冗雜,本研究擬基于視頻摘要生成任務得到的摘要來生成討論題,之后從正確性、具體性、話題開放性三個維度打分,用1~5分表示從“效果不佳”到“效果出色”:①正確性,評測討論題是否存在邏輯錯誤;②具體性,評測討論題是否具體明確,能否讓學習者清楚理解問題意圖;③話題開放性,評測討論題是否有標準答案,能否用開闊的思路來回答。
(5)單選題答疑任務的評測方法
針對單選題答疑任務,本研究主要采用以下三個評測指標:①正確率(無擾動)。將單選題題干及其未打亂順序的選項輸入大語言模型,然后比對模型回答與標準答案是否一致。若一致,則認為模型回答正確,對應計算正確占比。②正確率(擾動)。將題目選項順序打亂,然后將題干及其打亂順序后的選項輸入大語言模型,觀察模型回答是否正確,對應計算正確率。③穩(wěn)健性。對同一道單選題,觀察未打亂選項順序與打亂選項順序得到的模型回答,判斷兩者的實質(zhì)內(nèi)容是否一致,對應計算前后一致的題目占比。
(6)討論題答疑任務的評測方法
本研究從正確性、相關(guān)性、流暢性三個維度對生成的討論題作答進行打分,用1~5分表示從“質(zhì)量極低”到“質(zhì)量極高”:①正確性,評測討論題作答內(nèi)容是否存在明顯錯誤;②相關(guān)性,評測討論題作答內(nèi)容與提問是否相符;③流暢性,評測討論題作答內(nèi)容在語言表達上是否通順。除上述指標外,還可根據(jù)具體情況進一步考慮諸如公平性、多樣性等評測指標。
三 不同模型的任務表現(xiàn)分析
考慮到模型熱度與成本控制,且國內(nèi)在線學習場景以中文語境為主,本研究選取國內(nèi)公司的9個大語言模型和國外OpenAI公司的2個大語言模型進行任務表現(xiàn)的對比分析,具體的模型說明如表2所示,其中Qwen-7B-chat、Qwen-14B-chat、Baichuan2-7B-chat、Baichuan2-13B-chat V2、ChatGLM3-6B屬于開源模型,源代碼和模型參數(shù)公開,支持本地化部署與調(diào)用;而GPT-3.5-Turbo、GPT-4、GLM-3-Turbo、星火大模型Spark 3.0、文心一言Ernie-bot-turbo、通義千問Qwen-max-1201屬于閉源模型,源代碼和模型參數(shù)不公開,通過API服務調(diào)用。
1 不同模型在視頻摘要生成任務中的表現(xiàn)分析
如前文所述,本研究從流暢性、連貫性和一致性三個維度,針對隨機抽取的100個視頻字幕進行評測。具體來說,先抽取20%測試樣本由人工打分、100%測試樣本由GPT-4作為“裁判”打分,然后計算對應的評分均值與標準差,據(jù)此繪制本任務的標準誤差條形圖,如圖2所示。其中,條形表示評分均值,條形頂部延伸的黑色線段是誤差線,表示評分的標準差。圖2顯示,在流暢性、連貫性和一致性三個維度,各模型的人工評分與自動評分均很高,這驗證了利用大語言模型基于視頻字幕生成摘要的可行性。此外,人工評分方面,GPT-4、Spark 3.0和Ernie-bot-turbo脫穎而出,成為平均分最高的前三名;而自動評分方面,GLM3-Turbo、Spark 3.0和Qwen-14B-chat是平均分最高的前三名。
2 不同模型在視頻知識點提取任務中的表現(xiàn)分析
如前文所述,本研究采用精確率、召回率、F1值對本任務進行評測,且主要關(guān)注提取的知識點是否足夠完備。本任務的評測結(jié)果如表3所示,可以看出:Qwen-max-1201的精確率最高,GLM-3-Turbo的召回率、F1值均最高。此外,GPT-4、Qwen-max-1201等模型的召回率雖然不高,但對知識點含義的闡釋非常詳細。因此,在設(shè)計本任務的提示詞時,需進一步明確究竟是期望知識點提取得足夠全面,還是知識點闡述得盡量詳細。
3 不同模型在單選題生成任務中的表現(xiàn)分析
如前文所述,本研究從格式、選項、答案的有效數(shù)量對本任務進行評測:針對生成的100道單選題,先檢查有多少道格式有效;然后,針對格式有效的單選題,選取Qwen-max-1201和GLM-3-Turbo作為“答題者”,觀察選項有效的題目數(shù)量;最后,對于那些格式有效且選項有效的單選題,進一步檢查原始答案的有效性,得到答案有效數(shù)量。將上述實驗結(jié)果以漏斗圖形式呈現(xiàn),如圖3所示,可以看出:大部分模型生成的單選題格式有效,Qwen-max-1201、GPT-4答案有效數(shù)量位于前兩名。然而,大部分模型的答案有效數(shù)量未達到預期水平,可能是因為一次性生成題干、選項及答案的方式無法保障題目的整體質(zhì)量,后續(xù)可采用思維鏈、多智能體協(xié)作等方法[31],進一步提升生成的單選題質(zhì)量。
4 不同模型在討論題生成任務中的表現(xiàn)分析
如前文所述,本研究從正確性、具體性、話題開放性三個維度對本任務進行評測,且與視頻摘要生成任務一樣采用人工評分和自動評分兩種方式打分、計算評分均值與標準差,繪制本任務的標準誤差條形圖,如圖4所示。圖4顯示,無論是人工評分還是自動評分,GLM-3-Turbo、Spark 3.0是平均分最高的前兩名。在正確性維度,各模型的得分均很高,說明生成的絕大多數(shù)討論題無明顯邏輯錯誤。在具體性、話題開放性兩個維度,可以觀察到人工評分普遍高于自動評分,這可能是因為人工思考更全面,且進行主觀判斷時對大多數(shù)討論題給予了較高評價。
5 不同模型在單選題答疑任務中的表現(xiàn)分析
如前文所述,本研究針對隨機抽取的500道單選題,從正確率(勿擾動)、正確率(擾動)、穩(wěn)健性三個維度對本任務進行評測,評測結(jié)果如表4所示,可以看出:Qwen-max-1201表現(xiàn)最佳,無論是無擾動還是擾動,其正確率均約為76%左右,穩(wěn)健性更是高達83.4%,說明即使選項順序發(fā)生變化,Qwen-max-1201依舊能對83.4%的單選題給出一致的答案。此外,ChatGLM3-6B和Baichuan2-7B-chat在240道題目上的回答一致,這些題目對應的正確率為75.4%;當引入Baichuan2-13B-chat"V2后,這三個模型在175道題目上的回答一致,交集的正確率提升至84.6%;再加入Qwen-7B-chat后,這四個模型在149道題目上的回答一致,交集的正確率進一步提升至88.6%。
6 不同模型在討論題答疑任務中的表現(xiàn)分析
如前文所述,本研究從正確性、相關(guān)性、流暢性三個維度對本任務進行評測:針對隨機抽取的100道討論題,采用人工評分與自動評分兩種方式打分、計算相應評分的均值與標準差,繪制本任務的標準誤差條形圖,如圖5所示。圖5顯示,無論是人工評分還是自動評分,GPT-4、GLM-3-Turbo、Qwen-max-1201都排在平均分的前三名。此外,各閉源大語言模型在本任務中的表現(xiàn)差異不大,均能較為清晰、準確地回答相關(guān)討論題。
四"在線學習任務大語言模型輔助教學的評測總結(jié)
針對選取的6個在線學習任務,本研究對所有模型的任務表現(xiàn)進行了匯總,如表5所示。具體來說,在視頻摘要生成任務中,人工評分最高的是GPT-4,自動評分最高的是GLM-3-Turbo;在視頻知識點提取任務中,GLM-3-Turbo的F1值最高;在單選題生成任務中,Qwen-max-1201生成的有效題目占比最高;在討論題生成任務中,GLM-3-Turbo的人工評分、自動評分均值都為最高,Spark 3.0的人工評分均值最高;在單選題答疑任務中,Qwen-max-1201的各維度均值最高;而在討論題答疑任務中,GPT-4的人工評分、自動評分均值都為最高,GLM-3-Turbo的自動評分均值最高。綜合上述分析,可以得出結(jié)論:在國產(chǎn)大語言模型中,GLM-3-Turbo在視頻摘要生成、視頻知識點提取、討論題生成、討論題答疑四個任務中表現(xiàn)突出,Qwen-max-1201在單選題生成、單選題答疑兩個任務中表現(xiàn)較好。此外,從表5還可以看出:Qwen-14B-chat在6個在線任務中的表現(xiàn)大多優(yōu)于Qwen-7B-chat,Baichuan2-13B-chat V2在6個在線任務中的表現(xiàn)也大多優(yōu)于Baichuan2-7B-chat。可見,同系列模型參數(shù)量越大,在線學習任務表現(xiàn)越好。
五 結(jié)語
本研究按照異步在線學習“教學準備-教學實施-教學評價”三個階段,梳理了大語言模型的應用場景,并從中選取了視頻摘要生成、視頻知識點提取、單選題生成、討論題生成、單選題答疑、討論題答疑6個任務,采用人工評價和自動評價相結(jié)合的方式,對Qwen-7B-chat、ChatGLM3-6B等11個大語言模型進行了多維度評測,實驗結(jié)果表明國產(chǎn)大語言模型中的GLM-3-Turbo、Qwen-max-1201在多個在線學習任務中表現(xiàn)出色。需要注意的是,隨著模型持續(xù)迭代更新,模型的語義理解、對話交互等能力也隨之改變。因此,在進行大語言模型的實際應用時需隨著模型的迭代靈活調(diào)整所選用的模型:若無需本地化部署大語言模型,就推薦使用閉源大語言模型,因為相較于參數(shù)量較小的開源大語言模型,閉源大語言模型在語義理解、內(nèi)容生成等方面的效果更佳,且按需計費,更具性價比;若考慮本地化部署開源大語言模型,那么在兼顧效果與效率的前提下,可優(yōu)先選擇其中參數(shù)量較大的模型。
在線學習不是簡單地將線下課堂照搬到線上,而是通過精心設(shè)計和組織,形成一種面向每個人、適合每個人的教育模式[32]。以大語言模型為代表的新興技術(shù),使大規(guī)模個性化在線學習成為了可能。大語言模型的應用能夠滲透到在線學習的各個階段,并對學習者和教師產(chǎn)生重要影響:對學習者而言,大語言模型可以推動學習者的學習方式從“搜索式學習”逐步轉(zhuǎn)向“對話式學習”[33];對教師而言,大語言模型可以促使教師角色從注重線性思維的“教”轉(zhuǎn)變?yōu)樽⒅仃P(guān)系思維的“學”[34]。鑒于教育的復雜性,在大語言模型的實際應用過程中需加強人機協(xié)同,實現(xiàn)雙向賦能。
參考文獻
[1]劉述,單舉芝.在線學習平臺視頻教學交互環(huán)境現(xiàn)狀與未來發(fā)展[J].中國電化教育,2019,(3):104-109、119.
[2]王冬青,裴文君,羅力強,等.高校MOOC在線教學模式與實施策略研究——基于全日制研究生在線學習現(xiàn)狀和需求的分析[J].研究生教育研究,2020,(5):46-52.
[3]劉明,吳忠明,廖劍,等.大語言模型的教育應用:原理、現(xiàn)狀與挑戰(zhàn)——從輕量級BERT到對話式ChatGPT[J].現(xiàn)代教育技術(shù),2023,(8):19-28.
[4]苗逢春.生成式人工智能技術(shù)原理及其教育適用性考證[J].現(xiàn)代教育技術(shù),2023,(11):5-18.
[5]吳蘭岸,閆寒冰,黃發(fā)良,等.大型語言模型在高等教育中的應用分析與現(xiàn)實挑戰(zhàn)[J].現(xiàn)代教育技術(shù),2023,(8):29-37.
[6]盧宇,余京蕾,陳鵬鶴,等.生成式人工智能的教育應用與展望——以ChatGPT系統(tǒng)為例[J].中國遠程教育,2023,(4):24-31、51.
[7]吳鵬澤,楊琳.在線教育價值何在——基于價值共創(chuàng)理論的在線教育知識傳播模式[J].中國電化教育,2022,(12):61-67.
[8]李爽,鄭勤華,杜君磊,等.在線學習注意力投入特征與學習完成度的關(guān)系——基于點擊流數(shù)據(jù)的分析[J].中國電化教育,2021,(2):105-112.
[9]肖君,白慶春,陳沫,等.生成式人工智能賦能在線學習場景與實施路徑[J].電化教育研究,2023,(9):57-63、99.
[10]Kung T H, Cheatham M, Medenilla A, et al. Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models[J]. PLOS Digital Health, 2023,(2):e0000198.
[11]張華平,李林翰,李春錦.ChatGPT中文性能測評與風險應對[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,(3):16-25.
[12]申麗萍,何朝帆,曹東旭,等.大語言模型在中學歷史學科中的應用測評分析[J].現(xiàn)代教育技術(shù),2024,(2):62-71.
[13]劉月嫦,陳紫茹,楊敏,等.國內(nèi)外大語言模型在臨床檢驗題庫中的表現(xiàn)[J].臨床檢驗雜志,2023,(12):941-944.
[14]趙雪,趙志梟,孫鳳蘭,等.面向語言文學領(lǐng)域的大語言模型性能評測研究[J].外語電化教學,2023,(6):57-65、114.
[15]Tu S, Zhang Z, Yu J, et al. LittleMu: Deploying an online virtual teaching assistant via heterogeneous sources integration and chain of teach prompts[A]. Proceedings of the 32nd ACM International Conference on Information and Knowledge Management[C]. New York, NY, USA: Association for Computing Machinery, 2023:4843-4849.
[16]孫曉云.英語有效教學的準備策略[J].教學與管理,2009,(31):31-33.
[17]肖夏,李保強.數(shù)字化背景下“學案導學”教學模式優(yōu)化探究[J].教育理論與實踐,2016,(20):50-52.
[18]周宇,應鑫迪,陳文智.在線學習過程評價模型研究——以“學在浙大”在線教學平臺為例[J].現(xiàn)代教育技術(shù),2023,(7):118-125.
[19]陳昕昀,張春輝,劉綺君,等.基于結(jié)構(gòu)-過程-結(jié)果理論模型的醫(yī)學院校在線教學質(zhì)量評價研究[J].醫(yī)學教育管理,2022,(4):377-382.
[20]張婧婧,牛曉杰,姚自明,等.異步在線學習中的“準”同步視頻交互實驗研究[J].遠程教育雜志,2021,(3):52-64.
[21]何文濤,張夢麗,逯行,等.人工智能視域下人機協(xié)同教學模式構(gòu)建[J].現(xiàn)代遠距離教育,2023,(2):78-87.
[22]劉京魯,夏潔,王宇,等.成人在線深度學習何以發(fā)生?——基于“課程設(shè)計-教學實施-教學評價”框架的研究[J].電化教育研究,2023,(8):57-62、79.
[23]魏小東,習鵬飛.大語言模型驅(qū)動下的虛擬數(shù)字人第二語言教育應用研究[J].電化教育研究,2024,(5):75-82.
[24]王正青,阿衣布恩·別爾力克.ChatGPT升級:GPT-4應用于未來大學教學的可能價值與陷阱[J].現(xiàn)代遠距離教育,2023,(3):3-11.
[25]Yu J, Wang Y, Zhong Q, et al. MOOCCubeX: A large knowledge-centered repository for adaptive learning in MOOCs[A]. Proceedings of the 30th ACM International Conference on Information amp; Knowledge Management[C]. New York, NY, USA: Association for Computing Machinery, 2021:4643-4652.
[26]Papineni K, Roukos S, Ward T, et al. BLEU: A method for automatic evaluation of machine translation[A]. Proceedings of the 40th annual meeting of the Association for Computational Linguistics[C]. Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, 2002:311-318.
[27]Lin C Y. ROUGE: A package for automatic evaluation of summaries[A]. Text Summarization Branches Out[C]. Barcelona, Spain: Association for Computational Linguistics, 2004:74-81.
[28]Liu Y, Iter D, Xu Y, et al. G-Eval: NLG evaluation using GPT-4 with better human alignment[A]. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing[C]. Singapore: Association for Computational Linguistics, 2023:2511-2522.
[29]Zheng L, Chiang W L, Sheng Y, et al. Judging LLM-as-a-judge with mt-bench and chatbot arena[A]. Proceedings of the 37th International Conference on Neural Information Processing Systems[C]. New Orleans, Louisiana, USA: Neural Information Processing Systems Foundation, 2023:46595-46623.
[30]Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for Chinese bert[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021,29:3504-3514.
[31]Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022,35:24824-24837.
[32]黃榮懷,虎瑩,劉夢彧,等.在線學習的七個事實——基于超大規(guī)模在線教育的啟示[J].現(xiàn)代遠程教育研究,2021,(3):3-11.
[33]焦建利.ChatGPT:學校教育的朋友還是敵人?[J].現(xiàn)代教育技術(shù),2023,(4):5-15.
[34]張黎娜,余保華.ChatGPT技術(shù)下教師角色再定位[J].當代教育科學,2023,(10):57-70.
Large Language Model Assisting Teaching Evaluation in Online Learning Scenarios
ZHANG Huan1""""ZHENG Chen2""""ZHAO Yan1""""HE Yuan-Jing1""""LAI Yu-Xuan2,3[Corresponding Author]
(1. Information Technology Department, The Open University of China, Beijing, China 100039; 2. Engineering Research Center of Integration and Application of Digital Learning Technology, Ministry of Education, Beijing,
China 100039; 3. Faculty of Science and Engineering, The Open University of China, Beijing, China 100039)
Abstract:"Large language model (LLM) has improved efficiency and empowered all walks of life with its capabilities, and online learning has become the ideal “experimental field” for introducing LLM into the education field, with its diverse application scenarios and massive learning data. However, there are few systematic evaluations of LLM assisting teaching in online learning scenarios. Based on this, the paper firstly sorted out the application scenarios of the LLM in the three stages of “teaching preparation - teaching implementation - teaching evaluation” of online learning, and selected six tasks including video summary generation, video knowledge point extraction, single-choice question generation, discussion question generation, single-choice question answering and discussion question answering, to carry out evaluation experiments. After that, this paper adopted the combination method of manual and automatic evaluation to analyze the performance of eleven LLMs, such as Qwen-7B-chat and ChatGLM3-6B, on the above-mentioned six task. Finally, the conclusions of this evaluation experiment were summarized. It was found that among domestic LLM, GLM-3-Turbo performed well in the four tasks of video summary generation, video knowledge point extraction, discussion question generation and discussion question answering, while Qwen-max-1201 performed well in the two tasks of single-choice question generating and single-choice question answering. Furthermore, it has been observed that within the homologous series of model, the LLM with more parameters tended to show better performance in online learning task. The research in this paper can provide empirical reference for the selection of LLM in online learning scenarios, and help LLM better empower online learning.
Keywords:"large language model; online learning; task performance; teaching evaluation