999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

教育大語言模型的內涵、構建和挑戰

2024-10-11 00:00:00劉明吳忠明楊簫郭爍廖劍
現代遠程教育研究 2024年5期

摘要:大語言模型作為新一代人工智能的核心技術,為教育領域帶來前所未有的機遇。但由于以ChatGPT為代表的通用大語言模型僅能提供通用型反饋,難以與復雜的教育場景、育人方式相匹配,因而亟需構建專用的教育大語言模型。教育大語言模型具有教育知識庫的全面性、教學內容生成的安全性、反饋信息的教育價值性、問題解決的個性化、人機交互的多模態性、用戶使用的易用性等特點和優勢。其構建流程主要包括6個步驟:一是制定教育目標,預設模型構建標準與技術范式;二是選擇或設計大語言模型基座,對齊教育任務屬性;三是構建教育語料庫,實現無序數據的教育價值轉向;四是開展模型訓練或提示,獲得教育任務通用和細粒度知識;五是鏈接外部教育知識庫,靈活擴展模型知識和學生模型;六是評價教育大語言模型,讓模型“懂人理”。當前教育大語言模型的應用主要聚焦編程、課后閱讀和計算機教育三類教學場景,有助于學生計算思維、提問能力和編程技能等高階能力和學科基本能力的提升。未來教育大語言模型應由多方合力共建語料庫與知識庫以統一標準,嘗試應用新技術以破解多模態理解缺陷和計算困境,深入探索人機協同教學機制以實現其與高階教育目標的匹配。

關鍵詞:教育大語言模型;生成式人工智能;人工智能教育應用;知識增強

中圖分類號:G434 文獻標識碼:A 文章編號:1009-5195(2024)05-0050-11 doi10.3969/j.issn.1009-5195.2024.05.006

基金項目:2024年度國家自然科學基金面上項目“知識增強大語言模型的科學課教學問題智能生成方法研究”(62477039);2024年度重慶市教育委員會科學技術研究計劃重點項目“個性化科學教育大語言模型的關鍵技術與應用示范研究”(KJZD-K202400208)。

作者簡介:劉明,博士,教授,博士生導師,西南大學教育學部(重慶 400715);吳忠明,博士研究生,西南大學教育學部(重慶 400715);楊簫,碩士研究生,西南大學教育學部(重慶 400715);郭爍,博士研究生,西南大學教育學部(重慶 400715);廖劍,博士,副教授,碩士生導師,西南大學教育學部(重慶 400715)。

黨的二十大報告提出,要“構建新一代信息技術、人工智能、生物技術、新能源、新材料、高端裝備、綠色環保等一批新的增長引擎”,“推進教育數字化”(新華社,2022)。教育數字化轉型既是構建教育新生態、支撐教育高質量發展的必由之路(祝智庭等,2022),也是推進教育公平發展的有效途徑。教育部懷進鵬部長在談及教育、科技、人才、創新等領域的改革時亦指出,要“大力推進智慧校園建設,打造中國版人工智能教育大模型”(中華人民共和國教育部,2024)。面對新一輪科技革命和產業變革的深入發展,以生成式人工智能為代表的新一代人工智能技術成為引領教育數字化轉型的重要驅動力,將推動教育領域迎來人機協同、跨界融合、共創共享的新時代(戴嶺等,2023)。大語言模型作為新一代人工智能的核心技術,主要有兩大發展方向:一是以ChatGPT為代表的通用大語言模型,二是針對特定領域或任務進行優化設計的專用大語言模型。由于教育內容的復雜性、教育場景的多樣性和教育形式的靈活性,傳統通用大語言模型難以充分理解教育場景和信息的內在關系,其普適化、通用化的生成內容無法與現實教育內容及教育主體高度匹配,也難以實現與教育場景的深度耦合,因此教育領域亟需設計、開發和構建專用的教育大語言模型。本研究通過分析當前國內外主流的教育領域大語言模型的類型、技術特征和優缺點,提出了教育大語言模型的主要內涵與特征,描述了教育大語言模型的主要構建方法與流程,并探討了當前教育大語言模型開發與建設面臨的挑戰與應對策略,以期為新一代人工智能賦能教育數字化轉型提供參考。

一、大語言模型教育應用綜述

隨著2022年ChatGPT將大語言模型引入大眾視野,大語言模型行業發展如火如荼,諸如LLaMA、OPT、Baichuan等開源大語言模型如雨后春筍般發布,為垂直領域的教育大語言模型奠定了良好的技術基座。通過對近三年教育領域大語言模型相關的學術論文、行業咨詢報告、Github開源項目以及開源數據競賽等進行檢索,本研究共梳理出29個可應用于教育領域的大語言模型。進一步分析發現,當前對教育領域大語言模型的探索處于起步階段,研究主體主要是商業公司和高校研究團隊;研究平臺主要有兩類:一是企業、高校或研究院設立的研究平臺,二是以開源數據競賽、國際教育會議工作坊等為支撐的開放平臺。

從教育應用視角出發,本研究將教育領域大語言模型劃分為通用型教育大語言模型、指令微調型教育大語言模型、數據驅動型教育大語言模型和知識增強型教育大語言模型四種技術范式。表1對15個主流教育領域的大語言模型的應用場景、特點與不足等進行了梳理和比較。

1.通用型教育大語言模型

通用型教育大語言模型是指在特定教育任務或教學活動的指導下,教育用戶直接利用ChatGPT、星火認知大模型等對話式聊天機器人和開源大語言模型的通用知識,通過主動對話的形式解決教育問題、輔助教學活動的大語言模型。較為常見的工具有ChatGPT、星火認知大模型、文心一言等。該范式是大語言模型教育應用的初等形態,研究者已在啟發式對話教學(李海峰等,2024)、學習行為分析(Snyder et al.,2024)和作業評價(王麗等,2023)等場景下開展了教育應用,具有適用場域廣泛、教育實效明顯、師生使用部署便捷等優勢,但也存在因模型閉源和領域深度知識缺失而帶來的教育提示語編寫困難、反饋的教育價值不高、復雜教育任務場景下準確度不足、數據隱私與安全隱患等問題。

2.指令微調型教育大語言模型

指令微調型教育大語言模型是指在特定教育任務引導下,通過構建基于教育學或心理學理論指導的結構化文本,來表達規范的教育微調數據集、微調指令數據集或教育提示語,以此對通用大語言模型開展提示輸出或指令調優訓練的垂直領域大語言模型。此類范式下,最具代表性的模型有國際中文教育大語言模型“桃李”、九章大模型(MathGPT)、中文兒童陪伴大語言模型“巧板”,以及用于教育文本評估、課堂活動指導和教學問答的大語言模型“Merlyn Edu”(Jagmohan et al.,2023)。有學者使用DistilBERT-66M模型和自整理數據集,經微調形成了支持“困惑、情感和緊迫”三個維度的在線課堂分析大語言模型(Clavié et al.,2019)。此類教育大語言模型在保留原有基座模型泛化能力的基礎上,簡化了師生撰寫復雜教育提示語的過程,提升了模型反饋的教育價值,也提高了目標教育任務的準確度。但由于其有效微調指令數據量不足和不均衡等因素,使得此類范式下的教育大語言模型缺乏對學科知識的認知,進而導致其在復雜任務場景下的反饋效果不佳、模型過擬合,甚至生成有害信息等。

3.數據驅動型教育大語言模型

數據驅動型教育大語言模型是指在指令微調型教育大語言模型構建過程中,在開展指令微調前,使用與任務相關的公共數據集或通用教育數據集構建預訓練數據集(如教學數據、百科知識等),對大語言模型基座進行預訓練,進而實現“預訓練+微調”雙階段訓練的教育大語言模型。此類范式下,代表性的研究有:其一,Bulathwela等(2023)基于T5基座模型,使用開源S2ORC數據集進行預訓練,并使用SQuAD、SciQ開源問答數據集進行兩階段微調,構建了教育問題生成大語言模型“EduQG+”。其二,MetaAI自研了基于自回歸架構的大語言模型,從預印本服務器、Semantic Scholar、教材、PubChem、Common Crawl等資源中過濾并構建了880億Token論文數據庫、70億Token引文數據庫、科學知識庫、學術與科學語料庫、科學領域代碼數據庫,由此構建了用于科學知識推理、檢索與組合的教育大語言模型“Galactica”(Taylor et al.,2022)。其三,Zhao等(2024)基于LLaMA-13B基座模型,使用化學論文和課本數據庫進行預訓練,并使用科學相關文本提示語進行指令調優,最終構建了可實現化學知識問答、分子式設計與反應分析的化學教育大語言模型“ChemDFM”。相較于指令微調型教育大語言模型,此類教育大語言模型一定程度上解決了準確性、過擬合和有害信息等問題;但因訓練數據質量參差不齊、知識時效性難以保障、多模態表示缺失等因素,致使該模型面對新知識時可能仍無法滿足教育任務的需要,同時生成內容的深度也存在不足。

4.知識增強型教育大語言模型

知識增強型教育大語言模型是指在上述教育大語言模型進行推理、生成響應之前,充分引入檢索增強生成(Retrieval-Augmented Generation,RAG)技術,通過檢索模型輸入與預設外部教育知識庫(如教材、學科知識圖譜等)的相關內容或引用網絡搜索引擎檢索結果,以實現對教育大語言模型的輸出優化。例如,華東師范大學的社會認知計算團隊基于LLaMA-7B/13B基座,在教育學與心理學理論指導下,以自建中文教材與經過過濾的開源指令調優對話數據集進行預訓練,并以自建問答、情感支持、啟發式對話和論文評估等數據集進行微調,同時整合了基于搜索引擎的檢索增強技術,由此構建了可用于知識問答、情感咨詢、產婆術對話教學與文本評估等眾多教育場景的教育對話大語言模型“EduChat”(Dan et al.,2023)。浙江大學的研究團隊基于Qwen-7B基座模型,首先利用通用中文語料庫對其進行微調;其次利用教材類的教育權威知識庫構建本地知識庫,并以此對模型進行第二輪無監督微調;隨后基于布魯姆分類法在多種教育任務場景中構建指標模板,以此收集教育指令數據集并進行第三輪指令微調;最后引入基于本地知識庫和搜索引擎兩類檢索方法進行輸出結果優化,由此構建了檢索增強的教育大語言模型“智海—三樂”(WisdomBot)。方略研究院(2024)利用GPT結構大語言模型,運用自建的互聯網內容數據、高校管理與研究的智庫數據、人類反饋數據,以及持續更新的高等教育業務場景和主題知識庫,構建了面向高校管理和智庫咨詢的教育大語言模型“一答”。此類技術范式能夠通過引入外部知識庫的方式,實現教育大語言模型的知識可持續更新,并進一步提升反饋的準確性和實用性。然而,由于現有研究中普遍缺乏其與學生畫像或學生模型的有效整合,進而導致其普遍存在個性化學習支持不足的問題。

基于上述分析,本研究從大語言模型教育應用的技術范式、場景應用、教育反饋價值和教育知識深度四個方面構建了如圖1所示的大語言模型教育應用發展框架。當前大語言模型的教育應用已基本涵蓋智慧教學、智慧學習、智慧管理與智慧評價四大場景,但多以智慧學習和評價場景為主。隨著技術手段的不斷精進,以指令微調、教育大數據預訓練、知識增強等技術對大語言模型進行二次或多次開發的教育WTXdSHSFlmW5dPlzHWlDrg==大語言模型將會不斷涌現,其不僅能降低教育用戶的使用門檻,逐步擺脫通用大語言模型在開放域知識上的無序性和在教育反饋上的低階性,而且隨著模型的教育知識深度不斷強化,教育知識實時更新的能力將不斷得到拓展,教育反饋價值也將由通用性走向具有認知和元認知干預效果的個性化,進而促進教、學、管、評四大場景下的協同應用效果從簡單的拓展發展為減負或“增援”(樂惠驍等,2022)。另外,數據的隱私保護和復雜教育場景下的泛化能力也將得到有效提升,進而為教育數字化轉型的基礎設施建設提供堅實的技術基座。當然其也面臨生成內容安全隱患、開發經濟技術成本高、多模態理解能力欠缺等問題。

二、教育大語言模型的內涵與特征

基于上文對主流教育大語言模型的分析和比較,本研究將教育大語言模型界定如下:教育大語言模型是指在教育理論或規范指導下,在特定教學場景中,使用教育大數據進行提示或指令微調、預訓練甚至引入外部知識進行檢索增強而生成的深度神經網絡語言模型,是自然語言處理、知識庫和教育大數據技術等的集合體,其以人機對話或者智能分析服務的形式,為教師、學生、管理者和家長等教育主體,提供高效化教學資源創建、智能化人機協同教與學、個性化教育反饋與評價和精準化教育管理與決策服務等功能,旨在實現人類智慧與機器智能的協同共生。

該定義中,教育大數據是指教育活動中產生的,并在教育理論或規范下進行修正和標準化的大規模數據,包括教學反思日志、心理輔導文本、報考咨詢記錄、MOOC論壇評論等。深度神經網絡模型是指基于Transformer架構的神經網絡模型,包括主流的輕量級BERT到重量級T5以及超重量級的LLaMA模型等。與通用型大語言模型相比,教育大語言模型具有以下典型特征:

一是教育知識庫的全面性。教育大語言模型依托教育大數據預訓練和外部知識檢索增強技術,保障教育大語言模型在教育情境下具有相對廣泛和及時更新的知識結構,包括教育情境下的教育知識、科學研究和社會實踐中涉及的各學科領域、不同層次水平的知識等,體現了教育大語言模型的包容性,并能夠準確地理解與生成內容。

二是教學內容生成的安全性。通用大語言模型仍存在生成內容版權爭議、虛假信息、違法用途和價值導向不安全等倫理問題(焦建利,2023)。而教育大語言模型作為支持落實立德樹人任務的數字基座,能夠主動保障在各類教育情境下快速生成健康、安全、高質量的教育內容,實現主動追溯非原創內容源頭,并根據用戶偏好實現推理過程的透明闡述,同時能避免有害或與價值導向偏離的信息輸送,繼而提升教育大語言模型的可信度。

三是反饋信息的教育價值性。當前通用大語言模型教育反饋能力僅停留在淺層次的糾錯型反饋(徐曉藝等,2024),而教育大語言模型融合了教育學、心理學和學習科學相關理論,能夠生成具有啟發性和可實施性的教育反饋,如支架引導、糾錯反饋等認知型反饋,以及學習策略指導、自我調節等元認知反饋,有助于促進學習者學科核心素養和高階思維能力的發展。

四是問題解決的個性化。面對教育情境的復雜性與教育活動中任務的復雜性(翟雪松等,2023),教育大語言模型能精準把握教育目標和學生畫像,理解多樣教育場景下多元化的用戶需求,充當諸如助教、學伴、助管等不同角色,適應自主學習、小組學習、情景化學習等多種學習情境,實現個性化學習、差異化教學、精準化評價、數據驅動化管理。

五是人機交互的多模態性。教育數據是外在表現數據與情感、認知、技能等內在機理數據的統合(牟智佳,2020),教育大語言模型應當具備圖片、音頻、視頻等多模態教育數據的識別和融合能力,推動人形教育機器人、數字孿生等前沿教育技術輔助教學,揭示深層次教育規律,促進教育公平。

六是用戶使用的易用性。通用大語言模型通常需要利用較為精準的提示語來輸出高質量的內容。教育大語言模型能對不同層級用戶的認知水平、信息素養等進行充分考量,并從訓練數據和模型架構兩個層面,降低提示語、上下文等外部因素對輸出內容的影響。

上述特征是教育大語言模型的理想特征,受限于教育大數據建設、計算能力和技術發展瓶頸等因素,現有的教育大語言模型可能還無法囊括上述全部特征,但其依舊是教育大語言模型未來應當遵循與發展的目標。未來應當在教育大語言模型構建流程的基礎上,不斷開展教育場景的適應性拓展。

三、教育大語言模型構建流程

基于教育大語言模型的內涵與特征,本研究提出基于混合增強生成技術的教育大語言模型構建流程。其中,混合增強生成技術是指在“人在回路”設計理念指引下,與一線教師協同增強大語言模型生成內容的安全性以及反饋信息的教育價值性,并利用檢索增強生成技術解決大語言模型中教育領域知識不足,進而提升知識結構全面性的方法。教育大語言模型開發的每個階段都需開發者、一線教師、專家、學生和家長的協同參與,以增強用戶對模型的信任度。模型構建流程包括制定教育目標、選擇或設計大語言模型、構建教育語料庫、開展模型訓練或提示、鏈接外部教育知識庫、評價模型等6個步驟。其邏輯關系與主要內容如圖2所示。

1.制定教育目標,預設模型構建標準與技術范式

該環節是開發教育大語言模型的預備工作,也是區別于通用大語言模型構建的核心流程,主要包含教育目標預設、教育/心理理論挖掘、評價規范與指令模板構建等流程。在教育目標預設層面,需要進行用戶需求的教育痛點分析、潛在使用場景分析、“合規性”與“可行性”分析以及構建深度確定。首先,開發團隊要基于對用戶的研究或數據分析,挖掘具體的教育痛點、對應需求與潛在使用場景,進而確定具體的教育目標。其次,確認模型構建的合規性,如是否有政策或法規的限定或支持,應用對象是否涉及相關法律法規或學術倫理的限制。再次,評估模型構建的可行性,如現有教育大數據是否完備、開發人員現有技術水平能否保障、硬件與資金投入是否充足、教育領域專家能否支持開發全程的咨詢與價值觀對齊工作等。最后,依據上述決策內容,確定構建的大模型類型,是指令微調型、數據驅動型還是知識增強型的教育大語言模型。教育/心理理論挖掘是指根據教育目標,選擇合適的教育學或心理學理論,來指導教育大語言模型生成內容邏輯與價值理性的過程,如選用蘇格拉底產婆術理論來指導啟發式對話任務。評價規范是指開發團隊在教育/心理理論指導下,構建教育大數據評估指標體系、語言合規性過濾標準和教育大語言模型生成內容人工評價標準等,進而保障生成內容的安全性和教育場景的適應性。指令模板是指在開發團隊根據目標任務的實際需求,遵循理論規范,構建教育語料庫標準化表達的模板,如基于布魯姆認知分類法則構建的面向高階認知對話活動的微調指令語料庫模板。

2.選擇或設計大語言模型基座,對齊教育任務屬性

基座大語言模型的選擇或設計是構建教育大語言模型的基礎。當前主流的教育大語言模型均通過選擇通用大語言模型開展指令微調或“預訓練+微調”,少部分教育科技企業在自主設計大語言模型的基礎上進一步構建了教育大語言模型。在設計大語言模型層面,需充分考慮教育目標任務的特征,開展基礎架構選擇與結構拓展。基礎架構的選擇應與大語言模型的四大技術路線相照應。例如,諸如MOOC情感分類等輕量級理解型教育任務宜選擇BERT類自編碼型大語言模型架構,人機對話、科學推理等有條件生成型教育任務宜選擇LLaMA、Qwen等GPT類自回歸型大語言模型架構,文本摘要、機器翻譯等多語言無條件生成型任務宜選擇mT5、BART等序列轉序列型大語言模型架構,而融合上述多種教育任務的則可以選擇ChatGLM、ERNIE等GLM類自回歸空白填充型大語言模型架構。結構拓展需根據教育任務需求在基礎架構上進行拓展,如有多模態輸入任務的應當考慮在編碼階段增加多模態融合、一致性對齊和多層次學習表示等的結構設計。在選擇大語言模型層面,應當從教育目標的任務類型與大語言模型技術路線和細粒度特征對齊兩個視角進行選擇,如可以選擇ChatGLM3、mT5、FireFly-Qwen、Alpaca-LoRA等。

3.構建教育語料庫,實現無序數據的教育價值轉向

要訓練出高性能的教育大語言模型,需要從數據的采集來源和預處理方法兩個方面著手。在采集來源方面,要重點關注無監督的通用型數據集和有監督的特定任務型數據集。通用型數據集主要是指大規模、易獲取和多樣性強的開放教育語料庫,主要包括中小學和高等教育教材和相關學科書籍、教育政務網站、期刊文獻數據庫、MOOC論壇對話、代碼庫、古詩詞等。例如,大規模中文對話數據集BELLE包含了約80萬條多輪對話的開源數據,School Math包含了約25萬條中文數學題及解題過程的數據(Ji et al.,2023)。特定教學任務型數據集主要是指為了提升教育大語言模型在特定教學場景(如教學反饋、心理輔導等)下的垂直能力而自主構建或開源的領域語料庫、對話數據集和人類指令集等。例如,EduChat為增強其情感支持、對話式教學、寫作評價功能,構建了中文情感支持數據集ESConv-zh、對話教學語料庫和寫作評價語料庫(K?pf et al.,2023)。在預處理方法層面,首先要基于第一個環節中指定的評價規范,結合教育專家的建議,對教育大數據開展質量過濾、去重、隱私去除、分詞等流程(Zhao et al.,2023);其次要依據預設的指令模板對教育數據集進行整理與統一表達,如將傳統問答語料庫轉換為蘇格拉底式對話語料庫,實現由傳統數據集向安全、具有特定教育價值的語料庫轉換。

4.開展模型訓練或提示,獲得教育任務通用和細粒度知識

預訓練與指令微調或提示學習是教育大語言模型獲得任務能力的核心步驟。在指令微調型教育大語言模型構建流程中,可以開展提示學習。提示學習克服了微調的高成本劣勢,使得大語言模型在不顯著改變其結構和參數的條件下,通過輸入“提示”文本,即可增強模型的泛化能力。在概念上,提示是一種輸入形式,用于指示教育大語言模型在執行特定教育任務時應該采取什么行動或生成什么輸出。在實現方式上,當前的提示學習主要有情境學習提示和思維鏈提示兩類技術路徑,前者主要通過問題描述、問答樣本和問題來提示大語言模型,后者在問答樣本中涉及推理步驟。在實際效果上,提示學習可以方便地提供最新的知識,降低訓練計算成本,同時少量樣本的提示學習效果也更優于傳統微調(Adigwe et al.,2023)。因此,在應用策略上,針對BERT、T5等輕量級和重量級的大語言模型可以采用微調,而針對如GPT-3.5-Turbo、GPT-2等超重量級大語言模型則可以考慮采用提示學習策略(劉明等,2023)。

在數據驅動型和知識增強型教育大語言模型構建流程中,需要開展基于“預訓練+微調”的雙階段訓練過程。在預訓練層面,需要引入無監督的、中文教育場景的大規模通用數據集進行預訓練,讓大語言模型獲得解決教育領域任務的通用能力。在微調層面,需要根據教育目標,細分任務需求,再引入指令微調流程,讓教育大語言模型再獲得特定的下游任務能力。通過微調后的大語言模型可以更好地適配到具體的教育目標中。當前,大語言模型領域主要有指令微調和對齊微調兩類微調方法。其中,指令微調需要先構建具有“描述—(解釋—輸入)—輸出”格式的實例集,然后以有監督方式進行微調,實例的格式設計和合理的數量增量可以提升大語言模型在教育目標中的泛化能力。對齊微調主要是為了降低教育大語言模型的虛假信息、認知沖突等有害信息而進行的微調。教育大語言模型中的對齊微調主要體現為,融合“人在回路”理念的強化學習,構建獎勵模型,實現模型輸出內容與人類價值觀的對齊。

5.鏈接外部教育知識庫,靈活擴展模型知識和學生模型

知識檢索增強環節是知識增強型教育大語言模型構建的必要環節,是保障教育大語言模型緩解外部教育知識局限性、降低反饋幻覺、及時更新知識和實現個性化學習的外包服務,主要包括構建本地教育知識庫、學生模型和搜索引擎檢索三類方法。三類方法均包含知識檢索和提示語注入兩個步驟,其中構建本地教育知識庫和學生模型兩類方法中還包含教育知識準備、學生模型構建、知識入庫三個前置步驟。具體而言,教育知識準備是指收集外部教育知識數據并進行向量化的過程,其可被劃分為結構化和非結構化教育知識兩類。結構化教育知識是指學科知識圖譜、教育評估反饋數據、教學資源元數據等具有標準化格式、有清晰數據屬性定義、可供人和計算機高效訪問的教育數據。非結構化教育知識是指教師上傳的課程文檔、文獻、教材、教學多媒體資源、編碼代碼和數理公式等未設定數據模型或進行預定義排序的教育數據。學生模型是提升教育大語言模型個性化能力的基礎設置,本質上它是一個存儲學習成績、學習歷史、學習能力、性格與情感等數據的教育知識庫,其通過一定的數據過濾、關鍵信息提取、分塊、格式化規范,可形成結構化和非結構化兩類離線教育知識集,隨后可根據文本特征選擇嵌入模型(如ERNIE-Embedding、BGE等),并將知識集中的文本數據轉化為向量矩陣。知識入庫是指將離線教育知識集進行向量化后,建立索引,寫入并構建離線教育知識庫的過程。知識檢索主要是指根據教育用戶的提問和歷史對話數據,在離線教育知識庫或搜索引擎中挖掘與提問或歷史對話最相關知識的過程。提示語注入是指將知識檢索環節挖掘到的最相關知識作為指令加入提示語的過程,并通過將組合后的指令輸入教育大語言模型,實現輸出效果的優化。

6.評價教育大語言模型,讓模型“懂人理”

完成教育大語言模型的構建后,則需要評估、比較大語言模型的性能并更新獎勵模型。教育大語言模型主要有兩種評估方式:機器評價與人工評價。在機器評價方面,主要考察BERTScore和DialogRPT兩個評價指標(Dan et al.,2023)。其中,BERTScore是指通過比較評價數據集(如C-Eval、GAOKAO等)中的目標文本與教育大語言模型生成的文本之間的余弦相似度,并對生成的精準度、召回率和F1 Score等數據進行類比。DialogRPT主要用來評估模型生成文本的流暢度,相關參數包括updown、human_vs_rand、human_vs_machine和final(average & best)。在人工評價方面,需要依據在制定教育目標環節構建的評價體系進行,其包括課程知識回答正確率計算、滿意度和安全性評估方法、教育專家或教育大語言模型受眾問卷調查模板或訪談提綱、機器與專家反饋模板的相似度計算、機器對用戶提問的理解程度評價方法和機器生成內容的教育價值評價體系等。其次,基于機器評價和人工評價結果,對教育大語言模型開展置信度評估,對置信度較低的環節進行二次訓練與開發,例如根據用戶反饋對教育語料庫進行重新設計,對基座大模型的選擇、設計方法甚至預訓練和微調方法進行策略調整。最后,需要收集高質量的教育專家評價反饋數據,采用排序、問題約束、基于規則等方法對數據進行清理,調用基于人類反饋的強化學習算法(如近端策略優化算法PPO、自然語言策略優化算法NLPO)構建獎勵模型,對模型輸出結果進行優化和過濾,使得教育大語言模型的輸出結果更好地與人類價值觀對齊(Zhao et al.,2023)。

四、教育大語言模型應用案例

基于教育大語言模型的技術范式,已有研究者在不同范式下將教育大語言模型應用到教育領域,并取得了一定的效果。筆者將從編程、課后閱讀和計算機教育三類教學場景呈現教育大語言模型賦能學生計算思維、提問能力和編程技能等高階能力和學科基本能力提升的應用案例。

1.編程教學場景下指令調優型教育大語言模型培養學生計算思維能力

計算思維是智慧教育時代學生需要具備的最為重要的核心素養之一,如何在科學、編程等教學中系統地開展計算思維教學,成為學校應對未來挑戰和培養未來人才的關鍵路徑(陳鵬等,2023)。有學者首先基于計算思維理論框架與支架式教學理論,構建了基于ChatGPT提示微調的智能編程支架學習大語言模型,其包含解決方案評估、代碼評估與自主對話三大功能模塊以及對應的多輪對話提示語模板,并基于GPT-3.5 API進行調優。其次基于理論框架與教育大語言模型,構建了智能編程支架學習系統,并在S大學教育技術學專業課程中開展了為期一個學期的教學實驗,44名大二學生被隨機分配到實驗組(使用該系統開展編程學習)和對照組(在傳統的教師指導模式下開展教學)。通過學期始末的計算思維能力測驗對照與期末的編程學習系統接受度問卷調查,結果表明實驗組學生在編程能力測驗中的平均得分高于對照組學生,大部分學生對該編程系統持積極態度,且相較于傳統教學模式,該智能編程支架學習系統能有效提升學生的計算思維能力;但研究還發現該系統以及調優后的模型在理解學生復雜需求的準確性上仍存在不足(廖劍等,2024;Liao et al.,2024)。

2.課后閱讀場景下數據驅動型教育大語言模型培養學生提問意識與閱讀能力

提問意識與能力是批判性思維、問題解決能力等核心素養的重要構成要素,其與閱讀理解能力有著顯著的相關性。針對傳統閱讀理解教學中普遍存在的提問少、水平低、層次淺等問題,有學者構建了面向閱讀理解教學場景下學生自主提問的教育大語言模型Co-Asker。該模型基于T5-Pegasus 275M基座,使用開源中文維基百科數據集進行預訓練,并利用中文閱讀理解數據集和中醫藥問答語料庫進行微調。研究還構建了人機協同問題共創系統,并在某大學智慧教育通識課程中開展教育實驗。結果表明,Co-Asker可以產生高質量的類人化問題,激發學生的提問興趣和投入度,加深學生對淺層次閱讀內容的理解。但研究也發現,該系統難以產生能啟發學生深層次思考的深度問題,且可能會引起部分學生在學習任務中對問題生成功能的過度依賴,同時也存在模型的大規模參數與數據的量級導致智能提問模型的訓練時間與經濟成本消耗過高等問題(Liu & Zhang et al.,2024)。

3.計算機教育場景下知識增強型教育大語言模型提升學生編程技能

如何開展融合通識與專業的計算機教育課程是提升學生計算思維和數字化能力的關鍵。有學者在哈佛大學計算機科學導論課程項目平臺CS50中,為了實現對學生在線課程學習的“一對一”指導,增設了智能化編程教學指導工具。該工具以GPT-4作為基座模型,引入檢索增強技術,將課程講授內容以30秒為時間窗口進行分割,并逐一使用OpenAI的文本嵌入模型進行向量化并存儲于ChromaDB向量數據庫中。之后該模型會根據學生的輸入,在向量數據庫中查詢講座片段,最后將最相關的內容整合在提示語中,由此實現解釋代碼片段、修改代碼風格、課程查詢等功能,并降低GPT-4模型的幻覺現象。將該工具應用于參與CS50課程項目的70名學生中,通過學生反饋和專家驗證回應的準確性發現,該工具在指導學生開展具有挑戰性的問題上是有效且可靠的,同時其回應的課程知識的正確率達到88%(Liu & Zenke et al.,2024)。然而,由于微調語料庫的缺失,此模型也存在反饋質量不穩定的問題,且忽略了人機協同教學設計的作用。

五、教育大語言模型的實施挑戰與應對策略

1.語料庫與知識庫的構建缺乏統一的標準,需多方合力共建

教育大語言模型具有的知識全面性和反饋信息的教育價值性,其本質是由預訓練或微調語料庫的完備性及其教育性決定的;而教育需求和問題響應個性化的實現則取決于檢索增強生成的外部教育知識庫中學生模型知識庫的構建。從數據要素視角來看,當前制約教育大語言模型發展的主要因素有兩個:一是非結構化、多模態問答語料庫的缺乏(邢蓓蓓等,2016),二是具有特定教育價值的指令調優語料庫和學生模型數據庫建設標準的缺失。

針對上述問題,可以從數據建設生態和統一標準構建兩個角度進行應對。針對數據建設生態問題,可從宏觀、中觀和微觀三個視角構建應對策略。在宏觀治理層面,政府與教育部門應推動教育大語言模型基礎設施和公共訓練數據資源平臺建設,重視非結構化教育過程數據的挖掘與治理。同時,可依托政府背書、科技企業聯動、學?;蜓芯吭簬优c智慧教育專家指導的模式,以教育數據開源倡議、開放數據競賽等形式(如BEA競賽),帶動學生與從業者共同參與教育領域數據的構建、挖掘與治理,從而形成高質量教育數據建設的新生態。在中觀學校層面,應構建更加完備的非結構化數據服務與管理基礎設施,標準化數據接口,形成全域協同的數據共創機制,實現不同部門與業務流程的知識庫的流通與融合,由此既可為構建“校園百事通”奠定數據基礎,也可為服務區域和國家教育數字化轉型奠定良好條件。在微觀開發團隊層面,可以通過反向翻譯法,將公開的英文教育數據集(如OpenAssistant問答數據集、ESConv英文心理咨詢數據集)進行翻譯,擴充中文教育數據集范圍。在教育大語言模型指令調優和學生模型標準建設方面,應聯同教育學、學習科學、心理學和自然語言處理領域的專家,從學科教學、啟發式問答等方面開展語料庫構建的標準化格式與規范制定,并從基本信息、內容偏好、學習風格、平時表現等方面開展學生模型知識庫的結構與數據標準設計。

2.模型結構的多模態理解缺陷和計算困境凸顯,亟須嘗試應用新的技術

當前,高等學??蒲袌F隊獨立開展教育大語言模型研究,主要面臨兩大核心挑戰:一是已有教育大語言模型在選用基座模型的輸入嵌入、注意力機制等方面時對多模態的理解能力不足;二是大語言模型龐大的參數規模對算力的需求很大,導致教育大語言模型的訓練和推理時間與硬件成本居高不下。在保持現有計算技術條件下,亟須嘗試應用新的技術。

針對模型結構的多模態理解缺陷問題,可以考慮引入視覺語言模型,或在輸入嵌入層面引入圖片、文本、知識圖譜等多模態數據一致性對齊嵌入模型,并在注意力機制部分引入交叉注意力機制、局部注意力機制等,進而提升大語言模型的多模態理解能力。針對算力需求困境問題,可以從訓練策略調整和降低模型復雜度兩方面著手。在訓練策略調整方面,可以嘗試使用分布式云計算策略,通過騰訊云HCC、百度智能云千帆大模型平臺構建高性能計算集群,進而降低教育大語言模型構建的門檻與時間成本。在降低模型復雜度方面,可以基于知識蒸餾技術,構建諸如EduDistilBERT一類的“教育小模型”(Clavié et al.,2019),在最大程度保留教育大語言模型性能的同時,壓縮模型的復雜度,進而降低教育大語言模型的推理成本。

3.教育大語言模型與高階教育目標匹配難,亟待深入探索人機協同教學機制

教育大語言模型中指令調優類模型在復雜教育情境下存在理解能力不足的問題,數據驅動型與知識增強型模型雖在特定教育任務下的回應具有適應性且準確率較高,但在已有的學習活動設計中,教育大語言模型多以“喂養型”人機會話形式向學生傳授知識,盡管這在一定程度上能提升學習效率,降低教師壓力,但也可能讓學生產生惰性依賴,難以在學習效果提升、高階思維能力培養等方面實現可持續發展。

解決上述問題需要深度探索融合教育大語言模型的人機協同教學機制。一方面,在機器智能層面,教育大語言模型應當在蘇格拉底對話理論、協作知識建構理論等高階學習理論與支架指導下形成高質量語料庫,并開展預訓練與微調,同時結合外部知識,讓教育大語言模型在學習活動中充分發揮作為協作、啟發、反思等高階思維活動的引導者和師生外部知識拓展的認知大腦。此外,教育大語言模型應當與教育機器人、虛擬代理和數字孿生等技術進行深度融合,實現物理與虛擬空間中認知中樞的構建與信息的具身貫通。另一方面,在人類智慧方面,教師需充分發揮其教學智慧,探索教育大語言模型賦能高階認知學習活動的實踐路徑,將教育大語言模型的技術、人機交互特征與教學活動要素進行關聯映射,進而動態把握教學過程,實現差異化角色設計,并在正確的人機協同學習觀引導下規范學生學習動機與行為,繼而通過對教學實踐的反思與反饋進一步反哺教育大語言模型。

在大語言模型等智能技術賦能教育數字化轉型的熱潮下,本研究從教育大語言模型的內涵與特征入手,梳理并總結了教育大語言模型的主要構建流程,并對實際開發中可能存在的問題與挑戰提出了應對之策,以期為大語言模型賦能教育發展提供參考。當下教育大語言模型主要聚焦教育目標任務指導下的數據、模型等教育基礎設施建設方面的研究,未來將會涌現更多以育人為核心要義的教育大語言模型。此類大語言模型在基礎能力上更關注對多模態知識的理解,其不僅具有強大的教育目標任務生成能力,更能夠以“教育智能體”的形態融入教育機器人雙師教學、虛擬現實學習環境下的虛擬教育代理,并以更加高階的人機協同角色適應更多教育場景,從而賦能教師專業發展和學生成長。

參考文獻:

[1]陳鵬,王曉,楊姝等(2023).可視化編程能有效促進K12學生的發展嗎——基于SSCI期刊39項實驗和準實驗的元分析[J].現代遠程教育研究,35(4):102-112.

[2]戴嶺,胡姣,祝智庭(2023).ChatGPT賦能教育數字化轉型的新方略[J].開放教育研究,29(4):41-48.

[3]方略研究院(2024).高教管理與研究平臺[EB/OL]. [2024-04-08].https://www.squarestrategics.com/publicize.

[4]焦建利(2023).ChatGPT:學校教育的朋友還是敵人?[J].現代教育技術,33(4):5-15.

[5]樂惠驍,汪瓊(2022).人機協作教學:沖突、動機與改進[J].開放教育研究,28(6):20-26.

[6]李海峰,王煒,李廣鑫等(2024).智能助產術教學法——以“智能蘇格拉底會話機器人”教學實踐為例[J].開放教育研究,30(2):89-99.

[7]廖劍,許邯鄲,劉明等(2024).數智分身:人工智能時代教師本位人機共教模式[J].現代遠程教育研究,36(4):85-93.

[8]劉明,吳忠明,廖劍等(2023).大語言模型的教育應用:原理、現狀與挑戰——從輕量級BERT到對話式ChatGPT[J].現代教育技術,33(8):19-28.

[9]牟智佳(2020).多模態學習分析:學習分析研究新生長點[J].電化教育研究,41(5):27-32,51.

[10]王麗,李艷,陳新亞等(2023).ChatGPT支持的學生論證內容評價與反饋——基于兩種提問設計的實證比較[J].現代遠程教育研究,35(4):83-91.

[11]新華社(2022).高舉中國特色社會主義偉大旗幟 為全面建設社會主義現代化國家而團結奮斗——在中國共產黨第二十次全國代表大會上的報告[EB/OL].[2023-09-12].https://www.gov.cn/xinwen/2022-10/25/content_5721685.htm.

[12]邢蓓蓓,楊現民,李勤生(2016).教育大數據的來源與采集技術[J].現代教育技術,26(8):14-21.

[13]徐曉藝,陸祎(2024).生成式人工智能助力初中英語寫作教學的實踐探究[J].中小學英語教學與研究,(4):49-53.

[14]翟雪松,許家奇,童兆平等(2023).人工智能賦能高校韌性教學生態的路徑研究[J].中國遠程教育,43(1):49-58.

[15]中華人民共和國教育部(2024).統籌推進教育科技人才體制機制一體改革[EB/OL].[2024-08-05].http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/moe_1485/202407/t20240722_1142

212.html.

[16]祝智庭,胡姣(2022).教育數字化轉型的實踐邏輯與發展機遇[J].電化教育研究,43(1):5-15.

[17]Adigwe, A., & Yuan, Z. (2023). The ADAIO System at the BEA-2023 Shared Task: Shared Task Generating AI Teacher Responses in Educational Dialogues[C]// Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023). Toronto, Canada: Association for Computational Linguistics:796-804.

[18]Bulathwela, S., Muse, H., & Yilmaz, E. (2023). Scalable Educational Question Generation with Pre-Trained Language Models[C]// Wang, N., Rebolledo-Mendez, G., & Matsuda, N. et al. Artificial Intelligence in Education. Cham: Springer Nature Switzerland:327-339.

[19]Clavié, B., & Gal, K. (2019). EduBERT: Pretrained Deep Language Models for Learning Analytics[EB/OL]. [2023-09-12]. http://arxiv.org/abs/1912.00690.

[20]Dan, Y., Lei, Z., & Gu, Y. et al. (2023). EduChat: A Large-Scale Language Model-Based Chatbot System for Intelligent Education[EB/OL]. [2023-09-14]. http://arxiv.org/abs/2308.02773.

[21]Jagmohan, A., & Vempaty, A. (2023). Merlyn Mind’s Education-Specific Language Models[EB/OL]. [2023-09-12]. https://www.merlyn.org/blog/merlyn-minds-education-specific-

language-models.

[22]Ji, Y., Deng, Y., & Gong, Y. et al. (2023). Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases[EB/OL]. [2023-09-12]. http://arxiv.org/abs/2303.14742.

[23]K?pf, A., Kilcher, Y., & von Rütte, D. et al. (2023). OpenAssistant Conversations - Democratizing Large Language Model Alignment[EB/OL]. [2023-09-14]. http://arxiv.org/abs/2304.07327.

[24]Liao, J., Zhong, L., & Zhe, L. et al. (2024). Scaffolding Computational Thinking with ChatGPT[J]. IEEE Transactions on Learning Technologies, 17:1-15.

[25]Liu, M., Zhang, J., & Nyagoga, L. M. et al. (2024). Student-AI Question Cocreation for Enhancing Reading Comprehension[J]. IEEE Transactions on Learning Technologies, 17:815-826.

[26]Liu, R., Zenke, C., & Liu, C. et al. (2024). Teaching CS50 with AI: Leveraging Generative Artificial Intelligence in Computer Science Education[C]// Proceedings of the 55th ACM Technical Symposium on Computer Science Education V. 1. New York, NY, USA: Association for Computing Machinery:750-756.

[27]Snyder, C., Hutchins, N. M., & Cohn, C. et al. (2024). Analyzing Students Collaborative Problem-Solving Behaviors in Synergistic STEM+C Learning[C]// Proceedings of the 14th Learning Analytics and Knowledge Conference. New York, NY, USA: Association for Computing Machinery:540-550.

[28]Taylor, R., Kardas, M., & Cucurull, G. et al. (2022). Galactica: A Large Language Model for Science[EB/OL]. [2024-04-01]. http://arxiv.org/abs/2211.09085.

[29]Zhao, W. X., Zhou, K., & Li, J. et al. (2023). A Survey of Large Language Models[EB/OL]. [2023-09-12]. http://arxiv.org/abs/2303.18223.

[30]Zhao, Z., Ma, D., & Chen, L. et al. (2024). ChemDFM: Dialogue Foundation Model for Chemistry[EB/OL]. [2024-04-10]. http://arxiv.org/abs/2401.14818.

收稿日期 2023-11-13 責任編輯 劉選

The Essence, Development and Challenges of Educational Large Language Models

LIU Ming, WU Zhongming, YANG Xiao, GUO Shuo, LIAO Jian

Abstract: Since the generalized Large Language Models(LLMs) can only provide generalized feedback, which is difficult to match with complex educational scenarios, there is an urgent need to build Educational Large Language Models(ELLMs). ELLMs are characterized by the comprehensiveness of the educational knowledge bases(EKB), the security of the teaching content generation, the educational nature of the feedback value, the personalization of the problem solving, the multimodal nature of the human-computer interaction, and the ease of use for the users. There are six steps to construct ELLMs: formulating educational goals, selecting or designing a LLM base, constructing educational corpuses, model training or prompt learning, linking to external EKB, evaluating ELLMs. As far as the application of ELLMs is concerned, existing studies have been applied to programming, after-school reading and computer education, and have explored the enhancement of higher-order competencies and the basic disciplinary competencies that ELLMs empower students. For the future ELLMs, it is necessary to make multi-party efforts to build corpuses and EKB to unify the standards, consider the technological shift, and explore the mechanism of human-computer collaborative pedagogy.

Keywords: ELLMs; Generative Artificial Intelligence; Artificial Intelligence in Education; Knowledge Augmentation

主站蜘蛛池模板: 免费在线a视频| 全裸无码专区| 国产尤物jk自慰制服喷水| 亚洲人成人伊人成综合网无码| 国产精品成人一区二区不卡| 超碰aⅴ人人做人人爽欧美| 欧美色伊人| 中国美女**毛片录像在线| 欧美一区日韩一区中文字幕页| 综合人妻久久一区二区精品 | 亚洲侵犯无码网址在线观看| 国产手机在线小视频免费观看| 美女被操91视频| 麻豆国产在线观看一区二区 | 99热这里只有精品免费国产| 亚洲无码高清一区| 丁香婷婷久久| 日韩国产综合精选| 亚洲第一页在线观看| 欧美日韩中文国产va另类| 不卡无码网| 欧美啪啪视频免码| 欧美爱爱网| 国产精品视频第一专区| 呦女亚洲一区精品| 日韩中文精品亚洲第三区| 国产无码网站在线观看| 日韩小视频在线观看| 99re经典视频在线| 国产网站在线看| 国产精品美女网站| 精品一区二区三区中文字幕| 97色婷婷成人综合在线观看| 亚洲男人的天堂网| WWW丫丫国产成人精品| 乱码国产乱码精品精在线播放| 中文字幕丝袜一区二区| 久久国产av麻豆| 韩国v欧美v亚洲v日本v| 欧美三级自拍| 亚洲啪啪网| 亚洲va欧美va国产综合下载| av一区二区三区在线观看| 国产91无码福利在线| 日韩精品毛片人妻AV不卡| 久草视频一区| 精品国产成人三级在线观看| 久久99这里精品8国产| 亚洲av无码久久无遮挡| 国产av色站网站| 亚洲精品动漫| 国产欧美日韩视频一区二区三区| 国产亚洲现在一区二区中文| 国产成人精品视频一区二区电影| 国产成人精品一区二区三区| 亚洲综合色婷婷| 国内精品小视频福利网址| 永久免费无码日韩视频| 国产视频 第一页| 国产精品极品美女自在线网站| 丁香五月亚洲综合在线| 日本欧美精品| 小说区 亚洲 自拍 另类| 成人综合在线观看| 亚洲色精品国产一区二区三区| 黄色片中文字幕| 蜜芽国产尤物av尤物在线看| 国产精品v欧美| 国产午夜看片| 伊人久久影视| 成人福利一区二区视频在线| 国产美女在线免费观看| 日韩欧美高清视频| 国产精品欧美日本韩免费一区二区三区不卡 | h视频在线播放| 国产无套粉嫩白浆| 久久精品人人做人人爽| 欧美全免费aaaaaa特黄在线| 永久免费精品视频| 在线观看视频一区二区| 色哟哟国产成人精品| 午夜精品一区二区蜜桃|