




摘要:會話輔導系統(tǒng)是智能輔導系統(tǒng)的一種特殊形態(tài)或拓展形式,主要通過模仿人類導師進行個別化、適應性的教學對話,實現(xiàn)個性化教學功能。受制于技術發(fā)展水平,傳統(tǒng)會話輔導系統(tǒng)存在一些根本性缺陷,如缺乏通用性與靈活性、開發(fā)成本高昂、推廣困難、準確性不足等。大模型為會話輔導系統(tǒng)的升級帶來了巨大機遇,將引發(fā)會話輔導系統(tǒng)的開發(fā)范式轉(zhuǎn)換:開發(fā)目標由原先的“排演對話教學片斷”升級為“自主開展完整對話教學”,開發(fā)邏輯由以“預設”與“匹配”為核心轉(zhuǎn)換為以“微調(diào)”與“鏈接”為核心。為此,會話輔導系統(tǒng)由原來的內(nèi)外雙循環(huán)架構,拓展為外循環(huán)—中循環(huán)—內(nèi)循環(huán)的三重嵌套循環(huán)架構模式,以實現(xiàn)學習者對話片段、學習任務完成過程,以及課程學習歷程的完美融合。而針對系統(tǒng)架構中關鍵且存在技術瓶頸的教學設計能力、對話設計與生成能力,可以通過學習任務分析路由鏈、教學設計順序鏈、教學對話路由鏈等復雜的提示語工程,以及使用優(yōu)質(zhì)的元認知標注數(shù)據(jù)、對話教學案例標注數(shù)據(jù)以及歷史數(shù)據(jù)+RLHF技術微調(diào)大模型等辦法加以訓練,以此提高會話輔導系統(tǒng)開展對話教學的質(zhì)量和效果。
關鍵詞:會話輔導系統(tǒng);大語言模型;多模態(tài)大模型;對話教學
中圖分類號:G434" "文獻標識碼:A" " 文章編號:1009-5195(2024)03-0011-09" doi10.3969/j.issn.1009-5195.2024.03.002
基金項目:2018年度國家社會科學基金重大項目“信息化促進新時代基礎教育公平的研究”(18ZDA335);2023年度江蘇省教育科學規(guī)劃重點項目“教育本位的人機協(xié)同教學研究”(B/2-23/01/122)。
作者簡介:劉華,博士,教授,碩士生導師,泰州學院教育科學學院(江蘇泰州 225300);祝智庭,博士,教授,博士生導師,華東師范大學開放教育學院(上海 200062)。
會話輔導系統(tǒng)(Conversational Tutoring Systems,CTSs)也稱會話智能輔導系統(tǒng)(Conversational Intelligent Tutoring Systems,CITS),被認為是智能輔導系統(tǒng)(Intelligent Tutoring Systems,ITSs)的一種特殊形態(tài)(Schmucker et al.,2023)或拓展形式(Latham et al.,2012)。其主要通過模仿人類導師進行個別化、適應性的教學對話(Latham et al.,2012;Latham,2022),即以自然語言為媒介與學習者開展靈活、即時、目標導向的交互,促進其學習,實現(xiàn)個別化教學功能(Schmucker et al.,2023)。會話輔導系統(tǒng)的開發(fā)往往以社會建構主義學習理論為基礎,參照人類導師輔導中的協(xié)作建構活動(Rus et al.,2013),在教學目標上覆蓋理解、應用、分析、創(chuàng)造等認知層級。已有研究證實,會話輔導系統(tǒng)在多個領域,尤其在推理任務學習上具有有效性(Schmcker et al.,2023)。然而,受制于技術發(fā)展水平,會話輔導系統(tǒng)也存在一些根本性缺陷,如局限于特定領域,缺乏通用性;局限于預先設計的問題,缺乏靈活性(Chen" et al.,2023);開發(fā)成本高昂,推廣困難(Schmucker et al.,2023);理解學生話語的準確性不足,影響對話質(zhì)量(Rus" et al.,2013);等等。大語言模型以及多模態(tài)大模型的問世,解決了自然語言文本的理解與生成問題,也就意味著制約會話輔導系統(tǒng)開發(fā)的技術瓶頸有望被突破。不僅如此,大模型展現(xiàn)出的優(yōu)越的會話能力,也拓寬了會話輔導系統(tǒng)開發(fā)的想象空間。鑒于此,本文將深入分析大模型帶來的會話輔導系統(tǒng)開發(fā)范式轉(zhuǎn)換,并嘗試在新范式下設計新一代會話輔導系統(tǒng)的整體架構,訓練系統(tǒng)的關鍵能力。
一、大模型引發(fā)的會話輔導系統(tǒng)開發(fā)范式轉(zhuǎn)換
大模型為會話輔導系統(tǒng)的升級帶來了巨大機遇,但現(xiàn)有的大模型只能作為基礎模型加以改造,進而作為一個基礎模塊接入系統(tǒng)中,還不能直接成為會話輔導系統(tǒng)。這是由兩方面因素決定的。一方面,大模型存在“幻覺”和“深度邏輯缺失”的根本性缺陷(Huang et al.,2023)。從根源上看,“幻覺”是由于大模型缺乏具身認知能力和經(jīng)驗基礎(Ma et al.,2023),進而引發(fā)事實與虛構、現(xiàn)實世界與想象世界混淆導致的。由于沒有現(xiàn)實世界這個原型作為參照,大模型在回答有關事實的問題時,可能錯誤地提取語料中虛構的事實,也可能在語言規(guī)律的支配下“大膽”推理,“一本正經(jīng)地胡說八道”。因此,即使升級后的GPT-4大幅減少了“幻覺”產(chǎn)生的概率,但依然不能使之徹底消失。除“幻覺”以外,大模型還存在“深度邏輯缺失”問題。Tang等人(2023)的研究表明,大模型的邏輯推理主要依賴于語義理解而非象征性邏輯關系,因而將推理任務中的單詞用隨機符號替代后,大模型的表現(xiàn)下降至隨機水平。這些根本性缺陷決定了不能直接將大模型作為智能導師,盡管它們看起來非常淵博而機智。大模型不能直接勝任專家導師的另一方面原因是,它們所擅長的對話不同于師生之間的教學對話。Nye等人(2023)概括了大模型對話與專家導師教學對話的三大區(qū)別:一是主導,專家導師主導對話的階段和方向,主動管理師生間的互動,而大模型則是被動回應;二是回答VS提問,專家導師善于提問,以激發(fā)、引導學生思考,大模型則傾向于回答問題;三是教育領域知識,專家導師對學生的理解狀況和錯誤理解擁有豐富經(jīng)驗,也了解什么策略適用于什么樣的學生,大模型的訓練數(shù)據(jù)則缺少這樣的教育學案例。因此,新一代會話輔導系統(tǒng)開發(fā)應當遵循新的范式,一方面以大模型為支撐,充分利用其自然語言理解和生成能力,另一方面要對大模型加以改造,以彌補上述兩方面不足。
首先,大模型支持的會話輔導系統(tǒng)開發(fā)不是簡單地接入大模型,使之替代原先的自然語言處理模塊,而是基于完全不同的開發(fā)邏輯。以往的會話輔導系統(tǒng)開發(fā)以“預設”與“匹配”為核心邏輯。“預設”指的是教學對話的內(nèi)容以及每一步如何展開都由專家預先確定。以AutoTutor為例,它的對話大綱都儲存在預先編制的課程腳本中,腳本圍繞每個輔導專題羅列了焦點問題、理想答案的各個方面,如表示或引出理想答案的一系列對話活動(如暗示、提示、闡釋)、各種可能的錯誤回答、對每個錯誤回答的糾正、學生的各種可能問題及其解答、對理想答案或解決方案的總結等(Person et al.,2000)。較之一般的教學大綱,這種課程腳本包含更多需要深度推理的問題、更多需要解決的問題,以及更多解決相關問題的示例(Graesser et al.,1995;Person et al.,1999)。“匹配”指對話教學中,系統(tǒng)將學生的回答與預設的代表“好”的或“壞”的學習結果的一系列回答加以比對,找到最為匹配的,由此判斷學生的認知狀況;然后查找數(shù)據(jù)庫中對應的教學策略,給出不同的反饋或認知腳手架(如鼓勵、暗示、提示等)。這樣的開發(fā)邏輯雖然嚴謹,但也導致了系統(tǒng)靈活性、適應性、通用性、推廣性差的問題。
與上述高度預成的開發(fā)邏輯不同,大模型支持的會話輔導系統(tǒng)開發(fā)以“微調(diào)”(Fine-Tuning)與“鏈接”(Chaining)為核心邏輯。微調(diào)是一種在自然語言處理中使用的技術,用于使預訓練的語言模型適應特定任務或領域,其基本思想是采用已經(jīng)在大量文本上進行了預訓練的語言模型,然后在小規(guī)模的特定任務文本上繼續(xù)訓練,以滿足特定任務需求。對于大模型而言,為了降低計算開銷,一般是將除輸出層以外的所有權重“凍結”(Freeze),然后隨機初始化輸出層參數(shù),再以遷移學習的方式訓練。為了進一步減少對計算資源的需求,近年來興起了蒸餾(Distillation)、適配器訓練(Adapter Training)、漸進收縮(Progressive Shrinking)等參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning)技術,以降低所需修改內(nèi)容的權重。除微調(diào)以外,還出現(xiàn)了提示詞調(diào)整(Prompt-Tuning)技術,即通過調(diào)整輸入提示而不修改模型權重,來應對各種任務。就會話輔導系統(tǒng)開發(fā)而言,可使用專業(yè)領域知識庫以及教學案例數(shù)據(jù)集進行微調(diào)和提示詞調(diào)整,以解決針對大模型專業(yè)領域知識不足導致的“幻覺”問題,以及缺乏教育經(jīng)驗導致的教學能力不足問題。鏈接分為外部鏈接與內(nèi)部鏈接。外部鏈接中最常見的是檢索增強生成(Retrieval Augmented Generation,RAG)技術,即通過補充外部的知識資源,以提高模型生成回應的準確性和可靠性(Lewis et al.,2020)。該技術首先將外部文檔向量化、切片、建立索引,存入向量數(shù)據(jù)庫。當用戶提出問題時,可在數(shù)據(jù)庫中快速找到語義最相關的文檔片段并傳遞給大模型,生成回答。就教育領域而言,這項技術的運用可以使大模型生成的回應與任一課程的內(nèi)容和目標對齊(只要提供該課程充足的資料),盡管尚不能保證100%的正確率(Dong,2023)。外部鏈接還包括接入外部的智能邏輯組件,以增強其邏輯推理能力,解決“深度邏輯缺失”問題(余勝泉等,2024)。而內(nèi)部鏈接本質(zhì)上屬于復雜的提示語工程,即通過不同提示模板(實質(zhì)上是對模型不同方式的調(diào)用)的組合,實現(xiàn)復雜的功能。比如LangChain提供的順序鏈(Sequential Chain)組件可以串聯(lián)前后相繼的多個提示模板,路由鏈(Router Chain)組件可以同時整合多個提示模板并根據(jù)輸入靈活調(diào)用其中任一模板。在教育應用場景中,教學設計、對話生成等復雜任務可以通過復雜的內(nèi)部鏈接完成。
從以“預設”與“匹配”為核心到以“微調(diào)”與“鏈接”為核心的邏輯轉(zhuǎn)換,意味著會話輔導系統(tǒng)自動化程度的大幅提升,也意味著系統(tǒng)開發(fā)需要像培養(yǎng)人類導師一樣,教授系統(tǒng)教學的本體性知識、條件性知識、實踐性知識(衷克定等,1998),發(fā)展它的教學機智(馬克斯·范梅南,2001;鐘啟泉等,2008)以及實踐反思能力(林一鋼,2008;Sch?n,1983),而不是把教學方案預先設計好再灌輸給它。因此,在更深層次上,接入大模型將使會話輔導系統(tǒng)的開發(fā)目標升級:由原先的“排演對話教學片斷”升級為“自主開展完整對話教學”。
二、新一代會話輔導系統(tǒng)的架構設計
由于新一代會話輔導系統(tǒng)的開發(fā)目標錨定為“系統(tǒng)自主開展完整對話教學”,因此需要首先掌握對話教學的實質(zhì)、過程及形態(tài),進而設計會話輔導系統(tǒng)的整體架構。
1.對話教學的實質(zhì)、過程及形態(tài)
中西方對話教學的典型代表分別為孔子的啟發(fā)教學與蘇格拉底的產(chǎn)婆術。兩者的共同之處在于,都是在學習者認識過程中展開的對話片斷,對話都強調(diào)要適應學生的認知狀況,促進其反思,提升其認知。孔子曰“不憤不啟,不悱不發(fā)”,強調(diào)對話發(fā)生于求教者產(chǎn)生認知困惑之時,即求教者在對話之前已經(jīng)對所問之事有所了解、有所思考,回應者主要是因勢利導,助其打開阻塞的思路,使之繼續(xù)探索。蘇格拉底的產(chǎn)婆術也是以求教者已有一定的感性認識為前提:一開始就以提問引出對方已有的不完善觀點,然后通過不斷地詰問暴露其認知錯誤或矛盾之處,促使其反思自己的認知,逐步從個別的感性認識上升到普遍的理性認識。可見,“對話是一種教學關系,它以參與者持續(xù)的話語投入為特征,并由反思和互動的整合所構成。”(Burbules et al.,2001)實際上,在對話教學關系中,話語投入是表象,基于問題的主體間互動與反思才是其本質(zhì)。
在現(xiàn)代社會,對話教學在啟發(fā)教學與產(chǎn)婆術的基礎上向兩個方向發(fā)展。一是由對話片斷向?qū)W生完整的認知過程拓展,要求對話之前提供感性經(jīng)驗、引發(fā)認知沖突或失衡,對話之后總結、驗證、應用、拓展等。鑒于此,Laurillard將對話教學分解為師生話語與環(huán)境交互兩層,層與層之間由調(diào)節(jié)和反思聯(lián)結(Laurillard,2002)(如圖1所示)。這樣,對話教學就成為以師生語言交互為關鍵環(huán)節(jié),學生反復經(jīng)歷語言與經(jīng)驗、理論與實踐互構的復雜過程。
二是由對話教學經(jīng)典模式向?qū)υ捊虒W譜系拓展。孔子的問答式對話、蘇格拉底的“提問—回答—反詰—修正—再提問……”辯證,以及廣泛應用的IRE模式(Initiation-Response-Evaluation,即教師發(fā)問—學生回答—教師表揚或糾正)(Mehan,1979),都只是對話教學的具體表現(xiàn)。對話教學擁有更多豐富的形式。Burbules(1993)認為,對話教學譜系至少包含兩個維度:批判性或包容性、聚合性(存在唯一正確的解答)或發(fā)散性(允許多種結論)。二者交織形成四種典型的對話教學形態(tài),如圖2所示。第一,探究,即通過研究問題、解決分歧、形成妥協(xié)等方法解決或回答特定問題;第二,交談,即通過更加開放的討論達成主體間理解的目的;第三,指導,即教師有目的地引導(通過提問、指點等)學生獲得特定答案或理解;第四,辯論,即通過激烈地贊同或反對某個立場來檢驗該立場/對立立場的正確性。
2.會話輔導系統(tǒng)的三重嵌套循環(huán)架構
現(xiàn)有智能輔導系統(tǒng)多采用雙循環(huán)架構:外循環(huán)負責選擇下一個學習任務,內(nèi)循環(huán)負責管理特定學習任務中與學生的互動(Vanlehn,2006)。鑒于對話往往作為某個完整認識過程中的片斷性存在,我們在外循環(huán)和內(nèi)循環(huán)之間插入了中循環(huán)。其中,外循環(huán)依然負責選擇下一個學習任務,只是學習任務的粒度較大,覆蓋相對完整的認識過程,如學習一個主題、完成一個項目、解決一個復雜問題等。往里是中循環(huán),負責對該學習任務整個教學過程(即擴展的對話教學)的設計、實施、監(jiān)控、評估,包括選擇對話教學的形態(tài),確定對話子環(huán)節(jié)的時機及其與其他子環(huán)節(jié)的關系。再往里是內(nèi)循環(huán),負責對話子環(huán)節(jié)的內(nèi)部管理(如模式選擇、流程設計、效果評估),以及對話中的對話者角色扮演。這種三重嵌套循環(huán)架構設計,旨在實現(xiàn)每個學習者的對話片斷、學習任務完成過程,以及課程學習歷程的完美融合,最大限度地發(fā)揮教學雙方的主動性和創(chuàng)造性。
三重嵌套循環(huán)架構能夠?qū)崿F(xiàn)系統(tǒng)自主開展完整的對話教學。各循環(huán)子系統(tǒng)內(nèi)部按照“信息—設計—決策—實施—評估”的邏輯運行。循環(huán)子系統(tǒng)之間按照“外循環(huán)→中循環(huán)→內(nèi)循環(huán)”正向與“內(nèi)循環(huán)→中循環(huán)→外循環(huán)”反向信息傳遞相結合的方式運行。即一方面,外循環(huán)調(diào)用學習任務后,進入中循環(huán),中循環(huán)教學實施中觸發(fā)對話教學,進入內(nèi)循環(huán);另一方面,學習監(jiān)測模塊分別從中循環(huán)的教學實施模塊、內(nèi)循環(huán)的對話生成模塊獲取數(shù)據(jù),然后分析整合后傳遞給外循環(huán)的學習者畫像模塊。各循環(huán)子系統(tǒng)的具體結構如圖3所示。
(1)外循環(huán)
外循環(huán)由學習者畫像、學習任務決策、學習任務調(diào)用、自我評估等模塊組成。第一,學習者畫像模塊,主要負責接受、分析、整合、儲存每個學習者與學習相關的各種數(shù)據(jù),包括學習的歷史數(shù)據(jù)、自述的學習經(jīng)歷、學習中長期目標、學習興趣等;輸出學習者認知風格、能力水平及課程知識掌握三方面數(shù)據(jù)。其中,“能力水平”涉及的能力至少包括:與特定知識相關聯(lián)的認知層級,以及批判性思維、邏輯思維、交流與表達、創(chuàng)造與創(chuàng)新、問題解決、與人合作等關鍵能力。第二,學習任務決策模塊,是外循環(huán)的核心。它通過大模型對所調(diào)用的特定學習者的畫像信息進行語義分析,提煉、概括出學習者當下的學習需求,然后在課程資源庫中查找、檢索出與需求匹配的課程資源,最后確定要推送的學習任務。第三,學習任務調(diào)用模塊,負責與學習者交互,提供學習任務簡介以及學習頁面鏈接。第四,自我評估模塊,負責根據(jù)獲取的學習監(jiān)測數(shù)據(jù)對推送任務的適當性進行評估。
(2)中循環(huán)
中循環(huán)由教學設計、學習監(jiān)測、教學決策、教學實施、自我評估等模塊構成。第一,教學設計模塊,負責分析學習任務及其對應的課程資源,選擇對話教學形態(tài),進而根據(jù)學習者畫像、動態(tài)更新的學習監(jiān)測數(shù)據(jù),制定與調(diào)整教學方案,包括制定學習目標、選擇教學模式、規(guī)劃學習路徑、選擇教學手段、設計評價方案等。第二,學習監(jiān)測模塊,主要負責學習行為跟蹤、學習評價工具生成與學習評價實施,學習任務中的學習行為和學習結果數(shù)據(jù)分析匯總,并將匯總結果傳遞給外循環(huán)的學習者畫像模塊。第三,教學決策模塊,負責調(diào)用教學設計與學習監(jiān)測兩方面的數(shù)據(jù),進行匹配性檢驗,做出遵循計劃或修改計劃的決策,并分別傳遞給教學實施模塊或教學設計模塊執(zhí)行。第四,教學實施模塊,負責向?qū)W習者推送相關課程資源或接入負責對話的內(nèi)循環(huán)。第五,自我評估模塊,在學習任務結束后中循環(huán)子系統(tǒng)調(diào)用大模型對自身教學效能進行評估。借助學習監(jiān)測數(shù)據(jù),中循環(huán)子系統(tǒng)對自身的教學行為進行評價分析,并作為訓練數(shù)據(jù)儲存,以此獲得更加豐富和精確的用于因材施教的知識和經(jīng)驗。
(3)內(nèi)循環(huán)
內(nèi)循環(huán)由對話設計、對話生成、自我評估等模塊構成。第一,對話設計模塊,負責調(diào)用外循環(huán)的學習者畫像數(shù)據(jù)、中循環(huán)的學習監(jiān)測數(shù)據(jù)與教學方案,設計具體的對話方案,包括選擇適合的對話模式、規(guī)劃整體的對話流程等。第二,對話生成模塊,負責根據(jù)上一個模塊設計的對話方案,理解學習者的話語,評估其認知狀況并生成話語,直至達成教學目標或觸發(fā)對話失敗等異常條件而終止對話,最后將對話結果與學習者對話概要傳遞給中循環(huán)的學習監(jiān)測模塊。第三,自我評估模塊,其是內(nèi)循環(huán)子系統(tǒng)調(diào)用大模型對自身在該對話教學片斷中效能的評估。通過分析對話教學中學習者的對話數(shù)據(jù),可以推斷教學對學生認知的激發(fā)、引導情況,從而積累有關對話教學的知識與經(jīng)驗。
三、會話輔導系統(tǒng)的關鍵能力及訓練思路
實現(xiàn)會話輔導系統(tǒng)自主開展完整對話教學的功能,除了合理的架構設計外,還需要先進的大模型訓練技術(見表1)。從該領域的前沿研究看,部分技術已經(jīng)實現(xiàn),如學習任務決策模塊所需的大模型+檢索增強生成技術,已經(jīng)在會話輔導系統(tǒng)中成功運用(Dong,2023);部分技術的難度/創(chuàng)新度比較高,還未能應用于會話輔導系統(tǒng)。我們嘗試通過優(yōu)化提示語工程、人工標注數(shù)據(jù)微調(diào)等辦法,訓練大模型的教學設計、對話設計、對話生成等關鍵能力,以有效提高會話輔導系統(tǒng)開展對話教學的質(zhì)量和效果。
1.大模型+提示語工程的訓練思路及效果
(1)設計任務分析路由鏈,明確對話教學形態(tài)
明確對話教學形態(tài)是對話教學設計的首要環(huán)節(jié)。對于對話教學而言,選擇何種形態(tài)(如探究、談話、指導、辯論)主要取決于學習任務的性質(zhì)。比如閱讀理解一篇文學作品,由于其存在召喚結構、歧義性等特征,學習過程應是包容性的,學習結果則介于聚合性與發(fā)散性之間,因而對話教學應選擇談話、指導等形式,或介于兩者之間。而如果是鑒賞或評價文學作品,學習結果偏于發(fā)散性,對話教學則應側(cè)重談話形式。再如閱讀理解科學技術文本,學習結果是聚合性的,學習過程或是包容性的(以問題解決為主),或是批判性的(以科學知識理解為主),因而對話教學應考慮采取探究或指導的形式。
準確判斷學習任務性質(zhì)屬于對認知過程的元認知。在缺乏引導的情況下,大模型傾向于直接完成學習任務,而不是先反思學習任務的性質(zhì)。針對這種狀況,可以設計任務分析路由鏈。它由兩個部分組成:第一,由多個模板定義的多個目標子鏈,每個子鏈分別負責對特定領域?qū)W習任務(如閱讀理解文學作品、鑒賞評價文學作品、閱讀理解科學技術文本、理解科學概念、解決科學問題,等等)的學習內(nèi)容進行深入分析,判斷其學習過程(批判性或包容性)、學習結果(聚合性或發(fā)散性)的性質(zhì),據(jù)此選擇對話教學的形態(tài)。第二,路由模板,負責根據(jù)學習任務簡介判斷學習任務所屬領域,并據(jù)此轉(zhuǎn)接、調(diào)用相應的目標子鏈,輸出子鏈選擇的對話教學形態(tài)。
(2)構建教學設計順序鏈,提高教學設計的合理性
教學設計是一個復雜的系統(tǒng)工程。為提高大模型教學設計的合理性,可以借助順序鏈引導大模型分步驟完成這個復雜的任務。研究表明,把復雜的任務分解為一系列簡單的子任務,可以減少大模型認知負荷,提高其表現(xiàn)水平。會話輔導系統(tǒng)的教學設計順序鏈由以下子鏈構成:鏈1,分析學習任務的性質(zhì),明確對話教學形態(tài);鏈2,接收學習者畫像、學習監(jiān)測數(shù)據(jù),概括學習者學習狀況;鏈3,基于學習者學習狀況和學習任務,制定教學目標;鏈4,分析學習任務對應的各種資源,形成課程資源概覽;鏈5,基于鏈1、鏈3、鏈4的輸出,選擇教學模式,規(guī)劃學習路徑(學習的各個子環(huán)節(jié)),選擇教學手段,形成教學方案(包括評價方案);鏈6,基于課程資源數(shù)據(jù)以及鏈5的輸出,開發(fā)評價工具。
(3)通過教學對話路由鏈,提升教學對話的豐富性
教學對話的復雜性在于參與者角色的多樣化。除了最基本的一師一生模式外,還有一師多生、多師一生、多師多生等模式。具體地看,即使同樣是對話中的教師,也可以區(qū)分作為講授者的教師、作為評價者的教師、作為反饋者的教師、作為激發(fā)者的教師、作為解惑者的教師等多種角色。此外,智能體還可以扮演作為激發(fā)者的學生角色(在這種情況下,學習者扮演教師)。在對話過程中,決定哪個角色發(fā)言需要一個總的管理者,教學對話路由鏈組件可以實現(xiàn)這樣的功能。它同樣由兩個部分組成:一是由多個模板定義的目標子鏈,每個子鏈扮演一種角色,履行這一角色的職能;二是路由模板,負責監(jiān)控當前的對話內(nèi)容,并結合對話設計方案決定由哪個子鏈繼續(xù)對話或結束對話。通過順序鏈,大模型可以在對話管理者及各種對話角色之間自由切換,從而提升對話教學的豐富性,提高對話教學的質(zhì)量。
為了檢驗上述提示語工程的有效性,我們設計、實施了一個模擬實驗:通過由路由鏈和順序鏈構成的提示工程(簡稱“復雜提示語工程”),引導ChatGPT針對10個學習任務(包括2篇文學作品閱讀理解、2篇文學作品鑒賞評價、2篇科學技術文本閱讀理解、2個科學概念理解、2個科學問題探究),選擇對話教學形態(tài),設計教學方案,開展教學對話。對話設置了作為引導者的教師、作為反饋者的教師,以及學生三種角色,均由大模型扮演。同時,使用簡單提示語引導ChatGPT完成上述三項工作作為對照組。對兩組三項工作的成果進行評分(由2個教學專家獨立打分后取均值),并進行秩和檢驗。結果顯示(見表2),三項工作上,簡單提示語組的評分與復雜提示語工程組的評分均有顯著差異,且簡單提示語組評分明顯低于復雜提示語工程組。可見,復雜提示語工程有利于提高會話輔導系統(tǒng)選擇對話教學形態(tài)、設計教學方案、生成教學對話的質(zhì)量。
2.大模型+人工標注數(shù)據(jù)微調(diào)的訓練思路
(1)用元認知標注數(shù)據(jù)增強大模型對學習心理的理解力和預測力
理解和預測各種學習任務可行的學習過程和方法,以及各種可能的錯誤和障礙,是對話教學設計和實施成功的重要條件。然而,現(xiàn)有的大模型在這方面的能力表現(xiàn)還較為不足。測試中我們發(fā)現(xiàn):現(xiàn)有的大模型能識別出學習者的認知錯誤卻不能解釋其原因;能正確概括文學作品的主題思想?yún)s不能說明概括的依據(jù)。前者說明現(xiàn)有的大模型訓練中尚缺乏心智理論(Thoery of Mind)的融入。Kosinski 的測試也發(fā)現(xiàn),GPT-3只能解決20%的心智理論任務;GPT-4可以解決75%的任務,心智水平相當于6歲兒童(Kosinski,2023)。這樣的心智水平顯然不足以理解學習者的學習錯誤和困難。后者則說明大模型還缺乏自我反思能力(Shinn et al.,2023),不能對自己的認知過程進行反思。要彌補大模型這方面的不足,可以用人工標注的元認知數(shù)據(jù)進行微調(diào)訓練。因為原有的訓練數(shù)據(jù)集中的數(shù)據(jù)主要描述典型學習任務的典型學習過程、方法及其干預,用“學習任務描述”“所屬類型”“可行的學習過程和方法”“可能的錯誤及其糾正”“常見障礙及其克服”等標簽對訓練數(shù)據(jù)進一步標注,有助于大模型更準確、快速地理解和預測人類學習的方向和過程。
(2)用對話教學案例標注數(shù)據(jù)增強大模型教學設計的科學性和想象力
模擬實驗中,我們還發(fā)現(xiàn)大模型輸出的教學設計方案和教學對話質(zhì)量參差不齊,這與GPT-3、GPT-4等大模型訓練數(shù)據(jù)集中數(shù)據(jù)非結構化且質(zhì)量不均有關。因此,需要人工選取優(yōu)質(zhì)的對話教學案例數(shù)據(jù),通過對其所屬類型、所含流程加以標注來對大模型進行微調(diào)。對于標注所使用的標簽系統(tǒng),我們建議以Laurillard的對話教學雙層結構為整體架構,將各種教學模式、對話模式及其變式組織起來,形成一個層級化、流程化的結構。其中,對話模式的標簽處于中間層,向上聯(lián)結教學模式,向下衍生各種變式。
會話輔導系統(tǒng)中常用的對話模式有:第一,以解釋為中心的對話。即要求學習者對此前自己的回答或仿真實驗的預測做出解釋和論證,然后針對其中的錯誤引導學習者加以反思和糾正。它常用于自學—輔導、實驗—探究等教學模式。以解釋為中心的對話模式有很多變式。其中,尤以AutoTutor系列“提問—暗示—提示—斷言”模式的影響為大(Person et al.,2000)。第二,支持問題解決的對話。即根據(jù)需要(系統(tǒng)發(fā)現(xiàn)錯誤或解答不完整時)提供問題解決的支持,主要用于問題解決或探究教學模式中。南加利福尼亞大學創(chuàng)新技術研究所開發(fā)的會話輔導系統(tǒng)ProPL通過暗示(指出問題中的某處陳述)、要求概括或綜合(如要求想象引發(fā)程序崩潰的場景)等,引導學習者做出正確反應,是比較成功的變式(Paladines et al.,2020)。第三,澄清與引導程序的對話。這種對話旨在支持預先定義的程序執(zhí)行或任務完成,常用于實驗或?qū)嵱栒n型中。比較常見的變式是通過暗示將要執(zhí)行的操作以及所執(zhí)行的操作給予即時反饋,對學習者加以指導和幫助(如Jacob系統(tǒng)和Paco系統(tǒng)①)。第四,問答式對話。這是最簡單的對話模式。一般是就所提供的信息片斷向?qū)W習者提問,如果回答正確就進入下一個問題;否則,再次作答或直接給出正確答案并加以解釋(Paladines et al.,2020)。在標注對話教學案例數(shù)據(jù)集時,除了標注對話模式外,還應標注不同模式的實現(xiàn)路徑(流程)。因為同一對話模式,可以有多種實現(xiàn)路徑。比如支持問題解決的對話可以采用兩條路徑:一種是作用于學生的概念表征,引導他們澄清相關概念或理論知識,促進問題解決;另一種是作用于學生的問題解決行為,引導他們與問題情境真實互動、獲得相應反饋,從而促進反思和問題解決。
總之,在建立數(shù)據(jù)集時,要針對相關案例,篩選出這些關鍵信息并明確標注。這樣大模型選擇對話模式及其變式時,會更加科學;設計對話流程時,也會更富適應性和想象力。
(3)用歷史數(shù)據(jù)和RLHF技術提高大模型的教學實踐能力
我們在三重循環(huán)中均設置了自我評估模塊,以確保系統(tǒng)能夠基于學習者學習的實際效果調(diào)整自己的教學決策策略集。這相當于給大模型提供了實踐反思過程。不過,僅為大模型提供來源于學習效果的實踐反思還不夠。正如教師需要同行專家的反饋一樣,大模型教學實踐能力的進一步提高,也需要來自專家導師的反饋。鑒于此,我們設計了歷史數(shù)據(jù)+RLHF微調(diào)程序。RLHF(Reinforcement Learning from Human Feedback)即人類反饋強化學習,是ChatGPT等大模型訓練的關鍵技術。大模型由于在預訓練階段,采用的是基于無標注數(shù)據(jù)的自監(jiān)督學習訓練方式,沒有顯式地引入人類偏好,因而其在RLHF階段,就使用生成文本的人工反饋作為性能衡量標準,以之來優(yōu)化模型,使模型的輸出符合人類偏好。對于以大模型為核心的會話輔導系統(tǒng)開發(fā)而言,也可以采用RLHF技術,使模型在教學設計與決策、對話設計與生成方面的表現(xiàn)更加符合專家導師對理想對話教學的認識。具體做法是:將系統(tǒng)中相關聯(lián)的歷史數(shù)據(jù)(作為輸入的學習者畫像、學習監(jiān)測數(shù)據(jù),以及作為輸出的教學方案、設計與生成的對話數(shù)據(jù))由教學專家進行多維度評分排名,形成標注數(shù)據(jù)后訓練出獎勵模型;根據(jù)獎勵模型的獎勵分數(shù),使用近端策略優(yōu)化來更新此前微調(diào)的模型。借此,大模型的教學實踐能力得以提高——微調(diào)出的模型將在預訓練模型的基礎上合理反映教學專家的評價標準,進一步向?qū)<覍煹慕虒W對齊。
四、結語
總之,大模型加持使得會話輔導系統(tǒng)開發(fā)可以錨定“自主開展完整對話教學”的高級目標,而非原先的排演對話教學片斷;實現(xiàn)獨立、智慧的專家導師功能,而不是按照現(xiàn)成教案上課的新手教師。為此,會話輔導系統(tǒng)在架構設計上,應突出教學系統(tǒng)的完整性與自組織性;在功能實現(xiàn)上,應著重訓練系統(tǒng)自動化、適應性、開放性教學設計和對話生成的能力。需要強調(diào)的是,成功的會話輔導系統(tǒng)開發(fā)的關鍵是對大模型的科學訓練,而不能盲目依賴和直接使用。這是因為大模型是通用性的,往往需要經(jīng)過微調(diào)才能在專業(yè)領域擁有優(yōu)異表現(xiàn);而且越來越多的證據(jù)表明,機器學習到的知識并不優(yōu)于人類的領域知識(Wu et al.,2022),越來越多的研究者主張通過“人在回路”(Human-in-the-Loop)技術將人類的先驗知識融入機器的學習框架(Kumar et al.,2019)。我們提出的使用精心設計的提示語工程,以及開發(fā)優(yōu)質(zhì)的人工標注數(shù)據(jù)對大模型進行微調(diào)的方法,正是將人類教學的領域知識和實踐智慧融入大模型,使之適應對話教學要求的必由之路。
注釋:
① Jacob系統(tǒng)是荷蘭特文特研究團隊開發(fā)的一款采用虛擬現(xiàn)實和自然語言處理技術的智能體,它在虛擬環(huán)境中通過自然語言指導學習者操作,完成特定任務。 Paco系統(tǒng)是南加利福尼亞大學信息科學研究所基于協(xié)作會話理論開發(fā)的智能輔導系統(tǒng),它給學習者提供了一系列會話行為(包括口頭的、行為的)供其選擇。
參考文獻:
[1][加]馬克斯·范梅南(2001).教學機智——教育智慧的意蘊[M].李樹英.北京:教育科學出版社:69.
[2]林一鋼(2008).論“實踐反思性”教師教育[J].教師教育研究,(6):7-11,71.
[3]余勝泉,熊莎莎(2024).基于大模型增強的通用人工智能教師架構[J].開放教育研究,30(1):33-43.
[4]鐘啟泉,劉徽(2008).教學機智新論——兼談課堂教學的轉(zhuǎn)型[J].教育研究,(9):47-52.
[5]衷克定,申繼亮,辛濤(1998).論教師知識結構及其對教師培養(yǎng)的意義[J].中國教育學刊,(3):55-58.
[6]Burbules, N. C. (1993). Dialogue in Teaching: Theory and Practice[M]. New York: Teachers College Press:92.
[7]Burbules, N. C., amp; Bruce, B. C. (2001). Theory and Research on Teaching as Dialogue[M]// Richardson, V. (Ed.). Handbook of Reaching on Teaching (Fourth Edition). Washington, DC: American Educational Research Association:1112.
[8]Chen, Y., Ding, N., amp; Zheng H. et al. (2023). Empowering Private Tutoring by Chaining Large Language Models[J/OL]. [2024-02-10]. https://arxiv.org/abs/2309.08112v1.
[9]Dong, C. (2023). How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation[J/OL]. [2024-02-10]. https://arxiv.org/abs/2311.17696v2.
[10]Graesser, A. C., Person, N. K., amp; Magliano, J. P. (1995). Collaborative Dialog Patterns in Naturalistic One-on-One Tutoring[J]. Applied Cognitive Psychology, (9):359-387.
[11]Huang, L., Yu, W., amp; Ma, W. et al. (2023). A Survey on Hallucination in Large Language Models:Principles, Taxonomy, Challenges, and Open Questions[J/OL]. [2024-02-10]. https://ar5iv.labs.arxiv.org/html/2311.05232.
[12]Kosinski, M. (2023). Evaluating Large Language Models in Theory of Mind Tasks[J/OL]. [2024-02-10]. https://arxiv.org/abs/2302.02083.
[13]Kumar, V., Smith-Renner, A., amp; Findlater, L. et al. (2019). Why Didn’t You Listen to Me? Comparing User Control of Human-in-the-Loop Topic Models[J/OL]. [2024-02-10]. https://arxiv.org/abs/1905.09864.
[14]Latham, A. (2022). Conversational Intelligent Tutoring Systems: The State of the Art[M]// Smith, A. E. (Eds.). Women in Computational Intelligence. Women in Engineering and Science. Springer, Cham:77-101.
[15]Latham, A., Crockett, K., amp; McLean, D. et al. (2012). A Conversational Intelligent Tutoring System to Automatically Predict Learning Styles[J]. Computers amp; Education, (12):95-109.
[16]Laurillard, D. (2002). Rethinking University Teaching: A Framework for the Effective Use of Educational Technology[M]. London: Routledge:89.
[17]Lewis, P., Perez, E., amp; Piktus, A. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks[J]. Advances in Neural Information Processing Systems, (33):9459-9474.
[18]Ma, Y., Zhang, C. Z., amp; Zhu, S. C. (2023). Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models[J/OL]. [2024-02-10]. https://arxiv.org/abs/2307.03762.
[19]Mehan, H. (1979). Learning Lessons: Social Organization in the Classroom[M]. Cambridge, MA: Harvard University Press:76.
[20]Nye, B., Mee, D., amp; Core, M. (2023). Generative Large Language Models for Dialog-Based Tutoring: An Early Consideration of Opportunities and Concerns[EB/OL]. [2024-02-10]. https://ceur-ws.org/Vol-3487/paper4.pdf.
[21]Paladines, J., amp; Ramirez, J. (2020). A Systematic Literature Review of Intelligent Tutoring Systems with Dialogue in Natural Language[J]. IEEE Access, (8):164246-164267.
[22]Person, N. K., amp; Graesser, A. C. (1999). Evolution of Discourse During Cross-Age Tutoring[M]// O’Donnell, A. M., amp; King, A. (Eds.). Cognitive Perspectives on Peer Learning, Mahwah, NJ: Erlbaum:69-86.
[23]Person, N. K., Graesser, A. C., amp; Harter, D. et al. (2000). Dialog Move Generation and Conversation Management in AutoTutor[EB/OL]. [2024-02-10]. https://cdn.aaai.org/Symposia/Fall/2000/FS-00-01/FS00-01-007.pdf.
[24]Rus, V., D’Mello, S., amp; Hu, X. et al. (2013). Recent Advances in Conversational Intelligent Tutoring Systems[J]. AI Magazine, (3):42-54.
[25]Schmucker, R., Xia, M., amp; Azaria, A. et al. (2023). Ruffle amp; Riley: Towards the Automated Induction of Conversational Tutoring Systems[J/OL]. [2024-02-10]. https://arxiv.org/abs/2310.01420.
[26]Sch?n, D. A. (1983). The Reflective Practitioner: How Professionals Think in Action[M]. NY: Basic Books Ins:21-22.
[27]Shinn, N., Labash, B., amp; Gopinath, A. (2023). Reflexion: An Autonomous Agent with Dynamic Memory and Self-Reflection[J/OL]. [2024-02-10]. http://export.arxiv.org/abs/2303.11366v1.
[28]Tang, X., Zheng, Z., amp; Li, J. et al. (2023). Large Language Models Are in-Context Semantic Reasoners Rather than Symbolic Reasoners[J/OL]. [2024-02-10]. https://arxiv.org/abs/2305.14825.
[29]Vanlehn, K. (2006). The Behavior of Tutoring Systems[J]. International Journal of Artificial Intelligence in Education, 16(3):227–265.
[30]Wu, X., Xiao, L., amp; Sun, Y. et al. (2022). A Survey of Human-in-Loop for Machine Learning[J]. Future Generation Computer Systems, 135:364-381.
收稿日期 2024-03-05 責任編輯 汪燕
Development of Conversational Tutoring System Supported by Large Language Models:
Paradigm Shift, Architecture Design and Competency Training
LIU Hua, ZHU Zhiting
Abstract: Conversational tutoring system is a special type or an extended form of the intelligent tutoring system, which achieves personalized teaching functions mainly by imitating human tutors for individualized and adaptive teaching dialogues. Due to the level of technological development, the traditional conversational tutoring system has some fundamental defects, such as the lack of versatility and flexibility, high development costs, difficulty in promotion, and lack of accuracy. The large model brings a huge opportunity for the upgrade of the conversational tutoring system and will lead to its development paradigm shift: the development goal is upgraded from the original “rehearsing dialogue teaching fragments” to “independently carrying out complete dialogue teaching”, and the development logic is changed from “preset” and “matching” as the core to “fine-tuning” and “l(fā)inking” as the core. To this end, the conversational tutoring system has been expanded from the original internal and external dual cycle architecture to the triple nested cycle architecture mode of outer loop, middle loop and inner loop, so as to realize the perfect integration of learners’ dialogue fragments, learning task completion process, and course learning process. The teaching design capabilities, and dialogue design and generation capabilities, which are crucial and have technical bottlenecks in the system architecture, can be trained through complex prompt engineering such as learning task analysis routing chain, instructional design sequence chain, teaching dialogue routing chain, and the use of high-quality metacognitive annotation data, dialogic teaching annotation data, and historical data + RLHF technology to fine-tune large models, so as to improve the quality and effect of dialogic teaching by the conversational tutoring system.
Keywords: Conversational Tutoring System; Large Language Model; Multimodal Large Models; Dialogic Teaching