












摘要:隨著ChatGPT和國(guó)內(nèi)外各類GPT模型的飛速發(fā)展,其背后的技術(shù)日新月異,很多企業(yè)或機(jī)構(gòu)都擁有自己的私有大模型(或自主開發(fā)或基于開源模型定制開發(fā)、微調(diào)) ,同樣地,生成式人工智能也為教育事業(yè)注入了動(dòng)力。該研究基于群體智慧視角,為輔助信息科技師范生教學(xué)技能實(shí)訓(xùn)課程教學(xué),基于Langchain+LLM構(gòu)建本地知識(shí)庫問答系統(tǒng),在概述ChatGPT、智能問答系統(tǒng)原理和特點(diǎn)的基礎(chǔ)上,分析了“信息科技師范生教學(xué)技能訓(xùn)練”問答系統(tǒng)的設(shè)計(jì)需求,從系統(tǒng)架構(gòu)、問答流程及功能模塊等部分設(shè)計(jì)了問答系統(tǒng),旨在研究如何將 ChatGPT技術(shù)融入師范生教學(xué)訓(xùn)練過程中以提高學(xué)生的學(xué)習(xí)興趣,改進(jìn)教師的教學(xué)方法,進(jìn)而提升教育教學(xué)質(zhì)量。研究結(jié)果表明,訓(xùn)練出的基于本地知識(shí)庫的教學(xué)問答助手,能有效解決傳統(tǒng)問答大模型的“幻覺問題”(即專業(yè)性和針對(duì)性不強(qiáng)、“答非所問”誤導(dǎo)性回答等) ,進(jìn)而為師范生提供更精確的教學(xué)技能訓(xùn)練指導(dǎo)。
關(guān)鍵詞:ChatGPT;信息科技師范生;智能化問答;大模型;預(yù)訓(xùn)練模型
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)05-0001-06 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
教師承擔(dān)著傳授知識(shí)、培養(yǎng)人才的重要使命,需要接受系統(tǒng)教育和專業(yè)訓(xùn)練,以獲得必要的專業(yè)知識(shí)和教學(xué)技能。對(duì)于師范生而言,掌握扎實(shí)的教學(xué)技能是其成為合格教師的關(guān)鍵,這不僅關(guān)系他們自身的職業(yè)發(fā)展,也直接影響到教育事業(yè)的長(zhǎng)遠(yuǎn)發(fā)展。而教學(xué)技能需要在日復(fù)一日的有效訓(xùn)練中得到培養(yǎng)。
然而就現(xiàn)階段來看,師范生教學(xué)技能培養(yǎng)仍存在許多問題。本文以師范生中的信息科技師范生作為研究對(duì)象,探討其教學(xué)技能培養(yǎng)過程中存在的問題并尋求解決辦法。信息科技師范生是信息技術(shù)與教育教學(xué)相結(jié)合的專業(yè)人才,也是未來教育的關(guān)鍵力量,其教學(xué)技能不僅關(guān)乎個(gè)人職業(yè)發(fā)展,更影響到未來教育的質(zhì)量和學(xué)生信息素養(yǎng)的提升。因此,培養(yǎng)具備高水平教學(xué)技能的信息科技師范生,在推動(dòng)教育信息化和提升全民數(shù)字素養(yǎng)方面具有重要意義。
通過課堂觀察與訪談得知,當(dāng)前信息科技師范生教學(xué)技能培養(yǎng)面臨著如下挑戰(zhàn):教師指導(dǎo)存在局限性;教學(xué)組織形式標(biāo)準(zhǔn)化的問題極大可能地限制教學(xué)的靈活性與創(chuàng)造性;當(dāng)前的教學(xué)技能培養(yǎng)難以滿足學(xué)生個(gè)性化學(xué)習(xí)的需求。
針對(duì)以上挑戰(zhàn),本研究結(jié)合群體智慧和ChatGPT智能問答模型的關(guān)鍵技術(shù),設(shè)計(jì)并實(shí)現(xiàn)基于群體智慧視角的信息科技師范生教學(xué)技能問答系統(tǒng),旨在為信息科技師范生教學(xué)技能的訓(xùn)練提供幫助。本問答平臺(tái)包含用戶模塊、問答學(xué)習(xí)模塊、后臺(tái)管理模塊。
本文首先分析了信息科技師范生教學(xué)技能培養(yǎng)的重要性,緊接著闡述了師范生在教學(xué)技能培養(yǎng)時(shí)面臨的挑戰(zhàn),針對(duì)這些挑戰(zhàn),本研究在論述了相關(guān)理論和技術(shù)的基礎(chǔ)之上,設(shè)計(jì)并實(shí)現(xiàn)了信息科技師范生教學(xué)技能問答平臺(tái),并對(duì)問答平臺(tái)進(jìn)行使用,評(píng)估使用后的效果,發(fā)現(xiàn)該問答平臺(tái)能對(duì)信息科技師范生教學(xué)技能訓(xùn)練產(chǎn)生幫助。
1 信息科技師范生教學(xué)技能培養(yǎng)面臨的挑戰(zhàn)和應(yīng)對(duì)策略
1.1 挑戰(zhàn)
1) 教師指導(dǎo)的局限性。注重實(shí)踐和反思的教學(xué)技能訓(xùn)練模式要求教師提供精細(xì)、及時(shí)的反饋與指導(dǎo),而教師的時(shí)間和精力有限,難以為每個(gè)師范生提供個(gè)性化的指導(dǎo)和反饋。這一局限性在班級(jí)制的大規(guī)模教學(xué)環(huán)境中尤為明顯,影響了教學(xué)技能培養(yǎng)的質(zhì)量和效果。
2) 教學(xué)組織形式標(biāo)準(zhǔn)化的問題。常規(guī)課程標(biāo)準(zhǔn)化的教學(xué)流程有助于保證教學(xué)的基本質(zhì)量,但也可能限制教學(xué)過程的靈活性和創(chuàng)造性。這種形式難以適應(yīng)不同學(xué)習(xí)者的個(gè)性化需求,不利于師范生個(gè)性化創(chuàng)新教學(xué)方法的探索。
3) 難以滿足學(xué)生個(gè)性化學(xué)習(xí)的需求。從教育心理學(xué)的角度來看,每個(gè)學(xué)生的知識(shí)背景、學(xué)習(xí)風(fēng)格和職業(yè)發(fā)展目標(biāo)都有所不同,這就要求教學(xué)技能培養(yǎng)須提供更加個(gè)性化的學(xué)習(xí)路徑和支持。然而,由于資源、技術(shù)和方法的局限,滿足這種個(gè)性化需求在實(shí)際操作中存在較大難度[1]。
本研究訪談了部分信息科技師范生,發(fā)現(xiàn)他們的學(xué)習(xí)風(fēng)格和興趣點(diǎn)存在較大差距,比如有的學(xué)生擅長(zhǎng)編程課的教學(xué),有的學(xué)生喜歡理論課的教學(xué),有的學(xué)生喜歡操作課教學(xué),他們各自有擅長(zhǎng)的領(lǐng)域但同時(shí)也存在薄弱領(lǐng)域。因此,傳統(tǒng)的課堂教學(xué)即一名教師對(duì)多名師范生,將難以滿足其個(gè)性化需求。
1.2 應(yīng)對(duì)策略
針對(duì)上述問題,教育界和學(xué)術(shù)界已經(jīng)開始探索多種解決方案。例如,利用教育技術(shù)提供個(gè)性化學(xué)習(xí)資源,開發(fā)在線教學(xué)平臺(tái)以支持遠(yuǎn)程指導(dǎo)和同伴互助,以及采用案例教學(xué)和問題導(dǎo)向?qū)W習(xí)等方法來提高教學(xué)的互動(dòng)性和實(shí)踐性等。
2 群體智慧
關(guān)于群體智慧,美國(guó)作家Surowiecki在2010年出版的The Wisdom of Crowds 一書中使得Collective Intel?ligence即“群體智慧”得到廣泛關(guān)注,作者指出群體智慧生成的4個(gè)基本前提:觀點(diǎn)和思維的多樣性;參與人群的獨(dú)立性;無核心人物的分權(quán)性;群體觀點(diǎn)高度整合的集成性[2]。群體智慧可以理解為在混合式協(xié)作學(xué)習(xí)活動(dòng)過程中涌現(xiàn)出的高級(jí)智慧,這種智慧比學(xué)習(xí)共同體中的每個(gè)成員都要高明,旨在幫助學(xué)習(xí)者學(xué)習(xí)如何產(chǎn)生新的知識(shí)和運(yùn)用新的智慧[3]。在教學(xué)技能培養(yǎng)中,群智視角意味著利用群體知識(shí)的多樣性和協(xié)同效應(yīng),促進(jìn)師范生在教學(xué)實(shí)踐中提升創(chuàng)新思維和綜合能力。
2.1 群體智慧運(yùn)用于師范生教學(xué)技能訓(xùn)練
如前文所述,就師范生教學(xué)技能訓(xùn)練存在的挑戰(zhàn),本研究提出將群體智慧運(yùn)用于師范生教學(xué)輔助。將具有多樣群體智慧的信息科技師范生作為研究群體,以信息科技師范生的提問數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)來源之一,結(jié)合師范生教學(xué)的教案、課件等進(jìn)行進(jìn)一步的提問與分析。
本文結(jié)合群體智慧的特點(diǎn)和前人的應(yīng)用研究,分別將群體智慧應(yīng)用于問答平臺(tái)模型搭建(語料庫收集:來自網(wǎng)絡(luò)語料庫和本地語料庫的群體智慧) 和學(xué)習(xí)支持平臺(tái)的研究中(來自師范生群體的群體智慧) 。
本問答平臺(tái)系統(tǒng)具有交互性,有知識(shí)問答、認(rèn)知診斷、個(gè)性化內(nèi)容推送的功能。師范生除了可以在問答模塊進(jìn)行學(xué)習(xí)提問,還可在用戶模塊將自己的講課視頻、課件、教案上傳到班集體中,其他用戶可以在里面進(jìn)行點(diǎn)評(píng),上傳材料的用戶在看到他人點(diǎn)評(píng)反饋后不斷更新完善自己的教學(xué)技能;教師可以上傳、補(bǔ)充資料,更新完善提問語料庫資料。用戶可以發(fā)表自己的內(nèi)容,通過網(wǎng)絡(luò)交互實(shí)現(xiàn)知識(shí)的共享,從而在問答平臺(tái)上形成群體智慧。
2.2 群體智慧在師范生教學(xué)技能訓(xùn)練中的優(yōu)勢(shì)和局限性
2.2.1 優(yōu)勢(shì)
多維度學(xué)習(xí):群體智慧可以為師范生創(chuàng)造多維度的學(xué)習(xí)環(huán)境,通過平臺(tái)的互動(dòng),師范生能夠從多角度獲得全面的教育視角和教學(xué)策略。這種學(xué)習(xí)方式促進(jìn)了不同觀點(diǎn)和經(jīng)驗(yàn)的共享,從而提升了教學(xué)方法的豐富性和有效性。
資源共享:通過群體智慧,師范生可以訪問并共享豐富的教學(xué)資源和案例,從而快速提升教學(xué)設(shè)計(jì)和實(shí)施的能力。
問題解決:通過集體討論和協(xié)作,師范生能夠深入探討教學(xué)中遇到的問題,從而找到更有效的解決方案。
2.2.2 局限性
依賴性:過度依賴群體智慧可能導(dǎo)致師范生缺乏獨(dú)立思考和解決問題的能力,影響他們的自主性。
信息過載:在群體智慧的環(huán)境中,信息量巨大,師范生可能會(huì)感到信息過載,難以篩選和吸收對(duì)自己最有用的知識(shí)。
實(shí)踐機(jī)會(huì)限制:雖然群體智慧提供了豐富的理論支持,但可能限制了師范生在真實(shí)課堂環(huán)境中實(shí)踐教學(xué)技能的機(jī)會(huì)。
因此,群體智慧運(yùn)用于師范生教學(xué)技能訓(xùn)練有其優(yōu)勢(shì)和局限性,可以運(yùn)用群體智慧來不斷完善自己的教學(xué)技能,但是也應(yīng)該辯證地看待,不能過于依賴。
3 智能問答系統(tǒng)概述
知識(shí)問答技術(shù)研究最早可以追溯到20世紀(jì)50年代的圖靈測(cè)試[4]。由于當(dāng)時(shí)的技術(shù)能力限制,知識(shí)問答能力并未取得顯著突破。20世紀(jì)60、70年代,數(shù)據(jù)庫技術(shù)的出現(xiàn),專用問答系統(tǒng)應(yīng)運(yùn)而生,如Baseball[5]和REQUEST[6]等。這類系統(tǒng)主要用于特定領(lǐng)域事實(shí)性問題的回答,覆蓋范圍和回答能力有限。20世紀(jì)90 年代后期,互聯(lián)網(wǎng)的出現(xiàn),大量的文本信息如網(wǎng)頁、郵件等開始涌現(xiàn),自然語言處理技術(shù),如關(guān)鍵詞提取[7]、文檔檢索[8]、文本分類[9]等開始在問答系統(tǒng)中得到應(yīng)用,且初步具備交互式問答對(duì)話能力。21世紀(jì)以來,知識(shí)圖譜采用結(jié)構(gòu)化的圖數(shù)據(jù)庫來存儲(chǔ)和展示各種知識(shí),能有效地表達(dá)知識(shí),具備強(qiáng)大的知識(shí)檢索、推理和應(yīng)用能力,在智能知識(shí)問答系統(tǒng)中得到了廣泛應(yīng)用[10-11]。但知識(shí)圖譜也面臨挑戰(zhàn),如成本較高、更新和維護(hù)困難等,這些因素限制了基于知識(shí)圖譜技術(shù)的知識(shí)問答的進(jìn)一步發(fā)展。2023年以來,以ChatGPT為代表的大模型技術(shù)成為熱點(diǎn)話題[12],基于大模型的知識(shí)問答系統(tǒng)極大地提升了問題的語義理解能力,且支持上下文理解和多輪對(duì)話,給用戶帶來智能化的知識(shí)問答體驗(yàn)。
然而,大模型在知識(shí)問答的應(yīng)用中也存在著巨大的挑戰(zhàn):它的知識(shí)主要來源于訓(xùn)練數(shù)據(jù),知識(shí)的更新周期長(zhǎng)、迭代成本高昂。此外,在面對(duì)沒有“見過”的問題時(shí),容易出現(xiàn)“答非所問”的誤導(dǎo)性回答,即“幻覺”問題。針對(duì)該問題,本文基于RAG(檢索增強(qiáng)生成) 技術(shù),有效解決了大模型問答系統(tǒng)的幻覺問題,從而為設(shè)計(jì)專業(yè)知識(shí)庫問答系統(tǒng)奠定基礎(chǔ)。本平臺(tái)基于文本自動(dòng)生成式系統(tǒng),使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,通過對(duì)科學(xué)數(shù)據(jù)集的訓(xùn)練,快速生成對(duì)用戶問題進(jìn)行語義和內(nèi)容分析后的文本答案。
4 基于檢索-讀取-生成的問答平臺(tái)的實(shí)現(xiàn)
4.1 平臺(tái)用戶群體
本問答知識(shí)平臺(tái)的主要用戶群體為在讀的、尚未進(jìn)入工作崗位的信息科技師范生,本平臺(tái)旨在為其提供精準(zhǔn)化的個(gè)性化問答學(xué)習(xí)支持服務(wù),有助于解決前文所述的挑戰(zhàn)。
4.2 編程語言和環(huán)境選擇
本文實(shí)驗(yàn)編程語言采用JavaScript 和node,編程環(huán)境借助Node.js和各種云服務(wù),利用好前后端同構(gòu)的優(yōu)勢(shì),部署應(yīng)用。
4.3 模型
大模型采用OpenAI的ChatGPT模型,其提供向量化API和提問API。大模型使得技術(shù)成為工具,可以迅速搭建大模型知識(shí)庫問答機(jī)器人應(yīng)用呈現(xiàn)給用戶,然后收集反饋、持續(xù)迭代,進(jìn)而搭建出基于本地知識(shí)庫的問答平臺(tái)系統(tǒng),使其成為專業(yè)領(lǐng)域的AI問答助手。
4.4 框架——Langchain
Langchain是一個(gè)面向LLM應(yīng)用的框架,包括:基礎(chǔ)層、能力層、應(yīng)用層;LLM的API只是提供了一個(gè)非常基礎(chǔ)的調(diào)用方式,因此,當(dāng)要構(gòu)建一個(gè)復(fù)雜的Chat?Bot時(shí),要考慮如何保存聊天的上下文、如何進(jìn)行網(wǎng)絡(luò)搜索、如何加載PDF等工程問題,可應(yīng)用Langchain框架幫助解決。它具有如下優(yōu)勢(shì):1) 提供統(tǒng)一的LLM接口;2) 快速將本地知識(shí)導(dǎo)入大語言模型;3) 將連續(xù)多次任務(wù)的關(guān)鍵詞進(jìn)行存儲(chǔ),讓大模型有“記憶”;4) 集成大量的工具:數(shù)據(jù)加載、數(shù)據(jù)庫、支持多種模型;5) 定義組件接口:數(shù)據(jù)加載、數(shù)據(jù)庫請(qǐng)求、模型調(diào)用等。
4.5 平臺(tái)數(shù)據(jù)來源
本平臺(tái)數(shù)據(jù)來源主要是粵教版高中信息科技教材八本,以及本研究中某師范院校大三信息科技師范生的教案50個(gè)和課件50個(gè),此外還有部分?jǐn)?shù)據(jù)來自百度百科等。
4.6 偽代碼實(shí)現(xiàn)
偽代碼實(shí)現(xiàn)如表1所示。
4.7 平臺(tái)功能模塊
問答學(xué)習(xí)平臺(tái)的主要功能模塊設(shè)計(jì)圖如圖1所示,主要由用戶模塊,問答學(xué)習(xí)模塊以及后臺(tái)管理模塊組成。其中用戶模塊包括最基本的登錄和個(gè)人中心功能,此外還有個(gè)性化學(xué)習(xí)模塊,利用平臺(tái)對(duì)知識(shí)點(diǎn)的問答輔助來提升師范生的教學(xué)技能學(xué)習(xí),用戶通過小測(cè)來進(jìn)行自身的學(xué)習(xí)診斷,后臺(tái)將收集到的用戶數(shù)據(jù)傳至問答學(xué)習(xí)模塊中。在問答學(xué)習(xí)模塊中,用戶可以輸入具體問題進(jìn)行查詢,平臺(tái)將基于用戶的認(rèn)知診斷進(jìn)行答案推送,提供最適合用戶的解答。
5 原理概述和搭建流程
5.1 原理概述
ChatGPT是OpenAI開發(fā)的基于Transformer架構(gòu)的預(yù)訓(xùn)練生成模型,通過大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練,使其具備強(qiáng)大的自然語言理解和生成能力,能夠處理和回應(yīng)各種形式的語言輸入。GPT對(duì)話大模型作為一種新興的人工智能應(yīng)用,已在教育領(lǐng)域展現(xiàn)廣泛應(yīng)用前景,為個(gè)性化教學(xué)、智能輔導(dǎo)和教育內(nèi)容創(chuàng)新提供可能。本研究探索基于群智視角的GPT對(duì)話大模型在信息科技師范生教學(xué)技能培養(yǎng)中的應(yīng)用,并對(duì)訓(xùn)練與應(yīng)用做優(yōu)化。通過整合GPT技術(shù)和群智理念,利用全參數(shù)訓(xùn)練原理(圖2) ,結(jié)合信息科技師范生的教學(xué)內(nèi)容和教學(xué)法知識(shí)構(gòu)建私有數(shù)據(jù)集,旨在為師范生提供開放、互動(dòng)和個(gè)性化的教學(xué)技能學(xué)習(xí)問答系統(tǒng),幫助解答他們?cè)诮虒W(xué)技能訓(xùn)練中遇到的問題。
1) Transformer。Transformer模型的關(guān)鍵在于其自注意力機(jī)制,這一機(jī)制使得模型能夠識(shí)別并理解文本中各個(gè)詞語之間的相互聯(lián)系。該模型由兩大部分構(gòu)成:編碼器和解碼器,它們通過相互連接實(shí)現(xiàn)信息的交換。編碼器由若干層編碼層疊加而成,而解碼器則由相同數(shù)量的解碼層組成。在編碼器的操作過程中,輸入文本首先通過自注意力層處理,緊接著進(jìn)入前饋網(wǎng)絡(luò)。編碼器處理完畢后,其輸出結(jié)果會(huì)被送入解碼器。解碼器不僅包括自注意力層和前饋層,還包括編碼-解碼注意力層,用于關(guān)注輸入句子的相關(guān)部分。圖3為Transformer架構(gòu)原理圖。
①Embedding層:將輸入的序列的位置元素映射為一個(gè)高維稠密向量,以便后續(xù)處理。
②編碼器(Encoder) :通過多層的前饋網(wǎng)絡(luò)和注意力機(jī)制,對(duì)輸入的序列進(jìn)行編碼,捕捉序列中各個(gè)位置的相互關(guān)系,編碼器包含一個(gè)多頭自注意力。
③解碼器(Decoder) :通過多層前饋網(wǎng)絡(luò)和注意力機(jī)制,對(duì)經(jīng)過編碼的序列進(jìn)行解碼,生成預(yù)測(cè)的輸出序列。
④輸出層:將解碼后的向量映射回輸出序列的各個(gè)位置的元素,以便計(jì)算損失函數(shù)并進(jìn)行模型優(yōu)化。
整個(gè)Transformer模型捕捉序列中各個(gè)位置之間的相互關(guān)系,提高模型的準(zhǔn)確性[13]。
2) RLHF。本問答系統(tǒng)搭建還用到了RLHF(DeepReinforcement Learning from Human Preferences) ,基于人類偏好的深度強(qiáng)化學(xué)習(xí),利用RLHF提高大語言模型的性能,從而實(shí)現(xiàn)更自然、準(zhǔn)確的文本生成。
RLHF的主要作用:滿足難以定義的目標(biāo),賦予模型足夠好的泛化性;降低胡亂編造的可能性,使其回答更貼合信息科技師范生的教學(xué)技能訓(xùn)練;保證模型持續(xù)更新的正確軌道;多樣化與負(fù)反饋。
3) RAG——檢索增強(qiáng)生成。本問答系統(tǒng)的搭建主要采用RAG(Retrieval Augmented Generation) ,即檢索增強(qiáng)生成技術(shù),其原理如圖4所示。
核心:檢索→增強(qiáng)→生成。
基本流程:
①用戶輸入提問
②檢索:根據(jù)用戶提問對(duì)向量數(shù)據(jù)庫進(jìn)行相似性檢測(cè),查找與回答用戶問題最相關(guān)的內(nèi)容。
③增強(qiáng):根據(jù)檢索的結(jié)果,生成prompt。一般涉及“僅依賴下述信息源來回答問題”這種限制LLM參考信息源的語,來減少幻想,使回答更加聚焦和專業(yè)。
④生成:將增強(qiáng)后的prompt傳遞給LLM,返回?cái)?shù)據(jù)給用戶。基于以上RAG設(shè)計(jì)模式和Langchain,設(shè)計(jì)本問答知識(shí)平臺(tái)設(shè)計(jì)框架(如圖5所示) 。
5.2 搭建流程
1) 加載文件→讀取文件→文本分割。
①加載文件:讀取本地的知識(shí)庫文件。
根據(jù)用戶的提問進(jìn)行語義檢索,將數(shù)據(jù)集放到向量數(shù)據(jù)庫中,將不同的數(shù)據(jù)源加載進(jìn)來。
②讀取文件:讀取加載的文件并轉(zhuǎn)化為文本格式, 本研究中使用到的文件格式主要是PDF、Word 和TXT。
③切分?jǐn)?shù)據(jù)(Texts plitter) 。按照段落、句子或詞語等規(guī)則進(jìn)行分割。分割的大小和重疊部分須自定義設(shè)定,過小或過大都可能影響存儲(chǔ)和處理性能。切分時(shí)要考慮內(nèi)容特點(diǎn)、目標(biāo)模型的上下文窗口等,保持相關(guān)文本片段相鄰且切分結(jié)果內(nèi)部保持語義相關(guān)性與獨(dú)立性,定義每塊的大小及重疊部分(如圖6) ,否則可能導(dǎo)致上下文不連貫的問題。
2) 文本向量化(embedding)。將文本片段轉(zhuǎn)換為數(shù)值向量,以便后續(xù)的高效存儲(chǔ)和檢索。embedding 算法轉(zhuǎn)換成一個(gè)向量,存儲(chǔ)到向量數(shù)據(jù)庫中。這樣,每個(gè)原始數(shù)據(jù)都有一個(gè)對(duì)應(yīng)的向量,可以用來檢索。
3) 檢索數(shù)據(jù)。根據(jù)問題從數(shù)據(jù)庫中檢索并返回。
在文本向量中,匹配出與問句向量最相似的top k 個(gè)文本向量,通常使用余弦相似度等度量方法。當(dāng)所有需要的數(shù)據(jù)都存儲(chǔ)到向量數(shù)據(jù)庫中后,把用戶的提問也embedding成向量,進(jìn)行檢索,找到相似性最高的幾個(gè)文檔塊,返回。
4) 利用匹配出的文本來形成與問題相關(guān)的上下文,輸入給語言模型。
①增強(qiáng):prompt根據(jù)檢索到的內(nèi)容和模板拼接(創(chuàng)建prompt的時(shí)候,會(huì)自動(dòng)從字符串中推測(cè)出需要輸入的變量) 。要求大模型回答問題時(shí)根據(jù)給出的要求、提示等,使之得到符合要求的答案,特定領(lǐng)域知識(shí)的提示可以使問答助手更好理解問題需求。使用Lang?chain,構(gòu)建可復(fù)用的prompt來更工程化地管理和構(gòu)建prompt,制作更復(fù)雜的chatbot(基于知識(shí)庫搜索的prompt上下文的方案如圖7所示)。
②生成:調(diào)用openai 返回結(jié)果,將組裝好的prompt傳遞給chatbot進(jìn)行生成回答。
5.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
為了準(zhǔn)確比較,對(duì)不同類型的問題進(jìn)行問答,基于粵教版高二年級(jí)信息科技課程的課題“實(shí)驗(yàn)操作課冒泡排序”構(gòu)造客觀教學(xué)內(nèi)容知識(shí)問題和教學(xué)法知識(shí)問題,對(duì)比傳統(tǒng)的ChatGPT問答結(jié)果,本研究的本地知識(shí)庫專業(yè)性及針對(duì)性更強(qiáng),回答更加全面,能有效規(guī)避“幻覺”問題且回答的效率和質(zhì)量在不斷迭代優(yōu)化。但是本問答平臺(tái)的回答速度稍慢,后續(xù)將不斷完善回答的速度以及全面性。
1) 教學(xué)內(nèi)容知識(shí)問題:冒泡排序是什么?2) 教學(xué)法知識(shí)問題:根據(jù)本課題,進(jìn)行高二年級(jí)學(xué)生特征分析和學(xué)情分析?教學(xué)內(nèi)容知識(shí)回答對(duì)比如圖8和9,教學(xué)法知識(shí)回答對(duì)比如圖10和圖11。
在沒有本地知識(shí)庫提供檢索時(shí),大模型只能根據(jù)自己的知識(shí)回答,造成大模型所謂的編造或幻覺問題,沒有回答到要點(diǎn)上。通過對(duì)比可知,本研究構(gòu)建的問答系統(tǒng)更加客觀、結(jié)合學(xué)生實(shí)際,回答更加準(zhǔn)確全面,且針對(duì)性以及課程專業(yè)性更強(qiáng),能有效解決大模型的“幻覺”問題,提供更可行的技能訓(xùn)練方案,有效解決教師不能精確化指導(dǎo)每個(gè)學(xué)生的困境,滿足學(xué)生的個(gè)性化學(xué)習(xí)需求。
6 總結(jié)與展望
本文基于群體智慧的視角,設(shè)計(jì)基于群體智慧的輔助信息科技師范生進(jìn)行教學(xué)技能訓(xùn)練的智能問答型平臺(tái),通過學(xué)習(xí)大量數(shù)據(jù),建立問題與答案之間的關(guān)系,并使用RAG結(jié)構(gòu)來識(shí)別并給出最佳答案。
其中,群體智慧主要運(yùn)用在兩個(gè)方面:首先本問答平臺(tái)支持師范生之間互動(dòng)和協(xié)作學(xué)習(xí),通過互動(dòng)討論、共享教學(xué)資源和經(jīng)驗(yàn),系統(tǒng)可以激發(fā)群體智慧,使得每位師范生都能從群體中獲得啟發(fā)和支持。其次是基于用戶評(píng)價(jià)和反饋進(jìn)行答案質(zhì)量的動(dòng)態(tài)調(diào)整。
本問答平臺(tái)不僅提供簡(jiǎn)單的答案,還考慮到了學(xué)生可能的背景知識(shí)與具體情境,從而確保回答更加全面,相比于傳統(tǒng)大模型的模糊回答,本問答平臺(tái)的回答更加精確具體,有效地提升了系統(tǒng)的實(shí)用性和適用性,更好地滿足用戶的信息需求。
本研究構(gòu)建的問答系統(tǒng)也存在局限性,比如對(duì)于問題的理解不夠深入、對(duì)于特定領(lǐng)域的知識(shí)缺乏充分覆蓋、回答速度不夠理想及語料庫不夠完善等[14]。
為了提高答案的準(zhǔn)確率和覆蓋率,還需要通過數(shù)據(jù)、模型、性能的優(yōu)化,上下文理解,知識(shí)推理,用戶反饋,自然語言處理技術(shù)的融合及領(lǐng)域適應(yīng)性等方面的改進(jìn)和完善,以提高本問答系統(tǒng)的性能。在后續(xù)的研究中,會(huì)積極鼓勵(lì)用戶參與并根據(jù)用戶建議不斷完善本平臺(tái)。
本研究通過結(jié)合人工智能技術(shù)和群體協(xié)作的優(yōu)勢(shì),更有效地滿足了信息科技師范生多樣化的教學(xué)需求,提升了他們的教學(xué)技能和專業(yè)素養(yǎng)。也期待將平臺(tái)推廣應(yīng)用到其他學(xué)科的師范生教學(xué)技能訓(xùn)練中。
參考文獻(xiàn):
[1] 方群,朱戰(zhàn)霞.慕課與傳統(tǒng)課堂教學(xué)方法有機(jī)融合的大學(xué)課程教學(xué)模式初探[J].教育教學(xué)論壇,2019(34):183-186.
[2] SUROWIECKI J.The Wisdom of Crowds: Why the Many areSmarter than the Few[M].New York: Little Brown,2004:10-20.。
[3] 甘永成.論虛擬學(xué)習(xí)社區(qū)中的知識(shí)建構(gòu)[J].中國(guó)遠(yuǎn)程教育,2006(2):17-21.
[4] TURING A M.The Essential Turing:the Ideas That Gave Birthto the Computer Age[J].Computing machinery and intelligence,1950(2012):433-464.
[5] GREEN B F Jr,WOLF A K,CHOMSKY C,et al.Baseball:an au?tomatic question-answerer[C]//Papers Presented at the may 9-11,1961,Western Joint IRE-AIEE-ACM Computer Conferenceon - IRE-AIEE-ACM '61 (Western).May 9-11,1961.Los An?geles,California.ACM,1961:219-224.
[6] PLATH W J.REQUEST:a natural language question-answeringsystem[J]. IBM Journal of Research and Development, 20(4):326-335.
[7] CHIEN lee-feng.PAT-tree-based keyword extraction for Chi?nese information retrieval[C]//Proceedings of the 20th AnnualInternational ACM SIGIR Conference on Research and Devel?opment in Information Retrieval - SIGIR '97. Philadelphia,Pennsylvania,USA.ACM,1997:50-58.
[8] BEAR J,ISRAEL D, PETIT J,MARTIN D.Using information ex?traction to improve document retrieval[J]. NIST SPECIALPUBLICATION SP,1998:367-378.
[9] NIGAM K,LAFFERTY J,MCCALLUM A.Using maximum en?tropy for text classification[C]//IJCAI-99 work shop on machinelearning for information filtering.1999:61-67.
[10] 喬少杰,楊國(guó)平,于泳,等.QA-KGNet:一種語言模型驅(qū)動(dòng)的知識(shí)圖譜問答模型[J].軟件學(xué)報(bào),2023,34(10):4584-4600.
[11] 馮鈞,朱躍龍,王云峰,等.面向數(shù)字孿生流域的知識(shí)平臺(tái)構(gòu)建關(guān)鍵技術(shù)[J].人民長(zhǎng)江,2023,54(3):229-235.
[12] WU T Y,HE S Z,LIU J P,et al.A brief overview of ChatGPT:the history, status quo and potential future development[J].CAA Journal of Automatica Sinica,10(5):1122-1136.
[13] 鞠曉峰,都軍,覃軍,等.人工智能在智能問答系統(tǒng)中的應(yīng)用[J].智能建筑與智慧城市,2021(3):36-37.
[14] 陳鐵權(quán).基于深度學(xué)習(xí)的智能問答型智慧校園平臺(tái)設(shè)計(jì)[J].船舶職業(yè)教育,2024,12(3):52-55.
【通聯(lián)編輯:王 力】
基金項(xiàng)目:地方自然科學(xué)基金資助:云南師范大學(xué)2024 研究生科研創(chuàng)新項(xiàng)目“基于群智視角的信息科技師范生教學(xué)技能培養(yǎng):GPT對(duì)話大模型的訓(xùn)練與應(yīng)用優(yōu)化研究”(項(xiàng)目編號(hào):YJSJJ23-B123);云南師范大學(xué)高等教育本科教學(xué)成果培育項(xiàng)目:師范生教學(xué)能力雙循環(huán)培養(yǎng)體系的協(xié)同構(gòu)建與實(shí)踐