
摘要:針對(duì)大語言模型在計(jì)算機(jī)類課程教學(xué)問答系統(tǒng)中面臨的知識(shí)碎片化、動(dòng)態(tài)更新遲滯及多模態(tài)資源整合不足等問題,該研究提出了一種基于檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG) 的課程知識(shí)庫系統(tǒng)構(gòu)建方法。該方法旨在通過動(dòng)態(tài)意圖識(shí)別和混合檢索策略算法,實(shí)現(xiàn)計(jì)算機(jī)類課程知識(shí)點(diǎn)的高效組織與精準(zhǔn)服務(wù)。動(dòng)態(tài)意圖識(shí)別通過構(gòu)建上下文感知的語義推理網(wǎng)絡(luò),實(shí)時(shí)解析用戶查詢中隱含的實(shí)踐操作需求與知識(shí)拓?fù)潢P(guān)聯(lián),有效緩解傳統(tǒng)方法對(duì)復(fù)合型教學(xué)意圖的誤判問題。混合檢索策略融合了語義推理與跨模態(tài)對(duì)齊技術(shù),采用動(dòng)態(tài)權(quán)重分配機(jī)制,實(shí)現(xiàn)文本、操作流程等多源數(shù)據(jù)的協(xié)同檢索。實(shí)驗(yàn)結(jié)果表明,基于RAG的混合檢索方法相比純大語言模型,在準(zhǔn)確率和召回率上均有明顯提升。
關(guān)鍵詞:大語言模型;檢索增強(qiáng)生成;知識(shí)庫;多模態(tài)
中圖分類號(hào):TP311" " " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)08-0026-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
計(jì)算機(jī)類課程具有知識(shí)迭代速度快、實(shí)踐關(guān)聯(lián)性強(qiáng)等特征,其教學(xué)資源通常涵蓋教材文本、實(shí)驗(yàn)代碼、操作視頻等多模態(tài)數(shù)據(jù)。隨著教育數(shù)字化轉(zhuǎn)型的推進(jìn),課程資源呈現(xiàn)出碎片化分布特征,不同模態(tài)數(shù)據(jù)間的語義關(guān)聯(lián)性與結(jié)構(gòu)化程度差異顯著。當(dāng)前教育領(lǐng)域基于關(guān)鍵詞的智能問答系統(tǒng)主要面臨兩方面的技術(shù)瓶頸:1) 傳統(tǒng)檢索方法在處理多模態(tài)數(shù)據(jù)時(shí),受限于模態(tài)間的語義鴻溝與結(jié)構(gòu)差異,難以實(shí)現(xiàn)跨模態(tài)資源的精準(zhǔn)關(guān)聯(lián);2) 大語言模型(Large Language Model, LLM) 雖具備較強(qiáng)的生成能力,但其參數(shù)固化特性易導(dǎo)致知識(shí)時(shí)效性不足與領(lǐng)域幻覺問題。
本研究提出面向計(jì)算機(jī)類課程的混合檢索策略,通過代碼片段抽象語法樹(Abstract Syntax Tree, AST) 的結(jié)構(gòu)化表征與文本語義向量的跨模態(tài)對(duì)齊,實(shí)現(xiàn)編程邏輯與理論知識(shí)的協(xié)同檢索,解決傳統(tǒng)方法在代碼語義解析與多模態(tài)資源關(guān)聯(lián)中的精度損失問題。同時(shí),設(shè)計(jì)基于RAG的教學(xué)問答系統(tǒng),為教育場景下大模型與領(lǐng)域知識(shí)的深度耦合提供了技術(shù)路徑。
1 理論基礎(chǔ)
1.1 RAG
RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成) 是自然語言處理領(lǐng)域的新型架構(gòu)范式,主要包括檢索模塊和生成模塊。其核心思想是通過外部知識(shí)檢索機(jī)制提升生成模型的內(nèi)容準(zhǔn)確性與事實(shí)一致性。該范式通過信息檢索系統(tǒng)與預(yù)訓(xùn)練語言模型的結(jié)合,在生成過程中動(dòng)態(tài)檢索相關(guān)領(lǐng)域文檔作為上下文約束,有效緩解傳統(tǒng)生成模型因參數(shù)固化導(dǎo)致的時(shí)效性不足與事實(shí)幻覺問題[1]。相比純LLM,RAG能夠借助本地知識(shí)庫提升時(shí)效性與準(zhǔn)確性。
1.2 本地知識(shí)庫
本地知識(shí)庫指部署在本地計(jì)算環(huán)境中的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集合,專為特定組織或應(yīng)用場景定制構(gòu)建,具備領(lǐng)域?qū)>耘c數(shù)據(jù)可控性特征。通常整合企業(yè)內(nèi)部文檔、專業(yè)文獻(xiàn)、操作日志等異構(gòu)數(shù)據(jù)源,通過信息抽取、實(shí)體鏈接等技術(shù)轉(zhuǎn)化為機(jī)器可讀的知識(shí)圖譜或向量化表示,支持語義檢索、推理服務(wù)等智能化應(yīng)用。與通用互聯(lián)網(wǎng)知識(shí)庫相比,其核心優(yōu)勢(shì)在于數(shù)據(jù)主權(quán)明確、隱私保護(hù)性強(qiáng)且更新維護(hù)機(jī)制自主可控。
2 計(jì)算機(jī)類課程知識(shí)庫構(gòu)建方法
2.1 多模態(tài)數(shù)據(jù)采集與處理
建立計(jì)算機(jī)課程知識(shí)庫的過程中,需要對(duì)教材文本內(nèi)容、教學(xué)視頻、代碼庫中的程序?qū)嵗约皩W(xué)生實(shí)驗(yàn)文檔等跨模態(tài)異構(gòu)數(shù)據(jù)資源進(jìn)行系統(tǒng)性整合與協(xié)同處理。通過自然語言處理技術(shù)解析課程文檔,結(jié)合語音識(shí)別與關(guān)鍵幀提取技術(shù)處理視頻內(nèi)容,運(yùn)用抽象語法樹分析代碼結(jié)構(gòu)特征,并建立跨模態(tài)語義關(guān)聯(lián)標(biāo)注體系。數(shù)據(jù)清洗階段重點(diǎn)解決格式不統(tǒng)一、信息冗余及噪聲干擾問題,采用實(shí)體鏈接技術(shù)實(shí)現(xiàn)知識(shí)點(diǎn)與教學(xué)資源的精準(zhǔn)映射,同時(shí)構(gòu)建時(shí)序關(guān)聯(lián)模型刻畫課程內(nèi)容的邏輯演進(jìn)關(guān)系。
2.2 向量化與索引構(gòu)建
向量化是將課程多模態(tài)資源(文本、代碼、視頻等) 轉(zhuǎn)化為低維數(shù)值向量的技術(shù)過程,旨在通過深度學(xué)習(xí)模型提取其語義與結(jié)構(gòu)特征。其核心是通過預(yù)訓(xùn)練語言模型、圖神經(jīng)網(wǎng)絡(luò)及視覺編碼器等技術(shù),將非結(jié)構(gòu)化數(shù)據(jù)映射至統(tǒng)一語義空間,形成機(jī)器可計(jì)算的稠密向量表征。向量化可突破關(guān)鍵詞局限,實(shí)現(xiàn)精準(zhǔn)語義檢索,構(gòu)建跨模態(tài)語義關(guān)聯(lián)(如圖文、代碼) ,并借助壓縮與近似索引技術(shù),提升億級(jí)數(shù)據(jù)檢索效率。索引構(gòu)建旨在高效組織高維向量數(shù)據(jù),基于近似最近鄰搜索(Approximate Nearest Neighbor, ANN) 、分層導(dǎo)航或量化編碼技術(shù)建立索引結(jié)構(gòu),支持快速匹配與語義相似度計(jì)算,目標(biāo)是加速向量的檢索和查詢[2]。
2.3 知識(shí)更新與質(zhì)量控制
課程知識(shí)庫的動(dòng)態(tài)更新依賴自動(dòng)化采集與人工審核的協(xié)同機(jī)制:為實(shí)時(shí)更新課程知識(shí)庫,本系統(tǒng)采用定制化爬蟲監(jiān)控MOOC平臺(tái)、課程官網(wǎng)等。檢測到更新后觸發(fā)增量抓取流程,并借助異構(gòu)數(shù)據(jù)管道實(shí)現(xiàn)新版課件的實(shí)時(shí)解析與向量化。針對(duì)代碼案例與實(shí)驗(yàn)步驟的更新,采用AST比對(duì)算法檢測語法邏輯差異,結(jié)合HNSW(Hierarchical Navigable Small World graphs) 索引的增量擴(kuò)展技術(shù)避免全量重建開銷,同時(shí)基于課程版本元數(shù)據(jù)構(gòu)建時(shí)序知識(shí)圖譜,防止新舊概念沖突。
質(zhì)量控制層面,設(shè)計(jì)雙通道反饋閉環(huán):教師端審核界面支持錯(cuò)誤答案標(biāo)記與知識(shí)點(diǎn)關(guān)聯(lián)修正,系統(tǒng)通過主動(dòng)學(xué)習(xí)策略將標(biāo)注數(shù)據(jù)用于嵌入模型微調(diào);學(xué)生端則部署知識(shí)沖突檢測模塊,利用預(yù)訓(xùn)練模型對(duì)用戶提問與檢索結(jié)果進(jìn)行一致性驗(yàn)證,若檢測到潛在矛盾,自動(dòng)觸發(fā)人工審核工單。
3 基于RAG的課程問答系統(tǒng)設(shè)計(jì)
3.1 系統(tǒng)架構(gòu)
前端架構(gòu)采用微信小程序或網(wǎng)頁形式實(shí)現(xiàn)輕量化交互,后端架構(gòu)則基于LangChain組件流水線構(gòu)建,通過Flask框架封裝Restful API服務(wù)[3]。系統(tǒng)采用分層處理架構(gòu),包含以下核心功能模塊。
1) 輸入預(yù)處理單元:對(duì)用戶輸入的問題進(jìn)行清洗、分詞、詞性標(biāo)注、實(shí)體識(shí)別等預(yù)處理操作。該單元輸出結(jié)構(gòu)化語義框架,為下游模塊提供規(guī)范化輸入表征,可有效降低后續(xù)模塊處理語義歧義的負(fù)載。
2) 語義理解單元:運(yùn)用深度學(xué)習(xí)模型對(duì)預(yù)處理后的文本進(jìn)行語義分析,提取問題的關(guān)鍵信息和意圖。通過集成預(yù)訓(xùn)練語言模型與領(lǐng)域適配機(jī)制,采用上下文感知編碼器實(shí)現(xiàn)語義角色標(biāo)注與意圖分類雙任務(wù)的協(xié)同學(xué)習(xí)。通過多頭注意力機(jī)制建立跨層次語義關(guān)聯(lián),針對(duì)教學(xué)場景特別構(gòu)建問題類型分類矩陣,并通過動(dòng)態(tài)權(quán)重分配策略,有效處理專業(yè)術(shù)語的語境敏感解析。
3) 知識(shí)檢索單元:根據(jù)語義理解結(jié)果,在課程知識(shí)庫中查找相關(guān)信息。構(gòu)建多源數(shù)據(jù)融合檢索框架,包含結(jié)構(gòu)化關(guān)系型數(shù)據(jù)庫、向量化知識(shí)圖譜及稠密檢索模型。采用混合檢索策略,結(jié)合特征匹配與余弦相似度計(jì)算,執(zhí)行多跳推理檢索路徑優(yōu)化。
4) 答案生成單元:結(jié)合知識(shí)檢索結(jié)果,使用文本生成技術(shù)生成回答。對(duì)于簡單事實(shí)型問題,可以直接返回檢索結(jié)果;對(duì)于復(fù)雜問題,可能需要進(jìn)行推理、融合多個(gè)信息源等操作。
3.2 核心算法設(shè)計(jì)
3.2.1 動(dòng)態(tài)意圖識(shí)別
動(dòng)態(tài)意圖識(shí)別作為知識(shí)庫交互系統(tǒng)的核心算法,其設(shè)計(jì)需解決用戶查詢的多義性與上下文動(dòng)態(tài)演化問題。該算法采用多模態(tài)輸入聯(lián)合建模策略,通過融合文本、代碼片段及操作日志等多源數(shù)據(jù),構(gòu)建基于課程知識(shí)圖譜的語義理解框架[4]。針對(duì)自然語言查詢的模糊性,引入預(yù)訓(xùn)練語言模型與課程領(lǐng)域適配機(jī)制,利用對(duì)比學(xué)習(xí)在課程本體約束下生成細(xì)粒度意圖向量。上下文感知模塊采用時(shí)序圖神經(jīng)網(wǎng)絡(luò),動(dòng)態(tài)跟蹤用戶歷史交互路徑與知識(shí)點(diǎn)關(guān)聯(lián)強(qiáng)度,通過注意力機(jī)制捕捉當(dāng)前查詢與前期對(duì)話的語義連續(xù)性。為應(yīng)對(duì)知識(shí)庫更新引發(fā)的意圖分布偏移,設(shè)計(jì)增量式在線學(xué)習(xí)架構(gòu),結(jié)合課程更新日志與用戶反饋數(shù)據(jù)實(shí)現(xiàn)意圖分類器的動(dòng)態(tài)優(yōu)化。算法實(shí)現(xiàn)時(shí)采用分層蒸餾策略,將大型預(yù)訓(xùn)練模型的知識(shí)遷移至輕量級(jí)意圖識(shí)別網(wǎng)絡(luò),確保低延遲響應(yīng)與高并發(fā)處理能力。
3.2.2 混合檢索策略
混合檢索策略采用異構(gòu)特征協(xié)同機(jī)制,整合符號(hào)匹配與語義理解技術(shù)以優(yōu)化多模態(tài)知識(shí)獲取效能。系統(tǒng)構(gòu)建雙通道并行處理架構(gòu):一方面,針對(duì)結(jié)構(gòu)化數(shù)據(jù)資源(如API文檔、知識(shí)點(diǎn)關(guān)系表) 實(shí)施改進(jìn)型稀疏檢索方法,通過引入課程本體約束條件動(dòng)態(tài)調(diào)整關(guān)鍵詞權(quán)重分布,強(qiáng)化領(lǐng)域特定術(shù)語的匹配精度;另一方面,針對(duì)非結(jié)構(gòu)化文本(如實(shí)驗(yàn)報(bào)告、技術(shù)討論帖) ,部署課程領(lǐng)域適配的稠密向量檢索模塊,基于雙塔式神經(jīng)網(wǎng)絡(luò)生成低維語義表征,結(jié)合量化索引技術(shù)實(shí)現(xiàn)大規(guī)模向量空間的快速相似度計(jì)算。在檢索結(jié)果融合階段,設(shè)計(jì)上下文感知的動(dòng)態(tài)加權(quán)機(jī)制,通過輕量級(jí)門控網(wǎng)絡(luò)分析查詢語句的語法特征與語義完整性,自適應(yīng)調(diào)節(jié)符號(hào)匹配得分與語義相似度值的整合比例。為降低跨模態(tài)檢索延遲,系統(tǒng)構(gòu)建知識(shí)單元導(dǎo)向的多級(jí)緩存結(jié)構(gòu),采用熱度感知的替換策略優(yōu)先保留高頻訪問內(nèi)容,結(jié)合課程章節(jié)關(guān)聯(lián)性預(yù)測實(shí)現(xiàn)緩存命中率優(yōu)化[5]。
4 實(shí)驗(yàn)與結(jié)果
4.1 數(shù)據(jù)集與評(píng)估指標(biāo)
實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建基于程序設(shè)計(jì)基礎(chǔ)、數(shù)據(jù)庫技術(shù)基礎(chǔ)、計(jì)算機(jī)網(wǎng)絡(luò)三門計(jì)算機(jī)核心課程的數(shù)字化資源,整合了1 268份課程文檔(包括課件、實(shí)驗(yàn)手冊(cè)、試題解析等結(jié)構(gòu)化與非結(jié)構(gòu)化文本) 及342個(gè)實(shí)驗(yàn)操作視頻,形成了跨模態(tài)課程知識(shí)庫。文檔數(shù)據(jù)通過代碼片段提取、公式解析與知識(shí)點(diǎn)關(guān)聯(lián)挖掘完成了結(jié)構(gòu)化處理,視頻資源則通過每秒關(guān)鍵幀視覺特征抽取和語音轉(zhuǎn)錄生成了多模態(tài)表征。數(shù)據(jù)集按照7:2:1的比例劃分為訓(xùn)練集(888份文檔+239個(gè)視頻) 、驗(yàn)證集(254份文檔+68個(gè)視頻) 和測試集(126份文檔+35個(gè)視頻) 。
本實(shí)驗(yàn)采用基于黃金標(biāo)準(zhǔn)集的二元相關(guān)性判定框架,針對(duì)檢索系統(tǒng)返回的Top-10結(jié)果進(jìn)行性能評(píng)估:
準(zhǔn)確率(Precision) :返回結(jié)果中與查詢真實(shí)相關(guān)的文檔比例,計(jì)算公式為:相關(guān)文檔檢出數(shù)/總返回文檔數(shù),用于衡量系統(tǒng)抗噪聲能力。
召回率(Recall) :標(biāo)準(zhǔn)答案集中被成功檢索到的相關(guān)文檔比例,計(jì)算公式為:相關(guān)文檔檢出數(shù)/總相關(guān)文檔數(shù),反映系統(tǒng)查全能力。
P值:在零假設(shè)成立的前提下,觀測到當(dāng)前極端結(jié)果的概率,通常用于判斷實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計(jì)顯著性。當(dāng)P值<0.05時(shí),通常認(rèn)為結(jié)果具有統(tǒng)計(jì)學(xué)意義(拒絕零假設(shè)) 。
4.2 結(jié)果對(duì)比
實(shí)驗(yàn)結(jié)果表明,基于RAG框架的增強(qiáng)方法較純LLM生成模式在計(jì)算機(jī)類課程的1 500個(gè)查詢樣本上取得了顯著性能提升,準(zhǔn)確率由72.1%提升至89.4%;混合檢索策略通過融合文本語義與視頻時(shí)空特征,在標(biāo)準(zhǔn)測試集上的召回率達(dá)到了89.7%,較單一文本檢索提升了25.3%,驗(yàn)證了多模態(tài)對(duì)齊機(jī)制的有效性。如表1所示。
5 結(jié)論與展望
本研究針對(duì)計(jì)算機(jī)專業(yè)課程資源檢索中存在的模態(tài)割裂與語義鴻溝問題,提出了一種融合符號(hào)匹配與語義理解的混合檢索框架,為教學(xué)課程知識(shí)庫的智能化服務(wù)提供了有效解決方案。通過構(gòu)建雙通道異構(gòu)特征處理機(jī)制與動(dòng)態(tài)加權(quán)融合策略,系統(tǒng)實(shí)現(xiàn)了結(jié)構(gòu)化文檔與非結(jié)構(gòu)化資源的協(xié)同檢索,顯著提升了跨模態(tài)查詢的意圖理解精度。研究成果對(duì)教育資源的數(shù)字化管理、個(gè)性化學(xué)習(xí)支持系統(tǒng)的開發(fā)具有實(shí)際應(yīng)用價(jià)值,為多模態(tài)教育知識(shí)庫的構(gòu)建提供了方法論參考。
當(dāng)前方法在跨模態(tài)語義對(duì)齊深度、實(shí)時(shí)視頻特征提取效率方面仍存在優(yōu)化空間。未來工作將重點(diǎn)探索兩方面的突破:首先,引入多模態(tài)大模型(如GPT-4V) 的視覺-文本聯(lián)合編碼能力,強(qiáng)化視頻操作步驟與代碼邏輯的時(shí)空關(guān)聯(lián)建模;其次,構(gòu)建教育智能體協(xié)同框架,通過智能體分工機(jī)制實(shí)現(xiàn)知識(shí)采集、質(zhì)量校驗(yàn)與服務(wù)響應(yīng)的全流程自動(dòng)化,推動(dòng)教學(xué)支持系統(tǒng)向自主化、自適應(yīng)方向演進(jìn)。
參考文獻(xiàn):
[1] 張力軍,劉偲,廖紀(jì)童,等.基于大模型檢索增強(qiáng)生成的計(jì)算機(jī)網(wǎng)絡(luò)實(shí)驗(yàn)課程問答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].實(shí)驗(yàn)技術(shù)與管理,2024,41(12):186-192.
[2] 梅憶寒,王琳琳,王鵬飛,等.基于多模態(tài)與檢索增強(qiáng)生成的數(shù)據(jù)庫知識(shí)問答系統(tǒng)[J].計(jì)算機(jī)教育,2024(12): 232-237.
[3] 竇鳳岐,胡珊,李佳隆,等.基于LangChain的RAG問答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn):以C語言課程問答系統(tǒng)為例[J].信息與電腦(理論版),2024,36(6):101-103.
[4] 湯博文,馬名軒,張以寧,等.基于意圖識(shí)別與檢索增強(qiáng)生成的校園問答系統(tǒng)[J].通信學(xué)報(bào), 2024, 45 (S2): 255-261.
[5] 高雅奇.基于大語言模型和RAG技術(shù)的高校知識(shí)庫智能問答系統(tǒng)構(gòu)建與評(píng)價(jià)[J].電腦知識(shí)與技術(shù),2024,20(29):18-20,38.
【通聯(lián)編輯:代影】