
摘要:針對大語言模型在計算機(jī)類課程教學(xué)問答系統(tǒng)中面臨的知識碎片化、動態(tài)更新遲滯及多模態(tài)資源整合不足等問題,該研究提出了一種基于檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG) 的課程知識庫系統(tǒng)構(gòu)建方法。該方法旨在通過動態(tài)意圖識別和混合檢索策略算法,實現(xiàn)計算機(jī)類課程知識點的高效組織與精準(zhǔn)服務(wù)。動態(tài)意圖識別通過構(gòu)建上下文感知的語義推理網(wǎng)絡(luò),實時解析用戶查詢中隱含的實踐操作需求與知識拓?fù)潢P(guān)聯(lián),有效緩解傳統(tǒng)方法對復(fù)合型教學(xué)意圖的誤判問題。混合檢索策略融合了語義推理與跨模態(tài)對齊技術(shù),采用動態(tài)權(quán)重分配機(jī)制,實現(xiàn)文本、操作流程等多源數(shù)據(jù)的協(xié)同檢索。實驗結(jié)果表明,基于RAG的混合檢索方法相比純大語言模型,在準(zhǔn)確率和召回率上均有明顯提升。
關(guān)鍵詞:大語言模型;檢索增強(qiáng)生成;知識庫;多模態(tài)
中圖分類號:TP311" " " " 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2025)08-0026-03
開放科學(xué)(資源服務(wù)) 標(biāo)識碼(OSID)
0 引言
計算機(jī)類課程具有知識迭代速度快、實踐關(guān)聯(lián)性強(qiáng)等特征,其教學(xué)資源通常涵蓋教材文本、實驗代碼、操作視頻等多模態(tài)數(shù)據(jù)。隨著教育數(shù)字化轉(zhuǎn)型的推進(jìn),課程資源呈現(xiàn)出碎片化分布特征,不同模態(tài)數(shù)據(jù)間的語義關(guān)聯(lián)性與結(jié)構(gòu)化程度差異顯著。當(dāng)前教育領(lǐng)域基于關(guān)鍵詞的智能問答系統(tǒng)主要面臨兩方面的技術(shù)瓶頸:1) 傳統(tǒng)檢索方法在處理多模態(tài)數(shù)據(jù)時,受限于模態(tài)間的語義鴻溝與結(jié)構(gòu)差異,難以實現(xiàn)跨模態(tài)資源的精準(zhǔn)關(guān)聯(lián);2) 大語言模型(Large Language Model, LLM) 雖具備較強(qiáng)的生成能力,但其參數(shù)固化特性易導(dǎo)致知識時效性不足與領(lǐng)域幻覺問題。
本研究提出面向計算機(jī)類課程的混合檢索策略,通過代碼片段抽象語法樹(Abstract Syntax Tree, AST) 的結(jié)構(gòu)化表征與文本語義向量的跨模態(tài)對齊,實現(xiàn)編程邏輯與理論知識的協(xié)同檢索,解決傳統(tǒng)方法在代碼語義解析與多模態(tài)資源關(guān)聯(lián)中的精度損失問題。同時,設(shè)計基于RAG的教學(xué)問答系統(tǒng),為教育場景下大模型與領(lǐng)域知識的深度耦合提供了技術(shù)路徑。
1 理論基礎(chǔ)
1.1 RAG
RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成) 是自然語言處理領(lǐng)域的新型架構(gòu)范式,主要包括檢索模塊和生成模塊。其核心思想是通過外部知識檢索機(jī)制提升生成模型的內(nèi)容準(zhǔn)確性與事實一致性。該范式通過信息檢索系統(tǒng)與預(yù)訓(xùn)練語言模型的結(jié)合,在生成過程中動態(tài)檢索相關(guān)領(lǐng)域文檔作為上下文約束,有效緩解傳統(tǒng)生成模型因參數(shù)固化導(dǎo)致的時效性不足與事實幻覺問題[1]。相比純LLM,RAG能夠借助本地知識庫提升時效性與準(zhǔn)確性。
1.2 本地知識庫
本地知識庫指部署在本地計算環(huán)境中的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集合,專為特定組織或應(yīng)用場景定制構(gòu)建,具備領(lǐng)域?qū)>耘c數(shù)據(jù)可控性特征。通常整合企業(yè)內(nèi)部文檔、專業(yè)文獻(xiàn)、操作日志等異構(gòu)數(shù)據(jù)源,通過信息抽取、實體鏈接等技術(shù)轉(zhuǎn)化為機(jī)器可讀的知識圖譜或向量化表示,支持語義檢索、推理服務(wù)等智能化應(yīng)用。與通用互聯(lián)網(wǎng)知識庫相比,其核心優(yōu)勢在于數(shù)據(jù)主權(quán)明確、隱私保護(hù)性強(qiáng)且更新維護(hù)機(jī)制自主可控。
2 計算機(jī)類課程知識庫構(gòu)建方法
2.1 多模態(tài)數(shù)據(jù)采集與處理
建立計算機(jī)課程知識庫的過程中,需要對教材文本內(nèi)容、教學(xué)視頻、代碼庫中的程序?qū)嵗约皩W(xué)生實驗文檔等跨模態(tài)異構(gòu)數(shù)據(jù)資源進(jìn)行系統(tǒng)性整合與協(xié)同處理。通過自然語言處理技術(shù)解析課程文檔,結(jié)合語音識別與關(guān)鍵幀提取技術(shù)處理視頻內(nèi)容,運(yùn)用抽象語法樹分析代碼結(jié)構(gòu)特征,并建立跨模態(tài)語義關(guān)聯(lián)標(biāo)注體系。數(shù)據(jù)清洗階段重點解決格式不統(tǒng)一、信息冗余及噪聲干擾問題,采用實體鏈接技術(shù)實現(xiàn)知識點與教學(xué)資源的精準(zhǔn)映射,同時構(gòu)建時序關(guān)聯(lián)模型刻畫課程內(nèi)容的邏輯演進(jìn)關(guān)系。
2.2 向量化與索引構(gòu)建
向量化是將課程多模態(tài)資源(文本、代碼、視頻等) 轉(zhuǎn)化為低維數(shù)值向量的技術(shù)過程,旨在通過深度學(xué)習(xí)模型提取其語義與結(jié)構(gòu)特征。其核心是通過預(yù)訓(xùn)練語言模型、圖神經(jīng)網(wǎng)絡(luò)及視覺編碼器等技術(shù),將非結(jié)構(gòu)化數(shù)據(jù)映射至統(tǒng)一語義空間,形成機(jī)器可計算的稠密向量表征。向量化可突破關(guān)鍵詞局限,實現(xiàn)精準(zhǔn)語義檢索,構(gòu)建跨模態(tài)語義關(guān)聯(lián)(如圖文、代碼) ,并借助壓縮與近似索引技術(shù),提升億級數(shù)據(jù)檢索效率。索引構(gòu)建旨在高效組織高維向量數(shù)據(jù),基于近似最近鄰搜索(Approximate Nearest Neighbor, ANN) 、分層導(dǎo)航或量化編碼技術(shù)建立索引結(jié)構(gòu),支持快速匹配與語義相似度計算,目標(biāo)是加速向量的檢索和查詢[2]。
2.3 知識更新與質(zhì)量控制
課程知識庫的動態(tài)更新依賴自動化采集與人工審核的協(xié)同機(jī)制:為實時更新課程知識庫,本系統(tǒng)采用定制化爬蟲監(jiān)控MOOC平臺、課程官網(wǎng)等。檢測到更新后觸發(fā)增量抓取流程,并借助異構(gòu)數(shù)據(jù)管道實現(xiàn)新版課件的實時解析與向量化。針對代碼案例與實驗步驟的更新,采用AST比對算法檢測語法邏輯差異,結(jié)合HNSW(Hierarchical Navigable Small World graphs) 索引的增量擴(kuò)展技術(shù)避免全量重建開銷,同時基于課程版本元數(shù)據(jù)構(gòu)建時序知識圖譜,防止新舊概念沖突。
質(zhì)量控制層面,設(shè)計雙通道反饋閉環(huán):教師端審核界面支持錯誤答案標(biāo)記與知識點關(guān)聯(lián)修正,系統(tǒng)通過主動學(xué)習(xí)策略將標(biāo)注數(shù)據(jù)用于嵌入模型微調(diào);學(xué)生端則部署知識沖突檢測模塊,利用預(yù)訓(xùn)練模型對用戶提問與檢索結(jié)果進(jìn)行一致性驗證,若檢測到潛在矛盾,自動觸發(fā)人工審核工單。
3 基于RAG的課程問答系統(tǒng)設(shè)計
3.1 系統(tǒng)架構(gòu)
前端架構(gòu)采用微信小程序或網(wǎng)頁形式實現(xiàn)輕量化交互,后端架構(gòu)則基于LangChain組件流水線構(gòu)建,通過Flask框架封裝Restful API服務(wù)[3]。系統(tǒng)采用分層處理架構(gòu),包含以下核心功能模塊。
1) 輸入預(yù)處理單元:對用戶輸入的問題進(jìn)行清洗、分詞、詞性標(biāo)注、實體識別等預(yù)處理操作。該單元輸出結(jié)構(gòu)化語義框架,為下游模塊提供規(guī)范化輸入表征,可有效降低后續(xù)模塊處理語義歧義的負(fù)載。
2) 語義理解單元:運(yùn)用深度學(xué)習(xí)模型對預(yù)處理后的文本進(jìn)行語義分析,提取問題的關(guān)鍵信息和意圖。通過集成預(yù)訓(xùn)練語言模型與領(lǐng)域適配機(jī)制,采用上下文感知編碼器實現(xiàn)語義角色標(biāo)注與意圖分類雙任務(wù)的協(xié)同學(xué)習(xí)。通過多頭注意力機(jī)制建立跨層次語義關(guān)聯(lián),針對教學(xué)場景特別構(gòu)建問題類型分類矩陣,并通過動態(tài)權(quán)重分配策略,有效處理專業(yè)術(shù)語的語境敏感解析。
3) 知識檢索單元:根據(jù)語義理解結(jié)果,在課程知識庫中查找相關(guān)信息。構(gòu)建多源數(shù)據(jù)融合檢索框架,包含結(jié)構(gòu)化關(guān)系型數(shù)據(jù)庫、向量化知識圖譜及稠密檢索模型。采用混合檢索策略,結(jié)合特征匹配與余弦相似度計算,執(zhí)行多跳推理檢索路徑優(yōu)化。
4) 答案生成單元:結(jié)合知識檢索結(jié)果,使用文本生成技術(shù)生成回答。對于簡單事實型問題,可以直接返回檢索結(jié)果;對于復(fù)雜問題,可能需要進(jìn)行推理、融合多個信息源等操作。
3.2 核心算法設(shè)計
3.2.1 動態(tài)意圖識別
動態(tài)意圖識別作為知識庫交互系統(tǒng)的核心算法,其設(shè)計需解決用戶查詢的多義性與上下文動態(tài)演化問題。該算法采用多模態(tài)輸入聯(lián)合建模策略,通過融合文本、代碼片段及操作日志等多源數(shù)據(jù),構(gòu)建基于課程知識圖譜的語義理解框架[4]。針對自然語言查詢的模糊性,引入預(yù)訓(xùn)練語言模型與課程領(lǐng)域適配機(jī)制,利用對比學(xué)習(xí)在課程本體約束下生成細(xì)粒度意圖向量。上下文感知模塊采用時序圖神經(jīng)網(wǎng)絡(luò),動態(tài)跟蹤用戶歷史交互路徑與知識點關(guān)聯(lián)強(qiáng)度,通過注意力機(jī)制捕捉當(dāng)前查詢與前期對話的語義連續(xù)性。為應(yīng)對知識庫更新引發(fā)的意圖分布偏移,設(shè)計增量式在線學(xué)習(xí)架構(gòu),結(jié)合課程更新日志與用戶反饋數(shù)據(jù)實現(xiàn)意圖分類器的動態(tài)優(yōu)化。算法實現(xiàn)時采用分層蒸餾策略,將大型預(yù)訓(xùn)練模型的知識遷移至輕量級意圖識別網(wǎng)絡(luò),確保低延遲響應(yīng)與高并發(fā)處理能力。
3.2.2 混合檢索策略
混合檢索策略采用異構(gòu)特征協(xié)同機(jī)制,整合符號匹配與語義理解技術(shù)以優(yōu)化多模態(tài)知識獲取效能。系統(tǒng)構(gòu)建雙通道并行處理架構(gòu):一方面,針對結(jié)構(gòu)化數(shù)據(jù)資源(如API文檔、知識點關(guān)系表) 實施改進(jìn)型稀疏檢索方法,通過引入課程本體約束條件動態(tài)調(diào)整關(guān)鍵詞權(quán)重分布,強(qiáng)化領(lǐng)域特定術(shù)語的匹配精度;另一方面,針對非結(jié)構(gòu)化文本(如實驗報告、技術(shù)討論帖) ,部署課程領(lǐng)域適配的稠密向量檢索模塊,基于雙塔式神經(jīng)網(wǎng)絡(luò)生成低維語義表征,結(jié)合量化索引技術(shù)實現(xiàn)大規(guī)模向量空間的快速相似度計算。在檢索結(jié)果融合階段,設(shè)計上下文感知的動態(tài)加權(quán)機(jī)制,通過輕量級門控網(wǎng)絡(luò)分析查詢語句的語法特征與語義完整性,自適應(yīng)調(diào)節(jié)符號匹配得分與語義相似度值的整合比例。為降低跨模態(tài)檢索延遲,系統(tǒng)構(gòu)建知識單元導(dǎo)向的多級緩存結(jié)構(gòu),采用熱度感知的替換策略優(yōu)先保留高頻訪問內(nèi)容,結(jié)合課程章節(jié)關(guān)聯(lián)性預(yù)測實現(xiàn)緩存命中率優(yōu)化[5]。
4 實驗與結(jié)果
4.1 數(shù)據(jù)集與評估指標(biāo)
實驗數(shù)據(jù)集構(gòu)建基于程序設(shè)計基礎(chǔ)、數(shù)據(jù)庫技術(shù)基礎(chǔ)、計算機(jī)網(wǎng)絡(luò)三門計算機(jī)核心課程的數(shù)字化資源,整合了1 268份課程文檔(包括課件、實驗手冊、試題解析等結(jié)構(gòu)化與非結(jié)構(gòu)化文本) 及342個實驗操作視頻,形成了跨模態(tài)課程知識庫。文檔數(shù)據(jù)通過代碼片段提取、公式解析與知識點關(guān)聯(lián)挖掘完成了結(jié)構(gòu)化處理,視頻資源則通過每秒關(guān)鍵幀視覺特征抽取和語音轉(zhuǎn)錄生成了多模態(tài)表征。數(shù)據(jù)集按照7:2:1的比例劃分為訓(xùn)練集(888份文檔+239個視頻) 、驗證集(254份文檔+68個視頻) 和測試集(126份文檔+35個視頻) 。
本實驗采用基于黃金標(biāo)準(zhǔn)集的二元相關(guān)性判定框架,針對檢索系統(tǒng)返回的Top-10結(jié)果進(jìn)行性能評估:
準(zhǔn)確率(Precision) :返回結(jié)果中與查詢真實相關(guān)的文檔比例,計算公式為:相關(guān)文檔檢出數(shù)/總返回文檔數(shù),用于衡量系統(tǒng)抗噪聲能力。
召回率(Recall) :標(biāo)準(zhǔn)答案集中被成功檢索到的相關(guān)文檔比例,計算公式為:相關(guān)文檔檢出數(shù)/總相關(guān)文檔數(shù),反映系統(tǒng)查全能力。
P值:在零假設(shè)成立的前提下,觀測到當(dāng)前極端結(jié)果的概率,通常用于判斷實驗結(jié)果是否具有統(tǒng)計顯著性。當(dāng)P值<0.05時,通常認(rèn)為結(jié)果具有統(tǒng)計學(xué)意義(拒絕零假設(shè)) 。
4.2 結(jié)果對比
實驗結(jié)果表明,基于RAG框架的增強(qiáng)方法較純LLM生成模式在計算機(jī)類課程的1 500個查詢樣本上取得了顯著性能提升,準(zhǔn)確率由72.1%提升至89.4%;混合檢索策略通過融合文本語義與視頻時空特征,在標(biāo)準(zhǔn)測試集上的召回率達(dá)到了89.7%,較單一文本檢索提升了25.3%,驗證了多模態(tài)對齊機(jī)制的有效性。如表1所示。
5 結(jié)論與展望
本研究針對計算機(jī)專業(yè)課程資源檢索中存在的模態(tài)割裂與語義鴻溝問題,提出了一種融合符號匹配與語義理解的混合檢索框架,為教學(xué)課程知識庫的智能化服務(wù)提供了有效解決方案。通過構(gòu)建雙通道異構(gòu)特征處理機(jī)制與動態(tài)加權(quán)融合策略,系統(tǒng)實現(xiàn)了結(jié)構(gòu)化文檔與非結(jié)構(gòu)化資源的協(xié)同檢索,顯著提升了跨模態(tài)查詢的意圖理解精度。研究成果對教育資源的數(shù)字化管理、個性化學(xué)習(xí)支持系統(tǒng)的開發(fā)具有實際應(yīng)用價值,為多模態(tài)教育知識庫的構(gòu)建提供了方法論參考。
當(dāng)前方法在跨模態(tài)語義對齊深度、實時視頻特征提取效率方面仍存在優(yōu)化空間。未來工作將重點探索兩方面的突破:首先,引入多模態(tài)大模型(如GPT-4V) 的視覺-文本聯(lián)合編碼能力,強(qiáng)化視頻操作步驟與代碼邏輯的時空關(guān)聯(lián)建模;其次,構(gòu)建教育智能體協(xié)同框架,通過智能體分工機(jī)制實現(xiàn)知識采集、質(zhì)量校驗與服務(wù)響應(yīng)的全流程自動化,推動教學(xué)支持系統(tǒng)向自主化、自適應(yīng)方向演進(jìn)。
參考文獻(xiàn):
[1] 張力軍,劉偲,廖紀(jì)童,等.基于大模型檢索增強(qiáng)生成的計算機(jī)網(wǎng)絡(luò)實驗課程問答系統(tǒng)設(shè)計與實現(xiàn)[J].實驗技術(shù)與管理,2024,41(12):186-192.
[2] 梅憶寒,王琳琳,王鵬飛,等.基于多模態(tài)與檢索增強(qiáng)生成的數(shù)據(jù)庫知識問答系統(tǒng)[J].計算機(jī)教育,2024(12): 232-237.
[3] 竇鳳岐,胡珊,李佳隆,等.基于LangChain的RAG問答系統(tǒng)設(shè)計與實現(xiàn):以C語言課程問答系統(tǒng)為例[J].信息與電腦(理論版),2024,36(6):101-103.
[4] 湯博文,馬名軒,張以寧,等.基于意圖識別與檢索增強(qiáng)生成的校園問答系統(tǒng)[J].通信學(xué)報, 2024, 45 (S2): 255-261.
[5] 高雅奇.基于大語言模型和RAG技術(shù)的高校知識庫智能問答系統(tǒng)構(gòu)建與評價[J].電腦知識與技術(shù),2024,20(29):18-20,38.
【通聯(lián)編輯:代影】