999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型的智能學習助手設計與實現

2025-03-20 00:00:00查英華郭朝霞鞠慧光
現代信息科技 2025年3期

摘" 要:人工智能技術的迅猛發展,尤其是大語言模型(LLM)在自然語言處理領域的突破性進展,為教育數字化轉型帶來了新機遇。聚焦計算機類專業的數據結構課程的學習難題,利用開源LLM開發平臺Dify,整合知識點文本表征、檢索增強和文本生成等核心技術,設計并實現了一款智能學習助手。通過整合多源知識庫,助手能精確匹配學生的個性化問題,并生成于學生問題意圖一致的答案。實驗結果表明,學習助手在輔助學生學習、提升學習效率以及減輕教師教學負擔方面效果顯著。

關鍵詞:大語言模型;檢索增強生成;智能學習助手

中圖分類號:TP311 文獻標識碼:A 文章編號:2096-4706(2025)03-0050-06

Design and Implementation of Intelligent Learning Assistant Based on Large Language Model

ZHA Yinghua1, GUO Zhaoxia1, JU Huiguang2

(1.Nanjing Vocational University of Industry Technology, Nanjing" 210023, China;

2.Nanjing ASGEO Information Technology Co., Ltd., Nanjing" 211101, China)

Abstract: The rapid development of Artificial Intelligence technology, especially the breakthrough progress of Large Language Model (LLM) in Natural Language Processing field, has brought new opportunities for the digital transformation of education. Focusing on the learning difficulties of the data structure course in computer-related majors, using the open-source LLM development platform Dify, and integrating core technologies such as knowledge point text representation, retrieval enhancement, and text generation, an intelligent learning assistant has been designed and implemented. By integrating multisource knowledge bases, the assistant can accurately match students' personalized questions and generate answers consistent with the intent of students' questions. Experimental results show that the learning assistant has significant effects in assisting student learning, improving learning efficiency, and reducing the teaching burden on teachers.

Keywords: Large Language Model; retrieval-augmented generation; intelligent learning assistant

0" 引" 言

在人工智能的發展歷程中,大語言模型(Large Language Model, LLM)的崛起標志著一個重要的轉折點。它們不僅在自然語言理解領域取得了顯著成就,而且在文本生成、知識問答和邏輯推理等高級認知功能上展現出卓越的能力[1]。例如,ChatGPT、通義千問和文心一言等生成式AI應用,已經能夠與人類進行符合語言習慣的情境化交互,這為教育領域的數字化和智能化轉型提供了前所未有的機遇和挑戰[2]。

然而,LLM在帶來革命性效果的同時,也存在一些亟待解決的問題。由于模型的知識基礎主要來源于訓練數據,而現有的主流大模型多基于公開數據構建,難以獲取實時性、非公開或專業領域的知識,這導致了知識的局限性。當遇到未在訓練中學習過的問題時,模型可能會產生不準確或有偏見的內容,甚至編造信息,從而誤導信息接收者[3]。在高等教育領域,這種誤導可能會使學生對專業知識產生錯誤的理解,影響知識體系的準確性,甚至導致整個知識體系出現偏差,進而影響教育的價值[4]。

為了解決這些問題,研究者們提出了微調(Fine-Tuning)和檢索增強生成(Retrieval-Augmented Generation, RAG)等技術。微調技術通過使用特定領域的數據集對預訓練模型進行進一步訓練,以提高模型在特定任務或領域的表現。然而,這一過程需要大量高質量的標注數據和計算資源[5]。相比之下,RAG技術結合了信息檢索和文本生成,通過檢索外部知識庫中的信息來引導生成過程,從而提高內容的準確性和相關性[6]。RAG技術因其高可用性和低門檻,已成為LLM應用中最受歡迎的方案之一。

本文以計算機專業的數據結構課程為例,探討了基于LLM的課程學習助手的設計和實現,旨在幫助學生更有效地掌握專業基礎知識,同時減輕教師的教學壓力。

1" RAG應用研究現狀

RAG技術的核心理念在于融合檢索機制與生成模型,最初由Lewis等人[7]于2020年提出。隨著LLM時代的到來,RAG技術通過整合LLM的參數化知識和外部知識庫的非參數化知識,增強了模型對背景知識的理解,提升了AI在處理知識密集型任務時的表現,以及生成內容的準確性和可信度。

RAG作為一種前沿的生成式AI技術,已在多個行業領域展現了巨大的應用潛力。在知識管理方面,周揚等人[8]設計了一套基于RAG技術的企業知識管理系統方案,通過檢索前處理、知識檢索、檢索后處理等全流程檢索技術提高知識構建的效率和檢索的精確度。在問答系統方面,張鶴譯等人[9]研究了結合大語言模型和知識圖譜的問答系統,針對中醫藥領域,通過信息過濾、專業問答和知識抽取轉化等技術提升了系統性能,為專業領域問答提供了新方法。在代碼生成領域,Su等人[10]提出了一種名為ARKS的策略,該策略將LLM應用于代碼生成,通過創建一個集成網絡搜索、文檔、執行反饋和代碼演化的知識綜合體,從而提高了LLM在代碼生成中的執行精度。

教育領域對RAG技術的興趣也與日俱增。余勝泉等人[11]開發了一種基于RAG的通用人工智能教師模型,該模型通過精調訓練、檢索增強認知、外部智能組件編排等手段,提升了LLM在教育場景中的應用能力。盧宇等人[12]的研究探討了基于大模型的教學智能體的構建與應用,提出了一個包含教育任務設定、規劃、能力實現、內容記憶與反思以及交互協作等模塊的框架,旨在實現個性化教學和動態進化。

目前,教育領域主要采用基于ChatGPT的教學應用,對RAG技術的研究和應用相對有限。本文提出了一種智能學習助手,該助手利用RAG開源框架Dify的LLM語義表征、文本生成能力以及RAG的知識檢索能力,整合課程相關的數字教材、教學輔導材料和網絡資源等外部知識源,通過融合提示詞和專業數據集,構建針對專業學習場景的個性化學習工具,擴展學生對數據結構的深入理解和應用能力。

2" RAG系統的架構分析

2.1" RAG的基礎架構

Zhao等[13]將RAG的基礎范式根據檢索器增強生成器的方式分為四類:基于查詢的RAG、隱空間表示型RAG、概率表征型RAG以及投機性RAG。其中,基于查詢的RAG時最為廣泛使用的范式。在LLM生成文本響應之前,該方法首先從知識庫檢索并召回相關的文本信息,以此增強和擴展LLM的初始輸入信息,其基礎架構及流程如圖1所示。

2.1.1" 數據處理

數據處理是將本地數據資源轉為向量,建立索引并存入向量數據庫的離線過程,也就是知識庫構建過程,主要步驟包括數據提取、文本分割、向量化和入庫等。

數據提取階段主要針對PDF、DOCX、CSV等各種格式文檔進行預處理,包括去重、過濾、刪除不相關內容等,提取高質量的可用文本。文本分割階段需考慮嵌入模型的Tokens限制、保持語義的完整性以及相關上下文的連貫性,常用的分割方法包括基于固定大小的分塊方法和基于語義單元的分塊方法。向量化階段則是使用嵌入模型將文本轉為用于語義搜索的嵌入向量,常用的文本類嵌入模型包括OpenAI的text-embedding系列、MokaAI的M3E等。入庫階段首先構建向量與文本塊之間的索引,然后將其寫入向量數據庫,適用于RAG的數據庫包括Chroma、Weaviate、Milvus等。這些數據庫能夠高效地支持向量檢索,從而實現快速而準確的信息檢索功能。

2.1.2" 數據檢索

數據檢索階段的主要流程包括構建問題向量、執行檢索以及結果重排序。首先,采用諸如BERT、GPT系列等預訓練模型將用戶問題轉化為數值化的向量表示,該向量作為后續檢索操作的基礎查詢向量。然后,通過計算查詢向量與向量庫中文檔或信息片段的向量表示之間的相似度,根據得分檢索最相關文檔。最后,鑒于檢索結果可能包含多個候選文檔或信息片段,對其進行進一步篩選和排序以優化檢索質量,一般通過對結果進行Top K篩選和Score閾值優化結果的準確性,還可以結合Rerank模型進行語義排序,提高與用戶問題的相關性。

檢索過程可采用向量檢索、全文檢索或混合檢索等策略,其中向量檢索擅長處理具有復雜語義的查詢,全文檢索則更適合精確匹配較短的字符序列或低頻詞匯。

2.1.3" 答案生成

在生成答案的過程中,首先進行信息整合。此步驟包括將從檢索到的相關信息片段整合成連貫的上下文,作為構建一個或多個候選答案的基礎。此階段需要處理信息片段間的冗余、不一致或矛盾之處,確保生成的回答既準確又具有一致性。然后利用LLM的智能問答能力來生成答案。

生成過程通常涉及一系列技術手段,如多輪對話、條件生成以及提示工程等。其中,提示工程通過結合候選答案、原始問題以及精心設計的提示詞等策略,引導模型生成準確且高度相關的回答,顯著提高生成的答案與用戶問題之間的匹配度,提升用戶的總體滿意度和交互體驗。

2.2" Dify的核心組件

Dify是一個專為LLM的開發和運維而設計的低代碼開源平臺,其核心目標在于簡化并加速生成式AI應用的創建與部署過程。該平臺集成了構建LLM應用所需的關鍵技術,包括對數百種模型的支持、直觀的提示編排界面、高質量的RAG引擎、Agent框架以及靈活的工作流編排能力。此外,Dify還提供了一套用戶友好的界面和API,為開發者節省了許多重復造輪子的時間,使其專注于業務需求和技術創新上。

2.2.1" RAG引擎模塊

Dify的RAG引擎采用模塊化設計,包含文件加載、預處理、檢索和檢索結果重排等模塊。文件預處理模塊支持自定義分隔符、設置token大小對文檔進行分段,并采用Qamp;A分段技術對每個段落進行QA轉化。相較于傳統的“Q2P”(問題匹配段落)模式,Dify采用的“Q2Q”(問題匹配問題)模式能夠在用戶提問時找出與之最相似的問題,進而返回對應的分段作為答案,這種方式更直接地識別和響應用戶問題。

Dify平臺提供了三種高效的檢索策略:向量檢索、全文檢索以及混合檢索。向量檢索基于近似最近鄰(ANN)查詢,通過Top-K篩選和Score閾值機制確保檢索結果的相關性。全文檢索基于BM25算法,專注于簡短文本的精確匹配,確保查詢的準確度。混合檢索則結合了這兩種方法的優勢。為增強檢索效果,Dify提供了N選1召回和多路召回兩種召回算法,多路召回能夠并行檢索多個知識庫,擴展信息來源。Dify還可以應用Rerank模型對檢索結果進行語義重排,確保用戶獲得最匹配的Top-K結果。

2.2.2" 工作流編排模塊

在優化復雜任務處理的框架中,工作流扮演了至關重要的角色,它通過將繁復的任務解構為一系列邏輯清晰、規模適中的節點,降低系統的內在復雜度,并減輕對精細提示工程及模型高級推理能力的直接依賴。Dify提供了兩種類型的工作流應用:一是針對對話式應用場景的聊天流(Chatflows),適用于客戶服務、語義搜索等場景;二是面向自動化/批量處理任務的工作流(Workflows),適用于數據分析、內容生成等任務。

Dify提供了一個直觀易用的可視化編排界面,使用戶能夠在畫布上靈活地配置和連接任務節點,簡化工作流的構建過程。圖2所示的編排界面配置了多種核心節點,如:LLM、問題分類器以及條件分支和迭代等節點。用戶可以通過定義一系列相互連接的節點來構建復雜的工作流程。

3" 智能學習助手的系統設計

在數據結構課程的教學實踐中,學生常面臨理解難題,感到理論晦澀難懂,對學習產生抵觸情緒,面對復雜問題時更是束手無策,導致學習積極性下降。為了克服這些學習障礙,教師通常會安排每周的答疑時間,但這仍難以實現對學生問題的即時反饋。隨著LLM技術的應用日益普及,構建基于LLM的智能學習助手成為解決此類問題的有效路徑,它的主要功能是向學生提供數據結構課程的學習資源,輔助分析復雜問題,并提供編程代碼的提示,通過自測功能幫助學生評估對知識點的掌握程度,從而提高學習效率。

利用Dify平臺提供的組件開發智能學習助手的工作流程如圖3所示,總體分為三部分:一是知識庫構建,指將數據結構課程的外部資源轉為向量數據庫;二是檢索生成模塊,使用RAG檢索增強模型,支持對學生所提問題的檢索與答案生成;三是人機交互模塊,提供學生提問的UI界面。

3.1" 課程知識庫構建

本階段是將數據結構課程資源向量化,構建索引并存入數據庫的數據準備離線過程。進入Dify的創建知識庫界面,如圖4所示。首先導入本地的教學資源文件,文件格式可以為MARKDOWN、PDF、DOCX等,本系統的教學資源主要來自智慧職教平臺開設的SPOC在線課程,包括數字教材、學習資料、教案以及題庫等。

文件上傳后進行如圖5所示的分文本分段與清洗設置,去除文本中的無關字符,如:空格、換行符和制表符等,減少后續Token的消耗;并采用Qamp;A分段技術對文本進行QA結構分割,保證了語義的完整性,減輕了人工整理問答對的工作量。

知識庫檢索設置如圖6所示,選擇向量檢索與全文檢索相結合的混合檢索模式,并應用jina-reranker-v2-base-multilingual重排序模型從它們的查詢結果中選擇最匹配用戶問題的結果,通過設置Top-K值和Score閾值篩選與問題相似度最高的文本片段,從多個維度提高檢索的準確性和精確度。設置所有參數后,Dify對文本向量創建索引存入Weaviate向量庫,完成知識庫的創建。

3.2" 問題檢索與生成模塊

知識庫創建后,便可以創建學習助手的應用,進入圖7所示的應用編排界面完成問題檢索與生成模塊的提示詞、上下文以及增強功能設置。

良好的提示詞設計可以為LLM提供清晰的問題邊界和上下文連貫性,是高質量答案輸出的關鍵[14]。本文的提示詞模板設定了學習助手的角色描述、技能要求以及輸出規范,使回答更符合學生的學習需求。創建的知識庫作為編排的上下文,通過設置多路召回可以從多個知識庫獲取答案,提高答案的準確性和多樣性。對GPT-4o mini、Qwen-Max、GLM-4和ERNIE 4.0四種LLM進行召回測試的比較,GPT-4o mini和Qwen-Max在模型性能、Token成本與響應速度等方面表現更為出色,最終選擇Qwen-Max模型。加載該模型后,結合提示詞生成問題答案。

設置完成后便可以進行召回測試,檢查設置的參數是否滿足要求。最終進行應用的發布供學生學習使用。

3.3" 系統功能測試

3.3.1" 測試環境

本文采用搭載4核CPU、8 GB內存的華為云服務器進行系統部署,Qwen-Max作為內置生成語言模型,模型的檢索參數Top-K = 3,Score = 0.5。

3.3.2" 功能測試

基于Dify平臺搭建數據結構課程的學習助手,及時響應學生解決學習中的問題,給出問題答案,并提供答案引用的知識庫,有效避免了大模型在專業知識上可能出現的錯誤或誤導性信息,保證了答案來源的可靠性。當學生提問“如何快速掌握二叉樹的后序遍歷”時,系統在給出答案的同時提供問題答案的來源知識庫,同時給出下一步的建議,引導學生的進一步思考,測試示例如圖8所示。

4" 結" 論

本文詳細介紹了基于大語言模型的RAG系統的設計和實現,并利用Dify平臺為數據結構課程開發了一款智能學習助手。通過Dify提供的模塊化工具和豐富的接口,快速搭建了課程知識庫,并融合知識檢索、知識增強與LLM生成技術構建了一個高效的RAG系統。這不僅顯著加快了專業領域問答系統的開發進程,而且為課程教學提供了一種高效、可靠的智能輔助工具。經過綜合測試和實踐應用,該系統已被證明能在教學過程中穩定運行,有效輔助學生學習,它的成功實施不僅優化了教學資源的利用,也為學生提供了更加個性化和互動式的學習體驗。

參考文獻:

[1] 車璐,張志強,周金佳,等.生成式人工智能的研究現狀和發展趨勢 [J].科技導報,2024,42(12):35-43.

[2] 劉邦奇,聶小林,王士進,等.生成式人工智能與未來教育形態重塑:技術框架、能力特征及應用趨勢 [J].電化教育研究,2024,45(1):13-20.

[3] 王耀祖,李擎,戴張杰,等.大語言模型研究現狀與趨勢 [J].工程科學學報,2024,46(8):1411-1425.

[4] 吳青,劉毓文.ChatGPT時代的高等教育應對:禁止還是變革 [J].高校教育管理,2023,17(3):32-41.

[5] 官璐,何康,斗維紅.微調大模型:個性化人機信息交互模式分析 [J].新聞界,2023(11):44-51+76.

[6] GAO Y F,XIONG Y,GAO X Y,et al. Retrieval-Augmented Generation for Large Language Models: A Survey [J/OL].arXiv:2312.10997 [cs.CL].(2023-12-18).https://arxiv.org/abs/2312.10997.

[7] LEWIS P,PEREZ E,PIKTUS A,et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [J/OL].arXiv:2005.11401 [cs.CL].(2020-05-22).https://arxiv.org/abs/2005.11401?context=cs.

[8] 周揚,蔡霈涵,董振江.大模型知識管理系統 [J].中興通訊技術,2024,30(2):63-71.

[9] 張鶴譯,王鑫,韓立帆,等.大語言模型融合知識圖譜的問答系統研究 [J].計算機科學與探索,2023,17(10):2377-2388.

[10] SU H J,JIANG S Y,LAI Y H,et al. EVOR: Evolving Retrieval for Code Generation [J/OL].arXiv:2402.12317 [cs.CL].(2024-02-19).https://arxiv.org/abs/2402.12317.

[11] 余勝泉,熊莎莎.基于大模型增強的通用人工智能教師架構 [J].開放教育研究,2024,30(1):33-43.

[12] 盧宇,余京蕾,陳鵬鶴.基于大模型的教學智能體構建與應用研究 [J].中國電化教育,2024(7):99-108.

[13] ZHAO P H,ZHANG H L,YU Q H,et al. Retrieval-Augmented Generation for AI-Generated Content: A Survey [J/OL].arXiv:2402.19473 [cs.CV].(2024-02-29).https://arxiv.org/abs/2402.19473.

[14] LIU P F,YUAN W Z,FU J L,et al. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing [J/OL].arXiv:2107.13586 [cs.CL].(2021-07-28).https://arxiv.org/abs/2107.13586v1.

作者簡介:查英華(1969.11—),女,漢族,江蘇南京人,副教授,碩士,研究方向:人工智能、智慧教育;郭朝霞(1981.06—),女,漢族,河南舞鋼人,講師,碩士,研究方向:移動應用開發;鞠慧光(1986.07—),男,漢族,江蘇南京人,工程師,本科,研究方向:軟件工程。

主站蜘蛛池模板: 午夜福利视频一区| 日本三区视频| 国产波多野结衣中文在线播放| 不卡网亚洲无码| 天堂va亚洲va欧美va国产| 国产日韩欧美黄色片免费观看| 成人毛片免费在线观看| 日韩123欧美字幕| 青青久在线视频免费观看| yjizz国产在线视频网| 国产探花在线视频| 国产成人综合欧美精品久久| 囯产av无码片毛片一级| 精品三级网站| 国产一级在线观看www色| 亚洲Av激情网五月天| 日韩国产另类| 91久久偷偷做嫩草影院精品| 成人福利在线视频免费观看| 欧美精品一区在线看| 一本久道久综合久久鬼色| 亚洲高清无在码在线无弹窗| 老司机午夜精品视频你懂的| 看国产一级毛片| 免费播放毛片| 青青网在线国产| 婷婷综合缴情亚洲五月伊| 99视频精品全国免费品| 六月婷婷精品视频在线观看| 97久久精品人人| 国产欧美高清| 91最新精品视频发布页| 亚洲无码精彩视频在线观看| 国产三级精品三级在线观看| 欧美精品导航| 国产精品吹潮在线观看中文| 国产亚洲视频播放9000| 日韩无码黄色| 亚洲天堂久久| 国产日韩欧美一区二区三区在线 | 亚洲综合18p| 欧美精品1区| 欧美成人手机在线观看网址| 亚洲国产天堂在线观看| 亚洲制服中文字幕一区二区| 亚洲欧美另类中文字幕| 成人精品免费视频| 日本亚洲成高清一区二区三区| 天堂在线www网亚洲| 欧美午夜一区| 成人一级黄色毛片| 久久a级片| 国产精品一区二区在线播放| 久久精品一卡日本电影| 狠狠色婷婷丁香综合久久韩国 | 欧美国产精品不卡在线观看| 欧美国产日韩在线观看| 久久国产高潮流白浆免费观看| 国产xx在线观看| 色妞永久免费视频| 亚洲视频欧美不卡| 国产精品爽爽va在线无码观看| 毛片免费在线视频| 一级看片免费视频| 中文字幕中文字字幕码一二区| 欧美日韩va| 国产日韩欧美在线视频免费观看 | 亚洲高清免费在线观看| 国产一区二区三区日韩精品| 18禁影院亚洲专区| 久久综合丝袜日本网| 99免费视频观看| 国产激情影院| 亚洲成综合人影院在院播放| 亚洲最猛黑人xxxx黑人猛交| 免费女人18毛片a级毛片视频| 亚洲国产第一区二区香蕉| 无码专区在线观看| 人禽伦免费交视频网页播放| 亚洲色欲色欲www在线观看| 亚洲精品第一在线观看视频| 久无码久无码av无码|