999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RAG的智慧圖書館信息檢索系統構建探討

2025-11-18 00:00:00張勇
河南圖書館學刊 2025年9期

中圖分類號:G250 文獻標識碼:A 文章編號:1003-1588(2025)09-0123-04

1背景

隨著以大數據、元宇宙、大模型等為代表的信息技術的快速發展,人工智能不斷突破其技術難點,成為促進新質生產力發展的重要工具,在人類生產、生活、工作、學習、出行等領域發揮了重要作用。圖書館作為文獻和信息傳播的重要公共場所,面臨信息過載的時代挑戰,其龐大而繁雜的數據使用戶難以檢索到所需的信息,傳統信息檢索系統的局限性,直接影響了圖書館的公共服務質量,這是圖書館管理者亟待解決的重點問題之一。2022年11月,OpenAI公司推出的ChatGPT-3.5生成式LLM(LargeLanguageModel)大語言模型,獲得全世界的廣泛關注,因其出色的自然語言處理和理解能力,極大地推動了人工智能技術與各領域的深度結合,為解決圖書館信息檢索難題提供了新的路徑。然而,與傳統圖書館檢索方式相比,盡管大語言模型在圖書館領域取得顯著進步,能夠有效理解自然語言語義并檢索到有效的信息,但大語言模型仍然存在一定的缺陷,在實際應用場景中無法完成超出其訓練數據范圍的內容生成,在解答特定領域或高度專業化的問題時存在大量的幻覺問題[1],使系統生成不準確或無根據的回答信息,導致輸出內容與實際情況不相符。基于此,本研究提出以RAG檢索增強技術為基礎的檢索模型,試圖構建智慧圖書館智能問答系統,解決圖書館檢索過程中出現幻覺、信息語義不匹配等問題,以期提高智慧圖書館的檢索效率和準確性。

2相關概念及研究綜述

2.1 相關概念

檢索增強生成(Retrieval Augmented Genera-tion,RAG)是一種基于文本增強和文本生成相結合的自然語言處理技術,其在大語言模型文本生成的過程中,整合來自外部文檔知識庫的增強模型,用來提高大語言模型輸出的準確性、及時性。從本質上講,RAG屬于一種提示性工程形式,由信息檢索系統和seq2seq生成器組成,為大語言模型提供額外的、來自外部知識源的權威數據庫,使其能夠在生成響應之前優化大語言模型的生成結果,增強大語言模型的生成能力,有效減少誤導性信息出現的可能。大語言模型通過海量的數據完成交互問答、查詢等任務,RAG則在大語言模型強大功能的基礎上,通過調入專業領域的數據庫,利用其信息引導生成過程,解決大語言模型訓練或微調所帶來的算力負擔,得出更精確、更符合上下文語義邏輯的答案,進一步提升輸出內容的準確性、相關性和可追溯性,解決大語言模型生成內容時出現幻覺等問題

2.2 相關研究

檢索增強生成(RAG)技術由Meta公司AI研究人員于2020年首次提出,用來解決知識密集型任務的檢索問題。PatrickLewis[2作為Meta的核心數據科學家,為了提高大語言模型在專業領域的應答能力,引人seq2seq作為預訓練的語言模型生成文本嵌入向量,用維基百科的密集向量索引作為非參數記憶,結合向量數據庫和近似最近鄰搜索算法(ANNS)查找相關文檔,將相關文檔和用戶問題合并,利用提示工程輸入大模型生成響應,減少模型的幻覺和錯誤生成。在我國,檢索增強生成(RAG)技術目前還處于初級發展階段,相關研究文獻資料并不多。陸奕在智慧圖書館行業技術交流中探討了RAG檢索增強生成技術在圖書館的應用前景,提出應運用RAG檢索增強生成技術開發相關產品,為用戶提供智能問答等輔助閱讀服務[3]。丁寧等人將RAG技術和臨床醫學專業教科書知識庫相結合,解決傳統生成模型在專業領域準確性不足的問題,以提高智能問答系統的準確性和可靠性[4]。洪亮等人針對煤礦安全智能輔助預警決策需求,以瓦斯超限煤礦安全隱患知識為數據源,基于RAG檢索增強生成技術構建了煤礦安全智能問答模型[5]。關殿璽等人針對巖土工程專業領域知識,研究了基于大模型、RAG技術相結合的巖土工程問答機器人,以期實現對復雜巖土問題的深度理解和精準回答[6]

從這些專家和學者的研究成果看,RAG在智能問答系統、內容生成等方面展現出獨特的優勢,在醫療、教育、安全等專業領域有廣泛的應用前景,圖書館領域也不例外。由于圖書館數據量大、文獻信息更新快,現有問答檢索系統主要集中在通用領域,且大語言模型是基于前期訓練而生成的記憶,一旦圖書館沒有更新相關資料,或館藏內容缺乏實時性,回答內容就不會精準。RAG其實相當于給工作人員增加了專業領域的額外知識儲備,用來增強大語言模型的輸入效果,使模型能夠生成更準確、最新且與上下文相關的內容。因此,基于RAG技術構建智慧圖書館問答系統,可基于原有大語言模型記憶進行檢索,以實時數據為支撐,更有效地針對用戶的問題提供精準的問答服務。

3大語言模型和RAG增強檢索分析

3.1大語言模型面臨的問題

近年來,在大語言模型技術的支撐下,人工智能已擁有類似于人類的感知、交互和問答能力,問答式的檢索方式使圖書館檢索更為便捷,能夠有效理解用戶的檢索需求,大幅提升信息檢索效率,取得了較好的檢索效果。但是,大語言模型仍面臨諸多困難,主要有三個方面的問題:一是知識更新受限。大語言模型內部數據是在訓練過程中學習的,其信息內容在訓練截止后就結束了,沒有辦法做到實時更新,如要獲取最新的信息就需要重新訓練模型。二是模型容易出現幻覺。大語言模型在回答問題時依賴模型內部的參數存儲信息,如果模型內部缺少特殊領域和專業度較強的信息時,在缺乏明確提示內容的情況下,模型生成的內容與實際可能產生偏差,就容易出現虛構、編造等情況,甚至生成非事實的錯誤信息,對于專業領域的回答更是容易出現術語混淆問題。三是微調難度較大。如果大語言模型對某一領域的學習不充分,需要重新進行訓練時,就需要再次更新模型參數,微調過程涉及大量的計算過程,需要高性能的硬件設備作支撐,綜合成本較高。

3.2RAG增強檢索的優勢

相關研究表明,RAG增強檢索技術在智慧圖書館檢索問答方面具有明顯優勢。RAG技術能夠結合檢索的精確性和生成的靈活性,提供更加準確和時效性的回答,是效率最高、成本最低的解決大語言模型問題的技術,其主要有四個方面優勢:一是回答內容更加準確。RAG在大語言模型生成內容的基礎上,通過引入增強檢索組件,將外部查詢的內容都納人問答語義并進行上下文提示,當用戶進人智慧圖書館系統提出檢索問題時,RAG模型能夠及時從外部信息源中提取最相關的數據,有效解決大語言模型專業知識匱乏等問題。RAG還可有效追溯信息的知識來源,增加用戶對模型輸出的信任度。二是能夠實時更新信息。傳統檢索系統通常受限于其固有的數據庫,難以實時更新信息。RAG技術結合內部的知識和外部數據庫獲取最新信息,無須重新訓練模型就能滿足不同場景下專業用戶的需求。三是增強上下文理解力。RAG技術通過檢索外部信息輔助理解復雜的上下文語義,根據檢索到的內容生成連貫的應答任務,能夠使模型在生成文本時更準確地反映上下文需求。這種強大的語義理解能力不僅能為用戶帶來更準確的人機交互問答,還具備在多個行業中的廣泛適用性。四是具有良好的經濟性。RAG技術能訪問特定領域或組織的內部數據庫,不需要因數據庫變化而再次訓練或微調更新模型參數,系統的運行成本較低

4基于RAG檢索增強技術構建智慧圖書館檢索系統

基于RAG的智慧圖書館信息檢索系統構建的核心是檢索和生成的過程,要先將圖書館館藏的大量學術文獻進行切片,形成向量數據庫,再構建檢索增強模型和問答生成模型。當用戶提出問題時,檢索增強模型利用向量數據庫檢索本地圖書館的數字資源,并結合外部信息后提交生成模型,由大語言模型進行確認,并運用大語言模型和Prompt工程,準確生成目標答案。整體的檢索過程可以分為建立數據、構建模型、生成對話三個部分,具體流程是:數據提取 $$ 文本分割 $$ 向量化 $$ 數據存入向量庫 $$ 用戶提問 $$ 數據檢索召回 $$ 注人Prompt提示詞 $$ 大語言模型生成答案。

4.1建立圖書館向量數據庫

圖書館館藏大量的學術文獻,對這些學術文獻使用專業的向量化工具,通過文本加載、文本塊切分、BGE-M3-Embedding、FAISS開源庫等方法,構建索引并存入向量數據庫中,形成本地智慧圖書館的知識庫。向量數據庫作為專業用于存儲和檢索向量數據的數據庫系統,與傳統的關系型數據庫完全不同,向量數據庫本質上是對相似度的內容進行高效檢索,通過檢索某一向量與其他向量的距離確定最相似的向量。

4.2建立RAG檢索增強模型

檢索模型能夠通過多種方法完成檢索,最常見的就是使用向量嵌入和向量搜索。BGE-M3-Embedding是一種基于多語言、多粒度、多功能的向量模型,該模型支持超過100種語言,不僅支持短句提問方式,還支持長文提問,其處理能力可達到8,192長度文本輸入。鑒于其強大的支持和處理能力,針對智慧圖書館用戶提出的問題需求,模型采用BGE-M3-Embedding完成文本塊向量的檢索,召回 top-k 向量檢索的上下文,根據提問構建Prompt微調提示工程,并有效使用召回的知識,提升大語言模型生成答案的準確性。簡言之,檢索模型其實就是整個系統的信息看門人,主要功能是從海量數據中搜索可用于文本生成的相關信息,當用戶提出需求時,模型能夠準確知道要從“書架”上取下什么“書”。例如:用戶在智慧圖書館檢索系統中提出問題“關于泰山古建筑群有哪些重要的文獻資料”,系統先從古建筑群向量數據庫中檢索出與泰山古建筑群問題最相關的 top-k個文本庫作為問題上下文,再將檢索獲取的相關知識融入Prompt,讓大語言模型能夠參考相應的知識從而給出精準回答。

4.3建立RAG問答生成模型

一旦檢索模型查詢到合適的內容,生成模型就會開始發揮作用。生成也是RAG檢索流程的最后一步,這一步的目的是結合大語言模型生成符合用戶需求的答案。生成模型具備人類自然語言特性,將檢索系統與生成式AI相結合,用來增強智慧圖書館聊天機器人的問答方式。聊天機器人會從知識庫、常見問題解答等來源檢索相關信息,以檢索到的內容為背景知識,生成連貫且上下文相關的信息,并運用生成模型根據檢索到的內容給出個性化回答,確保生成的問答結果更具針對性。

5結語

文章針對傳統智慧圖書館檢索系統的缺失,提出了基于RAG檢索增強技術的智能問答檢索系統,為智慧圖書館提供了效率高、可靠性強、回答問題準的解決方案。盡管RAG檢索增強技術在推動智慧圖書館信息系統建設上展現出強大的檢索能力,但仍有一些不可忽視的問題亟待解決:首先,信息檢索依賴外部專用的數據庫,外部信息的來源是否充足和準確,直接影響最終生成內容的質量;其次,大量外部數據來源的信息是否安全,數據是否屬于敏感信息,是否存在潛在的泄露風險,都是值得探討的課題。可以預見的是,未來智慧圖書館一切業務的基座一定是人工智能技術,RAG增強檢索技術有能力對智慧圖書館檢索系統帶來更大的改變,全面提升用戶在智慧圖書館資源搜索、資源閱讀等場景的體驗,成為用戶在海量數據信息中探索知識、獲取信息的有力助手,在人工智能時代發揮更大的價值。

參考文獻:

[1]車萬翔,竇志成,馮巖松.大模型時代的自然語言處理:挑戰、機遇與發展[J].中國科學:信息科學,2023

(9) :1645-1687.

[2]LEWISP,PEREZ E,PIKTUS A,et al. Retrieva-aug-mented generation for knowledge-intensivenlp tasks[J].Advancesin Neural Information Processing Systems,2020(33) :9459-9474.

[3]陸奕.RAG檢索增強生成技術在圖書館的應用[EB/OL].[2025-07-20]. https://mp.weixin.qq.com/s?_-biz=MzIyOTExNzgwMA==amp;mid=2649473105amp;amp;idx= 6amp;sn Σ=Σ b9873bf77a53b84ad84922dfb22cf46eamp;chksm Σ=Σ fl2ae0bfc0aad3b5dea084b2ce53e3bb6d2abbc1b86685d88d5b6f27af9ee58db7cb0a1afd4famp;scene =27

[4] 丁寧,宋雨欣,單澤田,等.基于檢索增強生成(RAG)技術的醫學教學輔助智能問答系統的構建探索[J].中國醫學教育技術,2025(1):1-5.

[5] 洪亮,郭瑤,劉興麗,等.基于RAG的煤礦安全智能問答模型[J].黑龍江科技大學學報,2024(3):487-492.

[6] 關殿璽,黃琨,崔年治.基于大模型、RAG和智能體技術的勘察巖土問答機器人研究[J].中國勘察設計,2024(8) :101-104.

(編校:馮耕)

主站蜘蛛池模板: 狠狠五月天中文字幕| 亚洲成人免费看| 四虎成人精品在永久免费| 国产一级毛片网站| 一级毛片免费观看不卡视频| 国产精品夜夜嗨视频免费视频| 国产精品男人的天堂| 久久久噜噜噜| 波多野结衣爽到高潮漏水大喷| 亚洲人成网线在线播放va| h网址在线观看| 亚洲国产成人在线| 亚洲va在线∨a天堂va欧美va| 老司国产精品视频| 精品夜恋影院亚洲欧洲| yy6080理论大片一级久久| 欧美成人影院亚洲综合图| 欧美激情二区三区| 国产精品天干天干在线观看| 波多野结衣视频一区二区| 夜夜爽免费视频| 中文字幕亚洲乱码熟女1区2区| 最新亚洲人成网站在线观看| 精品少妇三级亚洲| 小蝌蚪亚洲精品国产| www.亚洲一区| 免费高清a毛片| 九月婷婷亚洲综合在线| 9久久伊人精品综合| 亚洲精选高清无码| 在线a视频免费观看| 波多野结衣久久高清免费| 久草美女视频| 乱系列中文字幕在线视频| 婷婷六月激情综合一区| jizz亚洲高清在线观看| 久久天天躁狠狠躁夜夜躁| 亚洲视屏在线观看| 成人午夜久久| 国产va在线观看免费| 亚洲人成成无码网WWW| 国产人成乱码视频免费观看| 特级欧美视频aaaaaa| 国产精品无码影视久久久久久久| 日韩欧美中文亚洲高清在线| 国产亚洲视频播放9000| 三级视频中文字幕| 综合五月天网| 九色91在线视频| 高清欧美性猛交XXXX黑人猛交| 激情综合五月网| 欧美一区中文字幕| 亚洲人成影院在线观看| 成年人国产视频| 国内精品久久久久鸭| 亚洲美女高潮久久久久久久| 国产aⅴ无码专区亚洲av综合网| 激情综合图区| 高清无码一本到东京热| 自慰高潮喷白浆在线观看| 亚洲成人精品在线| 色综合国产| 天天爽免费视频| 久久精品一品道久久精品| 在线色综合| hezyo加勒比一区二区三区| 一本二本三本不卡无码| 99色亚洲国产精品11p| 亚洲一区国色天香| 亚洲无线视频| 青草视频在线观看国产| 久久精品视频一| 亚洲成人在线网| 亚洲国产成人精品青青草原| 亚洲成A人V欧美综合| 色综合中文| 日本一区二区不卡视频| 久久精品嫩草研究院| 日韩欧美亚洲国产成人综合| 久久久噜噜噜| 一级黄色网站在线免费看| 亚洲精品手机在线|