999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型的圖譜自動化構(gòu)建系統(tǒng)

2025-03-05 00:00:00楊乾芳封惠姣黃少年陳柬同陳永康戴諾倩
電腦知識與技術(shù) 2025年3期

關(guān)鍵詞:大語言模型;知識圖譜;自動化構(gòu)建

中圖分類號:G250 文獻標識碼:A

文章編號:1009-3044(2025)03-0006-03 開放科學(資源服務(wù)) 標識碼(OSID) :

0引言

隨著社會的發(fā)展和信息技術(shù)的進步,人類社會面臨的各種突發(fā)事件愈發(fā)頻繁和復(fù)雜。群體性突發(fā)公共事件作為一種特殊的突發(fā)事件[1],其事件演化路徑錯綜復(fù)雜,具有不確定性和多路性。突發(fā)事件通常以新聞文本和摘要等非結(jié)構(gòu)化形式存在,讀者在從文本中提取信息時,由于篇幅限制及多義字詞的影響,難以準確連貫地把握事件中的實體與關(guān)系演化。而對于事件及其關(guān)系演化,采用知識圖譜能夠更直觀地表示各實體之間的邏輯關(guān)系。

傳統(tǒng)實現(xiàn)自動化實體關(guān)系抽取[2]的模型多采用深度學習的方式進行實體識別、關(guān)系提取和知識融合。Socher等[3]運用RNN分析標記好的文本句子的句法結(jié)構(gòu),挖掘句法特征。Shen等[4]提出基于注意力機制的CNN模型,分別利用詞嵌入、詞性標注嵌入和位置嵌入信息,能夠充分提取文本的潛在語義特征。Google提出的BERT模型[5]采用雙向Transformer編碼器來捕捉文本的上下文信息。然而,上述方法均需要大量文本語義標注樣本,消耗大量人力和算力,且提取效果與標注質(zhì)量和模型訓(xùn)練的各種參數(shù)密切相關(guān)。

近年來,大語言模型在NLP任務(wù)中展現(xiàn)了極大的潛力。馮志偉等[6]指出,大語言模型展現(xiàn)出掌握世界知識和理解自然語言的強大能力。田萍芳等[7]通過大語言模型實現(xiàn)了更精準的實體及關(guān)系識別,并將其應(yīng)用于司法命名實體識別。通過為大語言模型提供少量的微調(diào)樣本,可簡化抽取模型中樣本標注及訓(xùn)練的過程,從而有效解決非結(jié)構(gòu)化文本中實體泛化和實體關(guān)系正確推理的問題,這是圖譜構(gòu)建中的難點與重點。

基于大語言模型(LLM)的圖譜自動化構(gòu)建系統(tǒng)充分利用其推理特性,實現(xiàn)了圖譜自動化構(gòu)建的目標。系統(tǒng)采用多輪Prompt提示工程,并結(jié)合少量模型微調(diào),提供抽取背景,充分提取海量非結(jié)構(gòu)化文本中的語義信息,同時融合特征進行實體關(guān)系匹配,從而提高圖譜構(gòu)建過程中實體及關(guān)系抽取的準確率。系統(tǒng)以Django為主要開發(fā)框架,實現(xiàn)了集請求預(yù)處理、服務(wù)響應(yīng)、數(shù)據(jù)清洗、前后端數(shù)據(jù)傳輸于一體的圖譜構(gòu)建流程。通過異步抽取機制,進一步提高了圖譜數(shù)據(jù)抽取的效率。該系統(tǒng)實現(xiàn)了基于大語言模型的圖譜自動化構(gòu)建過程,為圖譜構(gòu)建系統(tǒng)的實現(xiàn)提供了一種可行的新方案。

1系統(tǒng)架構(gòu)設(shè)計

基于大語言模型的圖譜自動化構(gòu)建系統(tǒng),依據(jù)圖譜構(gòu)建流程進行了系統(tǒng)架構(gòu)的設(shè)計。針對數(shù)據(jù)層面,需要實現(xiàn)非結(jié)構(gòu)化文本到結(jié)構(gòu)化文本的簡化映射及持久化存儲;針對業(yè)務(wù)邏輯層面,需要實現(xiàn)多種大語言模型API的兼容管理及相關(guān)功能的交互;針對可視化層面,需要實現(xiàn)數(shù)據(jù)的實時動態(tài)傳輸及動態(tài)可視化的交互界面。

依據(jù)功能需求,系統(tǒng)劃分為應(yīng)用層、數(shù)據(jù)加載層、模型管理層和渲染控制層。其中,模型管理層是系統(tǒng)的核心模塊,通過對模型的管理,用戶可以靈活地進行圖譜的自動化構(gòu)建。其系統(tǒng)架構(gòu)如圖1所示。

1.1模型管理層

模型管理層負責實現(xiàn)大語言模型的對接,并聯(lián)合數(shù)據(jù)加載層為應(yīng)用層提供服務(wù)。其主要包括通用API模塊與模型微調(diào)模塊。通用API模塊提供基礎(chǔ)大語言模型API接口,用戶無須關(guān)注細節(jié)處理,只需完成不同模型的接入及部分參數(shù)調(diào)整,即可實現(xiàn)圖譜數(shù)據(jù)的獲取。模型微調(diào)模塊提供接口支持用戶自主部署模型,用戶可上傳特定數(shù)據(jù)集,對上傳的大模型進行微調(diào)[8],以達到最佳的關(guān)系與實體抽取效果。在執(zhí)行圖譜自動化抽取任務(wù)時,采用異步流程,實現(xiàn)多個構(gòu)建任務(wù)的并發(fā)處理,從而提高構(gòu)建效率,并對圖譜構(gòu)建任務(wù)進行進一步的封裝與優(yōu)化。最終,任務(wù)執(zhí)行結(jié)果將被組合并返回給數(shù)據(jù)加載層。

1.2數(shù)據(jù)加載層

數(shù)據(jù)加載層主要面向?qū)崟r圖譜抽取過程中的數(shù)據(jù)任務(wù),包含數(shù)據(jù)清洗、數(shù)據(jù)切片[9]、Prompt嵌入和第三方擴展模塊。數(shù)據(jù)清洗模塊負責對系統(tǒng)輸入的提示詞轉(zhuǎn)換及模型輸出數(shù)據(jù)的規(guī)范化處理,如剔除冗余數(shù)據(jù)等。數(shù)據(jù)切片模塊實現(xiàn)對用戶輸入的非結(jié)構(gòu)化長文本的切分與標記,便于后續(xù)模型更精確地提取語義中的實體及關(guān)系。Prompt嵌入模塊支持在多輪Prompt中調(diào)整圖譜抽取策略,實現(xiàn)圖譜數(shù)據(jù)的漸進式抽取。第三方擴展模塊負責數(shù)據(jù)的持久化存儲,并通過擴展數(shù)據(jù)接口的方式支持批量圖譜抽取任務(wù)。數(shù)據(jù)加載層旨在對大語言模型抽取的圖譜原始數(shù)據(jù)進行有效的接入、轉(zhuǎn)換、清洗和持久化存儲。通過數(shù)據(jù)加載層,系統(tǒng)能夠?qū)?shù)據(jù)流通進行進一步處理與封裝,為后續(xù)服務(wù)請求及數(shù)據(jù)資源管理提供可靠的數(shù)據(jù)基礎(chǔ)。

1.3應(yīng)用層應(yīng)用層

基于其他層的功能實現(xiàn)與用戶交互,是系統(tǒng)的應(yīng)用管理模塊。該層提供模型選擇、文件加載、可視化數(shù)據(jù)及圖譜生成服務(wù)。用戶通過鑒權(quán)認證后,可手動添加模型參數(shù)(如Key模型授權(quán)令牌、Tempera?ture生成結(jié)構(gòu)參數(shù)等)進行調(diào)整。在執(zhí)行圖譜抽取任務(wù)時,用戶可手動輸入原始文本數(shù)據(jù),或通過文件加載的方式導(dǎo)入Word、TXT、PDF等格式文件,從而實現(xiàn)原始數(shù)據(jù)的輸入。系統(tǒng)隨后按照流程處理數(shù)據(jù)并生成可視化結(jié)果,供用戶查看與分析。

1.4渲染控制層

渲染控制層負責管理和控制圖譜渲染過程中的各種參數(shù)配置,以確保最終渲染結(jié)果符合預(yù)期的質(zhì)量和性能。該層基于Echarts和Bootstrap實現(xiàn)圖譜及原始圖表數(shù)據(jù)的可視化呈現(xiàn),并通過Ajax實現(xiàn)與后端的實時交互,保證系統(tǒng)的動態(tài)性和實時性。用戶可通過交互式界面調(diào)整圖譜的可視化效果,例如節(jié)點大小、關(guān)系圖路徑樣式、交互按鈕的呈現(xiàn)等。通過參數(shù)配置,渲染控制層實現(xiàn)了系統(tǒng)的動態(tài)界面及功能交互,并支持對關(guān)系實體圖譜的高質(zhì)量可視化呈現(xiàn)。

2系統(tǒng)流程實現(xiàn)

2.1請求服務(wù)的設(shè)計

2.1.1圖譜數(shù)據(jù)請求API設(shè)計

接口設(shè)計是構(gòu)建高效、穩(wěn)定和安全的Web服務(wù)的關(guān)鍵環(huán)節(jié)。基于Django框架,利用通用API完成本系統(tǒng)的基礎(chǔ)服務(wù),通過API的形式簡化圖譜構(gòu)建流程,從而實現(xiàn)圖譜數(shù)據(jù)的實時獲取。其請求參數(shù)如表1所示。

2.1.2微調(diào)模型API設(shè)計

微調(diào)API旨在構(gòu)建更加專業(yè)化、領(lǐng)域化的知識圖譜。管理員可自主上傳大語言模型權(quán)重文件及數(shù)據(jù)集,選擇模型參數(shù),對模型進行微調(diào)訓(xùn)練。通過自主模型訓(xùn)練,可以更好地適應(yīng)特定領(lǐng)域的圖譜任務(wù),滿足用戶的個性化需求。其API參數(shù)如表2所示。

2.2圖譜數(shù)據(jù)清洗

數(shù)據(jù)清洗是圖譜構(gòu)建過程中的重要環(huán)節(jié),主要目的是消除所獲取圖譜數(shù)據(jù)中的錯誤、冗余和不完整部分,從而提高圖譜的質(zhì)量和準確性。

2.2.1錯誤類型定義

根據(jù)圖譜渲染框架與實體單一原則,我們將錯誤劃分為數(shù)據(jù)異常類(如空值、1)、實體誤差類(如經(jīng)抽取后實體不一致)和匹配誤差類等錯誤。在抽取過程中,我們依據(jù)錯誤類型進行一系列邏輯判斷,并采用相應(yīng)的策略對數(shù)據(jù)進行進一步優(yōu)化,從而提高數(shù)據(jù)處理的準確性,最終提升圖譜數(shù)據(jù)抽取的準確性。

2.2.2數(shù)據(jù)處理

在圖譜構(gòu)建流程中,圖譜數(shù)據(jù)多以實體關(guān)系元組的形式存在,其定義如下所示:

式中:ID為唯一數(shù)據(jù)標識,S為源實體,T為目標實體,R為兩者實體間的關(guān)系。依據(jù)數(shù)據(jù)處理流程,首先需對數(shù)據(jù)進行去重處理,刪除重復(fù)記錄,保證實體的單一性。同時對數(shù)據(jù)進行格式化處理,確保所有數(shù)據(jù)遵循相同的格式標準,便于后期渲染及存儲。對于缺失值部分,采用回溯抽取的方法,重新抽取所缺失的實體或關(guān)系,并對數(shù)據(jù)中的非法字符進行剔除。

2.3圖譜渲染

圖譜渲染基于Echarts框架實現(xiàn)。Echarts是一款基于JavaScript的數(shù)據(jù)可視化圖表庫,能夠提供直觀、生動、可交互且可個性化定制的數(shù)據(jù)可視化圖表。通過其數(shù)據(jù)項及配置項的靈活配置,可滿足圖譜數(shù)據(jù)的可視化需求。在進行圖譜渲染時,我們對關(guān)系實體數(shù)據(jù)進行進一步清洗,將其作為數(shù)據(jù)項用于圖譜渲染。

3抽取模式設(shè)計

3.1提示詞設(shè)計

大語言模型具有強大的推理能力,其理想結(jié)果通常與用戶輸入的提示詞密切相關(guān)。本文針對關(guān)系和實體設(shè)計了提示詞,旨在實現(xiàn)實體關(guān)系的精準抽取,其提示詞設(shè)計如表3所示。

3.2多輪提示詞實體關(guān)系匹配

多輪提示詞用于指導(dǎo)模型生成初始響應(yīng),并影響后續(xù)交互內(nèi)容的連貫性。這類提示詞通常需要包含足夠的上下文信息,以便模型能夠理解對話的整體脈絡(luò),并生成連貫的響應(yīng)。當發(fā)起任務(wù)請求時,系統(tǒng)將原始文本作為輸入,通過多輪提示詞抽取,最終獲取多組實體關(guān)系。其匹配模式流程如圖2所示。

在圖2中,語料數(shù)據(jù)通過實體和關(guān)系提取,生成實體和關(guān)系數(shù)據(jù)流,并將該數(shù)據(jù)流作為下一輪實體關(guān)系匹配融合的輸入。根據(jù)數(shù)據(jù)流所攜帶的序列標識,完成實體關(guān)系特征的匹配。最終,通過進一步處理,得到實體關(guān)系(RE)元組。

3.3異步并發(fā)抽取

asyncio是Python標準庫中的一個模塊,用于支持異步編程和并發(fā)執(zhí)行。它提供了豐富的API,包括異步函數(shù)、異步I/O操作、異步任務(wù)調(diào)度等。本系統(tǒng)采用即時請求服務(wù)的方式來實現(xiàn)對圖譜數(shù)據(jù)的抽取及檢索,其任務(wù)具有實時性。然而,在多輪提示詞輸入推理過程中,使用同步大語言模型API往往需要耗費大量時間成本。

通過asyncio異步方式,可以實現(xiàn)多個實體關(guān)系抽取任務(wù)的并發(fā)執(zhí)行。同時,采用序列化的方式,將數(shù)據(jù)切片與背景原文進行匹配,增強抽取語段的上下文語義,保證切片段文本的語義連續(xù)性,從而提高圖譜抽取過程中實體及關(guān)系的準確性。通過序列化的方式匹配當前被抽取語句的上下文語義,能夠進一步確保圖譜數(shù)據(jù)的上下文語義連續(xù)性。

4結(jié)束語

知識圖譜自動化構(gòu)建系統(tǒng)旨在利用大語言模型的推理能力,充分挖掘非結(jié)構(gòu)化文本中的實體關(guān)系數(shù)據(jù),實現(xiàn)圖譜的自動化構(gòu)建流程。通過多級Prompt工程,明確任務(wù)指令,增強抽取結(jié)果的準確性。同時,系統(tǒng)將數(shù)據(jù)以可視化形式呈現(xiàn),為用戶提供簡潔的交互界面。

與傳統(tǒng)圖譜實現(xiàn)技術(shù)不同,本系統(tǒng)采用生成式模式構(gòu)建圖譜,用戶可以通過多輪交互實現(xiàn)圖譜的生成與構(gòu)建。在圖譜內(nèi)容生成方面,系統(tǒng)具有高度的彈性。

目前,大語言模型仍然被視為黑箱,其推理邏輯尚未完全明確。但未來,隨著對大語言模型研究的深入,它必將在圖譜構(gòu)建領(lǐng)域發(fā)揮更重要的作用。大語言模型技術(shù)的發(fā)展將推動更加智能化、自動化的圖譜構(gòu)建方法的出現(xiàn),這不僅為知識圖譜的普及和應(yīng)用奠定了堅實基礎(chǔ),也將進一步推動人工智能技術(shù)在各個領(lǐng)域的廣泛應(yīng)用。

主站蜘蛛池模板: 亚洲综合精品第一页| 日本精品一在线观看视频| 色欲不卡无码一区二区| 国产乱人伦精品一区二区| 精品视频在线观看你懂的一区| 国产日产欧美精品| 99999久久久久久亚洲| 亚洲视频a| 亚洲男人天堂2020| 亚洲二区视频| 91久久天天躁狠狠躁夜夜| 久久精品丝袜| 狠狠色噜噜狠狠狠狠奇米777| 亚洲第一页在线观看| 亚洲经典在线中文字幕| 性喷潮久久久久久久久| 黄色网站在线观看无码| 亚洲日韩高清无码| 久久久久国产精品熟女影院| 亚洲成人福利网站| 欧美精品H在线播放| 在线观看热码亚洲av每日更新| 亚洲高清在线天堂精品| 在线国产资源| 激情综合婷婷丁香五月尤物| 亚洲人成日本在线观看| 99ri国产在线| 国产精品深爱在线| 国产激情影院| 亚洲高清在线播放| 麻豆国产精品视频| 四虎永久免费网站| 爱色欧美亚洲综合图区| 亚洲成人精品| 成人午夜精品一级毛片| AV不卡在线永久免费观看| 99热这里只有成人精品国产| 一本一道波多野结衣一区二区 | 操国产美女| 一区二区三区四区精品视频 | 女人av社区男人的天堂| 久久网欧美| 国产成人亚洲欧美激情| 免费观看无遮挡www的小视频| 国产香蕉97碰碰视频VA碰碰看 | 性视频久久| 欧美午夜在线视频| 亚洲综合激情另类专区| 久久永久视频| 欧美色丁香| 国产网站一区二区三区| 亚洲成人黄色在线观看| 国产人免费人成免费视频| 国产乱人伦精品一区二区| 中文字幕调教一区二区视频| 日本91在线| 亚洲AⅤ综合在线欧美一区| 亚洲国产看片基地久久1024| 欧美日本一区二区三区免费| 无码免费的亚洲视频| 毛片三级在线观看| 毛片网站观看| 亚洲中文字幕久久精品无码一区 | 欧美成人aⅴ| 天天色天天操综合网| 日韩精品中文字幕一区三区| 午夜福利亚洲精品| a在线观看免费| 91口爆吞精国产对白第三集| 伊人色婷婷| 精品视频一区在线观看| 极品私人尤物在线精品首页 | 亚洲国产精品一区二区第一页免 | 国产永久在线观看| 免费a级毛片视频| 欧美19综合中文字幕| 国产精品美女免费视频大全| 亚洲高清国产拍精品26u| 午夜成人在线视频| 欧美日韩国产精品综合| 精品视频一区二区观看| 黄色污网站在线观看|