999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向區塊鏈漏洞知識庫的大模型增強知識圖譜問答模型

2025-01-17 00:00:00解飛宋建華姜麗張龑何帥
現代電子技術 2025年2期

摘" 要: 大語言模型(LLM)在專業領域特別是區塊鏈漏洞領域應用時存在局限性,如專業術語噪聲干擾和細粒度信息過重導致理解不足。為此,構建一種面向區塊鏈漏洞知識庫的增強型知識圖譜問答模型(LMBK_KG)。通過整合大模型和知識圖譜來增強知識表示和理解能力,同時利用多粒度語義信息進行專業問題的過濾和精準匹配。研究方法包括使用集成的多粒度語義信息和知識圖譜來過濾專業術語噪聲,以及采用大模型生成的回答與專業知識圖譜進行結構化匹配和驗證,以提高模型的魯棒性和安全性。實驗結果表明,所提出的模型在區塊鏈漏洞領域問答的準確率比單獨使用大模型提高26%。

關鍵詞: 大語言模型; 知識圖譜; 問答模型; 多粒度語義信息; 區塊鏈; 漏洞信息; 文本表征

中圖分類號: TN929.5?34; TP391.1" " " " " " " " 文獻標識碼: A" " " " " " " " " " 文章編號: 1004?373X(2025)02?0137?06

Large model enhanced knowledge graph question answering model for blockchain vulnerability knowledge base

XIE Fei1, SONG Jianhua2, 5, JIANG Li1, ZHANG Yan1, 4, HE Shuai3

(1. School of Computer Science and Information Engineering, Hubei University, Wuhan 430062, China;

2. School of Cyber Science and Technology, Hubei University, Wuhan 430062, China;

3. School of Cyber Science and Engineering, Huazhong University of Science and Technology, Wuhan 430074, China;

4. Key Laboratory of Intelligent Sensing System and Security (Hubei University), Ministry of Education, Wuhan 430062, China;

5. Hubei Provincial Engineering Research Center of Intelligent Connected Vehicle Network Security, Wuhan 430062, China)

Abstract: There are limitations in the application of large language models (LLMs) in professional fields, especially in the field of blockchain vulnerabilities, such as noise interference of technical terms and insufficient understanding caused by excessive fine?grained information. On this basis, an enhanced knowledge graph question answering model for blockchain vulnerability knowledge base (LMBK_KG) is constructed, which can enhance the knowledge representation and comprehension ability by integrating large models and knowledge graphs, and filter and accurately match professional problems by means of multi?granularity semantic information. The research methods include using integrated multi?granularity semantic information and knowledge graph to filter the professional term noise, and using large model?generated answers for structured matching and validation with the professional knowledge graph to improve the robustness and security of the model. The experimental results show that, in comparison with the large model used alone, the proposed model can improve the accuracy of question answering in the field of blockchain vulnerabilities by 26%.

Keywords: large language model; knowledge graph; question?answering model; multi?granularity semantic information; blockchain; vulnerability information; text representation

0" 引" 言

隨著大語言模型(LLM)[1]時代的到來,自然語言處理(NLP)領域經歷了革命性的變革,其中LLM如InstructGPT[2]、ChatGPT和GPT?4[3]等在廣泛的問答任務中展現出了卓越的性能。這些模型能夠理解并執行復雜的人類指令,準確解答各類問題。盡管如此,它們在處理特定領域,尤其是充滿專業術語的區塊鏈漏洞領域時,效果并不總是理想。針對上述問題,本文提出一種創新的解決方案,即面向區塊鏈漏洞知識庫的大模型增強知識圖譜問答模型(LMBK_KG)。該模型結合了大型語言模型和多層次語義信息,利用區塊鏈專業知識庫來提升對區塊鏈漏洞問題的回答精度[4]。

1" 模型概述

本文提出了一種創新的模型,通過將先進的大語言模型與特定領域的知識圖譜深度整合,提供更準確和高質量的專業領域問答服務[5]。這種整合加強了語言模型與知識圖譜之間的互動,通過優化信息處理過程,顯著減少誤導性和不正確信息的產生,提高了問題回答的完整性和精確度。模型的主要功能涵蓋信息處理、專業知識問答及知識的提取和轉化,其利用LangChain技術實現了專業問答服務的顯著提升[6]。模型有效整合特定領域知識庫與大語言模型,提升專業問答能力,同時減少重復訓練成本和避免潛在的災難性記憶丟失[7]。此外,通過比較提取的三元組與知識圖譜,進一步提升了回答的專業水平。模型框架圖如圖1所示。

2" 模型構建

本節從構建區塊鏈漏洞知識圖譜、融合多粒度語義信息和融入大模型的專業問答模型,開發了一個專注于區塊鏈漏洞的問答模型,并且通過整合大語言模型和知識圖譜來實現專業領域問答。模型首先篩選和分類區塊鏈漏洞的相關問題,利用LangChain[3]技術在知識圖譜中匹配知識,并將其與問題一起輸入到大型語言模型從而產生專業答案。進一步通過知識抽取技術從答案中提取關鍵信息,并與知識圖譜對比來驗證答案準確性。

2.1" 構建區塊鏈漏洞知識圖譜

知識圖譜的構建方法主要有自底向上和自頂向下兩種策略[8]。自底向上策略適合于開發廣泛覆蓋的知識圖譜;相反,自頂向下策略適合構建針對特定行業或領域的知識圖譜。本文采用自頂向下的方式來構建針對漏洞信息的知識圖譜,從設計一個合適的數據模型入手,為知識圖譜提供結構化的基礎。接下來,利用這個數據模型抓取并整理特定的漏洞信息樣本,并對來自不同源和格式的數據進行預處理,旨在消除數據冗余和不一致性[9]。接著,模型進行知識融合過程,將收集到的各類信息融合為一個有結構的完整數據集。隨后,借助Neo4j圖數據庫中的導入工具(Neo4j?import)將這些精細整理的數據集導入到數據庫中,實現知識圖譜構建的最終步驟[10]。漏洞信息知識圖譜的構建框架圖如圖2所示。

2.2" 融合多粒度語義信息和知識圖譜的區塊鏈漏洞問答匹配模型構建——LMBK_KG

在輸入層,問答匹配模型利用多種技術,包括Lattice[11]網絡、Word2Vec[12]和BERT[13]來構建具有多粒度語義信息的特征向量;同時,引入外部的區塊鏈漏洞知識圖譜,以增強特征向量中的細節語義信息。

2.2.1" 輸入層

輸入層作為模型的輸入部分,負責處理問答對并抽取它們的多級語義特征向量。通過Lattice網絡,結合Word2Vec提供的靜態詞向量和BERT提供的動態詞向量策略,以及融合外部知識圖譜的相關信息,可以綜合處理文本中的單個字符、潛在的詞組以及外部知識,生成包括深層語義信息的特征向量,進而為模型的下一處理階段提供輸入。

1) 基于BERT的多粒度嵌入

因為BERT設計為處理序列化數據,而無法直接處理以有向無環圖(DAG)形式存在的Lattice網絡輸入。通過參考Lattice?BERT的概念,本研究引入起始位置的編碼及掩碼段的預測機制,使得BERT可以更有效地應用于Lattice網絡結構。通過將BERT與Lattice網絡結構相結合,本研究實現了將有向無環圖(DAG)轉換為帶位置編碼的序列化格式,從而成功實現了圖結構的序列化、扁平化處理。例如:當使用Lattice?BERT處理中文句子“非同質化代幣是一種數字資產”時,可以觀察到以下幾個步驟。

① 構建Lattice網絡

這個句子可以有多種分詞方法,例如:

非/同質化/代幣/是/一種/數字/資產

非同質化/代幣/是/一種/數字資產

非同質化/代幣/是/一種/數字/資產

在Lattice網絡中,這些不同的分詞方法將被構建為多個節點和連接這些節點的邊。

② 轉換為BERT處理的格式

在這個步驟中,Lattice網絡中的每個節點(詞)和邊(詞與詞之間的關系)被轉換成適合BERT處理的序列。這種轉換使BERT能夠同時考慮多種分詞可能性,捕捉到更豐富的語義信息。

③ 模型處理和分析

Lattice?BERT會分析這個轉換后的序列,利用BERT的強大語義理解能力來捕獲句子中的細微差別。在處理“非同質化代幣”這一短語時,模型不僅能識別它是一個專有名詞(代指一類特殊的數字資產),還能通過上下文理解其與“數字資產”的關系。

最終,Lattice?BERT會根據這些分析提供相關的輸出,通過這樣的處理,Lattice?BERT能夠更全面地理解中文等復雜語言的語義,尤其是在處理含有專業術語或多義詞的句子時。這種方法提高了模型對語言多樣性的適應能力和處理精度。

2) 基于Word2Vec的多粒度嵌入

基于Word2Vec的多粒度嵌入主要利用Word2Vec模型生成詞嵌入,并結合多粒度的信息來表示文本,以捕捉句子或文檔中的豐富語義信息。這種方法不僅考慮了單個詞的語義,還考慮了詞組、短語或更長文本序列的語義信息。假設給定一個包含n個字符的句子信息[S=s1,s2,…,sn]模型,將其中的字符序列([c1,c2,…,cn)]直接輸入,不過為了充分捕捉句子的多粒度特征,需要句子中潛在的單詞信息,Lattice網絡可以挖掘出與詞典D相匹配的所有字符子序列。設[wdb,e]是一個子序列,b和e表示子序列開始位置和結束位置。基于Word2Vec的多粒度嵌入如圖3所示。[wd1,4]代表“數字資產”,“1”和“4”代表這個子序列從開始字符(第1個)到最后字符(第4個)。計算方法如式(1)所示。

[xwb,e=ewwdb,e]" " " " " " (1)

式中:[ew]表示的是詞嵌入查找表;[wdb,e]表示的是Lattice網絡挖掘出的潛在字符序列。

單詞元[cwb,e]代表詞向量[xwb,e]的遞歸狀態,計算方法如下所示:

[iwb,efwb,ecwb,e=" σ" σtanhwwTxwb,ehcb+bw] (2)

[cwb,e=fwb,e⊙ccb+iwb,e⊙cwb,e]" " " (3)

式中:[iwb,e]代表輸入門;[fwb,e]代表遺忘門;[wwT]和[bw]表示可以用來訓練的模型參數;[σ]代表sigmoid函數。因為單詞元沒有輸出門,所有標記只在字符級別進行。有了單詞元[cwb,e],信息流就有更多的循環路徑進入每一個[ccj]。本文把所有[cwb,e(b∈{b'wdb',e∈D})]子序列指向[cce],例如,在公式中,輸入源[cc4]包含了[xc4]和[cw1,4]。后續的單詞元[cwb,e]使用附加門[icb,e]來控制其到[ccb,e]的信息流,計算方法如式(4)所示。

[icb,e=σwlTxclcwb,e+bl]" " " " " (4)

式中:[wlT]和[bl]為模型參數。

[ccj]的計算方法如下:

[ccj=b∈{b'wdb',j∈D}αcb,j⊙cwb,j+αcj⊙ccj]" "(5)

式中:[αcb,j]和[αcj]分別是對[icb,j]和[icj]歸一化的值。[αcb,j]和[αcj]的計算方法如式(6)、式(7)所示。

[αcb,j=expicb,jexpicb,j+b∈b\"wdb\",j∈Dexpicb',j] (6)

[αcj=expicjexpicj+b∈b\"wdb\",j∈Dexpicb',j] (7)

最終的隱藏向量[hcj]計算方法如下:

[icjocjfcjccj=" σ" σ" σtanhwcT" xwjhcj-1+bc]" "(8)

[cwj=fwj⊙ccj-1+icj⊙cwj]" " " (9)

[hcj=ocj⊙tanhccj]" " " " " (10)

式中:[ocj]代表LSTM中的輸出門;[ccj]是在原本的字符序列上融合了子序列[wdb,e]的信息。

2.2.2" 知識圖譜嵌入

本文方法旨在將知識圖譜中的實體和關系轉化為向量嵌入,并通過外部知識獲取附加的知識表征信息,以增強文本表征的背景知識。首先,通過Lattice網絡對每個問答句進行細粒度分析,識別并提取實體信息。這些實體隨后被與預定義的專業領域詞典D進行比對,從而精確定位出相關實體集E。問句實體[Eq=eq1,eq2,…,eqn],答句實體[Ea=ea1,ea2,…,ean];其次,每個問答句通常涉及實體關系的查詢,例如漏洞名稱、解決方法、緣由等。因此,利用知識圖譜中三元組的實體對應的關系向量[R=r1,r2,…,rn]進行處理。

在獲得知識圖譜的實體集合、關系類型集合以及所有實體?關系?實體三元組集合后,利用TransE進行知識圖譜嵌入的訓練。其訓練包括確定實體和關系類型的輸出維度,將三元組劃分為訓練集、測試集和驗證集,對三元組進行訓練。

訓練完成后,TransE會根據輸入的知識圖譜的實體和關系類型列表為每個實體和關系類型生成向量。實驗中每個知識實體和每種關系輸出維度為300,得到所有實體和關系類型的嵌入。最終得到問答句對應的知識級嵌入表示[kq=eq1,r1,eq2,r2,…,eqn,rn]和[ka=ea1,r1,ea2,r2,…,ean,rn]的信息。

2.3" 融入大模型的專業問答模型構建

本研究將知識庫中的專業信息融入到大型語言模型中,旨在提高問答系統的答案質量。這種方法擴展了模型處理專業問題的能力,避免了領域特定數據微調的需求,實現了快速部署而無需重新訓練。特別是在區塊鏈漏洞分析領域,本研究結合了LangChain和ChatGPT技術,以產生含有更豐富專業知識的回答。本文模型首先通過LangChain在知識庫中尋找與提問相關的專業知識,隨后將這些知識與提問文本一起作為輸入,通過大模型處理后輸出具有專業深度的答案文本。假設知識庫由多個文檔組成,每個文檔可以被分解成多個文本塊。利用LangChain進行檢索時,系統會對每個文檔的文本塊建立向量索引,便于在搜索過程中,通過測算問題文本向量與已存向量間的相似性,找到與提問最相關的文本塊。然后,將這些相關的文本塊與問題文本合并,輸入到ChatGLM?6B模型中,從而生成針對性的專業回答。專業問答過程詳細的解釋和偽代碼示例如下。

輸入:問題文本q,知識庫文件集合F;

輸出:大模型的回答文本result。

步驟1~3:遍歷知識庫文件,對每個文件進行文本劃分文本塊集合=[ ]。

對于每個文件in F:

文本塊=劃分文本(文件)

文本塊集合,添加(文本塊)

步驟4~6:為每個文本塊生成向量索引。

向量索引={ }

對于索引,每個文本塊in enumerate(文本塊集合):

向量=文本轉向量(每個文本塊)

向量索引[索引]=向量

步驟7:將問題文本轉化為向量。

問題向量=文本轉向量(q)

步驟 8:計算問題向量與各文本塊向量的相似度,選出k個最相似的文本塊。

最相似的k個索引=計算相似度并返回最相似的k個索引(問題向量,向量索引)

步驟9:根據最相似的k個索引找到對應的文本塊。

最相似的k個文本塊=[文本塊集合[索引]for索引in最相似的k個索引]

步驟10:將問題文本與最相似的文本塊合并。

輸入大模型獲取回答合并后的文本=合并文本(q,最相似的k個文本塊)

result=大模型生成回答(合并后的文本)

返回result

3" 實" 驗

本次實驗旨在驗證所提模型的有效性,并展示其在專業領域應用中的結果。實驗內容細分為模型效果對比和性能評價兩個主要部分,以提供全面的效果證明。

3.1" 不同模型的回答效果對比展示

圖4所示為不同模型針對同一區塊鏈漏洞問題的回答效果。作為參照,目前采用的是ChatGPT 3.5版本。

3.2" 性能評估

在本研究中,為了全面評估所提模型在區塊鏈技術領域中的應用效果,采取了一種綜合評估方法,結合了主觀和客觀的評估手段,此外還進行了消融實驗。通過在模型中移除特定的模塊或功能,評估這些部分的重要性和對最終性能的影響。

3.2.1" 主觀評估

在本次實驗中,請來了三位網絡安全領域的專家來對三種不同的問答模型進行評估,旨在評定各模型的性能。對于分配給這些模型的100個問題,每個模型對每個問題給出的答案都被提交給專家進行評價,以便比較哪種模型提供的答案更符合專家的偏好。專家評估結果如圖5所示。

圖5結果顯示,所有專家對本文模型(模型1)的滿意度均超過了[13]的閾值,這一結果指出本研究構建的模型更加契合專家的期望。

3.2.2" 客觀評估

為了客觀評價不同模型在處理區塊鏈專業問題上的能力,本研究設計了一項實驗,通過讓模型回答一系列涵蓋區塊鏈領域的專業多項選擇題來考察其表現。實驗包含了100道具有不同難度等級的選擇題,分別交由各模型作答,客觀性能評估準確率如表1所示。從表1中可看出本文模型性能更好。

3.2.3" 消融實驗

本文進行消融實驗,在去除信息過濾模塊(RIF)、去除知識庫(RKB)和去除大模型(RLLM)的情況下,分別觀察了模型性能的變化,實驗結果如表2所示。結果表明,去除大模型增強(RLLM)后的專業問答模型準確率為0.46,下降0.26,這驗證了大模型增強在提高問答準確性方面的重要作用。此外,通過比較各組件被移除后的模型性能,可以深入理解每個組件對整體模型性能的貢獻。

4" 結" 語

在自然語言處理中,大語言模型扮演著重要的角色,由于特定術語的噪聲對問答效果影響較大,使得它們在專業領域的應用效果并不總是理想的。本文通過大語言模型增強專業知識庫的方式構造了一個問答模型。該模型有效地整合了專業知識圖譜與大型語言模型,實現了二者之間的深度融合。對比和消融實驗結果顯示,所提模型在區塊鏈漏洞問答領域中的準確率比單獨使用大語言模型提高了26%。

注:本文通訊作者為姜麗。

參考文獻

[1] XUE X,YU X,WANG F. ChatGPT chats on computational experiments: from interactive intelligence to imaginative intelligence for design of artificial societies and optimization of foundational models [J]. IEEE/CAA journal of automatica sinica,2023, 10(6): 1357?1360.

[2] WU T, HE S, LIU J," et al. A brief overview of ChatGPT: the history, status quo and potential future development [J]. IEEE/CAA journal of automatica sinica, 2023, 10(5): 1122?1136.

[3] WANG Y, KORDI Y, MISHRA S, et al. Self?Instruct: aligning language model with self generated instructions [EB/OL]. [2023?04?12]. https://zhuanlan.zhihu.com/p/689082580.

[4] 薩日娜,李艷玲,林民.知識圖譜推理問答研究綜述[J].計算機科學與探索,2022,16(8):1727?1741.

[5] GUU K, LEE K, TUNG Z, et al. Retrieval augmented language model pre?training [C]// International Conference on Machine Learning, MESSE WIEN Exhibition amp; Congress Center. New York: PMLR, 2020: 3929?3938.

[6] OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback [J]. Advances in neural information processing systems, 2022, 35: 27730?27744.

[7] OPENAI. GPT?4 technical report [EB/OL]. [2023?11?21]. https://blog.csdn.net/qq_36803941/article/details/137828090.

[8] MAYNEZ J, NARAYAN S, BOHNET B, et al. On faithfulness and factuality in abstractive summarization [EB/OL]. [2023?01?28]. https://www.xueshufan.com/publication/3034383590.

[9] TONEVA M, SORDONI A, COMBES R T, et al. An empirical study of example forgetting during deep neural network learning [EB/OL]. [2023?04?15]. https://www.xueshufan.com/publication/2951013084.

[10] ZHANG Y, WANG Y, YANG J. Lattice LSTM for chinese sentence representation [J]. IEEE transactions on audio speech and language processing, 2020(28): 1506?1519.

[11] YIN H, ZHANG W, ZHU L, et al. Review on lattice structures for energy absorption properties [J]. Composite structures, 2023, 304: 116397.

[12] ZHU J J, REN Z J. The evolution of research in resources, conservation amp; recycling revealed by Word2vec?enhanced data mining [J]. Resources, conservation and recycling, 2023, 190: 106876.

[13] MüLLER M, SALATHé M, KUMMERVOLD P E. COVID?Twitter?BERT: a natural language processing model to analyze covid?19 content on twitter [J]. Frontiers in artificial intelligence, 2023, 6: 1023281.

[14] ATHRNIKOS S J, HAN H, BROOKS A D. A framework of a logic?based question?answering system for the medical domain (LOQAS?Med) [C]// Proceedings of the 2009 ACM Symposium on Applied Computing (SAC). Honolulu, Hawaii, USA: ACM, 2009: 1022?1027.

主站蜘蛛池模板: 日韩精品久久久久久久电影蜜臀| 中文字幕亚洲无线码一区女同| 亚洲欧美综合在线观看| www.av男人.com| 无码 在线 在线| 欧美亚洲国产一区| 免费高清毛片| 97精品久久久大香线焦| 欧美人与牲动交a欧美精品| 中文字幕在线看视频一区二区三区| 88av在线播放| 永久成人无码激情视频免费| 亚洲国产av无码综合原创国产| 国产真实乱人视频| 97se亚洲综合在线天天 | 高潮毛片无遮挡高清视频播放| 国产精品网曝门免费视频| 72种姿势欧美久久久大黄蕉| 国产真实自在自线免费精品| 激情综合图区| 四虎国产精品永久在线网址| 国产亚洲欧美在线人成aaaa| 欧美在线三级| 中国黄色一级视频| 国产精品亚欧美一区二区| 日韩在线网址| 91小视频在线| 色综合日本| 99视频在线观看免费| 一本久道久久综合多人| 国产高清免费午夜在线视频| 精品伊人久久久香线蕉| 欧美性色综合网| 国产乱码精品一区二区三区中文 | 亚洲男人天堂2020| 国产精品夜夜嗨视频免费视频| 亚洲色图欧美在线| 亚洲精品亚洲人成在线| 国产精品女主播| 欧美日韩国产精品va| 免费a级毛片18以上观看精品| 成年看免费观看视频拍拍| 91成人免费观看在线观看| 久久亚洲黄色视频| 亚洲日产2021三区在线| 欧美97欧美综合色伦图| 永久免费无码日韩视频| 久久精品只有这里有| 国产成人高清精品免费软件| 幺女国产一级毛片| 五月天婷婷网亚洲综合在线| 香蕉国产精品视频| 国产成人久视频免费| 四虎影视库国产精品一区| 天堂成人av| 国产综合另类小说色区色噜噜| 色噜噜狠狠狠综合曰曰曰| 久久成人免费| 国产高清自拍视频| 亚洲国产午夜精华无码福利| 91青青草视频在线观看的| 高清欧美性猛交XXXX黑人猛交 | 亚洲人成影院午夜网站| 国产高清国内精品福利| 无码综合天天久久综合网| 婷婷五月在线| 欧美高清三区| 亚洲精品无码久久毛片波多野吉| 久久久久无码国产精品不卡| 扒开粉嫩的小缝隙喷白浆视频| 成人在线欧美| 欧美精品v日韩精品v国产精品| 欧美亚洲一区二区三区在线| 日韩午夜福利在线观看| 欧美国产日韩在线观看| 亚洲色图欧美一区| 久久鸭综合久久国产| 久久综合九色综合97网| 精品国产91爱| 久久婷婷人人澡人人爱91| 亚洲男人天堂2018| 91久久夜色精品国产网站 |