基于句粒度提示的大語言模型時序知識問答方法*

2024-01-10 04:00:48李志東羅琪彬喬思龍

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2023年12期

李志東，羅琪彬，喬思龍

(華北計算技術(shù)研究所大數(shù)據(jù)研發(fā)中心，北京 100083)

0 引言

業(yè)務(wù)系統(tǒng)中具有多種不同時間序列的數(shù)據(jù)信息，將這些數(shù)據(jù)通過相關(guān)性和因果關(guān)系相聯(lián)系形成知識圖譜有助于快速深入地掌握時序信息。此外，數(shù)據(jù)信息在時間維度上的語義表達(dá)不同，包括年、月、日等不同粒度，跨時間粒度的語義表達(dá)會對問答結(jié)果產(chǎn)生影響。由此，時序知識圖譜(Temporal Knowledge Graph，TKG)的產(chǎn)生可以對不同的時間序列數(shù)據(jù)生成一個多層的、多粒度的知識圖譜，使得時序之間的關(guān)系得以清晰描述。

基于知識圖譜的問答系統(tǒng)(Question Answering System based on Knowledge Graphs，KGQA)最早被用于提高企業(yè)的核心競爭力，由于企業(yè)經(jīng)營過程中沉淀了許多知識但并不能得到很好的利用，KGQA的出現(xiàn)使得知識的完全利用成為了可能。而TKG是在傳統(tǒng)的知識圖譜上對時間進(jìn)行延伸，在三元組中加入時間維度，格式為“[頭實體關(guān)系尾實體時間]”。這樣不僅僅描述了各實體間的關(guān)系，也包含了關(guān)系成立的時間點或者時間范圍的信息。

時序知識圖譜問答系統(tǒng)(Temporal Knowledge Graph Question Answering，Temporal KGQA)往往是基于時序知識庫構(gòu)建，需要經(jīng)歷復(fù)雜的推理，并且答案是實體或者時間。通常可以把問題分為兩大類：簡單問題和復(fù)雜問題。其中簡單問題都是基于一跳關(guān)系的問答，答案是四元組內(nèi)缺失的時間或者實體，需要問答系統(tǒng)找出或者推測出正確的答案；復(fù)雜問題中往往包含了“Before/After”“First/Last”等約束條件，大多需要復(fù)雜的時間推理，會比較難以解決。

傳統(tǒng)的Temporal KGQA方法往往選擇從特定的知識庫中抽取實體和關(guān)系，將獲取的內(nèi)容填入模板生成答案；或通過特定規(guī)則和方法，與問題進(jìn)行匹配產(chǎn)生答案；或是通過深度學(xué)習(xí)模型進(jìn)行答案推理。但這些方法通常是在詞粒度上進(jìn)行匹配的，忽略了TKG本身所蘊含的句粒度語義信息，可能導(dǎo)致回答不準(zhǔn)確。

針對上述問題，本文提出了一種基于句粒度提示的大語言模型Temporal KGQA方法，該方法分為三個部分。一是使用嵌入模型從TKG中提取出與問題相關(guān)的句粒度知識。具體來說，先把TKG中的四元組進(jìn)行句粒度提示改造，再利用嵌入模型把問題和TKG向量化，最后通過向量的相似度匹配來從TKG中提取與問題高度相關(guān)的句粒度知識。二是通過提示學(xué)習(xí)、句粒度知識和問題來構(gòu)建大語言模型需要的句粒度提示。三是基于大語言模型超強的語義理解能力，讓其對句粒度知識進(jìn)行理解和推理并得到答案。

本文的貢獻(xiàn)總結(jié)如下：

(1)本文提出了一種基于句粒度提示的大語言模型來解決時序知識圖譜問答的方法。

(2)本文通過結(jié)合提示學(xué)習(xí)、句粒度知識和問題，構(gòu)建了多種提示模板，驗證了大語言模型在無監(jiān)督或弱監(jiān)督下的時序知識問答能力。

(3)本文通過LoRA方法微調(diào)大語言模型，提升了大語言模型在時序知識問答任務(wù)上的性能。

(4)實驗表明在ICEWS05-15數(shù)據(jù)集上，本文提出的方法最高可以達(dá)到36%的準(zhǔn)確率，是一種科學(xué)可行的方法。

1 相關(guān)工作

1.1 時序知識圖譜問答

KGQA核心是機(jī)器對用戶提出的自然語言的理解[1]，常規(guī)的KGQA對于處理多粒度時序關(guān)系和復(fù)雜的上下文關(guān)系稍有欠缺，同時，這些系統(tǒng)往往使用靜態(tài)的知識庫來處理自然語言問題，難以滿足現(xiàn)實業(yè)務(wù)的需要。針對上述不足，基于句粒度提示的大語言模型時序知識問答的開發(fā)對其進(jìn)行了完善和處理，提高了系統(tǒng)在多時序約束條件下的問答推理能力。為了解決時序知識圖譜上的問題，《知識圖譜：認(rèn)知智能理論與實戰(zhàn)》[2]介紹了基于知識圖譜的智能問答系統(tǒng)的Z型框架，如圖1所示，傳統(tǒng)的解決方法主要依據(jù)這個框架從規(guī)則模板、語義解析和信息檢索方面展開分析。

圖1 智能問答Z字框架

首先，基于規(guī)則和模板的方法通過定義一些預(yù)定義規(guī)則將問題和答案進(jìn)行匹配，實現(xiàn)對知識圖譜的問答。2017年孫振[3]提出的基于人工智能標(biāo)記語言(Artificial Intelligence Markup Language，AIML)規(guī)則的問答機(jī)器人系統(tǒng)使用AIML建立了問答知識庫，實現(xiàn)了AI機(jī)器人對話系統(tǒng)的智能性和知識性。2021年羅玲等[4]提出了基于知識圖譜、詞頻-逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency)和自注意力機(jī)制的雙向編碼表示(Bidirectional Encoder Representation From Transformers)的冬奧問答系統(tǒng)模型，用戶可以精準(zhǔn)獲取冬奧會相關(guān)問答。此類方法的應(yīng)用關(guān)鍵在于模板庫的構(gòu)建，事先需要很大工作量，因此該方法通常適用在一些簡單、結(jié)構(gòu)化的問答任務(wù)上，在多粒度時序知識問答上可用性較差。

其次，基于語義解析的方法也有許多研究，在簡單Temporal KG中，Lan等[5]2019年提出將匹配-聚合模型以及特定上下文關(guān)系進(jìn)行知識問答的方法用在知識庫中，把問題和答案進(jìn)行匹配，同時在Saxena等[6]2020年提出的多跳問題問答(Multi-hop QA)解決方案中，使用了知識圖譜嵌入(Knowledge Graph Embedding)技術(shù)來解決知識圖譜上的Multi-hop QA問題。在復(fù)雜應(yīng)用中，Luo等[7]使用了復(fù)雜查詢圖(Complex Query Graph)來完成Temporal KGQA過程，并使用了三個知識庫進(jìn)行評估，為解決復(fù)雜Temporal KGQA問題提供了有效的解決辦法。語義解析的方法避免了大量模板庫的構(gòu)建，主要在于自然語言到機(jī)器所能理解的語言的轉(zhuǎn)化，容易受到語義鴻溝的影響，在解決Temporal KGQA問題上缺乏靈活性和通用性[8]。

在信息檢索研究方法方面，Bordes等[9]提出了利用深度學(xué)習(xí)模型從大規(guī)模無標(biāo)簽數(shù)據(jù)中生成嵌入向量，將答案映射到同一空間并根據(jù)相似度進(jìn)行答案匹配，處理了自然語言表述的復(fù)雜性問題。CRONKGQA模型由Saxena等[10]在2021年提出，是一種基于Transformer的解決方案，利用最新的TKG嵌入方法使得問答在簡單的時間推理問題上準(zhǔn)確率很高，但在復(fù)雜問題的回答上可能稍有欠缺，且這種方法僅在詞粒度上比較相關(guān)性，忽略了句粒度蘊含的語義信息。

1.2 大語言模型

自然語言處理(Natural Language Processing，NLP)一直以來都是人工智能領(lǐng)域的一個重要分支，解決NLP任務(wù)的模型統(tǒng)稱為語言模型。語言模型最早來自于統(tǒng)計模型[11]，但隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)研究的發(fā)展，循環(huán)神經(jīng)網(wǎng)絡(luò)、長短時記憶網(wǎng)絡(luò)也開始作為語言模型來應(yīng)用。隨著谷歌公司在2018年發(fā)布的BERT[12]證明了預(yù)訓(xùn)練模型和Transformer[13]架構(gòu)的優(yōu)越性后，語言模型的參數(shù)量開始爆發(fā)式增長，NLP也就進(jìn)入大語言模型時代。大語言模型通常是基于通識知識進(jìn)行預(yù)訓(xùn)練，因此在面對特定場景時，常常需要借助模型微調(diào)或提示學(xué)習(xí)來提升大語言模型對下游任務(wù)的應(yīng)用效果。

1.2.1 低秩適應(yīng)微調(diào)

低秩適應(yīng)[14](Low-Rank Adaptation，LoRA)是大語言模型的高效微調(diào)方法，旨在解決大語言模型微調(diào)速度慢、計算開銷大等問題。如圖2所示，LoRA微調(diào)時會凍結(jié)預(yù)訓(xùn)練模型的權(quán)重，并在每個Transformer塊中注入可訓(xùn)練層，即秩分解矩陣。秩分解矩陣由降維矩陣A和升維矩陣B構(gòu)成，A矩陣由隨機(jī)高斯分布初始化，B矩陣由零矩陣初始化從而保證訓(xùn)練開始時秩分解矩陣是零矩陣。LoRA微調(diào)時模型輸入輸出維度不變，只需要將秩分解矩陣的輸出和預(yù)訓(xùn)練模型的輸出相加作為最終的輸出。這樣，僅通過修改秩分解矩陣的參數(shù)而不需要修改預(yù)訓(xùn)練模型，就能快速提升大語言模型在特定任務(wù)上的性能。LoRA微調(diào)的參數(shù)量較全參數(shù)微調(diào)顯著降低，且性能與全參數(shù)微調(diào)基本持平。

圖2 LoRA微調(diào)

1.2.2 提示學(xué)習(xí)

提示學(xué)習(xí)是通過設(shè)計自然語言提示或指令來指導(dǎo)語言模型執(zhí)行特定任務(wù)的方法[15]。早在2018年Radford等人[16]就已經(jīng)在GPT-1(Generative Pre-trained Transformer 1)中探索提示學(xué)習(xí)的應(yīng)用。提示學(xué)習(xí)的目的是將下游任務(wù)通過提示模板轉(zhuǎn)換為預(yù)訓(xùn)練的任務(wù)，如圖3所示。

圖3 提示學(xué)習(xí)

當(dāng)使用掩碼語言模型(Masked Language Model，MLM)來解決文本情感分類任務(wù)時，對于 “I love this poem.” 這句輸入，可以在輸入后面加上 “The poem is_” 這樣的提示模板，然后讓MLM用表示情感的詞匯進(jìn)行填空，如 “wonderful”“terrible” 等，最后再將該詞匯轉(zhuǎn)化成情感分類的標(biāo)簽。這樣一來，通過選取合適的提示模板，便可控制模型的輸出，從而使一個在通識數(shù)據(jù)集上訓(xùn)練的MLM可以被用來處理各種各樣的下游任務(wù)。

1.2.3 上下文學(xué)習(xí)

作為一種特殊的提示學(xué)習(xí)形式，上下文學(xué)習(xí)在GPT3[17]中首次得到應(yīng)用，其核心思想是從類比中學(xué)習(xí)。基于大語言模型的泛化能力，上下文學(xué)習(xí)僅需要一些示例就能使模型快速適應(yīng)所需要做的下游任務(wù)。如圖4所示，僅通過K個下游問題的實例，就能讓在通識數(shù)據(jù)上預(yù)訓(xùn)練的大語言模型快速適應(yīng)文本情感分類任務(wù)。

圖4 上下文學(xué)習(xí)

根據(jù)提示學(xué)習(xí)中示例的個數(shù)也可以將上下文學(xué)習(xí)大致分類為三類：Zero-shot learning，One-shot learning和Few-shot learning。Zero-shot learning只允許輸入一則任務(wù)說明，不允許輸入任何示例，即最原始的提示形式。One-shot learning和Few-shot learning是在前者的基礎(chǔ)上增加一條示例和多條示例。

2 關(guān)鍵技術(shù)

基于句粒度提示的大語言模型Temporal KGQA的原理如圖5所示，在載入本地知識圖譜文檔后，首先會對文檔進(jìn)行切割，并使用嵌入模型將切割后的文檔塊向量化，所有向量依次存儲到向量數(shù)據(jù)庫中。然后使用相同的嵌入模型將問題向量化，將問題向量與向量數(shù)據(jù)庫中的文檔塊向量進(jìn)行匹配，選取出最高相似度的K個文檔塊向量并根據(jù)索引檢索出對應(yīng)的原文。根據(jù)已知答案的數(shù)據(jù)依照模板構(gòu)建上下文學(xué)習(xí)的示例，最后將示例和匹配出的K段原文與問題一起添加到句粒度提示(prompt)中并輸入到大語言模型。

圖5 基于句粒度提示的大語言模型時序知識問答流程圖

2.1 本地知識文檔的向量化

當(dāng)輸入本地知識文檔后，程序首先會根據(jù)輸入路徑判斷輸入是文檔還是文件夾，若是文檔則直接讀取，否則讀取文件夾下的所有文檔并將其連接到一起。讀取文檔后，程序會對文檔進(jìn)行切片并生成文檔塊。在切片的過程中如果遇到標(biāo)點符號會直接切片，否則就等到切片長度達(dá)到限制時再切，且其長度可以通過參數(shù)來調(diào)節(jié)。

將文檔切片后，使用嵌入模型“text2vec-large-chinese”對每個文檔塊進(jìn)行向量化。如圖6所示，嵌入模型首先會對文檔塊中的每個詞進(jìn)行向量化，然后將每個詞的向量在對應(yīng)維度求均值，最后將均值向量作為文檔塊的向量。

圖6 文檔塊向量化

2.2 句粒度知識召回

將本地知識圖譜文檔向量化后，程序使用相同的嵌入模型將問題向量化，并計算問題向量與所有文檔塊向量的余弦相似度。然后程序會選擇K(個數(shù)可以通過參數(shù)來調(diào)節(jié))個相似度最高的文檔塊作為已知信息添加到prompt中。值得強調(diào)的是，當(dāng)本地知識圖譜文檔包含非結(jié)構(gòu)化數(shù)據(jù)時，程序可能會把包含完整語義的一句話切成多個文檔塊，單個文檔塊可能無法表達(dá)完整的意思，所以在將召回的K個文檔塊添加到prompt中時，可以選擇是否選取其鄰近的文檔塊一起添加到prompt中。如圖7所示，文檔塊2為匹配到的最佳文檔塊，文檔塊1和文檔塊3是其鄰近文檔塊，程序會將最佳匹配文檔塊、鄰近文檔塊和問題一起構(gòu)建到prompt中，之后再輸入到大語言模型中。

圖7 相關(guān)文檔匹配流程

2.3 Prompt構(gòu)建

構(gòu)建prompt時，本文根據(jù)上下文學(xué)習(xí)和對模型輸出個數(shù)的限制來構(gòu)建兩大類prompt。

如表1所示，本文首先會構(gòu)建基礎(chǔ)的prompt，即不提供示例且限制模型只輸出一個答案。在基礎(chǔ)prompt上，再根據(jù)上下文學(xué)習(xí)來構(gòu)建具有一個示例和具有五個示例的prompt，也就是One-shot learning和Few-shot learning。在構(gòu)建示例時，本文會根據(jù)問題中的實體或時間，以字符串匹配的方式從知識圖譜中獲得該問題所對應(yīng)的句粒度知識，之后會從中選取5條作為回答問題的已知信息，其中包含答案所對應(yīng)的句粒度知識和用于干擾的句粒度知識。此外在Few-shot learning中，本文所選示例中有針對人物、時間、地點等多角度的問題，以此讓示例包含盡可能多的信息。最后，本文會對模型的輸出個數(shù)進(jìn)行放開，以此來構(gòu)建鼓勵模型輸出所有可能答案的prompt。

表1 Prompt 模板

在句粒度知識召回后，本文用召回的句粒度知識來替換模板中的“{context}”，再用問題來替換模板中的“{question}”。這樣就生成了最終要輸入到大語言模型中的prompt。

2.4 大語言模型

本實驗中，選用ChatGLM-6B作為Temporal KGQA的基礎(chǔ)語言模型。該模型基于General Laungage Model(GLM)[18]架構(gòu)，具有62億參數(shù)。相比于ChatGPT、MOSS、PaLM等大語言模型，ChartGLM-6B具有輕量運行的顯著優(yōu)勢，這也是本實驗選取它作為基礎(chǔ)語言模型的主要原因。模型的FP16精度版本，僅需要大概13 GB顯存即可運行。

3 實驗

3.1 數(shù)據(jù)集

本實驗采用數(shù)據(jù)集為ICEWS05-15，TKG的時序跨度為2005～2015年，數(shù)據(jù)集共包含461 329條數(shù)據(jù)，每條格式為“[頭實體關(guān)系尾實體時間]”。其中訓(xùn)練集345 362條，驗證集24 683條。本實驗從訓(xùn)練集中選取前10 000條數(shù)據(jù)用于模型微調(diào)，從測試集中選取前3 000條用于模型測試。訓(xùn)練集和測試集都包含問題編號 (quid)、問題文本(question)和答案(answers)三項內(nèi)容。問題與答案中包含多種粒度的時間信息，包括年、月和日，且問題中涉及多種時序邏輯約束，如之前、之后、首個等，問題答案限定于圖譜中的實體和時間。

鑒于大語言模型是以對話語料來進(jìn)行訓(xùn)練的，為了讓模型可以更好地理解TKG所蘊含的信息，本文對TKG進(jìn)行了句粒度提示改造。在“[頭實體關(guān)系尾實體時間]”四元組中的尾實體和時間之間加入了“on”，并把四元組改成了字符串形式，刪去了如“-”“_”等特殊字符。

3.2 評價指標(biāo)

傳統(tǒng)KGQA任務(wù)常用的評價指標(biāo)為MRR(Mean Reciprocal Rank)，計算公式如下：

(1)

但MRR方法僅針對列表形式的答案進(jìn)行評估，大語言模型以字符串的形式返回答案，因此本文采用一種松弛的MRR方法，記為MRR-relax，計算公式如下：

(2)

檢測時序問答模型返回的字符串中是否包含答案池中的任意答案，若包含則ranki得分為1，否則得分為0。

3.3 實驗結(jié)果與分析

本實驗使用 “text2vec-large-chinese”作為嵌入模型，默認(rèn)句子切分的最大長度為30，在句粒度知識召回時只召回最佳文檔塊。LoRA微調(diào)時使用10 000個訓(xùn)練樣本，在預(yù)訓(xùn)練模型上訓(xùn)練3個epoch。本實驗采用交叉熵作為損失函數(shù)，LoRA微調(diào)的損失曲線如圖8所示。

本實驗在預(yù)訓(xùn)練模型和LoRA微調(diào)模型上都進(jìn)行了測試，并以句粒度知識召回數(shù)量為5、上下文學(xué)習(xí)示例個數(shù)為0、模型輸出個數(shù)限制為1為基線方法，在上述三個方面設(shè)計了對比實驗，詳細(xì)實驗結(jié)果如表2和表3所示。

表2 預(yù)訓(xùn)練模型的實驗結(jié)果

通過預(yù)訓(xùn)練模型的實驗結(jié)果可以看到，隨著句粒度知識召回數(shù)量的提升，大語言模型可以得到更多知識圖譜的語義信息，模型的準(zhǔn)確率也逐漸上升。此外基于上下文學(xué)習(xí)方法在prompt中添加示例，可以讓大語言模型更好地適應(yīng)KGQA任務(wù)，因此得到了更好的效果。最后，當(dāng)不再限制大語言模型的輸出個數(shù)時，模型會根據(jù)句粒度的提示信息輸出所有可能的答案，相比于只輸出一個答案，這顯著提升了模型的性能。

通過LoRA微調(diào)模型的實驗結(jié)果可以看到，相比于預(yù)訓(xùn)練的大語言模型，僅使用10 000個數(shù)據(jù)集微調(diào)3個epoch后的模型在性能上也有明顯提升，這也再次證明了基于句粒度提示的大語言模型時序知識問答方法的有效性。

4 結(jié)論

本文提出了一種基于句粒度提示的大語言模型時序知識問答方法，通過嵌入模型從時序知識圖譜中提取與問題高度相關(guān)的句粒度知識，再根據(jù)提取出的句粒度知識、問題和上下文學(xué)習(xí)的內(nèi)容來構(gòu)建prompt，最后依賴大語言模型超強的語義理解能力從句粒度的提示中得到答案。在時序知識圖譜數(shù)據(jù)集ICEWS05-15上進(jìn)行實驗，取得了可觀的效果，驗證了該方法的有效性。在后續(xù)的工作中，將基于知識圖譜問答對來構(gòu)建對話語料并使用多種方式對大語言模型進(jìn)行微調(diào)，繼續(xù)進(jìn)行句粒度提示的大語言模型問答研究，為時序知識問答提供科學(xué)可行的解決方案。