




















摘 要:現(xiàn)有的知識庫問答(KBQA)研究通常依賴于完善的知識庫,忽視了實際應(yīng)用中知識圖譜稀疏性這一關(guān)鍵問題。為了彌補該不足,引入了知識表示學(xué)習(xí)方法,將知識庫轉(zhuǎn)換為低維向量,有效擺脫了傳統(tǒng)模型中對子圖搜索空間的依賴,并實現(xiàn)了對隱式關(guān)系的推理,這是以往研究所未涉及到的。其次,針對傳統(tǒng)KBQA在信息檢索中常見的問句語義理解錯誤對下游問答推理的錯誤傳播,引入了一種基于知識表示學(xué)習(xí)的答案推理重排序機(jī)制。該機(jī)制使用偽孿生網(wǎng)絡(luò)分別對知識三元組和問句進(jìn)行表征,并融合上游任務(wù)核心實體關(guān)注度評估階段的特征,以實現(xiàn)對答案推理結(jié)果三元組的有效重排序。最后,為了驗證所提算法的有效性,在中國移動RPA知識圖譜問答系統(tǒng)與英文開源數(shù)據(jù)集下分別進(jìn)行了對比實驗。實驗結(jié)果顯示,相比現(xiàn)有的同類模型,該算法在hits@n、準(zhǔn)確率、F1值等多個關(guān)鍵評估指標(biāo)上均表現(xiàn)更佳,證明了基于知識表示學(xué)習(xí)的KBQA答案推理重排序算法在處理稀疏知識圖譜的隱式關(guān)系推理和KBQA答案推理方面的優(yōu)越性。
關(guān)鍵詞:知識庫問答; 知識圖譜; 知識表示學(xué)習(xí); 答案推理
中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)07-009-1983-09
doi:10.19734/j.issn.1001-3695.2023.11.0545
KBQA answer inference re-ranking algorithm based onknowledge representation learning
Abstract:Existing research on knowledge base question answering(KBQA) typically relies on comprehensive knowledge bases, but often overlooks the critical issue of knowledge graph sparsity in practical applications. To address this shortfall, this paper introduced a knowledge representation learning method that transforms knowledge bases into low-dimensional vectors. This transformation effectively eliminated the dependence on subgraph search spaces inherent in traditional models and achieved inference of implicit relationships, which previous research had not explored. Furthermore, to counter the propagation of errors in downstream question-answering inference caused by semantic understanding errors of questions in traditional KBQA information retrieval, this paper introduced an answer inference re-ranking mechanism based on knowledge representation learning. This mechanism utilized pseudo-twin networks to represent knowledge triplets and questions separately, and integrated features from the core entity attention evaluation stage of upstream tasks to effectively re-rank the answer inference result triplets. Finally, to validate the effectiveness of the proposed algorithm, this paper conducted comparative experiments on the China Mobile RPA knowledge graph question-answering system and an English open-source dataset. Experimental results demonstrate that, compared to existing models in the same field, the proposed method performs better in multiple key evaluation indicators such as hits@n, accuracy, and F1-scores, proving the superiority of the proposed KBQA answer inference re-ranking algorithm based on knowledge representation learning in handling implicit relationship inference in sparse knowledge graphs and KBQA answer inference.
Key words:knowledge graph question answering; knowledge graph; knowledge representation learning; answer reasoning
0 引言
知識庫問答(KBQA)基于實體和實體間關(guān)系構(gòu)建,可以更好地理解用戶的語義意圖。相比于輸入查詢返回文檔或頁面形式的基于搜索引擎的傳統(tǒng)問答系統(tǒng),KBQA可提供更精確的個性化回復(fù)。另外基于知識庫存儲的關(guān)系和規(guī)則,KBQA可以進(jìn)行某種程度的邏輯推理,從而為用戶提供更深層次的信息和答案。
現(xiàn)有KBQA的理論研究往往基于完善的知識庫,在標(biāo)注了核心實體的復(fù)雜問句上進(jìn)行問答,忽略了實際應(yīng)用場景中知識圖譜的稀疏性,以及實際場景中用戶提問形式的復(fù)雜多樣性。于是,本文針對企業(yè)合作項目中國移動RPA業(yè)務(wù)場景下的KBQA問題進(jìn)行研究,引入知識表示學(xué)習(xí),在復(fù)數(shù)空間中對知識圖譜中的實體和關(guān)系進(jìn)行嵌入,依據(jù)ComplEx算法的評分函數(shù)評估三元組存在的合理性,從而實現(xiàn)對隱性關(guān)系的推理。另外KBQA的傳統(tǒng)pipeline,實體識別、實體鏈接、答案推理通常會被視為一個完整的pipeline,實體識別、實體鏈接的結(jié)果僅保留得分最高項,一旦獲取到了錯誤的實體項,則必然導(dǎo)致下游問答推理任務(wù)的錯誤。基于此,本文引入答案推理重排序機(jī)制,將上游任務(wù)核心實體關(guān)注度與實體鏈接得分結(jié)果作為重要特征融入到答案重排序模型中,基于偽孿生網(wǎng)絡(luò)對知識三元組和問句分別進(jìn)行表征,對答案實體集進(jìn)行重排序,剔除實體所在的錯誤三元組,糾正上游問句語義理解階段任務(wù)中可能存在的錯誤。
回溯KBQA解決方案,已經(jīng)提出了基于語義解析(SP)的方法和基于信息檢索(IR)的方法兩種主流方法。基于SP的方法首先利用自然語言理解模型識別出問題中的核心實體,并利用實體鏈技術(shù)映射到知識庫中真正實體(topic entity),然后將查詢轉(zhuǎn)換為一個或多個邏輯形式或中間表示,在知識庫上執(zhí)行轉(zhuǎn)換得到的查詢,檢索相關(guān)信息[1]。基于IR的方法首先識別問句中的主題實體,再在知識圖譜庫中構(gòu)建與一個特定于問題和主題實體的子圖,該子圖包含了與主題實體或問題相關(guān)的全部信息,最后通過子圖與問題的相關(guān)性進(jìn)行排序,獲取得分最優(yōu)的子圖,從而檢索到答案[2,3]。
基于SP的方法,將自然語言查詢或問題轉(zhuǎn)換為某種形式的邏輯表示,可進(jìn)一步用于數(shù)據(jù)庫查詢、知識圖譜檢索等。然而,面對復(fù)雜的KBQA問題,這些方法在復(fù)雜語義的理解、知識庫的實例化搜索以及弱監(jiān)督信號下的訓(xùn)練等方面遇到了很大挑戰(zhàn)。
為了應(yīng)對這些挑戰(zhàn),許多現(xiàn)有基于SP的方法依賴于句法分析技術(shù),例如通過抽象意義表示(abstract meaning representation,AMR),以圖形結(jié)構(gòu)捕捉句子核心意義的表示方式,旨在簡潔且清晰地呈現(xiàn)自然語言句子的語義內(nèi)容,從而避免涉及到與該內(nèi)容不直接相關(guān)的句法細(xì)節(jié)[4,5]。另外利用依存關(guān)系,表示單詞之間的句法和語義關(guān)系,以在問題成分和邏輯元素(例:實體、屬性、關(guān)系和實體類型)之間提供更高精度的對齊[6,7]。然而對于復(fù)雜問題,生成式句法分析的準(zhǔn)確率表現(xiàn)一般。為了減弱從句法分析階段到下游語義分析階段的錯誤傳播,Sun等人[8]提出了一種基于骨架的句法分析方法,首先通過識別句子的核心結(jié)構(gòu),對復(fù)雜問題的主干進(jìn)行解析,然后再補充其他詳細(xì)的句法信息。另外在實際應(yīng)用中發(fā)現(xiàn),大量精確標(biāo)注的行業(yè)數(shù)據(jù)往往是有限的、不完美的,常包含噪聲和錯誤。進(jìn)而研究者提出了弱監(jiān)督訓(xùn)練,弱監(jiān)督訓(xùn)練提供了一種更靈活、成本效益更高的方式來訓(xùn)練模型,尤其適用于數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)不完美的實際應(yīng)用問題。弱監(jiān)督通常依賴于噪聲較大或不完整的標(biāo)注,與全監(jiān)督學(xué)習(xí)相比,弱監(jiān)督提供的反饋信號更加稀疏,這可能會導(dǎo)致學(xué)習(xí)算法很難找到穩(wěn)健的模型參數(shù)。KBQA也常常遇到訓(xùn)練數(shù)據(jù)有限或未標(biāo)注的問題,語義解析的輸出空間通常很大,導(dǎo)致在弱監(jiān)督的情況下找到正確的解析結(jié)果特別困難。為了應(yīng)對這些挑戰(zhàn),研究者嘗試了多種方法,如數(shù)據(jù)增強、多任務(wù)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)等。文獻(xiàn)[4,9]通過采用基于強化學(xué)習(xí)的方法來獲得最大的預(yù)期回報。針對弱監(jiān)督訓(xùn)練可能無法為模型提供明確的反饋以及稀疏正反饋問題,Saha等人[10]提出,當(dāng)基本事實類型與預(yù)測的答案類型相同時,將會附加反饋獎勵模型,通過智能體與環(huán)境的交互學(xué)習(xí),以使累積獎勵最大化。Li等人[11]采用類似的思路,通過將語義解析生成的邏輯形式與前階段緩存的高反饋邏輯形式進(jìn)行對比,從而實現(xiàn)對生成的邏輯形式的評估。在語義解析的上下文中,除了對整個過程的反饋最終評價之外,弱監(jiān)督信號下,中間反饋可以為模型提供更詳細(xì)的指導(dǎo)。Qiu等人[9]提出了一種基于層次化強化學(xué)習(xí)的框架,利用中間反饋機(jī)制為模型訓(xùn)練提供了更細(xì)粒度的階段性指導(dǎo),從而起到了增強監(jiān)督信號的目的,也有助于模型更快地收斂。
基于IR的方法,在處理查詢或問題時,不需要大量標(biāo)注數(shù)據(jù),可擴(kuò)展性高,其流程主要包括問題轉(zhuǎn)換、子圖生成、子圖評估、答案提取等核心環(huán)節(jié)。問題先被轉(zhuǎn)換為一個或多個實體和與其相關(guān)的關(guān)系。接著在知識庫中探索與其直接或間接相關(guān)的實體和關(guān)系,生成一個或多個候選子圖,最后采用圖匹配、語義相似性進(jìn)行子圖評估。選擇得分最高的子圖,從中提取出實體、關(guān)系或一個更復(fù)雜的子圖答案。對于復(fù)雜的KBQA問題,基于IR的方法主要面臨不完整的知識庫推理、弱監(jiān)督信號下的訓(xùn)練策略等方面的挑戰(zhàn)。
簡單的KBQA問題,往往只需要在中心實體的單跳子圖上進(jìn)行推理,采用基于IR的方法對知識庫的完全性要求不是很嚴(yán)格[12]。而對于復(fù)雜問題,答案可能涉及多個實體及實體間關(guān)系,知識庫的不完整,可能造成整個推理鏈的斷裂,另外這種不完整性減少了核心實體的鄰域信息,給推理過程造成困難。所以針對復(fù)雜問題,為了確保子圖搜索能夠提供準(zhǔn)確和有洞察力答案,對知識庫的完整度具有較高的要求。
實際應(yīng)用中,知識庫往往是不完整的。或者現(xiàn)有知識庫的收集和構(gòu)建過程可能存在遺漏。因此,對不完整知識庫的推理是目前的一個重要研究領(lǐng)域。研究人員利用輔助文本,為知識庫提供有價值的背景信息和上下文,填補知識的空白和推理過程。Sun等人[13]提出使用問題相關(guān)的文本語料,通過提取新的實體、關(guān)系和屬性,對不完備知識庫進(jìn)行補充,并將其與知識圖譜結(jié)合為一個異構(gòu)圖,并基于該圖進(jìn)行推理。文獻(xiàn)[14,15]在實體表示中融合額外的非結(jié)構(gòu)化文本,來取代直接將非結(jié)構(gòu)化文本作為知識節(jié)點補充到圖中的做法。除了引入額外的文本語料外,還可以采用知識圖譜嵌入的方法,通過鏈接預(yù)測(linking prediction)對缺失和隱含的關(guān)系進(jìn)行表示。Saxena等人[16]通過先獲取預(yù)先訓(xùn)練的相似領(lǐng)域知識圖譜嵌入,再融合嵌入到目標(biāo)知識圖譜中,來彌補當(dāng)前特定業(yè)務(wù)知識圖譜的不完整性。
基于IR的方法,在弱監(jiān)督信號下的訓(xùn)練策略方面,與基于IR的方法類似,也是一個端到端模型,整個問答過程中,模型直到推理結(jié)束才能收到反饋。研究者們發(fā)現(xiàn),這種情況可能導(dǎo)致虛假推理[17]。為了緩解上述問題,Qiu等人[9]采用獎勵形成策略提供中間獎勵,通過計算推理路徑和問題表征之間的語義相似性,有效地引導(dǎo)模型在復(fù)雜推理任務(wù)中作出正確的決策。另外,除了在中間步驟對推理過程進(jìn)行評估外,還能通過推斷偽中間狀態(tài),來增強模型訓(xùn)練中的信號。受雙向搜索算法的啟發(fā),He等人[18]提出了基于圖的雙向搜索算法,同時從源點和目標(biāo)點進(jìn)行搜索,通過同步雙向推理過程來學(xué)習(xí)中間推理實體分布,提供了一種有效的方式來優(yōu)化和加速復(fù)雜圖結(jié)構(gòu)上的推理任務(wù)。實體鏈接過程中,使用離線工具進(jìn)行定位,可能導(dǎo)致上游任務(wù)的錯誤傳播到下游的推理任務(wù)中。在未標(biāo)注主題實體的問句中,為了對核心實體準(zhǔn)確定位,Zhang等人[19]提出了利用基于知識庫的核心實體識別和推理階段的聯(lián)合學(xué)習(xí)算法來訓(xùn)練實體鏈接,以優(yōu)化整個問答方法流程。
通過技術(shù)的不斷改進(jìn),基于SP和基于IR的技術(shù),已經(jīng)在一定程度上滿足了用戶個性化問答需求。但是基于SP的方法在關(guān)系分類的標(biāo)注上需要投入大量的人力資源,對訓(xùn)練集中未出現(xiàn)過的關(guān)系預(yù)測能力有限。另外基于SP的方法,在問答知識庫關(guān)系不完善時會對問答系統(tǒng)準(zhǔn)確率和hits@1指標(biāo)造成較大影響。基于IR的方法相比于基于SP的方法,在生成路徑方面具有更強的泛化能力,能夠更有效地處理多跳查詢問題。在現(xiàn)實業(yè)務(wù)場景中,知識圖譜通常處于不斷完善的過程中,經(jīng)常表現(xiàn)為每個實體節(jié)點平均僅與三條邊相連。在本次企業(yè)合作項目中國移動RPA知識圖譜中,關(guān)系與實體節(jié)點的比例接近1∶1,而較為豐富的知識圖譜其實體節(jié)點與關(guān)系的比例往往在3∶1以上,這顯著低于其他較為豐富的知識圖譜。這種稀疏性會導(dǎo)致問題理解和答案生成的精確度降低,知識庫中的信息不足以支撐復(fù)雜的查詢和推理。然而,現(xiàn)有研究通常基于完善的知識庫,這導(dǎo)致對語義關(guān)系信息利用不足,同時忽視了知識圖譜稀疏性和實體節(jié)點間可能存在的隱含關(guān)系。對三元組信息檢索和問答推理構(gòu)成了挑戰(zhàn)。
針對以上問題,本文的研究建立在中國移動知識圖譜項目上,該項目針對機(jī)器流程自動化(robotic process automation,RPA)領(lǐng)域構(gòu)建知識圖譜,并依據(jù)該圖譜進(jìn)行知識檢索與知識推理。本文主要目標(biāo)是提出一套知識庫問答方法,完成基于RPA領(lǐng)域知識圖譜的知識推理問答。首先,在知識表示學(xué)習(xí)與答案初篩階段,引入了知識表示學(xué)習(xí)方法,學(xué)習(xí)知識圖譜在嵌入空間中的表示(SubGraph embedding),建立兩個知識節(jié)點之間的聯(lián)系,使得KBQA流程能完成隱式關(guān)系的推理,彌補實際業(yè)務(wù)中知識圖譜不完善問題。此外,還訓(xùn)練了一個排序函數(shù),用于實現(xiàn)答案三元組范圍的初步篩選。特別地,為了解決KBQA傳統(tǒng)流程中問句語義理解階段的潛在錯誤傳播問題,基于偽孿生網(wǎng)絡(luò)設(shè)計了一個答案推理重排序模型。該模型不僅保留了上游任務(wù)的輸出結(jié)果,并將其作為重要特征輸入到答案推理重排序模型中,進(jìn)一步利用核心實體關(guān)注度與實體鏈接得分標(biāo)注后續(xù)的推理過程。最后,分別在中國移動RPA知識圖譜問答系統(tǒng)與英文開源數(shù)據(jù)集下進(jìn)行了對比實驗,通過與其他模型的橫向比較和消融實驗,證明了本文算法的有效性。本文的創(chuàng)新之處在于有效解決了知識圖譜稀疏性問題,并提高了KBQA系統(tǒng)在處理復(fù)雜查詢時的準(zhǔn)確性和效率。這為實際業(yè)務(wù)場景下知識圖譜問答系統(tǒng)的構(gòu)建提供了新的視角和解決方案。
1 問題定義
本章將對文中提及的幾個核心概念進(jìn)行形式化定義。這些定義結(jié)合了現(xiàn)有研究中的理論基礎(chǔ)和本文提出的基于知識表示學(xué)習(xí)的KBQA答案推理重排序算法在該領(lǐng)域的創(chuàng)新點。
定義1 核心實體。一個問句中可能存在多個實體,核心實體是指問題真正意圖,也就是用戶詢問的真實焦點。該定義融合了現(xiàn)有文獻(xiàn)中的概念和本研究對問句意圖理解的深化。
定義2 核心實體關(guān)注度。對多實體問句,通過核心實體關(guān)注度模型計算每個實體的關(guān)注度得分,評估自然語言問題中各實體的重要性,旨在解決多實體和多意圖問句理解問題。該定義基于現(xiàn)有理論,并結(jié)合了本文在處理復(fù)雜問句方面的創(chuàng)新方法。
定義3 知識表示學(xué)習(xí)與答案初篩。通過學(xué)習(xí)知識圖譜在低維的嵌入空間表示(SubGraph embedding),捕獲實體和關(guān)系之間的語義信息供下游推理任務(wù)使用。并利用知識表示學(xué)習(xí)的結(jié)果,基于信息檢索方式,使用答案初篩模型完成對答案實體節(jié)點所在的top-k三元組集合的初步篩選和保存。該定義是基于現(xiàn)有知識表示學(xué)習(xí)方法的擴(kuò)展,以及對本文答案檢索過程中創(chuàng)新模型的定義。
定義4 答案推理重排序。旨在弱監(jiān)督情況下,通過考慮問題中核心實體周圍的語義分布和核心實體到答案實體的關(guān)系路徑來提高推理的精度。對候選答案集合中的三元組鏈路進(jìn)行關(guān)系表征,并融合核心實體關(guān)注度評估階段的特征,進(jìn)行答案推理結(jié)果三元組的重排序。該定義基于現(xiàn)有弱監(jiān)督學(xué)習(xí)、知識表示學(xué)習(xí)、答案排序等機(jī)器學(xué)習(xí)知識,對本研究在提高推理精度方面的創(chuàng)新方法定義。
2 模型設(shè)計與實現(xiàn)
KBQA解決方案中,基于IR的推理方法通常在完善的知識圖譜(如FreeBase和Wikipedia)中表現(xiàn)出色。然而,在實際業(yè)務(wù)應(yīng)用中,知識圖譜常處于不斷完善的狀態(tài),實體之間的關(guān)系通常稀疏且不完整。圖譜中的關(guān)系的豐富程度不如Freebase等知識庫。知識圖譜的隱式關(guān)系指的是那些在知識圖譜中沒有直接表示或顯式列出的關(guān)系,但可以通過推理、分析或推斷從已有的知識和關(guān)系中間接地推斷出來的關(guān)聯(lián)。隱式關(guān)系的發(fā)現(xiàn)和推理對于知識圖譜的應(yīng)用非常重要,可以通過隱式推理來填補知識圖譜中的空白和缺失。
知識圖譜隱式推理時,需要考慮知識的可信度、不確定性和可能的錯誤。受之前EmbedKGQA的啟發(fā),通過知識表示學(xué)習(xí)方法,實現(xiàn)復(fù)數(shù)空間中對圖譜實體和關(guān)系的嵌入表示,進(jìn)而發(fā)現(xiàn)圖譜中隱含的關(guān)聯(lián)和模式,可以有效地解決稀疏知識圖譜推理問題[16]。據(jù)此,本文引入知識表示學(xué)習(xí)來實現(xiàn)隱式關(guān)系推理。使用complex embedding將知識圖譜中的實體和關(guān)系映射到低維向量空間,然后利用ComplEx的復(fù)數(shù)域得分函數(shù)評估構(gòu)成三元組的合理性;同時基于答案初篩模型訓(xùn)練了一個排序函數(shù),基于該函數(shù)給出的得分進(jìn)行答案三元組范圍的大致篩選。
2.1 核心實體關(guān)注度計算
核心實體關(guān)注度計算,主要包括命名實體識別和實體關(guān)注度計算兩個階段。命名實體識別采用了基于規(guī)則和基于BERT預(yù)訓(xùn)練模型的組合方法。前者根據(jù)領(lǐng)域和特定任務(wù)定義實體類型、上下文關(guān)鍵詞、實體位置等語義規(guī)則,再使用模式匹配技術(shù)來識別和提取符合規(guī)則的實體,得到的候選實體Mention存儲至集合Ce1中。該方法可解釋性強,在特定任務(wù)和領(lǐng)域內(nèi)提取實體具有較高的準(zhǔn)確性。
基于BERT預(yù)訓(xùn)練語言模型提取Mention實體,首先,將每個字(詞)通過BERT預(yù)訓(xùn)練模型向量化表示,將問句文本轉(zhuǎn)換為token序列,再經(jīng)過模型嵌入層,token序列被轉(zhuǎn)換為多維向量。最后通過全連接層對每個token進(jìn)行二分類表示,判斷每個token是否可能是一個實體mention。若是,token被標(biāo)注為1;若不是,則標(biāo)注為0。該實體抽取方法能夠提供深入的語義理解和捕獲豐富的上下文信息,有助于更準(zhǔn)確地識別語境中的實體。得到的候選實體mention存儲至集合Ce2中。對候選實體集合Ce1,Ce2取并集,即得到最終的實體mention集合Ce。
獲取到實體mention之后,將進(jìn)行實體關(guān)注度計算。首先對問句文本Q進(jìn)行tokenize,使用RoBERTa模型完成詞嵌入,獲取問句token的embedding,記作Q′。接著對句子中的每個實體,使用注意力打分函數(shù)來計算其與整個句子的相關(guān)性,打分函數(shù)采用神經(jīng)網(wǎng)絡(luò)加性實現(xiàn)。注意力分?jǐn)?shù)ei計算公式為
ei=vTtanh(WqQ′+WkCei+b)(1)
其中:Wq、Wk、v和b為可學(xué)習(xí)參數(shù);Q′表示問題向量;Cei表示實體mention向量。
使用softmax函數(shù)對注意力分?jǐn)?shù)進(jìn)行歸一化,使得所有實體的注意力分?jǐn)?shù)之和為1。得到歸一化的注意力權(quán)重值αi,再通過maxpooling和avgpooling的拼接池化層,以盡可能保留注意力信息,獲取每個mention的注意力分布。最終映射至句子長度同維度的向量,根據(jù)每個實體的注意力分?jǐn)?shù),對所有實體的特征向量加權(quán)組合,進(jìn)而得到最終的加權(quán)特征表示,在加權(quán)組合的特征表示中,權(quán)重最大的實體被視為句子的核心實體。
考慮到缺乏專業(yè)知識的用戶在輸入問句時,可能會出現(xiàn)簡寫、誤寫、漏寫,導(dǎo)致模型得到的實體是不規(guī)范的或者一個實體mention對應(yīng)多個實體項。為了解決這個問題,在識別到問句的核心實體后,會基于同義實體庫進(jìn)行實體鏈接。通過計算問句中實體與同義實體庫的相似性得到實體鏈接得分,作為特征值傳輸?shù)较掠稳蝿?wù)中。實體鏈接語義相似度得分計算公式為
score(Cei)=similarity(Q′,vec(E))(2)
其中:相似度計算采用BERT+FC模型;Cei表示得到的每個實體mention;vec(E)表示知識庫中的實體向量。為減弱下游任務(wù)對上游實體識別、實體鏈接任務(wù)輸出的依賴,取模型score得分最高的五個實體mention作為候選實體,當(dāng)實體鏈接模型出錯時,依然可以通過答案推理重排序模型予以糾正,返回正確的推理結(jié)果。
2.2 知識表示學(xué)習(xí)與答案初篩
答案初篩模型基于知識表示學(xué)習(xí)的結(jié)果對相關(guān)的子圖依據(jù)問題的表征進(jìn)行答案三元組的初步篩選。基于文獻(xiàn)[20]直接篩選top1候選三元組作為答案返回的做法,考慮到上游問句理解任務(wù)的錯誤可能會對答案實體造成影響,本文引入了答案推理重排序機(jī)制,不完全信任于pipeline上游問句語義理解任務(wù)的輸出,而是將上游任務(wù)的輸出作為特征融入到下游問答推理階段的模型中,基于偽孿生網(wǎng)絡(luò)對知識三元組和問句分別進(jìn)行表征,實現(xiàn)答案推理結(jié)果三元組的重排序,對實體所在的錯誤三元組進(jìn)行篩選和剔除。從而使得正確的三元組作為答案項返回。該部分框架如圖1所示。
2.2.1 知識表示學(xué)習(xí)
知識表示學(xué)習(xí)的目的是將知識圖譜中的實體和關(guān)系嵌入到連續(xù)的低維空間中。常用的模型有complex embeddings(ComplEx)[21]、TransE、全息嵌入(HolE)和RESCAL等。TransE模型簡單,計算高效,但是對一對多、多對一、多對多的關(guān)系建模存在困難[22]。HolE模型,參數(shù)量上更加高效,但是往往不如其他復(fù)雜模型的表現(xiàn)力[23]。RESCAL在捕獲復(fù)雜關(guān)系上更具表現(xiàn)力,但是需要的參數(shù)量大,易容易導(dǎo)致過擬合和計算上的開銷[24]。ComplEx是一個復(fù)數(shù)嵌入模型,可以很好地處理對稱、反對稱、傳遞等多種關(guān)系,模型在語義匹配方面通常能獲得更好的結(jié)果。另外與其他模型相比,它有更少的參數(shù),更方便工程實踐。因此本文采用ComplEx算法,將實體和關(guān)系表示為復(fù)數(shù)向量,在連續(xù)的低維向量空間進(jìn)行嵌入。對每個候選三元組,記作(h,r,t),h,t∈E,r∈R(E為知識圖譜中的實體節(jié)點集,R為邊的集合),并定義一個得分函數(shù)(score funcJssN+hUNlrh4ICs5UkcyGSTFv4qh/m0JYvtHS1SGDq8=tion),如式(3)所示。
其中:νh,νr,νt∈Cd,分別表示頭實體、關(guān)系和尾實體的復(fù)數(shù)向量嵌入;d表示嵌入的維度;Re表示取復(fù)數(shù)的實部。若是一個真實的三元組,則socre(h,r,t)其得分應(yīng)該相對高;否則得分相對低。
2.2.2 答案初篩
在答案初篩模型中,首先根據(jù)問句理解核心實體關(guān)注度模型得到的實體,通過知識表示學(xué)習(xí)模型,獲得實體子圖,從而輸出實體節(jié)點以及所有可能答案實體節(jié)點在連續(xù)的低維向量空間的嵌入集合,分別記作核心實體向量h和候選答案實體向量t。核心實體向量h代表問句中核心實體的嵌入向量,用于捕獲問題的主要焦點。候選答案實體向量t(其中t∈T),代表知識庫中可能的答案實體的嵌入向量。另外通過組合網(wǎng)絡(luò)對question進(jìn)行問題表示,以獲取關(guān)系表示向量r。
問題表示網(wǎng)絡(luò)由一個RoBERTa語義表示層、一個BiLSTM層和一個注意力計算層構(gòu)成,共同實現(xiàn)對問題的深度理解和有效的關(guān)系表征。RoBERTa作為預(yù)訓(xùn)練模型,融合了先驗的自然語言特征,借助Transformer強大特征抽取能力,通過上下文語境實現(xiàn)相應(yīng)字符的動態(tài)嵌入向量表示。為BiLSTM層提供一個可靠高質(zhì)量,具有豐富語義信息的輸入向量。BiLSTM作為一種特殊的RNN,憑借其特殊的門控機(jī)制以及細(xì)胞結(jié)構(gòu),能夠有效捕獲長距離依賴關(guān)系,這對理解長問句中的復(fù)雜語義非常重要。尤其在處理包含多個實體的問句時,BiLSTM的雙向結(jié)構(gòu)能夠同時考慮前后文信息,從而在理解問句的整體含義方面表現(xiàn)更佳。在BiLSTM層之后,引入了一個注意力機(jī)制層來捕獲更有價值的特征。通過注意力機(jī)制能夠賦予不同語言單元不同的權(quán)重,聚焦于問句中最關(guān)鍵的部分,能夠更有效地捕獲與問句關(guān)系表征相關(guān)的特征,進(jìn)而提升復(fù)雜自然語言問句中關(guān)系抽取的精確度和效率。通過結(jié)合RoBERTa、BiLSTM和注意力機(jī)制,問題表示網(wǎng)絡(luò)不僅能夠提供豐富的語義理解,還能夠精確地抽取與問題相關(guān)的關(guān)鍵信息。模型的組合有效提升了自然語言處理任務(wù)中的性能,尤其是在理解復(fù)雜問句和抽取關(guān)系方面。該網(wǎng)絡(luò)獲取到關(guān)系向量r的過程如式(4)所示。
r=SelfAttention(BiLSTM(RoBERTa(Q)))(4)
將得到的問句關(guān)系表示向量r,綜合上游問題理解任務(wù)得到的核心實體向量h以及候選答案實體向量t,通過式(3)的score評分函數(shù),來評估三元組的合適程度。得分越高意味著核心實體、問題中隱含的關(guān)系和候選答案節(jié)點更可能組成一個三元組。即向量t對應(yīng)的實體是正確答案的概率就較大。相對地,得分較低則意味著候選答案節(jié)點與實體和問題關(guān)系的關(guān)聯(lián)較弱,不太可能形成三元組。通過學(xué)習(xí)一個得分函數(shù)rank(t)來計算候選答案的得分,損失函數(shù)采用二元交叉熵(binary crossentropy),最大化正確答案實體得分,最小化錯誤答案實體以及無關(guān)實體得分,如式(5)所示。
上游問句理解階段,可能會出現(xiàn)實體識別的錯誤。因此在這一環(huán)節(jié)中并不直接返回得分最高的答案實體節(jié)點,而是選擇得分位于top-k的答案實體節(jié)點,將這k個得分最高的實體節(jié)點作為潛在的答案節(jié)點,實現(xiàn)三元組的粗過濾。接下來,在答案推理重排序模型中進(jìn)行再次篩選。
2.3 答案推理重排序
KBQA的傳統(tǒng)pipeline中,實體識別、實體鏈接、答案推理通常會被視為一個完整的pipeline。一般研究中,實體識別、實體鏈接階段的結(jié)果僅保留得分最高項,但如果該階段得到了錯誤的實體項,則必然導(dǎo)致下游問答推理任務(wù)的錯誤。根據(jù)中國移動業(yè)務(wù)場景下的實際用戶查詢,發(fā)現(xiàn)用戶的問題往往是復(fù)雜多樣的,經(jīng)常會出現(xiàn)一個問題中有多個實體項。若參照文獻(xiàn)[20]直接篩選top1候選三元組作為答案返回,該三元組的頭實體可能并非用戶所提問的核心意圖。另外雖然中文pipeline中實體識別和實體鏈接都采用了深度學(xué)習(xí)模型,模型準(zhǔn)確率較高,但仍可能得到錯誤的實體項,將會導(dǎo)致下游推理任務(wù)的錯誤[25,26]。故而引入答案推理重排序階段,以融合上游任務(wù)中的輸出信息,進(jìn)一步對答案初篩模型輸出的答案實體集合進(jìn)行篩選。
基于此,本文將上游任務(wù)的輸出結(jié)果進(jìn)行保留,并作為特征輸入到答案推理重排序模型中,使用核心實體關(guān)注度與實體鏈接得分對后續(xù)的推理過程進(jìn)行標(biāo)注,對答案初篩模型得到的候選答案實體集合進(jìn)行精排。即便上游任務(wù)中得到了錯誤的實體項,通過答案推理重排序模型,依然可以對這些實體所在的錯誤三元組實現(xiàn)篩選和剔除。答案推理重排序模型使用偽孿生網(wǎng)絡(luò),通過兩個網(wǎng)絡(luò)分別對知識圖譜結(jié)果和問句進(jìn)行處理,解決問答領(lǐng)域相似度計算問題。答案推理重排序模型的框架如圖2所示。
對問句的表征向量表示,首先通過對RoBERTa微調(diào),實現(xiàn)問句編碼的語義嵌入,BERT系列模型中,Token[CLS]蘊涵了整句話的語義信息,因此取Token[CLS],代表整個句子信息,用于下游任務(wù)的輸入。接著引用BiLSTM,對向量Token[CLS]進(jìn)行特征增強。最后通過全連接層,將處理過的[CLS]向量壓縮到與KG處理部分輸出的向量具有相同的維度。問句經(jīng)過該模型得到問句向量的過程vq,如式(6)所示。
vq=FC(BiLSTM(RoBERTa(Q)))(6)
對知識圖譜的表征向量表示,首先使用知識表示學(xué)習(xí)模型中得到的實體和關(guān)系嵌入,對知識圖譜中三元組關(guān)系進(jìn)行embedding,接著送入BiLSTM表征層得到一個關(guān)系內(nèi)容向量,記作vrc,該過程如式(7)所示。Tri表示經(jīng)過答案初篩模型中獲取到的top-k三元組中的第i個三元組。
vrc=BiLSTM(KGEmbedding(Tri))(7)
接著,將該關(guān)系內(nèi)容向量vrc與核心實體關(guān)注度模型得到的前期特征共同進(jìn)行注意力計算。前期特征,主要包括核心實體關(guān)注度計算得分α以及實體鏈接得到的問句中實體與知識庫中的實體語義相似度計算得分score。計算獲取到知識圖譜處理模型的輸出vt,該過程如式(8)所示。
vt=attention(vrc,(α,score))(8)
通過式(6)(8)兩個網(wǎng)絡(luò)編碼分別得到了三元組在問句中的表征向量vq和在知識圖譜中的表征向量vt。通過歐氏距離對兩向量計算相似性,vt和vq的相似性越高,則最終輸出越接近于1,反之則越接近于0。為了將最終的輸出約束在(0,1],使用了以e為底數(shù)的函數(shù),如式(9)所示 。
反向傳播中使用constrastive loss作為損失函數(shù)。constrastive loss損失函數(shù)目標(biāo)是學(xué)習(xí)一個距離函數(shù),使得相似樣本之間的距離小,而不同樣本之間的距離大。constrastive loss損失函數(shù)的表達(dá)式如下:
通過距離計算方法,可以處理偽孿生神經(jīng)網(wǎng)絡(luò)中的paired data從而衡量成對樣本的匹配程度。其中y∈[0,1]為兩個樣本是否相似的標(biāo)簽,d代表兩個向量的歐氏距離,η為預(yù)先設(shè)定的閾值。y值越大,表示問句表征的關(guān)系與知識圖譜三元組表征的關(guān)系匹配度越高。當(dāng)y=1,表示完全匹配,可以看出此時的損失僅跟距離d有關(guān),為了最小化損失函數(shù),d越小則表明當(dāng)前模型效果較好。當(dāng)y=0,則表示樣本不相似,損失函數(shù)只剩下L=max(η-d,0)2,此時為了最小化損失函數(shù),距離d反而應(yīng)該越大。符合偽孿生網(wǎng)絡(luò)需求。
最后,對偽孿生網(wǎng)絡(luò)中得到的各個三元組與原問句Q的相似度得分進(jìn)行排序,選擇相似度得分最高的top1三元組中的答案節(jié)點實體作為最終答案輸出。完成基于偽孿生網(wǎng)絡(luò)對知識三元組和問句分別表征的答案推理重排序。
2.4 遷移學(xué)習(xí)策略
實際業(yè)務(wù)全新領(lǐng)域下,數(shù)據(jù)規(guī)模往往較小,知識圖譜不夠完善。而本節(jié)涉及的模型都較為復(fù)雜,且每個模型的參數(shù)量都來到了億級別。可見基于有限的非結(jié)構(gòu)化語料實現(xiàn)精度較高的KBQA系統(tǒng),這是業(yè)界在KBQA方面落地的難點。中國移動的業(yè)務(wù)場景下,僅僅提供了一個萬級別字符長度的用戶手冊,以及百級別的QA對,如果直接使用如此大參數(shù)量的模型進(jìn)行訓(xùn)練和預(yù)測,加上KBQA模型中間的監(jiān)督信號比較弱,很大可能導(dǎo)致嚴(yán)重的過擬合或預(yù)測錯誤。因此引入遷移學(xué)習(xí)來解決KBQA冷啟動問題。先基于外部語料庫CCKS2021生活服務(wù)領(lǐng)域知識圖譜萬級別問答數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。凍結(jié)部分網(wǎng)絡(luò)層后在中國移動問答語料上進(jìn)行模型微調(diào)。
采用遷移學(xué)習(xí)策略,對于那些難以獲取大量標(biāo)注數(shù)據(jù)的領(lǐng)域,遷移學(xué)習(xí)允許使用較少的標(biāo)注數(shù)據(jù)仍然獲得很好的性能。另外由于大部分權(quán)重都是從預(yù)訓(xùn)練模型中繼承的,所以只需要微調(diào)模型,從而節(jié)省了大量的計算資源和時間。預(yù)訓(xùn)練模型首先在多個任務(wù)和數(shù)據(jù)集上進(jìn)行訓(xùn)練,因此能夠捕獲更多的通用KBQA特征,再遷移至特定情景下的語料,有助于新任務(wù)的泛化,模型不僅能滿足通用的KBQA需求,也能預(yù)測RPA領(lǐng)域?qū)S械恼Z料。在商業(yè)應(yīng)用和實際場景下,往往有不斷擴(kuò)大語料甚至將系統(tǒng)遷移至其他領(lǐng)域的需求,快速得到一個可使用模型很關(guān)鍵。在預(yù)訓(xùn)練的策略下,將模型遷移至其他領(lǐng)域不需要付出過多的額外訓(xùn)練成本,可以迅速部署模型并對其進(jìn)行微調(diào)以滿足特定的業(yè)務(wù)需求。
英文問答模型的部分,由于MetaQA語料本身訓(xùn)練集的數(shù)據(jù)條數(shù)已經(jīng)達(dá)到20萬以上,故本文的英文問答模型直接在MetaQA數(shù)據(jù)集上進(jìn)行訓(xùn)練。
3 實驗
3.1 數(shù)據(jù)集
中文數(shù)據(jù)集采用企業(yè)合作伙伴中國移動提供的RPA用戶指南數(shù)據(jù),指南以非結(jié)構(gòu)化文本的形式描述了用戶可能遇到的問題、詳細(xì)描述、原因剖析和應(yīng)對措施。從RPA用戶指南抽取實體、屬性、屬性值174個,考慮到RPA用戶指南數(shù)據(jù)量較少,通過內(nèi)部資源、外部資源等渠道對RPA用戶指南問答數(shù)據(jù)進(jìn)行了整合和擴(kuò)充。內(nèi)部資源整合包括中國移動內(nèi)部已有的RPA文檔、用戶案例研究文檔、最佳用戶實踐指南。外部資源匯集了來自RPA技術(shù)提供商、行業(yè)論壇、專業(yè)社區(qū)和用戶反饋的相關(guān)資料。整合后問答數(shù)據(jù)擴(kuò)充至5 968條。
由于移動方提供的數(shù)據(jù)資料有限,為防止出現(xiàn)嚴(yán)重的過擬合或預(yù)測錯誤,所以結(jié)合了遷移學(xué)習(xí)的方法,采用CCKS2021移動運營商知識圖譜問答數(shù)據(jù)集作為補充。該數(shù)據(jù)集共計8 500條問答數(shù)據(jù),包含問題、對應(yīng)的實體節(jié)點、答案節(jié)點、供參考的SPARQL查詢(含實體、屬性等信息)。CCKS2021的移動運營商知識圖譜問答數(shù)據(jù)集為中間步驟提供了部分答案,有效地解決了KBQA端到端模型中中間監(jiān)督的不足,可以實現(xiàn)對pipeline中每個模塊的獨立訓(xùn)練。將CCKS2021移動運營商知識圖譜問答數(shù)據(jù)集按照80%、10%、10%進(jìn)行了訓(xùn)練集、驗證集、測試集的劃分,以該語料下訓(xùn)練得到的模型作為初步的問答模型,并遷移至RPA知識圖譜領(lǐng)域的問答中。在5 968條中國移動PRA用戶指南問答數(shù)據(jù)上選取2 984條數(shù)據(jù)用于模型微調(diào),并選用2 984條數(shù)據(jù)進(jìn)行測試。
英文數(shù)據(jù)集采用開源的MetaQA(movie text audio QA)數(shù)據(jù)集,MetaQA的數(shù)據(jù)主要來源于Facebook的MovieQA。該數(shù)據(jù)集中的問題包含三種類型,按問題所涉及的知識圖譜跳數(shù),分為1-hop、2-hop和3-hop。回答1-hop的問題,只需考慮一個實體和它的直接關(guān)系,而2-hop或3-hop問題則涉及更復(fù)雜的關(guān)系鏈。
鑒于MetaQA數(shù)據(jù)集中的主題實體已有標(biāo)注,為了檢驗本研究上游問句理解任務(wù)中核心實體關(guān)注度評估模型的表現(xiàn),本文所用數(shù)據(jù)移除了MetaQA數(shù)據(jù)集中問句實體的標(biāo)注,并基于字符串匹配規(guī)則將問句轉(zhuǎn)換為陳述句,使用and、but、while連接前后句,共構(gòu)造了800 000條多實體問句,按照80%、10%、10%劃分為訓(xùn)練集、驗證集、測試集。
3.2 對比實驗
本節(jié)將利用上文描述的處理后的中英文數(shù)據(jù)集,與目前表現(xiàn)較好的PullNet、EmbedKGQA、TransferNet等模型進(jìn)行對比實驗。評估指標(biāo)采用hits@1指標(biāo)進(jìn)行計算。hits@n指標(biāo)常用于知識圖譜補全和推薦系統(tǒng)等領(lǐng)域。該指標(biāo)衡量模型預(yù)測結(jié)果的前n個條目中是否包含正確的答案或項。若hits@3為0.9,表示在90%的測試樣本中,正確答案都位于模型預(yù)測的前三位。hits@n指標(biāo)的計算如式(11)所示。
其中:S為三元組集合;|S|表示三元組集合大小;Ⅱ(ranki≤n)為指示函數(shù),檢查第i個樣本的正確答案是否在前n個預(yù)測中。如果是,則該函數(shù)值為1;否則為0。
3.2.1 中文數(shù)據(jù)集
中文數(shù)據(jù)集部分,采用RPA知識圖譜問答下的2 984條數(shù)據(jù)作為測試集語料,將本文提出的基于知識表示學(xué)習(xí)的KBQA答案推理重排序算法模型與傳統(tǒng)的pipeline、pipeline加特征融合方案,以準(zhǔn)確率作為評估指標(biāo),分別進(jìn)行測試,具體結(jié)果如表1,加粗?jǐn)?shù)值為列表中的最優(yōu)值(下同)。
從表1明顯看出,本文算法在RPA問答數(shù)據(jù)集的預(yù)測性能更為優(yōu)秀,準(zhǔn)確率相較于傳統(tǒng)pipeline提高了12.8%。相較于特征融合方案提高了4.5%。考慮到RPA問答數(shù)據(jù)集語料較少,可能存在實驗結(jié)果的偶然性,又基于CCKS2021運營商知識圖譜問答數(shù)據(jù)集,將本文提出的基于知識表示學(xué)習(xí)的KBQA答案推理重排序模型與傳統(tǒng)的pipeline及CCKS知識圖譜問答競賽的top3方案[25],以F1為評估指標(biāo),分別進(jìn)行了對比實驗。結(jié)果如表2所示。
由表2中的預(yù)測結(jié)果可以看出,本文模型顯著超越傳統(tǒng)pipeline,F(xiàn)1值提高了21.9%,但相較于競賽的top3方案有一定差距,與最優(yōu)的基于特征融合的中文知識庫問答方法,F(xiàn)1值相差1.48%。分析原因如下:
a)在實體鏈接的過程中,部分?jǐn)?shù)據(jù)出現(xiàn)了異常。盡管鏈接到了正確的實體項,但通過SPARQL查詢時無法找到這個實體的子圖。
b)數(shù)據(jù)集里有相當(dāng)一部分的問句包含了特定的條件,比如“螞蟻金服最新的融資額是多少?”,含有限制條件的問句占比為3%,在測試集中存在23個句子有限制條件。
c)數(shù)據(jù)集中與答案無關(guān)的干擾實體項較少,所鏈接的實體大多與答案實體存在三元組的聯(lián)系。
3.2.2 英文數(shù)據(jù)集
英文數(shù)據(jù)集部分,基于MetaQA原數(shù)據(jù)集和原知識庫構(gòu)造的多實體問句,以hits@1作為評估指標(biāo),對多實體問句數(shù)據(jù)集MetaQA測試集的1-hop、2-hop問句分別進(jìn)行評估,評估結(jié)果如表3所示。
由表3可發(fā)現(xiàn)其他模型在處理含有多個實體和關(guān)系的復(fù)雜句子時性能明顯下降,尤其在2跳問句的預(yù)測上更為明顯。這表明通過引入核心實體關(guān)注度評估,可以顯著提高問答準(zhǔn)確率。1跳問句中,核心實體關(guān)注度評估的引入使得hits@1值從81.3%提升到了90.5%。2跳問句中,核心實體關(guān)注度評估的引入使得hits@1值從78.4%提升到了89.8%。原因在于,多實體關(guān)系會引入過多的實體關(guān)系信息,造成干擾并增加句子的語義復(fù)雜度。一般模型在區(qū)分多實體問句中各實體的重要性和關(guān)聯(lián)度上存在局限,導(dǎo)致無法有效聚焦于關(guān)鍵實體。本文通過引入核心實體關(guān)注度計算模型,能夠更精確地理解句子的主要焦點,提高實體識別的準(zhǔn)確率。尤其在復(fù)雜句子中,關(guān)注度評估有助于過濾掉不相關(guān)的信息,減少噪聲對實體識別的干擾,模型可以將更多資源集中于重要實體的識別上,從而提高整體處理效率。另外關(guān)注度評估的引入能夠增強模型對句子的上下文理解,以及復(fù)雜句子結(jié)構(gòu)的隱含語義理解。
為了驗證本文模型在不完整知識圖譜上問答推理的有效性,參照文獻(xiàn)[20],對MetaQA數(shù)據(jù)集進(jìn)行了50%的隨機(jī)移除,來模擬一個稀疏的知識圖譜(稱為50%KG)。分別在50%KG的MetaQA數(shù)據(jù)集下,與表現(xiàn)較好的KVMem[26]、GraftNet[27]、PullNet[13]、EmbedKGQA[16]、TransferNet[28]等模型進(jìn)行對比實驗。表4中,括號內(nèi)的數(shù)值為50%KG圖譜下使用額外MetaQA文本對圖譜補充的預(yù)測結(jié)果(實驗結(jié)果數(shù)據(jù)源于文獻(xiàn)[13,14,29,30]),括號外的數(shù)值為50%KG圖譜上預(yù)測的結(jié)果(實驗結(jié)果數(shù)據(jù)源于文獻(xiàn)[20])。具體對比結(jié)果如表4所示。
由表4可見,在非完整的50%KG下MetaQA數(shù)據(jù)集上,其他模型的準(zhǔn)確性均顯著降低,EmbedKGQA模型在hits@1的評估結(jié)果上,遠(yuǎn)高于除TransfetNet方案外的其他模型,同時本文模型相較于EmbedKGQA模型,在1-hop、2-hop、3-hop上均取得了更優(yōu)的效果。原因在于MetaQA的知識圖譜本身的KG較為稀疏,擁有43 000個實體,而三元組數(shù)量為135 000個。當(dāng)刪除了50%的三元組后,每個實體平均只與1.66條邊相連,圖譜變得更加稀疏。這導(dǎo)致很多問題尋找答案實體的路徑更長。KVMem模型雖然擅長存儲和檢索信息,但在多跳推理和稀疏環(huán)境中面臨信息覆蓋不足的問題。盡管GraftNet和PullNet模型擅長整合文本和知識圖譜信息,但在稀疏知識圖譜上往往難以找到足夠的關(guān)聯(lián)信息,導(dǎo)致推理鏈路不完整,表現(xiàn)較差。相較于GraftNet和PullNet,EmbedKGQA模型在研究多路徑知識圖譜嵌入方面,不只關(guān)注了深度搜索路徑問題,還兼顧了鄰居節(jié)點信息聚合的廣度路徑搜索。因此EmbedKGQA模型在執(zhí)行稀疏KG的多跳問答任務(wù)上表現(xiàn)較優(yōu)。但是EmbedKGQA主要依賴知識圖譜的嵌入表示,稀疏圖譜存在嵌入質(zhì)量不佳問題,進(jìn)而影響答案的準(zhǔn)確性。TransferNet模型專注于實體鏈接和關(guān)系預(yù)測,它在處理具有明確實體和關(guān)系的問題時表現(xiàn)良好,但在處理多跳問題時,由于每一跳都需要精確的實體和關(guān)系匹配,而稀疏圖譜導(dǎo)致關(guān)鍵信息的缺失。所以TransferNet在稀疏知識圖譜上的表現(xiàn)大幅度下降。
可見使用傳統(tǒng)的基于信息檢索的多跳推理方法,很多問題的中心實體需要經(jīng)過更長的路徑才能達(dá)到其答案節(jié)點,問答推理性能不佳。因此本文模型通過引入額外的文本語料對關(guān)系進(jìn)行補充,來提高模型性能。利用知識圖譜嵌入將實體和關(guān)系的豐富語義信息編碼為低維向量,能有效捕獲知識圖譜中的隱含信息。在稀疏知識圖譜環(huán)境下,脫離了子圖搜索空間的約束,即使直接的信息鏈路不完整,本文模型仍能利用這些嵌入來推理出問題的答案。此外,嵌入方法還有助于減少對直接、顯式鏈接的依賴,從而在處理多跳問答時更為靈活。
綜上,本文模型在多實體問句上的表現(xiàn)顯著優(yōu)于其他先進(jìn)模型,說明本文模型通過引入注意力機(jī)制的動態(tài)聚焦能力,根據(jù)上下文變化動態(tài)調(diào)整對不同實體的關(guān)注程度,進(jìn)而在處理多實體復(fù)雜句子時,能夠更有效地識別出最關(guān)鍵的信息。另外,本文模型在50%KG的MetaQA知識庫上的預(yù)測結(jié)果也優(yōu)于先進(jìn)模型EmbedKGQA,說明在不完整知識圖譜上本文模型具有更強的鏈接預(yù)測能力,能夠完成對缺失邊的隱式關(guān)系推理,進(jìn)而尋找到正確的三元組并提取答案。
3.3 模型選型實驗
3.3.1 知識表示學(xué)習(xí)與答案初篩模型
本節(jié)對知識表示學(xué)習(xí)和答案初篩部分進(jìn)行實驗,實驗中經(jīng)過精細(xì)化調(diào)參,確定了知識表示學(xué)習(xí)模型和答案初篩模型的超參數(shù)。具體如表5、6所示。
答案初篩階段,使用hits@k和hits@1兩種評估指標(biāo)。hits@1主要目的是在消融實驗中檢驗答案推理重排序模型的性能。hits@k為模型篩選到top-k候選實體中包含答案實體的概率,為該模型的核心評估指標(biāo)。
在英文數(shù)據(jù)集MetaQA上1-hop訓(xùn)練數(shù)據(jù)上,取k=5,隨著epoch的增長在訓(xùn)練集、檢驗集和測試集上的hits@1和hits@5訓(xùn)練曲線圖,分別如圖3、4所示。
從訓(xùn)練圖表中可以觀察到,hits@5和hits@1的值在訓(xùn)練輪次epoch=10以前,有顯著的增長。當(dāng)epoch超過10后,兩值的增長開始減緩并逐漸穩(wěn)定。因此,本研究選擇epoch=20時的模型作為該階段的最終模型。
對比epoch=20后的hits@5與hits@1指標(biāo),可發(fā)現(xiàn),在驗證集和測試集上,hits@5與hits@1之間的差值介于(0.6%,1.1%)。平均來看,hits@5的表現(xiàn)超過hits@1約0.84%。具體如圖5所示。
通過實驗,發(fā)現(xiàn)在MetaQA上2-hop、3-hop數(shù)據(jù)集上有著類似的訓(xùn)練曲線,具體結(jié)果指標(biāo)數(shù)據(jù),如表7所示。
答案初篩階段,需要選取top-k的三元組,將其作為潛在答案節(jié)點,實現(xiàn)粗過濾。K的不同取值對top-k中的答案召回以及后續(xù)的重排序模型精度均有影響。本節(jié)取不同的k值,來對比具體實驗效果。k=3、k=5、k=10時的hits@k,如表8所示。
由表8對比可知,在不同跳數(shù)MetaQA數(shù)據(jù)集上,k=5時的hits@k明顯高于k=3,可以判斷出部分正確三元組出現(xiàn)在答案初篩階段排序的第四和第五名,從而使得hits@k指標(biāo)在k=5時表現(xiàn)更優(yōu)。再對比hits@k在k=5和k=10時的表現(xiàn),發(fā)現(xiàn)最大差異0.3%,最小差異0%,差異不大。可以推斷出,由于問句語義理解階段的錯誤或問句本身復(fù)雜難以理解,當(dāng)k繼續(xù)增大時,hits@k的表示也無法再繼續(xù)顯著提升。另外考慮到k值越大,候選三元組保留越多,會降低答案推理重排序模型效率。為了兼顧模型的效率和表現(xiàn)效果,所以選擇k=5,作為該階段的最終模型參數(shù),即保留top-5三元組作為答案初篩模型的輸出。
3.3.2 答案推理重排序模型
本節(jié)對答案推理重排序模型進(jìn)行實驗,實驗中經(jīng)過精細(xì)化調(diào)參,確定了答案推理重排序模型的超參數(shù)。具體如表9所示。
答案推理重排序階段,使用hits@1作為最終的評估指標(biāo),將模型預(yù)測得到的最高排名答案實體id與知識庫中存儲的答案實體項進(jìn)行鏈接,并與正確答案進(jìn)行比對,來驗證問答的準(zhǔn)確率。
以MetaQA上1-hop訓(xùn)練數(shù)據(jù)為例,隨著epoch的增長,hits@1在訓(xùn)練集、檢驗集和測試集上的表現(xiàn)效果如圖6所示。圖6(a)(b)分別對應(yīng)訓(xùn)練100 epoch和20 epoch時,hits@1指標(biāo)在訓(xùn)練集、驗證集和測試集的變化。
從訓(xùn)練曲線可以看出,epoch=15之前,hits@1值有顯著的增長。當(dāng)epoch值超過15后,hits@1增長開始減緩逐步趨于平緩。因此,本文選擇了epoch=20時的模型作為答案推理重排序階段的最終模型。同樣,在MetaQA的2-hop和3-hop訓(xùn)練數(shù)據(jù)中,也觀察到了相似的訓(xùn)練趨勢,具體結(jié)果指標(biāo)數(shù)據(jù),如表10所示。
4 結(jié)束語
本文提出了基于知識表示學(xué)習(xí)的KBQA答案推理重排序算法,側(cè)重解決真實業(yè)務(wù)場景下由于知識圖譜稀疏,對問題推理造成阻礙的問題。常規(guī)基于信息檢索的推理模型往往從實體出發(fā),對實體所在知識庫中的子圖進(jìn)行檢索,對知識庫中的隱式關(guān)系缺少分析,造成主題實體到答案實體的路徑尋找缺失或與真實答案不相關(guān)。本文通過引入知識表示學(xué)習(xí),在復(fù)數(shù)空間實現(xiàn)知識圖譜中實體和關(guān)系的嵌入,依據(jù)ComplEx的復(fù)數(shù)域得分函數(shù)評估構(gòu)成三元組的合理性,實現(xiàn)對知識圖譜中的隱含關(guān)系推理。并基于答案初篩模型實現(xiàn)top-k候選答案三元組的粗篩。
此外創(chuàng)新性地基于偽孿生網(wǎng)絡(luò),實現(xiàn)了答案推理重排序。將上游核心實體識別任務(wù)的輸出作為特征融入到下游問答推理階段的模型中,對答案實體集進(jìn)行重排序。解決了傳統(tǒng)pipeline中,問句語義理解對下游問答推理的錯誤傳播。相較于直接計算三元組和問題語義相似度,孿生網(wǎng)絡(luò)能夠同時表征兩者,將知識表示學(xué)習(xí)模型中得到的三元組嵌入與問句語義解析得到的問句低維向量實現(xiàn)更加精準(zhǔn)的距離計算,并且通過對模型的訓(xùn)練能夠充分保留三元組和問題中原有的隱含語義、語境等特征。本文提出的基于知識表示學(xué)習(xí)的KBQA答案推理重排序模型,在CCKS2021運營商知識圖譜問答數(shù)據(jù)集上的表現(xiàn)效果,相對于該競賽的top方案,其性能略顯不足。經(jīng)分析發(fā)現(xiàn)多數(shù)bad case都分布在含有限制條件問句的預(yù)測上,而模型中并沒有對限制條件進(jìn)行約束,對限制條件添加約束是本文模型未來需要繼續(xù)優(yōu)化研究的一個方向。另外,中國移動方提供的非結(jié)構(gòu)化數(shù)據(jù)很有限,盡管模型訓(xùn)練過程中使用了遷移學(xué)習(xí),但是模型更多學(xué)習(xí)到的仍是通用KBQA屬性,而非RPA語料庫的專有問答特征。如何快速調(diào)整模型以適應(yīng)各種業(yè)務(wù)環(huán)境的語境,以及在專業(yè)領(lǐng)域數(shù)據(jù)稀缺的情況下如何實施小樣本學(xué)習(xí),也是未來研究需要改進(jìn)的方向。
參考文獻(xiàn):
[1]Ghorbanali A,Sohrabi M K,Yaghmaee F. Ensemble transfer learning-based multimodal sentiment analysis using weighted convolutional neural networks[J]. Information Processing & Management, 2022, 59(3): 102929.
[2]Fan Yixing, Xie Xiaohui, Cai Yinqiong, et al. Pre-training methods in information retrieval[J]. Foundations and Trends in Information Retrieval, 2022,16(3): 178-317.
[3]Lin J. A proposed conceptual framework for a representational approach to information retrieval[J]. ACM SIGIR Forum, 2022, 55(2): article No.4.
[4]Abbasiantaeb Z, Momtazi S. Text-based question answering from information retrieval and deep neural network perspectives: a survey[J]. Wiley Interdisciplinary Reviews: Data Mining and Know-ledge Discovery, 2021, 11(6): e1412.
[5]Venant A, Lareau F. Predicates and entities in abstract meaning representation[C]//Proc of the 7th International Conference on Depen-dency Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2023: 32-41.
[6]Luo Kangqi, Lin Fengli, Luo Xusheng, et al. Knowledge base question answering via encoding of complex query graphs[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2185-2194.
[7]Kapanipathi P, Abdelaziz I, Ravishankar S, et al. Question answe-ring over knowledge bases by leveraging semantic parsing and neuro-symbolic reasoning[EB/OL]. (2020-12-03). https://arxiv.org/abs/ 2012.01707.
[8]Sun Yawei, Zhang Lingling, Cheng Gong, et al. SPARQA: skeleton-based semantic parsing for complex questions over knowledge bases[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 8952-8959.
[9]Qiu Yunqi, Wang Yuanzhuo, Jin Xiaolong, et al. Stepwise reasoning for multi-relation question answering over knowledge graph with weak supervision[C]//Proc of the 13th International Conference on Web Search and Data Mining. New York: ACM Press, 2020: 474-482.
[10]Saha A, Ansari G A, Laddha A, et al. Complex program induction for querying knowledge bases in the absence of gold programs[J]. Trans of the Association for Computational Linguistics, 2019, 7: 185-200.
[11]Li Tianle, Ma Xueguang, Zhuang A, et al. Few-shot in-context lear-ning for knowledge base question answering[EB/OL]. (2023-05-04). https://arxiv.org/abs/2305.01750.
[12]Gao Feng, Ping Qing, Thattai G, et al. Transform-retrieve-generate: natural language-centric outside-knowledge visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5057-5067.
[13]Sun Haitian, Bedrax-Weiss T, Cohen W W. PullNet: open domain question answering with iterative retrieval on knowledge bases and text [EB/OL]. (2019-04-21). https://arxiv.org/abs/1904.09537.
[14]Xiong Wenhan, Yu Mo, Chang Shiyu, et al. Improving question answering over incomplete KBS with knowledge-aware reader[EB/OL]. (2019-05-31). https://arxiv.org/abs/1905.07098.
[15]Han Jiale, Cheng Bo, Wang Xu. Open domain question answering based on text enhanced knowledge graph with hyperedge infusion[C]//Proc of Findings of Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1475-1481.
[16]Saxena A, Tripathi A, Talukdar P. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 4498-4507.
[17]Han Jiale, Cheng Bo, Wang Xu. Two-phase hypergraph based reasoning with dynamic relations for multi-hop KBQA[C]//Proc of the 29th International Joint Conference on Artificial Intelligence. New York: ACM Press, 2020: 3615-3621.
[18]He Gaole, Lan Yunshi, Jiang Jing, et al. Improving multi-hop knowledge base question answering by learning intermediate supervision signals[C]//Proc of the 14th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2021: 553-561.
[19]Zhang Xiaoyu, Xin Xin, Li Dongdong, et al. Variational reasoning over incomplete knowledge graphs for conversational recommendation[C]//Proc of the 16th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2023: 231-239.
[20]Wang Yanda, Chen Weitong, Pi Dechang, et al. Adversarially regularized medication recommendation model with multi-hop memory network[J]. Knowledge and Information Systems, 2021, 63(1): 125-142.
[21]Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//Proc of the 33rd International Conference on Machine Learning. [S.l.]: JMLR.org, 2016: 2071-2080.
[22]Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C]//Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 2787-2795.
[23]Nickel M, Rosasco L, Poggio T. Holographic embeddings of know-ledge graphs[C]//Proc of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 1955-1961.
[24]Nickel M, Tresp V, Kriegel H P. A three-way model for collective learning on multi-relational data[C]//Proc of the 28th International Conference on International Conference on Machine Learning. [S.l.]: Omnipress, 2011: 809-816.
[25]張鴻志, 李如寐, 王思睿, 等. 基于預(yù)訓(xùn)練語言模型的檢索-匹配式知識圖譜問答系統(tǒng)[EB/OL]. (2021) [2024-01-02]. https://bj.bcebos.com/v1/conference/ccks2020/eval_paper/ccks2020_eval_paper_1_4_2.pdf. (Zhang Hongzhi, Li Rumei, Wang Sirui, et al. Retrieval-matching knowledge graph question answering system based on pre-trained language model[EB/OL]. (2021) [2024-01-02].https://bj.bcebos.com/v1/conference/ccks2020/eval_paper/ccks2020_eval_paper_1_4_2.pdf.)
[26]Xu Kun, Lai Yuxuan, Feng Yansong, et al. Enhancing key-value memory neural networks for knowledge based question answering[C]//Proc of Conference on North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2937-2947.
[27]Sun Haitian, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 4231-4242.
[28]Shi Jiaxin, Cao Shulin, Hou Lei, et al. TransferNet: an effective and transparent framework for multi-hop question answering over relation graph[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 4149-4158.
[29]汪洲, 侯依寧, 汪美玲, 等. 基于特征融合的中文知識庫問答方法[EB/OL]. (2021) [2024-01-02]. https://bj.bcebos.com/v1/conference/ ccks2020/eval_paper/ccks2020_eval_paper_1_4_1.pdf. (Wang Zhou, Hou Yining, Wang Meiling, et al. Chinese knowledge base question answering method based on feature fusion[EB/OL]. (2021) [2024-01-02]. https://bj.bcebos.com/v1/conference/ccks2020/eval_paper/ccks2020_ eval_paper_1_4_1. pdf.)
[30]Tan Yiming, Zhang Xinyu, Chen Yongrui, et al. CLRN: a reasoning network for multi-relation question answering over cross-lingual know-ledge graphs[J]. Expert Systems with Applications: An International Journal, 2023, 231(C): 120721.