999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合知識表示學習的雙向注意力問答模型

2021-12-12 02:51:18潘志松
計算機工程與應用 2021年23期
關鍵詞:模型

盧 琪,潘志松,謝 鈞

中國人民解放軍陸軍工程大學 指揮控制工程學院,南京 210000

知識圖譜以節點和邊來表示真實世界中存在的各種實體及其之間的關系,最早于2012年由谷歌提出,起初用于提高搜索引擎智能化搜索能力,如今各公司,如微軟Bing、搜狗知立方、百度知心等,都構建了自己的知識圖譜。而隨著Freebase、DBpedia、YAGO等大規模開源知識圖譜的誕生,知識圖譜相關的研究和應用在多個領域飛速發展[1],知識圖譜問答(Question Answering over Knowledge Graph,KGQA)便是研究熱點之一。

近年來智能問答取得了極大的發展,很多智能問答系統走進了人們的生活,為人們帶來了很大的便利。蘋果公司研發的智能語音助手Siri不僅能智能問答還可以對手機進行語音控制等操作。之后各大公司也推出了自己的語音助手或者問答系統,如微軟開發了Windows上的語音助手微軟小娜Cortana,百度推出了自己的人工智能助手小度,騰訊開發的聊天機器人QQ小冰等。根據數據的來源可以把智能問答分為三類:(1)基于知識庫問答,也稱為知識圖譜問答,即直接從構建好的結構化知識庫中檢索答案;(2)基于文本問答,也稱為機器閱讀理解式(Machine Reading Comprehension,MRC)問答,每個問題對應若干篇非結構化文本數據,從文本數據中檢索和抽取答案;(3)基于社區的問答,用戶生成的問答對組成了社區問答的數據,例如百度知道、搜狗問答、知乎等論壇。隨著知識圖譜的發展,知識圖譜問答有了越來越重要的現實意義。

知識圖譜問答任務形式定義為:給定一個包含若干三元組的知識圖譜G和一個自然語言問題q,要求根據知識圖譜正確回答問題。如今知識圖譜問答的方法要分為基于語義解析和基于信息檢索兩種方法,近年與深度學習相結合,取得了優異的表現,但是仍然面臨諸多的挑戰。Bordes[2]、Huang[3]等人都基于知識嵌入設計了有效的知識圖譜問答框架,在簡單問題方面實現了優異的性能,但是模型推理能力較差,回答多跳問題的能力有待提升。Sun等人[4]增強了模型的推理能力,并且在知識圖譜的基礎上引入了額外的文本數據,但是仍然無法有效處理知識圖譜中數據缺失和數據稀疏的問題。此外,Sun[5]、Bao[6]等人的工作都是通過限制問題的跳數先得到知識圖譜的子圖,然后在子圖上進行推理得到答案。綜上可知目前的知識圖譜問答仍然存在下列問題:(1)復雜的場景下,要求模型具有推理能力,從而正確回答多跳問題;(2)當知識圖譜的信息不完整時,如何保證知識圖譜問答的性能;(3)如今的多跳知識圖譜問答大多對跳數有所限制,模型僅對知識圖譜局部建模,損失了長距離信息。

針對上述問題,本文提出一種融合知識表示學習的雙向注意力模型,該模型引入知識表示學習以解決知識圖譜數據稀疏和數據缺失問題,BiDAF[7]模型使用了雙向注意力模型在機器閱讀理解任務上取得非常優異的性能,受Seo等人啟發,KR-BAT模型構建了雙向注意力模型來提高模型的推理能力,能夠更好地處理多跳問題。主要貢獻為:(1)設計一個主題實體預測模型,引入知識表示,對于未登錄實體也能預測其表示,有效解決知識圖譜不完整所帶來的信息損失;(2)結合雙向注意力機制和LSTM,提高模型的多跳推理能力;(3)提出融合知識表示的雙向注意力模型,經過實驗,模型針對多跳問題和不完整知識圖譜情況實現了優秀的性能。

1 相關工作

1.1 知識表示學習

知識表示是知識組織的前提和基礎,表示學習把數據轉換成一種機器能夠有效處理的方式,便于模型提取特征。

早期的獨熱表示[8](One-hot representation)是一種簡單有效的數據表示方法,獨熱表示通過0和1將數據編碼成向量,如果數據維度為L,則獨熱編碼中只有一維元素為1,其余L-1維為0。獨熱表示方法優點在于通過無監督的方法,有效地把數據區分開來,耗費少。但是該方法的缺點也較為突出,獨熱編碼認為數據之間都是獨立的,無法對數據之間的語義相似度進行建模,然而在自然語言處理領域中,語義相似度尤為重要,這樣會導致信息損失嚴重;其次,當數據規模較大時,獨熱表示容易造成維度災難,且編碼的向量過于稀疏。

與獨熱表示相比,基于機器學習的表示學習能夠把數據映射成低維的向量,解決了數據稀疏問題,并且學習過程能夠對數據之間的語義相似度進行建模,更有利于模型提取特征。

知識表示學習是以知識圖譜中節點和關系為對象的表示學習[9],目標是把知識圖譜中的節點和關系映射為低維向量,實現對知識的建模,對知識圖譜的構建、補全、推理和應用有著重要意義。

結構表示(Structured Embedding,SE)是距離模型的一種,對于每個三元組(h,r,t),模型為關系r定義了兩個投影矩陣,分別用于頭實體h和尾實體t的投影,然后計算兩個實體投影直接的距離,距離代表該三元組中頭實體和尾實體的語義相似度。但SE中頭實體和尾實體是根據兩個不同的矩陣進行投影,語義關系的建模能力較差。

雙線性對角模型DistMult[10]把關系矩陣設置為對角陣,提高處理多關系數據能力的同時,極大簡化了模型。但是DistMult過于簡化,無法處理非對稱關系,于是ComplEx[11]在DistMult基礎上提高非對稱關系建模能力,通過把實體和關系映射到復數空間,利用埃爾米特乘積對非對稱關系進行建模。

受到Word2Vec[12]中平移不變的啟發,Bordes等人[13]提出TransE模型。對于每個三元組(h,r,t),TransE把尾實體向量νt看作頭實體向量νh經過關系向量νr平移得到,希望滿足νh+νr≈νt。TransE模型參數較少、簡單有效,是知識表示學習中最為經典的模型之一,但是無法建模復雜關系。TransH[14]在TransE的基礎上把實體向量投影到關系向量對應的超平面上,以此緩解復雜關系下的學習過度收斂問題。TransR[15]在TransH的基礎上定義了兩個投影矩陣,把實體向量投影到關系語義空間中,經過投影的實體區分度增加,提高復雜關系建模能力。但是TransR構造的兩個投影矩陣提高了模型的計算復雜度,TransD[16]把TransR的投影矩陣分解成兩個向量,降低了模型的復雜度,并且關系和實體共同參與構造投影矩陣,模型對語義建模能力更強。

1.2 知識圖譜問答

知識圖譜問答的關鍵在于把用戶的自然語言問題轉化為機器可以理解的形式查詢。目前知識圖譜問答方法主要分為兩類:基于語義解析的方法和基于信息檢索的方法。

基于語義解析的方法:把要解決的問題看作語義解析問題,即把自然語言問題轉化成語義表示,再映射成邏輯形式,在知識圖譜上進行查詢得到答案。Zhang等人[17]提出了一個基于注意力機制的模型來根據候選答案的不同側重點動態地表示問題,利用了知識圖譜的全局信息,并且一定程度上解決了未登錄詞的問題。Alvarezmelis等人[18]提出了一種改進型樹狀解碼器,使用兩個獨立的RNN分別對父-子和兄弟-兄弟節點之間的信息流建模,提供了使用RNN從自然語言查詢生成可執行的查詢語言這一思路。Mohammed等人[19]用最基本的神經網絡結構(CNN、LSTM)加上一些簡單的規則,便能在簡單問題上達到很好的性能。

基于信息檢索的方法:先確定用戶查詢中的中心實體,然后鏈接到知識圖譜中確定相關實體得到候選答案集合,之后通過評分或者排序的方式找出最可能的答案。Yih等人[20]使用卷積神經網絡解決單關系問答。通過CNN構建兩個不同的匹配模型,分別用來識別問題中出現的實體和匹配實體與KG中實體的相似度,相似度最高的三元組作為問題的答案,但是模型難以處理復雜的多關系情況。Hao等人[21]更關注問題的表示,提出了一種新的基于Cross-Attention的模型,根據不同的答案類型賦予問題中不同單詞的權重,這種動態表示不僅精確而且更加靈活。

在引入知識表示學習之后,Bordes等人[2]進行了進一步的研究,僅使用少量的手工特征來學習單詞和知識的低維向量。Li等人[22]提出使用多列卷積神經網絡(Multi-column CNN)從答案路徑、答案類型和答案上下文三個角度來表示問題,提取了更豐富的信息并且不依賴手工特征和規則。Huang等人[3]基于知識嵌入設計了一個簡單有效的知識圖譜問答框架(KEQA),針對簡單問題,要求模型恢復出實體和謂詞,在簡單問題方面實現了優異的性能,但是模型不具有推理能力,無法處理多跳問題。Saxena等人[23]基于預訓練模型設計了EmbedKGQA模型,在多跳問題上有很好的處理能力,尤其是當知識圖譜不完整時,利用鏈接預測實現知識補全而不需要額外的文本數據。

2 融合知識表示學習的雙向注意力模型

本文結合知識表示學習和雙向注意力機制,提出了一個融合知識表示學習的雙向注意力模型(KR-BAT)用于知識圖譜問答,模型框架如圖1所示,主要包括兩個模型:(1)主題實體預測模型:預測問題中主題實體的表示;(2)雙向注意力模型:問題與實體進行交互并返回答案。圖1中紫色部分TEP(Topic Entity Prediction,TEP)即為主題實體預測模型,剩下的部分構成了雙向注意力模型(Bidirection ATtention,BAT)。在BAT中的注意力層實現兩個模型的有機結合,TEP模型的輸出作為BAT模型中注意力層的輸入,通過雙向注意力實現信息交互。TEP為三層結構的層級模型,BAT模型由四層組成,兩個模型的細節部分將在2.2節和2.3節進行詳細介紹。在介紹模型框架之前,先介紹相關概念及任務形式。

2.1 相關概念及任務形式

一個三元組表示為<h,r,t>,h和t分別表示頭實體(head entity)和尾實體(tail entity),r表示兩個實體間的關系。知識圖譜是由眾多三元組構成的集合,對于知識圖譜可以形式化描述為G={ }E,R,E,其中E和R分別表示所有實體和關系的集合。對于知識圖譜G,使用如TransE等知識表示學習模型可以得到關系和實體的分布式表示,一個三元組被表示為<eh,er,et>。

知識圖譜問答任務形式定義為:給定一個知識圖譜G和一個自然語言問題q,要求根據知識圖譜正確地回答問題。

2.2 主題實體預測模型

知識圖譜問答首先要預測出問題中的主題實體,可以通過序列標注、語法句法解析等方法來檢測出主題實體。但是,面對用戶給出的問題可能包含未登錄實體,以及知識圖譜不完整等情況,這些方法難以檢測出主題實體。針對上述問題,構建了主題實體預測模型(TEP)。

TEP是一個層次結構,架構如圖2所示,主要由三層構成,輸入層(Input Layer)、建模層(Modeling Layer)、輸出層(Output Layer)。輸入層中,給定一個長度為J的自然語言問題,首先把J個單詞表示成詞向量{qj},j=1,2,…,J。詞向量輸入建模層后,使用BiLSTM[24]進行建模提取語義信息,得到正向的隱層狀態序列和反向的隱層狀態序列。

圖1 KR-BAT整體框架圖Fig.1 Overview of KR-BAT

圖2 主題實體預測模型Fig.2 Topic entity prediction model

正向隱層狀態可通過公式(1)~(5)得到:

其中,fj、ij和oj分別是LSTM遺忘門、輸入門和輸出門的激活向量,Wf、Wi、Wo、Wc與bf、bi、bo、bc分別為三個門控機制與記憶細胞的權重和偏置,cj是記憶細胞狀態向量,°是對應元素乘積。正向和反向狀態拼接得到當前詞的隱層狀態:。輸出層中經過全連接層,得到token的目標向量rj,再對所有token的目標向量求平均得到主題實體表示向量:

當給定一個自然語言問題作為輸入時,TEP目標并非判斷主題實體的位置,而是直接對主題實體的表示進行預測,使預測的表示盡可能接近該實體經過知識表示學習得到的向量表示,注意這里是經過知識表示學習的向量et,而非主題實體的詞向量qt。即使問題中的主題實體是未登錄實體,TEP也能給出該主題實體經過知識表示學習后的向量,通過主題實體預測模型引入知識表示學習,得到包含知識圖譜中其他節點信息的主題實體表示,這時的實體表示是具有知識圖譜感知的主題實體(KG-aware Topic Entity)。

2.3 雙向注意力模型

雙向注意力模型(BAT)為圖1中TEP模型右側部分,由四層組成:輸入層(Input Layer)、問題嵌入層(Query Embedding Layer)、注意力層(Attention Layer)和輸出層(Output Layer)。

(1)輸入層。把一個長度為J的自然語言問題中的每個詞,映射到向量空間:{qj},j=1,2,…,J,qj∈?d。這里使用Manning等人[25]提出的GloVe預訓練詞向量,GloVe是基于共現矩陣分解得到的表示,向量包含了全局信息。

(2)問題嵌入層。使用一個BiLSTM對詞向量表示的問題進行建模,實現問題內部的信息傳遞,對BiLSTM正向和反向隱層表示進行拼接,獲得隱層表示hj∈?2d,j=1,2,…,J。

(3)注意力層。TEP輸出預測的主題實體表示向量,與候選答案實體表示eai拼接:

首先計算Q和E的相似度矩陣S∈?T×J:

Sij表示第i個候選答案與問題中第j個詞的相似度,Ei為E的第i個列向量,Qj為Q的第i個列向量,α是可訓練的映射函數,用于編碼輸入向量之間的相似度,本文使用的映射函數為:

其中w(S)∈?6d,為相似度矩陣S的權重向量。然后用相似度矩陣S得到行和列兩個方向的注意力。

①行注意力(Row-wise Attention,RA)。行注意力如圖3所示,針對相似度矩陣的每一行計算注意力:

圖3 行注意力Fig.3 Row-wise attention

ai∈?J表示問題中哪個詞qj與每個答案實體ei最相關,Si為相似度矩陣的第i行。則加權后問題的每個單詞表示向量為:,加權后的整個問題編碼矩陣為。

②列注意力(Column-wise Attention,CA)。列注意力如圖4所示,針對相似度矩陣的每一列計算注意力,先對相似度矩陣每一行求最大值,然后對列進行歸一化得到:

b∈?T,maxrow表示對行求最大值,加權后的實體表示向量為,重復T次得到加權后整個實體編碼矩陣,。

圖4 列注意力Fig.4 Column-wise attention

得到兩個方向的問題編碼和實體編碼之后,進行拼接得到問題感知的實體表示:

(4)輸出層:輸出層以問題感知的實體表示{gi},i=1,2,…,T為輸入,輸出每個實體為答案的概率:

使用兩層全連接層和softmax函數得到每個候選答案實體的概率,概率最大的即為預測答案,其中Wfc為全連接層的權重。

3 實驗

3.1 實驗數據

本文使用開放數據集MetaQA[26]進行實驗,該數據集是WikiMovies的擴展,包含用于單跳和多跳推理的40萬多個問題,數據分為1跳、2跳和3跳,具體數量如表1所示。此外,MetaQA還提供了一個知識圖譜,該知識圖譜包含13.5萬條三元組、4.3萬個實體以及9種關系。表2展示了MetaQA中三種跳數的問題形式。

3.2 實驗設置

實驗使用的操作系統為Ubuntu16.04,GPU使用顯存為32 GB的V100,開發環境為Python3.7、Pytorch 1.7.1。

表1 MetaQA數據集Table 1 MetaQA dataset

表2 MetaQA數據集問題(跳數示例)Table 2 MetaQA dataset questions(hop example)

兩個模型的具體參數設置如表3所示。其中預訓練詞向量采用GloVe,知識表示方法采用TuckER[27]。

表3 模型參數設置Table 3 Model parameters setting

為了加快學習速度,防止過擬合以及模型不收斂等問題,設置了EarlyStopping,其中Patience表示當模型在指定數量的epoch內沒有改進時,停止訓練。

3.3 實驗結果及分析

本文和以下幾種基準模型進行比較:

(1)Bordes等人[2]基于子圖嵌入表示提出的模型,學習單詞和知識庫子圖組成的低維向量,向量用于給自然語言問題打分。

(2)VRN[26]:提出了一種端到端的變分學習算法,讓模型能夠處理問題中的噪聲問題,同時具有多跳推理能力。

(3)KV-MemNN[28]:提出了一種基于Key-Value Memory Network的模型,可以通過鍵-值對的形式編碼信息,并用于檢索。

(4)GraftNet[4]:引入了知識圖譜之外的非結構化文本用于數據增強,創建一個特定于問題的子圖,該子圖包含文本語料庫中的KG實體、關系和句子,然后使用圖表示學習方法來回答問題。

實驗結果(hit@1)如表4所示,其中基準模型的結果來自Zhang[26]和Saxena[23]。知識圖譜問答與機器閱讀理解相比較為簡單,因為數據都有一定的結構性并且答案一定存在于知識圖譜中,為了驗證當知識圖譜不完整時模型的性能,設計了50%KG,即以50%的概率隨機丟掉一條三元組。

表4 實驗結果對比Table 4 Comparison of experimental results %

表5 不同模型結果對比Table 5 Comparison of results of different models %

對于完整的知識圖譜,KR-BAT達到了很有競爭力的結果。當問題是1跳時,五個模型的結果較為接近,KR-BAT排名第三,性能略低于VRN和GraftNet,這是因為1跳問題為簡單問題,僅用一條三元組即可回答問題,并不需要模型具有推理能力,而KR-BAT為了提高推理能力,聚焦于建模長距離信息,包含了豐富的全局信息,損失了部分局部信息。當問題是2跳時,KR-BAT性能排名第二,僅比GraftNet低0.9%,卻大幅度由于第三名VRN(4%),這是因為GraftNet進行了數據增強處理,引入文本數據來輔助問答。當問題是3跳時,KR-BAT性能優于其他基準模型,這說明該模型具有優異的推理能力,能夠很好地回答多跳問題。

對于不完整的知識圖譜,KR-BAT在1跳、2跳和3跳問題上均大幅優于其他基準模型。當知識圖譜不完整時,該任務對模型的鏈接預測能力要求很高,使用鏈接預測模型——TuckER來學習知識圖譜的知識表示,即使面對不完整的知識圖譜,也能通過模型進行知識補全,并把知識編碼到知識表示中。此外,還對比了不同知識表示學習模型對KR-BAT在不完整知識圖譜上的性能影響,結果展示在表5中。

4 結語

本文提出了一種融合知識表示學習的雙向注意力模型用于知識圖譜問答,其核心包括:(1)主題實體預測模型,用于融合知識表示并且對自然語言問題中的主題實體進行預測,有效解決了未登錄實體和知識圖譜不完整問題。(2)雙向注意力模型,用于建模候選答案實體和問題之間的關系,捕捉答案和問題之間的信息,分析問題中的哪些詞對于選擇答案最重要以及哪些候選答案和問題相關,進行推理并選擇答案。在MetaQA數據集上驗證模型并與基準模型對比,在完整知識圖譜中模型達到非常有競爭力的性能,在不完整知識圖譜中,模型性能大幅優于其他基準模型。

在未來的工作中,考慮提高模型的局部建模能力,以提高模型在簡單問題上的性能。此外,考慮將主題實體預測模型與雙向注意力模型結合為一個整體,構建端到端模型聯合訓練。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美视频二区| 亚洲综合香蕉| 凹凸国产熟女精品视频| 青青草原国产免费av观看| 免费在线国产一区二区三区精品 | 亚洲爱婷婷色69堂| 亚洲人成网站色7777| 国产精品亚洲一区二区三区在线观看| 久久久久久尹人网香蕉| 国产一区二区三区日韩精品| 国产日韩久久久久无码精品| 国产美女无遮挡免费视频| 欧美亚洲一二三区| 午夜视频免费试看| 国产91丝袜在线播放动漫 | 午夜国产在线观看| 亚洲无码四虎黄色网站| 国产欧美精品午夜在线播放| 国产在线98福利播放视频免费| 精品国产免费第一区二区三区日韩| 无码一区18禁| 中文字幕66页| 免费在线一区| 亚亚洲乱码一二三四区| 日韩精品高清自在线| 18黑白丝水手服自慰喷水网站| 欧美成人aⅴ| 亚洲国产精品无码AV| 亚洲免费播放| 欧美黄网在线| 国产成人AV男人的天堂| 免费a在线观看播放| 国产黄在线免费观看| 中美日韩在线网免费毛片视频| 久久女人网| 久久婷婷五月综合色一区二区| 在线观看亚洲国产| 国产鲁鲁视频在线观看| 91精选国产大片| 日韩二区三区无| 国产精品一区二区不卡的视频| 国产精品免费p区| 97视频精品全国免费观看 | 精品伊人久久久香线蕉| 欧美精品啪啪一区二区三区| 欧美日韩精品综合在线一区| 午夜精品福利影院| 91小视频在线播放| 亚洲国产91人成在线| 毛片网站观看| 57pao国产成视频免费播放| 久久综合九色综合97网| jizz亚洲高清在线观看| 日韩免费毛片| 国内老司机精品视频在线播出| 凹凸国产熟女精品视频| 亚洲精品天堂自在久久77| 色成人综合| 亚洲国产综合第一精品小说| 老司机久久99久久精品播放| 996免费视频国产在线播放| 欧美一级在线播放| a网站在线观看| 日本亚洲欧美在线| 视频二区欧美| 国产真实自在自线免费精品| 99久久国产综合精品2023| 毛片久久久| 一本大道无码日韩精品影视| 热这里只有精品国产热门精品| 久久99精品久久久久久不卡| 一本一道波多野结衣一区二区| 成年人免费国产视频| 白丝美女办公室高潮喷水视频| 在线免费看片a| 久久精品国产电影| 欧美一区二区三区欧美日韩亚洲| 国产精品无码一区二区桃花视频| 亚洲精品在线91| 538精品在线观看| 久久精品人人做人人爽电影蜜月 | 亚洲乱亚洲乱妇24p|