999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM-CRF的細粒度知識圖譜問答

2020-02-19 15:16:06張楚婷王文凱陳紅亮賓辰忠
計算機工程 2020年2期
關鍵詞:實驗模型

張楚婷,常 亮,王文凱,陳紅亮,賓辰忠

(桂林電子科技大學 a.廣西可信軟件重點實驗室;b.衛星導航定位與位置服務國家地方聯合工程研究中心,廣西 桂林 541004)

0 概述

隨著知識圖譜的發展,基于知識圖譜的各項應用研究也不斷深入。在深度學習技術未被廣泛應用前,傳統的問答旨在用語義解析的方式將自然語言問句通過語義解析器轉換為結構化查詢語言,從而到數據庫中查詢答案。然而,隨著數據量的迅速增多,該方法已不能滿足人們快速獲取正確答案的需求。現有多數關于知識圖譜問答的研究方法,都將問句和知識庫里的事實映射到一個共同的低維度空間內,通過計算問句向量與答案向量的余弦相似性來找到問句的正確答案。但此類方法在候選主實體的篩選上步驟繁瑣,并且忽略了問句中主實體與關系之間以及問句中原始詞語之間的相關性。

針對上述問題,本文構建一種基于BiLSTM-CRF與N-Gram算法的細粒度知識庫問答模型。受知識圖譜表示學習中翻譯模型的啟發,將問句與答案的關系表示為三元組的形式,把問答過程分為實體識別和關系預測2個部分。采用BiLSTM+CRF模型進行命名實體識別,并使用N-Gram算法為候選實體建立倒排索引,其中每個索引結點包含一個由萊溫斯坦距離計算得到的權值。在此基礎上,利用注意力機制和卷積神經網絡(Convolutional Neural Networks,CNN)模型,分別從語義層次和詞層次捕獲問句主實體與候選關系之間和問句與關系原始詞語之間的相互關系。

1 相關研究

知識圖譜又稱為科學知識圖譜,由谷歌公司于2012年正式提出,其本質是一張巨大的圖,也可以稱為有向圖結構的知識庫,即語義網絡的知識庫。在知識圖譜中,結點表示實體,邊表示實體之間的關系。知識圖譜的表示學習旨在學習實體和關系的向量化表示[1],其中基于多元關系的翻譯模型TransE[2],將每個三元組實例(head、relation和tail)中的關系看作從頭實體head到尾實體tail的翻譯,通過不斷調整h、r和t(分別表示head、relation和tail),使(h+r)盡可能與t相等,即h+r≈t。

目前基于知識圖譜的問答研究,已經從先前基于語義解析的研究,逐漸轉變為由信息提取衍生的基于深度學習的知識圖譜問答研究。文獻[3]提出將詞向量的表示學習方法用于基于知識圖譜的問答,因為知識庫總是以三元組的形式存放大量事實,所以該文提出將單一關系的自然語言問答視作已知三元組的頭實體和關系,尋找三元組尾實體的過程,即,其中三元組的頭實體和關系與問句中的詞語相關聯,而問句的正確答案即為三元組的尾實體。受該方法的啟發,本文將問句與答案的關系表現為三元組的形式,并把整個模型分為實體識別和關系預測2個部分,通過分別提高兩部分的準確率來提高整個模型返回問句正確答案的準確率。多數模型在候選主實體的篩選上采用人工定義的實體匹配規則,步驟繁瑣且準確率不高。N-Gram[4]是一種基于統計語言模型的算法,可以用來評估2個字符串之間的距離,是模糊匹配中常用的一種方法,即當2個字符串s、t都用N-Gram算法來表示時,則對應N-Gram子串中公共部分的長度就稱為N-Gram距離。目前,較多模型采用N-Gram算法進行候選實體的篩選,但單一地使用該算法并不能滿足現階段問答模型需要快速準確定位知識圖譜候選實體的需求。本文利用N-Gram算法為候選實體建立倒排索引,并以萊溫斯坦距離作為候選實體的得分,得到候選實體排序,從而快速準確地將問句中的實體定位到知識圖譜。在問句的實體識別部分,多數方法都采用基于解析句法和語義信息[5]的方式來提取問句特征,實體識別準確率不高。文獻[6]提出一種將BiLSTM和CRF結合進行序列標注的模型,該模型可以有效地使用過去和未來的特征標簽來預測當前的標簽,命名實體的識別率較傳統方法得到顯著提高。

注意力機制本質上與人類的選擇性視覺注意力機制類似,其核心目標是從眾多信息中選擇出對當前任務目標更關鍵的信息。文獻[7]設計注意力與全局信息相結合的知識庫問答,采用注意力機制給問句中的各個詞語賦予權重,該權重表示答案的不同方面對問題表示的影響。文獻[8]則將模型分為2個部分,即答案問句端和問句答案端。該模型的第一部分采用注意力機制計算答案問句端的問句向量與答案向量相似性得分,第二部分同樣通過注意力機制計算問句答案端問句向量對答案各方面向量的不同關注程度,最后將第二部分的計算結果作為第一部分相似性得分的權值,從而求得問句向量與答案向量最終的相似性得分。受以上方法的啟發,本文模型在關系預測部分采用注意力機制捕獲問句向量與關系向量語義層次上的相似性。

對于文本或字符串的相似性判斷,現有方法和多數實驗都選擇通過將文本或字符串向量化后用余弦值[9]來判斷其是否相似。文獻[10]提出利用圖像識別的方法進行文本匹配,構造文本的相似度矩陣,然后用卷積神經網絡來提取矩陣特征。本文將該方法應用于問答領域,在關系預測部分通過使用卷積神經網絡抽取問句向量與關系向量相似性矩陣的特征,從而得到問句向量與關系向量在詞層次上的相似性。

2 基于BiLSTM-CRF的知識圖譜問答模型

本文模型分為2個部分,即實體識別和關系預測。在實體識別部分,提出采用BiLSTM-CRF模型進行命名實體識別,與傳統基于BiLSTM的命名實體識別方法相比,CRF層的加入進一步提高了命名實體識別的準確性。同時,采用N-Gram算法為與實體名和實體別名相同的候選實體建立倒排索引,并以萊溫斯坦距離[11]作為得分為候選實體排序。在關系預測部分,將關系視為2個部分,一部分代表實體的類型,另一部分代表問句主實體與答案之間真實的關系,分別應用注意力機制和CNN模型捕獲問句主實體與候選關系之間的相互聯系以及原始詞語之間的相互聯系。

2.1 實體識別

2.1.1 BiLSTM-CRF模型

在對于問句的處理中,問句的命名實體識別是極為關鍵的一個步驟。最初的命名實體識別方法主要分為基于規則的方法和基于統計的方法,而目前多數研究更傾向于使用神經網絡來提取問句特征進行命名實體的識別。BiLSTM由2個LSTM拼接而成,其包含1個正向輸入序列和1個反向輸入序列,同時考慮了過去的特征和未來的特征。當用BiLSTM進行命名實體識別時,BiLSTM的輸出為實體標簽的分數且選擇最高分數對應的標簽。然而有時BiLSTM不能得到真正正確的實體標簽,在這種情況下,就需要加入CRF層。CRF結合了最大熵模型和隱馬爾科夫模型的特點,且近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了較好的效果。

例如,對問句“Where is Tsinghua University located?”用BiLSTM-CRF算法進行命名實體識別,實驗效果如圖1所示,可得“Tsinghua University”的實體標簽為“B-Organization I-Organization”。同理,對于問句“What is the height of Yao Ming?”,經BiLSTM-CRF模型處理后可得到“Yao Ming”的實體標簽為“B-Person,I-person”。

圖1 BiLSTM-CRF模型結構

通過實驗可知,CRF層的作用不僅在于可以進一步得到實體標簽的得分,同時還可以在訓練過程中自動學習對于最后預測標簽的限制規則。以上述問句為例,限制條件如下:

1)因為問句中第1個詞通常為疑問詞,所以第1個詞的標簽應為“O”。

2)在“B-label1,I-label2,I-label3”中,“lable1,label2,label3”等要有同樣的標簽類型,即“B-organizationI-organization”有效,“B-Person I-organization”無效。

2.1.2 基于N-Gram算法的候選實體的倒排索引

通過BiLSTM-CRF模型識別出問句實體后,還需要將該實體與知識圖譜中的相應結點進行關聯。本文實驗中采用N-Gram算法(其中N∈{1,2,3})為與實體名和實體別名相同的候選實體建立倒排索引,并用萊溫斯坦距離計算得到的權值為候選實體排序。

倒排索引以詞或字符串作為關鍵字,對每種關鍵字都設立一個索引,每個關鍵字對應的是該詞或字符串在所有文檔中的位置信息以及頻率,圖2所示為一個小型數據集基于2-gram的倒排索引。

圖2 2-gram倒排索引

數據集N-Gram倒排索引Ientity形式如下:

Ientity(“qi”)→{node:ei,score:LLSD}

其中,LLSD為萊溫斯坦距離。萊溫斯坦距離為編輯距離的一種方法,主要用來量化字符串之間的相似度,即計算從一個字符串轉換成另外一個字符串所需要的最少操作步驟,通過刪除、插入、替換操作來定義萊溫斯坦距離。因此,萊溫斯坦距離越大表示字符串的相似度越低。

2.2 關系預測

在本文提出的細粒度知識庫問答方法中,候選關系rk的識別分別從語義層次和詞層次進行(其中rk表示候選實體ei所關聯的所有關系R)。在語義層次上,引入注意力機制表示關系r對于問句中不同詞語的關注程度;在詞層次上,構建問句向量與關系向量的相似度矩陣,并用CNN抽取該矩陣的特征。最后,將兩部分的特征向量用一個線性層連接起來,從而得到最后候選關系rk與問題模式Q的相似性得分,即最終預測的關系為:

rf=argmax(S(Q,rk))=Sigmoid(WT[zi+b])

圖3 關系預測模型整體結構

2.2.1 語義層次

在Freebase中關系通常由2個部分構成,一部分代表問句中實體的類型,另一部分代表實體與答案之間真正的關系。因此,在實驗中關系的嵌入向量分別為r1和r2。

wij=vTtanh(wT[qi;ri]+b)

rf=argmax(S(Q,rk))=Sigmoid(WT[zi+b])

2.2.2 詞層次

文獻[7]指出,詞語的相似性匹配也可以看作采用卷積神經網絡的圖像識別過程,此處的“圖像”通常為詞語的相似度矩陣。卷積神經網絡[13]是一類包含卷積計算且具有深度結構的前饋神經網絡,是圖像識別領域的核心算法之一[14]。

實驗中相似性矩陣Mij=qi.uj,其中qi表示問句中第i個詞的嵌入向量,uj表示關系中第j個詞的嵌入向量,且通過計算2個向量的余弦相似度來構建相似性矩陣。

在卷積層中當第k個方形卷積核wk掃描相似性矩陣Mij時可以得到特征映射矩陣,矩陣元素表示如下:

其中,γ為ReLU激活函數,rk為第k個卷積核的大小。

在最大池化層,本文實驗用2個大小分別為s1和s2的池化核抽取卷積后的相似性矩陣fk,得到特征矩陣yi和yj,且s1代表問句的長度,s2代表關系的長度:

在全連接層,用兩層感知機得到最后的特征向量z3、z4:

z3=w2γ(w1[y(1,0);y(1,k)+b1])+b2

z4=w2γ(w1[y(2,0);y(2,k)]+b1)+b2

其中,k代表卷積核的總個數,[y(i,0);y(i,k)]為池化層的輸出,wi為多層感知機的權重,γ代表ReLU激活函數。

2.3 模型訓練與優化

實驗中用損失排名來優化候選關系池R中的正例關系r+和負例關系r-:

其中,S(P,r-)、S(P,r+)分別表示負例關系與問題模板的相似性得分和正例關系與問題模板的相似性得分,γ為常量參數。

3 實驗

3.1 實驗環境與實驗數據

實驗環境:操作系統Ubuntu 16.04,CUDA 8.0,cudnn 6;處理器4顆CPU核心,1顆Nvidia Tesla P100共享GPU核心;內存大小60 GB,顯存大小16 GB;編譯平臺Pycharm Profession,Python 3.5,Pytorch 0.2.0。

實驗數據:實驗數據采用文獻[3]中的SimpleQuestion數據集。該數據集針對單一關系問題,且數據集的每一對問題與答案都能在FreeBase中找到相應的三元組與之對應,如表1所示。

表1 問句與三元組

實驗將數據集分為訓練集、有效集、測試集3個部分,其中包含的三元組個數分別為78 360、10 825和21 580。同時,實驗中的知識庫采用Freebase下的FB2M和FB5M數據集。

3.2 實驗參數設置

本文的實驗分為2個部分,即實體識別和關系預測。在實體識別部分,先用Glove將詞語訓練成向量,再將詞語向量輸入BiLSTM-CRF得到最后的實體預測得分;在關系預測部分,先用BiGRU訓練問句,再用CNN抽取問句向量與關系向量的相似性矩陣,在此部分的實驗中參數訓練采用一階梯度隨機優化目標函數[15]。兩部分具體參數設置如表2和表3所示。

表2 實體識別參數設置

表3 關系預測參數設置

3.3 評價指標

本文將召回率R和準確率P作為評價指標,計算公式如下:

其中,Nr表示預測正確的數據的數目,Ntotal表示測試集總的數據數目,Npre表示實驗中預測的數據數目。

3.4 實驗結果分析

本文使用SimpleQuestion數據集在Freebase下的FB2M和FB5M數據集下進行實驗,以實體關系對的識別準確率作為評價指標,將本文模型與同樣在該數據集下進行實驗的模型相比。對比的5種模型分別為基于記憶網絡的簡單關系問答模型[3]、基于字符層面和自注意力機制的簡單關系問答模型[16]、基于自注意力機制和卷積神經網絡的簡單問答[17]、基于大規模知識圖譜的條件聚集神經網絡問答模型[18]、基于字與字符的神經網絡問答模型[19]。實驗結果如表4所示,可以看出,本文方法在FB2M和FB5M數據集上準確率達到了78.5%和77.3%的Top-k值,相比其他在FB2M和FB5M數據集上準確率相對較高的模型,分別提高了1.9%和1.6%。對比模型在實體識別部分都單一地采用N-gram算法或者神經網絡,實體識別的準確率不高,而本文方法通過采用BiLSTM-CRF與N-gram結合的模型,進一步提高了命名實體識別的準確率,從而使模型的整體性能相比之前的實驗有所提升。

表4 Top-k實體關系對預測準確率

3.4.1 實體識別

為體現本文模型在實體識別部分的優勢,將本文模型與文獻[17,19]模型進行比較。文獻[17]模型在實體識別部分提出2種方法,分別為計算LCCS(即最長連續公共子序列)的被動實體鏈接方法和通過BiGRU-CRF進行命名實體識別的激活實體鏈接方法,而文獻[19]模型在實體識別部分用GRU處理問句且實體的表示由字符層面的實體標簽和詞層面的實體標簽兩部分構成。

本文模型在實體識別部分采用BiLSTM-CRF的命名實體識別方法,同時應用N-Gram算法(N∈{1,2,3})為候選實體建立倒排索引并且給每個實體結點賦予一個基于萊溫斯坦距離的權重,從而提高了命名實體識別和候選實體篩選的準確率。表5顯示了3種方法在排名在前k(k∈{1,5,20,50,100,400})的候選實體上的召回率,可以看出,本文模型在Top-k的召回率上相比文獻[17,19]模型有顯著提升。

表5 Top-k候選實體的召回率

3.4.2 關系預測

在關系預測部分,本文采用文獻[17]中的數據集測試本文模型。表6比較了BICNN[20]、AMPCNN[17]和HR-BiLSTM[21]這三個模型和本文模型的關系預測準確率。上述3個模型都在一個編碼框架下,將問題和關系都映射成向量從而通過向量之間的比較來判斷問題和關系的語義相似性。從表6可知本文模型關系預測的準確率高于目前關系預測準確率相對較高的HR-BiLSTM模型。HR-BiLSTM模型采用層次殘差BILSTM模型提取問句的不同粒度表示,同時分別從關系的詞層次和關系本身編碼關系,最后通過計算問句和關系的相似度來對候選關系排序。而本文模型分別從語義層次和詞層次找尋關系向量與問句模板向量之間的相似性。在語義層次上,采用自注意力機制為問句中的詞語賦予不同的權重,從而表現關系向量對問句中不同詞向量的不同關注程度;在詞層次上,采用CNN抽取問句向量與關系向量構成的相似性矩陣。

表6 關系預測準確率

4 結束語

本文構建一種基于BiLSTM-CRF模型和N-Gram算法的細粒度知識庫問答模型,用于單一關系問答。該模型解決了傳統模型在實體識別上使用單一的神經網絡方法導致命名識別準確率不高的問題,同時采用自注意力機制和CNN提高了關系預測的準確率,減小了人工定義規則對模型準確率的影響和模型的復雜性。在FB2M和FB5M數據集上的實驗結果表明,該模型可顯著提高整體識別準確率。盡管本文模型在單一關系數據集上表現良好,但并不能滿足實際應用中復雜問句的需要。因此,下一步將結合知識圖譜表示學習中對于一對多和多對多問題的研究,構建針對多個實體和多種關系的知識庫問答模型。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩在线成年视频人网站观看| www.91中文字幕| 国产精品久久精品| 国产a v无码专区亚洲av| 91免费片| 全色黄大色大片免费久久老太| 亚洲AⅤ永久无码精品毛片| 亚洲天堂精品视频| 五月天在线网站| 人妻精品全国免费视频| 777国产精品永久免费观看| 国产情侣一区二区三区| 国产免费网址| 无码有码中文字幕| 亚洲男人在线| 视频二区亚洲精品| 国产乱子伦精品视频| 色婷婷亚洲综合五月| 日韩精品一区二区三区swag| 国产欧美另类| 日韩精品毛片| 国产精品成人一区二区不卡 | 国产在线一区视频| 久久久久人妻一区精品| 国产精品无码作爱| 国精品91人妻无码一区二区三区| 中文字幕乱码中文乱码51精品| 婷婷五月在线视频| 一本色道久久88| 成人一区在线| 久久先锋资源| 国产小视频免费| 国产香蕉在线视频| 亚洲精品制服丝袜二区| 欧美午夜性视频| 亚洲精品福利视频| 免费国产好深啊好涨好硬视频| 久久中文无码精品| 欧美第九页| 国产精品va免费视频| 无码一区中文字幕| 精品国产福利在线| 精品久久香蕉国产线看观看gif| 三级毛片在线播放| 日本国产在线| 婷婷亚洲视频| 制服丝袜亚洲| 国产自视频| 国产精品手机在线观看你懂的| 中文字幕免费在线视频| 婷婷99视频精品全部在线观看| 欧美一区二区人人喊爽| 国产麻豆福利av在线播放| 一级全黄毛片| 蜜桃臀无码内射一区二区三区| 国产精品三区四区| www亚洲天堂| 97青草最新免费精品视频| 久久天天躁狠狠躁夜夜躁| 免费久久一级欧美特大黄| 国产高清不卡| 国产一二视频| 免费观看无遮挡www的小视频| 免费无码AV片在线观看国产| 精品无码日韩国产不卡av | 国产成人无码播放| 国产成人无码久久久久毛片| 亚洲a级在线观看| а∨天堂一区中文字幕| 亚洲最大福利网站| 91麻豆精品国产高清在线| 国产浮力第一页永久地址| 国产精品网拍在线| 久久人午夜亚洲精品无码区| 国产sm重味一区二区三区| 国产日本一区二区三区| 午夜精品福利影院| av午夜福利一片免费看| 麻豆精品在线| 亚洲一区二区视频在线观看| 丰满少妇αⅴ无码区| 日本道综合一本久久久88|