999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖上下文的知識表示學習

2021-06-21 01:53:32周澤華李冠宇
計算機應用與軟件 2021年6期
關鍵詞:文本信息模型

周澤華 陳 恒,2 李冠宇*

1(大連海事大學信息科學技術學院 遼寧 大連 116026)2(大連外國語大學軟件學院 遼寧 大連 116044)

0 引 言

知識圖譜(KGs)[1-2]已成為機器學習、數據挖掘和人工智能應用(包括問答)[3]中許多任務的關鍵資源,例如實體消歧[4]、命名實體鏈接[5]、事實檢查[6]和鏈接預測[7]。典型的知識圖譜通常是一個多關系有向圖,由一組關系三元組(h, r, t)組成,表示兩個實體h和t之間的關系為r,例如(Mark Twain,PlaceofBirth, Florida)。知識圖譜具有豐富的結構信息,在許多應用中發揮著重要作用。

盡管如此,知識圖譜仍遠沒有達到完備的程度。知識圖譜補全(KGC)和關系抽取(RE)是擴展知識圖譜的兩種典型方法。知識圖譜補全的目標是在知識圖譜原有結構的基礎上,用新的事實豐富知識圖譜。關系抽取旨在從純文本中提取關系事實。有許多工作致力于關系抽取,如基于內核的模型[8]、基于嵌入的模型[9]和神經網絡模型[10]。

KGC任務可以分為兩個非互斥的子任務:實體預測和關系預測。實體預測任務采用部分三元組(h, r, ?)或(?, r, t)作為輸入并輸出候選實體的排名列表。關系預測任務的目的是找到連接頭實體和尾實體的關系排名列表。Context_RL在知識圖譜補全任務中特別關注實體預測任務。

近年來許多KGC算法被提出,它們都有共同特點:使用低維嵌入向量表示實體和關系。如Unstructured[11]、 TransE[12]、TransH[13]和TransR[14]等嵌入模型,都是使用成對(margin-based)排名損失函數,衡量每個三元組中h+r和t之間ln范數表示的距離。

其他模型,如神經張量網絡(NTN)[15]和合成向量空間模型(CVSM)[16],將多層神經網絡解決方案納入現有模型。但是,由于它們的參數非常大,這些模型的擴展性不好,一次只考慮一個關系,從而限制了它們在大型真實世界知識圖譜上的應用。

盡管上述方法在知識表示學習方面取得了成功,但大多數方法將知識圖譜視為一組三元組,并分別獨立地對每個三元組建模。然而,在現實中,三者是相互聯系的,整個知識圖譜可以看作是一個有向圖,由頂點(即實體)和有向邊(即關系)組成。很多現有方法只考慮鏈接實體的三元組信息,而忽略了更多的全局信息,例如多步路徑、給定頂點的k度鄰域等。將這些不同的結構信息稱為圖上下文信息,文獻[17]同樣考慮到這種結構信息。本文采用的圖上下文信息即是節點的鄰接節點和邊的信息,如圖1所示,Context_RL的總體結構如圖2所示。

圖1 實體e的位置及其圖上下文信息

圖2 Context_RL的總體結構

Context_RL的實體預測任務同其他模型一樣,在得到知識圖譜向量表示的基礎上,通過實體排名進行實體預測。

1 相關工作

目前為止,學者們已提出了各種方法將實體和關系編碼到一個連續的低維空間中[18-19]。如以TransE為代表的翻譯模型,包括TransR[14]、TransD[20]等擴展模型。其他模型如NTN[15]、HolE[21]、RESCAL[22]和DISTMULT[23]等張量模型。

在上述TransE模型中,關系r在向量空間中表示h到t的平移,即如果知識圖譜中存在三元組(h,r,t),則向量(h+r)接近t。因此,TransE的能量得分函數如下:

E(h;r;t)=‖h+r-t‖1/2

(1)

TransE簡單高效,但其訓練目標具有局限性,即只能滿足1-1關系。這是因為實體缺失三元組(?, r, t)或(h, r, ?)只有一個候選實體可以滿足h+r=t。當處理1-N、N-1和N-N復雜關系類型時,TransE難以獲得準確的預測結果。但仍有以TransE模型為基礎的擴展模型取得了更好的實驗結果,例如PTransE[24],通過挖掘知識圖譜中的路徑信息在結構層面上加強知識表示學習的能力,表示形式為h+(r1○r2)=t,其中○表示加法、乘法或RNN中的一種組合運算。本文模型則是通過補充知識圖譜中圖上下文信息在語義層面上加強知識表示學習的能力,表示形式為hc+rc=tc,其中實體和關系分別融入了圖上下文信息。

現有的知識表示學習模型大多只關注實體間的結構信息(如TransE)或實體的文本描述信息,較少考慮圖上下文信息的模型。其中使用文本描述信息提高知識圖譜表示學習的方法有:文獻[15]提出了NTN模型,通過將每個實體表示為實體名稱中單詞向量的平均值,從而允許共享實體名稱中類似文本描述的信息;文獻[25]通過使用實體名稱和Wikipedia錨的對齊模型,提出了一種將實體嵌入和單詞嵌入聯合到一個連續向量空間中的新方法;文獻[26]提出了一種基于實體文本描述的對齊模型,用于聯合嵌入知識庫和文本語料庫;文獻[27]提出了DKRL模型,將詞袋模型(Bag-of-words)和深度卷積神經模型作為編碼器,編碼實體文本描述的語義;文獻[28]提出的模型學習了知識圖譜和實體文本描述在一個統一的參數共享語義空間中的表示,并提出了一個知識圖譜和文本描述間能突出重要特征的相互注意機制。

Context_RL受文獻[29]圖神經網絡模型啟發,以TransE模型為基礎,通過融合圖上下文信息,增強知識圖譜的知識表示學習能力,從而更好地完成知識圖譜補全任務。

相比基于文本描述的知識表示學習模型,Context_RL優點在于:

(1) 知識圖譜中上下文信息來源清晰,與節點緊密相關,不存在噪聲的問題。

(2) 對圖上下文信息的處理更簡便、高效。

2 模 型

2.1 符號和定義

知識圖譜(KGs)定義為G={E,R,T},其中E、R和T分別表示實體集、關系集和三元組集合。對于每個三元組(h,r,t)∈T,關系r∈R表示頭實體h∈E和尾實體t∈E間的關系,并且h,r,t∈Rn表示它們的嵌入維度為n。在知識圖譜中:

(1) 對于節點e(即實體e),存在x個以該節點為尾實體的三元組,y個以該節點為頭實體的三元組,得到基于圖上下文的潛在實體嵌入為vec∈Rn,融合vec得到實體嵌入為ve∈Rn。

(2) 對于每條邊r(即關系r),存在z個以該條邊為關系的三元組,通過關系模型得到基于圖上下文的關系嵌入,也即是最終的關系嵌入vr∈Rn。

2.2 基于圖上下文的表示學習

在Context_RL中,將知識圖譜的節點e(即實體e)的上下文信息作為模型輸入,得到一個含有該實體上下文信息的嵌入向量,即潛在實體嵌入vec,然后將vec融合到該實體的初始嵌入向量中得到模型的輸出,即實體嵌入ve。本文提出了潛在實體嵌入vec的模型方法表達式,表示為:

vec=f(g(Mht,Mr))Mht

(2)

式中:Mht∈R(x+y)×n和Mr∈R(x+y)×n分別是節點e(即實體e)的圖上下文信息中的上下文矩陣和上下文關系矩陣,Mht和Mr共同構成了e的完整的圖上下文信息。在定義以上兩個變量的過程中,本文采用了TransE的模型假設,即對真實三元組,存在假設:h+r-t≈0?;诖藯l件,定義了Mht和Mr,分別表示為:

Mht=[h1+rh1,h2+rh2,…,hx+

rhx,t1-rt1,t2-rt2,…,ty-rty]

(3)

Mr=[rh1,rh2,…,rhx,rt1,rt2,…,rty]

(4)

式中:{h1,h2,…,hx}、{t1,t2,…,ty}和{rh1,rh2,…,rhx,rt1,rt2,…,rty}分別是節點e(即實體e)在其圖上下文中以e為尾實體三元組的頭實體集合、以e為頭實體三元組的尾實體集合和相關的邊(即關系)集合。在得到圖上下文的Mht和Mr的表示基礎上,可以計算Mht中各上下文向量與Mr中對應關系向量的相似度,本文采用余弦相似度進行相似度計算。定義式(2)中相似度函數g(·)為:

(5)

由式(5)得到上下文矩陣Mht中第i個上下文向量與上下文關系矩陣Mr中第i個關系向量的相似度。通過對各個相似度進行歸一化處理,得到圖上下文的權重,即式(2)中權重函數f(·)的定義,表示為:

(6)

由式(6)得到節點e(即實體e)的上下文矩陣Mht中各上下文向量的權重。按式(2),對Mht中的上下文向量進行加權求和計算出潛在實體嵌入vec。最后將e的初始嵌入向量融合vec即可得到模型的輸出實體嵌入ve,其融合過程表示為:

(ve)[k]=(ve)[k-1]⊕vec

(7)

式中:(ve)[k]表示節點e(即實體e)在第k次迭代后得到的嵌入向量表示;⊕表示加法融合。

對知識圖譜中某條邊r(即關系r),存在z個三元組的關系為r,本文對關系嵌入vr建立關系模型表示為:

(8)

式中:Wht∈Rz×n表示邊r(即關系r)的圖上下文矩陣。Wht表示為:

Wht=[tr1-hr1,tr2-hr2,…,trz-hrz]

(9)

式中:{(hr1,tr1),(hr2,tr2),…,(hrz,trz)}表示與邊r(即關系r)相關的所有實體對的集合,也即是r的圖上下文信息。在關系模型中,忽略了r的初始嵌入向量,是因為在滿足了模型假設的同時,不僅防止了信息的重合,也有利于提高模型的效率。

為得到更好的訓練結果,定義目標函數如下。首先使用Sigmoid函數σ(·)計算各個候選實體的概率,計算式表示為:

fo(vec,vo)=b-‖vec-vo‖

(10)

P[i]=σ(fo(vec,vo)[i])

(11)

式中:vo表示某個候選實體的嵌入向量;b為偏置參數;函數fo(vec,vo)的作用是計算當前實體的潛在實體嵌入vec與候選實體vo的距離值。式(11)表示在函數σ(·)的變換下得到所有候選實體是目標實體的概率P?;诤蜻x實體的概率定義交叉熵損失函數,即目標函數,表示為:

(1-t[i])log(1-P[i])))

(12)

式中:N表示候選實體的個數;t[i]表示第i個候選實體的標簽,其取值為{0,1}。當第i個候選實體為目標實體時,t[i]為1,否則為0。

在模型優化時,本文使用的是隨機梯度下降法(SGD)。在實驗過程中,為防止數據出現過擬合,令‖ve‖≤1和‖vr‖≤1。本文算法如算法1所示。

算法1Context_RL模型算法

輸入:Training setS= {(h,r,t)},entities and relations. setsEandR, marginb, embeddings dim.n。

initialize

loop

r←r/‖r‖ for each relationr∈R

e←e/‖e‖ for each entitye∈E

Sbatch←sample (S,s)

//抽取數量大小為s的訓練樣本

for (h,r,t)∈Sbatchdo

(Mht,Mr)←graph context ofhort//從集合S中獲取h,t

//的圖上下文,并以TransE模型為基礎進行處理

sim←calculate similarity betweenMhtandMr

e←e⊕(sim·Mht)

//e表示頭實體h或尾實體t

Wht←graph context ofr

//從集合S中獲取r的圖上下文,

//并以TransE模型為基礎進行處理

r←average ofWht

end for

Update embeddingsw.r.t

//更新參數

end loop

3 實 驗

為說明本文模型在提高知識圖譜表示學習能力中融合圖上下文信息的有效性,在給出的數據集上進行了實體預測實驗。

3.1 參數設置

在實驗過程中,所有的嵌入向量的嵌入維度n=100;以模型每次運行完整個訓練集為一輪,設置運行輪次k=500;在定義目標函數時,用到偏置參數b,考慮到‖ve‖≤1,設置b=1;SGD的學習率設置為0.001。

3.2 實驗數據

WN18是WordNet的一個子集,WordNet是一個以單詞間的詞匯關系為特征的數據庫,同時這個數據集存在許多逆關系。因此,WN18的主要關系模式也是對稱/反對稱和反轉。數據集WN18RR是WN18的一個子集,刪除反轉關系,主要關系模式為對稱/反對稱。

FB15k是Freebase的一個子集,Freebase是一個包含一般事實知識的大型知識庫。其主要關系模式是對稱/反對稱和反轉。數據集FB15k-237是FB15k的一個子集,刪除反轉關系,主要關系模式為對稱/反對稱。

本文所有數據集的組成如表1所示。

表1 數據集中實體、關系、三元組的數量

3.3 實體預測

實驗結果的參考指標為MR和H@10,其含義分別為實體預測時正確實體的平均排名和正確實體排在前10的百分比。并將Context_RL的結果與其他模型結果進行了比較,結果如表2和表3所示。

表2 數據集WN18RR和FB15k-237上的實體預測結果

表3 數據集WN18和FB15k上的實體預測結果

實驗結果表明,通過Context_RL得到的結果,在給定的兩個參考指標上明顯優于其他模型,證明了Context_RL的有效性和可行性,同時說明知識圖譜的上下文信息加強了知識表示學習的能力,提高了實體預測的準確率。

3.4 三元組分類

三元組分類是一個二分類問題,判斷給定的三元組(h,r,t)是正確還是錯誤的。采用文獻[30]的抽樣方法,實驗數據集是數據集WN18和FB15k,評價指標是分類的準確率,實驗結果如表4所示。

表4 三元組分類實驗準確率結果 %

可以看出,Context_RL在三元組分類上同樣取得了很好的結果,與TransE的結果相比:在數據集WN18上,準確率提升了0.2百分點;在語義更豐富的數據集FB15k上,準確率提升了9.5%,說明了Context_RL可以應用到大規模知識圖譜上。

4 結 語

本文提出Context_RL模型,通過知識圖譜中節點或邊(即實體或關系)的圖上下文信息,來加強該實體或關系的語義表示,從而得到更加準確和可靠的向量表示。

Context_RL在WN18、FB15k等有關數據集上進行了實體預測和三元組分類實驗,并與現階段經典的TransE和最新的ConvE等模型進行了比較,取得了更好的結果。

未來的工作中,在模型Context_RL的基礎上,仍然可以通過更加精確的融合模型來融合潛在實體嵌入,進一步提高知識圖譜的知識表示學習能力。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 高清无码一本到东京热| 国产乱子精品一区二区在线观看| 色偷偷综合网| www.91中文字幕| 久久伊人色| 国产成人综合久久| 国产女人18毛片水真多1| 欧美综合中文字幕久久| 国产成人综合日韩精品无码不卡| 国产黑人在线| 免费无码网站| 国产精品三区四区| 26uuu国产精品视频| 久久视精品| 在线观看国产精美视频| 国产欧美高清| 欧洲亚洲欧美国产日本高清| 国产va视频| 丰满人妻被猛烈进入无码| 伊人久综合| 国产99热| 欧美亚洲网| 久久国产黑丝袜视频| 都市激情亚洲综合久久| 久久人搡人人玩人妻精品| www.99在线观看| 国产精品观看视频免费完整版| 熟妇丰满人妻| 成人免费一区二区三区| 国产成人精品亚洲77美色| 欧美国产日韩另类| 欧美激情视频二区| 久青草免费视频| 日韩高清中文字幕| 中国国语毛片免费观看视频| 国产一级毛片yw| 久久美女精品| 在线观看网站国产| 亚洲综合专区| 欧美亚洲香蕉| 成人自拍视频在线观看| 久久黄色一级片| 欧美日本在线播放| 69免费在线视频| 欧美不卡在线视频| 午夜视频www| 亚洲欧美一区二区三区麻豆| 国产午夜在线观看视频| 亚洲国产中文在线二区三区免| 久久精品国产精品一区二区| 国产精品对白刺激| 成人在线观看不卡| 久久综合色天堂av| 亚洲不卡影院| 亚洲色欲色欲www在线观看| 福利国产微拍广场一区视频在线 | 欧洲熟妇精品视频| 国产三级毛片| 青草91视频免费观看| 国产剧情伊人| 亚洲欧美不卡中文字幕| 91成人在线观看视频| 欧美国产在线一区| 91久久夜色精品国产网站| 久久毛片网| 伊人久久久久久久| 色婷婷综合在线| 亚洲αv毛片| 中文字幕啪啪| 巨熟乳波霸若妻中文观看免费| 久久亚洲日本不卡一区二区| 永久毛片在线播| 国产精品亚洲五月天高清| 露脸一二三区国语对白| 国产日韩精品欧美一区灰| 国产成熟女人性满足视频| 大陆精大陆国产国语精品1024 | 国产精品9| 99在线视频免费| 在线欧美一区| 亚洲人成网18禁| 日韩精品一区二区三区免费|