999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)的鏈接預(yù)測研究

2021-08-06 08:25:48鄭小柏崔巖劉興林
現(xiàn)代計(jì)算機(jī) 2021年18期
關(guān)鍵詞:信息模型

鄭小柏,崔巖,2,劉興林

(1.五邑大學(xué)智能制造學(xué)部,江門529020;2.珠海四維時(shí)代網(wǎng)絡(luò)科技有限公司,珠海519080)

0 引言

知識庫組織和存儲(chǔ)事實(shí)知識,在智能問答[1-6]和信息檢索[7-10]等領(lǐng)域上得到了廣泛的應(yīng)用,即使是世界上最大的知識庫,例如Freebase、Wikidata和Yago等,盡管人們在其創(chuàng)建和維護(hù)上投入了巨大的努力,但其仍然是不完整的。據(jù)2014年統(tǒng)計(jì),世界上最大的知識庫之一Freebase,其中包含了數(shù)百萬個(gè)實(shí)體和數(shù)十億個(gè)涉及多種謂詞(關(guān)系類型)的事實(shí)(三元組),但卻存在著71%的人沒有確切的出生日期,75%的人沒有國籍信息[11]。知識庫的缺失會(huì)損害著其所支持的下游應(yīng)用,因此如何預(yù)測知識庫中缺失的信息成為了眾多學(xué)者們關(guān)注和研究的主要焦點(diǎn)之一。

知識庫以三元組(主語、謂語、賓語)的形式存儲(chǔ)事實(shí),如圖1所示,事實(shí)三元組(Leonardo DiCaprio,work at,Hollywood),我們將Leonardo DiCaprio和Hollywood稱為實(shí)體,將work at稱為關(guān)系。此外,我們根據(jù)實(shí)體的類型為其打上標(biāo)記(例如,Leonardo DiCaprio被標(biāo)記為movie actor),將知識庫的事實(shí)三元組表示為有向標(biāo)記多重圖是非常方便的。知識圖譜補(bǔ)全根據(jù)其基本任務(wù)類型可分為:鏈接預(yù)測[12-14]、實(shí)體預(yù)測[15-17]、關(guān)系預(yù)測[15-18]和屬性預(yù)測[19]。本文主要考慮了知識圖譜補(bǔ)全的鏈接預(yù)測任務(wù)。在有向標(biāo)記多重圖中,通過對有向標(biāo)記多重圖局部領(lǐng)域結(jié)構(gòu)化關(guān)系信息分析,我們可以得出知識圖譜中許多缺失的信息,例如知道Leonardo DiCaprio work at Hollywood,這就意味著可以推測出三元組(Leonardo DiCaprio,lived in,U.S.A)肯定存在于知識圖譜中。

圖1 有向標(biāo)記多重圖

Schlichtkrull等人[20]提出了關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)模型(R-GCN),該模型可以通過知識圖譜中的局部領(lǐng)域結(jié)構(gòu)化關(guān)系信息,預(yù)測出許多所缺失的信息。R-GCN模型通過輸入知識圖譜目標(biāo)實(shí)體局部領(lǐng)域中的關(guān)系信息,例如關(guān)系類型,關(guān)系方向,以及目標(biāo)實(shí)體自循環(huán)等信息,輸出目標(biāo)實(shí)體的潛在特征向量表示,然后再將其通過Yang等人[21]提出的DistMult解碼器進(jìn)行鏈接預(yù)測任務(wù)。基于R-GCN模型的啟示,該模型忽略了知識圖譜中實(shí)體描述這一重要信息,本文提出了一個(gè)基于實(shí)體描述和關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)的模型(DR-GAT),在R-GCN模型的基礎(chǔ)上融入了實(shí)體描述信息和加入了注意力機(jī)制,并將其應(yīng)用于鏈接預(yù)測任務(wù)。我們的鏈接預(yù)測模型可以視為自動(dòng)編碼器,首先是編碼器DR-GAT,通過知識圖譜中的關(guān)系信息和實(shí)體描述等產(chǎn)生目標(biāo)實(shí)體的潛在隱形特征向量表示,然后是解碼器DistMult,這些潛在隱形特征向量表示通過DistMult張量分解模型進(jìn)行鏈接預(yù)測。本文對DR-GAT+模型進(jìn)行了實(shí)驗(yàn)評估,實(shí)驗(yàn)結(jié)果證明,改進(jìn)后的DR-GAT+模型有效地改善了鏈接預(yù)測的結(jié)果,檢驗(yàn)了該方法的可行性。

1 模型設(shè)計(jì)分析

本文將知識庫中的事實(shí)三元組表示為有向標(biāo)記多重圖G=(V,E,R),其中節(jié)點(diǎn)vi∈V,V為節(jié)點(diǎn)(實(shí)體)集合;標(biāo)記的邊(vi,r,vj)∈E,E為關(guān)系集合;有向邊的關(guān)系類型表示r∈R,R為關(guān)系類型集合。

1.1 實(shí)體描述表示及其特征融合

知識圖譜中蘊(yùn)含著大量豐富的信息,除了存在大量的事實(shí)三元組,其一般還包含了實(shí)體描述的語義文本信息,每個(gè)實(shí)體都存在著與其對應(yīng)的描述文本信息,體描述信息就是簡短的文字描述,針對某個(gè)實(shí)體的信息補(bǔ)充。

對于實(shí)體的描述,文字量比較大,我們采用了使用Doc2Vec進(jìn)行處理得到的xi。使用已訓(xùn)練好的模型得到的實(shí)體描述段落分布式向量來表示知識圖譜中的實(shí)體詞向量,可以對實(shí)體進(jìn)行更豐富的信息補(bǔ)充,更好地保留了知識圖譜實(shí)體描述語義文本中蘊(yùn)含的價(jià)值信息,更好地挖掘出實(shí)體所包含的潛在特征信息。

本文考慮將節(jié)點(diǎn)信息與實(shí)體描述信息的特征進(jìn)行融合,作為模型的輸入,整個(gè)知識圖譜中包含R中關(guān)系以及N個(gè)實(shí)體節(jié)點(diǎn),每個(gè)實(shí)體節(jié)點(diǎn)i用一個(gè)特征向量hi進(jìn)行表示,此外所有實(shí)體節(jié)點(diǎn)的特征組成一個(gè)特征矩陣X:

使用Doc2Vec工具包中PV-DM模型得到的實(shí)體i描述信息段落向量xi代替對應(yīng)實(shí)體i的詞向量作為實(shí)體i特征向量,即hi=xi,此時(shí)X為:

1.2 中間表示

不同的關(guān)系傳達(dá)不同的信息,根據(jù)Schlichtkrull等人提出的更新規(guī)則,在關(guān)系r下,每個(gè)節(jié)點(diǎn)通過權(quán)重矩陣W(r)以得到一個(gè)特有的中間表示(intermediate repre?sentations)特征向量g(ir)∈RN×F’:

其中,G(r)是關(guān)系r下的中間表示特征矩陣,W(r)∈RF×F’是可學(xué)習(xí)共享線性變換矩陣。

1.3 關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)

Schlichtkrull等人[20]提出的R-GCN模型是將知識庫中的事實(shí)三元組表示為有向標(biāo)記多重圖,通過對其局部領(lǐng)域結(jié)構(gòu)化信息進(jìn)行卷積學(xué)習(xí),從而進(jìn)行對知識圖譜的補(bǔ)全。R-GCN模型作為對知識圖譜局部領(lǐng)域上操作的Duvenaud等人[22]提出GCNs模型從小規(guī)模到大規(guī)模關(guān)系數(shù)據(jù)的擴(kuò)展。其中,這些方法與類似的方法相比,如Scarseli等人[23]提出圖神經(jīng)網(wǎng)絡(luò),該方法可以視為Gilmer等人[24]提出的簡單可微的消息傳播框架的一個(gè)特殊案例:

其中,h(i l)表示節(jié)點(diǎn)vi在第l層神經(jīng)網(wǎng)絡(luò)的潛在隱性狀態(tài);d(l)表示該層神經(jīng)網(wǎng)絡(luò)的維數(shù);gm(?,?)表示類神經(jīng)網(wǎng)絡(luò)函數(shù);σ(?)表示元素激活函數(shù);Mi表示該層節(jié)點(diǎn)vi的輸入信息集;該式子可以理解為第l層神經(jīng)網(wǎng)絡(luò)輸入信息經(jīng)過gm(?,?)函數(shù)處理,然后進(jìn)行累加激活,最后得到第l+1層神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的潛在隱性狀態(tài)表示h(il+1)。一般地,激活函數(shù)σ(?)可選為ReLU(?)=max(0,?),函數(shù)gm(?,?)可選為具有權(quán)重矩陣W的線性變換gm(hi,hj)=Whj。

事實(shí)證明,此類型的轉(zhuǎn)換在處理知識庫中的局部領(lǐng)域結(jié)構(gòu)化信息表征學(xué)習(xí)中的積累和編碼特征方面非常出色。受此體系結(jié)構(gòu)的啟發(fā),為處理知識圖譜中大規(guī)模的高維多關(guān)系數(shù)據(jù),Schlichtkrull等人[20]根據(jù)知識圖譜中局部領(lǐng)域星形結(jié)構(gòu)進(jìn)行建模,提出了一個(gè)R-GCN模型:

其中,Ni r表示在關(guān)系r∈R下節(jié)點(diǎn)i的鄰居索引集;ci,r是問題特定的標(biāo)準(zhǔn)化常數(shù),可以通過預(yù)先學(xué)習(xí)或選擇,一般可選為ci,r=|Ni(r)|。

可簡單表示為:

1.4 注意力機(jī)制

1.5 關(guān)系圖注意力層

神經(jīng)網(wǎng)絡(luò)中單個(gè)節(jié)點(diǎn)的計(jì)算更新過程如圖2所示。

圖2 加入注意力機(jī)制的關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)中單個(gè)節(jié)點(diǎn)計(jì)算更新圖

如圖2所示,在每個(gè)關(guān)系r下,目標(biāo)節(jié)點(diǎn)i的中間特征向量表示(左紅色矩形)與其鄰域節(jié)點(diǎn)的中間特征向量表示(藍(lán)色矩形)組合在一起,形成每個(gè)logitE(i

r,

)j。對于每種關(guān)系類型,對每個(gè)logit矩陣取softmax,以形成注意力系數(shù)a(ir,)j。這些注意力系數(shù)針對每個(gè)關(guān)系在附近節(jié)點(diǎn)上構(gòu)造一個(gè)加權(quán)和(黑色矩形)。然后將它們匯總并通過非線性傳遞,以生成目標(biāo)節(jié)點(diǎn)(i右紅色矩形)的更新表示。

我們把融入了實(shí)體描述信息和加入注意力機(jī)制的關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)模型簡稱為稱為DR-GAT模型。

2 鏈接預(yù)測

鏈接預(yù)測就是利用知識圖譜中原有的事實(shí)三元組,通過一定規(guī)則的知識推理,預(yù)測新的事實(shí)三元組。形式上,知識庫由有向標(biāo)記多重圖G=(V,E,R)表示,我們在知識庫中得到的只有邊的一個(gè)不完整子集ε,而并非邊的完整集合E。本文的任務(wù)是通過DR-GAT模型和DistMult評分函數(shù)來對某些可能的邊(s,r,o)產(chǎn)生一個(gè)分?jǐn)?shù)f(s,r,o),以確定這些邊是否屬于E。

在本文中,我們提出了一個(gè)圖形自動(dòng)編碼器模型(DR-GAT+),它可以看作是由編碼器DR-GAT和一個(gè)解碼器DistMult(評分函數(shù))組成。編碼器DR-GAT將有向標(biāo)記多重圖中的每個(gè)實(shí)體vi∈V映射到實(shí)值向量ei∈Rd,而解碼器DistMult依靠頂點(diǎn)表示重構(gòu)知識庫的邊。圖3描繪了DR-GAT+模型鏈接預(yù)測的過程。

眾所周知,DistMult是一個(gè)最簡單和最有效的因式分解之一,當(dāng)它單獨(dú)作為鏈接預(yù)測評分函數(shù)使用時(shí)有著良好表現(xiàn)。在DistMult中,每個(gè)關(guān)系r與對角矩陣Rr∈Rd×d相關(guān)聯(lián),三元組(s,r,o)的得分為:

圖3 鏈接預(yù)測模型

本文采用和DistMult因式分解一樣的ω負(fù)采樣方法來訓(xùn)練模型,通過隨機(jī)破壞每個(gè)正樣本的主體或客體來取樣,利用交叉熵?fù)p失進(jìn)行優(yōu)化,以使模型的正例三元組得分高于負(fù)例三元組:

其中,T是正例三元組和負(fù)例三元組的總和集合;l是邏輯sigmoid函數(shù);y是一個(gè)指示器,對于正例三元組,y=1,對于負(fù)例三元組,y=0。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)集

在以往的鏈接預(yù)測任務(wù)中,一般都會(huì)選用知識庫Freebase中的子集FB15k作為模型的主要評估數(shù)據(jù)集,本文效仿了Schlichtkrull等人[20]的觀點(diǎn),選用FB15k數(shù)據(jù)集中的FB15k-237子集作為本文模型的一個(gè)主要評估數(shù)據(jù)集。因?yàn)門outanova和Chen等人[25]在研究中發(fā)現(xiàn),F(xiàn)B15k數(shù)據(jù)集中存一個(gè)嚴(yán)重影響實(shí)驗(yàn)結(jié)果的一個(gè)現(xiàn)象:在訓(xùn)練集中存在三元組t=(e1,r,e2),而在測試中卻出現(xiàn)其反向三元組t'=(e2,r-1,e1)。而數(shù)據(jù)集FB15k-237作為FB15k的子集,它克服了FB15k中在鏈接預(yù)測實(shí)驗(yàn)中所存在的不足,去掉了FB15k中所有的反向三元組。數(shù)據(jù)集FB15k以及其子集FB15k-237中的各項(xiàng)指標(biāo)統(tǒng)計(jì)見表1。

表1 兩個(gè)數(shù)據(jù)集的實(shí)體和關(guān)系類型以及邊的數(shù)量

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)評估部分,本文選擇了Yang等人[21]提出的最簡單最有效的DistMult因式分解模型,兩種經(jīng)典的鏈接預(yù)測算法:Bordes等人[26]提出的TransE模型和Nickel等人[27]提出的HolE模型,以及Schlichtkrull等人[20]提出的R-GCN+模型作為我們實(shí)驗(yàn)的基線。

本文選擇了一個(gè)2個(gè)具有500個(gè)單元隱層的DRGAT模型與DistMult因式分解模型相結(jié)合作為本文的實(shí)驗(yàn)?zāi)P停疚姆Q之為DR-GAT+模型。其中對于參數(shù)選擇部分,學(xué)習(xí)率設(shè)置為0.01,自循環(huán)丟失率為0.2,其他邊緣丟失率為0.4,采用L2正則化,懲罰因子為0.01。本文對基線和DR-GAT+模型訓(xùn)練均使用全批次優(yōu)化。

對于實(shí)驗(yàn)結(jié)果,本文采用了兩個(gè)常見結(jié)果評估指標(biāo):原始和濾波的平均倒數(shù)排名MRR和排名前n的有效比例Hits@n(其中n分別選擇為1、3、10)。

3.3 實(shí)驗(yàn)結(jié)果

DistMult、TransE、HolE、R-GCN+以及DR-GAT+模型在數(shù)據(jù)集FB15k-237下的鏈接預(yù)測結(jié)果如表2所示:

表2 各個(gè)模型在數(shù)據(jù)集FB15k-237上的實(shí)驗(yàn)結(jié)果

在表2中,我們展示了各個(gè)模型在數(shù)據(jù)集FB15k-237上的鏈接預(yù)測結(jié)果。從表中我們可以得到,在數(shù)據(jù)集FB15k-237下,各模型在原始和濾波后的平均倒數(shù)排名MRR指標(biāo)下的結(jié)果降序?yàn)椋?)DR-GAT+,2)RGCN+,3)TransE,4)HolE,5)DistMult。我們的DRGAT+模型原始和濾波后平均倒數(shù)排名MRR比RGCN+模型的分別高0.97%、0.83%。而各模型在排名前n的有效比例Hits@n指標(biāo)下的結(jié)果降序,我們基本可以認(rèn)為是:1)DR-GAT+,2)R-GCN+,3)TransE,4)HolE,5)DistMult。我們注意到,在Hits@n指標(biāo)中,當(dāng)n分別取1、3、10時(shí),DR-GAT+模型排名前n有效比例Hits@n分別比R-GCN+模型的高出0.75%、0.70%、0.81%。由此,我們可以認(rèn)為,在融入實(shí)體描述下的關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)DR-GAT+模型比原來的關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)R-GCN+模型在鏈接預(yù)測上有所提升,在R-GCN+模型融入實(shí)體描述和加入注意力機(jī)制后的DR-GAT+模型對知識庫中星型局部鄰域結(jié)構(gòu)化信息的處理效果更佳,證明了該方法的有效性。

4 結(jié)語

在本文中,我們在基于關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)上融入了實(shí)體描述信息和加入了注意力機(jī)制,將其應(yīng)用于知識圖譜補(bǔ)全中的鏈接預(yù)測任務(wù)并證明了其有效性。通過多組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明DR-GAT+模型在FB15k-237數(shù)據(jù)集上比其他四種基線取得了更好的鏈接預(yù)測結(jié)果,證明了融入實(shí)體描述的DR-GAT模型在處理局部鄰域信息時(shí)效果更出色。但在實(shí)驗(yàn)中,我們只對去掉了所有反向三元組數(shù)據(jù)集FB15k的子集FB15k-237進(jìn)行了鏈接預(yù)測。下一步工作,針對知識圖譜存在的大量非對稱關(guān)系,利用ComplEx模型處理非對稱關(guān)系能力強(qiáng)的特性,我們將會(huì)致力于將DR-GAT模型與ComplEx模型相結(jié)合,并對其進(jìn)行實(shí)驗(yàn)評估。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 婷五月综合| 欧美在线视频不卡第一页| 精品黑人一区二区三区| 国产精品免费入口视频| 久久永久视频| 色偷偷av男人的天堂不卡| 久久青草免费91线频观看不卡| 久久成人国产精品免费软件 | 欧美成人午夜影院| 久热中文字幕在线| 丰满少妇αⅴ无码区| A级毛片无码久久精品免费| 国产av剧情无码精品色午夜| 亚洲av片在线免费观看| 久久美女精品| 911亚洲精品| 无码网站免费观看| 精品国产91爱| 玖玖免费视频在线观看| 小说区 亚洲 自拍 另类| 亚洲欧美成人网| 国产一级妓女av网站| 一区二区三区成人| 亚洲人妖在线| 四虎成人在线视频| 国产91特黄特色A级毛片| 日韩第八页| 日韩av在线直播| av一区二区三区高清久久| 亚洲AV无码不卡无码| 99re热精品视频中文字幕不卡| 亚洲AV成人一区二区三区AV| 国内精品久久久久鸭| 成年A级毛片| 亚洲国产日韩欧美在线| 欧美成人综合在线| 国产99视频精品免费视频7| 国产精品三级av及在线观看| 色哟哟国产成人精品| 日韩视频精品在线| 国产一二三区视频| 国产成人精品三级| 国产成人久久综合一区| 福利在线不卡一区| 久久国产香蕉| 91久久精品国产| 久久国产拍爱| 色综合五月婷婷| 色屁屁一区二区三区视频国产| 精品午夜国产福利观看| 久久精品日日躁夜夜躁欧美| 国国产a国产片免费麻豆| 伊人成人在线| 综合色亚洲| 中文字幕在线看视频一区二区三区| 亚洲精品成人片在线播放| 成人亚洲天堂| 农村乱人伦一区二区| 99精品福利视频| 亚洲综合第一区| 欧美日韩在线亚洲国产人| 激情乱人伦| av在线人妻熟妇| 欧美国产精品拍自| 亚洲一区二区三区在线视频| 欧美亚洲一二三区| 国产精品成人一区二区不卡 | 综合社区亚洲熟妇p| 精品伊人久久久久7777人| 欧美激情综合| 婷婷激情五月网| 国产超碰在线观看| 在线播放精品一区二区啪视频| 园内精品自拍视频在线播放| 青青青国产免费线在| 亚洲熟妇AV日韩熟妇在线| 久久综合激情网| 国产精选小视频在线观看| 2021天堂在线亚洲精品专区| 日韩午夜伦| 99久久精品免费看国产免费软件| 青青热久麻豆精品视频在线观看|