999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

k階采樣和圖注意力網(wǎng)絡(luò)的知識(shí)圖譜表示模型

2024-01-30 12:59:14劉文杰姚俊飛
關(guān)鍵詞:特征模型

劉文杰,姚俊飛,陳 亮

1.南京信息工程大學(xué) 計(jì)算機(jī)學(xué)院,南京 210044

2.南京信息工程大學(xué) 數(shù)字取證教育部工程研究中心,南京 210044

知識(shí)圖譜可以收集世界中廣泛的知識(shí),在知識(shí)問(wèn)答[1]、關(guān)系預(yù)測(cè)[2]、智能搜索[3]等人工智能領(lǐng)域得到廣泛應(yīng)用。但是,知識(shí)圖譜的符號(hào)化表示產(chǎn)生大量稀疏數(shù)據(jù),導(dǎo)致計(jì)算效率低下。因此,許多研究者提出了基于深度學(xué)習(xí)的知識(shí)圖譜表示學(xué)習(xí)(KGE)模型[4]來(lái)減少稀疏數(shù)據(jù),提高計(jì)算效率。知識(shí)圖譜表示學(xué)習(xí)的目的是將三元組映射到連續(xù)的低維向量空間,這對(duì)知識(shí)圖譜的推理、補(bǔ)全和應(yīng)用具有重要意義[5]。

TransE[6]是一個(gè)典型的平移距離模型,用于對(duì)給定的有效三元組施加平移距離約束h+r≈t。該約束保證了頭實(shí)體和尾實(shí)體的向量表示可以用它們對(duì)應(yīng)關(guān)系來(lái)解釋。而基于路徑的模型PTransE[7]通過(guò)建模頭尾實(shí)體間的關(guān)系路徑來(lái)解決TransE只考慮直接關(guān)系的局限性。與平移距離模型不同,語(yǔ)義匹配模型RESCAL[8]通過(guò)對(duì)應(yīng)關(guān)系相關(guān)聯(lián)的矩陣來(lái)捕獲頭尾實(shí)體之間的特征交互。同時(shí)卷積神經(jīng)網(wǎng)絡(luò)由于卷積運(yùn)算的高效率和有效性,在知識(shí)圖譜表示學(xué)習(xí)中表現(xiàn)出良好的性能而受到關(guān)注。其中,ConvE[9]將頭實(shí)體和關(guān)系拼接后的一維表示向量重構(gòu)為二維矩陣,在計(jì)算事實(shí)得分時(shí)對(duì)矩陣進(jìn)行二維卷積。

考慮到三元組中的實(shí)體不僅受到三元組本身的約束,還受到與之相連的鄰居實(shí)體的約束。因此許多可以聚合鄰居信息的基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的模型被提出。R-GCN[10]是一個(gè)關(guān)系圖編碼器,它聚合了不同關(guān)系類(lèi)型的鄰域?qū)嶓w特征。CompGCN[11]使用圖卷積網(wǎng)絡(luò)(GCN)[12]作為編碼器,并利用各種組合操作來(lái)學(xué)習(xí)實(shí)體和關(guān)系的向量表示。受到圖注意力網(wǎng)絡(luò)(GAT)[13]的啟發(fā),KBAT[14]通過(guò)編碼器-解碼器架構(gòu)在擴(kuò)展圖注意力機(jī)制的基礎(chǔ)上學(xué)習(xí)實(shí)體向量表示。然而,這些模型僅依賴于中心實(shí)體的直接鄰居(一階鄰居),不能全面地捕捉高階鄰居的信息。如圖1所示,實(shí)線和虛線分別是直接關(guān)系和隱藏關(guān)系,黑色圓圈和灰色圓圈是間接相關(guān)的實(shí)體。當(dāng)使用基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的模型時(shí),中心實(shí)體Renate只能直接從一階鄰居(Fishin,Justin,Mike)獲取信息。但二階實(shí)體Kim與Renate密切相關(guān),因此不能直接融入Kim的信息。

圖1 局部關(guān)系子圖Fig.1 Illustration of local relational subgraph

針對(duì)以上問(wèn)題,本文提出一種新穎的知識(shí)圖譜表示模型,該模型捕獲剪枝子圖中高階實(shí)體的特征來(lái)提高實(shí)體向量表示的性能。首先,通過(guò)k階采樣算法聚集剪枝子圖中的k階鄰域來(lái)得到中心實(shí)體的鄰居特征;然后利用圖注意力網(wǎng)絡(luò)來(lái)計(jì)算中心實(shí)體與其鄰居之間的注意力值。最后,使用ConvKB[15]來(lái)捕獲實(shí)體之間的全局關(guān)系和過(guò)渡特征。

本文的主要貢獻(xiàn)如下:

(1)通過(guò)k階采樣算法來(lái)獲取中心實(shí)體的剪枝子圖中的鄰居特征。

(2)基于圖注意力網(wǎng)絡(luò),中心實(shí)體可以融合k階鄰域特征來(lái)提高其表示能力,同時(shí)使用ConvKB作為解碼器來(lái)分析三元組的全局特征,進(jìn)一步實(shí)現(xiàn)實(shí)體和關(guān)系的精確表示。

(3)鏈接預(yù)測(cè)的實(shí)驗(yàn)結(jié)果表明,提出的模型比目前最先進(jìn)的模型更有效。

1 相關(guān)工作

知識(shí)圖譜表示通過(guò)向量化實(shí)現(xiàn)了實(shí)體和關(guān)系語(yǔ)義信息的準(zhǔn)確描述。近年來(lái),各種知識(shí)圖譜表示學(xué)習(xí)模型被提出。TransE[6]中的平移操作被定義為三元組中的頭實(shí)體通過(guò)關(guān)系連接尾實(shí)體,然后用一個(gè)評(píng)分函數(shù)來(lái)衡量每個(gè)三元組的合理性。然而,TransE在面對(duì)1-to-N、Nto-1和N-to-N關(guān)系時(shí)存在問(wèn)題。因此,TransR[16]、TransD[17]和TransH[18]通過(guò)不同的實(shí)體投影策略來(lái)施加平移距離約束解決這些問(wèn)題。同時(shí)這些模型只考慮到實(shí)體間的直接關(guān)系,忽略了實(shí)體間的關(guān)系路徑,所以基于路徑的表示學(xué)習(xí)模型被提出。PTransE[7]通過(guò)建模實(shí)體間的關(guān)系路徑來(lái)進(jìn)行特征表示學(xué)習(xí)。RSNs[19]采用偏置隨機(jī)游走對(duì)期望路徑進(jìn)行采樣,采用循環(huán)神經(jīng)網(wǎng)絡(luò)和殘差學(xué)習(xí)對(duì)其建模,由此來(lái)捕獲實(shí)體的長(zhǎng)期關(guān)系依賴。

與平移距離模型相比,語(yǔ)義匹配模型更注重挖掘向量化實(shí)體和關(guān)系的潛在語(yǔ)義。RESCAL[8]通過(guò)對(duì)應(yīng)于特定關(guān)系的矩陣來(lái)捕獲實(shí)體之間的交互。為了減少RESCAL中關(guān)系參數(shù)的數(shù)量,DistMul[20]通過(guò)將RESCAL的關(guān)系矩陣限制為對(duì)角矩陣來(lái)簡(jiǎn)化它。為了建模非對(duì)稱(chēng)關(guān)系,ComplEx[21]將DistMult擴(kuò)展到復(fù)雜空間。HolE[22]使用循環(huán)相關(guān)操作來(lái)增加頭部和尾部實(shí)體之間的相互作用。此外,受卷積運(yùn)算的啟發(fā),ConvE[9]利用卷積層從頭部實(shí)體和關(guān)系組成的特征矩陣中提取特征。為了更加關(guān)注三元組的整體特征,ConvKB[15]將每個(gè)三元組表示為由三個(gè)特征向量組成的矩陣形式,然后使用多個(gè)卷積核生成不同的特征向量。

近年來(lái),圖神經(jīng)網(wǎng)絡(luò)在知識(shí)圖譜學(xué)習(xí)中的應(yīng)用引起了人們的興趣。R-GCN[10]是一種迭代編碼鄰域?qū)嶓w特征和自環(huán)表示的關(guān)系圖編碼器。CompGCN[11]利用了來(lái)自KGE技術(shù)的各種實(shí)體-關(guān)系組合操作,并根據(jù)關(guān)系的數(shù)量進(jìn)行分級(jí)。當(dāng)聚合來(lái)自不同鄰居實(shí)體的信息時(shí),SACN[23]根據(jù)不同類(lèi)型的關(guān)系分配不同的自學(xué)習(xí)權(quán)重。RELATT[24]利用兩個(gè)實(shí)體之間的關(guān)系來(lái)學(xué)習(xí)相鄰實(shí)體的重要性。KBAT[14]通過(guò)三元組注意力機(jī)制來(lái)捕捉實(shí)體和關(guān)系的特征。在KBAT的基礎(chǔ)上,R-GGAT[25]通過(guò)其多注意力機(jī)制選擇和過(guò)濾鄰域信息來(lái)學(xué)習(xí)實(shí)體嵌入。RGHAT[26]根據(jù)關(guān)系級(jí)注意力和實(shí)體級(jí)注意力,進(jìn)一步區(qū)分相鄰實(shí)體的重要性。

然而,上述基于圖神經(jīng)網(wǎng)絡(luò)的模型僅聚合來(lái)自一階鄰居實(shí)體的信息,高階實(shí)體信息仍然大部分未使用,這無(wú)法使實(shí)體融合更多的隱藏信息。因此,提出了一種基于k階采樣算法和圖注意力網(wǎng)絡(luò)的KGE模型,實(shí)體利用k階采樣算法和圖注意力網(wǎng)絡(luò)來(lái)聚合剪枝子圖中高階鄰居的信息。

2 本文模型

在本章中,首先介紹本文其余部分使用的符號(hào),然后概述本文的模型。最后,對(duì)所提出的模型進(jìn)行了詳細(xì)說(shuō)明。

2.1 符號(hào)定義

本文使用的主要符號(hào)定義及解釋如表1所示。

表1 符號(hào)定義及解釋Table 1 Notations and explanations

2.2 模型框架

模型的整體框架(編碼器-解碼器)如圖2所示,綠色圓圈代表實(shí)體的初始向量表示,黃色圓圈代表關(guān)系的初始向量表示,紫色圓圈代表最終實(shí)體向量表示,橙色圓圈代表最終關(guān)系向量表示。首先,使用TransE,初始化實(shí)體組向量表示E=[h1,h2,…,hn],和關(guān)系組向量表示R=[r1,r2,…,rm]。然后,將知識(shí)圖譜輸入到Encoder中。其中,k階采樣算法用于獲得剪枝子圖中心實(shí)體的鄰居特征,其次使用圖注意力網(wǎng)絡(luò)來(lái)聚合中心實(shí)體的鄰居特征。此外,線性變換對(duì)關(guān)系R進(jìn)行特征向量的更新。最后,ConvKB用作解碼器以捕獲三元組中實(shí)體和關(guān)系之間的全局特征。

圖2 編碼器-解碼器的端到端架構(gòu)Fig.2 End-to-end architecture of Encoder-Decoder

2.3 編碼器

2.3.1 k階采樣算法

除了考慮所有一階實(shí)體對(duì)中心實(shí)體的影響外,還需要考慮高階實(shí)體。然而,高階鄰域?qū)嶓w的重要性隨著與中心實(shí)體的距離的增加而衰減。因此,k階采樣算法首先從中心實(shí)體的二階鄰域出發(fā),隨機(jī)采樣高階實(shí)體形成剪枝子圖,然后再將剪枝子圖中的高階特征聚集起來(lái)形成該中心實(shí)體的鄰居特征。在算法1中描述了如何獲取中心實(shí)體的鄰居特征。

算法1k階采樣算法

考慮到知識(shí)圖譜中信息是由頭部實(shí)體向尾部實(shí)體傳播的,所以根據(jù)信息傳播方向相反的實(shí)體進(jìn)行采樣形成剪枝子圖。如圖3所示,紅色圓圈代表中心實(shí)體,橙色圓圈代表一階實(shí)體,藍(lán)色圓圈代表二階采樣實(shí)體,紫色圓圈代表三階采樣實(shí)體,綠色圓圈代表第k階采樣實(shí)體。保留所有一階實(shí)體,并隨機(jī)采樣高階實(shí)體。采樣系數(shù)設(shè)為b,因此一階采樣Ni,二階采樣b個(gè)實(shí)體,三階采樣2b個(gè)實(shí)體,k階采樣(k-1)b個(gè)實(shí)體。如果Setkc中的實(shí)體數(shù)量NSetkc小于等于kb,則全部采樣。反之,則需要從Setkc中隨機(jī)抽取實(shí)體。為了防止在當(dāng)前階的采樣實(shí)體和形成的剪枝子圖之間重復(fù)采樣,需要進(jìn)行冗余處理,具體公式如下所示:

圖3 剪枝子圖的形成過(guò)程Fig.3 Process of forming pruned subgraph

因此經(jīng)過(guò)k階采樣后,中心實(shí)體ei的剪枝子圖S(i)被定義為:

由于剪枝子圖中實(shí)體的重要性隨著與中心實(shí)體的距離的增加而衰減,因此為每一階實(shí)體定義一個(gè)從0到1的折扣參數(shù)ρ。如圖4所示:在生成中心實(shí)體的某個(gè)鄰居實(shí)體j的特征向量時(shí),需要將實(shí)體j的一階鄰居相加進(jìn)行ρ2的打折,二階進(jìn)行ρ3的打折,(k-1)階進(jìn)行ρk的打折。鄰居實(shí)體特征fj定義如式(3)所示:

圖4 中心實(shí)體的某個(gè)鄰居特征向量形成過(guò)程Fig.4 Process of forming certain neighbor feature vector of central entity

其中,N(k-1)j表示實(shí)體j的一階或者高階鄰居,表示實(shí)體j的一階或者高階鄰居的特征向量,Wk表示每一階的線性變換矩陣。

2.3.2 基于圖注意力網(wǎng)絡(luò)的實(shí)體向量表示

如圖5所示,為了學(xué)習(xí)實(shí)體ei新的向量表示,必須考慮其鄰居的所有特征。每個(gè)鄰居特征的重要性用注意力值di,j表示,具體如下:

圖5 圖注意力機(jī)制Fig.5 Illustration of graph attention mechanism

其中,W1和a分別表示可學(xué)習(xí)的權(quán)重矩陣和單層前饋反饋網(wǎng)絡(luò)。最后使用Softmax函數(shù)對(duì)所有鄰居實(shí)體的注意力值做歸一化處理,歸一化后的注意力權(quán)重即為最后的注意力系數(shù),如式(5)所示:

實(shí)體ei新的向量表示是由注意力系數(shù)進(jìn)行加權(quán)求和得到,其聚合公式為:

其中,σ是激活函數(shù),同時(shí)為了學(xué)習(xí)鄰居實(shí)體的更多特征信息,采用多頭注意力機(jī)制以獲得不同特征進(jìn)行集成。首先通過(guò)使用M個(gè)獨(dú)立的注意力機(jī)制得到向量表示,然后取平均值。因此,該過(guò)程可以寫(xiě)成:

為了學(xué)習(xí)新的關(guān)系向量表示,本文對(duì)初始的關(guān)系向量表示R執(zhí)行線性變換,WR∈?T×T′為權(quán)重矩陣,其中T代表轉(zhuǎn)換前的向量維度,T'代表轉(zhuǎn)換后的維度。為簡(jiǎn)單起見(jiàn),上述操作寫(xiě)成:

然而在學(xué)習(xí)新的實(shí)體向量表示時(shí),實(shí)體會(huì)丟失初始的結(jié)構(gòu)特征信息。所以在最后得到的實(shí)體表示中添加經(jīng)過(guò)線性變換的初始實(shí)體向量來(lái)解決,如式(9)所示:

2.3.3 評(píng)分函數(shù)

其中,最大間隔參數(shù)γ表示在正確三元組和錯(cuò)誤三元組之間的間隔修正。S是有效三元組的集合,S'表示無(wú)效三元組的集合。

2.4 解碼器

使用ConvKB作為解碼器,能夠根據(jù)編碼器編碼的實(shí)體特征來(lái)實(shí)現(xiàn)實(shí)體和關(guān)系的精確表示。如圖6所示,卷積層的目的是在每個(gè)維度上分析三元組的全局表示特征,以達(dá)到實(shí)體和關(guān)系的交互。具有多個(gè)特征映射的打分函數(shù)可以寫(xiě)成:

圖6 解碼器的整體結(jié)構(gòu)Fig.6 Overall structure of Decoder

其中,ωm表示第m個(gè)卷積核,Ω是使用的卷積核數(shù)量,?是一個(gè)卷積運(yùn)算符,表示一個(gè)串聯(lián)運(yùn)算符,W2∈?Ωk×1表示一個(gè)用來(lái)計(jì)算三元組最終得分的線性變換矩陣。通過(guò)使用soft-margin損失函數(shù)對(duì)解碼器進(jìn)行訓(xùn)練:

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

實(shí)驗(yàn)采用了以下標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)集的統(tǒng)計(jì)信息如表2所示。

表2 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 2 Dataset statistics

(1)WN18RR[9]是從數(shù)據(jù)集WN18[6]中提取的,它包含11種關(guān)系類(lèi)型和40 943個(gè)實(shí)體,是通過(guò)排除驗(yàn)證集和測(cè)試集中出現(xiàn)的逆關(guān)系生成的。

(2)FB15k-237[27]由FB15k[28]衍生而來(lái),F(xiàn)B15k-237由演員、電影、地點(diǎn)等三元組事實(shí)組成。與FB15k相比,F(xiàn)B15k-237去掉了冗余三元組,導(dǎo)致實(shí)體和關(guān)系表示學(xué)習(xí)比較困難。

(3)NELL-995[29]來(lái)源于NELL[30],提供了農(nóng)產(chǎn)品、動(dòng)物、書(shū)籍等三元組事實(shí)。

(4)Kinship[31]是一個(gè)關(guān)系型數(shù)據(jù)集,它匯集了兩個(gè)具有相同結(jié)構(gòu)家族中的24個(gè)唯一名稱(chēng)。

3.2 對(duì)比模型

下面的基線模型用于比較本文模型在上述標(biāo)準(zhǔn)數(shù)據(jù)集上鏈接預(yù)測(cè)任務(wù)的性能。

(1)TransE[6]使得頭部實(shí)體向量表示和關(guān)系向量表示的總和盡可能接近尾部實(shí)體向量表示。

(2)PTransE[7]在TransE的基礎(chǔ)之上擴(kuò)展了頭尾實(shí)體間的關(guān)系路徑信息。

(3)RSNs[19]通過(guò)一種跳躍機(jī)制來(lái)加以區(qū)分路徑中的實(shí)體和關(guān)系,可以有效地捕獲知識(shí)圖譜中實(shí)體的長(zhǎng)期關(guān)系依賴。

(4)DisMult[20]是一個(gè)語(yǔ)義匹配模型,旨在通過(guò)關(guān)系矩陣捕獲頭尾實(shí)體之間的交互。

(5)ComplEx[21]是將實(shí)體和關(guān)系的向量嵌入到復(fù)數(shù)空間中。

(6)ConvE[9]使用二維卷積操作來(lái)學(xué)習(xí)實(shí)體和關(guān)系的向量表示。

(7)R-GCN[10]通過(guò)為每個(gè)關(guān)系類(lèi)型定義關(guān)系特定的權(quán)重矩陣來(lái)學(xué)習(xí)實(shí)體向量表示。

(8)KBAT[14]用于捕獲任何給定實(shí)體的鄰域中的實(shí)體和關(guān)系特征。

(9)CompGCN[11]通過(guò)考慮多個(gè)關(guān)系信息來(lái)學(xué)習(xí)實(shí)體和關(guān)系的向量表示。

3.3 實(shí)驗(yàn)設(shè)置和評(píng)估指標(biāo)

編碼器和解碼器分別進(jìn)行訓(xùn)練。首先訓(xùn)練編碼器獲得知識(shí)圖譜中實(shí)體和關(guān)系的最佳向量表示,然后最佳的向量表示被用作解碼器的輸入,通過(guò)訓(xùn)練解碼器來(lái)正確分析三元組的全局表示特征。編碼器和解碼器定義的主要超參數(shù)如表3所示。

表3 編碼器和解碼器的超參數(shù)Table 3 Training hyper-parameters of encoder and decoder for evaluated datasets

鏈接預(yù)測(cè)是對(duì)給定的一個(gè)正確三元組(ei,ro,ej),在頭實(shí)體ei或尾實(shí)體ej缺失的情況下,通過(guò)在原實(shí)體集中隨機(jī)選擇頭尾實(shí)體補(bǔ)全。對(duì)于缺失的位置,模型計(jì)算出重組三元組的得分進(jìn)行升序排序,以致正確三元組的排名會(huì)被記錄下來(lái)。

平均倒數(shù)排名MRR和命中率Hits@N是知識(shí)圖譜中常用的鏈接預(yù)測(cè)任務(wù)評(píng)價(jià)指標(biāo),如式(13)和式(14)所示。通過(guò)采用TransE[6]中的“Filter”方式來(lái)測(cè)試頭或尾實(shí)體的排名。MRR值大表明預(yù)測(cè)結(jié)果越好,Hits@N表示在N=1,3,10的情況下,頭尾實(shí)體正確預(yù)測(cè)進(jìn)入前N名的比例。

其中,Tt是測(cè)試集的大小,I(?)是指示函數(shù),而rankei和rankej表示預(yù)測(cè)過(guò)程中頭部實(shí)體ei和尾部實(shí)體ej的排名。

3.4 三元組分類(lèi)結(jié)果和分析

三元組分類(lèi)是一個(gè)二分類(lèi)任務(wù),用于判斷給定的三元組是否符合客觀事實(shí)。為保證測(cè)試數(shù)據(jù)的合理性,在生成負(fù)樣本三元組時(shí),對(duì)所需替換的實(shí)體或者關(guān)系進(jìn)行一定的限制來(lái)生成負(fù)樣本,使得負(fù)樣本難以區(qū)分。在分類(lèi)過(guò)程中,通過(guò)比較三元組得分函數(shù)和給定閾值δ的大小來(lái)確定分類(lèi)效果,如果得分比閾值低,則判定為正確三元組,反之為錯(cuò)誤三元組。

三元組分類(lèi)結(jié)果如表4所示,在WN18RR、FB15k-237、NELL-99這三個(gè)知識(shí)圖譜上的分類(lèi)準(zhǔn)確度更優(yōu)于其他模型,這說(shuō)明使用k采樣算法和圖注意力網(wǎng)絡(luò)得到的向量能夠更有效地表示實(shí)體,使得實(shí)體的語(yǔ)義信息增強(qiáng)。然而在Kinship上的準(zhǔn)確度低于KBAT和CompGCN,這是因?yàn)镵inship中實(shí)體的結(jié)構(gòu)大都屬于稠密型,從一階鄰居融入的信息本來(lái)就很多,所以在融入k階實(shí)體信息時(shí),會(huì)導(dǎo)致實(shí)體之間的向量表示有一定的相似性。

表4 三元組分類(lèi)的評(píng)估結(jié)果Table 4 Evaluation results on triple classification 單位:%

3.5 鏈接預(yù)測(cè)結(jié)果和分析

表5和表6為數(shù)據(jù)集上的鏈接預(yù)測(cè)結(jié)果。結(jié)果清楚地表明,本文提出的模型在FB15k-237的四個(gè)指標(biāo)、WN18RR的兩個(gè)指標(biāo)、NELL-995的四個(gè)指標(biāo)和Kinship的一個(gè)指標(biāo)上顯著優(yōu)于基線結(jié)果。

表5 WN18RR和FB15k-237測(cè)試集的實(shí)驗(yàn)結(jié)果Table 5 Experimental results on WN18RR and FB15k-237 test sets

表6 NELL-995和Kinship測(cè)試集的實(shí)驗(yàn)結(jié)果Table 6 Experimental results on NELL-995 and Kinship test sets

在此,對(duì)實(shí)驗(yàn)結(jié)果作了一些分析。

(1)在WN18RR上,模型在Hits@3和Hits@10上獲得了最好的得分。與KBAT相比,Hit@3從48.3%提高到48.8%,Hits@10從58.1%提高到59.2%。在Kinship上,模型在Hits@3上得分最高,但在其他3個(gè)指標(biāo)MRR、Hits@1和Hits@10上不如KBAT。這是因?yàn)镵inship擁有104個(gè)實(shí)體和25個(gè)關(guān)系,其大部分實(shí)體的結(jié)構(gòu)是稠密的,這將導(dǎo)致實(shí)體的向量表示有一定相似,從而鏈接預(yù)測(cè)的準(zhǔn)確率下降。

(2)模型在FB15k-237和NELL-995上的所有指標(biāo)都明顯優(yōu)于競(jìng)爭(zhēng)對(duì)手。特別是,與KBAT相比,Hit@3在NELL-995上從56.4%提高到60.5%,Hits@1在NELL-995上從44.7%提高到49.2%??梢钥闯?,模型可以有效地從高階實(shí)體中捕獲隱藏信息來(lái)增強(qiáng)實(shí)體的表示。

(3)模型在四個(gè)數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)基本都優(yōu)于基于路徑的表示模型。雖然基于路徑的表示模型突破了單個(gè)三元組的局限性,實(shí)現(xiàn)實(shí)體的長(zhǎng)期關(guān)系依賴,但是本質(zhì)上是捕獲的關(guān)系序列信息,并沒(méi)有捕獲更加豐富的高階實(shí)體信息。

(4)基于GCN的模型和基于GAT的模型通常比其他基線取得更好的結(jié)果。例如,KBAT和CompGCN在FB15k-237和NELL-995數(shù)據(jù)集上都有較好的結(jié)果。由于GCN的過(guò)平滑性,基于GAT的模型(KBAT和提出的模型)在鏈接預(yù)測(cè)方面通常比基于GCN的模型(RGCN和CompGCN)更有效。此外,可以看出提出的模型性能明顯優(yōu)于KBAT,清楚地證明了k階采樣算法和圖注意力網(wǎng)絡(luò)結(jié)合的有效性。

同時(shí)本文進(jìn)一步討論階數(shù)k和采樣系數(shù)b的變化對(duì)模型效率的影響。為了獲得k和b對(duì)模型效率的影響,選取命中率在NELL-995數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析。首先,分析了k對(duì)模型效率的影響。在實(shí)驗(yàn)中,選取k=1,2,…,6,采樣系數(shù)b設(shè)為5,實(shí)驗(yàn)的命中率用公式(14)計(jì)算,結(jié)果如圖7(a)所示??梢钥闯?,在本實(shí)驗(yàn)中,鄰域的最優(yōu)階數(shù)k為4,也就是說(shuō)低階(k<4)鄰域和高階(k>4)鄰域的效率都降低了。然后討論了采樣系數(shù)b的不同對(duì)模型命中率的影響。實(shí)驗(yàn)中,k為4,b分別為3,4,…,9,實(shí)驗(yàn)結(jié)果如圖7(b)所示。顯然,最佳性能是在b=5時(shí)實(shí)現(xiàn)的(即Hits@1為49.2%,Hits@3為60.5%,Hits@10為70.3%)。綜上所述,k和b對(duì)模型的效率有很大的影響,如何針對(duì)不同的數(shù)據(jù)集來(lái)選擇這兩個(gè)參數(shù)是模型成功的關(guān)鍵。

圖7 k階鄰域的詳細(xì)研究Fig.7 Detailed studies ofk-order neighborhood

4 結(jié)束語(yǔ)

本文提出了一種基于k階采樣算法和圖注意力網(wǎng)絡(luò)的KGE模型。通過(guò)引入k階采樣算法、圖注意力網(wǎng)絡(luò)和ConvKB,模型可以增強(qiáng)實(shí)體的向量表示來(lái)提高知識(shí)圖譜中推理和預(yù)測(cè)任務(wù)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該模型在鏈接預(yù)測(cè)方面的性能優(yōu)于現(xiàn)有模型。

需要注意的是,模型僅適用于知識(shí)圖譜中結(jié)構(gòu)稀疏的實(shí)體。對(duì)于知識(shí)圖譜中結(jié)構(gòu)稠密的實(shí)體,由于實(shí)體的鄰居數(shù)量較多,如果使用k階采樣算法來(lái)獲取鄰居的特征,會(huì)導(dǎo)致計(jì)算量的急劇增加以及實(shí)體的向量表示有一定的相似性。另外,k和b的選擇會(huì)顯著影響本文模型的命中率,所以如何根據(jù)知識(shí)圖譜中實(shí)體的稀疏性、稠密性選擇k和b,以及讓模型學(xué)會(huì)動(dòng)態(tài)選擇實(shí)體該關(guān)注哪幾階的信息,這些都是未來(lái)的工作之一。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 久久人人妻人人爽人人卡片av| 老色鬼欧美精品| 国产幂在线无码精品| 欧洲高清无码在线| 无码AV日韩一二三区| 91美女在线| 国内丰满少妇猛烈精品播 | 99re热精品视频中文字幕不卡| 亚洲 欧美 中文 AⅤ在线视频| 囯产av无码片毛片一级| 日韩高清无码免费| 热这里只有精品国产热门精品| 国产高清在线观看91精品| 免费国产小视频在线观看| 亚洲制服中文字幕一区二区 | 欧美在线天堂| 国产成年无码AⅤ片在线| 亚洲精品动漫| 91在线国内在线播放老师| 久久人人97超碰人人澡爱香蕉| 久久青草免费91观看| 亚洲AⅤ永久无码精品毛片| 91区国产福利在线观看午夜| 午夜毛片免费观看视频 | 538精品在线观看| 亚洲五月激情网| 亚欧成人无码AV在线播放| 国产在线观看91精品亚瑟| 国产97视频在线| 欧美在线伊人| 国产麻豆精品久久一二三| 亚洲欧美成人综合| a国产精品| 国产精品黑色丝袜的老师| 精品国产香蕉伊思人在线| 男女精品视频| av大片在线无码免费| 日韩二区三区| 国产美女在线免费观看| 一本大道香蕉中文日本不卡高清二区 | 久久久久亚洲Av片无码观看| 天天躁夜夜躁狠狠躁躁88| 欧美激情首页| 福利视频一区| 精品国产黑色丝袜高跟鞋| 国产激情在线视频| 亚洲国产成人精品无码区性色| 精品视频第一页| 欧美激情网址| 欧美日韩国产一级| 国产打屁股免费区网站| 国产精品亚洲日韩AⅤ在线观看| 欧美全免费aaaaaa特黄在线| 欧美精品综合视频一区二区| 日韩东京热无码人妻| av午夜福利一片免费看| 欧美日韩成人在线观看| 四虎成人精品在永久免费| 日本免费a视频| 欧美在线一二区| 亚洲日本中文字幕天堂网| 亚洲成人在线网| 无码视频国产精品一区二区| 国产综合精品一区二区| 大陆国产精品视频| 国产中文一区a级毛片视频| 日本福利视频网站| 欧美三级不卡在线观看视频| 22sihu国产精品视频影视资讯| www精品久久| 91破解版在线亚洲| 99热国产这里只有精品9九| 香蕉视频在线观看www| 伊人无码视屏| 亚洲视频欧美不卡| 国产99视频在线| 福利姬国产精品一区在线| 久久黄色毛片| 青青草国产免费国产| 伊人无码视屏| 无码一区中文字幕| 日本五区在线不卡精品|