劉 嶠 韓明皓 楊曉慧 劉 瑤 吳祖峰
(電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054) (qliu@uestc.edu.cn)
基于表示學(xué)習(xí)和語(yǔ)義要素感知的關(guān)系推理算法
劉 嶠 韓明皓 楊曉慧 劉 瑤 吳祖峰
(電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054) (qliu@uestc.edu.cn)
基于知識(shí)表示的關(guān)系推理方法研究是近年來(lái)統(tǒng)計(jì)關(guān)系學(xué)習(xí)和知識(shí)圖譜領(lǐng)域共同關(guān)注的熱點(diǎn).通過(guò)對(duì)當(dāng)前流行的基于知識(shí)表示的推理模型進(jìn)行比較,分析了現(xiàn)有模型所普遍采用的基本假設(shè)存在的不合理之處,即忽視了實(shí)體與關(guān)系在語(yǔ)義上的多樣性.據(jù)此提出了一種新的關(guān)系推理建模假設(shè):實(shí)體對(duì)之間的每種關(guān)系反映的是兩側(cè)實(shí)體在某些特定方面的語(yǔ)義關(guān)聯(lián),通過(guò)對(duì)實(shí)體向量的語(yǔ)義方面要素進(jìn)行選擇性加權(quán),可以實(shí)現(xiàn)對(duì)不同關(guān)系語(yǔ)義的表示和區(qū)分.根據(jù)該假設(shè)提出了一種新的關(guān)系推理建模方法,采用非線性變換的方法來(lái)解決表示學(xué)習(xí)中的語(yǔ)義分辨率問(wèn)題.在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:所提出的算法對(duì)復(fù)雜關(guān)系類型和相關(guān)實(shí)體具有良好的語(yǔ)義區(qū)分能力,能有效提高知識(shí)圖譜上的關(guān)系推理準(zhǔn)確率,性能顯著優(yōu)于目前主流的相關(guān)工作.
統(tǒng)計(jì)關(guān)系學(xué)習(xí);關(guān)系推理;表示學(xué)習(xí);知識(shí)圖譜;多元關(guān)系數(shù)據(jù)挖掘
本文研究的是知識(shí)圖譜上的關(guān)系推理問(wèn)題.關(guān)系推理任務(wù)的目標(biāo)是基于知識(shí)圖譜中已有的知識(shí),采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法自動(dòng)推理實(shí)體對(duì)之間可能存在的關(guān)系.它既是統(tǒng)計(jì)關(guān)系學(xué)習(xí)領(lǐng)域長(zhǎng)期關(guān)注的基礎(chǔ)理論問(wèn)題,也是知識(shí)圖譜領(lǐng)域的研究熱點(diǎn)[1].
知識(shí)圖譜是一個(gè)由實(shí)體與關(guān)系構(gòu)成的結(jié)構(gòu)化語(yǔ)義知識(shí)庫(kù),其中的知識(shí)元素以(實(shí)體,關(guān)系,實(shí)體)三元組的形式表達(dá)和存儲(chǔ),實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀知識(shí)結(jié)構(gòu)[2].知識(shí)圖譜技術(shù)在自然語(yǔ)言處理、智能信息檢索和知識(shí)工程等領(lǐng)域具有核心基礎(chǔ)地位,近年來(lái)受到學(xué)術(shù)界的廣泛關(guān)注[3].然而,制約知識(shí)圖譜應(yīng)用水平的一個(gè)關(guān)鍵問(wèn)題是知識(shí)的不完備性,雖然近年來(lái)谷歌Knowledge Vault、微軟Satori和IBM Watson等知識(shí)圖譜項(xiàng)目不斷刷新知識(shí)規(guī)模記錄,現(xiàn)有的知識(shí)圖譜仍然存著大量的信息缺失[4].
關(guān)系推理技術(shù)可以直接應(yīng)用于知識(shí)圖譜的自動(dòng)化補(bǔ)全,也可以與開(kāi)放域信息抽取(open information extraction, OIE)技術(shù)相結(jié)合,用于對(duì)信息抽取結(jié)果進(jìn)行質(zhì)量評(píng)估,提高知識(shí)圖譜構(gòu)建的自動(dòng)化水平[1].
當(dāng)前關(guān)系推理方法的研究思路主要有2類:基于邏輯規(guī)則的關(guān)系推理模型和基于表示學(xué)習(xí)的關(guān)系推理模型[5].隨著關(guān)系推理算法研究不斷取得新進(jìn)展,部分成果已經(jīng)在主流商業(yè)產(chǎn)品中取得應(yīng)用,例如Knowledge Vault項(xiàng)目就采用了邏輯規(guī)則模型與表示學(xué)習(xí)模型相結(jié)合的混合模型來(lái)進(jìn)行知識(shí)質(zhì)量評(píng)估[6].
與基于邏輯規(guī)則的關(guān)系推理模型相比,基于表示學(xué)習(xí)的關(guān)系推理模型能夠更有效地利用知識(shí)圖譜中已有的知識(shí)進(jìn)行推理建模[7].而且,隨著深度學(xué)習(xí)技術(shù)在知識(shí)表示學(xué)習(xí)領(lǐng)域的應(yīng)用不斷深入,基于表示學(xué)習(xí)的關(guān)系推理算法研究也取得了快速發(fā)展,是近年來(lái)關(guān)系推理研究領(lǐng)域重點(diǎn)聚焦的熱點(diǎn)問(wèn)題[5].
然而,通過(guò)文獻(xiàn)調(diào)研我們發(fā)現(xiàn),現(xiàn)有的基于表示學(xué)習(xí)的關(guān)系推理模型在對(duì)實(shí)體關(guān)系三元組(h,r,t)進(jìn)行關(guān)系推理時(shí)均采用了Bordes等人提出的向量表達(dá)基本假設(shè):h+r=t,因此存在一個(gè)共性缺陷,即模型無(wú)法表達(dá)關(guān)系語(yǔ)義的多樣性,建模方式的僵化導(dǎo)致算法對(duì)位于關(guān)系同一側(cè)的多個(gè)實(shí)體的分辨率較差.
這種理論缺陷典型的表現(xiàn)是當(dāng)此類算法在處理“一對(duì)多”和“多對(duì)一”類型關(guān)系(對(duì)關(guān)系類型的定義詳見(jiàn)2.1)時(shí),如果對(duì)于關(guān)系兩側(cè)實(shí)體分別實(shí)施替換干擾,得到的推理性能表現(xiàn)不均衡,對(duì)于“多”側(cè)實(shí)體的區(qū)分能力明顯較差.本文實(shí)驗(yàn)部分將對(duì)此進(jìn)行詳細(xì)討論.另一個(gè)典型表現(xiàn)是當(dāng)實(shí)體間存在多種關(guān)系時(shí),會(huì)出現(xiàn)語(yǔ)義上的悖論.例如,若實(shí)體對(duì)(h,t)之間既有“父子”關(guān)系,又有“校友”關(guān)系,由于實(shí)體的向量表達(dá)是確定的,則根據(jù)基本假設(shè)h+r=t可以得出“父子=校友”的錯(cuò)誤結(jié)論.
針對(duì)上述問(wèn)題,本文提出一種新的建模思路如下:將通過(guò)表示學(xué)習(xí)得到的實(shí)體向量中的元素視為其語(yǔ)義方面要素(aspect factors),在不同關(guān)系代表的語(yǔ)義環(huán)境下,關(guān)系向量中的每個(gè)元素可由關(guān)系兩側(cè)實(shí)體向量中的對(duì)應(yīng)元素線性組合得到.籍此可以修正基于表示學(xué)習(xí)的關(guān)系推理算法的基本假設(shè),提高模型對(duì)關(guān)系語(yǔ)義多樣性的區(qū)分能力.論文的主要貢獻(xiàn)包括:
1) 提出了一種新的關(guān)系推理建模假設(shè):實(shí)體對(duì)(h,t)之間的每種關(guān)系反映的是關(guān)系兩側(cè)實(shí)體在某些特定的語(yǔ)義方面要素上的關(guān)聯(lián),可以通過(guò)對(duì)實(shí)體的語(yǔ)義方面要素進(jìn)行選擇性加權(quán)來(lái)表達(dá)和區(qū)分.
2) 設(shè)計(jì)了2種新的關(guān)系推理算法,對(duì)上述假設(shè)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所提算法的綜合性能表現(xiàn)顯著優(yōu)于當(dāng)前主流的相關(guān)工作.
早期的關(guān)系推理方法研究主要基于一階謂詞邏輯規(guī)則和貝葉斯算法,通過(guò)將人工編寫(xiě)的一階謂詞邏輯規(guī)則與不同類型的概率圖模型相結(jié)合,依據(jù)所生成的邏輯網(wǎng)絡(luò)進(jìn)行推理獲得新的知識(shí)[8].代表性工作包括Markov邏輯網(wǎng)絡(luò)模型[9]和基于貝葉斯網(wǎng)絡(luò)的概率關(guān)系模型[10].這類模型能夠在小規(guī)模領(lǐng)域知識(shí)庫(kù)上取得較高的關(guān)系推理準(zhǔn)確性,缺點(diǎn)在于依賴專家構(gòu)建邏輯規(guī)則,且模型在推理過(guò)程中的計(jì)算復(fù)雜度較高,難以適應(yīng)大規(guī)模知識(shí)庫(kù)上關(guān)系推理任務(wù)要求[11].
1.1基于邏輯規(guī)則的關(guān)系推理模型
為解決大規(guī)模知識(shí)圖譜中關(guān)系推理的效率問(wèn)題,Lao等人在基于一階Horn子句推理的FOIL(first order inductive learner)算法基礎(chǔ)上提出了一種路徑排序算法(path ranking algorithm, PRA)[12].PRA算法采用抽象的實(shí)體間關(guān)系路徑取代了具象的Horn子句作為關(guān)系推理的依據(jù),并采用隨機(jī)采樣的方式替代窮舉搜索以提高計(jì)算效率.PRA算法不僅保持了FOIL算法的關(guān)系推理準(zhǔn)確性,而且提高了模型的計(jì)算效率.
隨后,Gardner等人指出PRA算法在計(jì)算關(guān)系路徑概率時(shí)的計(jì)算開(kāi)銷過(guò)大,并據(jù)此采用特征空間二值化、增加自定義特征模式以及采取廣度優(yōu)先搜索等方式對(duì)PRA算法進(jìn)行了改進(jìn),提出了準(zhǔn)確性和計(jì)算效率更好的SFE(subgraph feature extraction)算法[13].
然而,SFE算法在推理準(zhǔn)確性上仍無(wú)法與當(dāng)前主流的基于表示學(xué)習(xí)的關(guān)系推理算法抗衡.Liu等人指出了PRA和SFE算法所采用的關(guān)系單向性假設(shè)存在的問(wèn)題,并采用雙層隨機(jī)游走策略提高了算法對(duì)關(guān)系路徑的采樣覆蓋率,所提出的層次化隨機(jī)游走推理模型(hierarchical random walk inference, HiRi)在公開(kāi)數(shù)據(jù)集上取得了優(yōu)于表示學(xué)習(xí)模型的性能表現(xiàn)[7].
總體說(shuō)來(lái),邏輯推理模型的發(fā)展趨勢(shì)是逐漸摒棄對(duì)人工規(guī)則的依賴,轉(zhuǎn)而借助模式識(shí)別方法進(jìn)行規(guī)則特征發(fā)現(xiàn),并采用機(jī)器學(xué)習(xí)方法進(jìn)行特征建模.制約邏輯推理算法研究的主要問(wèn)題是圖算法的計(jì)算復(fù)雜度較高,導(dǎo)致方法可擴(kuò)展性差.而且知識(shí)圖譜中的節(jié)點(diǎn)度的分布服從長(zhǎng)尾分布,即只有少量的實(shí)體與關(guān)系擁有較高的出現(xiàn)頻率,而大部分實(shí)體關(guān)系的出現(xiàn)頻率較低.由此導(dǎo)致的數(shù)據(jù)稀疏性問(wèn)題對(duì)邏輯推理算法的性能影響較大[5].因此目前學(xué)術(shù)界主要關(guān)注對(duì)數(shù)據(jù)稀疏性不敏感,且算法可并行的表達(dá)推理算法.
1.2基于表示學(xué)習(xí)的關(guān)系推理模型
隨著word2vec和GloVe等“詞向量表達(dá)”模型相繼在一系列自然語(yǔ)言處理任務(wù)中取得進(jìn)展[14-15],表示學(xué)習(xí)方法近年來(lái)受到了廣泛關(guān)注.在關(guān)系推理領(lǐng)域,以TransE算法為代表的關(guān)系推理模型,因其具有推理準(zhǔn)確性高和算法可并行等優(yōu)點(diǎn)而成為近期研究熱點(diǎn),目前仍在快速發(fā)展過(guò)程中[16].
TransE模型參考了Nickel等人提出的RESCAL張量分解模型(tensor factorization model)[17].該模型采用三階張量對(duì)知識(shí)圖譜中的事實(shí)(h,r,t)進(jìn)行建模,參數(shù)模型的函數(shù)表達(dá)為

(1)
其中,h,t∈k為三元組的頭、尾實(shí)體在k維空間的向量表達(dá),Wr∈k×k表示關(guān)系r的權(quán)重矩陣.
受RESCAL模型啟發(fā),Bordes等人提出了基于結(jié)構(gòu)化表達(dá)的SE(structured embedding)關(guān)系推理算法[18].參數(shù)模型的函數(shù)表達(dá)如下:
(2)
其中,Mrh和Mrt分別表示關(guān)系r關(guān)于頭和尾實(shí)體的線性變換.由于SE和RESCAL算法在大規(guī)模真實(shí)數(shù)據(jù)集上的推理準(zhǔn)確性較低,Bordes等人受word2vec詞表達(dá)算法的啟發(fā)提出了TransE建模假設(shè),放棄了RESCAL算法采用關(guān)系矩陣變換的實(shí)體映射方式,轉(zhuǎn)而采用h+r=t的方式進(jìn)行推理[16].參數(shù)模型為
(3)

Fig. 1 The example of TransE model圖1 TransE模型示例
TransE算法因其計(jì)算效率高(可并行)和算法召回率高而受到學(xué)術(shù)界的高度關(guān)注[1].然而該算法在處理復(fù)雜關(guān)系類型時(shí)存在性能瓶頸,為改進(jìn)TransE算法性能,學(xué)術(shù)界近年來(lái)付出了大量的努力[5].
例如Wang等人提出的TransH算法允許實(shí)體在不同的關(guān)系下采用不同的向量表達(dá)[19].基本思路是在TransE基本假設(shè)基礎(chǔ)上增加實(shí)體映射,即首先將實(shí)體映射到對(duì)應(yīng)關(guān)系r的超平面中:
(4)
其中,wr∈k表示由關(guān)系r所確定的超平面的單位法向量.然后根據(jù)hr+r=tr基本假設(shè)進(jìn)行建模.
Fan等人提出的TransM模型[20],通過(guò)向優(yōu)化目標(biāo)函數(shù)中引入與關(guān)系類型相關(guān)的權(quán)重因子,以強(qiáng)化TransE模型對(duì)實(shí)體的區(qū)分能力.參數(shù)模型如下:
(5)
受上述工作啟發(fā),Lin等人綜合借鑒TransH,TransM和RESCAL算法的思路,提出了TransR算法和改進(jìn)的CTransR算法[21].基本思路是將實(shí)體與關(guān)系視為不同類型的對(duì)象,應(yīng)分別將其投影到不同的向量空間中,TransR所使用的實(shí)體映射為
hr=Mrh;tr=Mrt,
(6)
其中,Mr∈d×k表示關(guān)系r的線性變換參數(shù)矩陣,其作用是將實(shí)體的向量表達(dá)從k維空間變換到關(guān)系r所在的d維空間.由于TransR算法的參數(shù)復(fù)雜度較高,為了降低模型復(fù)雜度,提高算法對(duì)大規(guī)模知識(shí)圖譜推理任務(wù)的適用性,Lin等人還進(jìn)一步提出了改進(jìn)的CTransR算法,通過(guò)將知識(shí)圖譜中的實(shí)體按從屬的關(guān)系類型進(jìn)行聚類,在提高計(jì)算效率的同時(shí)也增加了實(shí)體在不同關(guān)系上下文的區(qū)分度,在FB15K等數(shù)據(jù)集上的實(shí)驗(yàn)性能優(yōu)于主流相關(guān)算法[21].
1.3對(duì)相關(guān)工作的討論
除了基于邏輯規(guī)則和基于表示學(xué)習(xí)的關(guān)系推理方法外,學(xué)術(shù)界還提出了一些新的解決方案.例如,Socher等人針對(duì)SE模型對(duì)知識(shí)庫(kù)結(jié)構(gòu)信息利用不足的缺點(diǎn)提出了單層感知機(jī)模型(single layer model, SLM),SLM模型能夠?qū)?shí)體在特定關(guān)系語(yǔ)義下的相關(guān)性進(jìn)行建模,參數(shù)模型表達(dá)為:
f(h,r,t)=rTg(Mrhh+Mrtt),
(7)
其中,Mrh和Mrt分別表示關(guān)系r關(guān)于頭實(shí)體和尾實(shí)體的映射矩陣.激活函數(shù)g(·)為雙曲正切(tanh)函數(shù).針對(duì)SLM模型表示學(xué)習(xí)能力不足的缺點(diǎn),Socher等人進(jìn)一步提出了神經(jīng)張量模型(neural tensor networks, NTN),通過(guò)將SLM中的線性變換層替換為雙線性張量,進(jìn)一步提高了關(guān)系推理準(zhǔn)確性[22].然而,NTN算法的張量計(jì)算復(fù)雜度非常高,且由于模型參數(shù)復(fù)雜度過(guò)高,易導(dǎo)致參數(shù)訓(xùn)練欠擬合,所以需要大量的訓(xùn)練數(shù)據(jù),進(jìn)一步導(dǎo)致模型訓(xùn)練困難.
此外,Lin等人嘗試將邏輯推理與表達(dá)推理方法相結(jié)合,提出了PtransE算法[23].思路是將知識(shí)圖譜中的關(guān)系路徑與關(guān)系的向量表達(dá)聯(lián)系起來(lái),將邏輯推理規(guī)則視為向量加法操作.評(píng)分函數(shù)為
f(h,r,t)=E(h,r,t)+E(h,P(h,t),t),
(8)
其中,P(h,t)={p1,p2,…,pN}表示實(shí)體間關(guān)系路徑集合,pi=(r1,r2,…,rk)為實(shí)體間的一條路徑,E(h,r,t)等價(jià)于式(3),E(h,P(h,t),t)計(jì)算為

(9)
綜上,基于表示學(xué)習(xí)的關(guān)系推理算法研究是近年來(lái)關(guān)系推理領(lǐng)域關(guān)注的熱點(diǎn)問(wèn)題.基本思路是將實(shí)體與關(guān)系對(duì)象包含的語(yǔ)義信息表示為低維空間中的實(shí)值向量,進(jìn)而用于關(guān)系推理計(jì)算.TransE算法是表達(dá)推理模型的典型代表,因其計(jì)算效率高且推理準(zhǔn)確性高而備受關(guān)注,學(xué)術(shù)界對(duì)其進(jìn)行了反復(fù)研究改進(jìn)[5].
然而,通過(guò)對(duì)比以上算法改進(jìn)工作可看到,改進(jìn)后的算法均未能從根本上解決TransE基本假設(shè)中存在的矛盾,即忽視實(shí)體與關(guān)系在語(yǔ)義上的多樣性.例如,TransH和TransR算法,雖然采用了不同的線性變換機(jī)制修正實(shí)體向量,但最終仍是基于h+r=t基本假設(shè)進(jìn)行模型參數(shù)學(xué)習(xí).由于該假設(shè)無(wú)法對(duì)實(shí)體在不同關(guān)系上下文環(huán)境下的語(yǔ)義做出區(qū)分,因此在得到實(shí)體的向量表達(dá)后,再試圖通過(guò)線性變換來(lái)提高對(duì)實(shí)體間語(yǔ)義差別的分辨能力是非常困難的.
本文受上述相關(guān)工作的啟發(fā),提出用非線性變換的方法來(lái)解決表示學(xué)習(xí)的語(yǔ)義分辨率問(wèn)題.通過(guò)將關(guān)系表達(dá)視為相關(guān)實(shí)體語(yǔ)義方面要素的加權(quán)組合,使算法模型既能夠保留TransE基本假設(shè)的合理性,又同時(shí)具備對(duì)實(shí)體和關(guān)系在不同語(yǔ)義條件下的區(qū)分能力.在對(duì)算法性能進(jìn)行測(cè)評(píng)時(shí),考慮到PtransE和CTransR算法是目前公開(kāi)報(bào)道的關(guān)系推理算法中性能表現(xiàn)最好的算法,但PtransE的關(guān)系路徑采樣過(guò)程計(jì)算復(fù)雜度過(guò)高,難以適應(yīng)大規(guī)模知識(shí)圖譜的推理任務(wù)要求,因此本文主要采用CtransR算法作為性能指標(biāo)比較對(duì)象.此外,TransE算法被用作實(shí)驗(yàn)的Baseline,原因是該算法可以視為本文提出的算法的特例,通過(guò)比較二者的實(shí)驗(yàn)結(jié)果,可以加深對(duì)本文算法的理解.由于RESCAL算法目前被應(yīng)用于一些商業(yè)知識(shí)庫(kù)中,因此也將其作為實(shí)驗(yàn)比較對(duì)象,目的是通過(guò)對(duì)比二者的計(jì)算效率和推理準(zhǔn)確率,揭示本文提出的算法模型的性能優(yōu)勢(shì)和實(shí)用價(jià)值.
符號(hào)系統(tǒng)說(shuō)明:以符號(hào)KB表示知識(shí)圖譜中已有的三元組集合.E和R分別表示知識(shí)圖譜中的實(shí)體集合與關(guān)系集合.符號(hào)(h,r,t)∈KB表示一個(gè)已知事實(shí).其中,符號(hào)h,t和r分別表示實(shí)體和關(guān)系的k維向量表達(dá)(embeddings),h稱為頭實(shí)體(head),t稱為尾實(shí)體(tail),r表示實(shí)體對(duì)(h,t)之間的關(guān)系.
2.1算法設(shè)計(jì)思想
現(xiàn)有基于表示學(xué)習(xí)的關(guān)系推理算法大多基于Bordes等人提出的h+r=t基本假設(shè),采用確定的實(shí)向量表達(dá)知識(shí)庫(kù)中已有的實(shí)體與關(guān)系.本文認(rèn)為這種確定的表示學(xué)習(xí)方式忽略了目標(biāo)對(duì)象的語(yǔ)義多樣性,是導(dǎo)致此類算法性能存在瓶頸的問(wèn)題根源.
表1給出了TransE算法在4種關(guān)系類型上的實(shí)驗(yàn)結(jié)果,表中的Prediction with Head replacement字段表示對(duì)于給定三元組,通過(guò)替換頭實(shí)體構(gòu)造干擾列表的推理實(shí)驗(yàn)結(jié)果,Prediction with Tail replacement字段表示通過(guò)替換尾實(shí)體構(gòu)造干擾列表得到的結(jié)果.

Table 1 hits@10 of TransE on FB15k Dataset
從表1可以看出,如果對(duì)關(guān)系兩側(cè)實(shí)體分別實(shí)施替換干擾,TransE算法在1∶M和M∶1等關(guān)系類型上的推理性能表現(xiàn)非常不均衡.表1中4種關(guān)系類型的劃分依據(jù)為:對(duì)于給定關(guān)系ri定義一組參數(shù)為

(10)
其中,factsi表示知識(shí)圖譜中包含關(guān)系ri的三元組(事實(shí))集合,#factsi表示factsi中的元素個(gè)數(shù),#headsi和#tailsi分別表示factsi中包含的不同頭、尾實(shí)體的個(gè)數(shù).據(jù)此定義4種關(guān)系類型為
(11)
閾值η=1.5,以便與相關(guān)工作保持一致[7].從表1可以看出,TransE算法在處理一對(duì)多(1∶M)類型的關(guān)系(即一個(gè)頭實(shí)體對(duì)應(yīng)于多個(gè)尾實(shí)體)時(shí),在尾實(shí)體一側(cè)的性能表現(xiàn)顯著低于頭實(shí)體一側(cè).類似的情況也發(fā)生在多對(duì)一(M∶1)類型的關(guān)系推理任務(wù)中.這一現(xiàn)象表明,如果采用固定的向量表達(dá)來(lái)表示實(shí)體,在h+r=t假設(shè)下無(wú)法對(duì)相似實(shí)體的細(xì)微語(yǔ)義差別進(jìn)行區(qū)分,導(dǎo)致推理結(jié)果存在語(yǔ)義分辨率問(wèn)題.
為了進(jìn)一步從理論角度闡述該假設(shè)存在的矛盾,假設(shè)實(shí)體對(duì)(h,t)之間存在多種不同的關(guān)系,以符號(hào)r1,r2,…,rn分別表示這些關(guān)系.則由TransE的基本假設(shè)h+r=t可以得出結(jié)論:
(12)
即關(guān)系r1,r2,…,rn的向量表示趨同,無(wú)法做語(yǔ)義上的區(qū)分.例如給定3個(gè)基本事實(shí):(星球大戰(zhàn),導(dǎo)演,喬治·盧卡斯),(星球大戰(zhàn),制作人,喬治·盧卡斯)以及(星球大戰(zhàn),編劇,喬治·盧卡斯),由式(12)可知,TransE模型將對(duì)“導(dǎo)演”、“制作人”和“編劇”這3種關(guān)系得出相同的向量表達(dá).其他基于TransE的表達(dá)推理模型也有類似的問(wèn)題.
為解決該矛盾,需要修正算法的基本假設(shè),提高模型對(duì)關(guān)系語(yǔ)義多樣性的區(qū)分能力.
考慮到關(guān)系的普適性,即多個(gè)實(shí)體對(duì)之間可以共享同一種關(guān)系(如IsA關(guān)系和Affiliation關(guān)系等).本文將關(guān)系的向量表達(dá)視為不變量,將實(shí)體向量中的元素視為實(shí)體屬性的方面要素(aspect factors).據(jù)此在h+r=t基本假設(shè)的基礎(chǔ)上,提出新的假設(shè)如下:實(shí)體對(duì)(h,t)間的每種關(guān)系反映了兩側(cè)實(shí)體在某些特定的方面要素上的關(guān)聯(lián),可以通過(guò)對(duì)實(shí)體向量的方面要素進(jìn)行選擇性加權(quán),以實(shí)現(xiàn)關(guān)系語(yǔ)義的區(qū)分.
該假設(shè)的合理性舉例說(shuō)明如下:以2個(gè)三元組為例:(特朗普,國(guó)籍,美國(guó))和(特朗普,居住于,美國(guó)).若將實(shí)體向量視為不變量,則由h+r=t假設(shè)可以得出“國(guó)籍”=“居住于”的錯(cuò)誤結(jié)論.
而根據(jù)本文提出的假設(shè),即每種關(guān)系反映的是實(shí)體間某些特定方面要素的關(guān)聯(lián)和差異,則可以有效解決上述問(wèn)題.例如,“國(guó)籍”關(guān)系反映的是兩側(cè)實(shí)體間在法律、出生地等方面的從屬關(guān)系,而“居住于”關(guān)系反映的是兩側(cè)實(shí)體間在工作、生活等方面的地理位置聯(lián)系.本文認(rèn)為,在實(shí)體的向量表達(dá)中,每個(gè)維度包含了不同的語(yǔ)義方面信息,通過(guò)對(duì)其進(jìn)行適當(dāng)?shù)募訖?quán)處理,可以實(shí)現(xiàn)對(duì)關(guān)系的表達(dá)和對(duì)關(guān)系語(yǔ)義的區(qū)分.據(jù)此提出關(guān)系推理算法的設(shè)計(jì)方案如下.
2.2算法描述
對(duì)于知識(shí)圖譜中的每種關(guān)系ri∈k,定義與之相關(guān)的實(shí)體方面要素(語(yǔ)義)權(quán)重向量βi∈k,即關(guān)系ri代表的語(yǔ)義環(huán)境下,與實(shí)體向量的元素相對(duì)應(yīng)的語(yǔ)義權(quán)重值所組成的向量.算法模型為
(13)

式(13)表示在給定的關(guān)系語(yǔ)境下,對(duì)三元組中的頭尾實(shí)體向量采用相同的加權(quán)系數(shù)進(jìn)行處理,以突出對(duì)應(yīng)方面要素的影響,同時(shí)弱化不相關(guān)方面要素的影響.考慮到關(guān)系的有向性,關(guān)系兩側(cè)的實(shí)體也可能存在顯著的語(yǔ)義差異,因此其向量表達(dá)的組成要素可能存在顯著差異.以(特朗普,國(guó)籍,美國(guó))為例,“國(guó)籍”關(guān)系的頭實(shí)體是人物名實(shí)體,尾實(shí)體是國(guó)家名實(shí)體.人物的特征要素與國(guó)家的特征要素顯然是無(wú)法實(shí)現(xiàn)一一對(duì)應(yīng)的,因此本文進(jìn)一步考慮對(duì)關(guān)系兩側(cè)的實(shí)體進(jìn)行分別加權(quán)處理.即,對(duì)于知識(shí)圖譜中的每種關(guān)系ri∈k,定義2個(gè)與之相關(guān)的實(shí)體方面要素權(quán)重向量k,分別用于對(duì)關(guān)系兩側(cè)實(shí)體集合的向量表達(dá)進(jìn)行加權(quán)處理,算法模型為
(14)
從式(13)和(14)可以看出,當(dāng)權(quán)重向量βi,βhi和βti的元素取值為1時(shí),式(13)(14)2個(gè)算法等價(jià)于TransE模型.為便于區(qū)分上述模型,本文將式(13)稱為統(tǒng)一加權(quán)模型(unified weighted model, UWM),將式(14)稱為獨(dú)立加權(quán)模型(independent weighted model, IWM).下面介紹模型的參數(shù)估計(jì)方法.
2.3模型訓(xùn)練方法
首先介紹訓(xùn)練樣本的構(gòu)造方法.本文遵循封閉世界假設(shè)[1],將知識(shí)圖譜中已有的三元組視為正樣本,正樣本集合采用符號(hào)Δ表示.對(duì)于任意給定正樣本(h,r,t)∈Δ,構(gòu)造其負(fù)樣本集合:
Δ′={(h′,r,t)|h′∈E∧(h′,r,t)?Δ}∪
{(h,r,t′)|t′∈E∧(h,r,t′)?Δ},
(15)
其中,(h′,r,t)和(h,r,t′)分別表示對(duì)樣本(h,r,t)中的頭、尾實(shí)體進(jìn)行替換得到的三元組.得到訓(xùn)練樣本集合后,采用邊界最大所化(maximum margin)方法對(duì)本文提出的UWM算法與IWM算法的參數(shù)進(jìn)行學(xué)習(xí)[19].設(shè)(h,r,t)∈Δ表示已知事實(shí),(h′,r,t′)∈Δ′表示針對(duì)該給定事實(shí)構(gòu)造的負(fù)樣本.定義正負(fù)樣本語(yǔ)義偏差函數(shù)為
J(h,r,t)=f(h,r,t)+γ-f(h′,r,t′),
(16)
其中,符號(hào)γ表示邊界參數(shù),用于設(shè)置正、負(fù)樣本的語(yǔ)義誤差間隔.據(jù)此進(jìn)一步定義模型參數(shù)估計(jì)的優(yōu)化目標(biāo)函數(shù)為

(17)
其中,函數(shù)max(x,y)返回x和y中較大的值.本文采用隨機(jī)梯度下降(stochastic gradient descent, SGD)方法求解優(yōu)化目標(biāo)函數(shù)(17)的最優(yōu)值,由此即可同步求得式(13)或式(14)的參數(shù).
2.4算法復(fù)雜度分析
表2給出了本文提出的UWM和IWM算法模型以及一些經(jīng)典相關(guān)算法的復(fù)雜度分析結(jié)果.其中,參數(shù)復(fù)雜度(parameter complexity)給出了模型中需要估計(jì)的參數(shù)個(gè)數(shù),時(shí)間復(fù)雜度(time complexity)給出了采用SGD算法求解模型參數(shù)時(shí),每輪迭代需要執(zhí)行的浮點(diǎn)數(shù)加法和乘法的基本運(yùn)算次數(shù).

Table 2 Analysis of the Model Complexity表2 模型復(fù)雜度分析
表2中的符號(hào)Ne和Nr分別表示知識(shí)圖譜中已有的實(shí)體數(shù)目與關(guān)系數(shù)目,N表示知識(shí)圖譜中已有的三元組總數(shù),k表示實(shí)體向量空間的維度,d表示關(guān)系向量空間的維度.包括TransE在內(nèi)的多數(shù)表達(dá)推理算法將實(shí)體和關(guān)系投影到相同維度的空間中(即k=d),但也有部分算法采用不同維度的實(shí)體和關(guān)系向量表達(dá)(如TransR和CtransR算法).
從表2可以看出RESCAL模型和TransR模型的參數(shù)復(fù)雜度和計(jì)算時(shí)間復(fù)雜度均高出本文所提出的UWM算法和IWM算法約2個(gè)數(shù)量級(jí)(通常k和d的取值為102級(jí)別).同時(shí)可看出,UWM算法和IWM算法的參數(shù)復(fù)雜度與TransE相當(dāng)(因?yàn)橥ǔG闆r下Ne?Nr),計(jì)算時(shí)間復(fù)雜度則比TransE算法高出約2個(gè)數(shù)量級(jí).由此可見(jiàn),本文提出2種關(guān)系推理算法的參數(shù)復(fù)雜度接近TransE算法,因此能夠保持TransE算法對(duì)訓(xùn)練數(shù)據(jù)需求量較小,不易出現(xiàn)欠擬合問(wèn)題的優(yōu)點(diǎn);計(jì)算時(shí)間復(fù)雜度則介于TransE和另外2種模型之間,但由于UWM算法和IWM算法不涉及張量運(yùn)算和矩陣計(jì)算,因此易于實(shí)現(xiàn)并行,經(jīng)GPU加速后,算法實(shí)際性能與TransE相當(dāng).因此,本文提出的關(guān)系推理算法簡(jiǎn)單高效,實(shí)用性好.
為驗(yàn)證本文提出的基本假設(shè)的有效性,即知識(shí)圖譜中的關(guān)系可以通過(guò)對(duì)其相關(guān)聯(lián)的實(shí)體向量的方面要素進(jìn)行選擇性加權(quán)來(lái)表達(dá),本文選擇了4種近期在關(guān)系推理領(lǐng)域引起廣泛重視的相關(guān)工作進(jìn)行實(shí)驗(yàn)比較,包括基于張量分解的代表性模型RESCAL算法,基于表示學(xué)習(xí)的代表性模型TransE算法,以及在TransE基礎(chǔ)上改進(jìn)得到的TransR算法和CTransR算法.并使用相關(guān)工作普遍采用的2組公開(kāi)數(shù)據(jù)集對(duì)所提出的UWM算法和IWM算法進(jìn)行測(cè)試.
① https://everest.hds.utc.fr/doku.php?id=en:transe
3.1實(shí)驗(yàn)數(shù)據(jù)
本文所使用的實(shí)驗(yàn)數(shù)據(jù)由法國(guó)貢比涅技術(shù)大學(xué)的Antoine Bordes等人整理并發(fā)布,分別稱為WN18和FB15k數(shù)據(jù)集①.數(shù)據(jù)統(tǒng)計(jì)信息如表3所示.
其中,WN18數(shù)據(jù)集從WordNet知識(shí)庫(kù)采樣得到,WordNet是一個(gè)基于認(rèn)知語(yǔ)言學(xué),且覆蓋范圍較廣的大型英文詞匯數(shù)據(jù)庫(kù).WN18數(shù)據(jù)集包含18種關(guān)系類型、40 943個(gè)實(shí)體、151 442個(gè)三元組.上述三元組被隨機(jī)劃分為3組,分別用于模型參數(shù)訓(xùn)練(Train)、模型驗(yàn)證(Validation)和性能測(cè)試(Test).
FB15k數(shù)據(jù)集從Freebase采樣得到,F(xiàn)reebase早期的知識(shí)來(lái)源是維基百科,后來(lái)被谷歌收購(gòu)并維護(hù),是當(dāng)前規(guī)模最大的開(kāi)源通用型知識(shí)庫(kù)之一,知識(shí)范圍覆蓋現(xiàn)實(shí)世界中的各個(gè)方面.FB15k數(shù)據(jù)集包含1 345種關(guān)系、14 951個(gè)實(shí)體、592 213個(gè)三元組.同樣地,F(xiàn)B15k中的三元組被隨機(jī)劃分為3組.

Table 3 Statistics of the Benchmark Datasets表3 基準(zhǔn)數(shù)據(jù)集的統(tǒng)計(jì)信息
由于WN18包含的關(guān)系種類較少,且FB15k的知識(shí)來(lái)源更為豐富,因此本文將重點(diǎn)使用FB15k數(shù)據(jù)集對(duì)算法性能進(jìn)行比較分析.經(jīng)統(tǒng)計(jì),取η=1.5,F(xiàn)B15k中1∶1類型的三元組數(shù)量約占1.51%,1∶M類型的三元組約占15.26%,M∶1類型的三元組數(shù)量約占9.49%,M∶M類型的三元組約占73.74%.
3.2實(shí)驗(yàn)方法與評(píng)估指標(biāo)
對(duì)算法性能的測(cè)試與相關(guān)工作中所采用的實(shí)驗(yàn)方法保持一致,即使用干擾列表排序法.對(duì)于測(cè)試集中的每一個(gè)三元組(h,ri,t),枚舉知識(shí)圖譜中所有的實(shí)體,替換(h,ri,t)中的頭實(shí)體,從中過(guò)濾掉已知的事實(shí)(即知識(shí)圖譜中已有的三元組),得到第1組干擾事實(shí)列表,稱為頭干擾列表為
hlist={(h′,ri,t)|?h′∈E∧(h′,ri,t)?Δ},
(18)
類似地,構(gòu)造尾干擾列表如下:
tlist={(h,ri,t′)|?t′∈E∧(h,ri,t′)?Δ}.
(19)
然后采用關(guān)系推理算法計(jì)算干擾列表中每個(gè)三元組的分值,并按照分值分別對(duì)頭、尾干擾列表進(jìn)行排序,取給定事實(shí)(h,ri,t)在相應(yīng)排序結(jié)果中所處的位置作為評(píng)估關(guān)系推理結(jié)果的基礎(chǔ)測(cè)度,分別記為rank(?,ri,t)和rank(h,ri,?).對(duì)二者求均值,得到關(guān)系推理算法對(duì)給定三元組的綜合預(yù)測(cè)排名:

(20)
得到綜合排名后,可進(jìn)一步構(gòu)造3種統(tǒng)計(jì)量對(duì)算法性能進(jìn)行評(píng)估:首位命中率指標(biāo)(hits@1)、前10命中率指標(biāo)(hits@10)、平均倒數(shù)排名指標(biāo)(mean reciprocal rank,MRR).hits@1定義如下:

(21)
其中,符號(hào)T表示測(cè)試集,|T|表示測(cè)試集中的三元組個(gè)數(shù).ind(·)為指示函數(shù),定義:

(22)
hits@1指標(biāo)值表示排名第一的算法推理結(jié)果為正確知識(shí)的可能性,可以視為關(guān)系推理算法的準(zhǔn)確率指標(biāo).類似地可以定義hits@10指標(biāo)如下:

(23)
hits@10指標(biāo)值表示正確結(jié)果出現(xiàn)在推理結(jié)果列表前10位(通常可接受的推薦列表長(zhǎng)度)的概率,可以視為關(guān)系推理算法對(duì)知識(shí)的召回率指標(biāo).
進(jìn)一步定義MRR指標(biāo)的計(jì)算為
(24)
MRR指標(biāo)表示對(duì)測(cè)試集中所有事實(shí)在推理結(jié)果列表中排名的倒數(shù)求平均值.由于給定事實(shí)在推理結(jié)果中的排名越靠前,其倒數(shù)值越大,因此MRR值越高,表明算法的推理性能也越好.但由于倒數(shù)取值范圍是(0,1]區(qū)間,所以排名靠后的結(jié)果對(duì)MRR值的影響較大,因此MRR值能夠全面反映算法的綜合表現(xiàn).
3.3實(shí)驗(yàn)結(jié)果與分析
本文所提出的UWM和IWM算法包含3個(gè)超參數(shù)需要在模型訓(xùn)練之前加以確定:SGD算法的學(xué)習(xí)率α、邊界參數(shù)γ以及向量表達(dá)空間的維度k.
實(shí)驗(yàn)前采用網(wǎng)格搜索法(grid search)對(duì)上述參數(shù)進(jìn)行選擇.參考相關(guān)工作的實(shí)驗(yàn)參數(shù),設(shè)定α的搜索范圍為{0.01,0.005,0.001,0.000 5},γ的范圍為{0.5,1.0,1.5,2.0},k的范圍為{50,100,150,200}.在WN18和FB15k的驗(yàn)證集上分別進(jìn)行網(wǎng)格搜索,取hits@10指標(biāo)最優(yōu)時(shí)的參數(shù)組合作為本文的實(shí)驗(yàn)參數(shù):在WN18數(shù)據(jù)集上,參數(shù)取值為α=0.000 5,γ=1.0,k=50;在FB15k數(shù)據(jù)集上,參數(shù)取值為α=0.001,γ=1.5,k=150.在本文的所有實(shí)驗(yàn)中,SGD算法迭代次數(shù)統(tǒng)一設(shè)置為1 000輪.
3.3.1 算法性能綜合評(píng)估
表4和表5分別給出了UWM和IWM算法與相關(guān)工作在WN18和FB15k這2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比情況.表中每列指標(biāo)中性能表現(xiàn)最好的一項(xiàng)用粗體標(biāo)出.由于TransE算法可以看作是UWM和IWM算法中權(quán)重向量的元素取值全為1的情況,因此可作為Baseline算法,用于評(píng)估本文基本假設(shè)的有效性.

Table 4 Experimental Results on WN18 Dataset表4 WN18數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

Table 5 Experimental Results on FB15k Dataset表5 FB15k數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
由表4和表5可見(jiàn),UWM算法和IWM算法在2個(gè)數(shù)據(jù)集的MRR和hits@1指標(biāo)上的表現(xiàn)均一致且顯著優(yōu)于參與比較的相關(guān)算法.在WN18數(shù)據(jù)集上的hits@10指標(biāo)表現(xiàn)與TransE,TransR和CTransR算法相當(dāng),在FB15k數(shù)據(jù)集上的hits@10指標(biāo)則再次表現(xiàn)出顯著優(yōu)勢(shì).初步表明本文提出的假設(shè)和算法有效.
通過(guò)對(duì)比UWM算法和IWM算法的性能表現(xiàn)可以看出,IWM算法在2組實(shí)驗(yàn)中的所有性能指標(biāo)上的表現(xiàn)均優(yōu)于UWM算法,然而優(yōu)勢(shì)并不顯著,除WN18數(shù)據(jù)集上的hits@1指標(biāo)外,二者在其他性能指標(biāo)上的差異小于5%.該結(jié)果表明,對(duì)同種類型關(guān)系兩側(cè)的實(shí)體向量分別進(jìn)行加權(quán)處理,有助于提高關(guān)系推理算法的準(zhǔn)確性和召回率.但由此帶來(lái)的性能提升并不顯著,意味著通過(guò)適當(dāng)改進(jìn)共享權(quán)重參數(shù)的估計(jì)方法,有可能達(dá)到同樣的效果.
為深入揭示UWM和IWM算法的相對(duì)優(yōu)勢(shì)及其產(chǎn)生原因,接下來(lái)以IWM算法為代表,將其逐一與相關(guān)算法的實(shí)驗(yàn)結(jié)果進(jìn)行比對(duì).由于基于張量分解的RESCAL算法在2組實(shí)驗(yàn)中的表現(xiàn)顯著低于其余相關(guān)工作,因此將其排除在討論范圍之外.此外,TransR算法和CtransR算法的設(shè)計(jì)思路相近,因此本文將其合并進(jìn)行討論.首先比較TransE和IWM算法.
如2.2節(jié)所述,TransE算法可以被視為IWM算法的特例,當(dāng)IWM權(quán)重向量的所有元素均取值為1時(shí),IWM算法退化為TransE算法.從實(shí)驗(yàn)結(jié)果來(lái)看,在WN18和FB15k數(shù)據(jù)集上,IWM算法的MRR指標(biāo)與TransE算法相比分別提高了41.01%和23.06%,說(shuō)明IWM中引入的權(quán)重處理機(jī)制顯著地影響了正確結(jié)果(已知事實(shí))在干擾列表中的分布,使之向列表的頂部偏移,從而進(jìn)一步驗(yàn)證了本文假設(shè)的合理性,即知識(shí)圖譜中的關(guān)系可以通過(guò)對(duì)其相關(guān)聯(lián)的實(shí)體向量的方面要素進(jìn)行選擇性加權(quán)進(jìn)行區(qū)分,通過(guò)合理建模,可以有效提升推理結(jié)果的準(zhǔn)確率.
進(jìn)一步對(duì)二者的準(zhǔn)確率和召回率指標(biāo)進(jìn)行比對(duì),可以看到在WN18和FB15k數(shù)據(jù)集上,IWM算法的hits@1指標(biāo)與TransE算法相比分別提高了337.17%和38.60%;hits@10指標(biāo)分別提高了6.05%和10.15%.該結(jié)果表明,新引入的假設(shè)能夠?qū)ν评砟P偷臏?zhǔn)確率和召回率同時(shí)產(chǎn)生積極影響,但對(duì)于算法準(zhǔn)確率的影響更為顯著,說(shuō)明該假設(shè)有助于提高表示學(xué)習(xí)模型對(duì)于同類型實(shí)體(出現(xiàn)在同種關(guān)系一側(cè)的實(shí)體集合)的分辨率,由此進(jìn)一步證明本文提出的假設(shè)是有效的.
將IWM算法與TransR和CtransR二者中表現(xiàn)較好的結(jié)果進(jìn)行比較,可以看到在WN18和FB15k數(shù)據(jù)集上,IWM的MRR指標(biāo)分別提高了15.37%和44.16%;hits@1指標(biāo)分別提高了47.46%和69.26%.hits@10指標(biāo)分別提高了1.94%和22.60%.該結(jié)果表明,與將實(shí)體和關(guān)系分別映射到不同語(yǔ)義空間的TransR和CtransR算法相比,IWM算法的魯棒性更好,且對(duì)實(shí)體和關(guān)系語(yǔ)義差異的分辨能力更優(yōu).
綜上,與相關(guān)工作相比,本文提出的UWM和IWM算法在關(guān)系推理準(zhǔn)確率指標(biāo)(hits@1)上的優(yōu)勢(shì)十分明顯,在WN18和FB15k數(shù)據(jù)集上與性能最接近的算法相比,準(zhǔn)確率提高水平也超過(guò)了38.60%.此外,IWM算法在上述數(shù)據(jù)集上的推理準(zhǔn)確率分別達(dá)到49.4%和41.3%,意味著在一般關(guān)系推理任務(wù),用戶能夠以近40%的把握接受算法給出的第一項(xiàng)推理結(jié)果,因此具備良好的實(shí)際應(yīng)用前景.
3.3.2 在不同關(guān)系類型上的性能分析
為進(jìn)一步分析UWM和IWM算法性能優(yōu)勢(shì)的成因,本文在FB15k數(shù)據(jù)集上做了關(guān)系分類實(shí)驗(yàn).首先,將FB15k測(cè)試集按照式(11)劃分成4類,然后分別對(duì)其進(jìn)行關(guān)系推理實(shí)驗(yàn),結(jié)果如表6和表7所示.為便于分析比較,相關(guān)工作選擇了可被視為本文提出的算法特例的TransE算法和相關(guān)算法中綜合性能表現(xiàn)最好的CtransR算法作為實(shí)驗(yàn)參考對(duì)象.

Table 6 Evaluation Results of hits@1 on FB15k Dataset

Table 7 Evaluation Results of hits@10 on FB15k Dataset
首先比較UWM和IWM算法的性能表現(xiàn),可以看出在hits@1和hits@10指標(biāo)上,二者在多數(shù)關(guān)系類型上的性能表現(xiàn)十分接近(差異小于5%),僅在處理M∶1類型關(guān)系的頭干擾列表時(shí)表現(xiàn)出系統(tǒng)性差異,與UWM算法相比,IWM算法在hits@1指標(biāo)上準(zhǔn)確率高出14.15%,在hits@10指標(biāo)上召回率高出6.30%.然而,考察與之相對(duì)應(yīng)的1∶M類型關(guān)系尾干擾列表,可以看出IWM算法在上述2個(gè)指標(biāo)上只分別高于UWM算法5.45%和1.64%.該結(jié)果表明,造成上述性能表現(xiàn)差異的原因可能與測(cè)試數(shù)據(jù)分布和訓(xùn)練數(shù)據(jù)量不足有關(guān),并不足以證明IWM算法比UWM算法的性能更優(yōu),對(duì)此將在下一步工作中加以驗(yàn)證.
接下來(lái)考察本文提出的UWM和IWM算法與TransE和CtransR算法的性能對(duì)比.從表6可以看出,相對(duì)于另外2個(gè)參考算法,UWM和IWM算法在所有8個(gè)子項(xiàng)上的推理準(zhǔn)確率表現(xiàn)都占據(jù)了明顯的優(yōu)勢(shì),尤其是在處理1∶M和M∶1關(guān)系類型時(shí),準(zhǔn)確率提升更為顯著.該實(shí)驗(yàn)結(jié)果進(jìn)一步表明本文提出的算法能夠有效提升實(shí)體與關(guān)系的向量表達(dá)的準(zhǔn)確性,從而提高實(shí)體分辨率,同時(shí)也間接說(shuō)明本文提出的基本假設(shè)具有合理性,即可以通過(guò)對(duì)關(guān)系兩側(cè)的實(shí)體向量中包含的方面要素進(jìn)行加權(quán)組合,獲得對(duì)關(guān)系的向量表達(dá).同樣的情況也出現(xiàn)在表7的實(shí)驗(yàn)結(jié)果中,本文提出的2種算法,在4種關(guān)系類型的召回率指標(biāo)上也全面占優(yōu),在處理1∶M和M∶1關(guān)系類型的優(yōu)勢(shì)更為顯著.進(jìn)一步驗(yàn)證了本文假設(shè)的有效性.
值得注意的是,盡管實(shí)驗(yàn)數(shù)據(jù)證明了UWM和IWM算法能夠克服部分TransE基本假設(shè)存在的問(wèn)題,提高算法對(duì)實(shí)體和關(guān)系語(yǔ)義的分辨能力,從而大幅提升關(guān)系推理準(zhǔn)確率,但是從表6和表7的實(shí)驗(yàn)數(shù)據(jù)不難看出,UWM和IWM算法在處理1∶M和M∶1關(guān)系類型數(shù)據(jù)時(shí),同樣存在明顯的性能不均衡性.例如,UWM算法在處理1∶M關(guān)系類型的頭干擾列表時(shí),hits@1準(zhǔn)確率達(dá)到70.7%,但在處理M∶1類型的頭干擾列表時(shí),hits@1準(zhǔn)確率只有20.5%.類似的情況在表6右側(cè)的尾干擾列表,以及表7中均可以觀察到.該結(jié)果表明,本文提出的建模假設(shè)僅揭示了部分客觀規(guī)律,并沒(méi)有完全解決TransE基本假設(shè)中存在的矛盾問(wèn)題.然而,從實(shí)驗(yàn)結(jié)果所反饋的積極信號(hào)來(lái)看,本文的工作在一定程度上觸及了問(wèn)題的本質(zhì),為下一步工作提供了一個(gè)有希望的參考解決方案.
本文研究了知識(shí)圖譜上的關(guān)系推理問(wèn)題,指出了當(dāng)前基于表示學(xué)習(xí)的關(guān)系推理模型所普遍采用的基本假設(shè)存在理論問(wèn)題,并據(jù)此提出了新的建模假設(shè)和數(shù)學(xué)模型.在WN18和FB15k等基準(zhǔn)數(shù)據(jù)集上的仿真實(shí)驗(yàn)表明,本文所提出的算法在所有指標(biāo)上的性能表現(xiàn)一致且顯著優(yōu)于本領(lǐng)域的代表性工作,且算法計(jì)算效率高,可適用于大規(guī)模知識(shí)圖譜關(guān)系推理任務(wù).
該工作為研究基于表示學(xué)習(xí)的關(guān)系推理算法提供了新的建模思路和解決方案,同時(shí)也留下了一些值得繼續(xù)研究的問(wèn)題,比如:IWM所采用的獨(dú)立加權(quán)方式是否優(yōu)于UWM所采用的共享參數(shù)方式;本文提出的算法為什么在大幅提高1∶M和M∶1關(guān)系類型推理準(zhǔn)確率的同時(shí),卻未能消除算法對(duì)關(guān)系兩側(cè)實(shí)體的推理能力的不均衡問(wèn)題.在后續(xù)工作中,將針對(duì)上述問(wèn)題開(kāi)展進(jìn)一步研究,目標(biāo)是提出更為合理的關(guān)系推理建模思路和設(shè)計(jì)更為高效的推理算法.
[1] Nickel M, Murphy K, Tresp V, et al. A review of relational machine learning for knowledge graphs[J]. Proceedings of the IEEE, 2016, 104(1): 11-33
[2] Liu Qiao, Li Yang, Duan hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600 (in Chinese)(劉嶠, 李楊, 段宏, 等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600)
[3] Wang Yuanzhuo, Jia Yantao, Liu Dawei, et al. Open web knowledge aided information search and data mining[J]. Journal of Computer Research and Development, 2015, 52(2): 456-474 (in Chinese)(王元卓, 賈巖濤, 劉大偉, 等. 基于開(kāi)放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘[J]. 計(jì)算機(jī)研究與發(fā)展, 2015. 52(2): 456-474)
[4] West R, Gabrilovich E, Murphy K, et al. Knowledge base completion via search-based question answering[C] //Proc of the 23rd Int World Wide Web Conf. New York: ACM, 2014: 515-526
[5] Liu zhiyuan, Sun Maosong, Lin Yankai, et al. Knowledge representation learning: A review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261 (in Chinese)(劉知遠(yuǎn), 孫茂松, 林衍凱, 等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016. 53(2): 247-261)
[6] Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: A Web-scale approach to probabilistic knowledge fusion[C] //Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM. 2014: 601-610
[7] Liu Qiao, Jiang Liuyi, Han Minghao, et al. Hierarchical random walk inference in knowledge graphs[C] //Proc of the 39th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2016: 445-454
[8] Getoor L, Mihalkova L. Learning statistical models from relational data[C] //Proc of the 2011 ACM SIGMOD Int Conf on Management of data. New York: ACM, 2011: 1195-1198
[9] Richardson M, Domingos P. Markov logic networks[J]. Machine Learning, 2006, 62(1): 107-136
[10] Friedman N, Getoor L, Koller D, et al. Learning probabilistic relational models[C] //Proc of IJCAI 1999. San Francisco, CA: Morgan Kaufmann, 1999: 1300-1309
[11] Schoenmackers S, Etzioni O, Weld D S, et al. Learning first-order horn clauses from web text[C] //Proc of the 2010 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2010: 1088-1098
[12] Lao Ni, Mitchell T, Cohen W W. Random walk inference and learning in a large scale knowledge base[C] //Proc of the 2011 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2011: 529-539
[13] Gardner M, Mitchell T. Efficient and expressive knowledge base completion using subgraph feature extraction[C] //Proc of the 2015 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 1488-1498
[14] Pennington J, Socher R, Manning C D. GloVe: Global vectors for word representation[C] //Proc of the 2014 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 1532-1543
[15] Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C] //Proc of the 26th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 3111-3119
[16] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C] //Proc of the 27th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 2787-2795
[17] Nickel M, Tresp V, Kriegel H-P. A three-way model for collective learning on multi-relational data[C] //Proc of the 28th Int Conf on Machine Learning. New York: ACM, 2011: 809-816
[18] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases[C] //Proc of the 25th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2011
[19] Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C] //Proc of the 28th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2014: 1112-1119
[20] Fan Miao, Zhou Qiang, Chang Emily, et al. Transition-based knowledge graph embedding with relational mapping properties[C] //Proc of Pacific Asia Conf on Language, Information and Computation. Stroudsburg, PA: ACL, 2014: 328-337
[21] Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C] //Proc of the 29th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2015: 2181-2187
[22] Socher R, Chen Danqi, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completion[C] //Proc of the 27th Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 926-934
[23] Lin Yankai, Liu Zhiyuan, Luan Hanbo, et al. Modeling Relation Paths for Representation Learning of Knowledge Bases[C] //Proc of the 2015 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 705-714
RepresentationLearningBasedRelationalInferenceAlgorithmwithSemanticalAspectAwareness
Liu Qiao, Han Minghao, Yang Xiaohui, Liu Yao, and Wu Zufeng
(SchoolofInformationandSoftwareEngineering,UniversityofElectronicScienceandTechnologyofChina,Chengdu610054)
Knowledge representation based relational inference algorithms is a crucial research issue in the field of statistical relational learning and knowledge graph population in recent years. In this work, we perform a comparative study of the prevalent knowledge representation based reasoning models, with detailed discussion of the general potential problems contained in their basic assumptions. The major problem of these representation based relational inference models is that they often ignore the semantical diversity of entities and relations, which will cause the lack of semantic resolution to distinguish them, especially when there exists more than one type of relation between two given entities. This paper proposes a new assumption for relation reasoning in knowledge graphs, which claims that each of the relations between any entity pairs reflects the semantical connection of some specific attention aspects of the corresponding entities, and could be modeled by selectively weighting on the constituent of the embeddings to help alleviating the semantic resolution problem. A semantical aspect aware relational inference algorithm is proposed to solve the semantic resolution problem, in which a nonlinear transformation mechanism is introduced to capture the effects of the different semantic aspects of the embeddings. Experimental results on public datasets show that the proposed algorithms have superior semantic discrimination capability for complex relation types and their associated entities, which can effectively improve the accuracy of relational inference on knowledge graphs, and the proposed algorithm significantly outperforms the state-of-the-art approaches.
statistical relational learning; relational inference; representation learning; knowledge graphs; multi-relational data mining

Liu Qiao, born in 1974. PhD and associate professor. Member of CCF. His main research interests include machine learning and data mining, natural language processing, and social network analysis.

Han Minghao, born in 1992. Mater. Student member of CCF. His main research interests include natural language processing and machine learning (hanmhao@gmail.com).

Yang Xiaohui, born in 1993. Mater. Her main research interests include machine learning, natural language processing and data mining (yangxhui@std.uestc.edu.cn).

Liu Yao, born in 1978. PhD and Lecturer. Member of CCF. Her main research interests include social network analysis, machine learning, data mining, and network measurement (liuyao@uestc.edu.cn).

Wu Zufeng, born in 1978. PhD and Engineer. Member of CCF. His main research interests include machine learning, data mining, and information security (wuzufeng@uestc.edu.cn).
2017-03-20;
:2017-05-15
國(guó)家自然科學(xué)基金項(xiàng)目(61133016,U1401257);四川省高新技術(shù)及產(chǎn)業(yè)化面上項(xiàng)目(2017GZ0308) This work was supported by the National Natural Science Foundation of China (61133016,U1401257) and the General Program of the Sichuan Province High-Technology Industrialization (2017GZ0308).
TP391