摘要:CP分解作為知識圖譜鏈接預(yù)測的方法之一,能夠?qū)σ恍┌R?guī)數(shù)據(jù)的知識圖譜進(jìn)行鏈接預(yù)測補(bǔ)全。但當(dāng)知識圖譜存在大量稀疏數(shù)據(jù)及可逆關(guān)系時,該方法不能體現(xiàn)兩個實(shí)體間具有的隱藏聯(lián)系,無法對此類數(shù)據(jù)進(jìn)行處理。為解決上述問題,提出增強(qiáng)CP分解方法,對三元組中前實(shí)體和后實(shí)體的兩個嵌入向量分別進(jìn)行學(xué)習(xí),并在訓(xùn)練過程中使用概率方法生成更高質(zhì)量的負(fù)例三元組,引入ELU損失函數(shù)和AMSGrad優(yōu)化器,有效對可逆關(guān)系和稀疏數(shù)據(jù)進(jìn)行處理。在通用數(shù)據(jù)集上的實(shí)驗結(jié)果表明,所提方法可以有效提升鏈接預(yù)測精度,與對比模型相比取得了5%的性能提升,同時應(yīng)用在汽車維修知識圖譜數(shù)據(jù)集補(bǔ)全中,取得83.2%正確率的實(shí)體補(bǔ)全結(jié)果。
關(guān)鍵詞:知識圖譜;鏈接預(yù)測;CP分解;知識圖譜嵌入;知識圖譜補(bǔ)全
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A文章編號:1001-3695(2023)05-017-1396-06doi:10.19734/j.issn.1001-3695.2022.09.0498
0引言
知識圖譜包含了關(guān)于世界的真實(shí)知識,并提供了這些知識的結(jié)構(gòu)化表示[1]。近年來知識圖譜技術(shù)在搜索、問答系統(tǒng)、推薦系統(tǒng)、自然語言處理等方面得到廣泛應(yīng)用[2]。然而,隨著社會的發(fā)展,現(xiàn)有知識圖譜面臨著不確定、不完整以及對新知識獲取的問題,這些問題導(dǎo)致了知識圖譜的不完整性,使知識圖譜在實(shí)際應(yīng)用中不能及時得到更新。鏈接預(yù)測(linkprediction)是一種有效的知識圖譜補(bǔ)全方法,它通過知識圖譜中已有信息鏈接來推斷出一些尚未存在的新鏈接[3],在知識圖譜完成中發(fā)揮著舉足輕重的作用[4]。
知識圖譜可以看做是一些三元組的集合,三元組通常表示為(實(shí)體,關(guān)系,實(shí)體)的形式[5]。因此,鏈接預(yù)測問題可以被視為如何在知識圖譜中發(fā)現(xiàn)新的三元組。研究者們針對鏈接預(yù)測問題提出若干模型,包括翻譯距離模型、神經(jīng)網(wǎng)絡(luò)模型、張量分解模型等[6]。其中張量分解已經(jīng)被證明在知識圖譜鏈接預(yù)測中是有效的[7],以CP分解方法(canonicalpolyadicdecomposition)[8]最為經(jīng)典,使用張量分解的思想為每個三元組的前實(shí)體、關(guān)系以及后實(shí)體分別學(xué)習(xí)一個嵌入向量,前實(shí)體和后實(shí)體的學(xué)習(xí)是相互獨(dú)立的,因此該方法可以對簡單關(guān)系知識圖譜進(jìn)行鏈接預(yù)測補(bǔ)全,但在知識圖譜中數(shù)據(jù)較為稀疏時,CP分解模型的預(yù)測效果較差[9],DisMult[10]對此進(jìn)行改進(jìn),將關(guān)系的處理簡化為對角矩陣,有效對稀疏數(shù)據(jù)進(jìn)行處理,并保持簡單高效的特點(diǎn),但該模型在處理數(shù)據(jù)時使用實(shí)向量,乘積滿足乘法交換律,對前后實(shí)體不進(jìn)行區(qū)分,在處理可逆關(guān)系時存在局限性。而知識圖譜數(shù)據(jù)集中存在大量可逆關(guān)系[8],DisMult模型無法對三元組實(shí)體之間的可逆關(guān)系進(jìn)行處理,不能有效預(yù)測具有可逆關(guān)系的實(shí)體。
上述問題使得CP分解和DisMult模型在處理具有數(shù)據(jù)稀疏以及可逆關(guān)系的知識圖譜數(shù)據(jù)時,不能夠準(zhǔn)確進(jìn)行知識補(bǔ)全。針對上述問題,本文提出了一種增強(qiáng)式的CP分解方法(enhancecanonicalpolyadic,E-CP),該方法將三元組中前實(shí)體和后實(shí)體與對應(yīng)關(guān)系之間的隱藏聯(lián)系進(jìn)行學(xué)習(xí),解決了前實(shí)體和后實(shí)體的學(xué)習(xí)獨(dú)立性問題,可以有效處理知識圖譜中實(shí)體之間包含的可逆隱藏聯(lián)系。對于稀疏數(shù)據(jù),通過加入單層神經(jīng)網(wǎng)絡(luò),也取得了較好的效果,并在訓(xùn)練過程中使用概率方法生成負(fù)例三元組,使用ELU激活函數(shù)和AMSGrad[11]優(yōu)化器,增加了預(yù)測的準(zhǔn)確性,通過在通用數(shù)據(jù)集和汽車維修知識圖譜數(shù)據(jù)集中的驗證,結(jié)果表明本文所提算法與其他鏈接預(yù)測方法相比具有較高的計算效率和更高的精確度。
1相關(guān)工作
近些年來,研究者對知識圖譜鏈接預(yù)測做了大量的研究工作[12]。鏈接預(yù)測的主要思想是首先定義一個三元組的評分函數(shù)f,然后將三元組作為f的輸入,輸出一個概率預(yù)測數(shù)字來表示三元組正確置信度,其中概率預(yù)測數(shù)字是通過大量已知的三元組訓(xùn)練來進(jìn)行推理的[13]。
SimplE-ignr[1]通過典范多元分解更新嵌入向量,使評分函數(shù)對于三元組的評分更大或者更小,并且使用基于對數(shù)似然函數(shù)的損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化,增強(qiáng)預(yù)測的準(zhǔn)確度,然而該方法不對前實(shí)體和后實(shí)體進(jìn)行區(qū)分,難以處理實(shí)體與實(shí)體之間的隱藏聯(lián)系,在面對知識圖譜中的稀疏數(shù)據(jù)和可逆數(shù)據(jù)時不能進(jìn)行預(yù)測。
DisMult[10]模型采用雙線性方法,將關(guān)系矩陣限制為對角矩陣r,通過向量乘積e0re1匹配嵌入空間中實(shí)體與關(guān)系的潛在語義來度量三元組的正確概率,如圖1所示。該方法不對前實(shí)體和后實(shí)體進(jìn)行區(qū)分,使得計算量減少,但是由于模型過于簡化,所以只能處理對稱關(guān)系,無法體現(xiàn)前實(shí)體和后實(shí)體的隱藏聯(lián)系,不適用于存在可逆關(guān)系的通用知識圖譜。ComplEx[14]模型對DisMult模型進(jìn)行了擴(kuò)展,將實(shí)體和關(guān)系的嵌入進(jìn)行復(fù)向量處理,在評分函數(shù)中體現(xiàn)為Re(〈e0,r,1〉),該方法可以有效地處理非對稱的關(guān)系,體現(xiàn)出實(shí)體之間的隱含聯(lián)系,取得了更好的預(yù)測性能,但該方法仍需大量相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練,在處理稀疏數(shù)據(jù)時存在困難。
TransE[15]是基于翻譯距離的模型,三元組的評分函數(shù)是前實(shí)體向量ve0與關(guān)系向量vr的矢量和,再與后實(shí)體向量ve1做差,如圖2所示。該評分函數(shù)代表了預(yù)測的實(shí)體與實(shí)際實(shí)體之間的差值,差值越小,說明補(bǔ)全的實(shí)體越符合要求,預(yù)測越準(zhǔn)確。模型中實(shí)體的嵌入向量是一個單獨(dú)的向量,關(guān)系的嵌入向量是兩個矩陣,表示與實(shí)體之間的聯(lián)系,但前實(shí)體和后實(shí)體并沒有生成矩陣進(jìn)行聯(lián)系。模型STransE[16]在TransE模型的基礎(chǔ)上加入關(guān)系向量矩陣來識別前實(shí)體和后實(shí)體之間的關(guān)系,但此類模型在處理一對多、多對一關(guān)系的三元組時存在局限性。例如存在三元組(機(jī)體,包含,水箱)和(機(jī)體,包含,風(fēng)機(jī)),如果使用此類翻譯模型將三元組映射到空間,根據(jù)模型的基本定義,訓(xùn)練完成后會使這兩個三元組的評分無限接近,模型會認(rèn)為這兩個后實(shí)體意義是相同的,無法對知識圖譜中的此類關(guān)系進(jìn)行處理。
深度學(xué)習(xí)在KGE中使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)前實(shí)體、關(guān)系和后實(shí)體嵌入的相互作用影響。E-MLP[17]采用了兩層神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。ER-MLP[18]對E-MLP進(jìn)行了改進(jìn),把實(shí)體和關(guān)系的嵌入都視為單個向量,并把它們放入到兩層神經(jīng)網(wǎng)絡(luò)中,在學(xué)習(xí)過程中體現(xiàn)了實(shí)體和關(guān)系的聯(lián)系。神經(jīng)張量網(wǎng)絡(luò)(neuraltensornetwork,NTN)[17]則結(jié)合了E-MLP和雙線性部分,因此有更好的預(yù)測性能。但基于深度學(xué)習(xí)的模型需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,在面對稀疏數(shù)據(jù)時預(yù)測性能較差。
這些模型在鏈接預(yù)測中都取得了優(yōu)秀的成績,但主要方法是針對實(shí)體和關(guān)系之間的聯(lián)系以及實(shí)體與實(shí)體之間的直接聯(lián)系來進(jìn)行鏈接預(yù)測的,沒有考慮到實(shí)體和實(shí)體之間不僅有通過關(guān)系進(jìn)行的直接聯(lián)系,也存在潛在的聯(lián)系,并且對知識圖譜中的可逆數(shù)據(jù)以及稀疏數(shù)據(jù)難以進(jìn)行預(yù)測,而本文E-CP可以發(fā)掘出實(shí)體與實(shí)體之間的隱藏關(guān)系,對知識圖譜數(shù)據(jù)集中的稀疏數(shù)據(jù)和可逆關(guān)系進(jìn)行了優(yōu)化,解決了上述問題,提高了預(yù)測性能。
2增強(qiáng)CP分解鏈接預(yù)測模型
本章詳細(xì)介紹了增強(qiáng)CP分解模型E-CP,并對CP分解進(jìn)行解釋,對改進(jìn)的依據(jù)進(jìn)行說明。E-CP是基于張量分解的模型,采用單層神經(jīng)網(wǎng)絡(luò)和關(guān)系的逆來克服CP模型存在的缺陷,并將其集成到一個框架中,同時在訓(xùn)練時使用概率方法生成高效負(fù)例三元組。
2.3模型訓(xùn)練
在訓(xùn)練模型時,需要對正確的三元組進(jìn)行破壞,從而獲得負(fù)例三元組,擴(kuò)充訓(xùn)練數(shù)據(jù)集。通常使用隨機(jī)破壞的方式對三元組的前實(shí)體和后實(shí)體進(jìn)行替換獲得負(fù)例三元組,但這種方法在面對一對多、多對一或者多對多的關(guān)系時,會產(chǎn)生替換之后客觀上為正確的“負(fù)例三元組”,例如存在一對多關(guān)系三元組(機(jī)體,包含,水箱)(機(jī)體,包含,風(fēng)機(jī))和(機(jī)體,包含,電氣柜),對(機(jī)體,包含,水箱)三元組進(jìn)行隨機(jī)破壞并可能會產(chǎn)生(機(jī)體,包含,電氣柜)這樣的客觀正確卻被標(biāo)記為錯誤的三元組,若此時對前實(shí)體進(jìn)行破壞則會大大減少這種概率。為了避免產(chǎn)生這樣的情況,本文模型使用概率方法來提升客觀錯誤負(fù)例三元組的比率。
在破壞三元組時,根據(jù)不同的關(guān)系類型采用不同的破壞方法,即一對多關(guān)系時,以較大概率破壞前實(shí)體,而多對一關(guān)系時,則以較大概率破壞后實(shí)體。具體流程是獲取數(shù)據(jù)集中每個前實(shí)體對應(yīng)后實(shí)體的數(shù)量n1,每個后實(shí)體對應(yīng)前實(shí)體的數(shù)量n2,定義抽取概率p=n1/(n1+n2)。對于一個數(shù)據(jù)集中提取的正確三元組(e0,r,e1),以概率p破壞前實(shí)體生成負(fù)例三元組,以概率1-p破壞后實(shí)體生成負(fù)例三元組。使用概率破壞的方法,可以很大程度上減少生成客觀正確負(fù)例三元組的概率,從而對數(shù)據(jù)集進(jìn)行充分的利用。使用概率破壞的模型表示為E-CP(s),與使用隨機(jī)破壞的E-CP作為區(qū)分。
本文使用小批量隨機(jī)梯度下降法(SGD)進(jìn)行E-CP模型的訓(xùn)練學(xué)習(xí)。對數(shù)據(jù)按照以下步驟進(jìn)行處理:
因為ELU函數(shù)右側(cè)是線性的,可以緩解梯度消失的問題,左側(cè)具有軟飽和性,對輸入的變化以及無效輸入有魯棒性,所以使用ELU激活函數(shù)進(jìn)行數(shù)據(jù)集運(yùn)算時會有更快的運(yùn)算效率,并且可以緩慢接近最優(yōu)點(diǎn),具有更高的準(zhǔn)確率。
式(4)初始參數(shù)計算ELU(-b·f(e0,r,e1))的值為負(fù)數(shù)且只位于-1和0之間,負(fù)例三元組的b=-1,代入初始參數(shù)計算ELU(-b·f(e0,r,e1))的值為正數(shù),并且呈指數(shù)增長,然后將所有值進(jìn)行相加,經(jīng)過多次訓(xùn)練,取最小值,目標(biāo)是為了取得最佳調(diào)節(jié)參數(shù),使評分函數(shù)在評價錯誤三元組時評分盡可能小,評價正確三元組時評分盡可能大,從而根據(jù)評分判斷三元組的正確置信度。
模型在動態(tài)調(diào)節(jié)學(xué)習(xí)率(learningrate)時采用Adam[19]中AMSGrad[11]優(yōu)化器進(jìn)行優(yōu)化。AMSGrad對Adam作出了改進(jìn),如圖5所示。在進(jìn)行合成實(shí)驗中,正確的結(jié)果收斂于-1,而Adam錯誤地收斂于1,并且AMSGrad需要的學(xué)習(xí)率更小,由于使用了所有記錄的梯度最大值來更新學(xué)習(xí)率,可以保證學(xué)習(xí)率不斷下降,修正了Adam使用記錄梯度的平均值,克服了在合成實(shí)驗中學(xué)習(xí)率不能下降從而不能正常收斂的缺陷。AMSGrad通過添加額外的max約束,使優(yōu)化過程中學(xué)習(xí)率始終保持正值。該優(yōu)化器將線性優(yōu)化方法和非線性優(yōu)化方法相結(jié)合,同時吸收了它們的優(yōu)點(diǎn),實(shí)現(xiàn)簡單,計算效率高,對內(nèi)存需求減少,參數(shù)更新不受梯度變化影響,自然地進(jìn)行學(xué)習(xí)率的調(diào)節(jié),并且對于大規(guī)模的數(shù)據(jù)集具有很好的應(yīng)用場景。
3實(shí)驗和討論
3.1數(shù)據(jù)集
為保持對比一致性,本文采用與對比模型相同的基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗,分別為FB15k[20]、WN18[21]、FB15k-237[22]、WN18RR[22]和YAGO310[22]。這些數(shù)據(jù)集包含大量的實(shí)體以及關(guān)系,其中FB15k-237、WN18RR相比于FB15k、WN18去除可逆關(guān)系,用來驗證E-CP在去除可逆關(guān)系數(shù)據(jù)集上的性能表現(xiàn),YAGO310則為大型數(shù)據(jù)集,包含1079040個三元組。各個數(shù)據(jù)集的實(shí)體和關(guān)系數(shù)量如表1所示。
3.2鏈接預(yù)測
鏈接預(yù)測的主要任務(wù)是對三元組(e0,r,e1)中缺失的實(shí)體e0或e1進(jìn)行預(yù)測[23]。對于缺失的實(shí)體,模型從知識圖譜中選取一組候選實(shí)體按照置信度大小進(jìn)行排序,而不是僅給出一個預(yù)測結(jié)果。
為了與SimplE-ignr等模型進(jìn)行對比,本文采用與SimplE-ignr相同的評價指標(biāo)。對于每一個測試三元組(e0,r,e1),將后實(shí)體e1與知識圖譜中所有實(shí)體e依次進(jìn)行替換,同時使用模型計算三元組(e0,r,e)的評分,并根據(jù)評分對替換實(shí)體e進(jìn)行降序排序,正確實(shí)體e1在排序中所在的排名記為ranke1。同理可得出對前實(shí)體e0進(jìn)行替換后的三元組評分排序,以及e0所在的排名ranke0。將全部測試三元組的ranke0和ranke1進(jìn)行匯總,使用平均倒數(shù)排名(meanreciprocalrank,MRR)和hits@k兩個指標(biāo)進(jìn)行評價。
3.3模型參數(shù)設(shè)置
E-CP模型使用PyTorch[26]實(shí)現(xiàn)。本文對超參數(shù)η進(jìn)行了調(diào)節(jié),經(jīng)過多次實(shí)驗,最終η值在{0.01,0.05,0.1}中選擇,最佳參數(shù)由各個數(shù)據(jù)集的驗證集決定。在嵌入規(guī)格上使用與對比模型相同的參數(shù),嵌入維度d固定為200,便于更好地對比效果。對于所有模型,實(shí)驗中迭代次數(shù)為2000代,每100代保存,學(xué)習(xí)率固定為0001,batchsize固定為2560,對于數(shù)據(jù)集中每個正三元組生成的負(fù)例三元組數(shù)量為10個,并在每100次迭代運(yùn)算的模型使用驗證集計算模型的性能指標(biāo)MRR、hits@1、hits@3和hits@10。通過對比選出最佳迭代運(yùn)算集合對應(yīng)的MRR。
3.4實(shí)驗結(jié)果
實(shí)驗結(jié)果與SimplE-ignr[1]、DisMult[10]、ComplEx[14]、TransE[15]、STransE[16]、NTN[17]和ER-MLP[18]模型進(jìn)行對比分析,其中NTN和ER-MLP缺少在FB15k-237、WN18RR和YAGO310數(shù)據(jù)集上的實(shí)驗結(jié)果。在各個性能指標(biāo)MRR、hits@1、hits@3和hits@10的實(shí)驗結(jié)果如表2~6所示,其中同一指標(biāo)最好的結(jié)果用粗體標(biāo)出。
從表2和3所示的WN18和FB15k數(shù)據(jù)集結(jié)果可以看出,由于CP分解模型只能通過簡單的實(shí)體嵌入來預(yù)測實(shí)體,難以判斷對稱關(guān)系和可逆關(guān)系,導(dǎo)致其表現(xiàn)都不佳。而具有大量參數(shù)的模型比如STransE和NTN,存在過度擬合的情況,無法擺脫局部最優(yōu)的問題,因此得到的結(jié)果并不理想。而E-CP考慮了前實(shí)體和后實(shí)體之間的隱藏聯(lián)系,在WN18的所有指標(biāo)上取得了最佳表現(xiàn),并在FB15K中相較于現(xiàn)有模型ComplEx和SimplE-ignr,MRR分別提升6.8%和5.6%,并在hits@1,hits@3上的效果也達(dá)到了最佳,這表明E-CP在第一次以及前三次預(yù)測正確的概率大于其他現(xiàn)有模型,預(yù)測的準(zhǔn)確度更高。
為了進(jìn)一步研究可逆關(guān)系對E-CP的影響,本文在去除可逆關(guān)系的WN18RR和FB15k-237數(shù)據(jù)集上進(jìn)行實(shí)驗,結(jié)果如表4、5所示。在WN18RR預(yù)測結(jié)果中,如表4所示,由于去除可逆關(guān)系,排除了E-CP擅長處理的對稱性關(guān)系和(非)自反性關(guān)系,導(dǎo)致在WN18RR中表現(xiàn)不是最優(yōu),但E-CP仍然在保持簡單性的情況下與當(dāng)前的ComplEx差距較小,并且優(yōu)于SimplE-ignr,由于使用概率方法生成負(fù)例三元組,E-CP(s)在hits@10中取得最優(yōu),在前十次預(yù)測正確的概率高于現(xiàn)有模型。而在FB15k-237中,如表5所示,得益于E-CP善于處理類型少且稀疏的關(guān)系,并且在訓(xùn)練中生成負(fù)例三元組時采用概率的方法,降低了產(chǎn)生標(biāo)注錯誤三元組的比例,使E-CP的性能仍然領(lǐng)先現(xiàn)有模型,對比現(xiàn)有模型在hits@10中取得18.8%的提升。
在YAGO310大型數(shù)據(jù)集的實(shí)驗結(jié)果如表6所示,得益于AMSGrad優(yōu)化器,E-CP領(lǐng)先于所有模型,在該數(shù)據(jù)集全部評測指標(biāo)上都取得了最佳的成績,對比SimplE-ignr在MRR上提升10.2%。
E-CP吸取CP的嵌入函數(shù)和評分函數(shù)的簡單性,采用概率方法生成更有效的負(fù)例三元組,挖掘前實(shí)體和后實(shí)體的隱藏聯(lián)系,并采用ELU激活函數(shù)和AMSGrad優(yōu)化器進(jìn)行優(yōu)化,是在預(yù)測性能以及評分函數(shù)精確度上優(yōu)于其他模型的關(guān)鍵。
3.5三元組分類判別實(shí)驗
對三元組是正樣本或是負(fù)樣本進(jìn)行判斷,即三元組分類(tripleclasscification),是衡量模型性能的指標(biāo)之一。本文中所列數(shù)據(jù)集均不提供負(fù)例三元組,需要對正確三元組進(jìn)行破壞生成負(fù)例三元組,因此該指標(biāo)既可顯示模型對生成負(fù)例三元組的判別率,也可體現(xiàn)生成負(fù)例三元組質(zhì)量對模型訓(xùn)練的影響。在三元組分類實(shí)驗中,首先在指定數(shù)據(jù)集的測試集上進(jìn)行評分函數(shù)評判三元組對錯臨界值θ的測量,評分高于θ時為正確三元組,低于θ時為負(fù)例三元組。在數(shù)據(jù)集的訓(xùn)練集中測試分類準(zhǔn)確率。對比結(jié)果如表7所示。表中實(shí)驗結(jié)果用百分比表示。
實(shí)驗結(jié)果表明,E-CP在分類實(shí)驗中準(zhǔn)確率高于所列模型,并且在采用概率方法生成負(fù)例三元組進(jìn)行模型訓(xùn)練后進(jìn)一步提升判斷的準(zhǔn)確率,表明使用概率方法生成的負(fù)例三元組對比隨機(jī)破壞生成的三元組進(jìn)行模型訓(xùn)練,可以有效提升模型的預(yù)測性能。
4在汽車維修知識圖譜數(shù)據(jù)集上的驗證
在汽車維修場景中,將維修數(shù)據(jù)構(gòu)建成知識圖譜進(jìn)行補(bǔ)全,能有效賦能汽車維修業(yè)務(wù),解決場景痛點(diǎn),充分發(fā)揮知識的價值[27]。本文將E-CP模型在某汽車企業(yè)提供的Neo4j汽車維修知識圖譜數(shù)據(jù)集上進(jìn)行實(shí)驗,用來驗證E-CP在汽車維修知識圖譜補(bǔ)全中的有效性,汽車維修知識的部分可視化圖譜如圖6所示。
知識圖譜補(bǔ)全是對知識圖譜中缺失實(shí)體的三元組(e0,r,?)或是(?,r,e1)補(bǔ)全缺失的實(shí)體[28]。對于缺失的實(shí)體,將所有實(shí)體作為候選實(shí)體,并對其進(jìn)行評分,按照評分的大小進(jìn)行排序,取出評分最高的實(shí)體,即為模型推斷出的最符合要求的實(shí)體。
將汽車維修知識圖譜按照三元組(實(shí)體,關(guān)系,實(shí)體)的標(biāo)準(zhǔn)形式分層進(jìn)行提取。如圖6所示,在部分知識圖譜中可提取出三元組(開關(guān)閥,包含,高壓清洗)等。提取后汽車維修數(shù)據(jù)集包含5216個三元組,531種實(shí)體以及6種關(guān)系,將所有三元組按照8∶1∶1比例分割為訓(xùn)練集、驗證集和測試集。采用3.2節(jié)鏈接預(yù)測實(shí)驗中相同的方法對測試集數(shù)據(jù)進(jìn)行處理。在實(shí)際應(yīng)用中只考慮模型補(bǔ)全實(shí)體的正確率,因此本文采用最貼近現(xiàn)實(shí)應(yīng)用的評價指標(biāo)hit@1和hit@3來評價模型的實(shí)際應(yīng)用效率,其中hit@1表示補(bǔ)全的第一個實(shí)體就為正確的比率,hit@3表示補(bǔ)全排序的前三個實(shí)體中包含正確實(shí)體的比率,與3.2節(jié)鏈接預(yù)測實(shí)驗相同,hit@1和hit@3分別代表filterhit@1和filterhit@3。
在汽車維修數(shù)據(jù)集上,所有模型的訓(xùn)練迭代次數(shù)為300,超參數(shù)η=0.1,batchsize=4832,學(xué)習(xí)率lr=0.05,嵌入維度d=200,對于數(shù)據(jù)集中每個正三元組生成的負(fù)例三元組數(shù)量為10個,并在每50次迭代運(yùn)算的模型使用驗證集計算模型的性能指標(biāo)hit@1和hit@3,通過對比選出最佳的數(shù)值。
表8為E-CP及其余模型在汽車維修數(shù)據(jù)集上的實(shí)驗結(jié)果,表中實(shí)驗結(jié)果用百分比表示。
從表8實(shí)驗結(jié)果可以看出,CP模型由于在訓(xùn)練時使用傳統(tǒng)嵌入方法并且不區(qū)分前后實(shí)體,所以對汽車維修數(shù)據(jù)進(jìn)行預(yù)測時效果較差。SimplE-ignr在CP的基礎(chǔ)上使用基于對數(shù)似然函數(shù)的損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化,使得預(yù)測性能進(jìn)一步提升,但在訓(xùn)練時沒有挖掘前后實(shí)體的隱藏聯(lián)系,預(yù)測效果仍然不理想。E-CP則考慮了實(shí)體前后之間的隱藏可逆聯(lián)系,在汽車維修數(shù)據(jù)集上的預(yù)測性能取得了最優(yōu),在生成負(fù)例三元組時使用概率方法進(jìn)行破壞,進(jìn)一步增加生成負(fù)例三元組的質(zhì)量,因此在該實(shí)例中獲得進(jìn)一步的提升,汽車維修知識圖譜補(bǔ)全后的第一排序正確的實(shí)體占全部的比率為83.20%,正確的實(shí)體位于補(bǔ)全實(shí)體排名前三個的比率為95.76%,說明E-CP可以有效地完成汽車維修知識圖譜補(bǔ)全實(shí)體。
5結(jié)束語
本文提出了一個基于CP分解的增強(qiáng)式模型,在保持模型簡單性的情況下解決了CP分解模型中實(shí)體嵌入向量獨(dú)立的問題。模型能夠有效地捕捉實(shí)體和實(shí)體、實(shí)體和關(guān)系之間的潛在可逆聯(lián)系,高效處理稀疏數(shù)據(jù),并使用概率方法破壞三元組,得到更高質(zhì)量的負(fù)例三元組訓(xùn)練集,提供更強(qiáng)的泛化能力。針對知識圖譜數(shù)據(jù)集稀疏以及存在可逆關(guān)系的情況對模型進(jìn)行優(yōu)化,在通用數(shù)據(jù)集以及汽車維修數(shù)據(jù)集上都取得了優(yōu)秀的結(jié)果,并且成功地在汽車維修知識圖譜補(bǔ)全中驗證了有效性。未來的研究中,將E-CP與知識推薦方法結(jié)合進(jìn)行聯(lián)合學(xué)習(xí),根據(jù)用戶偏好進(jìn)行精準(zhǔn)商品推薦是應(yīng)用的一個重要方向,后續(xù)工作會重點(diǎn)對此方向進(jìn)行研究。
參考文獻(xiàn):
[1]KazemiSM,PooleD.Simpleembeddingforlinkpredictioninknow-ledgegraphs[C]//Procofthe32ndInternationalConferenceonNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc.,2018:4289-4300.
[2]王傳慶,李陽陽,費(fèi)超群,等.知識圖譜平臺綜述[J].計算機(jī)應(yīng)用研究,2022,39(11):3201-3210.(WangChuanqing,LiYang-yang,F(xiàn)eiChaoqun,etal.Surveyofknowledgegraphplatform[J].ApplicationResearchofComputers,2022,39(11):3201-3210.)
[3]徐孟奇,熊熙,李斌勇,等.基于知識圖譜的人崗?fù)扑]系統(tǒng)構(gòu)建[J].計算機(jī)應(yīng)用研究,2022,39(1):194-198.(XuMengqi,XiongXi,LiBinyong,etal.Constructionofpersonnelrecommendationsystembasedonknowledgegraph[J].ApplicationResearchofComputers,2022,39(1):194-198.)
[4]劉廣明,梁永全,紀(jì)淑娟,等.基于知識圖譜的互補(bǔ)項目推薦[J].計算機(jī)應(yīng)用研究,2022,39(5):1380-1385.(LiuGuangming,LiangYongquan,JiShujuan,etal.Complementaryprojectrecommendationbasedonknowledgegraph[J].ApplicationResearchofComputers,2022,39(5):1380-1385.)
[5]AbadiM,BarhamP,ChenJianmin,etal.TensorFlow:asystemforlarge-scalemachinelearning[C]//Procofthe12thUSENIXConfe-renceonOperatingSystemsDesignandImplementation.2016:265-283.
[6]陳燁,周剛,盧記倉.多模態(tài)知識圖譜構(gòu)建與應(yīng)用研究綜述[J].計算機(jī)應(yīng)用研究,2021,38(12):3535-3543.(ChenYe,ZhouGang,LuJicang.Areviewoftheconstructionandapplicationofmultimodalknowledgegraph[J].ApplicationResearchofCompu-ters,2021,38(12):3535-3543.)
[7]AntoineB,NicolasU,AlbertoGD,etal.Translatingembeddingsformodelingmulti-relationaldata[J].AdvancesinNeuralInformationProcessingSystems,2013,1(16):26-40.
[8]HitchcockFL.Theexpressionofatensororapolyadicasasumofproducts[J].JournalofMathematicsandPhysics,1927,6(1-4):164-189.
[9]付雷杰,曹巖,白瑀,等.國內(nèi)垂直領(lǐng)域知識圖譜發(fā)展現(xiàn)狀與展望[J].計算機(jī)應(yīng)用研究,2021,38(11):3201-3214.(FuLeijie,CaoYan,BaiYu,etal.Currentsituationandoutlookofknowledgegraphdevelopmentindomesticverticaldomains[J].ApplicationResearchofComputers,2021,38(11):3201-3214.)
[10]YangBishan,YihWT,HeXiaodong,etal.Embeddingentitiesandrelationsforlearningandinferenceinknowledgebases[EB/OL].(2015-08-29).https://arxiv.org/abs/1412.6575.
[11]ReddiSJ,KaleS,KumarS.OntheconvergenceofAdamandbeyond[EB/OL].(2019-04-19).https://arxiv.org/abs/1904.09237.
[12]孟小艷,蔣同海,周喜,等.一種改進(jìn)的自適應(yīng)知識圖譜嵌入式表示方法[J].計算機(jī)應(yīng)用研究,2021,38(1):39-43.(MengXiao-yan,JiangTonghai,ZhouXi,etal.Animprovedmethodfortheembeddedrepresentationofadaptiveknowledgegraphs[J].ApplicationResearchofComputers,2021,38(1):39-43.)
[13]張德亮,孫更新,賓晟.基于組合關(guān)系路徑的知識圖譜補(bǔ)全方法研究[J].計算機(jī)應(yīng)用研究,2020,37(10):3010-3013.(ZhangDeliang,ZhangGengxin,BinShen.Researchonknowledgegraphcomplementationmethodsbasedoncombinatorialrelationalpaths[J].ApplicationResearchofComputers,2020,37(10):3010-3013.)
[14]TrouillonT,WelblJ,RiedelS,etal.Complexembeddingsforsimplelinkprediction[C]//ProcofInternationalConferenceonMachineLearning.[S.l.]:PMLR,2016:2071-2080.
[15]WangZhen,ZhangJianwen,F(xiàn)engJianlin,etal.Knowledgegraphembeddingbytranslatingonhyperplanes[C]//Procofthe33rdInternationalConferenceonInternationalConferenceonMachineLearning.2016:2071-2080.
[16]NguyenDQ,SirtsK,QuLizhen,etal.STransE:anovelembeddingmodelofentitiesandrelationshipsinknowledgebases[C]//ProcofConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.2016:460-466.
[17]SocherR,ChenDanqi,ManningCD,etal.Reasoningwithneuraltensornetworksforknowledgebasecompletion[C]//Procofthe26thInternationalConferenceonNeuralInformationProcessingSystems.2013:926-934.
[18]DongXin,GabrilovichE,HeitzG,etal.Knowledgevault:aweb-scaleapproachtoprobabilisticknowledgefusion[C]//Procofthe20thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.2014:601-610.
[19]KingmaDP,BaJ.Adam:amethodforstochasticoptimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[20]MillerGA.WordNet:alexicaldatabaseforEnglish[J].CommunicationsoftheACM,1995,38(11):39-41.
[21]BollackerK,EvansC,ParitoshP,etal.Freebase:acollaborativelycreatedgraphdatabaseforstructuringhumanknowledge[C]//ProcoftheACMSIGMODInternationalConferenceonManagementofData.NewYork:ACMPress,2008:1247-1250.
[22]DettmersT,MinerviniP,StenetorpP,etal.Convolutional2Dknow-ledgegraphembeddings[C]//Procofthe32ndAAAIConferenceonArtificialIntelligenceandthe30thInnovativeApplicationsofArtificialIntelligenceConferenceandthe8thAAAISymposiumonEducationalAdvancesinArtificialIntelligence.PaloAlto,CA:AAAIPress,2018:1811-1818.
[23]劉勤,陳世平,霍歡.基于知識圖譜用戶偏好傳播的實(shí)體推薦模型[J].計算機(jī)應(yīng)用研究,2020,37(10):2926-2931.(LiuQin,ChenShiping,HuoHuan.Entityrecommendationmodelbasedonknowledgegraphuserpreferencepropagation[J].ApplicationResearchofComputers,2020,37(10):2926-2931.)
[24]趙思云,黃增峰.基于局部圖結(jié)構(gòu)的鏈接預(yù)測模型[J].計算機(jī)應(yīng)用研究,2022,39(9):2723-2730.(ZhaoSiyun,HuangZengfeng.Linkpredictionmodelbasedonlocalgraphstructure[J].ApplicationResearchofComputers,2022,39(9):2723-2730.)
[25]ChenZhe,WangYuehan,ZhaoBin,etal.Knowledgegraphcompletion:areview[J].IEEEAccess,2020,8:192435-192456.
[26]PaszkeA,GrossS,MassaF,etal.PyTorch:animperativestyle,high-performancedeeplearninglibrary[C]//Procofthe33rdInternationalConfe-renceonNeuralInformationProcessingSystem.2019:articleNo.721.
[27]張金明.基于知識圖譜的汽車領(lǐng)域智能問答設(shè)計與實(shí)踐[D].武漢:華中科技大學(xué),2019.(ZhangJinmin.Designandpracticeofautomaticquestion-answeringinautomobilefieldbasedonknowledgegraph[D].Wuhan:HuazhongUniversityofScienceandTechnology,2019.)
[28]TrouillonT,DanceCR,GaussierE,etal.Knowledgegraphcompletionviacomplextensorfactorization[J].JournalofMachineLear-ningResearch,2017,18(130):1-38.