作者簡介:劉璐(1996-),女(蒙古族),內蒙古赤峰人,碩士研究生,主要研究方向為自然語言處理;飛龍(1985-),男(蒙古族)(通信作者),內蒙古興安盟科右中旗人,教授,博導,博士,主要研究方向為人工智能、自然語言處理、蒙古文智能信息處理、語音識別(csfeilong@imu.edu.cn);高光來(1964-),男,內蒙古扎賚特旗人,教授,博導,碩士,主要研究方向為自然語言處理、模式識別、人工智能、蒙古文智能信息處理.
摘 要:針對目前旅游領域實體對齊任務中的長尾實體過多和現有知識以及標注數據稀缺的問題,提出一種基于多視圖知識表示和神經網絡相結合的實體對齊方法。采用預訓練模型完成多視圖的知識表示學習,獲得了實體的結構嵌入、關系嵌入和描述信息嵌入,然后利用卷積神經網絡對結合了三種視圖嵌入的實體綜合嵌入進行相似度計算。實驗精準率達到91.4%、召回率達到87.9%、綜合指標F1值達到89.6%。結果表明,該方法有效地完成了旅游領域的實體對齊任務。
關鍵詞:實體對齊;預訓練模型;多視圖知識表示;神經網絡
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)04-014-1044-08doi: 10.19734/j.issn.1001-3695.2022.08.0434
Abstract:Aiming at the problems of too many long-tail entities and existing knowledge and the scarcity of labeled data in the current entity alignment tasks in the tourism domain, this paper proposed an entity alignment method based on the combination of multi-view knowledge representation and neural network. It used a pre-trained model to complete the knowledge representation learning of multiple views, obtained the structural embedding, relationship embedding and description information embedding of the entity, and then used the convolutional neural network to calculate the similarity of the comprehensive embedding of the entities combined with the three views. The experimental accuracy rate reached 91.4%, the recall rate reached 87.9%, and the comprehensive index F1value reached 89.6%. The results show that the method effectively completes the entity alignment task in the tourism domain.
Key words:entity alignment; pre-training model; multi-view knowledge representation; neural network
0 引言
隨著自然語言處理(natural language processing,NLP)相關工作的深入,知識圖譜(knowledge graph,KG)逐漸成為各領域的研究熱點,但是單獨領域的知識圖譜規模小,在一些需要大規模數據的任務上非常受限,所以多源異構知識圖譜的融合成為目前學術界和工業界廣泛關注的熱點話題。然而不同來源的知識圖譜對于同一個實體的描述會存在一些差異,可能造成真實世界中的一個對象在不同的知識圖譜中對應著不同的實體,作為多源知識圖譜融合的關鍵技術,實體對齊(entity alignment,EA)任務的主要目的是判斷不同知識圖譜中的兩個或者多個不同信息來源的實體是否指向真實世界中的同一個對象,即通過實體對齊方法找到最相似的可對齊實體。
傳統的實體對齊方法[1]主要側重于對句法和結構的利用,并且主要從兩個角度展開:a)基于相似性計算的,主要包括詞頻—逆文檔頻率(term frequency-inverse document frequency,TF-IDF)、主動學習和機器學習分類器,以及過濾機等技術來計算實體之間的相似性;b)基于關系推理的,主要通過構造概率函數、關系相似函數以及關系可比性函數來推理關系之間的語義等價性。但是傳統的實體對齊方法主要集中于對本體的對齊,而且研究者發現在實體對齊過程中很難給出統一的相似度計算函數,所以使得對齊效果有限。隨著深度學習的發展,基于知識表示學習的實體對齊方法逐漸成為主流。針對于公開的百科類數據集,文獻[2]利用翻譯模型完成嵌入,使用實體鄰接信息和關系權重實現實體對齊;文獻[3]使用深度模型完成嵌入,利用關系三元組和實體鄰接信息的方法來完成實體對齊;文獻[4]也使用深度模型完成嵌入,但是利用實體鄰接信息和關系方向來進行實體對齊;文獻[5]提出了一種兩階段的神經架構,第一階段使用深度模型完成局部節點的嵌入,得到實體之間軟對應的初始排名,第二階段采用同步消息傳遞網絡迭代地重新排列軟對應關系,以達到實體對齊的目的。
綜上所述,目前的實體對齊工作主要集中在各類百科等公開數據集上,而且研究的都是比較宏觀的知識庫,對于各垂直領域知識的實體對齊研究較少。
1 相關工作
雖然目前的實體對齊方法已經在公開的百科類數據集上取得了較好的結果,但是在旅游領域內的實體對齊任務仍然面臨著兩大主要挑戰,一個是旅游領域因為各地名、相關景點及人物等實體之間關系稀疏,存在比開放領域知識圖譜更多的長尾實體(long-tail entities),即那些鄰接實體較少的實體。主流的實體對齊方法大部分都需要依靠知識圖譜的結構信息進行對齊,但是長尾實體能利用的結構信息較少,所以這也成為了目前旅游領域實體對齊工作的一大挑戰。在公開領域中,一些方法提出引入屬性信息等額外信息補充結構信息,文獻[6]提出對結構信息和屬性信息進行聯合編碼,使用深度模型進行嵌入以估計實體的相似性,但是這類方法都要求實體的屬性三元組是存在的;文獻[7]使用協同訓練框架將知識圖譜語義信息和結構信息相融合以完成實體對齊任務,同時利用屬性信息進行強約束,這也使得該算法面臨屬性信息不足的問題;文獻[8]則使用實體描述作為額外信息進行實體對齊,但是有些實體沒有豐富的描述信息,使得這種方法通用性不高;文獻[9]提出融合多種特征的實體對齊算法,但是也存在著在不同網絡社區中數據結構不一致所導致自動獲取的知識不準確的問題;文獻[10]還提出利用實體名稱的預訓練向量,這也有可能成為一種緩解方案。
另一個是因為沒有公開的旅游領域的數據集造成的標注數據缺乏問題。為了學習不同知識圖譜實體之間的映射關系,需要利用大量的已對齊實體對,但是這類數據不僅缺乏而且人工標注又會產生很大的工作量。同樣是在公開領域中,文獻[11]在實體對齊算法產生的結果中選擇高置信度的實體對為已對齊實體對進行擴充,但是這樣可能會發生錯誤傳播的問題;文獻[12]提出了自舉訓練框架,可以提高擴充訓練集的準確率,但同時也降低了算法的效率;文獻[13]提出了擇優分段迭代的方法,能夠在一定程度上減少錯誤實體對的引入,但是也存在著不同實體的度數不同而需區別對待所帶來的算力問題;最近文獻[14]提出了一種利用視覺語義表示來對齊異構知識圖譜的方法,它采用無監督的形式以達到無須人工標記數據的目的,同時視覺信息可以較好地解決長尾實體的問題。
針對目前旅游領域實體對齊任務面臨的挑戰和問題,提出了一種基于多視圖知識表示和神經網絡相結合的實體對齊方法,該方法很好地解決了旅游領域長尾實體過多和標注數據缺乏的問題,能夠在數據稀疏的旅游領域實體對齊任務中取得較好的結果。
2 基于多視圖知識表示和神經網絡的旅游領域實體對齊方法
面向旅游領域,本文提出基于多視圖知識表示和神經網絡的實體對齊方法,命名為MultiKR-NN(multi-view knowledge representation and neural network)。該方法的整體框架結構如圖1所示,主要分為三個模塊。
2.1 關系對齊模塊
針對已對齊的實體對稀缺問題,受到Trisedya等人[15]的啟發,在關系對齊模塊中,不利用已對齊的實體對來進行不同知識圖譜嵌入的向量空間轉換,而是直接將不同知識圖譜中提取出的關系三元組進行關系對齊處理,比如“出生于”和“生于”“首府”和“省會”“妃子”“嬪妃”和“寵妃”等,通過使用中文WIKI百科預訓練的word2vec模型[16]計算各關系語義表示之間的相似度,并結合人工核實與修改將這些含義相同的關系重新命名為相同的名字,從而實現讓兩個知識圖譜嵌入在同一個向量空間中的目的,進而完成兩個知識圖譜的合并。
2.2 表示學習模塊
針對于長尾實體難以對齊的問題,受到Zhang等人[17]的啟發,本文在表示學習模塊采用多視圖知識表示,分別對結構視圖、關系視圖和實體描述信息視圖進行表示學習,用多視圖的知識表示來解決長尾實體的問題。
對于結構視圖和關系視圖的表示學習部分,為了更好地處理自反關系以及多對一、一對多、多對多的復雜關系,本文在表示學習模塊中采用的骨架模型為TransH模型[18],并針對旅游領域數據實體對齊問題對其進行改進,將改進后的模型命名TransH-TD(TransH for tourism domain)。
經過以上改進的知識表示學習算法TransH-TD,可以得到實體的結構嵌入和原始關系嵌入,接下來還需要得到實體的描述信息嵌入。在實體描述信息視圖的表示學習部分,采用Transformers上Google基于中文維基語料庫訓練的預訓練模型BERT-base-Chinese[19]來提取實體描述信息的特征,其具體方法如圖2所示。
將實體的描述信息送入預訓練的BERT-base-Chinese模型中,將其輸出層的輸出向量再經過一個全連接層獲得最終的實體描述信息嵌入。最后對實體綜合嵌入的更新部分,引入關系嵌入和實體描述信息嵌入作為實體對齊任務中實體結構嵌入的輔助信息,利用以上三種多視圖知識表示的嵌入進行實體綜合嵌入的更新,具體更新策略如圖3所示。
首先需要對關系嵌入進行更新,利用與各關系相對應的頭實體和尾實體的結構嵌入(由關系三元組得到)分別以一定的權值W1∶W2將其結合,然后再與原始的關系嵌入進行求和操作,得到最終更新后的關系嵌入。接下來將實體結構嵌入與更新后的關系嵌入以及實體描述信息嵌入按照W3∶W4∶W5的權值相結合以進行實體綜合嵌入的更新。
2.3 實體相似度分析模塊
在實體相似度分析模塊,由于實體相似度主要通過在表示學習模塊中得到的結合了多視圖的實體綜合嵌入來計算,所以無須過多的步驟,本文采用的卷積神經網絡CNN模型只包括輸入層、卷積層、池化層、全連接層和輸出層五層。
CNN應用于相似度分析的層次結構如圖4所示,輸入層主要利用在表示學習模塊中獲得的多視圖實體綜合嵌入,這個實體綜合嵌入被表示為一個二維矩陣,這里將待對齊的兩個實體的二維矩陣表示作為輸入;卷積層主要用于特征的提取,完成兩個待對齊實體之間的相似度計算;池化層主要用于減少參數矩陣的尺寸,從而達到減少參數數量的效果;全連接層主要用于實現卷積層和池化層的連接,經過卷積和池化的操作形成幾個一維的值來表示兩個待對齊實體之間的相似度;最后由輸出層進行簡單的求均值操作,得出最終的實體相似度結果。
3 實驗設計與分析
3.1 數據集
本文的工作利用遷移學習的策略,在關系對齊模塊中使用中文WIKI百科對word2vec模型[16]進行預訓練,在表示學習模塊使用由文獻[20]提出的通用數據集DBP15K中的中文數據對本文使用的模型進行預訓練,然后用本文構建的數據集進行微調。表1、2分別給出在關系對齊模塊和表示學習模塊使用的數據集。
實驗中構建的數據是通過網絡爬蟲在各大旅游網站、百度百科和相關景點官網爬取的旅游領域相關信息構建的知識圖譜中抽取的,知識抽取工作整體上采用工具提取和人工審核相結合的方式加以修改和確認。最終抽取出實體3 099個,其中形成可對齊實體共1 078對,關系數38個,9 500條實體關系三元組以及3 099條實體描述信息,將其劃分為訓練集、開發集和驗證集,它們之間沒有重疊。本文構建的旅游領域數據集樣例如圖5所示。
3.3 實驗設置
本文采用的基于多視圖知識表示和神經網絡的實體對齊方法所進行的全部實驗都在四個Tesla P40 GPU上完成。整體按照以下步驟進行:
a)本文使用的旅游領域數據是包含了實體3 099個,其中形成可對齊實體共1 078對,關系數38個,9 500條實體關系三元組以及3 099條實體描述信息的自建數據集。將實體關系三元組、實體、關系以及實體描述信息分別保存為對應的集合,并且按照訓練集、開發集和測試集6∶2∶2的比例隨機劃分出實驗所用數據。
b)在關系對齊模塊中,使用中文WIKI百科預訓練word2vec模型,然后通過該模型計算上述數據集中的關系語義表示之間的相似度,將可對齊關系的相似度閾值設置為0.9,最后再結合人工審核完成關系的對齊,即將同一種關系的不同表示統一為一種,從而達到將不同知識圖譜的嵌入統一到同一個向量空間的目的。
c)在表示學習模塊中,結構視圖和關系視圖部分,使用現有的公開通用數據集DBP15K中的中文數據對本文改進后的模型進行預訓練,然后再在本文構建的數據集上進行微調,以獲取最優參數。另外在進行訓練的過程中,骨架模型采用的是隨機梯度下降(stochastic gradient descent,SGD)算法,雖然這樣可以達到最小值,但是該算法的效率不高,而且對于處理比公開領域數據更加稀疏的旅游領域數據來說,SGD算法遠不如自適應算法,所以本文選擇adaptive moment estimation(Adam)算法,其中超參數設置為beta1=0.9,beta2=0.999,epsilon=10E-8 ,訓練過程中batch size大小設為10,epochs為500,初始學習率為0.000 2,margin大小為8,損失函數的軟約束權重W設為1。最后,使用步驟b)已完成關系對齊的關系三元組進行微調,再通過該模型獲得關系三元組的結構嵌入和原始關系嵌入。
d)在表示學習模塊中,實體描述信息視圖部分,將實體的描述信息送入基于中文維基語料庫訓練的預訓練模型BERT-base-Chinese中,該模型包括12層,768個隱單元,12個attention head,110 M參數,從而獲得實體描述信息的嵌入。
e)利用第c)步獲得的實體結構嵌入和原始關系嵌入對實體的各個關系嵌入進行更新,即將關系對應的頭尾實體的結構嵌入分別賦予一定的權值后與該關系的原始嵌入進行求和操作,得到更新后的各個關系嵌入。
f)利用第e)步更新后的關系嵌入和第c)步獲得的實體的結構嵌入以及第d)步獲得的實體描述信息嵌入對實體綜合嵌入進行更新,即將這三種不同視圖的知識表示分別賦予不同的權值形成實體的綜合嵌入。
g)在實體相似度分析模塊中,將第f)步得到的實體綜合嵌入用二維矩陣表示,將其送入CNN模型中,該模型卷積層的主要任務是計算出相似度,因此只需要一個卷積核就可以達到目的;而且一些實體的綜合嵌入維度很小,所以為了避免感受野的步長帶來的越界問題,選擇大小為2×2的卷積核;同時為了避免因卷積操作造成原始嵌入對相似度的影響,卷積核默認為[[1,1][1,1]]。因為需要的是相似度最高的數據,所以池化層的方法為max-pooling,最后經過模型處理可輸出各個實體之間的相似度結果。
特別地,在第e)步對關系嵌入的更新時認為相應的頭實體和尾實體對于當前關系來說同等重要,所以選用的兩個權值參數W1∶W2設置為1∶1。而對于第f)步進行實體綜合嵌入更新的工作來說,旅游領域比其他公開領域數據更加稀疏,也存在更多的長尾實體,所以三種視圖的嵌入信息對于實體對齊任務來說一定不是同等重要的,對三種嵌入信息的權值選取進行了實驗,在可對齊的實體對中人工隨機抽取了400對,然后對結構嵌入、更新的關系嵌入和實體描述信息嵌入權值W3∶W4∶W5按照圖6的比值進行測試實驗,用最后卷積神經網絡計算出的平均相似度作為評價指標,結果如圖6所示。
因為實驗中使用的400對對齊實體是人工整理的,所以這400對對齊實體的平均相似度越高就證明對應的這組權值越好。從圖6中可以看出,相對于結構嵌入占有高權值來說,提高關系嵌入的權值以后,平均相似度有所提升,而提高實體描述信息嵌入后,平均相似度提高的幅度更大,這也說明了旅游領域中各實體之間關系稀疏,存在著更多的長尾實體,所以后續實驗繼續降低結構嵌入的權值,相應地提高關系嵌入和實體描述信息嵌入的權值。實驗結果表明三者權值W3∶W4∶W5比值為20%∶35%∶45%最優。
另外,對于第g)步最后實體對齊計算結果的相似度閾值選取,通過大量實驗證明,在創建的旅游領域數據集上,相似度小于0.55時,所有計算出的實體對都是不可對齊的,相似度大于0.95時,所有計算出的實體對都是可對齊的,所以對于閾值選取的實驗,本文只在0.55~0.95進行。
圖7顯示的實驗結果也進一步證明了準確率和召回率總是呈現相互制約的形式,所以對于相似度閾值的選取,需要用綜合指標F1值來進行衡量,可以看到在閾值為0.75~0.85時綜合指標F1值達到最好的狀態,所以實驗選取的實體相似度閾值為0.8。
3.4 對比實驗
確定好實驗的相關設置后,在旅游領域數據集上進行實驗,本文方法的實體對齊實驗結果樣例如表3所示。
為驗證本文方法的有效性,在表示學習模塊中,對于使用哪種預訓練的翻譯模型作為骨架模型對比了四種基礎知識表示學習模型,而且對骨架模型的改進部分也做了對比實驗,分別驗證了對優化算法改進和損失(loss)函數改進的兩部分內容,同時通過對數據的稀疏化處理也對預訓練策略進行了驗證。另外,為驗證本文改進的模型TransH-TD表示學習效果的好壞,還與目前新提出的兩個用于知識圖譜嵌入表示的模型進行了對比,對比實驗結果的展示通過進行鏈接預測任務完成,具體的實驗細節和參數設置參考文獻[21]。
實驗1采用的是TransE模型[21];實驗2采用的是TransH模型,即骨架模型;實驗3采用的是TransR模型[22];實驗4采用的是TransD模型[23];實驗5、6是對骨架模型中損失(loss)函數的改進模型,省略骨架模型的三個軟約束中的正交約束,只使用兩個軟約束;實驗7、8是對骨架模型中優化算法的改進模型,將骨架模型中使用的SGD算法改為自適應的Adam算法;實驗9、10是在骨架模型中加入了預訓練策略;實驗11~16是以上三種改進策略兩兩組合的對比實驗;實驗17、18是目前新提出的兩種用于知識圖譜嵌入表示的算法,實驗17采用的是由文獻[24]提出的一種自適應的知識圖譜嵌入方法TransAD,實驗18采用的是由文獻[25]提出的一種聯系關系上下文負采樣的知識圖譜嵌入方法rcTransE;實驗19即本文提出的模型TransH-TD,將上述提到的三種改進策略都應用于骨架模型中。另外部分實驗方法后面的(80%)表示該組實驗中將數據進行了稀疏操作,只保留了80%的數據進行實驗。
在表示學習模塊中運用不同知識表示學習模型進行鏈接預測任務的對比實驗結果如表4所示,加號(+)表示在骨架模型基礎上改進的部分,同時根據在進行鏈接預測任務時是否在排名過程中過濾掉在負采樣時構造的原本就存在于數據中的負例三元組,將最后的排名分為了filt.過濾等級和raw原始等級兩類。從結果的整體數據中可以得出如下結論:
a)TransE用時最短,但是整體的排名等級最差,這是因為在本文構建的數據集中存在著大量的復雜關系三元組,而TransE對于復雜關系的處理較差;TransH和TransR以及TransD都可以較好地處理上述復雜關系,相對于TransH的結果來說,TransR和TransD雖然在整體排名上都有所提升,但這是以巨大的計算復雜度換來的,所以綜合考慮整體結果效率,在模型的表示學習模塊部分選擇的是TransH作為骨架模型。
b)利用減少軟約束來改進損失函數,不僅不會對實驗結果產生負面影響,甚至在準確性和實驗用時上都有所提升,這也進一步說明了原骨架模型TransH[18]中提到的正交約束的非必要性。
c)將原骨架模型中使用的優化算法SGD改為自適應的Adam算法后,實驗準確率和實驗用時都有較大幅度的提升,這是因為本文的數據集是比較稀疏的,而自適應的優化算法在數據稀疏的情況下仍能取得很好的效果,SGD雖然也能達到極小值,但用時較長,而Adam算法則可以更快速地收斂,同時可以有效地降低方法的復雜度,提高整體效率。
d)相比于自訓練來說,加入預訓練策略以后,方法的實驗用時會更短,而且鏈接預測的準確率會更高,這是因為旅游領域數據稀疏,而且數據集中的標注數據缺乏,所以自訓練會消耗更多的計算量而且性能會比較差,而加入預訓練的策略則可以較好地解決這種由數據稀缺所帶來的問題;另外,通過對數據進行稀疏操作的實驗結果來看,只要是加入了預訓練策略的實驗,其結果的魯棒性都要比自訓練的性能好,這也更加說明了對于數據稀疏和標注數據稀缺的數據集來說,預訓練策略可以很好地改善方法的性能。
e)目前新提出的TransAD算法[24]雖然在處理數據稀疏和有復雜關系的數據集時有一定的優勢,但是該算法更適用于數據規模大的情況,在本文這種小規模數據集上的表現不如其他的改進算法;rcTransE算法[25]的實驗結果不夠好主要是由于本文的數據集中存在較多具有相同的關系上下文但是關系路徑不同的實體,該算法只考慮了目標實體相鄰的關系上下文而未考慮相關的路徑信息,從而影響了模型的整體效果。本文提出的對骨架模型的改進方法TransH-TD能夠更好地適用于本文的數據集,綜合預訓練策略、改進損失函數和優化算法,這使得本文方法在旅游領域鏈接預測任務上取得了最好的效果。
表5給出的是以“內蒙古自治區的下轄地級行政區是呼和浩特市”為例進行的鏈接預測任務對比實驗結果樣例,其中黑體表示測試三元組的真尾,斜體表示存在于測試集中的其他真尾。通過實驗樣例結果也可以看出,本文提出的融合預訓練策略、改進損失函數和優化算法的TransH-TD方法,其鏈接預測結果不僅遠好于骨架模型,而且也優于新提出的兩種方法。
現有的以翻譯模型作為知識表示學習模型的實體對齊方法以及其改進方法都是針對公開的百科數據集,而旅游領域數據比公開的百科類數據更加稀疏,也存在著更多的長尾實體,同時已對齊的實體對也很缺乏,因此用這些現有實體對齊方法在本文構建的旅游領域數據集上進行對比實驗無意義。
為了進一步驗證提出的多視圖知識表示策略在旅游領域實體對齊方法中的必要性和有效性,在實體相似度分析模塊中,對于是否采用多視圖的方法進行實體對齊的任務,分別做了只利用實體的結構嵌入和隨機為50%和80%的實體加入關系嵌入或者加入實體描述信息嵌入作為補充信息的計算相似度方法的對比實驗。
實驗20在計算實體相似度時只使用實體本身的結構嵌入,實驗21、22分別隨機對50%、80%的實體加入關系嵌入作為補充信息,實驗23、24則隨機對50%、80%的實體加入描述信息嵌入作為補充信息,最后實驗25即本文提出的多視圖知識表示策略MultiKR-NN,對全部的實體加入關系嵌入和描述信息嵌入作為補充信息來完成實體的相似度計算。
在實體相似度分析模塊中采用不同視圖知識表示的計算策略進行實體對齊任務的對比實驗結果如表6所示。
在表6中,加號(+)表示“添加”,且每次實驗結果都是通過10次隨機實驗取平均值得出的。從結果的整體數據中可以得出如下結論:
a)只利用實體結構嵌入的方法計算得到的精準率、召回率和綜合指標F1值都是最低的,說明了雖然利用實體本身的結構信息也可以完成實體對齊任務,但是對于一些長尾數據來說,它們本身的結構信息是不夠豐富的,所以在只利用實體本身的結構信息進行實體對齊任務時難以對齊,同時使得實體對齊任務的整體效果不是很好。
b)加入關系嵌入作為補充信息時,實體對齊的精準率、召回率和綜合指標F1值都有大幅度提高,這也進一步證明了實體本身的結構嵌入信息存在不足的情況,而且也說明了實體的關系嵌入中同樣隱含了豐富的信息,有利于更好地完成實體對齊任務。
c)加入描述信息的嵌入作為補充信息后,實體對齊的性能又有了進一步的提升,說明對于長尾實體來說,它們的關系嵌入仍然是非常稀疏的,僅有的結構嵌入和關系嵌入對于長尾實體的對齊任務來說仍然遠遠不足,實體的描述信息嵌入確實在一定程度上比較好地解決了長尾實體的問題,它可以作為一種較好的輔助信息來提升實體對齊任務的效果。
d)本文的方法MultiKR-NN,即利用多視圖知識表示的策略將所有實體都加入關系嵌入和描述信息嵌入來進一步豐富實體的結構信息,在精準率、召回率和綜合指標F1值上都取得了最優結果,比只利用實體結構嵌入的基礎實驗分別提高了0.208、0.304和0.262。
表7給出的是實體對齊任務對比實驗結果樣例,其中黑體表示實驗對齊結果中實際可對齊的實體對,斜體表示實驗對齊結果中實際不能對齊的實體對,下畫線表示實際可對齊但不在實驗對齊結果中的實體對。對比實驗樣例結果也進一步驗證了上述結論,對于旅游領域存在比公開領域更多的長尾實體來說,使用基本的實體結構嵌入信息往往不能直接得到較好的實體對齊結果,還需要另外加入一些補充信息來更好地完善實體信息,相比之下,加入實體描述信息嵌入要比加入關系嵌入帶來的實體對齊提升效果更為顯著,這是因為雖然加入關系嵌入可以對實體本身的結構嵌入有補充作用,但是對于長尾實體而言,無論是結構嵌入還是關系嵌入都是比較稀疏的,所以加入實體描述信息嵌入可以更加有效地解決長尾實體難以對齊的問題。
綜上所述,實驗很好地驗證了改進損失函數和優化算法、加入預訓練策略以及通過多視圖知識表示,將關系嵌入和實體的描述信息嵌入作為實體對齊任務的補充信息等改進方法對于提升旅游領域實體對齊任務性能的有效性。
4 結束語
針對于目前旅游領域實體對齊任務的研究現狀和面臨的挑戰,提出了一種基于多視圖知識表示和神經網絡的實體對齊方法。該方法使用遷移學習的策略,采用預訓練模型進行多視圖的知識表示學習,并利用關系嵌入和實體描述信息嵌入作為實體結構嵌入的輔助信息,通過CNN完成實體相似度的分析。本文方法不僅能夠解決現有旅游領域公開數據集少、知識以及已標注數據稀缺的問題,而且很好地緩解了旅游領域存在的比開放領域更多長尾實體帶來的實體信息不足從而難以對齊的問題。在未來的工作中,仍可以考慮加入實體屬性視圖等多方面信息作為輔助嵌入,并且考慮將基于知識表示學習的方法和傳統的實體對齊方法相結合,兩者相輔相成,以便更好地完成實體對齊的任務。
參考文獻:
[1]張富,楊琳艷,李健偉,等. 實體對齊研究綜述 [J]. 計算機學報,2022,45(6): 1195-1225. (Zhang Fu,Yang Linyan,Li Jianwei,et al. An overview of entity alignment methods [J]. Chinese Journal of Computers,2022,45(6): 1195-1225.)
[2]Li Chengjiang,Cao Yixin,Hou Lei,et al. Semi-supervised entity alignment via joint knowledge embedding model and cross-graph mo-del[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2019: 2723-2732.
[3]Nie Hao,Han Xianpei,Sun Le,et al. Global structure and local semantics-preserved embeddings for entity alignment [C]// Proc of the 29th International Conference on International Joint Conferences on Artificial Intelligence. 2021: 3658-3664.
[4]Mao Xin,Wang Wenting,Xu Huimin,et al. MRAEA: an efficient and robust entity alignment approach for cross-lingual knowledge graph [C]// Proc of the 13th International Conference on Web Search and Data Mining. New York: ACM Press,2020: 420-428.
[5]Fey M,Lenssen J E,Morris C,et al. Deep graph matching consensus [EB/OL]. (2020-01-27). https://arxiv.org/pdf/2001.09621.pdf.
[6]Liu Zhiyuan,Cao Yixin,Pan Liangming,et al. Exploring and evaluating attributes,values,and structures for entity alignment [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2020: 6355-6364.
[7]蘇佳林,王元卓,靳小龍,等. 融合語義和結構信息的知識圖譜實體對齊 [J]. 山西大學學報: 自然科學版,2019,42(1): 23-30. (Su Jialin,Wang Yuanzhuo,Jin Xiaolong,et al. Knowledge graph entity alignment with semantic and structural information [J]. Journal of Shanxi University: Natural Science Edition,2019,42(1): 23-30.)
[8]康世澤,吉立新,劉樹新,等. 一種基于實體描述和知識向量相似度的跨語言實體對齊模型 [J]. 電子學報,2019,47(9): 1841-1847. (Kang Shize,Ji Lixin,Liu Shuxin,et al. Cross-lingual entity alignment model based on the similarities of entity descriptions and knowledge embeddings [J]. Acta Electronica Sinica,2019,47(9): 1841-1847.)
[9]喬晶晶,段利國,李愛萍. 融合多種特征的實體對齊算法 [J]. 計算機工程與設計,2018,39(11): 3395-3400. (Qiao Jingjing,Duan Liguo,Li Aiping. Entity alignment algorithm based on multi-features [J]. Computer Engineering and Design,2018,39(11): 3395-3400.)
[10]曾維新,趙翔,唐九陽,等. 基于重排序的迭代式實體對齊 [J]. 計算機研究與發展,2020,57(7): 1460-1471. (Zeng Weixin,Zhao Xiang,Tang Jiuyang,et al. Iterative entity alignment via re-ranking [J]. Computer Research and Development,2020,57(7): 1460-1471.)
[11]Zhu Hao,Xie Ruobing,Liu Zhiyuan,et al. Iterative entity alignment via joint knowledge embeddings [C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2017: 4258-4264.
[12]Shi Baoxu,Weninger T. Open-world knowledge graph completion [EB/OL]. (2017-11-09).https://arxiv.org/pdf/1711.03438v1.pdf.
[13]王小鵬. 基于知識圖譜的擇優分段迭代式實體對齊方法研究 [J]. 信息與電腦,2021,33(18): 48-52. (Wang Xiaopeng. Research on the method of optimal segmentation iterative entity alignment based on knowledge graph [J]. China Computer amp; Communication,2021,33(18): 48-52.)
[14]Liu Fangyu,Chen Muhao,Roth D,et al. Visual pivoting for (unsupervised) entity alignment [CJ]// Proc of the 35th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 4257-4266.
[15]Trisedya B D,Qi Jianzhong,Zhang Rui. Entity alignment between knowledge graphs using attribute embeddings [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 297-304.
[16]Mikolov T,Chen Kai,Corrado G,et al. Efficient estimation of word representations in vector space [EB/OL]. (2013-09-07). https://arxiv.org/pdf/1301.3781.pdf.
[17]Zhang Qingheng,Sun Zequn,Hu Wei,et al. Multi-view knowledge graph embedding for entity alignment [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 5429-5435.
[18]Wang Zhen,Zhang Jianwen,Feng Jianlin,et al. Knowledge graph embedding by translating on hyperplanes [C]// Proc of the 28th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2014: 1112-1119.
[19]Devlin J,Chang M W,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4258-4261.
[20]Sun Zequn,Hu Wei,Li Chengkai. Cross-lingual entity alignment via joint attribute-preserving embedding [C]// Proc of the 16th International Semantic Web Conference. Cham: Springer,2017: 628-644.
[21]Bordes A,Usunier N,Garcia-Duran A,et al. Translating embeddings for modeling multi-relational data [C]// Proc of the 26th Internatio-nal Conference on Neural Information Processing Systems. 2013: 2787-2795.
[22]Lin Yankai,Liu Zhiyuan,Sun Maosong,et al. Learning entity and relation embeddings for knowledge graph completion [C]// Proc of the 29th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 2181-2187.
[23]Ji Guoliang,He Shizhu,Xu Liheng,et al. Knowledge graph embedding via dynamic mapping matrix [C]// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Stroudsburg,PA: Association for Computational Linguistics,2015: 687-696.
[24]孟小艷,蔣同海,周喜,等. 一種改進的自適應知識圖譜嵌入式表示方法 [J]. 計算機應用研究,2021,38(1): 39-43. (Meng Xiaoyan,Jiang Tonghai,Zhou Xi,et al. Improved adaptive embedding method for knowledge graph representation [J]. Application Research of Computers,2021,38(1): 39-43.)
[25]李智杰,王瑞,李昌華,等. 聯合關系上下文負采樣的知識圖譜嵌入 [J/OL]. 數據分析與知識發現.(2022-08-11). http://kns.cnki. net/kcms/detail/10.1478.G2.20220810.1813.002.html. (Li Zhijie,Wang Rui,Li Changhua,et al. Knowledge graph embedding based on negative sampling of joint relational context [J/OL]. Data Analysis and Knowledge Discovery.(2022-08-11). http://kns.cnki. net/kcms/detail/10.1478.G2.20220810.1813.002 html.)