

摘要:知識(shí)圖譜鏈接預(yù)測(cè)是知識(shí)挖掘與智能信息處理中的重要任務(wù)。文章提出了一種基于關(guān)系序列表征與匹配的新方法,以有效捕獲路徑中的語(yǔ)義信息并提升鏈接預(yù)測(cè)性能。首先,通過雙向編碼器表征對(duì)路徑中的每個(gè)關(guān)系進(jìn)行深度編碼,生成精細(xì)的關(guān)系表示。接著,利用LSTM對(duì)關(guān)系序列進(jìn)行建模,學(xué)習(xí)全局路徑表示,全面捕獲路徑中蘊(yùn)含的語(yǔ)義依賴和順序信息。最后,針對(duì)鏈接預(yù)測(cè)任務(wù),文章設(shè)計(jì)了一種基于路徑表示與目標(biāo)關(guān)系向量匹配的機(jī)制,結(jié)合余弦相似度和線性變換完成關(guān)系預(yù)測(cè)與分類。在多個(gè)公開知識(shí)圖譜數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,基于關(guān)系序列表征的方法在MRR、Hit@K等指標(biāo)上均表現(xiàn)良好,顯示了對(duì)關(guān)系序列信息建模的有效性與重要性。
關(guān)鍵詞:鏈接預(yù)測(cè);關(guān)系序列;關(guān)系路徑表征;關(guān)系路徑匹配
中圖分類號(hào):TP301 "文獻(xiàn)標(biāo)志碼:A
0 引言
知識(shí)圖譜作為一種強(qiáng)大的知識(shí)表示形式,以結(jié)構(gòu)化的方式整合了海量的實(shí)體與關(guān)系信息,在信息檢索、智能問答、推薦系統(tǒng)等智能系統(tǒng)中提供了豐富的語(yǔ)義理解基礎(chǔ)。然而,在實(shí)際應(yīng)用中,知識(shí)圖譜往往存在不完整性,大量潛在的實(shí)體鏈接尚未被發(fā)掘,這嚴(yán)重限制了其在復(fù)雜任務(wù)中的效能發(fā)揮。因此,知識(shí)圖譜鏈接預(yù)測(cè)成為該領(lǐng)域的一個(gè)核心研究熱點(diǎn),旨在通過已有的知識(shí)圖譜結(jié)構(gòu)和信息,精準(zhǔn)地推斷出實(shí)體之間缺失的鏈接。
近年來,基于語(yǔ)義挖掘的方法在知識(shí)圖譜鏈接預(yù)測(cè)中取得了顯著進(jìn)展。雙向編碼器表征(Bidirectional Encoder Represen Tations from Transformers, BERT)模型[1]通過大規(guī)模語(yǔ)料庫(kù)的預(yù)訓(xùn)練,能夠有效地捕捉文本中的語(yǔ)義和語(yǔ)法信息。在知識(shí)圖譜中,實(shí)體和關(guān)系可以自然地映射為文本序列中的元素,BERT的強(qiáng)大表征能力在關(guān)系學(xué)習(xí)中具有較大潛力。但直接應(yīng)用BERT模型進(jìn)行知識(shí)圖譜鏈接預(yù)測(cè)仍面臨諸多挑戰(zhàn)。一方面,如何將知識(shí)圖譜中的復(fù)雜信息有效地轉(zhuǎn)化為BERT模型能夠理解和處理的輸入形式是一個(gè)亟待解決的問題。傳統(tǒng)的路徑表示方法往往難以充分挖掘路徑中蘊(yùn)含的深層次語(yǔ)義關(guān)系,導(dǎo)致BERT模型無法充分發(fā)揮其優(yōu)勢(shì)。然而在處理大規(guī)模知識(shí)圖譜時(shí),計(jì)算效率和模型的可擴(kuò)展性成為制約其應(yīng)用的關(guān)鍵因素。BERT模型本身的復(fù)雜性和大規(guī)模參數(shù)使得訓(xùn)練和推理過程須要耗費(fèi)大量的計(jì)算資源,在面對(duì)海量知識(shí)圖譜數(shù)據(jù)時(shí),容易出現(xiàn)內(nèi)存溢出和訓(xùn)練時(shí)間過長(zhǎng)等問題。
為了應(yīng)對(duì)這些挑戰(zhàn),本文提出了基于BERT模型的路徑表征優(yōu)化策略,以實(shí)現(xiàn)高效、準(zhǔn)確的知識(shí)圖譜鏈接預(yù)測(cè)。本文提出了基于鄰居覆蓋的路徑抽取算法,能夠根據(jù)實(shí)體的語(yǔ)義相關(guān)性和關(guān)系的重要性有針對(duì)性地選擇路徑,減少冗余信息的干擾;基于BERT的路徑文本化技術(shù),通過引入語(yǔ)義標(biāo)記和層次化結(jié)構(gòu),增強(qiáng)BERT模型對(duì)路徑信息的理解能力;利用預(yù)訓(xùn)練的語(yǔ)料庫(kù)提高計(jì)算效率和模型的可擴(kuò)展性。這些優(yōu)化措施能夠發(fā)揮BERT模型在知識(shí)圖譜鏈接預(yù)測(cè)中的應(yīng)用潛力。
1 相關(guān)工作
在知識(shí)圖譜研究領(lǐng)域,知識(shí)圖譜的嵌入方法是鏈接預(yù)測(cè)等任務(wù)的重要基礎(chǔ)。TransE模型[2]基于平移假設(shè),即對(duì)于三元組(h,r,t),期望h+r≈t,通過最小化損失函數(shù)學(xué)習(xí)實(shí)體與關(guān)系進(jìn)行嵌入。其優(yōu)勢(shì)在于模型簡(jiǎn)單、參數(shù)少且計(jì)算效率高,在簡(jiǎn)單知識(shí)圖譜結(jié)構(gòu)和關(guān)系處理中表現(xiàn)尚可。面對(duì)復(fù)雜關(guān)系,就會(huì)出現(xiàn)向量空間沖突,難以有效區(qū)分不同語(yǔ)義情境下的相同關(guān)系。后續(xù)模型為解決此問題引入了超平面概念、雙線性乘積等,但無法很好地處理非對(duì)稱關(guān)系與復(fù)雜邏輯關(guān)系,表達(dá)能力受限。這些經(jīng)典嵌入模型大多針對(duì)單個(gè)三元組建模,難以充分利用實(shí)體對(duì)之間多條路徑的豐富語(yǔ)義信息,限制了鏈接預(yù)測(cè)性能提升[3]。
BERT能雙向編碼文本,捕捉詞間語(yǔ)義關(guān)聯(lián)與上下文信息,準(zhǔn)確分類。面對(duì)開放域問題,BERT能理解用戶提問并在大規(guī)模知識(shí)庫(kù)中搜索答案,無論是直白表述還是含隱喻、同義詞的問題,都能準(zhǔn)確提取答案。BERT的成功源于其雙向編碼表示、大規(guī)模預(yù)訓(xùn)練及靈活微調(diào)策略,能有效捕捉文本語(yǔ)義語(yǔ)法信息且泛化能力強(qiáng)。
目前,知識(shí)圖譜中的關(guān)系預(yù)測(cè)主要依賴于學(xué)習(xí)實(shí)體的特定表示或候選關(guān)系周圍的子圖結(jié)構(gòu)[4-5]。然而,隨著實(shí)體數(shù)量的激增,計(jì)算復(fù)雜度呈指數(shù)級(jí)增長(zhǎng),從而對(duì)關(guān)系預(yù)測(cè)的準(zhǔn)確性和效率提出了挑戰(zhàn)。可以將BERT模型的優(yōu)勢(shì)遷移至知識(shí)圖譜路徑表征,利用關(guān)系路徑上下文信息揭示實(shí)體之間可能隱藏的路徑信息,通過關(guān)系鏈條揭示實(shí)體間的間接聯(lián)系和拓?fù)浣Y(jié)構(gòu)[6]。
2 關(guān)系路徑序列語(yǔ)義表征
2.1 問題定義
鏈接預(yù)測(cè)作為知識(shí)圖譜研究的核心任務(wù),旨在預(yù)測(cè)給定實(shí)體對(duì)之間可能存在的語(yǔ)義關(guān)系。定義E和R分別表示實(shí)體集合與關(guān)系集合,鏈接預(yù)測(cè)任務(wù)可描述為fθ:E×E→R,其中,θ表示模型的參數(shù)。對(duì)于任意一對(duì)實(shí)體h,t,其關(guān)聯(lián)路徑集合可表示P(h,t)={p1,p2,...,pn},其中每條路徑pn是一系列實(shí)體對(duì)之間關(guān)系構(gòu)成的序列。
更一般地,對(duì)于任意三元組(h,r,t),通過路徑信息P(h,t)的綜合分析,鏈接預(yù)測(cè)模型的目標(biāo)是最大化以下目標(biāo)函數(shù):
argmaxθ∏(h,r,t)∈DP(r|h,t)(1)
針對(duì)實(shí)體對(duì)(h,t),公式(1)對(duì)關(guān)系類型的分布進(jìn)行建模。其中,D為訓(xùn)練集中已知的三元組集合。通過引入路徑序列信息,鏈接預(yù)測(cè)模型能夠更加準(zhǔn)確地挖掘?qū)嶓w對(duì)之間的潛在語(yǔ)義關(guān)系。
2.1.1 路徑抽取
路徑抽取旨在挖掘目標(biāo)實(shí)體對(duì)之間可能存在的語(yǔ)義關(guān)聯(lián)路徑[7]。對(duì)目標(biāo)實(shí)體對(duì)(h,t),分別為每個(gè)實(shí)體h和t構(gòu)建其鄰居集合,記為N(h)和N(t)。鄰居集合N(e)包含與實(shí)體e相連的所有鄰居實(shí)體及其關(guān)系,用于生成該實(shí)體的擴(kuò)展上下文集合C(e)。對(duì)目標(biāo)實(shí)體對(duì)(h,t)進(jìn)行路徑抽取時(shí),綜合利用C(h)和C(e)以捕獲潛在的語(yǔ)義路徑,定義路徑抽取函數(shù)為:
g(h,t)={pi|pi={r1,r2,...,rk,1≤i≤n,k=len(pi)}(2)
其中,pi為從h到t的i條路徑;len(pi)為路徑pi的長(zhǎng)度。
2.1.2 路徑表示
對(duì)于每個(gè)關(guān)系ri,將其視為一個(gè)文本段,記作ti,輸入BERT模型,經(jīng)過BERT的編碼過程得到一個(gè)上下文感知的向量表示為:
Vi=BERT(ti)(3)
其中,Vi為關(guān)系ri的向量表示;d為BERT模型的輸出維度。對(duì)于每條路徑pi,將其中每個(gè)關(guān)系的表示Vi組合成一個(gè)整體的路徑向量Vpi。路徑向量的組合可以有多種方式,常見的有通過對(duì)路徑中所有關(guān)系的向量表示取平均來得到,可形式化為:
Vpi=1n∑ni=1Vi(4)
將路徑Pi中所有關(guān)系的向量表示Vi按順序拼接,得到最終的路徑向量表示。拼接后的路徑向量Vpi可以表示為:
Vpi=[V1,V2,...,Vn](5)
其中,Vpi為路徑pi的最終向量表示,拼接后的向量維度為n*d,即每個(gè)關(guān)系向量Vi的維度d乘以路徑Pi中關(guān)系的數(shù)量n。
關(guān)系路徑序列表征模型如圖1所示。
2.1.3 路徑表征學(xué)習(xí)
首先,由于每條路徑的長(zhǎng)度可能不同,需要進(jìn)行填充操作,使所有序列的長(zhǎng)度一致,收集所有的路徑表示作為實(shí)體對(duì)(h,t)的候選關(guān)系序列集合。其次,從集合中隨機(jī)抽取路徑,將所有路徑的序列整理成V=[Vp1,Vp2,...,VPn]∈瘙綆n×L×d的形狀。然后,輸入RNN模型,每個(gè)時(shí)間步t∈[1,L],批次中所有路徑的第t個(gè)關(guān)系向量輸入LSTM,更新隱藏狀態(tài):
H(t)=fLSTM(X(t),H(t-1)(6)
最后,使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練優(yōu)化,訓(xùn)練時(shí)的真實(shí)標(biāo)簽記為Ctrue:
L=-1N∑Ni=1logP(Ctruei|Pi)(10)
3 實(shí)驗(yàn)設(shè)置
3.1 數(shù)據(jù)集
本文實(shí)驗(yàn)采用的數(shù)據(jù)集是WN18RR和NELL-995標(biāo)準(zhǔn)數(shù)據(jù)集。WN18RR基于WordNet大型詞匯數(shù)據(jù)庫(kù)構(gòu)建,結(jié)構(gòu)化存儲(chǔ)單詞及其語(yǔ)義關(guān)系,去除了WN18中測(cè)試集和訓(xùn)練集之間的重疊問題,具有更高的評(píng)估挑戰(zhàn)性。NELL-995來源于NELL系統(tǒng),通過自動(dòng)化學(xué)習(xí)和知識(shí)擴(kuò)展,涵蓋豐富的語(yǔ)義信息,構(gòu)建了一個(gè)動(dòng)態(tài)更新的知識(shí)庫(kù)。數(shù)據(jù)集統(tǒng)計(jì)如表1所示。
3.2 評(píng)價(jià)標(biāo)準(zhǔn)
本文沿用在知識(shí)圖譜關(guān)系預(yù)測(cè)任務(wù)中廣泛應(yīng)用的平均倒數(shù)排名(MRR)和命中率(Hit@K)。MRR是正確三元組的排名倒數(shù)的平均值,更加魯棒,不受極端值影響。命中率衡量正確答案是否出現(xiàn)在預(yù)測(cè)結(jié)果的前K名,常用K值包括 1、5和10,直觀反映模型在不同精度需求下的表現(xiàn)(本文簡(jiǎn)寫為HK)。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文采用TransE[2]、DistMult[8]、ComplEx[9]、RotatE[10]和pRotatE[10]共5種主流模型對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示,其中加粗和下劃線的數(shù)值表示性能最好的結(jié)果。
從表2看出,在WN18RR數(shù)據(jù)集上,本文模型在評(píng)測(cè)指標(biāo)MRR、Hits@1、Hits@5和Hits@10上都取得了最好的結(jié)果。在NELL-995數(shù)據(jù)集上,本文模型取得了較為優(yōu)異的性能表現(xiàn),與最優(yōu)結(jié)果差距不大,說明這種融合關(guān)系路徑表征的模型確實(shí)可以提升知識(shí)圖譜關(guān)系預(yù)測(cè)任務(wù)的效果。
4 結(jié)語(yǔ)
本文提出了一種基于路徑表征優(yōu)化的知識(shí)圖譜關(guān)系預(yù)測(cè)方法,通過結(jié)合預(yù)訓(xùn)練語(yǔ)言模型(如BERT)對(duì)路徑中的關(guān)系序列進(jìn)行表征,利用序列模型捕捉路徑的全局語(yǔ)義信息。在關(guān)系預(yù)測(cè)階段,通過對(duì)路徑表示與目標(biāo)關(guān)系向量進(jìn)行匹配,驗(yàn)證了方法在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的有效性。實(shí)驗(yàn)結(jié)果表明,該方法能夠顯著提升鏈接預(yù)測(cè)的準(zhǔn)確率和泛化能力,特別是在復(fù)雜語(yǔ)義和稀疏知識(shí)圖譜場(chǎng)景下表現(xiàn)出較強(qiáng)的魯棒性。盡管取得了良好的實(shí)驗(yàn)結(jié)果,仍存在一些值得探索的方向。首先,路徑表征的質(zhì)量依賴于數(shù)據(jù)分布和路徑長(zhǎng)度,而在大規(guī)模知識(shí)圖譜中,如何高效處理長(zhǎng)路徑和稀疏路徑仍是一個(gè)挑戰(zhàn)。其次,隨著知識(shí)圖譜規(guī)模的不斷擴(kuò)大和動(dòng)態(tài)化特性增強(qiáng),有必要設(shè)計(jì)高效的在線學(xué)習(xí)方法,以適應(yīng)實(shí)時(shí)更新的知識(shí)圖譜,也是未來研究的重點(diǎn)。
參考文獻(xiàn)
[1]DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 2019, Association for Computational Linguistics, Minneapolis, USA. Stroudsburg, PA: Association for Computational Linguistics, 2019.
[2]BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems (NeurIPS), 2013, Neural Information Processing Systems Foundation, Lake Tahoe, USA. Red Hook, NY: Curran Associates Inc., 2013.
[3]杜雪盈,劉名威,沈立煒,等.面向鏈接預(yù)測(cè)的知識(shí)圖譜表示學(xué)習(xí)方法綜述[J].軟件學(xué)報(bào),2023(1):87-117.
[4]官賽萍,靳小龍,賈巖濤,等.面向知識(shí)圖譜的知識(shí)推理研究進(jìn)展[J].軟件學(xué)報(bào),2018(10):2966-2994.
[5]徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016(4):589-606.
[6]岳增營(yíng),葉霞,劉睿珩.基于語(yǔ)言模型的預(yù)訓(xùn)練技術(shù)研究綜述[J].中文信息學(xué)報(bào),2021(9):15-29.
[7]熊凱,杜理,丁效,等.面向文本推理的知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型[J].中文信息學(xué)報(bào),2022(12):27-35.
[8]YANG B, YIH W, HE X, et al. Embedding entities and relations for learning and inference in knowledge bases[C]//Proceedings of the 3rd International Conference on Learning Representations (ICLR), 2015, International Conference on Learning Representations, San Diego, USA. International Conference on Learning Representations, 2015.
[9]TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction[C]//Proceedings of the 33rd International Conference on Machine Learning (ICML), 2016, International Machine Learning Society, New York, USA. Brookline, MA: PMLR, 2016.
[10]SUN Z, DENG Z H, NIE J Y, et al. RotatE: knowledge graph embedding by relational rotation in complex space[C]//Proceedings of the 7th International Conference on Learning Representations (ICLR), 2019, International Conference on Learning Representations, New Orleans, USA. International Conference on Learning Representations, 2019.
(編輯 王永超編輯)
Link prediction method based on representation and matching of relational paths
DU" Youping, YIN" Zidu*
(College of Information Science and Technology, Yunnan Normal University, Kunming 650500, China)
Abstract:" Knowledge graph link prediction is an important task in knowledge mining and intelligent information processing. In the article, a new method based on relation sequence characterization is proposed matching to effectively capture semantic information in paths and improve link prediction performance. Specifically, each relation in a path is first deeply encoded by BERT to generate a fine-grained relation representation. Then, the relationship sequence is modeled using LSTM to learn the global path representation, which comprehensively captures the semantic dependency and order information embedded in the path. Finally, for the link prediction task, a mechanism based on matching the path representation with the target relation vectors is designed, combining cosine similarity and linear transformation to accomplish relation prediction and classification. The experiments are conducted on several public knowledge graph datasets, and the results show that the method based on relational sequence characterization performs well on the metrics such as MRR and Hit@K, highlighting the effectiveness and importance of modeling relational sequence information.
Key words: link prediction; relational sequences; relational paths representations; relational paths matching