熊文武 張守震



摘 要:在多個垂直領域,以數據分析、智慧搜索、智能推薦、自然人機交互為主的實際應用場景中,皆對知識圖譜提出了客觀的使用需求。與此同時,知識圖譜作為實現機器認知智能的重要基石,同樣是現階段人工智能領域的熱門研究課題。從開放域環境中自動獲取關系實例是構建大規模知識圖譜的基礎,精準地識別概念間的上下位關系是在縱向層面上擴展知識層級體系結構的關鍵,通過知識圖譜表示學習可實現知識圖譜數值化表示,得以讓機器更好地處理并應用知識圖譜進行知識計算。
關鍵詞:知識圖譜;開放關系抽取;鏈接預測;集體推理
一、基于深度句法分析學習的抽取方法
分析學習的抽取方法主要包括生成句法依存樹、候選三元組抽取和實體關系強度度量三個核心步驟。生成依存句法樹的過程主要包括共指消解與依存句法分析2個主要步驟。共指消解在進行句法解析之前,我們首先需要對文本句子中識別出的實體指代做共指消解處理。
上一步中與依存句法樹對應的有向圖G一旦生成,我們即可基于上述圖結構進行深入地分析。目前,大多數開放關系抽取算法所抽取出的三元組的關系短語的質量普遍不高,例如損失了細節信息、錯誤且不連貫、混雜其它三元組的信息等。而我們將沿著這樣一個思路去解決這個問題:枚舉名詞成分頂點集合V中的不同組合,在G上結合最短依存路徑、多種邏輯規則/圖規則分析方法獲得它們對應的候選三元組。
二、人機協作解析框架的體系架構
人機協作解析框架主要包含了4個組成模塊,即類別與關系候選生成模塊、模式候選生成模塊、眾包問題生成模塊與擴展內容生成模塊。首先采用Jena數據庫將知識圖譜進行預處理,然后在給定一個萬維網表格時,通過SPARQL查詢語言來生成表格所對應的所有類別與關系的候選,即列-類候選與列對-關系候選。同時,此模塊會預先統計知識圖譜中類別與關系間的關聯信息,即計算每個關系與各類別之間的關聯度。
模式候選生成模塊:此模塊主要負責表格的語義模式候選生成任務,通過計算所查詢到的每一個列所對應的所有類別候選、列對之間所對應的所有關系候選與知識圖譜中預先統計的類別與關系之間的關聯度信息來給出表格的語義模式組合候選的置信度評分,并通過采用排序連接算法來快速生成高質量語義模式候選。架構模式示意圖如圖1所示。
語義模式評分模型:通常一個表格的整體語義模式候選包含了列的類別候選與列之間的關系候選,因此計算表格語義模式候選則需要考慮到所有類別候選集與關系候選集之間的卡爾積。顯然,當一個表格具有m個列、每個列和關系有Top4個候選時,其復雜度為o。因此,計算表格模式的所有候選集是不可接受的,并且對于眾包的驗證代價也是非常高昂的。然而,不是所有的候選組合都有意義,因此,需要一個有效的方法來對表格模式的候選集進行評分排序,以便為后續的眾包驗證任務能夠快速生成Top4個模式候選。對于表格的一個直觀的模式候選評分方法是將此表格中所有列的對應類別的TF-IDF值與所有列之間對應關系的TF-IDF值相加獲得,如下公式(1)所示:?
(1)
三、關系敏感嵌入式技術的知識圖譜擴展
基于關系敏感的嵌入技術,并將知識圖譜中離散的知識表示嵌入到了連續的向量空間中。本文的RESA方法在執行嵌入過程中不僅考慮了實體與關系間的關聯度,而且還考慮了關系之間的關聯影響。此外,本文還提出了兩種關聯度函數來評估關系之間的關聯程度,并設計了一個動態聚類算法將高度關聯的關系聚合到同一組中。最后,在兩組基準測試數據集上,通過與目前最先進的多個模型進行大量的對比實驗來證明了本文提出的RESA能夠有效地對知識圖譜進行缺失事實預測與錯誤事實檢測等任務。
關系敏感嵌入式模型的體系架構:關系表示模塊:在RESA模型中,首先需要對知識圖譜中的關系進行預處理,然后通過定義的關聯度函數來評估關聯度較高的關系。基于概率的方法是通過將知識圖譜中關系間的頭尾實體共同出現的概率作為其評價標準來計箅兩個關系間的互信息強度、并以此作為關系的關聯度。基于向量的方法則是通過對知識圖譜中的實體預先訓練好其詞向量模型,并通過關系的頭尾實體間的向量計算來表就其對應的關系后,采用余弦相似度來評估兩個關系的關聯度。?
關聯關系聚合模塊:接下來則需要發掘知識圖譜中:高度關聯的關系并將它們聚到一起,以便在訓練模型過程中能夠引入相互的影響力。因此,在此模塊中通過采用動態聚類算法與先前定義的關系關聯函數對知識圖譜中的關系進行聚類來發現高度關聯的關系,并為每一組中的每個關系預先計算并保存栢關關系對其獅程度。
四、總結
一種基于關系敏感嵌入式方法的RSEA模型來對知識圖譜中離散的事實三元組進行了連續向量空間上的映射過程,并通過事實三元組所對應的向量計算實現了對知識圖譜更加準確的推理目的,包括了對錯誤事實的檢測任務與缺失事實的預測任務。另外,通過兩種不同的視角刻畫了關系之間的關聯性,并給出了兩種關系關聯函數,即基于概率的關聯度函數與基于向量的關聯度函數,來有效地度量了兩個關系之間的距離。
參考文獻:
[1]錢玲飛,崔曉蕾.基于數據增強的領域知識圖譜構建方法研究[J].現代情報,2022,42(03):31-39.
[2]郭欣彤. 大規模知識圖譜的查詢處理技術研究[D].哈爾濱工業大學,2021.
[3]趙宇. 知識圖譜自動演進算法研究[D].北京郵電大學,2017.
[4]李葉葉,李賀,沈旺,曹陽,涂敏.基于多源異構數據挖掘的在線評論知識圖譜構建[J].情報科學,2022,40(02):65-73.