一種基于圖模型的維基概念相似度計算方法及其在實體鏈接系統中的應用

2015-04-21 09:26:35張濤，劉康，趙軍

中文信息學報 2015年2期

關鍵詞：語義概念特征

張濤，劉康，趙軍

(中國科學院自動化研究所模式識別國家重點實驗室，北京 100190)

一種基于圖模型的維基概念相似度計算方法及其在實體鏈接系統中的應用

張濤，劉康，趙軍

(中國科學院自動化研究所模式識別國家重點實驗室，北京 100190)

實體鏈接是指將文本中具有歧義的實體指稱項鏈接到知識庫中相應實體的過程。該文首先對實體鏈接系統進行了分析，指出實體鏈接系統中的核心問題—實體指稱項文本與候選實體之間的語義相似度計算。接著提出了一種基于圖模型的維基概念相似度計算方法，并將該相似度計算方法應用在實體指稱項文本與候選實體語義相似度的計算中。在此基礎上，設計了一個基于排序學習算法框架的實體鏈接系統。實驗結果表明，相比于傳統的計算方法，新的相似度計算方法可以更加有效地捕捉實體指稱項文本與候選實體間的語義相似度。同時，融入了多種特征的實體鏈接系統在性能上獲得了達到state-of-art的水平。

實體消歧；實體鏈接；語義相似度計算；排序學習；隨機游走

1 介紹

近年來，隨著互聯網的快速發展，大規模知識庫(如DBpedia[1]，Wikipedia[2])在互聯網中出現并得到了快速發展。這些知識庫富含豐富的關于實體的各種信息，如實體的屬性，實體之間的語義關系等。它們的出現使得互聯網用戶可以十分便利地獲取相關信息。在學術研究領域和工業領域中，知識庫的運用使得各種依賴于自然語言處理技術的實際系統在性能上得到了顯著提升[3-5]，提高了學術價值和用戶體驗度。隨著真實世界的不斷發展，關于實體的各種信息在互聯網中不斷地進行更新和補充，因此，如何利用信息抽取系統自動地維護和更新知識庫的內容變得非常重要。然而，在利用信息抽取系統更新知識庫的過程中，我們面臨的首要任務是確定出存在于文本中的實體指稱項與知識庫中實體的對應關系，這個任務被稱作實體鏈接。為了推動實體鏈接任務的研究，國際上在TAC(Text Analysis Conference)會議中組織了關于該任務的評測KBP.(Knowledge Base Population)。在KBP-09中[6]，該任務被定義為：給定一個query, 其中包含有實體指稱項(人名，地名，機構名)以及它所出現的上下文文本，實體鏈接系統需要根據實體指稱項的上下文以及知識庫中實體的相關信息確定出該實體指稱項所對應的知識庫中的實體。如果該指稱項所對應的實體沒有存在于知識庫中，系統需要返回NIL，代表空實體。

實體鏈接系統所面臨的最主要問題是實體歧義問題。實體歧義指的是同一個實體指稱項在不同的上下文中對應知識庫中不同實體的語言現象。例如，給定如下兩個包含有實體指稱項“蘋果”的句子：

1) 蘋果，落葉喬木，葉子橢圓形，花白色帶有紅暈，果實圓形，味甜或略酸，是常見的水果。

2) 2006年蘋果將原本使用的IBM POWERPC處理器更換為INTEL基于CORE架構的處理器。

在上面的例子中，同一實體指稱項“蘋果”在不同的上下文中分別對應著“蘋果(一種水果)”和“蘋果公司”這兩個實體。實體鏈接系統需要根據實體指稱項的上下文信息以及知識庫中實體的信息來進行選擇。

為了解決實體歧義問題，我們需要度量實體指稱項上下文與候選實體文本的語義相似度。通過相似度的計算來選擇候選實體或者將此相似度作為一個重要特征來訓練分類器，然后利用分類器對候選實體進行選擇。因此，如何選擇一個好的相似度計算方法是實體鏈接系統中最為關鍵的問題。傳統的相似度計算方法采用詞袋子模型(BAG-OF-WORDS)。該方法將實體指稱項文本與候選實體文本分別表示為詞袋子向量的形式，通過計算向量與向量之間的夾角來確定相似度，詞袋子向量中詞的權重通常由TF-IDF方法確定。該方法的主要缺點是僅僅考慮了詞的共現信息，忽略了詞與詞本身之間的語義關聯。當兩個形式上不同的詞在描述同一個語義概念時，這種基于詞匹配的相似度計算方法往往會計算得不準確，該問題被稱作詞匯鴻溝問題。舉例來說，假設知識庫中存在兩個關于“邁克爾·喬丹”的實體：

1) 邁爾克·喬丹是著名的籃球運動員。

2) 邁爾克·喬丹是美國伯克利大學的研究機器學習的教授。

給定實體指稱項“邁爾克·喬丹”及它所出現的文本“邁爾克·喬丹獲得了NBA的MVP”。通過詞袋子模型方法，我們可以計算該query和兩個實體的相似度均為0。原因是query中文本的詞語與實體中文本的詞語是不相同的，盡管它們之間具有很強的語義關聯，如“NBA”和“籃球”。

為了解決詞匯鴻溝問題，其中一種解決思路是借助于百科知識，將文本內容映射到百科概念空間中，進而使得相似度的計算從詞的維度轉換到了概念的維度。概念與概念的相似度的計算可以借助于百科知識的各種資源，而不是僅僅考慮它們的共現信息，進而解決傳統方法中存在的詞匯鴻溝問題[7-8]。Wikipedia Miner[9]提供了一種維基概念之間相似度的計算方法。在Wikipedia Miner中，維基概念之間的相似度與這兩個維基概念之間共有的鏈接條目相關聯。共有的鏈接條目越多，代表它們之間的語義關聯性越強。這種方法取得了較好的效果。但是該方法僅僅考慮了維基百科的鏈接關系，忽略了存在于維基百科中的類別關系。類別關系也是存在于維基百科中的很重要的語義信息，如何更好的將鏈接關系與類別關系相融合進而獲得更加準確的維基概念間的語義相似度是我們主要考慮的問題。

在這篇文章中，基于以上的相關工作，我們提出了一種可以融合類別關系與鏈接關系的維基概念相似度的計算方法。我們首先根據維基概念之間的關系定義了維基概念圖模型。圖中的每一個節點表示一個維基概念或者一個維基類別，圖中邊的關系則表示維基概念之間的鏈接關系或者維基概念和維基類別的從屬關系。這樣，根據定義好的維基概念圖，我們利用圖模型中的隨機游走算法來確定維基概念之間的相似度。在此基礎上，我們設計并實現了一個基于排序學習算法框架的實體鏈接系統，將該相似度特征融入到我們的系統中，取得了很好的效果。實驗結果表明，相比于其他state-of-art的方法，我們的實體鏈接系統取得了有競爭力的結果。

本文的結構組織如下：第二章介紹我們的基于維基圖模型的語義相似度計算方法；第三章介紹基于排序學習算法框架的實體鏈接系統；實驗部分在第四章進行介紹；第五章總結了全文并對未來工作進行了展望。

2 維基概念圖模型的建立及相似度計算方法

在這一章中，我們將首先介紹如何構建維基概念圖模型，在此基礎上，介紹基于維基概念圖模型的相似度計算方法。

2.1 維基概念圖模型的建立

維基百科(Wikipedia)是一個內容自由，任何人都能參與，并有多種語言的百科全書寫作計劃。根據知名網站Alexa網絡流量統計的排名，Wikipedia為目前世界網站流量排名第七的網站。每一個維基百科中的一篇文章表示一個概念，維基概念之間通過鏈接關系進行關聯。同時每一篇百科文章至少含有一個維基類別。每一個維基類別可以認為是具有某些相同屬性的維基概念的集合。

鏈接關系：每一個維基概念都有一篇文章對其進行描述，在描述該概念的條目的文本中，存在另外一些維基概念，編寫維基百科的作者如果認為這些維基概念對讀者理解該維基概念有幫助，則對這些存在于文本中的維基概念進行鏈接，從而使得讀者可以更好的理解該維基概念。可以認為該維基概念與和它有鏈接關系的維基概念有一定的語義關聯。根據統計[9]，平均每篇維基百科條目含有34個到其他條目的鏈接，同有34個條目鏈接到該維基百科條目。圖1表示了其中一個維基百科條目和它的部分鏈接關系。

圖1 維基概念“Yao Ming”與它的鏈接關系

類別關系：每一個維基概念都至少有一個類別標簽與之相對應。該類別標簽描述了具有同一類別屬性的維基概念的集合。通過類別標簽，可以獲得和維基概念在類別屬性中相似的維基概念，如維基概念“姚明”通過維基類別標簽“籃球運動員”可以獲得和維基概念“王治郅”的關系。通過類別關系關聯的兩個維基概念也可以認為具有一定的語義關聯度。圖2顯示了維基概念“Basketball”的類別標簽。

圖2 維基概念“Yao Ming”與它的類別關系

維基概念圖模型的建立：我們可以根據以上所描述的維基概念之間的類別關系和鏈接關系來構建維基概念圖模型。這個圖中的每一個節點表示一個維基概念條目或者類別標簽，如“Yao Ming”或者“Basketball Player”。圖中的邊表示概念與概念的鏈接關系或者概念與類別的從屬關系。為了縮小維基概念圖模型的規模，只有當兩個維基概念之間互有鏈接關系時，它們之間才有邊相連。同時，我們也對類別標簽中條目數大于10 000或者小于50的類別標簽進行了過濾。我們認為這些類別標簽對于維基概念相似度的計算作用有限。這樣，在經過預處理之后，我們獲得了一個維基概念圖模型，它的節點數目大約是260萬，邊的數目是5 100萬。圖3顯示了該維基概念圖模型的部分結構。

圖3 維基概念圖模型的部分結構

2.2維基概念之間相似度的計算

在這一小節中，我們將介紹如何利用隨機游走算法來計算維基概念之間的相似度。我們首先介紹使用隨機游走算法進行相似度計算的出發點。圖的隨機游走算法用來捕捉圖模型中兩個節點之間的相似度，通過2.1節的內容我們知道，通過鏈接關系和類別關系關聯的兩個維基概念通常具有某種語義相似度，例如，在圖3中，維基概念“Michael Jordan”通過鏈接關系與“Basketball”之間具有某種語義關聯。維基概念“Yao Ming”與“Basketball”具有某種語義關聯，這樣我們可以認為維基概念“Michael Jordan”和“Yao Ming”之間也具有某種語義關聯，只是因為這種關聯方式是通過中間節點“Basketball”的，所以關聯強度要減弱一些。圖模型上的隨機游走算法可以將這種語義關聯性的強度進行定量的捕捉。

我們用一個(m+n)*(m+n)的矩陣W表示維基概念圖模型。其中m為矩陣中維基概念的數目，n為矩陣中類別標簽的數目。如果節點i和節點j之間有邊相連，那么矩陣中對應元素wi,j等于1，否則該元素為0。因為我們的維基概念圖是一個無向圖，因此矩陣W是一個對稱矩陣，也就是說wi,j=wj,i。

我們定義從節點j到節點i的隨機游走轉移概率為p(i|j)，它的大小為從節點j到節點i的邊的權重的歸一化值，由公式(1)確定。

(1)

(2)給定了該初始分布后，我們可以從該節點開始以概率矩陣P中的值為概率在圖模型中進行隨機游走，直到概率分布達到穩定或者迭代次數大于某個給定的閾值。穩定的概率分布值表示了圖模型中的節點與初始節點語義關聯性的強度。圖的隨機游走算法如圖4所示。

圖4 圖模型的隨機游走算法

(3)

節點i與節點j之間的語義相關性由兩次隨機游走算法確定，其中一次隨機游走從節點i開始，另外一次從節點j開始。

例如，我們可以從圖3所示的維基概念圖模型得出以下計算公式，參數α在該例子中設為0.5，隨機游走從一號節點“Michael Jordan”出發，第一次迭代由以下公式確定：

在迭代20次以后，節點進入穩定狀態，概率分布滿足以下關系：

同樣地，我們可以計算節點從五號節點“Scottie Pippen”隨機游走出發，到達穩定狀態時各個節點的概率分布：

這樣，根據計算得出的概率，我們可以得出維基概念“Michael Jordan”與“Scottie Pippen”之間的語義相似度為0.057 3。我們同樣可以看出，盡管維基概念“Yao Ming”與“Michael Jordan”之間的距離與“Scottie Pippen”和“Michael Jordan”之間的距離在圖模型中同為2，但是由于“Scottie Pippen”和“Michael Jordan”之間的路徑數目更多，所以“Michael Jordan”與“Scottie Pippen”之間的相似度大于它與“Yao Ming”之間的相似度，這一點與我們采用該算法的出發點相一致。

3 實體鏈接系統

在這一節中，將介紹我們的基于排序學習算法框架的實體鏈接系統。它由兩個模塊組成，候選實體獲取模塊和候選實體選擇模塊。

3.1 候選實體獲取模塊

知識庫中實體的數目是非常龐大的，如果對每一個實體都進行考慮，顯然會影響系統的性能,同時也是沒有必要的。所以實體鏈接系統的第一個模塊就是首先選擇出實體指稱項可能指向的知識庫中的實體有哪些，該模塊被稱為候選實體獲取模塊。我們通過維基知識資源獲取實體的各種指稱項，從而構建指稱項與實體對應關系的詞典。通過該詞典來發現給定指稱項可能指向的候選實體。詳細的過程和方法可以參考文獻[11]。根據給定的指稱項詞典，如給定實體指稱項“Michael Jordan”，我們認為它可能指向的實體有{Michael Jordan (footballer); Michael Jordan (mycologist); Michael I. Jordan; Michael Jeffrey Jordan}。

3.2 候選實體選擇模塊

我們對候選實體的選擇基于一個有監督的排序學習分類器。對于一個實體指稱項，排序學習分類器的輸入是n個d維空間向量，其中n表示的是該實體指稱項的候選實體的數目，每一對候選實體與實體指稱項會根據特征函數確定出一個d維空間的向量，這些特征充分考慮了候選實體自身的特征以及指稱項文本內容與候選實體的語義相似度等特征。我們通過最大邊緣化的方法來選擇候選實體，即正確的實體所獲得的分數應該高于其他的候選實體的分數同時加上一定的余量。這個約束條件等同于SVM排序學習算法[12]。

我們共使用了七種特征對候選實體進行選擇，下面進行詳細介紹。

實體指稱項與候選實體名稱之間的字符串DICE距離直覺上，如果一個實體指稱項與候選實體名稱之間在字符串表面具有很高的相似度，那么說明這個實體指稱項很有可能指向該候選實體。我們采用表示字符串之間表層特征關系的DICE距離作為我們分類器的其中一個特征。例如，候選實體名稱“Michael Jeffrey Jordan”與實體指稱項“Michael Jordan”之間的字符串DICE距離為0.788，而與實體指稱項“Jordan”之間的距離為0.4。

候選實體的先驗概率候選實體的先驗概率指的是該候選實體在整個維基百科數據中被以候選實體指稱項作為錨文本時鏈接的概率，它反映了該候選實體在真實世界中的流行程度，由公式(4)給出。

(4)

其中，count(e,m)表示在整個維基百科數據中實體指稱項m鏈接到候選實體e的次數。當給定實體指稱項“Michael Jordan”時，候選實體“Michael Jeffery Jordan”的先驗概率為0.857，而候選實體“Michael I. Jordan”的概率為0.023，它反映了實體在整個真實世界中的流行度。也就是給定指稱項“Michale Jordan”，人們主觀上的第一反應是籃球運動員而不是機器學習的教授。這就是這個特征的主要作用。

候選實體的名稱是否在指稱項文本中出現過以及指稱項是否在候選實體文本中出現過這是兩個01特征。主要的作用是判斷候選實體的名稱是否在指稱項文本中出現過以及實體指稱項是否在候選實體的維基百科文本中出現。出現則相應特征為1，否則為0。主觀感覺上，如果實體指稱項在實體文本中出現或者實體名稱在指稱項文本中出現，那么實體指稱項與候選實體相關聯的概率會大一些。

候選實體文本內容與指稱項文本內容之間詞袋子向量的夾角該特征反映了實體指稱項文本內容與候選實體文本內容在詞的維度上的重合度。具體的計算公式如式(5)所示。

(5)

詞袋子向量中的每一個元素表示一個詞，我們去除了一些停用詞，詞的權重由TF-IDF確定。具體地，我們由公式(6)得出一個Term在一個文檔d中的權重。

(6)

其中，TF(Term-Frequency)表示的是該詞在這篇文檔中出現的頻率，出現頻率越高，表示該詞和這篇文檔的相關性越大。DF(Document-Frequency)表示的是該詞在整個文檔集中出現的頻率，出現的頻率越高，表示該詞對于某一篇文檔越不重要，這個詞可能是一些比較泛化的詞，在大多數的文檔中都會出現。

候選實體與指稱項文本中出現的維基概念之間的語義相似度上一個特征采用詞袋子模型計算文本相似度，詞袋子中的每一個詞被單獨考慮，沒有考慮詞與詞之間的語義關聯，容易使得語義上很相近的兩段文本內容僅僅由于表達方式不一樣而得到相對較低的相似度。這一特征主要是為了解決該問題。我們認為出現在實體指稱項文本中的維基概念是對該實體指稱項所在文本語義表述，我們抽取出這些維基概念，通過上一章提出的方法計算出這些出現在實體指稱項文本中的概念與候選實體的語義相似度，我們認為該相似度可以作為一個語義相關性指標來表示實體文本與指稱項文本的語義相似度。

具體來說，給定一段實體指稱項文本，我們首先利用wikipedia-miner工具抽取出文本中出現的維基概念。Wikipedia-miner是新西蘭大學開發的用于檢測識別維基概念的工具。它使用機器學習方法，可以對輸入的文本自動識別并檢測出重要的維基概念。如圖5所示，利用Wikipedi-miner抽取出的維基概念為commerical broadcasting，Blue radio network，The Walt Disney Company。我們認為這些維基概念可以作為實體指稱項文本的語義表示。

圖5 實體指稱項文本與出現在文本中的維基概念

根據這些識別出的維基概念和我們上一章提出的維基概念的相似度計算方法，我們使用公式(7)計算候選實體與指稱項所在文本的語義相似度。

(7)

其中，n表示指稱項文本中維基概念的個數，sr(e,c)是利用維基概念圖模型計算得出的實體與維基概念的語義相似度。

空實體特征在前面的文章中，我們都做出了一個假設，即實體指稱項在知識庫中總是存在目標實體的，也就是說知識庫是一個完整的知識庫。但是實際情況往往不是如此。隨著世界的不斷變化和發展，會有一些新的實體出現在我們的生活中，在這種情況下，知識庫還沒有來得及更新，導致實體指稱項所指向的實體可能會在知識庫中不存在，這種現象被稱為空實體現象。如何確定哪些實體指稱項所指向的實體為空實體對豐富知識庫內容，完善知識庫體系具有非常重要的意義。傳統方法[6]對空實體的處理往往人為設定一個閾值，通過實體指稱項文本與候選實體文本相似度大小與閾值的比較確定該實體指稱項是否為空實體。這種方法主要的不足是： (1)人為確定閾值是比較困難的。常規的方法往往是由實驗和人們的經驗所確定；(2)對所有的實體指稱項人為設定一個單一且固定閾值的效果往往是不好的，因為空實體的閾值往往是與實體指稱項以及它的文本內容關聯在一起的，不同的實體指稱項的閾值往往也不相同。

為了解決人為設定空實體閾值方法的不足，我們加入了一個空實體到知識庫中，并且假設所有的實體指稱項的候選實體集都包含有該空實體。并且加入了一個維度的特征來表示該候選實體是否為空實體。如果為空實體，則該維度特征為1，否則該維度特征為0。對于空實體而言，除了該維度的特征以外，其它維度的特征均為0。這樣做的目的是可以通過訓練數據，學習到一個關于空實體維度特征的權重，該特征的權重與其他特征相關聯，相當于人為學習到了一個關于空實體的自適應的閾值，從而

可以有效避免人為設定閾值所帶來的問題。

4 實驗

在這一章中，為了驗證我們實體鏈接系統的有效性，我們對系統進行了測試。并進行如下討論： 1)基于維基概念圖模型的相似度計算方法是否可以提高實體鏈接系統的性能？2)空實體處理方法是否有效？3)基于排序學習算法的實體鏈接系統和其他系統在性能上相比效果如何？

4.1 實驗數據與評測指標

由于實體鏈接系統中的模塊依賴于排序算法，需要構建訓練數據訓練排序學習分類器。因此，我們利用了KBP 2009與KBP 2010中的英文實體鏈接數據作為的訓練和開發語料。其中，KBP 2009語料含有3 904個query，這些query中的實體指稱項包含有15%的人名實體指稱項(PER)，70%的機構名實體指稱項(ORG)，15%的組織名實體指稱項(GRE)。在這些query中，32.5%的實體指稱項在知識庫中含有相對應的實體，67.5%的實體指稱項的目標實體不在知識庫中。KBP 2010語料中含有2 250個query，三種不同類型的實體指稱項在該語料中各占33%。KBP2009的所有語料來自于新聞語料，KBP2010的語料有部分來自于網上的博客內容。我們用KBP 2009的數據作為分類器的訓練語料，KBP 2010的數據作為開發語料。測試數據選用KBP 2011的標準測試集。它含有2 250個query。

我們采用Micro-averaged accuracy作為系統的主要評測指標，即所有鏈接結果的平均準確率，計算公式如式(8)所示。

(8)

4.2 參數設置

為了使系統更加實用并且高效，SVM算法中核函數選擇為線性核函數。這樣，我們的系統僅有一個參數需要進行確認，即懲罰因子C。我們采用KBP2009數據作為訓練語料，在開發集KBP2010上進行了針對不同參數C的實驗性能的測試，選取全部特征，結果如圖6所示。

圖6 系統性能與懲罰因子參數C之間的關系

從圖6中可以看出，懲罰因子C對系統性能的影響不是很大。當C為30時，系統在開發集上的Micro指標為0.758；當C為120時，系統在開發集上的性能指標Micro為0.788；當參數C選為80時，系統在開發集上的性能指標Micro達到最優，達到了0.808。因此，我們將分類器中懲罰因子C的值設為80。

4.3 特征有效性分析

為了驗證提出的基于維基概念圖模型相似度算法的有效性，我們構建并實現了如下幾個系統，進行了特征有效性分析。

1) Dice：僅考慮實體指稱項與候選實體名稱之間的字符串DICE距離特征；

2) Dice+Prior probability：加入候選實體先驗概率特征；

3) Dice+Prior probability+Appear：加入指稱項是否在實體文本中出現和實體的名稱是否在指稱項所在文本中出現兩個01特征；

4) Dice+Prior probability +Appear +BOW：加入由詞袋子模型計算得到的指稱項文本與候選實體文本相似度特征；

5) Dice+Prior probability +Appear +BOW+Wikipedia semantic relatedness：加入由維基概念圖模型計算得到的指稱項文本與候選實體語義相似度特征；

6) Dice+Prior probability +Appear +BOW+Wikipedia semantic relatedness +NIL：加入空實體特征。

我們采用KBP2009數據作為訓練數據，在KBP2011數據集上進行了測試，具體結果如表3所示。

表3 不同的特征對系統性能的影響

通過表3中的結果我們發現，加入候選實體先驗概率與實體指稱項是否在候選文本中出現特征后，系統性能分別有1%和1.2%的提升，有一定的效果，但是作用不大。分析發現是由于這些特征僅僅考慮了實體指稱項與候選實體本身的一些特征，沒有考慮實體指稱項文本內容與候選實體文本內容，導致性能相對較低。在加入基于詞袋子模型的文本相似度特征后，系統性能有較大幅度的提升，達到了4.8%。這種性能的提升符合我們的預期，詞袋子模型捕捉到了指稱項文本內容與實體文本內容在詞這一個維度上的相似程度。在加入基于維基圖模型的語義相似度以后，系統性能進一步提升，幅度達到了3.8%，說明該特征可以更好的捕捉詞袋子模型以外的語義相關信息，更加準確的表示實體指稱項文本與候選實體之間的語義相似度。加入空實體特征以后，系統性能有了進一步提升。前面這些特征特征都沒有考慮到空實體的處理情況。在候選實體集中加入空實體以后，系統對空實體這一情況的處理能力得到了加強，系統的性能指標得到了提高。

我們還對比分析了兩種語義相似度計算方法對系統性能的影響程度。為此，構建了兩個系統：

1) Dice+Prior probability+Appear+BOW+ Wikipedia miner+Nil: 語義相似度特征的計算方法由Wikipedia miner提供，具體地，兩個維基概念x、y之間的語義相似度為式(9)。

(9)

其中X、Y分別是鏈接到這兩個條目的其他條目的集合，W指整個Wikipedia。這種相似度計算方法僅僅考慮了鏈接關系。

2) Dice+Prior probability+Appear+BOW+Wikipedia semantic relatedness+Nil: 語義相似度特征的計算方法由圖模型提供，即同時考慮鏈接關系與類別信息

我們采用KBP2009數據作為訓練數據，在KBP2011數據集上進行了測試，具體結果如表4所示。

表4 基于詞袋子模型相似度特征與基于維基概念圖模型相似度特征的對比

從表4的結果中可以看出，使用基于維基概念圖模型語義相似度特征的系統實際效果要優于僅僅使用鏈接關系相似度特征的系統。這表明相比于傳統的相似度計算方法，基于維基概念圖模型的語義相似度特征能夠更好地捕捉到實體指稱項文本與候選實體文本之間的語義相似度。

4.4 與State-of-Art系統性能的比較

除此之外，我們還與參加KBP2010評測的前五名系統的性能進行了比較。表5展示了比較的結果。我們的系統達到了state-of-art的水平。

表5 與state-of-art系統性能的比較

5 總結和展望

本文針對傳統文本相似度計算方法存在的不足，提出了一種基于維基圖模型的維基概念相似度計算方法。在此基礎上，設計了一個基于排序學習算法框架的實體鏈接系統。實驗結果表明，相比于傳統的計算方法，新的相似度計算方法可以更加有效地捕捉實體指稱項文本與候選實體間的語義相似度。同時，融入了多種特征的實體鏈接系統的性能獲得了state-of-art的效果。

下一步的工作主要包括： 1)實體鏈接系統對空實體的處理還不完善，僅僅是指出該實體指稱項所表示的實體在知識庫中不存在，我們還需要將這項工作進行細化，如將空實體進行聚類并且將聚類后的空實體加入到知識庫中；2)研究跨語言的實體鏈接系統，如將漢語實體指稱項鏈接到英文知識庫中。

[1] S Auer, C Bizer, G Kobilarov, et al. Dbpedia: A Nucleus for Web of Open Data [C]//Proceedings of ISWC, 2007:11-15.

[2] http://www.wikipedia.org/

[3] Marius Pasca. Outclassing Wikipedia in Open-domain Information Extraction: Weakly-supervised Acquisition of Attributes over Conceptual Hierarchies[C]//Proceedings of the 12th Conference of the European Chapter of the ACL, 2009: 639-647.

[4] Simone Palo Ponzetto, Michael Strube. Knowledge Derived from Wikipedia for Computing Semantic Relatedness[J]. Journal of Artificial Inteeligence Research, 2007: 181-212.

[5] Angela Fogarolli. Word Sense Disambiguation based on Wikipedia link structure [C]//Proceedings of International Conference on Semantic Computing, 2009: 77-82.

[6] P McNamee, H Simpson, H T Dang. Overview of the TAC 2009 Knowledge Base Population Track [C]//Proceedings of TAC, 2009.

[7] X Han, J Zhao. Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge [C]//Proceedings of CIKM, 2009: 215-224.

[8] E Gabrilovich, S Markovitch. Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis [C]//Proceedings of IJCAI, 2007: 1606-1611.

[9] David Milne, Ian H Witten. Learning to link with Wikipedia [C]//Proceedings of CIKM 2008.USA: ACM, 2008:509-518.

[10] Jian Hu, Gang Wang, Fred Lochovsky, Jian-Tao Sun, and Zheng Chen. Understanding User’s Query Intent with Wikipedia [C]//Proceedings of WWW, 2009: 471-480.

[11] Y Guo, W Che, T Liu, et al. A Graph-based Method for Entity Linking. [C]//Proceedings of IJCNLP, 2011: 1010-1018.

[12] T Joachims. Optimizing Search Engines Using Click through Data [C]//Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), ACM, 2002.

A Graph-based Similarity Measure between Wikipedia Concepts and Its Application in Entity Linking System

ZHANG Tao, LIU Kang, ZHAO Jun

(National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Science, Beijing 100190, China)

Entity linking is the task of map entity mentions in a document to their entities in a knowledge base (KB). In this paper, we briefly introduce the traditional entity linking system and point out the key problem of entity linking system-the semantic similarity measure between the content of entity mention and the document of the candidate entity. And then, we propose a novel semantic relatedness measure between Wikipedia concepts based on the graph structure of Wikipedia. With this similarity measure, we present a novel learning to rank framework which leverage the rich semantic information derived from Wikipedia to deal with the entity lining task. Experiment results show that the performance of the system is comparable to the state-of-art result.

entity linking; similarity measure between wikipedia concepts; learning to rank; random walk

張濤(1983—)，博士研究生，博士，主要研究領域為自然語言處理，實體識別與實體鏈接。E?mail：158451325@qq．com劉康(1981—)，副研究員，博士，主要研究領域為自然語言處理，信息抽取，問答系統。E?mail：kliu@nlpr．ia．ac．cn趙軍(1966—)，研究員，博士，主要研究領域為自然語言處理，信息抽取與知識工程，問答系統等。E?mail：jzhao@nlpr．ia．ac．cn

1003-0077(2015)02-0058-10

2013-03-19 定稿日期： 2013-11-25

TP391