DBpedia本體知識(shí)庫(kù)關(guān)鍵技術(shù)及應(yīng)用展望

2013-02-15 09:41:01邢美鳳

圖書(shū)館理論與實(shí)踐 2013年1期

●邢美鳳

(1．晉中學(xué)院圖書(shū)館，山西晉中 030600；2．中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館，北京 100190)

1 引言

維基百科是英特網(wǎng)上最大的開(kāi)放式電子百科全書(shū)，領(lǐng)域覆蓋廣泛，知識(shí)增長(zhǎng)和更新速度快，為構(gòu)建語(yǔ)義詞典或知識(shí)庫(kù)等應(yīng)用提供了豐富、可靠、低成本的內(nèi)容資源。

DBpedia[1]將維基百科中包含的內(nèi)容轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化的知識(shí)，并且在LOD原則指導(dǎo)下互聯(lián)，將網(wǎng)上其它數(shù)據(jù)集和維基百科的數(shù)據(jù)結(jié)合起來(lái)，使得這些信息以關(guān)聯(lián)數(shù)據(jù)的形式在Web上共享。DBpedia數(shù)據(jù)集包括來(lái)自80多種語(yǔ)言的數(shù)據(jù)、400多萬(wàn)指向其它LOD數(shù)據(jù)集的聯(lián)接和總共已超過(guò)20億的RDF三元組，是世界上十大關(guān)聯(lián)數(shù)據(jù)集核心之一。DBpedia一方面利用關(guān)聯(lián)技術(shù)與語(yǔ)義網(wǎng)中各種關(guān)聯(lián)數(shù)據(jù)進(jìn)行了互聯(lián)；另一方面，作為世界上最大的常識(shí)本體知識(shí)庫(kù)之一，為自然語(yǔ)言處理技術(shù)提供了豐富的知識(shí)來(lái)源。

本文通過(guò)分析DBpedia從維基百科中抽取結(jié)構(gòu)化知識(shí)的關(guān)鍵技術(shù)，包括DBpedia結(jié)構(gòu)化知識(shí)的抽取方法、內(nèi)容和特點(diǎn)，以及應(yīng)用與研究前景，以期在基于自然語(yǔ)言處理的知識(shí)抽取、基于上下文的語(yǔ)義消歧、命名實(shí)體識(shí)別、語(yǔ)義相關(guān)度計(jì)算、跨領(lǐng)域的知識(shí)發(fā)現(xiàn)等方面對(duì)DBpedia應(yīng)用于數(shù)字圖書(shū)館建設(shè)和自然語(yǔ)言處理的前景研究做一展望。

2 DBpedia結(jié)構(gòu)化知識(shí)的抽取方法

DBpedia根據(jù)維基百科每個(gè)頁(yè)面本身的編輯方式以及編輯特點(diǎn)，確定從維基百科中抽取結(jié)構(gòu)化知識(shí)的方法。每個(gè)維基百科頁(yè)面不僅包含一些自由文檔，還包含一些結(jié)構(gòu)化的信息，如標(biāo)題、摘要、infobox模板、相對(duì)應(yīng)的其它語(yǔ)種的頁(yè)面信息、圖片信息及地理位置信息等。

維基百科有固定的句法構(gòu)成，每個(gè)頁(yè)面利用MediaWiki編輯而成。MediaWiki利用特定的句法構(gòu)成將元數(shù)據(jù)的編輯、鏈接和標(biāo)注附加到文本正文中。所以通過(guò)分析MediaWiki，可以解析文本的句法結(jié)構(gòu)，以獲得結(jié)構(gòu)化的信息。當(dāng)前有兩種抽取DBpedia結(jié)構(gòu)化知識(shí)的方法：[2]

(1)利用存儲(chǔ)的關(guān)系數(shù)據(jù)表抽取。維基百科每個(gè)月都會(huì)定期轉(zhuǎn)存所發(fā)布的頁(yè)面，并將一些信息放入關(guān)系數(shù)據(jù)表中。數(shù)據(jù)表中的關(guān)系可以直接映射為RDF三元組，同時(shí)會(huì)根據(jù)每個(gè)月維基百科數(shù)據(jù)轉(zhuǎn)存的變化情況定期更新DBpedia知識(shí)庫(kù)。

(2)直接從維基頁(yè)面中抽取其它信息。維基百科提供的OAI-PMH在線(xiàn)更新反饋系統(tǒng)，會(huì)及時(shí)向DB-pedia項(xiàng)目報(bào)告維基百科所有頁(yè)面的變化情況。DBpedia在延遲1—2分鐘之后針對(duì)維基百科的實(shí)時(shí)修改信息，對(duì)相應(yīng)DBpedia頁(yè)面進(jìn)行映射更新。

直接從維基頁(yè)面中抽取信息可分為兩種基本的方法。一是一般的inforbox抽取方法，inforbox模板通常以屬性—值的形式位于維基頁(yè)面的右下側(cè)，是一個(gè)獨(dú)立的區(qū)域，是最重要的結(jié)構(gòu)化數(shù)據(jù)來(lái)源。MediaWiki針對(duì)這部分信息，利用模式匹配的方法予以識(shí)別，從而轉(zhuǎn)換為DBpedia資源頁(yè)面的信息。二是基于映射的inforbox抽取方法，主要用于克服同名問(wèn)題以及對(duì)同一類(lèi)實(shí)體的多個(gè)模板的問(wèn)題。其實(shí)現(xiàn)過(guò)程是將維基模板映射為一個(gè)手工創(chuàng)建的本體，同時(shí)手工整理350多個(gè)固定使用的模板，然后將2350多個(gè)維基屬性映射到720個(gè)DBpedia本體類(lèi)所對(duì)應(yīng)的屬性中。

3 DBpedia結(jié)構(gòu)化知識(shí)的抽取頁(yè)面內(nèi)容

DBpedia將維基百科中infobox模板類(lèi)型、圖片、地理等信息指向其它外部Web頁(yè)面的鏈接以及指向不同語(yǔ)言版本的維基鏈接等從維基百科中抽取出來(lái)，轉(zhuǎn)變?yōu)镈Bpedia頁(yè)面。DBpedia從維基中抽取出的頁(yè)面內(nèi)容有兩類(lèi)：

一類(lèi)是對(duì)維基百科頁(yè)面結(jié)構(gòu)化描述的實(shí)體頁(yè)面，實(shí)體頁(yè)面的 URI形式為 http://DBpedia.org/page/name，其中鏈接最后部分的“name”和相應(yīng)的維基百科中URI文章的“name”相同。

另一類(lèi)是對(duì)所抽取的結(jié)構(gòu)化頁(yè)面進(jìn)一步說(shuō)明的實(shí)體描述頁(yè)面。分為資源描述頁(yè)面和屬性描述頁(yè)面。實(shí)體描述頁(yè)面包含的標(biāo)簽對(duì)應(yīng)維基中的頁(yè)面標(biāo)題，同時(shí)和DBpedia抽取的結(jié)構(gòu)化描述頁(yè)面標(biāo)題一致。實(shí)體描述頁(yè)面中的摘要信息對(duì)應(yīng)維基頁(yè)面的描述信息。資源頁(yè)面的URI形式為http://DBpedia.org/resourse/name。其中鏈接最后部分的“name”和相應(yīng)的維基百科中URI文章的“name”相同。

每一個(gè)DBpedia資源描述頁(yè)面由通用屬性和Inforbox指定的屬性及相應(yīng)的屬性值構(gòu)成。屬性描述頁(yè)面中的屬性來(lái)源于DBpedia中使用到的本體類(lèi)。這些本體類(lèi)包括維基類(lèi)、YAGO類(lèi)、UMBEL類(lèi)和DBpedia自身定義的類(lèi)。有些類(lèi)的命名空間在DBpedia資源中重新定義。維基百科中的Inforbox指定的屬性頁(yè)面URI形式為http://DBpedia.org/property/namespace?；谟成涞膶傩皂?yè)面URI形式為http://DBpedia.org/ontology/namespace.。

4 DBpedia知識(shí)庫(kù)的內(nèi)容與特點(diǎn)

4.1 DBpedia知識(shí)庫(kù)的元素

DBpedia知識(shí)庫(kù)的構(gòu)建是語(yǔ)義網(wǎng)工程的一部分，它是一個(gè)大型的、跨領(lǐng)域的本體知識(shí)庫(kù)。DBpedia知識(shí)庫(kù)中包含專(zhuān)有的本體類(lèi)和本體實(shí)例。到目前為止，DBpedia知識(shí)庫(kù)包括了40多萬(wàn)有關(guān)人的信息，50多萬(wàn)有關(guān)地理的信息，10萬(wàn)多的唱片集信息，6萬(wàn)多的電影信息，1萬(wàn)多的視頻信息，16萬(wàn)的組織信息，18萬(wàn)物種信息和5000多種疾病的信息等。[1]DBpedia從維基百科中抽取的結(jié)構(gòu)化知識(shí)以三種頁(yè)面的形式存儲(chǔ)，分別是對(duì)維基抽取結(jié)構(gòu)化信息的描述頁(yè)面、DBpedia資源頁(yè)面和屬性描述頁(yè)面，總共有300多萬(wàn)的實(shí)體資源。同時(shí)，按照LOD的原則，DBpedia知識(shí)庫(kù)數(shù)據(jù)集以RDF的形式發(fā)布，成為互聯(lián)網(wǎng)上關(guān)聯(lián)數(shù)據(jù)的一個(gè)重要節(jié)點(diǎn)。

(1)DBpedia實(shí)體所屬類(lèi)別。DBpedia的實(shí)體為了實(shí)現(xiàn)不同的應(yīng)用要求，包括四類(lèi)模式：①維基類(lèi)，DBpedia中包括維基類(lèi)中的SKOS表示，這里有4萬(wàn)多個(gè)種類(lèi)；②YAGO類(lèi)，其中包含20多萬(wàn)個(gè)類(lèi)；③ UMBEL類(lèi)，是一個(gè)輕量級(jí)的本體，包含2萬(wàn)多個(gè)類(lèi)；④DBpedia本體類(lèi)，包含170個(gè)類(lèi)，其中包括940個(gè)屬性。

(2)DBpedia實(shí)體資源。如前所述，從維基中抽取的頁(yè)面以結(jié)構(gòu)化形式存儲(chǔ)。DBpedia使用英語(yǔ)名來(lái)創(chuàng)建每個(gè)資源的標(biāo)識(shí)符。每個(gè)資源創(chuàng)建相應(yīng)的URI，這個(gè)URI根據(jù)模板http://DBpedia.org/page/name創(chuàng)建。資源名和維基中相應(yīng)的URL文章的name相同。這樣做的好處是覆蓋主題廣泛、命名統(tǒng)一、便于管理、擴(kuò)展的維基定義便于查找。

(3)DBpedia實(shí)體描述資源。每一個(gè)DBpedia實(shí)體資源由一些屬性及相應(yīng)的屬性值來(lái)描述，這些屬性包括一般屬性和inforbox定義的屬性。這些屬性從維基頁(yè)面中抽取，并且在DBpedia資源中重新定義。DB-pedia的描述資源所使用的屬性幾乎包涵了百科全書(shū)的所有主題，以無(wú)歧義的形式定義。

(4)RDF三元組數(shù)據(jù)集。DBpedia結(jié)構(gòu)化了維基百科中的所有知識(shí)，并且在LOD原則指導(dǎo)下，與其它數(shù)據(jù)集的資源建立語(yǔ)義相關(guān)。這些內(nèi)容都以RDF三元組的形式發(fā)布。分為核心的DBpedia數(shù)據(jù)集和與外部資源鏈接的數(shù)據(jù)集。DBpedia的RDF三元組數(shù)據(jù)以文本文檔的形式提供。

4.2 DB pe d i a知識(shí)庫(kù)的特點(diǎn)

(1)跨領(lǐng)域的知識(shí)庫(kù)?，F(xiàn)在許多知識(shí)庫(kù)是面向特定領(lǐng)域的知識(shí)庫(kù)，由相關(guān)領(lǐng)域的知識(shí)工程師創(chuàng)建，當(dāng)領(lǐng)域有所改變時(shí)，原先的知識(shí)庫(kù)因不適應(yīng)新的環(huán)境而變得不能使用。而DBpedia知識(shí)庫(kù)覆蓋的領(lǐng)域有地理、人、公司、音樂(lè)、基因、藥物、書(shū)籍、科學(xué)出版物等，是一個(gè)跨領(lǐng)域的知識(shí)庫(kù)。

(2)多語(yǔ)種的知識(shí)庫(kù)。DBpedia知識(shí)庫(kù)涉及的語(yǔ)種包括了英語(yǔ)，德語(yǔ)，法語(yǔ)，西班牙語(yǔ)，意大利語(yǔ)，葡萄牙語(yǔ)，日語(yǔ)，漢語(yǔ)，俄語(yǔ)等30多種語(yǔ)言。

(3)富文檔的知識(shí)庫(kù)。維基上有大量的圖片信息，DBpedia描述了557,000個(gè)指向圖片、35,000個(gè)指向音樂(lè)集和12,000個(gè)電影的鏈接。

(4)網(wǎng)絡(luò)知識(shí)庫(kù)的中心節(jié)點(diǎn)之一。DBpedia定義了全球唯一的標(biāo)識(shí)符，這些標(biāo)識(shí)符可以通過(guò)Linked Data原則解析。利用RDF三元組建立起的從各種數(shù)據(jù)源到DBpedia的聯(lián)系，使得DBpedia成為在互聯(lián)網(wǎng)上可利用數(shù)據(jù)的中心結(jié)點(diǎn)之一。

5 DBpedia的獲取方式

DBpedia知識(shí)庫(kù)的應(yīng)用要遵循GNU自由文檔協(xié)議，具體的使用方法包括四種存取機(jī)制。[3,4]

5.1 利用L inke d Data獲取DBP e d i a數(shù)據(jù)

Linked Data[5]是一種利用RDF數(shù)據(jù)模式在網(wǎng)上發(fā)布結(jié)構(gòu)化數(shù)據(jù)的一種方法。RDF三元組的每一個(gè)部分都將HTTP URIs作為資源標(biāo)識(shí)符，將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)互聯(lián)。用戶(hù)利用HTTP協(xié)議可以獲取相應(yīng)資源。 DBpedia知識(shí)庫(kù)以RDF數(shù)據(jù)形式，按照Linked Data原則描述和在網(wǎng)上發(fā)布資源。這樣，DBpedia和各種開(kāi)放數(shù)據(jù)就可以形成互聯(lián)，發(fā)布的數(shù)據(jù)也可以利用瀏覽器或網(wǎng)頁(yè)爬行技術(shù)獲得。

5.2 通過(guò)SPARQL查詢(xún)獲取DBPedia數(shù)據(jù)

SPARQL[6]由W3C開(kāi)發(fā)，是針對(duì) RDF數(shù)據(jù)模型定義的標(biāo)準(zhǔn)查詢(xún)語(yǔ)言和數(shù)據(jù)獲取協(xié)議，允許應(yīng)用程序?qū)Ψ植际絉DF數(shù)據(jù)庫(kù)進(jìn)行復(fù)雜的查詢(xún)，提供一套標(biāo)準(zhǔn)的查詢(xún)RDF、處理查詢(xún)過(guò)程以及返回查詢(xún)結(jié)果的格式。DBpedia提供了SPARQL查詢(xún)端點(diǎn)，可以通過(guò)網(wǎng)上在線(xiàn)查詢(xún)的方式獲取DBpedia知識(shí)庫(kù)的內(nèi)容。當(dāng)DBpedia客戶(hù)端向DBpedia所提供的SPARQL查詢(xún)端點(diǎn)發(fā)送符合SPARQL查詢(xún)標(biāo)準(zhǔn)的查詢(xún)語(yǔ)句后，SPARQL端點(diǎn)接收客戶(hù)端的查詢(xún)請(qǐng)求，檢索相應(yīng)的DBpedia知識(shí)庫(kù)，并將結(jié)果返回給用戶(hù)。

5.3 從DB pe d i a官網(wǎng)上獲取DB pe d i a的RDF數(shù)據(jù)集

除了可以通過(guò)SPARQL端點(diǎn)獲取外，也可以在DBpedia網(wǎng)站中分類(lèi)下載DBpedia知識(shí)庫(kù)內(nèi)容。DBpedia按照語(yǔ)種類(lèi)型、從維基百科中抽取的內(nèi)容類(lèi)型以及外部數(shù)據(jù)的類(lèi)型，將知識(shí)庫(kù)分成多個(gè)數(shù)據(jù)集文件，提供專(zhuān)門(mén)的下載頁(yè)面。下載頁(yè)面均以文本文檔的形式提供。

5.4 基于lucene索引查詢(xún)獲取DBpedia數(shù)據(jù)

Lucene[7]是一套用于全文檢索的開(kāi)源項(xiàng)目，由Apache軟件基金會(huì)支持和提供。Lucene提供了一個(gè)簡(jiǎn)單強(qiáng)大的應(yīng)用程序接口，能夠全文索引和搜索。對(duì)于給定的查詢(xún)術(shù)語(yǔ)，為了發(fā)現(xiàn)更多的可能匹配，DBpedia基于Lucene索引，提供一種重量級(jí)的查找方法?；趌ucene索引的DBpedia查詢(xún)服務(wù)器的網(wǎng)址為：http://lookup.dbpedi.org/api/search.asmx。利用這種查詢(xún)索引方式，可以更容易地通過(guò)給定的標(biāo)簽找到相應(yīng)的DB-pedia資源。

6 DBpedia應(yīng)用展望

6.1 在互聯(lián)網(wǎng)中的應(yīng)用

(1)Web數(shù)據(jù)瀏覽和爬行。DBpedia知識(shí)庫(kù)互聯(lián)了各種其它數(shù)據(jù)源，如OpenCyc、WordNet、Freebase、UMBEL等，生成了本體云，進(jìn)一步擴(kuò)充了DBpedia實(shí)體的信息。這個(gè)機(jī)制也使得DBpedia成為網(wǎng)絡(luò)數(shù)據(jù)融合的中心結(jié)點(diǎn)之一。通過(guò)這些URL，可以從一個(gè)數(shù)據(jù)源鏈接到其它數(shù)據(jù)源，進(jìn)一步查詢(xún)相關(guān)的、更全面的信息。如在數(shù)字圖書(shū)館的應(yīng)用中，一些圖書(shū)館己經(jīng)在聯(lián)合目錄和DBpedia之間創(chuàng)建了規(guī)范記錄的鏈接，如瑞典國(guó)家圖書(shū)館、德國(guó)國(guó)家圖書(shū)館、美國(guó)國(guó)會(huì)圖書(shū)館等，這樣可以為圖書(shū)館用戶(hù)提供更為詳盡的檢索信息，可以通過(guò)DBpedia進(jìn)一步找到更多相關(guān)主題的圖書(shū)或作者信息。

(2)Web數(shù)據(jù)融合。[8]DBpedia可以將不同來(lái)源、異構(gòu)的數(shù)據(jù)通過(guò)LOD原則融合成統(tǒng)一的數(shù)據(jù)，將不同來(lái)源的術(shù)語(yǔ)映射成統(tǒng)一的術(shù)語(yǔ)集；按照匹配方式和轉(zhuǎn)換規(guī)則，將多種來(lái)源的詞表和本體中的詞匯對(duì)應(yīng)、融合，生成集中視圖，以統(tǒng)一的形式展示。

(3)DBpedia應(yīng)用于第三方的產(chǎn)品中。DBpedia數(shù)據(jù)可以導(dǎo)入第三方的產(chǎn)品中，利用DBpedia應(yīng)用接口在線(xiàn)訪問(wèn)相關(guān)數(shù)據(jù)。如DBpedia Mobile[9]是一款用在移動(dòng)設(shè)備如iphone中的第三方應(yīng)用，基于移動(dòng)設(shè)備上的GPS定位裝置，通過(guò)Linked Data瀏覽器，提供地圖化的界面；同時(shí)利用DBpedia中相關(guān)聯(lián)的位置信息和其它LOD數(shù)據(jù)集，自動(dòng)發(fā)現(xiàn)與當(dāng)前位置有關(guān)的許多地理信息資源，如從某一圖書(shū)作者的出生地，可能很容易地找到這個(gè)作者的工作地點(diǎn)等。

6.2 應(yīng)用于自然語(yǔ)言處理

(1)語(yǔ)料庫(kù)及概念詞典的構(gòu)建。傳統(tǒng)的語(yǔ)料需要人工從報(bào)紙、雜志、互聯(lián)網(wǎng)中獲取，往往與領(lǐng)域相關(guān)，是單一語(yǔ)種，并且這個(gè)收集過(guò)程需要耗費(fèi)很大的人力物力。維基百科作為一個(gè)跨領(lǐng)域、多語(yǔ)種的電子百科全書(shū)，包含了數(shù)百萬(wàn)的文檔語(yǔ)料。[10]DBpedia從維基百科中抽取的結(jié)構(gòu)化數(shù)據(jù)為抽取語(yǔ)義知識(shí)、構(gòu)建概念詞典和語(yǔ)料庫(kù)提供了豐富的內(nèi)容資源，可以為許多自然語(yǔ)言處理技術(shù)以及多個(gè)語(yǔ)種提供跨領(lǐng)域的語(yǔ)料和概念支持。[11]

(2)命名實(shí)體識(shí)別。維基百科是最大的、可用的、多語(yǔ)種、跨領(lǐng)域的命名實(shí)體資源，包含大量有關(guān)人名、地理、組織機(jī)構(gòu)等信息。DBpedia從維基百科中抽取結(jié)構(gòu)化的信息，能更有效地應(yīng)用于命名實(shí)體的識(shí)別。目前DBpedia研究小組發(fā)布的Spotlight[12]是專(zhuān)用來(lái)進(jìn)行命名實(shí)體識(shí)別的工具，可以將無(wú)結(jié)構(gòu)化的自由文本與互聯(lián)網(wǎng)中的關(guān)聯(lián)數(shù)據(jù)建立聯(lián)系，實(shí)現(xiàn)命名實(shí)體的識(shí)別。

(3)語(yǔ)義相關(guān)度計(jì)算。DBpedia本體知識(shí)庫(kù)提供了豐富的概念間的關(guān)聯(lián)關(guān)系。利用DBpedia提供的關(guān)聯(lián)信息或公共屬性信息來(lái)構(gòu)建相關(guān)應(yīng)用的概念網(wǎng)絡(luò)，將兩個(gè)需要進(jìn)行對(duì)比計(jì)算的概念映射到己知的關(guān)系類(lèi)型中，實(shí)現(xiàn)概念之間的語(yǔ)義相關(guān)度計(jì)算。[13]利用DB-pedia對(duì)維基百科結(jié)構(gòu)化的語(yǔ)義標(biāo)注，通過(guò)計(jì)算相關(guān)性，可以發(fā)現(xiàn)不同實(shí)體間的語(yǔ)義相關(guān)性。

(4)實(shí)現(xiàn)語(yǔ)義消歧。利用一個(gè)術(shù)語(yǔ)在DBpedia中的多個(gè)義項(xiàng)的超鏈信息，對(duì)具有多個(gè)義項(xiàng)的術(shù)語(yǔ)進(jìn)行區(qū)分和描述，構(gòu)建用于語(yǔ)義消歧的語(yǔ)料庫(kù)，然后利用消歧算法實(shí)現(xiàn)語(yǔ)義消歧。Anastasia[14]利用存在于DBpedia中的語(yǔ)義信息實(shí)現(xiàn)了標(biāo)簽消歧。

[1] DBpedia [EB/OL]. [2011 －05 －01]．http://wiki.DBpedia.org/About.

[2] So ··ren Auer，Jens Lehmann. What have Innsbruck andLeipzig in Common? Extracting Semantics from WikiContent [EB/OL]. [2010 －12 －01]． http://www.informatik.uni-leipzig.de/~auer/publication/ExtractingSemantics.pdf.

[3] ChristianBizer，et al．DBpedia—ACrystallizationPointfor theWeb of Data[EB/OL]. [2010－12－01].http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Bizer-etal-DBpedia-CrystallizationPoint-JWS-Preprint.pdf.

[4] Soren Auer，etal．DBpedia:A Nucleus for aWeb of OpenData[EB/OL].[2010－12－01]．http://www.informatik.uni-leipzig.de/~auer/publication/dbpedia.pdf.

[5] LinkedData[EB/OL].[2011－05－01]．http://www.w3.org/DesignIssues/LinkedData.html.

[6] SPARQL[EB/OL].[2011－05-01]．http://www.w3.org/TR/rdf-sparql-query/.

[7] LUCENE[EB/OL].[2011－05－01]．http://lucene.apache.org/.

[8] 潘有能，張悅．關(guān)聯(lián)數(shù)據(jù)研究及應(yīng)用進(jìn)展[J]．情報(bào)科學(xué)，2011(1)：124－130.

[9] Becher C，Bizer C．DBpedia Mobile a Location Enabled Linked DataBrowser[C]//ProceedingsofLDOW 2008,BeijingChina2008.

[10] 李赟．基于中文維基百科的語(yǔ)義知識(shí)挖掘相關(guān)研究[D]．北京：北京郵電大學(xué)，2009.

[11] Gerhard Weikum，Martin Theobald．From Information to Knowledge：Harvesting Entities and Relationships from Web Sources[EB/OL].[2011-11-01]．http://www.mpi-inf.mpg.de/~weikum/pods2010-weikum&the obald.pdf.

[12] Spotlight[EB/OL].[2011-11-01]．http://dbpedia.org/spotlight.

[13] Wohlgenannt， et al．Integrating Structural Data intoMethods for Labeling Relations in Domain Ontologies[C]//20th InternationalWorkshop on Database and ExpertSystems Application．Linz，Austria，2009：94－98.

[14] Anastasia Stampouli，et al．Tag Disambiguation throughFlickr and Wikipedia [C]//DASFAA'10 Proceedingsof the 15th international conference on Database systemsforadvancedapplications．Berlin：Heidelberg，2010.