用于知識庫擴(kuò)充的在線百科表格知識獲取與融合

2019-11-16 07:28:46宋曉兆鄭新李直旭許佳捷

軟件工程 2019年10期

宋曉兆鄭新李直旭許佳捷

摘 ?要：互聯(lián)網(wǎng)中的HTML表格蘊(yùn)含著豐富的結(jié)構(gòu)化或半結(jié)構(gòu)化知識，是知識庫構(gòu)建與擴(kuò)充的重要數(shù)據(jù)資源。然而如何對HTML表格進(jìn)行正確解析并獲得三元組知識用于擴(kuò)充知識庫，則是一個很有挑戰(zhàn)的問題。首先，HTML表格的結(jié)構(gòu)各有不同。其次，表格與知識庫中的實體和屬性的表示不同，需要統(tǒng)一，即實體鏈接與屬性對齊。本文首先提出了一個基于知識庫的在線百科表格解析與知識融合框架，該框架可針對不同類別的表格進(jìn)行知識抽取;并提出了基于知識庫的表格實體鏈接和屬性對齊方法，用以將表格中的知識與知識庫進(jìn)行匹配與融合。實驗使用了126萬在線百科表格數(shù)據(jù)為CN-DBpedia擴(kuò)充約1000萬三元組。

關(guān)鍵詞：HTML表格;知識抽取;知識融合

中圖分類號：TP391 ? ? 文獻(xiàn)標(biāo)識碼：A

Abstract：HTML tables in WWW have been flooded with （semi-）structured knowledge，which is an important source for knowledge base augmentation.However，it is a challenging problem to parse and extract triples in a correct way for knowledge base augmentation.Firstly，HTML tables have different types.Secondly，the descriptions of entities and attributes in different tables may be inconsistent with knowledge base，which needs to be matched and fused，i.e.，entity linking and property alignment.This paper first designs a table parse and knowledge fusion framework for the knowledge base，which is able to parse and extract knowledge in different types of tables.Additionally，an entity linking and property alignment method is proposed based on the knowledge base，to match and fuse the RDF triples with knowledge base.1.26 million tables in online encyclopedias are used in the experiment to augment 10 million triples for CN-DBpedia.

Keywords：HTML table;knowledge extraction;knowledge fusion

1 ? 引言（Introduction）

迄今為止，所有基于在線百科構(gòu)建的通用知識圖譜[1-4]并未提出一種完全自動化的方法從在線百科的表格中挖掘知識，擴(kuò)充知識庫?，F(xiàn)有的工作，如CN-DBpedia[4]，加入了端到端的深度學(xué)習(xí)模型從百科文本中挖掘知識，但是它并未挖掘百科表格知識。還有很多工作[5-9]致力于從整個互聯(lián)網(wǎng)的表格中挖掘知識進(jìn)行知識庫的擴(kuò)充，但是，他們僅僅使用單一類型的表格數(shù)據(jù)集[10，11]。比如這兩個數(shù)據(jù)集ACSDb[10]和WDC Web Tables corpus[11]分別是英文和跨語言數(shù)據(jù)集，它們只含有關(guān)系表。關(guān)系表包含了多個實體（以行為單位），一個實體有多個屬性（以列為單位）?，F(xiàn)有的表格數(shù)據(jù)集在類型不上并不完備，并且其中蘊(yùn)含的知識可信度低。對此，我們研究了如何充分地使用在線百科表格擴(kuò)充知識庫。

2 ? 問題分析（Framework overview）

使用百科表格擴(kuò)充知識庫面臨的第一個挑戰(zhàn)是表格類型的多樣性問題?，F(xiàn)有的工作[12]將互聯(lián)網(wǎng)表格分成了10種類型，包括八種類型的知識表和兩種類型的非知識表。而我們發(fā)現(xiàn)百科表格主要含有一種類型的非知識表和三種類型的知識表。其中，知識表如圖1—圖3所示，分為關(guān)系表、鍵值對表和枚舉列表。目前最有效的表格分類方法[12，13]，選取表格特征信息和樣本集來訓(xùn)練分類（識別）器。雖然它們能夠精準(zhǔn)地區(qū)別知識表和用于布局或?qū)Ш降姆侵R表，但是在區(qū)分知識表的具體類型時，表現(xiàn)并不理想。為了精準(zhǔn)地識別知識表的具體類型，需要構(gòu)造相應(yīng)表格的特征。我們發(fā)現(xiàn)百科表格中的屬性與infobox的屬性相似，屬性集合與由知識庫中屬性構(gòu)成的模式庫有交集。因此，可以利用這個性質(zhì)構(gòu)造模式特征。與此同時，我們利用表格屬性擴(kuò)充模式庫，更新特征值，這是一個迭代的過程。進(jìn)而，我們提出了一種迭代擴(kuò)充模式庫、在線更新特征的表格識別器訓(xùn)練算法。

使用百科表格擴(kuò)充知識庫面臨的第二個挑戰(zhàn)是如何將表格中抽取的知識與知識庫中的知識融合的挑戰(zhàn)。從鍵值對表中抽取知識時，每個三元組（即<s，p，o>）的主語（s）即所在百科頁面的標(biāo)題，通常一對一映射到知識庫實體名稱，不需要實體鏈接。謂語（p）和賓語（o），對應(yīng)表中每一行的鍵值對。比如圖2中抽取的三元組<華為Mate 20，運(yùn)行內(nèi)存，6GB>。對于枚舉列表，百科頁面的標(biāo)題作為主語，同樣不需要實體鏈接。然而，關(guān)系表則需要進(jìn)行實體鏈接和屬性對齊?，F(xiàn)有的將關(guān)系表與知識庫匹配的算法框架TableToKnowledge，簡稱T2K[11]，采用迭代的方式進(jìn)行實體鏈接與屬性對齊。然而，它有兩個不足：第一，T2K算法框架中并未考慮將表格內(nèi)容整合[14，15]，它僅僅將單獨的關(guān)系表與知識庫進(jìn)行匹配。然而，由于單一的表格實體數(shù)量少，屬性稀疏，并且屬性值常有缺失，這些表格不能直接與知識庫匹配。于是，我們在T2K框架的基礎(chǔ)上加入了整合表格內(nèi)容的過程，提出了一個基于概念（本體）樹的表格聚類算法。第二，T2K算法框架未采用有效方法生成實體鏈接候選集。它選擇每個實體的候選實體集所屬頻率最高的概念，過濾不屬于這些概念的候選實體。由此帶來的后果是，長尾概念下的實體不能有效地進(jìn)行實體鏈接，而這些實體對應(yīng)的三元組往往是知識庫所需要擴(kuò)充的知識。于是，我們提出了基于“公共上位概念”的實體鏈接候選集生成方法。利用“公共上位概念”，我們不僅能夠過濾無關(guān)概念下的實體，還能不遺漏長尾概念下的實體。

此外，本文針對在線百科表格數(shù)據(jù)集提出了一個知識融合策略?，F(xiàn)有的互聯(lián)網(wǎng)表格數(shù)據(jù)集體量大，熱點知識出現(xiàn)次數(shù)多并形成偏態(tài)分布，通常以知識的交疊數(shù)量為特征訓(xùn)練知識融合模型。因此，同一條知識被抽取的次數(shù)越多，它的可信度越高。而百科表格中的知識分布均勻，有交疊的知識數(shù)量少，不能將交疊數(shù)作為特征。于是，我們提出了一種基于表格識別和實體鏈接準(zhǔn)確率的融合策略。

綜上，本文的主要貢獻(xiàn)有：

我們提出了一種面向知識庫擴(kuò)充的在線百科表格知識獲取與融合框架，可以一站式處理各類百科表格，抽取相關(guān)知識并融入知識庫中。

為了對各種類型的表格進(jìn)行對應(yīng)的解析與處理，我們提出了一種表格識別算法。該算法可基于特征在線更新的表格識別器進(jìn)行訓(xùn)練。

我們在T2K[11]算法框架的基礎(chǔ)上增加了表格內(nèi)容整合的過程，并利用“公共上位概念”生成實體鏈接候選集。

在本文的實驗中，我們首先整合了百度百科和互動百科中126萬個HTML表格，并將這些表格最終融入CN-DBpedia知識庫中，實驗表明本文的方法能夠擴(kuò)充約1000萬三元組知識。

3 ? 框架概述（Key techniques analysis）

如圖4所式，我們提出了一種用于知識庫擴(kuò)充的在線百科表格知識獲取與融合框架，主要分為：

（1）網(wǎng)絡(luò)爬蟲：爬取不提供轉(zhuǎn)儲文件的在線百科，獲取每個百科實體頁面中的表格。由于百科表格的格式規(guī)范，以

標(biāo)記的表格對象為主，因而百科表格數(shù)據(jù)集未考慮非

標(biāo)記的表格對象。

（2）非知識表過濾：以

標(biāo)記的表格對象分為帶有知識的表格，和用于頁面布局或?qū)Ш降姆侵R表格，互聯(lián)網(wǎng)中88%的HTML表不含有知識。借鑒互聯(lián)網(wǎng)表格分類工作中的方法[12，13]，我們使用梯度提升樹模型GBDT，作為非知識表過濾器。

（3）表格解析：將HTML格式的表格解析為csv格式，在內(nèi)存中以二維數(shù)組的形式表示。同時在另外的數(shù)組中存儲了單元格中的屬性，如span和href。我們把帶span屬性，跨行跨列的單元格拆分。對于帶href屬性的單元格，我們使用其所指頁面的標(biāo)題作為鏈接實體。

（4）知識表類型識別：關(guān)系表和鍵值對的識別，采用了我們提出的基于模式特征在線更新的識別器訓(xùn)練算法，在識別的過程中，在線更新特征值，重新訓(xùn)練識別器。枚舉列表的識別采取基于概念（分類）樹輔助的啟發(fā)式方法。

（5）關(guān)系表與知識庫匹配：我們使用T2K[11]算法對關(guān)系表進(jìn)行實體鏈接和屬性對齊。此外，加入了我們提出的表格聚類算法，以及使用我們提出的“公共上位概念”進(jìn)行候選集生成。

（6）三元組抽?。焊鶕?jù)表1給出的三種表格的定義，按照相應(yīng)的規(guī)則抽取知識。對于鍵值對表，所在百科頁面的標(biāo)題就是每個三元組的主語，表中每一行的鍵值對就是三元組的謂語和賓語。對于關(guān)系表，表格實體以行為單位，所鏈接的實體是每個三元組的主語，除主鍵所在列外每一列對齊到的屬性是謂語，屬性值是賓語。對于枚舉列表，百科頁面的標(biāo)題就是每個三元組的主體，而表格中的每個實體名稱則是每個關(guān)系三元組的賓語（尾實體），尾實體鏈接采用與關(guān)系表實體鏈接相同的方法。謂語通過每個實體對在知識庫中存在謂語的數(shù)量投票決定。

（7）融合模型：采用我們提出的針對百科表格數(shù)據(jù)集的融合策略。

4 ? 關(guān)鍵技術(shù)分析（Key technical analysis）

在這一節(jié)，我們介紹了框架中三個關(guān)鍵技術(shù)的細(xì)節(jié)，它們是（1）知識表類型識別;（2）關(guān)系表與知識庫匹配;（3）融合模型。

4.1 ? 知識表類型識別

這一節(jié)中我們提出了識別三種表格類型的方法。表格中有兩種類型的信息，屬性信息和屬性值信息。如果已知一些表格屬性，那么我們可以利用它來識別表格的結(jié)構(gòu)，從而能夠幫助我們把屬性對應(yīng)到正確的屬性值單元。由于表格是半結(jié)構(gòu)化的數(shù)據(jù)，它的屬性通常連續(xù)地出現(xiàn)在一整行或一整列。定位表格的屬性會幫助我們識別表格正確的結(jié)構(gòu)。對于鍵值對表和關(guān)系表，我們發(fā)現(xiàn)，表格屬性與知識庫中的屬性有相同處，并且表格屬性集合與由知識庫屬性構(gòu)成的模式庫存在交集。對此，我們將表格屬性屬于模式庫的比例和個數(shù)作為模式得分特征，為鍵值對表和關(guān)系表分別訓(xùn)練了一個單層決策樹，作為初始的表格識別器。在使用表格識別器識別表格后，將會含有一些不屬于模式庫的屬性出現(xiàn)在表格中，但這些屬性可能是其他表格的屬性。于是，我們使用這些屬性擴(kuò)充模式庫。模式庫擴(kuò)充后，訓(xùn)練集中表格的模式得分特征可能發(fā)生變化，需要更新，進(jìn)而分類器模型又需要重新訓(xùn)練。如此往復(fù)，這是一個迭代的過程。如算法1所示，我們提出了基于特征在線更新的表格識別器訓(xùn)練算法。

算法1基于模式特征在線更新的識別器訓(xùn)練

輸入：模式庫predictkg，知識表模式集合Predicttable，單層決策樹DStump

輸出：單層決策樹DStump，擴(kuò)充后的模式庫predictkg

1.next_iteration=False

2.for predicttable in Predicttable? do

3. ?computer Scoretable

4. ?if DStump（Scoretable） is True then

5. ? ?if ?then

7. ? ?next_iteration=True

8. ? end if

9. end if

10.end for

11.if next_iteration is True then

12. ?update training set with new Scoretable and ?resume the training

13. ?if DStump performs better in testing set then

14. ? ?repeat 1 to 10

15 ? ?end if

16.else return DStump and predictkg

17.end if

在算法1的輸入中，模式庫初始化為知識庫中屬性的集合;每個知識表的模式按行或按列獲得（以屬性表為例，它的模式由第一列中的每個屬性構(gòu)成）;識別器采用單層決策樹模型，使用初始的得分特征進(jìn)行訓(xùn)練。算法1的第3行計算了表格的兩個模式得分，一個是屬性屬于模式庫的比例，即，另一個是屬性屬于模式庫的個數(shù)。算法的第2行到第10行，計算每個未識別知識表的模式得分，如果有新的表被識別，則擴(kuò)充模式庫。每經(jīng)過一輪迭代，都會重新訓(xùn)練一次識別器，原來的假負(fù)例在模式得分提高后會被識別為真正例，識別器的召回率會得到提升。當(dāng)經(jīng)過若干輪迭代后，模式庫屬性數(shù)量不再增加或識別器F1值不再提高時，我們將識別器和模式庫返回。另外，可以在使用算法1完成弱學(xué)習(xí)器的訓(xùn)練后引入剩下的表格特征（如布局特征和內(nèi)容特征），通過boosting的方式訓(xùn)練一個更強(qiáng)的識別器。考慮到需要多次重復(fù)訓(xùn)練，于是我們選擇單層決策樹這樣一個弱學(xué)習(xí)器作為識別模型，并且不引入其他特征。

在剩下未識別的知識表中，我們使用強(qiáng)規(guī)則識別枚舉列表。我們把表格中每個單元格的內(nèi)容假設(shè)為實體名稱，通過知識庫查找該實體名稱對應(yīng)的實體（實體和實體別稱滿足多對多的關(guān)系），若每個實體別稱都能映射到至少一個實體，則啟發(fā)性地認(rèn)為該表格為枚舉列表。

4.2 ? 關(guān)系表與知識庫匹配

這一節(jié)，在T2K算法框架[11]中加入我們提出的基于概念（本體）樹的表格聚類和基于公共上位概念的候選集生成方法。

4.2.1 ? T2K匹配框架

T2K算法框架將每個關(guān)系表視為一個小型關(guān)系型數(shù)據(jù)庫，將關(guān)系表中的實體、屬性和概念與知識庫匹配。圖5描述了T2K算法框架的主要步驟。它首先從知識庫中獲得候選實體，通過基于屬性值的匹配得到候選實體的實體鏈接得分。然后以列為單位，選擇屬性值相似度的和最高的屬性作為屬性相似度，并計算這個屬性對應(yīng)的每個概念的得分，用得分最高的概念過濾候選實體。在過濾掉一些實體后，屬性相似度發(fā)生了變化，需要重新選擇，這是一個迭代的過程。T2K算法的先進(jìn)之處在于，不同于傳統(tǒng)數(shù)據(jù)庫模式匹配，它在匹配過程中加入了概念（本體）的匹配，而概念（本體）是實體和屬性的迭代匹配的橋梁。

4.2.2 ? 基于概念的表格聚類

根據(jù)HTML表格與知識庫匹配的經(jīng)驗，表格中實體數(shù)量越大，它們與知識庫匹配的效果越理想。于是，在T2K框架的基礎(chǔ)上將關(guān)系表內(nèi)容整合。表格內(nèi)容整合分為表格聚類和表格合并兩個部分，前者采取了我們提出的算法2的方式，后者則是利用表格聚類的結(jié)果，將同類表格中相似屬性合并到同一表格。這一節(jié)重點介紹了我們提出的基于概念的表格聚類算法。

此聚類算法以表格實體所屬概念為特征，首先將每個表格表示為一個向量，其中j是知識庫中概念的數(shù)量。每一個維度對應(yīng)的計算公式為：，其中，Ti.E表示表格Ti的實體名集合，I（Cj）表示知識圖譜中概念Cj的實體名集合。接著，我們計算表格向量間的余弦相似度，然后采用如算法2所示的方法將表格聚類。

算法2基于概念（本體）樹的表格聚類

輸入：表格集合Table，相似度閾值threshold

輸出：聚類簇C

1.Initialize clusters C=

2.for table in Table do

3. ?get vector Ti for table

4. ?initialize flag f=False

5. ?for cluster c in C do

6. ? ?get vector Tc of the first table in c

7. ? ?if ?then

8. ? ? ?add table to c

9. ? ? ?f=True

10. ? ? break

11. ? end if

12. ?end for

13. ?if f=False then

14. ? ?initialize new cluster c={table}

15. ? ?add c to C

16. ?end if

17.end for

18.return C

可見，算法2是一種簡單且有效的聚類算法，它的時間復(fù)雜度為O（m×n），其中n是表格的總數(shù)，m是聚類簇的數(shù)目，它遠(yuǎn)小于n。

4.2.3 ? 基于公共上位概念的候選集生成

T2K[11]算法在候選集生成中，首先通過計算表格實體名與知識庫實體名的相似度為每個實體生成top k個候選實體;然后為每個實體選擇所屬頻率最高的概念，過濾不屬于這些概念的初始候選實體。根據(jù)百科表格數(shù)據(jù)知識分布的特點，系統(tǒng)偏向于擴(kuò)充長尾概念下的知識，使用高頻概念不能有效地過濾初始候選實體。于是，我們提出了使用“公共上位概念”過濾初始候選實體的方法。

定義4（公共上位概念Cp）在概念樹T中，如存在一個概念，其子概念構(gòu)成的集合Cp.children與由每個候選實體集合Ei對應(yīng)的概念集合Ci構(gòu)成的集合Ciset都存在交集，我們把這個概念稱為公共上位概念Cp，形式化為下列公式：

以圖6為例，表格中存在中國、法國、日本三個實體名稱，它們的候選實體集Ei分別為：{中華人民共和國}{法國（法蘭西共和國），法國（APA publications主編圖書）}和{日本（日本國），日本（山名）}，對應(yīng)的概念集合Ci分別為分別為{東亞國家}{其他山脈，東亞國家}和{西歐國家，歷史書籍}，則“國家”是這三個實體的公共上位概念Cp。而地形概念下的實體數(shù)量更多，它更可能成為高頻概念。技術(shù)上，我們采用回溯算法遍歷概念樹得到Cp，過濾掉不屬于Cp的候選實體。

4.3 ? 融合模型

由于互聯(lián)網(wǎng)資源可信度較低，以往的工作在融合策略上采用了基于知識庫[21]或者網(wǎng)頁排名的先驗信任機(jī)制。而百科表格中的知識按領(lǐng)域分布均勻，屬于長尾的較多，如果直接使用先驗信任機(jī)制，那么這些長尾知識（知識庫中的孤立節(jié)點）都不能被融合?？紤]到百科資源具有很高的可信度，我們不需要采用先驗信任機(jī)制，而應(yīng)該以抽取器的準(zhǔn)確率為指標(biāo)，即識別器得分和實體鏈接相似度得分。我們將表格識別概率和實體鏈接相似度得分作為特征，為每種類型的表格分別訓(xùn)練一個邏輯回歸模型。模型學(xué)習(xí)了兩個特征的權(quán)重，以此得到知識的可信度。由于枚舉列表和鍵值對表不需額外進(jìn)行實體鏈接，他們的實體鏈接相似度得分均取1。

5 ? 實驗（Experiment）

本文提出的方法已用于國內(nèi)某個中文百科知識庫的構(gòu)建和擴(kuò)充，采用的表格數(shù)據(jù)集來自百度百科和互動百科。由于百度百科與互動百科不提供轉(zhuǎn)儲文件，本文通過網(wǎng)絡(luò)爬蟲獲得所有帶

標(biāo)簽的HTML表格及對應(yīng)頁面信息。其中，互動百科的infobox信息同樣采用

標(biāo)簽標(biāo)記。在剔除互動百科340萬個實體的infobox并過濾了15萬個非知識表后，我們得到126萬個中文百科知識表。同時，為了在公開數(shù)據(jù)集中驗證實驗有效性，本文使用中文百科格數(shù)據(jù)集擴(kuò)充CN-DBpedia[4]，并且將實驗結(jié)果與Ritze[11]的方法進(jìn)行比較。

5.1 ? 表格識別結(jié)果評估

非知識表過濾器模型20折交叉驗證了5000個公開的已標(biāo)注互聯(lián)網(wǎng)表格和我們標(biāo)注的1000個從中文在線百科中隨機(jī)采樣的表格，共獲得126萬知識表和15萬非知識表。各類型表格識別器分別獲得關(guān)系表34萬，鍵值對表21萬，枚舉列表5萬，剩下66萬個表格屬于復(fù)雜類型或難以融入知識庫的表格。實驗中，我們比較了使用算法1訓(xùn)練的單層梯度決策樹表格識別器和未使用模式特征的梯度提升樹識別器[12，13]（記為GBDT）。我們的報告評估了準(zhǔn)確率（P）、召回率（R）和F1值。表格識別評估結(jié)果如表2所示，實驗證明使用我們的方法訓(xùn)練的識別器效果明顯提升，尤其是準(zhǔn)確率。

5.2 ? 關(guān)系表與知識庫匹配結(jié)果評估

在4.2節(jié)中，我們在T2K[10]算法中加入了表格內(nèi)容整合和利用公共上位概念的候選集生成的步驟。與Ritze[11]的工作不同的是，我們將中文百科表格與CN-DBpedia匹配。由于WDC Web Tables corpus[11]是來自全網(wǎng)的跨語言表格數(shù)據(jù)集，所以中文百科表格數(shù)據(jù)集可以認(rèn)為是它的子集，同時CN-DBpedia也可以認(rèn)為是跨語言知識庫DBpedia的子集。在實驗中，我們首先標(biāo)注了100個關(guān)系表的實體鏈接結(jié)果，然后分別比較了這兩個步驟對T2K算法中實體鏈接的影響。表3中T2K+M、T2K+C和T2K+MC表示分別加入表格內(nèi)容整合，利用公共上位概念和綜合利用兩個步驟的T2K算法。如表3所示，表格內(nèi)容整合使得更多的實體參與到與知識庫的匹配過程中進(jìn)而提升了召回率，而利用公共上位概念可以為實體選擇語義相似度更高的候選實體集合，進(jìn)而提升了準(zhǔn)確率。

5.3 ? 融合結(jié)果

如表4所示，我們挖掘出了近1400萬的三元組知識。在最終入庫時，除了要保證三元組的可靠度，還需要去重。我們采取了一個啟發(fā)式方法，對于關(guān)系三元組（賓語是實體），若頭實體鏈接的知識庫實體不含該三元組的尾實體，則直接入庫。對于屬性三元組（賓語不是實體），若頭實體鏈接的知識庫實體的屬性或?qū)傩灾?，與該三元組的屬性，或?qū)傩灾翟谙鄬庉嬀嚯x或基于字典的語義相似度上小于閾值則可以直接入庫。去重后，我們可以向CN-DBpedia擴(kuò)充約1000萬三元組。

6 ? 結(jié)論（Conclusion）

我們的工作提出了基于在線百科表格數(shù)據(jù)的知識庫擴(kuò)充框架，解決了表格識別和知識融合的挑戰(zhàn)。實驗結(jié)果證明了從百科中抽取的三元組的數(shù)量和質(zhì)量能夠用于知識庫的擴(kuò)充。

參考文獻(xiàn)（References）

[1] Bollacker K.，Cook R.，Tufts P.Freebase：A Shared Database of Structured General Human Kowledge[C].AAAI Conference on Artificial Intelligence，Vancouver，2007（22-26）：1962-1963.

[2] Mahdisoltani，F(xiàn).，Biega，et al.YAGO3：a knowledge base from multilingual wikipedias[C].Proceedings of the Conference on Innovative Data Systems Research，Asilomar，2015：4-7.

[3] Lehmann，J.，Isele，R.，Jakob，et al.DBpedia-a large-scale，multilingual knowledge base extracted from Wikipedia[M].Semantic Web，2015，6（2）：167-195.

[4] Xu B.，Xu Y.，Liang J.，et al.CN-DBpedia：A Never-Ending Chinese Knowledge Extraction System[J].In International Conference on Industrial，Engineering and Other Applications of Applied Intelligent Systems，Springer，Cham，2017：428-438.

[5] Boya Peng，Yejin Huh，Xiao Ling，et al.Improving Knowledge Base Construction from Robust Infobox Extraction[J].NAACL-HLT，2019（2）：138-148.

[6] Dong X.，Gabrilovich E.，Heitz G.，et al.Knowledge vault：a web-scale approach to probabilistic knowledge fusion[C].The International Conference on Knowledge Discovery and Data Mining，New York，2014：601-610.

[7] Ritze D.，Lehmberg O.，Oulabi Y.，et al.Profiling the Potential of Web Tables for Augmenting Cross-domain Knowledge Bases[C].International Conference on World Wide Web，2016.

[8] Zhihu Qian，Jiajie Xu，Kai Zheng，et al.Semantic-aware top-k spatial keyword queries[J].World Wide Web，2018，21（3）：573-594.

[9] Venetis，P.，Halevy A.，Madhavan，J.，Pasca，M.，et al.Recovering semantics of tables on the web[J].Proceedings of the Vldb Endowment，2011，4（9）：528-538.

[10] Cafarella M J.，Halevy A.，Wang D Z.，et al.WebTables：exploring the power of tables on the web[J].Proceedings of the Vldb Endowment，2008，1（1）：538-549.

[11] Ritze D.，Lehmberg O.，Bizer C.Matching HTML Tables to DBpedia[C].International Conference on Web Intelligence，Mining and Semantics，Cyprus，2015.

[12] Crestan E.，Pantel P.Web-scale table census and classification[C].International Conference on Web Search & Data Mining.ACM，2011：545.

[13] Crestan E.，Pantel P.Web-scale knowledge extraction from semi-structured tables[J].ACM Press the 19th international conference Raleigh，North Carolina，USA Proceedings of the 19th international conference on World wide web，2010：1081.

[14] Yoshida M.，Torisaw K.，Tsujii J.A Method to Integrate Tables of the World Wide Web[C].In：Proceedings of the First International Workshop on Web Document Analysis，2001：31-34.

[15] Fan J.，Lu M.，Ooi B C.，et al.A hybrid machine-crowdsourcing system for matching web tables[C].2014 IEEE 30th International Conference on Data Engineering.IEEE Computer Society，2014.

作者簡介：

宋曉兆（1995-），男，碩士生.研究領(lǐng)域：自然語言處理，知識圖譜.

鄭 ?新（1990-），男，碩士，工程師.研究領(lǐng)域：自然語言處理，知識圖譜.

李直旭（1983-），男，博士，副教授.研究領(lǐng)域：數(shù)據(jù)挖掘，知識圖譜.

許佳捷（1983-），男，博士，副教授.研究領(lǐng)域：數(shù)據(jù)挖掘，時空數(shù)據(jù)庫.

軟件工程2019年10期

軟件工程的其它文章: 5G時代數(shù)字賦能; 基于項目驅(qū)動的數(shù)據(jù)庫系列課程教學(xué)研究; 基于OBE和CDIO的軟件測試課程混合式教學(xué)探究; 基于ASP.NET的班級特色管理網(wǎng)站設(shè)計與實現(xiàn); 輻照企業(yè)管理信息系統(tǒng)中若干技術(shù)問題探討; 隱私保護(hù)頻繁項集挖掘中的細(xì)粒度隨機(jī)化模型