標(biāo)記的表格對象分為帶有知識的表格,和用于頁面布局或?qū)Ш降姆侵R表格,互聯(lián)網(wǎng)中88%的HTML表不含有知識。借鑒互聯(lián)網(wǎng)表格分類工作中的方法[12,13],我們使用梯度提升樹模型GBDT,作為非知識表過濾器。(3)表格解析:將HTML格式的表格解析為csv格式,在內(nèi)存中以二維數(shù)組的形式表示。同時在另外的數(shù)組中存儲了單元格中的屬性,如span和href。我們把帶span屬性,跨行跨列的單元格拆分。對于帶href屬性的單元格,我們使用其所指頁面的標(biāo)題作為鏈接實體。
(4)知識表類型識別:關(guān)系表和鍵值對的識別,采用了我們提出的基于模式特征在線更新的識別器訓(xùn)練算法,在識別的過程中,在線更新特征值,重新訓(xùn)練識別器。枚舉列表的識別采取基于概念(分類)樹輔助的啟發(fā)式方法。
(5)關(guān)系表與知識庫匹配:我們使用T2K[11]算法對關(guān)系表進(jìn)行實體鏈接和屬性對齊。此外,加入了我們提出的表格聚類算法,以及使用我們提出的“公共上位概念”進(jìn)行候選集生成。
(6)三元組抽?。焊鶕?jù)表1給出的三種表格的定義,按照相應(yīng)的規(guī)則抽取知識。對于鍵值對表,所在百科頁面的標(biāo)題就是每個三元組的主語,表中每一行的鍵值對就是三元組的謂語和賓語。對于關(guān)系表,表格實體以行為單位,所鏈接的實體是每個三元組的主語,除主鍵所在列外每一列對齊到的屬性是謂語,屬性值是賓語。對于枚舉列表,百科頁面的標(biāo)題就是每個三元組的主體,而表格中的每個實體名稱則是每個關(guān)系三元組的賓語(尾實體),尾實體鏈接采用與關(guān)系表實體鏈接相同的方法。謂語通過每個實體對在知識庫中存在謂語的數(shù)量投票決定。
(7)融合模型:采用我們提出的針對百科表格數(shù)據(jù)集的融合策略。
4 ? 關(guān)鍵技術(shù)分析(Key technical analysis)
在這一節(jié),我們介紹了框架中三個關(guān)鍵技術(shù)的細(xì)節(jié),它們是(1)知識表類型識別;(2)關(guān)系表與知識庫匹配;(3)融合模型。
4.1 ? 知識表類型識別
這一節(jié)中我們提出了識別三種表格類型的方法。表格中有兩種類型的信息,屬性信息和屬性值信息。如果已知一些表格屬性,那么我們可以利用它來識別表格的結(jié)構(gòu),從而能夠幫助我們把屬性對應(yīng)到正確的屬性值單元。由于表格是半結(jié)構(gòu)化的數(shù)據(jù),它的屬性通常連續(xù)地出現(xiàn)在一整行或一整列。定位表格的屬性會幫助我們識別表格正確的結(jié)構(gòu)。對于鍵值對表和關(guān)系表,我們發(fā)現(xiàn),表格屬性與知識庫中的屬性有相同處,并且表格屬性集合與由知識庫屬性構(gòu)成的模式庫存在交集。對此,我們將表格屬性屬于模式庫的比例和個數(shù)作為模式得分特征,為鍵值對表和關(guān)系表分別訓(xùn)練了一個單層決策樹,作為初始的表格識別器。在使用表格識別器識別表格后,將會含有一些不屬于模式庫的屬性出現(xiàn)在表格中,但這些屬性可能是其他表格的屬性。于是,我們使用這些屬性擴(kuò)充模式庫。模式庫擴(kuò)充后,訓(xùn)練集中表格的模式得分特征可能發(fā)生變化,需要更新,進(jìn)而分類器模型又需要重新訓(xùn)練。如此往復(fù),這是一個迭代的過程。如算法1所示,我們提出了基于特征在線更新的表格識別器訓(xùn)練算法。
算法1基于模式特征在線更新的識別器訓(xùn)練
輸入:模式庫predictkg,知識表模式集合Predicttable,單層決策樹DStump
輸出:單層決策樹DStump,擴(kuò)充后的模式庫predictkg
1.next_iteration=False
2.for predicttable in Predicttable? do
3. ?computer Scoretable
4. ?if DStump(Scoretable) is True then
5. ? ?if ?then
6.
7. ? ?next_iteration=True
8. ? end if
9. end if
10.end for
11.if next_iteration is True then
12. ?update training set with new Scoretable and ?resume the training
13. ?if DStump performs better in testing set then
14. ? ?repeat 1 to 10
15 ? ?end if
16.else return DStump and predictkg
17.end if
在算法1的輸入中,模式庫初始化為知識庫中屬性的集合;每個知識表的模式按行或按列獲得(以屬性表為例,它的模式由第一列中的每個屬性構(gòu)成);識別器采用單層決策樹模型,使用初始的得分特征進(jìn)行訓(xùn)練。算法1的第3行計算了表格的兩個模式得分,一個是屬性屬于模式庫的比例,即,另一個是屬性屬于模式庫的個數(shù)。算法的第2行到第10行,計算每個未識別知識表的模式得分,如果有新的表被識別,則擴(kuò)充模式庫。每經(jīng)過一輪迭代,都會重新訓(xùn)練一次識別器,原來的假負(fù)例在模式得分提高后會被識別為真正例,識別器的召回率會得到提升。當(dāng)經(jīng)過若干輪迭代后,模式庫屬性數(shù)量不再增加或識別器F1值不再提高時,我們將識別器和模式庫返回。另外,可以在使用算法1完成弱學(xué)習(xí)器的訓(xùn)練后引入剩下的表格特征(如布局特征和內(nèi)容特征),通過boosting的方式訓(xùn)練一個更強(qiáng)的識別器。考慮到需要多次重復(fù)訓(xùn)練,于是我們選擇單層決策樹這樣一個弱學(xué)習(xí)器作為識別模型,并且不引入其他特征。
在剩下未識別的知識表中,我們使用強(qiáng)規(guī)則識別枚舉列表。我們把表格中每個單元格的內(nèi)容假設(shè)為實體名稱,通過知識庫查找該實體名稱對應(yīng)的實體(實體和實體別稱滿足多對多的關(guān)系),若每個實體別稱都能映射到至少一個實體,則啟發(fā)性地認(rèn)為該表格為枚舉列表。
4.2 ? 關(guān)系表與知識庫匹配
這一節(jié),在T2K算法框架[11]中加入我們提出的基于概念(本體)樹的表格聚類和基于公共上位概念的候選集生成方法。
4.2.1 ? T2K匹配框架
T2K算法框架將每個關(guān)系表視為一個小型關(guān)系型數(shù)據(jù)庫,將關(guān)系表中的實體、屬性和概念與知識庫匹配。圖5描述了T2K算法框架的主要步驟。它首先從知識庫中獲得候選實體,通過基于屬性值的匹配得到候選實體的實體鏈接得分。然后以列為單位,選擇屬性值相似度的和最高的屬性作為屬性相似度,并計算這個屬性對應(yīng)的每個概念的得分,用得分最高的概念過濾候選實體。在過濾掉一些實體后,屬性相似度發(fā)生了變化,需要重新選擇,這是一個迭代的過程。T2K算法的先進(jìn)之處在于,不同于傳統(tǒng)數(shù)據(jù)庫模式匹配,它在匹配過程中加入了概念(本體)的匹配,而概念(本體)是實體和屬性的迭代匹配的橋梁。
4.2.2 ? 基于概念的表格聚類
根據(jù)HTML表格與知識庫匹配的經(jīng)驗,表格中實體數(shù)量越大,它們與知識庫匹配的效果越理想。于是,在T2K框架的基礎(chǔ)上將關(guān)系表內(nèi)容整合。表格內(nèi)容整合分為表格聚類和表格合并兩個部分,前者采取了我們提出的算法2的方式,后者則是利用表格聚類的結(jié)果,將同類表格中相似屬性合并到同一表格。這一節(jié)重點介紹了我們提出的基于概念的表格聚類算法。
此聚類算法以表格實體所屬概念為特征,首先將每個表格表示為一個向量,其中j是知識庫中概念的數(shù)量。每一個維度對應(yīng)的計算公式為:,其中,Ti.E表示表格Ti的實體名集合,I(Cj)表示知識圖譜中概念Cj的實體名集合。接著,我們計算表格向量間的余弦相似度,然后采用如算法2所示的方法將表格聚類。
算法2基于概念(本體)樹的表格聚類
輸入:表格集合Table,相似度閾值threshold
輸出:聚類簇C
1.Initialize clusters C=
2.for table in Table do
3. ?get vector Ti for table
4. ?initialize flag f=False
5. ?for cluster c in C do
6. ? ?get vector Tc of the first table in c
7. ? ?if ?then
8. ? ? ?add table to c
9. ? ? ?f=True
10. ? ? break
11. ? end if
12. ?end for
13. ?if f=False then
14. ? ?initialize new cluster c={table}
15. ? ?add c to C
16. ?end if
17.end for
18.return C
可見,算法2是一種簡單且有效的聚類算法,它的時間復(fù)雜度為O(m×n),其中n是表格的總數(shù),m是聚類簇的數(shù)目,它遠(yuǎn)小于n。
4.2.3 ? 基于公共上位概念的候選集生成
T2K[11]算法在候選集生成中,首先通過計算表格實體名與知識庫實體名的相似度為每個實體生成top k個候選實體;然后為每個實體選擇所屬頻率最高的概念,過濾不屬于這些概念的初始候選實體。根據(jù)百科表格數(shù)據(jù)知識分布的特點,系統(tǒng)偏向于擴(kuò)充長尾概念下的知識,使用高頻概念不能有效地過濾初始候選實體。于是,我們提出了使用“公共上位概念”過濾初始候選實體的方法。
定義4(公共上位概念Cp)在概念樹T中,如存在一個概念,其子概念構(gòu)成的集合Cp.children與由每個候選實體集合Ei對應(yīng)的概念集合Ci構(gòu)成的集合Ciset都存在交集,我們把這個概念稱為公共上位概念Cp,形式化為下列公式:
以圖6為例,表格中存在中國、法國、日本三個實體名稱,它們的候選實體集Ei分別為:{中華人民共和國}{法國(法蘭西共和國),法國(APA publications主編圖書)}和{日本(日本國),日本(山名)},對應(yīng)的概念集合Ci分別為分別為{東亞國家}{其他山脈,東亞國家}和{西歐國家,歷史書籍},則“國家”是這三個實體的公共上位概念Cp。而地形概念下的實體數(shù)量更多,它更可能成為高頻概念。技術(shù)上,我們采用回溯算法遍歷概念樹得到Cp,過濾掉不屬于Cp的候選實體。
4.3 ? 融合模型
由于互聯(lián)網(wǎng)資源可信度較低,以往的工作在融合策略上采用了基于知識庫[21]或者網(wǎng)頁排名的先驗信任機(jī)制。而百科表格中的知識按領(lǐng)域分布均勻,屬于長尾的較多,如果直接使用先驗信任機(jī)制,那么這些長尾知識(知識庫中的孤立節(jié)點)都不能被融合??紤]到百科資源具有很高的可信度,我們不需要采用先驗信任機(jī)制,而應(yīng)該以抽取器的準(zhǔn)確率為指標(biāo),即識別器得分和實體鏈接相似度得分。我們將表格識別概率和實體鏈接相似度得分作為特征,為每種類型的表格分別訓(xùn)練一個邏輯回歸模型。模型學(xué)習(xí)了兩個特征的權(quán)重,以此得到知識的可信度。由于枚舉列表和鍵值對表不需額外進(jìn)行實體鏈接,他們的實體鏈接相似度得分均取1。
5 ? 實驗 (Experiment)
本文提出的方法已用于國內(nèi)某個中文百科知識庫的構(gòu)建和擴(kuò)充,采用的表格數(shù)據(jù)集來自百度百科和互動百科。由于百度百科與互動百科不提供轉(zhuǎn)儲文件,本文通過網(wǎng)絡(luò)爬蟲獲得所有帶
標(biāo)簽的HTML表格及對應(yīng)頁面信息。其中,互動百科的infobox信息同樣采用標(biāo)簽標(biāo)記。在剔除互動百科340萬個實體的infobox并過濾了15萬個非知識表后,我們得到126萬個中文百科知識表。同時,為了在公開數(shù)據(jù)集中驗證實驗有效性,本文使用中文百科格數(shù)據(jù)集擴(kuò)充CN-DBpedia[4],并且將實驗結(jié)果與Ritze[11]的方法進(jìn)行比較。5.1 ? 表格識別結(jié)果評估
非知識表過濾器模型20折交叉驗證了5000個公開的已標(biāo)注互聯(lián)網(wǎng)表格和我們標(biāo)注的1000個從中文在線百科中隨機(jī)采樣的表格,共獲得126萬知識表和15萬非知識表。各類型表格識別器分別獲得關(guān)系表34萬,鍵值對表21萬,枚舉列表5萬,剩下66萬個表格屬于復(fù)雜類型或難以融入知識庫的表格。實驗中,我們比較了使用算法1訓(xùn)練的單層梯度決策樹表格識別器和未使用模式特征的梯度提升樹識別器[12,13](記為GBDT)。我們的報告評估了準(zhǔn)確率(P)、召回率(R)和F1值。表格識別評估結(jié)果如表2所示,實驗證明使用我們的方法訓(xùn)練的識別器效果明顯提升,尤其是準(zhǔn)確率。
5.2 ? 關(guān)系表與知識庫匹配結(jié)果評估
在4.2節(jié)中,我們在T2K[10]算法中加入了表格內(nèi)容整合和利用公共上位概念的候選集生成的步驟。與Ritze[11]的工作不同的是,我們將中文百科表格與CN-DBpedia匹配。由于WDC Web Tables corpus[11]是來自全網(wǎng)的跨語言表格數(shù)據(jù)集,所以中文百科表格數(shù)據(jù)集可以認(rèn)為是它的子集,同時CN-DBpedia也可以認(rèn)為是跨語言知識庫DBpedia的子集。在實驗中,我們首先標(biāo)注了100個關(guān)系表的實體鏈接結(jié)果,然后分別比較了這兩個步驟對T2K算法中實體鏈接的影響。表3中T2K+M、T2K+C和T2K+MC表示分別加入表格內(nèi)容整合,利用公共上位概念和綜合利用兩個步驟的T2K算法。如表3所示,表格內(nèi)容整合使得更多的實體參與到與知識庫的匹配過程中進(jìn)而提升了召回率,而利用公共上位概念可以為實體選擇語義相似度更高的候選實體集合,進(jìn)而提升了準(zhǔn)確率。
5.3 ? 融合結(jié)果
如表4所示,我們挖掘出了近1400萬的三元組知識。在最終入庫時,除了要保證三元組的可靠度,還需要去重。我們采取了一個啟發(fā)式方法,對于關(guān)系三元組(賓語是實體),若頭實體鏈接的知識庫實體不含該三元組的尾實體,則直接入庫。對于屬性三元組(賓語不是實體),若頭實體鏈接的知識庫實體的屬性或?qū)傩灾?,與該三元組的屬性,或?qū)傩灾翟谙鄬庉嬀嚯x或基于字典的語義相似度上小于閾值則可以直接入庫。去重后,我們可以向CN-DBpedia擴(kuò)充約1000萬三元組。
6 ? 結(jié)論(Conclusion)
我們的工作提出了基于在線百科表格數(shù)據(jù)的知識庫擴(kuò)充框架,解決了表格識別和知識融合的挑戰(zhàn)。實驗結(jié)果證明了從百科中抽取的三元組的數(shù)量和質(zhì)量能夠用于知識庫的擴(kuò)充。
參考文獻(xiàn)(References)
[1] Bollacker K.,Cook R.,Tufts P.Freebase:A Shared Database of Structured General Human Kowledge[C].AAAI Conference on Artificial Intelligence,Vancouver,2007(22-26):1962-1963.
[2] Mahdisoltani,F(xiàn).,Biega,et al.YAGO3:a knowledge base from multilingual wikipedias[C].Proceedings of the Conference on Innovative Data Systems Research,Asilomar,2015:4-7.
[3] Lehmann,J.,Isele,R.,Jakob,et al.DBpedia-a large-scale,multilingual knowledge base extracted from Wikipedia[M].Semantic Web,2015,6(2):167-195.
[4] Xu B.,Xu Y.,Liang J.,et al.CN-DBpedia:A Never-Ending Chinese Knowledge Extraction System[J].In International Conference on Industrial,Engineering and Other Applications of Applied Intelligent Systems,Springer,Cham,2017:428-438.
[5] Boya Peng,Yejin Huh,Xiao Ling,et al.Improving Knowledge Base Construction from Robust Infobox Extraction[J].NAACL-HLT,2019(2):138-148.
[6] Dong X.,Gabrilovich E.,Heitz G.,et al.Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C].The International Conference on Knowledge Discovery and Data Mining,New York,2014:601-610.
[7] Ritze D.,Lehmberg O.,Oulabi Y.,et al.Profiling the Potential of Web Tables for Augmenting Cross-domain Knowledge Bases[C].International Conference on World Wide Web,2016.
[8] Zhihu Qian,Jiajie Xu,Kai Zheng,et al.Semantic-aware top-k spatial keyword queries[J].World Wide Web,2018,21(3):573-594.
[9] Venetis,P.,Halevy A.,Madhavan,J.,Pasca,M.,et al.Recovering semantics of tables on the web[J].Proceedings of the Vldb Endowment,2011,4(9):528-538.
[10] Cafarella M J.,Halevy A.,Wang D Z.,et al.WebTables:exploring the power of tables on the web[J].Proceedings of the Vldb Endowment,2008,1(1):538-549.
[11] Ritze D.,Lehmberg O.,Bizer C.Matching HTML Tables to DBpedia[C].International Conference on Web Intelligence,Mining and Semantics,Cyprus,2015.
[12] Crestan E.,Pantel P.Web-scale table census and classification[C].International Conference on Web Search & Data Mining.ACM,2011:545.
[13] Crestan E.,Pantel P.Web-scale knowledge extraction from semi-structured tables[J].ACM Press the 19th international conference Raleigh,North Carolina,USA Proceedings of the 19th international conference on World wide web,2010:1081.
[14] Yoshida M.,Torisaw K.,Tsujii J.A Method to Integrate Tables of the World Wide Web[C].In:Proceedings of the First International Workshop on Web Document Analysis,2001:31-34.
[15] Fan J.,Lu M.,Ooi B C.,et al.A hybrid machine-crowdsourcing system for matching web tables[C].2014 IEEE 30th International Conference on Data Engineering.IEEE Computer Society,2014.
作者簡介:
宋曉兆(1995-),男,碩士生.研究領(lǐng)域:自然語言處理,知識圖譜.
鄭 ?新(1990-),男,碩士,工程師.研究領(lǐng)域:自然語言處理,知識圖譜.
李直旭(1983-),男,博士,副教授.研究領(lǐng)域:數(shù)據(jù)挖掘,知識圖譜.
許佳捷(1983-),男,博士,副教授.研究領(lǐng)域:數(shù)據(jù)挖掘,時空數(shù)據(jù)庫.
主站蜘蛛池模板:
高清久久精品亚洲日韩Av|
久久永久免费人妻精品|
日韩第一页在线|
9啪在线视频|
999福利激情视频|
伊人久久久大香线蕉综合直播|
国产成人夜色91|
麻豆国产精品视频|
99re热精品视频中文字幕不卡|
无码中文字幕乱码免费2|
久久婷婷五月综合97色|
国产成人精品一区二区不卡|
精品国产黑色丝袜高跟鞋
|
午夜精品区|
国产成人亚洲综合a∨婷婷|
欧美另类精品一区二区三区|
欧美在线精品怡红院|
国产精品香蕉在线观看不卡|
亚洲国产精品成人久久综合影院|
国产日韩精品欧美一区喷|
911亚洲精品|
狼友视频一区二区三区|
噜噜噜综合亚洲|
中文字幕一区二区人妻电影|
老司机aⅴ在线精品导航|
精品无码国产一区二区三区AV|
久久久噜噜噜|
国产精品人成在线播放|
亚洲第一区在线|
色婷婷在线影院|
久久精品娱乐亚洲领先|
国产成a人片在线播放|
亚洲熟女偷拍|
欧美成人影院亚洲综合图|
中文字幕在线不卡视频|
亚洲最大在线观看|
国产欧美视频一区二区三区|
在线观看国产黄色|
国产激爽大片高清在线观看|
国产在线精品香蕉麻豆|
精品人妻AV区|
在线另类稀缺国产呦|
国产高清在线观看91精品|
国产91久久久久久|
三级国产在线观看|
久久久久久久97|
a天堂视频|
亚洲精品波多野结衣|
亚洲日韩精品无码专区97|
中文字幕 日韩 欧美|
国产一区二区免费播放|
亚洲色婷婷一区二区|
欧美亚洲一区二区三区在线|
激情亚洲天堂|
国产高清免费午夜在线视频|
欧美另类精品一区二区三区|
欧美a在线|
天堂在线亚洲|
好紧好深好大乳无码中文字幕|
欧美性久久久久|
亚洲一级无毛片无码在线免费视频|
av无码久久精品|
特黄日韩免费一区二区三区|
美女免费黄网站|
国产一区二区网站|
黄色国产在线|
久久久久亚洲AV成人网站软件|
老司国产精品视频|
成年av福利永久免费观看|
亚洲成a人片|
中文字幕亚洲乱码熟女1区2区|
午夜福利在线观看成人|
国产91丝袜在线观看|
无码福利视频|
欧美色综合网站|
午夜影院a级片|
a欧美在线|
无码精油按摩潮喷在线播放|
精品久久香蕉国产线看观看gif|
成人福利视频网|
日韩在线播放中文字幕|
中国丰满人妻无码束缚啪啪|