999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的學科體系知識圖譜構建研究

2019-05-24 14:12:46熊嘉強孫陽光
電腦知識與技術 2019年9期

熊嘉強 孫陽光

摘要:作為人工智能領域的一個熱點問題,知識圖譜逐漸成為語義搜索和知識問答的關鍵技術之一。本文研究了學科體系的本體模型,利用RDF三元組進行知識表示,并通過Jsoup爬蟲技術來對知識庫進行擴充,實現了學科體系知識圖譜構建,這對復雜領域知識圖譜構建具有實際意義。

關鍵詞:本體;RDF;學科體系;知識圖譜

中圖分類號:TP18 文獻標識碼:A

文章編號:1009-3044(2019)09-0187-03

Abstract: As a hot topic in the field of artificial intelligence,knowledge graph has gradually become one of the key technology of semantic search and knowledge base question answering. This paper studies the ontology model of discipline system,uses RDF three triple represent knowledge,and extends the knowledge base by Jsoup crawler technology,it achieves the construction of discipline system of knowledge graph, and it has practical significance to build a complex domain knowledge graph.

Key words: Ontology;RDF;Discipline;Knowledge Graph

1 引言

知識圖譜作為語義網的數據支撐,在搜索和問答方面已經成功應用到了很多領域[1]。知識圖譜用于描述真實世界中存在的各種實體或概念,以及實體概念之間的關系[2]。每個實體或概念用一個全局唯一確定的標識符來標識,屬性-值對用來刻畫實體的內在特性,利用關系來連接兩個實體,知識圖譜可有效反映它們之間的關聯。

學科體系是根據科學分工和產業結構的需要所設置的學科門類。研究學科體系知識圖譜的構建能有效解決學科內一些知識記憶類的問題。本文采用惠普實驗室開發的Jena技術框架,它為RDF、RDFS、OWL提供了一個程序開發環境[3],并支持利用Excel文檔去批量導入數據三元組的方式。通過對基于本體的學科體系知識圖譜構建研究,本文為知識圖譜的應用提供了新思路。

2 學科體系知識圖譜建模

知識圖譜構建主要分為本體層和數據層[4]。本體層是知識圖譜的骨架,強調的是學科體系中概念與概念之間的關系。數據層是本體的一個豐富過程,強調的是學科體系中實體與實體之間的關系,以及它們的屬性和屬性值。本文知識圖譜建模分為以下六個步驟,具體流程如圖1所示。

1)本體模型的構建;

2)通過數據標注的方式創建實例和三元組;

3)將數據以RDF表示的形式存儲;

4)知識庫擴充采用爬蟲算法去爬取網絡數據;

5)外源數據進行數據融合,并將數據存儲入庫;

6)數據入庫后,可以對知識進行查詢,查詢無結果,進行數據更新,重新數據標注。

2.1本體模型

本體模型是按照現實生活中的概念、概念間的關系、概念所具有的特征(即屬性)以及概念的實例抽象出現實的模型。本文學科體系的本體模型是通過學科領域各實例抽象出來的概念,以及概念之間的關系所構成的模型。其本體模型構建分為以下五個步驟:

1)本體的專業領域和范疇的確定:本文研究的本體范疇是學科體系,下文以政治學科為例,給出基于本體的學科體系知識圖譜構建過程。政治學科本體范圍需要在政治老師的指導下,以初高中教材為主,結合教輔教材,確定本體范圍。

2)概念體系的確定:構建概念體系要明確概念的定義,本文把很多具有相同特性的實例抽象為一個概念,對應于模型中類(owl:Class)[5]。而概念體系則是多個類結合在一起,構成的一個有上下位關系的體系。本文結合政治學科的特點以及政治老師的建議,最終確定了概念體系。

3)屬性及其約束的確定:本體里面的屬性一般分為對象屬性(owl:ObjectProperty)和數據屬性(owl:DatatypeProperty)。對象屬性一般指實例與實例之間的關系,以及實例與概念之間的關系。數據屬性一般指實例的自身屬性,如某個實例的內容、含義等。屬性的約束在本文是指代定義域(rdfs:Domain)和值域(rdfs:Range)的約束。

4)創建實例:本文采用標注的方法創建實例。通過把教材電子化,然后對每個章節的內容進行標注,利用標注出的實例以及它的基礎屬性生成一個有主謂賓部分的Excel文檔,此部分對應于知識圖譜里面的RDF三元組。

5)本體存儲和更新:本文本體數據以Excel導入的方式存儲。在知識更新的過程中,本體需要逐步的完善,盡可能覆蓋更多的知識點。

2.2 知識表示

本文采用W3C規范的RDF資源描述框架(Resource Description Framework)對知識進行表示。RDF將知識表示成資源-屬性-值這樣的三元組形式。本文將RDF三元組形式分別對應于主謂賓部分,并以列的形式存儲在Excel文檔內,利用Jena技術將Excel數據以RDF形式批量導入的方式來構建知識圖譜。

RDF三元組可以利用圖形結構表示,本文知識圖譜部分數據表示關系如圖2所示。節點表示概念或實例,邊表示關系或屬性。圖2上面部分是本體層,每個圓形節點表示一個概念,節點的邊表示他們的關系。圖2下面部分是數據層,每個橢圓形節點表示實例,實例與實例之間的邊表示關系,與實例相連的每個方框和邊構成實例的屬性-值對。

2.3 數據存儲

知識圖譜的數據存儲主要采用RDF數據庫和圖數據庫這種非關系型數據庫來存儲,包括Neo4J,RDF4J,Virtuoso,StarDog等[6]。本文采用基于Jena-TDB的技術對RDF三元組提供數據存儲。作為Java中本體文件的管理編輯工具,Jena提供了TDB用來對RDF數據進行存儲和查詢,支持所有的Jena Api[7]。Jena-TDB還集成了SPARQL,支持SPARQL查詢。

TDB的使用一般可以分為以下四步:第一步是建立Dataset;第二步是裝載Model;第三部是固化TDB文件;第四步是提交和關閉操作。通過知識表示將數據以RDF三元組的形式存儲到數據庫中,最終完成知識庫的數據存儲。

3 知識庫擴充和查詢顯示

3.1 知識庫擴充

學科體系包含核心知識點和非核心知識點。我們需要對非核心知識點的數據進行擴充。本文采取的是網絡爬蟲算法的方式收集數據。相關技術采用的是Jsoup爬蟲技術,它是一款Java 的Html解析器,可直接解析某個Html文本內容。

本文學科體系知識庫擴充分文以下幾步:首先是實體集擴充,本文在相關權威的教材教輔網站上面,爬取一些高頻詞匯。然后通過和知識庫里面的實例對比去重,再給相關的專家老師進行審核,確定實例。接著是三元組的擴充,本文選用了可信度較高的百度百科,通過Jsoup爬蟲去爬取實例百科頁面的內容解釋和屬性-值對,以及鏈接到下一層的相關數據。最后對爬蟲結果進行了數據整合和清洗,并將Excel表格數據導入知識庫中存儲,完成知識庫的擴充。本文爬蟲算法步驟分為以下七步,具體流程如圖3所示。

1)根據實例名獲取對應的百度百科Url;

2)查看目標網頁的Html源碼;

3)利用Jsoup對應的方法對目標內容進行解析;

4)查看當前解析內容是否有鏈接到下一層的Url;

5)如果有鏈接到下一層的Url,則獲取該Url,深度減1(初始深度值默認2),然后繼續執行第四步;

6)如果沒有鏈接到下一層的Url,則直接獲取該實例對應的相關屬性和屬性值;

7)將獲取的數據按照主謂賓三元組的形式導出到Excel。

3.2 查詢顯示

為了提升問答質量,本文采用了SPARQL來對RDF數據進行查詢。SPARQL是專門針對RDF三元組的一種查詢語言,它的重要性類似于關系數據庫中的SQL。這里以查詢“貨幣的職能”這一個概念所擁有的實例為例,其查詢語句如下:

PREFIX resource:

PREFIX rdf:

SELECT ?s WHERE {?s rdf:type resource:貨幣的職能}

4 結論

構建學科體系知識圖譜能有效地解決學科領域知識記憶類問題,這對學科體系知識的應用具有現實意義。本文基于本體通過本體模型、知識表示、數據存儲的方式對學科體系知識圖譜的構建進行了研究,利用爬蟲技術對知識庫的擴充進行了探索,這為進一步構建復雜領域知識圖譜打下了基礎。

參考文獻:

[1]徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589-606.

[2]漆桂林,高桓,吳天星.知識圖譜研究進展[J].情報工程,2017,3(1):4-25.

[3]王勁東,武頻,朱永華. 基于Jena的電影素材領域本體構建及推理研究[J]. 計算機技術與發展,

2016,26(08):30-34.

[4]李涓子,侯磊.知識圖譜研究綜述[J].山西大學學報(自然科學版),2017,40(03):454-459.

[5]張德政,謝永紅,李曼,石川.基于本體的中醫知識圖譜構建[J].情報工程,2017,3(01):35-42.

[6]胡澤文, 孫建軍, 武夷山.國內知識圖譜應用研究綜述[J]. 圖書情報工作, 2013, 57(3):131-137.

[7]Saruladha K, Aghila G, Sathiya B. A Comparative Analysis of Ontology and Schema Matching Systems[J]. International Journal of Computer Applications, 2011, 34(8):14-21.

【通聯編輯:唐一東】

主站蜘蛛池模板: 久久久久人妻精品一区三寸蜜桃| www.亚洲色图.com| 欧美丝袜高跟鞋一区二区| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲午夜福利精品无码| 美女国内精品自产拍在线播放 | 日韩精品亚洲一区中文字幕| 综合久久五月天| 欧美日韩在线成人| 国产在线一区视频| 2021精品国产自在现线看| 国模极品一区二区三区| 国产成人精品一区二区不卡| 亚洲福利片无码最新在线播放| 久久精品国产精品青草app| 白丝美女办公室高潮喷水视频| 亚洲色大成网站www国产| 国产精品偷伦在线观看| 视频二区中文无码| 国产精品夜夜嗨视频免费视频| 青青久久91| 手机在线看片不卡中文字幕| 国产av剧情无码精品色午夜| 四虎国产永久在线观看| 在线国产毛片手机小视频| 亚洲一区二区三区国产精品 | 99精品国产电影| 亚洲一级毛片在线观播放| 香蕉99国内自产自拍视频| 精品亚洲麻豆1区2区3区| 欧美中文字幕在线播放| 午夜高清国产拍精品| 国产精品爆乳99久久| 亚洲aⅴ天堂| 久久6免费视频| 国产一级裸网站| 久草美女视频| 欧美成人国产| 久久99热66这里只有精品一| 免费人成网站在线高清| 欧美视频在线不卡| 国产成人综合久久精品尤物| 九九热视频精品在线| 人妻少妇乱子伦精品无码专区毛片| 欧美人与牲动交a欧美精品| 国产美女在线观看| 国产精品 欧美激情 在线播放 | 久久亚洲黄色视频| 重口调教一区二区视频| 国产综合日韩另类一区二区| 狠狠亚洲婷婷综合色香| 亚洲性网站| 中文字幕在线日本| 亚洲AV成人一区二区三区AV| 欧美伦理一区| 久久99蜜桃精品久久久久小说| 国产理论精品| 欧美日韩成人| 91精品免费高清在线| 国产成年女人特黄特色毛片免| 国产91丝袜在线播放动漫 | 国产成人免费观看在线视频| 一级毛片中文字幕| 色偷偷综合网| 亚洲天堂区| 国产va在线观看| 欧美激情综合一区二区| 国产好痛疼轻点好爽的视频| 嫩草国产在线| 无码电影在线观看| 日韩人妻无码制服丝袜视频| 日韩免费成人| 欧美另类精品一区二区三区 | 亚洲精品麻豆| 亚洲乱码视频| 狼友视频一区二区三区| 一级看片免费视频| 91精品综合| 色视频国产| 国产福利在线观看精品| 久久精品无码一区二区日韩免费| 久久国产乱子伦视频无卡顿|