王立平 曹立勇 吳興燕 丁衛明
【摘 要】隨著互聯網和信息的高速發展,知識圖譜得到了廣泛的關注。本文介紹了知識圖譜的發展現狀和實際應用情況,并綜述了知識圖譜的關鍵技術模塊:知識表示、知識抽取、知識融合和知識推理。進一步對知識圖譜的發展和應用前景進行了展望。
【關鍵詞】知識圖譜;大數據;知識表示
中圖分類號: TP311.13;TP391.1文獻標識碼: A 文章編號: 2095-2457(2019)21-0089-002
DOI:10.19694/j.cnki.issn2095-2457.2019.21.040
Application Research Based on Big Data Knowledge Graph
WANG Li-ping CAO Li-yong* WU Xing-yan DING Wei-ming
(Anqing Medical College,Anqing Anhui 246052,China)
【Abstract】With the rapid development of the Internet and information,the knowledge graph has received extensive attention.This paper introduces the development status and practical application of knowledge graph,And summarizes the key technical modules of the knowledge graph:Knowledge Representation、Knowledge Extraction、Knowledge Fusion and Knowledge Inference.Furthermore,the development and application prospect of knowledge graph are prospected.
【Key words】Knowledge Graph;Big Data;Knowledge Representation
0 引言
隨著大數據時代的到來,海量的數據信息呈爆炸式增長。如何從這些數據信息中抽取有效的知識,并表示和存儲從而更好地為人類和機器理解使用是當前熱門的研究課題。然而互聯網上的內容多源異質、結構松散為知識的抽取、表示和存儲帶來了極大的挑戰。知識圖譜就是在這種背景下產生的課題。近幾年,知識圖譜得到了廣泛的關注,通過數據整理、數據挖掘、機器學習和專家系統等技術,知識圖譜的應用得到了長足的發展。但目前知識圖譜的應用研究尚處在起步階段且存在限制多、效率低、拓展性差等缺點。
1 知識圖譜的研究現狀
知識圖譜的概念于2012年5月被Google正式提出,原來的目的主要是為了提高搜索引擎的能力,提升搜索結果的質量以便更好滿足用戶的搜索體驗。本質上,知識圖譜是描述各種實體或概念及其關系,它們構成了一張巨大的語義圖,節點表示實體或概念,邊則是節點的屬性或關系構成。
隨著人工智能的不斷發展和應用,知識圖譜在學術界和工業界得到了普及,并在智能檢索、智能問答、大數據風控、推薦系統等領域發揮出了重要的作用。國際上最具影響力的知識圖譜主要包括以下幾種:谷歌知識圖譜Freebase[1]是一個類似于Wikipedia的創作共享類網站,它的所有內容都是通過創意共用的方式由用戶添加。YAGO(Yet Another Great Ontology)[2]系列知識圖譜是由德國Max Planck計算機科學研究所創建,它通過對維基百科和WorldNet的大規模本體進行整合完成了大規模本體的構建。目前,YAGO擁有10種語言約459萬個實體,2400萬個Facts,且支持數據集的完全下載。另外還有微軟Satori和Facebook的Entity Graph。其中,2016年10月,微軟亞洲研究院發布全新的、能幫助計算機更好運作的微軟知識圖譜(Microsoft Concept Graph)[3],它是一個大型的知識圖譜系統,包含的知識來自數以億計的網頁和多年積累的搜索日志,可以為機器提供文本理解的常識性知識。
隨著大數據時代的興起,國外越來越多的研究機構和公司都構建和發布了自己的知識圖譜。而國內的知識圖譜建設起步較晚,規模比較完善的主要集中在幾家大型的互聯網公司,如百度的知識圖譜Schema[4]、阿里巴巴的商品知識圖譜和搜狗的知立方[5]等。百度的知識圖譜Schema目前主要用來規范百度內外部合作方結構化數據交換,以及作為百度知識圖譜構建、知識計算的核心數據結構。阿里知識圖譜以商品為核心,憑借自身海量數據,利用實體識別、實體鏈指和語義分析等技術構建了一個龐大的商品庫,以便更好地服務用戶。而為了讓用戶獲取信息更簡單,搜狗搜索于2012年11月23日發布全新的知識庫搜索引擎--“知立方”,這是國內搜索引擎行業中首家知識庫搜索產品。
在醫療健康領域,目前有Google構建了包含常見癥狀、治療手段、受此問題影響的典型年齡組、是否嚴重等信息的知識圖譜。中國醫學院醫學信息研究所通過對醫藥衛生領域各類知識的分析、整理,使用圖形學、信息可視化技術,構建的共五大類311種疾病的知識圖譜[6]。中國中醫科學院中醫藥信息研究所主要以“中醫藥學語言系統”中10余萬個中醫概念以及100余萬個語義關系為知識圖譜的骨架構建中醫藥知識圖譜體系[7]。
2 知識圖譜的關鍵技術模塊
隨著信息技術的不斷發展,數據信息呈爆炸式增長,這些海量的數據具有多源、異構、組織結構松散等特點,它與用戶有限的獲取知識和處理數據的能力之間的矛盾日益明顯。數據多源異構,結構松散的特質,在信息技術飛速發展的今天,知識大量存在于非結構化的文本數據、半結構化的表格、網頁以及信息系統的結構化數據中,而隨著普通民眾生活水平的提高,大家對生活品質和信息獲取也越來越重視。所以,人們都迫切地需要一種能夠幫助他們簡單快速地獲取數據信息的渠道和方法。
2.1 知識圖譜的定義與表示
知識圖譜是語義Web基礎下的一種技術應用,是一種圖的數據結構,由節點和標注的邊組成,或者說是由實體和實體間的關系組成。知識圖譜較為普遍的表示形式是三元組,即G=(head,relation,tail),其中head和tail均為實體,relation=r ,r ,…,r 是實體的關系集合。三元組的形式有(實體1,關系,實體2)和(概念,屬性,屬性值)等,實體是知識圖譜的基本元素,關系是存在于不同實體之間的聯系,概念主要是指對象、類別、種類等,屬性是指對象具有的特點與性質,屬性值則是對象特定屬性的值。通過一個標識ID來定義實體,實體內部通過屬性-屬性值來刻畫,實體間的關聯通過關系來表述。三元組表示一個既定事實,即實體處于給定類型的關系中。所有三元組構成一個圖,其中圖的節點表示實體,邊表示實體間的關系。
按照功能和應用來劃分,知識圖譜可以分為通用知識圖譜和行業知識圖譜。其中通用知識圖譜覆蓋的內容更廣,融合的實體更多,但準確度不高,其主要被應用于智能語義搜索領域;行業知識圖譜則針對特定領域的數據來構建,實體的屬性和數值會比較詳細和規范,行業知識圖譜對輔助和指導該行業有重要的價值。
2.2 知識圖譜的知識抽取
基于互聯網中海量的數據信息和開放的行業數據抽取可用的知識單元,包括實體、實體的屬性、實體間的關系等要素。知識抽取就是將這些不同來源、不同結構的數據進行抽取,形成結構化的知識存入到知識圖譜中。其中包括:實體抽取、實體間關系抽取和屬性抽取等。
實體抽取是指從數據信息中抽取相關實體信息,比如有人名、地名、機構、時間、數值等。在抽取的過程中不僅要識別實體還要對所抽取的實體進行分類。所屬類別可以根據知識圖譜的要求而調整。關系抽取則是抽取多個的實體的語義關系。根據關系抽取的方法可分為:基于模板的方法、基于監督學習的方法等。
2.3 知識圖譜的知識融合
知識圖譜技術提供了一種分析抽取知識、融合表示知識、存儲計算知識來構建結構化數據的方法,并通過深度學習和專家系統不斷完善,結合大數據技術和可視化技術達到快速方便地讓人們使用數據。針對領域數據專業性強、結構復雜等特點,知識圖譜技術在構建需要進行更全面的分析和研究。并針對知識的表示、抽取、融合和推理進行深入的分析和比較。
知識融合最主要的問題就是將來自不同來源和結構的同一種實體的描述進行信息融合。一般要分為兩步來完成,首先是要進行本體對齊,然后在通過相似度計算進行實體匹配。其中實體相似度是根據實體的屬性相似度向量得到的,而屬性相似度向量則是綜合了各個屬性相似度。屬性相似度的計算常用的方法有距離相似度、集合相似度等。
3 結語
知識圖譜技術是對語義Web技術的一次重要改造和升華,我們在依據大數據環境下的數據信息組織原則,探索并構建既符合網絡信息資源不斷變化規律又能切合適應用戶認知需求的知識互聯方法,使其更加深刻地展示整體而相互關聯的人類認知世界。但目前,知識圖譜的構建還面臨著數據抽取難度大,知識實體對應不準確、數據存儲方式不合理等困難和挑戰,也是我們下一步需要去研究和克服的。
【參考文獻】
[1]微軟亞洲研究院 https://www.msra.cn/.
[2]百度知識圖譜Schema http://ai.baidu.com/tech/kg/schema.
[3]搜狗知立方 https://www.sogou.com/.
[4]中國醫學院醫學信息研究所.知識圖譜.http://med.ckcest.cn/knowledge-graphs.html.
[5]于彤,劉靜,賈李蓉,等.大型中醫藥知識圖譜構建研究[J].中國數字醫學,2015,10(3):80-82.
[6]Xin luna Dong,Evgeniy Gabrilovich,et al. Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion[C],Google,1600 Amphitheatre Parkway,Mountain View,CA 94043.
[7]袁凱琦,鄧揚,陳道源,等.醫學知識圖譜構建技術與研究進展[J].計算機應用研究,2018,8(7):1929-1936.
[8]唐偉,洪宇,馮艷卉,等.網頁中商品"屬性—值"關系的自動抽取方法研究[J].中文信息學報,2013(1).