999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的知識圖譜應用研究

2019-09-25 06:08:11王立平曹立勇吳興燕丁衛明
科技視界 2019年21期
關鍵詞:大數據

王立平 曹立勇 吳興燕 丁衛明

【摘 要】隨著互聯網和信息的高速發展,知識圖譜得到了廣泛的關注。本文介紹了知識圖譜的發展現狀和實際應用情況,并綜述了知識圖譜的關鍵技術模塊:知識表示、知識抽取、知識融合和知識推理。進一步對知識圖譜的發展和應用前景進行了展望。

【關鍵詞】知識圖譜;大數據;知識表示

中圖分類號: TP311.13;TP391.1文獻標識碼: A 文章編號: 2095-2457(2019)21-0089-002

DOI:10.19694/j.cnki.issn2095-2457.2019.21.040

Application Research Based on Big Data Knowledge Graph

WANG Li-ping CAO Li-yong* WU Xing-yan DING Wei-ming

(Anqing Medical College,Anqing Anhui 246052,China)

【Abstract】With the rapid development of the Internet and information,the knowledge graph has received extensive attention.This paper introduces the development status and practical application of knowledge graph,And summarizes the key technical modules of the knowledge graph:Knowledge Representation、Knowledge Extraction、Knowledge Fusion and Knowledge Inference.Furthermore,the development and application prospect of knowledge graph are prospected.

【Key words】Knowledge Graph;Big Data;Knowledge Representation

0 引言

隨著大數據時代的到來,海量的數據信息呈爆炸式增長。如何從這些數據信息中抽取有效的知識,并表示和存儲從而更好地為人類和機器理解使用是當前熱門的研究課題。然而互聯網上的內容多源異質、結構松散為知識的抽取、表示和存儲帶來了極大的挑戰。知識圖譜就是在這種背景下產生的課題。近幾年,知識圖譜得到了廣泛的關注,通過數據整理、數據挖掘、機器學習和專家系統等技術,知識圖譜的應用得到了長足的發展。但目前知識圖譜的應用研究尚處在起步階段且存在限制多、效率低、拓展性差等缺點。

1 知識圖譜的研究現狀

知識圖譜的概念于2012年5月被Google正式提出,原來的目的主要是為了提高搜索引擎的能力,提升搜索結果的質量以便更好滿足用戶的搜索體驗。本質上,知識圖譜是描述各種實體或概念及其關系,它們構成了一張巨大的語義圖,節點表示實體或概念,邊則是節點的屬性或關系構成。

隨著人工智能的不斷發展和應用,知識圖譜在學術界和工業界得到了普及,并在智能檢索、智能問答、大數據風控、推薦系統等領域發揮出了重要的作用。國際上最具影響力的知識圖譜主要包括以下幾種:谷歌知識圖譜Freebase[1]是一個類似于Wikipedia的創作共享類網站,它的所有內容都是通過創意共用的方式由用戶添加。YAGO(Yet Another Great Ontology)[2]系列知識圖譜是由德國Max Planck計算機科學研究所創建,它通過對維基百科和WorldNet的大規模本體進行整合完成了大規模本體的構建。目前,YAGO擁有10種語言約459萬個實體,2400萬個Facts,且支持數據集的完全下載。另外還有微軟Satori和Facebook的Entity Graph。其中,2016年10月,微軟亞洲研究院發布全新的、能幫助計算機更好運作的微軟知識圖譜(Microsoft Concept Graph)[3],它是一個大型的知識圖譜系統,包含的知識來自數以億計的網頁和多年積累的搜索日志,可以為機器提供文本理解的常識性知識。

隨著大數據時代的興起,國外越來越多的研究機構和公司都構建和發布了自己的知識圖譜。而國內的知識圖譜建設起步較晚,規模比較完善的主要集中在幾家大型的互聯網公司,如百度的知識圖譜Schema[4]、阿里巴巴的商品知識圖譜和搜狗的知立方[5]等。百度的知識圖譜Schema目前主要用來規范百度內外部合作方結構化數據交換,以及作為百度知識圖譜構建、知識計算的核心數據結構。阿里知識圖譜以商品為核心,憑借自身海量數據,利用實體識別、實體鏈指和語義分析等技術構建了一個龐大的商品庫,以便更好地服務用戶。而為了讓用戶獲取信息更簡單,搜狗搜索于2012年11月23日發布全新的知識庫搜索引擎--“知立方”,這是國內搜索引擎行業中首家知識庫搜索產品。

在醫療健康領域,目前有Google構建了包含常見癥狀、治療手段、受此問題影響的典型年齡組、是否嚴重等信息的知識圖譜。中國醫學院醫學信息研究所通過對醫藥衛生領域各類知識的分析、整理,使用圖形學、信息可視化技術,構建的共五大類311種疾病的知識圖譜[6]。中國中醫科學院中醫藥信息研究所主要以“中醫藥學語言系統”中10余萬個中醫概念以及100余萬個語義關系為知識圖譜的骨架構建中醫藥知識圖譜體系[7]。

2 知識圖譜的關鍵技術模塊

隨著信息技術的不斷發展,數據信息呈爆炸式增長,這些海量的數據具有多源、異構、組織結構松散等特點,它與用戶有限的獲取知識和處理數據的能力之間的矛盾日益明顯。數據多源異構,結構松散的特質,在信息技術飛速發展的今天,知識大量存在于非結構化的文本數據、半結構化的表格、網頁以及信息系統的結構化數據中,而隨著普通民眾生活水平的提高,大家對生活品質和信息獲取也越來越重視。所以,人們都迫切地需要一種能夠幫助他們簡單快速地獲取數據信息的渠道和方法。

2.1 知識圖譜的定義與表示

知識圖譜是語義Web基礎下的一種技術應用,是一種圖的數據結構,由節點和標注的邊組成,或者說是由實體和實體間的關系組成。知識圖譜較為普遍的表示形式是三元組,即G=(head,relation,tail),其中head和tail均為實體,relation=r ,r ,…,r 是實體的關系集合。三元組的形式有(實體1,關系,實體2)和(概念,屬性,屬性值)等,實體是知識圖譜的基本元素,關系是存在于不同實體之間的聯系,概念主要是指對象、類別、種類等,屬性是指對象具有的特點與性質,屬性值則是對象特定屬性的值。通過一個標識ID來定義實體,實體內部通過屬性-屬性值來刻畫,實體間的關聯通過關系來表述。三元組表示一個既定事實,即實體處于給定類型的關系中。所有三元組構成一個圖,其中圖的節點表示實體,邊表示實體間的關系。

按照功能和應用來劃分,知識圖譜可以分為通用知識圖譜和行業知識圖譜。其中通用知識圖譜覆蓋的內容更廣,融合的實體更多,但準確度不高,其主要被應用于智能語義搜索領域;行業知識圖譜則針對特定領域的數據來構建,實體的屬性和數值會比較詳細和規范,行業知識圖譜對輔助和指導該行業有重要的價值。

2.2 知識圖譜的知識抽取

基于互聯網中海量的數據信息和開放的行業數據抽取可用的知識單元,包括實體、實體的屬性、實體間的關系等要素。知識抽取就是將這些不同來源、不同結構的數據進行抽取,形成結構化的知識存入到知識圖譜中。其中包括:實體抽取、實體間關系抽取和屬性抽取等。

實體抽取是指從數據信息中抽取相關實體信息,比如有人名、地名、機構、時間、數值等。在抽取的過程中不僅要識別實體還要對所抽取的實體進行分類。所屬類別可以根據知識圖譜的要求而調整。關系抽取則是抽取多個的實體的語義關系。根據關系抽取的方法可分為:基于模板的方法、基于監督學習的方法等。

2.3 知識圖譜的知識融合

知識圖譜技術提供了一種分析抽取知識、融合表示知識、存儲計算知識來構建結構化數據的方法,并通過深度學習和專家系統不斷完善,結合大數據技術和可視化技術達到快速方便地讓人們使用數據。針對領域數據專業性強、結構復雜等特點,知識圖譜技術在構建需要進行更全面的分析和研究。并針對知識的表示、抽取、融合和推理進行深入的分析和比較。

知識融合最主要的問題就是將來自不同來源和結構的同一種實體的描述進行信息融合。一般要分為兩步來完成,首先是要進行本體對齊,然后在通過相似度計算進行實體匹配。其中實體相似度是根據實體的屬性相似度向量得到的,而屬性相似度向量則是綜合了各個屬性相似度。屬性相似度的計算常用的方法有距離相似度、集合相似度等。

3 結語

知識圖譜技術是對語義Web技術的一次重要改造和升華,我們在依據大數據環境下的數據信息組織原則,探索并構建既符合網絡信息資源不斷變化規律又能切合適應用戶認知需求的知識互聯方法,使其更加深刻地展示整體而相互關聯的人類認知世界。但目前,知識圖譜的構建還面臨著數據抽取難度大,知識實體對應不準確、數據存儲方式不合理等困難和挑戰,也是我們下一步需要去研究和克服的。

【參考文獻】

[1]微軟亞洲研究院 https://www.msra.cn/.

[2]百度知識圖譜Schema http://ai.baidu.com/tech/kg/schema.

[3]搜狗知立方 https://www.sogou.com/.

[4]中國醫學院醫學信息研究所.知識圖譜.http://med.ckcest.cn/knowledge-graphs.html.

[5]于彤,劉靜,賈李蓉,等.大型中醫藥知識圖譜構建研究[J].中國數字醫學,2015,10(3):80-82.

[6]Xin luna Dong,Evgeniy Gabrilovich,et al. Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion[C],Google,1600 Amphitheatre Parkway,Mountain View,CA 94043.

[7]袁凱琦,鄧揚,陳道源,等.醫學知識圖譜構建技術與研究進展[J].計算機應用研究,2018,8(7):1929-1936.

[8]唐偉,洪宇,馮艷卉,等.網頁中商品"屬性—值"關系的自動抽取方法研究[J].中文信息學報,2013(1).

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 亚洲一级无毛片无码在线免费视频| 亚洲无码精彩视频在线观看| 99久久精品无码专区免费| 伊人天堂网| 一级做a爰片久久免费| 国产在线小视频| 国产精品吹潮在线观看中文| 在线一级毛片| 亚洲精品无码高潮喷水A| 全午夜免费一级毛片| 日韩乱码免费一区二区三区| 91在线精品免费免费播放| 国产免费a级片| 亚洲国产精品久久久久秋霞影院| 99激情网| 久操线在视频在线观看| 精品视频福利| 国产69精品久久久久孕妇大杂乱| 伊人久久精品无码麻豆精品| 国产精品九九视频| 青草视频久久| 久久精品人妻中文系列| 国产成人艳妇AA视频在线| 亚洲国产精品日韩av专区| 九九久久精品免费观看| 51国产偷自视频区视频手机观看| 国产欧美日韩91| 18禁不卡免费网站| 天堂网亚洲综合在线| 网久久综合| 色综合手机在线| 国产福利小视频高清在线观看| 热99精品视频| 国产精品伦视频观看免费| 四虎国产在线观看| 无码电影在线观看| 久久精品日日躁夜夜躁欧美| 亚洲娇小与黑人巨大交| 久久久受www免费人成| 国产精品护士| 在线欧美日韩国产| 亚洲av无码成人专区| 国产情侣一区二区三区| 红杏AV在线无码| 亚洲香蕉在线| 午夜一区二区三区| 亚洲香蕉伊综合在人在线| 国产一级一级毛片永久| 精品无码视频在线观看| 亚洲永久视频| 九九精品在线观看| 国产在线视频福利资源站| 国产三级韩国三级理| av一区二区三区高清久久| 亚洲欧美不卡视频| 欧美一区精品| 国产午夜精品一区二区三区软件| 毛片免费试看| 91视频日本| 国产成人久久综合777777麻豆 | 国产99视频免费精品是看6| 亚洲成年人片| 波多野结衣中文字幕久久| 女同国产精品一区二区| 亚洲午夜福利精品无码不卡| 色天天综合久久久久综合片| 久草性视频| 污网站免费在线观看| 中文字幕人妻av一区二区| 欧美午夜小视频| 韩国福利一区| www.youjizz.com久久| 日韩在线观看网站| 国产精品专区第一页在线观看| 久久香蕉国产线看观| 国产成人喷潮在线观看| 日韩成人免费网站| 国产在线自在拍91精品黑人| 国产美女自慰在线观看| 午夜国产小视频| 91亚洲精选| 91色在线视频|