999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Neo4j生物醫藥知識圖譜的構建

2020-06-30 10:13:47曹皓偉徐建良竇方坤
計算機時代 2020年6期

曹皓偉 徐建良 竇方坤

摘? 要: 人類積累了大量的生物醫藥科研數據,這些數據以不同的形式存放在不同的數據源中,而數據的組織形式決定了數據的使用價值。為了使數據發揮更大的價值,將多源異構數據應用于知識挖掘與發現,深入研究和改進了知識融合等知識圖譜的構建技術,使用Neo4j圖形數據庫進行數據存儲,構建了生物醫藥領域的大規模知識圖譜。知識圖譜的構建可為后期的知識挖掘與知識圖譜的應用作支撐。

關鍵詞: Neo4j; 圖數據庫; 生物醫藥; 知識圖譜構建; 數據融合

中圖分類號:TP399? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)06-35-04

Abstract: Human beings have accumulated a large number of biomedical research data, which are stored in different forms in different sources. The organization of the data determines the use value of the data. In order to make the data play a greater value, the multi-source heterogeneous data is applied to knowledge mining and discovery. The construction technologies of knowledge graph such as knowledge fusion are deeply studied and improved in this paper, and Neo4j graph database is used for data storage to construct a large-scale knowledge graph in the field of biomedicine, which can support knowledge mining and other applications later.

Key words: Neo4j; knowledge graph; biomedicine; knowledge graph construction; data fusion

0 引言

2012年Google公司提出知識圖譜的概念,目的是加強智能搜索[1],概念提出后備受關注,自此各大公司與科研機構先后推出面向各行業各領域的知識圖譜。目前知識圖譜已被廣泛應用于電商、金融、醫學等領域,在智能搜索、反欺詐、智能決策和智能問答等方面發揮著重要的作用[2]。

1 研究現狀

1.1 知識圖譜的定義

知識圖譜基于圖的數據結構進行存儲,是語義網絡的技術之一,知識圖譜由head、relationship、tail三元組構成[3],可以表示為G={H,R,T},其中H={h1,h2,…h|n|}代表了知識圖譜中實體的集合,R代表了知識圖譜中所有關系的集合,T屬于H×R×H,代表了知識圖譜中的三元組集合,三元組集合的基本表示形式包括{實體A,關系,實體B},如化合物A對蛋白質B具有活性、{實體,包含,屬性},如化合物具有相對分子質量的屬性,{屬性、屬性的值、值},如相對分子質量是124.5g/mol等。知識圖譜在本質上表示了實體之間的語義關系,是對現實世界中事物和關聯的描述。

1.2 知識圖譜的分類

按照面向領域的不同,識圖譜可以分為開放鏈接知識圖譜和垂直行業知識圖譜[3]。開放鏈接知識圖譜不面向特定領域,具有一定的普適性。例如基于維基百科的Wikidata[4]等;垂直行業知識圖譜面向某個具體領域,具有一定的專業性,如GeoNames[5]等。

1.3 知識圖譜的構建

知識圖譜的構建方式分為自頂向下、自底向上和混合方式三種。自頂向下的構建方式是在知識圖譜構建的初期先構建知識圖譜的本體或模式層,預先定義知識圖譜的組織結構。自底向上的構建方式在初期沒有預定義的組織結構而是從數據源的模式層中不斷的提取更新概念和概念之間的組織結構,通過數據層來指導模式層的構建。自頂向下與自底向上混合的構建方式是在初期有預定義的本體或模式層,同時隨著數據源的加入,數據源的組織結構可以對知識圖譜模式層進行更新改進,從而使知識圖譜更加完善和可靠。

知識圖譜構建的關鍵技術主要包括數據獲取、知識抽取、知識融合、知識計算和知識應用,如圖1所示。

數據獲取:是前期對數據的準備,即對知識圖譜所在的領域數據的獲取,這些數據包括結構化數據、半結構化數據與非結構化數據。

知識抽取:知識抽取也叫信息抽取,是一種通過自動化的方式從半結構化或非結構化的數據中抽取實體、關系、屬性信息的技術。在早期知識抽取主要通過啟發式算法與規則相結合的方式來實現,現在常用的方法有借助本體與詞匯集,借助多層神經網絡和自然語言處理等。

知識融合:知識融合主要是對概念實體進行鏈接,來自不同數據源的概念可能在含義、指代粒度上有所不同,存在的問題主要有:①命名相同概念可能指代不同的實體;②命名不同的概念可能指代相同的實體;③概念指代的粒度不同。為了解決以上問題,常使用基于本體或神經網絡的相似性打分函等方法進行知識融合。

知識計算:知識計算主要包括知識推理、置信度檢查、子圖匹配、本體推理、知識挖掘等幾部分,是知識圖譜用于智能計算和推理的基礎。

知識應用:主要指基于知識圖譜開發應用,例如基于知識圖譜實現問答系統、專家系統、推薦系統等。

1.4 知識圖譜的存儲

目前知識圖譜有多種存儲方案,基于disk或mainmemory的原生數據庫、基于關系型數據庫、基于非關系型數據庫。因為基于圖形的存儲結構更有利于發現實體之間潛在的關系,所以本文使用非關系型數據庫中的圖形數據庫存儲知識圖譜。將知識圖譜存入圖數據庫,是將知識圖譜的實體存為圖數據庫中的節點,而實體間的關系存為連接各個節點的邊[6]。目前主流的圖數據庫有美國Neo technology機構開發的Neo4j數據庫、微軟公司開發的GraphEngine數據庫、北京大學開發的gstore數據庫[7]等等。其中目前最常用的圖數據庫是Neo4j,它是一個成熟的高性能圖引擎,同時支持分布式,Neo4j圖數據庫對Java平臺具有很好的兼容性,有利于后期的工程開發。綜合以上優勢,本文使用Neo4j圖數據庫對知識圖譜進行存儲。

2 生物醫藥知識圖譜的構建

生物醫藥知識圖譜的構建主要包括數據獲取、知識抽取、知識融合等幾個步驟。數據獲取即獲取相關領域的數據源,知識抽取是從數據源中識別并提取相關實體,知識融合是把來源不同的等價或相關實體進行鏈接。

2.1 領域數據源

生物醫藥知識圖譜的構建需要整合多個領域的數據,隨著生物醫藥領域的發展,科學家積累了大量相關的科研數據,這些數據以多種多樣的形式在互聯網上開放共享,包括生物醫藥領域相關的文獻、化合物、蛋白質、藥物等等。目前主流的生物醫藥文獻數據庫有包括英國的Europe PubMED Center(Europe PMC)[8]數據庫、美國的MEDLINE數據庫等;主流的化合物數據庫有ZINC15等。本文應用的數據庫如表1所示。

2.2 數據獲取與知識抽取

生物醫藥知識圖譜涉及化合物、蛋白質、文獻等多個領域的數據,這些領域數據大多以XML、JSON等格式存儲并在互聯網上開放共享,本文通過直接下載或者編寫網絡爬蟲的方式來完成數據獲取,數據獲取后,通過實現對XML、JSON等多種格式的解析來實現對實體和關系的抽取。

2.3 知識融合

在知識融合階段需要對實體和實體的屬性進行對齊。在實體對齊階段首先考慮通過實體的唯一標識進行實體對齊,例如化合物的InCHI屬性和CAS Number屬性,蛋白質的UniprotID屬性等等,若實體不具有唯一標識的信息則需要使用基于相似性的打分函數來實現。同理,屬性的對齊也是通過基于本體與詞匯集的相似度評分算法來實現,例如化合物的“相對分子質量”屬性,在PubCHEM數據源中為“Molecular Weight”,在Zinc15數據源中為“Mwt”,通過構建的本體來標識兩個相同的屬性概念從而實現實體屬性的對齊。

下面將以蛋白質的相關數據為例介紹實體對齊方法并進行實驗評估。蛋白質的命名具有多樣性,來自不同數據源的同一個蛋白質可能具有不同的名稱,例如人類的UBP7蛋白,其常見的命名有“UBP7_HUMAN”、“USP7 HAUSP”等6種,如表2所示。因為實體概念的同義詞現象,導致在實體對齊時基于規則的算法不能準確的進行匹配,所以需要使用相似性函數進行相似度評估,常用的相似性函數有①基于文本的相似性函數如Jaccard相似性算法、余弦相似性算法、編輯距離相似性算法;②基于結構的相似性函數如共同鄰居計數算法、Adar評分算法等。本文在綜合使用這兩種相似性算法的基礎上構建了基于領域的本體與詞匯表來提升相似性函數的準確性。

從不同蛋白質數據源中抽取1000個蛋白質概念的集合P={p1,p2,……,p1000}進行實驗設計,將P平均分為兩組P1和P2,使用P1集合構建蛋白質本體和詞匯集,使用P2集合分別對三種相似性算法進行評估。其中基于文本的相似性函數綜合使用了余弦相似性算法和編輯距離相似性算法,如公式⑴。

經過實驗驗證可以看出基于本體的實體對齊算法在精度、召回率、f-score值三個評估指標上都優于基于文本相似性和基于結構相似性算法,其中精度提升了16%,召回率提升了28%,f-score值提升了23%,綜上所述,使用本體和同義詞表有利于提升相似度算法的準確性。

2.4 生物醫藥知識圖譜的存儲

知識融合后需存入Neo4J圖數據庫,Neo4J圖數據庫底層使用圖數據結構進行存儲,大幅度提升了數據檢索的性能。在數據導入方面,Neo4J支持三種數據導入方式:①通過Cypher Create語句;②通過Cypher LOAD CSV方式;③通過Neo4J-Import工具。前兩種方式可以在任何情況下導入,但速度慢,第三種導入方式速度快但只能在初始化時進行數據導入。本文使用第三種方式,將融合后的數據格式化為CSV格式后,通過腳本進行數據導入。構建后的知識圖譜如圖2所示。其中知識圖譜中包括76萬條實體、230萬條關聯,如表4所示。

3 結束語

本文借助Neo4j圖數據庫構建了大規模生物醫藥知識圖譜并借助領域本體與詞匯集改進了知識融合算法,算法的準確性提升約20%,為知識圖譜的自動化構建、知識圖譜的應用做了準備。

本課題仍然有很多不足與待實現部分,如算法的準確性與知識圖譜構建的自動化程度有待進一步提升,同時基于生物醫藥知識圖譜可以開發知識問答、決策與發現系統,有待后期進一步完善。

參考文獻(References):

[1] 歐艷鵬.知識圖譜技術研究綜述[J].電子世界,2018.13:54,56

[2] 阮彤,孫程琳,王昊奮,方之家,殷亦超.中醫藥知識圖譜構建與應用[J].醫學信息學雜志,2016.37(4):8-13

[3] 徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016.45(4):589-606

[4] WMF.Wikidata[EB/OL].[2015-11-11].https://www.wikidata.org/wiki/Wikidata:Main_Page.

[5] NiuX,SunXR,WangHF,et al.Zhishi.me-weaving Chineselinking open data.Proceedings of the 10th International Semantic Web Conference.Bonn,Germany,2011:205-220

[6] 黃恒琪,于娟,廖曉,席運江.知識圖譜研究綜述[J].計算機系統應用,2019.28(6):1-12

[7] Zou L,?zsuMT,ChenL,etal.gStore:A graph-based SPARQLquery engine.The VLDB Journal,2014.23(4):565-590

[8] Hodgman, Charlie T .Insant notes in bioinformatics=生物信息學/2nd ed[M].科學出版社,2010.

主站蜘蛛池模板: 亚洲免费毛片| 一级毛片视频免费| 人妻91无码色偷偷色噜噜噜| 在线色综合| 性做久久久久久久免费看| 偷拍久久网| 成人国产精品网站在线看| 波多野结衣国产精品| 欧美日韩国产在线播放| AV无码一区二区三区四区| 国产在线一二三区| 国产精品美乳| 国产亚洲视频中文字幕视频| 国产精品成人观看视频国产 | 国产午夜福利亚洲第一| 中文精品久久久久国产网址| 无码久看视频| 国产成人免费视频精品一区二区| 啦啦啦网站在线观看a毛片| 亚洲综合在线网| 在线99视频| 97视频免费在线观看| 亚洲无码高清视频在线观看 | 国产极品粉嫩小泬免费看| 色偷偷一区| 日韩东京热无码人妻| 国产在线欧美| 四虎成人精品在永久免费| 国产高清在线精品一区二区三区| 操国产美女| jizz亚洲高清在线观看| 91视频青青草| 亚洲区视频在线观看| 亚洲精品视频免费观看| 亚洲天堂视频在线免费观看| 又黄又湿又爽的视频| 国产91线观看| 99re热精品视频国产免费| 欧美a√在线| 高潮毛片免费观看| 日本一区二区三区精品视频| 免费无码AV片在线观看国产| www.99在线观看| 国产波多野结衣中文在线播放 | 中文字幕在线一区二区在线| 亚洲第一成年免费网站| 亚洲高清无码久久久| 精品国产福利在线| 亚洲日本韩在线观看| 免费在线看黄网址| 免费中文字幕一级毛片| 欧美成人h精品网站| 少妇精品网站| 亚洲va视频| 国产a v无码专区亚洲av| 国产国语一级毛片| 日本一区高清| 午夜不卡视频| 在线五月婷婷| 免费视频在线2021入口| 欧美高清日韩| 亚洲A∨无码精品午夜在线观看| 亚洲一级毛片在线播放| 亚洲日本一本dvd高清| 永久免费无码日韩视频| 又粗又硬又大又爽免费视频播放| 日韩精品无码免费一区二区三区 | 国产欧美日韩免费| 亚洲视频在线青青| 亚洲Av激情网五月天| 欧美成人精品一级在线观看| 成AV人片一区二区三区久久| 天堂中文在线资源| 黄色a一级视频| 亚洲精品在线观看91| 国产人在线成免费视频| 国产a在视频线精品视频下载| 2018日日摸夜夜添狠狠躁| www亚洲天堂| 无码aaa视频| 2020国产免费久久精品99| 免费看a毛片|