999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于本體語義驅動的開放生物醫學數據集成方法

2017-12-11 09:31:42劉玉文
湖北工程學院學報 2017年6期
關鍵詞:語義定義規則

王 凱,劉玉文,2

(1.蚌埠醫學院 衛生管理系,安徽 蚌埠 233030;2.中國科學技術大學 計算機科學與技術學院,安徽 合肥 230027)

一種基于本體語義驅動的開放生物醫學數據集成方法

王 凱1,劉玉文1,2

(1.蚌埠醫學院 衛生管理系,安徽 蚌埠 233030;2.中國科學技術大學 計算機科學與技術學院,安徽 合肥 230027)

生物醫學研究通常需要結合大量異構數據,數據間的語義鴻溝限制了生物醫學領域知識大規模融合與開發。語義Web使用機器可讀的數據格式,為數據語義集成提供了可行的技術支持。本文提出了一種面向語義Web的開放式異構生物醫學數據語義轉換和集成方法,建立基于XML(Extensible Markup Language)數據實體與語義本體概念關系之間的映射關系集,包含不同類型的映射關系以及復雜數據變換模式,自動生成具備語義邏輯關系一致的映射數據集,實現多個異構數據源數據之間的互聯與集成。試驗結果表明,基于本體語義驅動的開放生物醫學數據集成方法可以進一步提高計算機的異構數據理解能力,證明轉換和集成異構生物醫學數據信息是切實可行的。

語義本體;生物醫學數據;映射;轉換與集成

生物醫學數據的異構性和分散性使得數據的檢索和管理異常困難,主要存在領域數據資源的信息難以挖掘、異構數據類型和字段無法語義解釋以及資源訪問和查詢錯誤率較高等問題。生物醫學數據集成的目的是將重要的生物學數據最終能夠應用到臨床診斷活動中,并為診療工作提供必要的決策支持。因此,迫切需要找到能夠識別異構數據資源的集成方法,消除語義鴻溝。目前使用較為廣泛的數據語義轉換方法是面向數據倉庫以及聯機分析處理(Online analytical processing ,OLAP)的XML數據和關系數據庫處理。文獻[1]提出了一種將XML元素轉換成RDF(Resource Description Frame)語句的方法,實現數據格式的語義變化,但該方法無法實現XML的屬性關系映射。文獻[2]以XSD( XML Schemas Definition )和owl(Ontology Web Language)之間的映射關系為基礎,通過應用相同的規則,構建RDF與 XML實例之間的關系映射。文獻[3]提出基于XPath的數據轉換機制,將XML格式數據轉換成RDF格式。在關系數據庫轉換方面,W3C (World Wide Web)提出關系數據庫到RDF的規范化變換圖,改變數據格式。上述轉換方法,由于沒有考慮到數據的潛在語義信息,缺乏對數據核心語義信息的保留,導致轉換后的數據語義信息流失率較高。

本文提出一種面向異構數據源的開放生物醫學數據集成方法。通過與關系數據庫、XML文檔以及電子病歷等數據載體的協同操作,產生基于領域本體的數據描述集,實現數據轉換。數據集成過程由領域語義驅動,通過定義數據模式與本體間的映射,獲取滿足邏輯一致性的數據信息。結合動態集成機制采用多源數據集,創建原始數據語義庫,用于合并包含在不同資源中的同一實體數據。本文的目標是轉換和集成異構生物醫學數據;構建面向領域知識驅動的映射規則。

1 生物醫學數據集的半自動化建模方法

圖1是單個輸入數據資源的數據集成與轉換框架。使用XML和關系數據庫作為輸入數據模型,通過定義基于數據輸入約束規則和OWL本體之間的映射關系,建立統一的標識規則,確定屬性與本體類的實例,該規則允許合并同一類的不同個體。此外,利用數據檢測技術以及自動推理技術,檢查OWL本體的一致性,避免創建邏輯不一致的內容。通常情況下,該方法可以擴展到任何包含實體、屬性和關系的輸入數據模型,輸出RDF或OWL格式數據實例,如圖1所示。

圖1 數據集成與轉換框架

2.1生物醫學數據表示

病人電子健康記錄存儲了病人在醫療診斷和健康保健等過程中的大量有效信息。相關專家研究解決了電子病歷的標準化和規范化問題,采用雙建模層次構建信息模型,用于信息表示和規范化說明,制定了基于雙模型架構的openEHR[4]以及ISO EN13606[5]等標準格式。標準格式結構的電子病歷提供了通用化的信息表示模型,規范了數據的表達形式,有利于統一化信息的語義標準。電子病歷數據的提取通常表示為一組XML文件,其內容應滿足規定的約束條件。跨語義數據融合需要將數據轉換成具有語義識別能力的語義格式。XML技術和關系數據庫提供了定義數據集結構的基本模式和結構框架。本文基于XML schemas和關系數據模式定義數據的通用語義處理方法。

開放數據集中的數據在數據粒度、數值范圍、規模以及來源等方面存在巨大差異,同時伴隨著信息動態增長,數據差異呈現動態變化。萬維網聯盟開發了一系列用于數據交換的語義Web標準(如RDF),用于語義表示的形式化工具(如OWL本體語言),數據查詢結構(如SPARQL)以及用于存儲數據的語義機制(如RDF的存儲架構triplestores)。自動描述邏輯推理機(如Hermit或 Pellet)可用于檢查語義Web數據的一致性以及語義信息推理。開放數據集[6](Open data set)是基于語義Web數據標準下的語義信息存儲、發布和共享的語義格式數據共享集合。開放數據集應滿足四個基本要求:(1)基于URI的實體命名規則;(2)基于HTTP URI的數據查詢格式;(3)面向語義Web標準的數據檢索形式(如RDF和SPARQL);(4)面向數據發現的URIs鏈接。

2.2數據轉換及映射規則

數據轉換規則的核心是如何確定輸入數據集的內容轉化為語義格式,主要涉及兩個方面:(1)輸入數據是否按語義模式轉化為語義格式;(2)輸出數據集是否存在數據冗余。本節定義了兩種主要類型的規則,即映射規則和同一性規則。

映射規則的定義將用圖2所示的例子說明。該例采用基于orthoxml的標準化輸入模式(圖2左上)表示同源基因信息,同源領域知識模型用本體表示(圖2右上)。用方框表示輸入數據模式的實體,用@表示屬性,用箭頭表示關系。本體中的類使用圓角框表示,數據的屬性使用實心箭頭鏈接。利用映射規則建立實體、屬性與本體類之間的語義關系以及數值類型屬性和對象之間的語義關系。類和對象的屬性通過虛線相連,表示從xml架構到本體的映射。本體包含一系列的前綴,其中 ro表示關系本體,ncbi表示NCBI 分類,cdao表示數據對比分析本體以及sio表示語義集成本體。

本方法需要轉換實體、屬性和關系,映射規則允許實現三個層次的一致性。為此,定義了三種基本映射規則:

實體映射規則。它是指將輸入實體映射到OWL本體中的類。允許在OWL本體中創建個體實例。若S表示標準輸入模式實體,T表示目標本體的類,則實體映射函數entity_rule(S,T)表示對任何實例 ,存在一個符合一致性約束的個體t與之對應。如圖2中的實體映射規則實現基于XML架構的元素基因和本體中的基因類的映射鏈接。實體映射規則允許使用條件語句,進行補充定義,只將某些滿足特定屬性值的實例進行轉換。若A1是與S相關聯的屬性, C1在A1條件下的布爾變量,則entity_rule(S,T,C1)表示對任何實例 ,總存在C1不為假的條件下的一致性約束的個體t∈T。

圖2 OrthoXML與本體實例映射關系圖

屬性映射規則。它是指將實體中的屬性映射到OWL本體類中的數值型屬性。允許在本體中指定數值型屬性的數值。設S是輸入模式的一個實體,T是一個本體類,屬性A1、A2是與S和T分別關聯的數值型屬性,則該映射函數attribute_rule((S,A1),(T,A2))表示對實體S中任何與A1相關聯的實例,通過映射,總能在本體的類T中找到與數值型屬性A2相關聯的一致性個體T,且A1和A2具有相同的屬性值。如圖2中的屬性映射規則表示OrthoXML中元基因屬性id與本體基因類中數值型屬性Identifier映射鏈接。

關系映射規則。它是指將兩個實體的關聯關系映射到OWL本體中兩個類之間的對象屬性關系。若實體S1和S2通過關系R1相關聯,本體類T1和T2通過對象屬性R2相關聯,則該映射函數relation_rule((S1,R1,S2),(T1,R2,T2))是對任意給定的S1、S2的關聯關系R1,實體映射函數entity_rule(S1,T1)和entity_rule(S2,T2),均存在一個對象屬性R2,使得類T1、T2分別與其構成關聯關系。如圖2中的關系映射規則將XML模式中的物種與基因之間的層次關系映射到本體中的對象屬性關系in_taxon RO。

2.3同一性規則判別

同一性規則定義的對象是數據類型屬性以及對象屬性,在本體中實現對個體的區分。目的是為了防止重復內容的創建以及支持面向多數據源的數據整合。同一性規則能夠區別不同的URI實體。

若IR是數據類型屬性集或本體類C的對象屬性集, identity_rule(C,IR)表示在C中的所有實例與IR中的元素具有相同的值。利用數值型屬性identifier以及對象屬性定義如下同一性規則,其含義解釋如下:通過對象屬性ro:in_taxon, Gene類的實例(見表1)與NCBI:organisms類的實例具有相同的數值,即表示同一個元素。轉化具體執行過程如下:

(1)檢索和執行基本實體規則。為本體中的所有類生成一組新的實例集I。

(2)每一個轉換模態組代表了一組新添加的實例集,需要添加到I上,通過檢查他們的定義,區別每組模態信息。

(3)對于集合的每個實例,執行如下過程:模式內剩余的其他說明語句也將被執行以添加附加語義內容;檢索和執行基本屬性規則,對實例的數值型屬性賦值以及將對象屬性實例化;檢查同一性規則,如果實例是唯一的,則將其添加到輸出數據集;否則,將其合并或鏈接到一個等效的元素上。

表1 蛋白質的模式化定義

2.4數據集成

面向異構資源的數據集成模型以相同的OWL本體作為數據驅動,采用上述數據轉換規則處理不同來源的異構數據。集成核心內容是將XML模式數據映射到OWL本體,OWL本體可能包含一系列相關聯的本體轉換模態,以支持集成過程。使用數據集成模型有利于重用不同資源的轉換規則,降低輸入數據的結構異質性。表2顯示了使用的OWL本體中定義蛋白質的模式用例,這種模式不僅降低用戶在構建數據模型時對本體結構認知所產生的數據偏差,而且只需做少量修改就能實現以不同方式存儲關系蛋白CDS轉錄數據,而不需要提前在輸入模式時加以定義。表2顯示了在處理與直接蛋白質轉錄沒有關系的數據資源時,如何從變量 protein中設置參數變量 cds。

表2 蛋白質的修正模式化定義(不含CDs)

通過對每個輸入資源進行數據變換來實現數據集成,利用映射規則生成OWL本體,并且在轉換過程中應用同一性規則限制數據冗余,同時合并數據實例,確定來自不同數據源的實例是否對應于同一個實例域,合并具有相同URI的數據實例。

數據集成模型所處理的核心內容描述如下:

◆命名沖突:不同的輸入模式數據可能使用不同的術語表達相同的數據元素(即實體、屬性與關系)[7]。從不同的XML資源到OWL本體的映射解決了輸出本體中通用詞匯的集成問題。

◆數據冗余:多個數據輸入資源實例可能描述同一個實體域,并被映射到OWL本體的同一類中[8]。同一性規則能夠檢測上述冗余情況,通過實體合并或鏈接到相應的OWL數據,以減少數據規模。

◆數據不一致:數據缺失會引起數據的不一致問題。對于給定的實體,相比于OWL本體,XML數據模式可能存儲較少的屬性和關系信息。在數據映射時,XML數據可能只對部分OWL本體實例產生語義關系,會導致數據部分缺失,帶來OWL知識庫的不一致。本模型采取的處理方法是:當檢測到這種情況時,將不轉換相應的源數據,從而防止不一致的發生。為降低該方法所帶來的數據信息缺失量,將未參與映射的剩余本體實例數據添加到映射結果集。

◆資源之間的差異:由于不同的數據資源可能生成同一個OWL實例,其共同的屬性或關系數值可能不同。這可能是在使用同一性規則時,未將來自不同資源的信息實體區別標注,導致屬性間存在假性關聯。在這種情況下,增加關系映射后驗條件判斷,若該實體的存在會引起知識庫的不一致性,則它們被認為是不同的個體,分別生成各自的本體實例。

3 實驗設計

在本節中,首先將描述實現轉換方法的整體實驗設計。其次將介紹如何將該模型用于不同的生物醫學場景。

3.1實驗用例

通過從生物醫學領域選取典型數據電子病歷,分析本模型所提出的方法在數據映射、轉換以及集成等環節的數據整合效果。

電子病歷數據涉及醫療系統的數字化信息,本實驗用例選取超過2000名結直腸癌患者的電子病歷數據,采用去隱私化技術隱去敏感字段,將數據轉化成XML語義格式。使用自動推理方法確定每個病人的風險水平。采用領域本體技術將XML轉換成openEHR格式數據,其中組織病理學報告的模式化定義如表3所示。這一模式定義了基于領域本體的組織病理報告數據類,包含一個結果集(hasfinding)記錄、發現腺瘤總數以及腺瘤的大小。

表3 組織病理學報告的模式化定義

3.2設計內容

通過MySQL數據庫,將XML Schema和ADL作為輸入數據模式。輸出數據集使用OWL或RDF格式,用戶可以定義輸入模式以及OWL本體之間的映射關系集。為此,在其他轉換過程中允許創建映射上載和重用。一旦映射被定義,可以順序執行,從而產生相應的RDF或OWL格式的數據內容。應用映射規則的數據源生成的語義內容,通過一致性規則約束保證不產生多余的數據信息;通過自動推理模塊,以確保轉化的內容具有邏輯一致性。采用OWLAPI[9]和Jena API來處理和生成的RDF和OWL數據,使用Hermit推理機[10]作為語義數據推理工具。

圖3顯示了映射接口的核心部分,包含三個主要部分。左側使用分層關系表示數據輸入模式。右側對應OWL本體。圖的下部是一個文本框,包含定義的映射規則,如第三行定義了從實體molecule類的coorddimension屬性到本體Molecule類的數據類型屬性coord_dimension的映射關系。

圖4是將XML輸入模式的實體映射到轉換模式的定義系統截圖。圖的左邊是輸入模式openEHR原型,被映射到以本體形式表示的轉換模式組織病理學報告中。圖中可以看到,該映射與原型模式的各變量的特定元素產生關聯關系。

圖3 映射接口關系圖

4 總結與分析

本模型相比較于rdb-owl的手工定義映射模型,不會受限于關聯格式輸入數據,且處理復雜的本體或異構源數據的集成能力較強。比較于Karma的半自動database-ontology數據集成模型,對先前映射過程的知識基礎依賴度較小,適合處理規模較大的領域知識集。以數據倉庫為導向的集成方法,集成數據語義鏈接功能,通過定義數據轉換規則與映射規則,允許定義外部數據集。與bio-rdf模型所不同的是,本模型的語料庫包含來自多個數據源的數據,語義信息更加豐富,集成后的數據信息可操作性較強。將減少關系數據或XML數據源的約束條件,只需要定義映射的主要規則,通過數據語義轉換,實現半自動化數據集成,并通過同一性規則檢查,降低數據冗余度,提高映射集數據質量與可靠性。

圖4 XML輸入模式的實體映射到轉換模式的定義系統截圖

生物醫學數據集的開放性以及語義格式的可用性,將有利于生物醫學數據的互操作。本文提出了一種基于本體的異構數據源轉換與集成模型。較其他方法有以下改進:采用基于數據倉庫的數據轉換方法。首先,面向語義Web的生物醫學數據需要開發程序具備兼容bio rdf或EBI的RDF平臺的數據接口,數據語義倉庫能夠滿足語義資源池的基本條件,即包含LOD的可用性資源DF和OWL。其次,在生成OWL知識庫的同時,需要使用OWL DL的推理機制,實現數據的一致性處理以及降低數據冗余度,使獲得的數據集鏈接能夠使用較小的系統開銷,完成外部資源的數據融合。第三,為解決OBDA方法不便于應用于本體與XML模式映射的問題,使用數據語義倉庫能夠豐富的數據語義表示,提高數據映射的邏輯準確性。

[1] Galperin M Y, Rigden D J, Fernández-Suárez XM. Nucleic Acids Research Database Issue and Molecular Biology Database Collection[J]. Nucleic Acids Res, 2015:112-120.

[2] Tapuria A, Kalra D, Kobayashi S. Contribution of Clinical Archetypes, and the Challenges, towards Achieving Semantic Interoperability for EHRs[J]. Healthcare Informatics Research, 2013, 19: 286-293.

[3] Jupp S, Malone J, Bolleman J, et al. The EBI RDF platform: linked open data for the life sciences[J].Bioinformatics, 2014, 30:1338-1345.

[4] Wang Y, Tao J, et al. Information retrieval and data mining based on open network knowledge[J].Journal of Computer Research and Development, 2014, 52: 456-474.

[5] Evangelista A T, Hassanien A E .Dimensionality reduction of medical big data using neural-fuzzy classifier[J].Soft Computer, 2014, 19: 1115-1122.

[6] Abello A, Romero O, Bach Pedersen T, Berlanga R, Nebot V, Aramburu MJ, Simitsis A. Using Semantic Web technologies for exploratory OLAP: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2015(2): 571-585.

[7] 李勇,張志剛.基于本體語義檢索技術研究[J].計算機工程與科學,2015(4): 17-19.

[8] 劉宇鵬,李生,趙鐵軍.基于WordNet 詞義消歧的系統融合[J].自動化學報,2014(11): 1575-1580.

[10] Martínez-Costa C, Schulz S. Ontology content patterns as bridge for the semantic representation of clinical information[J]. Applied clinical informatics, 2014: 660-668.

(責任編輯:熊文濤)

AnIntegrationMethodofOpenBiomedicalDrivenbyDataSemanticOntology

Wang Kai1, Liu Yuwen1,2

(1.DepartmentofHealthManagement,BengbuMedicalCollege,Bengbu,Anhui233030,China;2.SchoolofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei,Anhui230027,China)

Biomedical research usually requires a large number of heterogeneous data. The semantic gap between data limits the large-scale integration and development of biomedical knowledge. Semantic Web provides a feasible technical support for data semantic integration using the machine-readable data format. This paper presents a method for Semantic Web oriented open semantic heterogeneous biomedical data conversion and integration. In this approach, the mapping relationship between XML data entity and the concept of ontology based semantic set is established to obtain the mapping relationship between different types and complicated data transformation model. The semantic logical relation mapping data consistent set is automatic generated automatically to achieve interoperability between data from heterogeneous data sources and integration. Experimental results show that the integrated method of open biomedical data ontology driven by the heterogeneous data for computer to further improve the understanding. It is verified to be feasible for the transformation and integration of heterogeneous biomedical data.

semantic ontology; biomedical data; mapping; transformation and integration

TP391

A

2095-4824(2017)06-0078-07

2017-02-25

安徽省高校自然科學一般項目(KJ2015B023by);蚌埠醫學院自然科學重點項目(Byky1411ZD)

王 凱(1985- ),男,安徽蚌埠人,蚌埠醫學院衛生管理系講師,碩士。

劉玉文(1982- ),男,安徽鳳陽人,蚌埠醫學院衛生管理系講師,中國科技大學計算機科學與技術學院訪問學者,碩士。

猜你喜歡
語義定義規則
撐竿跳規則的制定
數獨的規則和演變
語言與語義
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
認知范疇模糊與語義模糊
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
主站蜘蛛池模板: 中国一级特黄大片在线观看| 激情爆乳一区二区| 高清免费毛片| 国产一区二区精品高清在线观看| 午夜啪啪网| 日本人真淫视频一区二区三区| 热久久综合这里只有精品电影| 精品福利国产| 精品国产免费人成在线观看| 欧美国产在线一区| 超清人妻系列无码专区| 亚洲国产成人久久精品软件| 国产精品尹人在线观看| 欧美精品1区2区| 日韩欧美国产三级| 亚洲中文无码h在线观看| 激情综合婷婷丁香五月尤物| 国产精品亚洲天堂| 国产99免费视频| 国产小视频在线高清播放| 久久动漫精品| 国产成人高清在线精品| 国产区网址| 日本AⅤ精品一区二区三区日| 高清免费毛片| 秋霞一区二区三区| 九色视频一区| 国产成人永久免费视频| 美女裸体18禁网站| 国产精品一区不卡| 麻豆精选在线| 欧美乱妇高清无乱码免费| 国产成人福利在线| 97视频在线观看免费视频| 国产欧美日韩另类精彩视频| 国产噜噜在线视频观看| 97se亚洲综合在线韩国专区福利| 天堂亚洲网| 国产一区二区三区夜色| 亚洲国产精品无码AV| 91高清在线视频| 国产精品尤物在线| 国产又爽又黄无遮挡免费观看| 亚洲色图欧美视频| 九九热精品免费视频| av一区二区三区高清久久| 2022国产91精品久久久久久| 精品国产成人高清在线| 国产亚洲精| 日韩精品成人在线| 91亚洲视频下载| 亚洲另类色| 婷婷综合在线观看丁香| 伊人蕉久影院| 亚洲欧美另类中文字幕| 中文字幕 日韩 欧美| 久久无码免费束人妻| 久久国产免费观看| 伊人国产无码高清视频| 亚洲Av激情网五月天| 久久9966精品国产免费| 日本免费a视频| 国产午夜无码片在线观看网站 | 伊人久久大线影院首页| 午夜毛片免费观看视频 | 日韩美毛片| 亚洲浓毛av| 国产一区二区三区免费观看| 国产精品久久久久久久伊一| 97精品国产高清久久久久蜜芽| 无码免费的亚洲视频| 国产成人亚洲日韩欧美电影| 日韩欧美成人高清在线观看| 精品在线免费播放| 伊人91视频| 国产真实二区一区在线亚洲| 亚洲日本www| 无码内射在线| 国产真实二区一区在线亚洲| 久久亚洲美女精品国产精品| 99re经典视频在线| 日本在线视频免费|