郭靖文 楊 晟 史涪仁 邵 晨 張璐璐 王 恒 楊嘯林
(中國醫學科學院基礎醫學研究所,北京協和醫學院基礎學院,北京 100005)
MedPortal:面向精準醫學的生物醫學本體資源存儲和應用平臺
郭靖文 楊 晟 史涪仁 邵 晨 張璐璐 王 恒?楊嘯林?
(中國醫學科學院基礎醫學研究所,北京協和醫學院基礎學院,北京 100005)
在過去10余年中,本體廣泛應用于生物醫學數據分析、檢索、整合和再利用中。本體作為一種特殊類型的數據資源,數據量也在迅速增加。為了促進精準醫療領域數據集的整合,并為國內用戶提供本體數據資源服務,構建MedPortal本體資源存儲和應用平臺。通過復用NCBO BioPortal技術,搭建MedPotal軟件框架。遴選精準醫學相關本體,建立本體資源庫。對原框架中的代碼和本體處理工具進行修正和完善,使之能夠在本體穩定運行的基礎上滿足大批量數據的自動化處理。目前,該平臺已整合42個生物醫學本體,建立了本體之間術語映射關系,通過頁面和REST API方式,提供術語檢索、本體映射、數據標準化注釋等本體應用服務(http://medportal.bmicc.cn)。MedPortal本體平臺將為生物醫學數據整合提供幫助。
生物醫學本體;MedPortal;數據庫;本體映射;本體注釋
從2013年Nature Genetics Conference(自然-遺傳學大會)的主題定為From GWAS to Precision Medicine(從GWAS到精準醫學),到2015年美國和中國等相繼提出精準醫學計劃,精準醫學——旨在針對個體制定預防和治療策略的醫學模式——逐漸成為了醫學界研究的熱點[1-2]。精準醫學所要求的對高通量、異質和多來源數據的使用,對數據存儲、管理以及計算分析提出了新的挑戰[3]。為了有效地整合利用基因、表型與疾病等多方面的數據來分析個體的健康狀況,需要首先對這些數據進行標準化,消除數據間的多種異質性。
本體是在一個具體的學科領域中,由該學科的專業術語與術語間的關系構成的一個復雜知識網絡。通過本體中的標準化術語,不同數據集中的元數據可以進行術語的統一,進而消除異質性,實現數據的整合[4-5]。同時,通過本體中標準化術語之間的關系,數據集中的元數據之間還可以構建起語義關聯,實現元數據內容的索引,從而對原始數據進行更深層次的整合、注釋、分析與挖掘等[6]。本體作為一類專業的數據資源,近些年發展迅速,國際相關機構先后開始進行本體資源庫的建設,促進本體的使用。例如,OBO Foundry[7]利用符合其本體標準的本體構建了Ontobee數據庫[8],歐洲生物信息學研究所(European Bioinformatics Institute,EBI)也建立了Ontology Lookup Service本體資源平臺和查詢工具[9]。美國國家生物醫學本體中心(National Center for Biomedical Ontology,NCBO)從2005年推動本體資源存儲和應用的開源框架系統BioPortal[10]的建設,形成了完整的本體數據的圖數據庫存儲,并開發了本體檢索、術語映射、數據注釋和本體推薦等本體應用工具。經過近些年的發展,目前Bioportal成為國際上最大的、綜合的生命科學本體資源庫,內容涉及醫學、微生物、農業、植物、畜牧業、環境等多個領域。BioPortal功能強大且代碼開源,國際上多個機構利用此框架進行專業領域的本體服務。
為了促進本體在國內精準醫學項目中更好的應用,同時為了引入中文本體,實現跨語言本體之間語義網絡的映射,筆者在本地部署了BioPortal的軟件框架,收集了基因、表型與疾病相關本體資源,建立了MedPortal本體資源存儲和應用平臺。
BioPortal是支持虛擬社區的本體資源平臺,它允許用戶進行本體上傳和管理,提供本體瀏覽、檢索等多種使用[11],采用了面向網絡服務的IT構架、模塊化的功能實現[12]。上傳本體經由Python腳本umls2rdf.py[13]和 Java 類庫 OWL API 4.0.2 解析成為OWL/RDF[14],再存儲于 4Store 1.1.5 圖數據庫中[11],搜索引擎經由 Solr 4.10.4和 Tomcat 6.0.26實現。BioPortal編程語言主要為Ruby。
為保證本地MedPortal與NCBO BioPortal核心代碼基本同步,在部署過程中使用了先安裝BioPortal虛擬應用、再利用Github提供的各個模塊源代碼進行升級的策略,基本步驟如下:
步驟1:虛擬應用的部署與測試,通過與NCBO BioPortal項目組聯絡,獲得BioPortal虛擬機OVF格式鏡像文件,版本號為2.4,包括全套的操作系統(CentOS 6.6)、相應的 BioPortal部署環境和BioPortal的軟件框架代碼[15]。根據 BioPortal官網提供的技術文檔( https://www.bioontology.org/wiki/),在本地服務器(硬盤容量為100GB,CPU 為4核 Intel(R)Xeon(R)CPU E5-2609 0@2.40 GHz,內存為32GB)上進行了部署和初步調試。
步驟2:更新Ruby版本,從虛擬應用中的2.1.5版本更新至2.2.6版本。
步驟 3:利用 Linux操作系統的 git工具,從Github 平臺克隆功能模塊 bioportal_web_ui(https://github.com/ncbo/bioportal_web_ui)、定時任務管理模 塊 ncbo_cron( https://github.com/ncbo/ncbo_cron)和本體核心應用模塊 ontologies_api(https://github.com/ncbo/ontologies_api);克隆完成后,對各個模塊順利運行所需的Ruby程序包進行測試,依據提示進行程序包的升級和下載安裝。
步驟4:根據本地計算機和服務需求,設置上述各功能模塊的配置文件。
步驟5:根據實際網絡情況,進行網絡相關的參數設計并調試。
步驟6:將整個系統正常運行所需的、部署在各類云平臺的所有關聯軟件和腳本進行本地化部署,并改寫本地程序代碼,以確保系統的正常調用。
步驟7:根據本地運行需要,進行頁面修改。
部署完成后,通過 http://medportal.bmicc.cn提供對外服務。
MedPortal收集的本體服務于精準醫學研究過程中的信息整合與信息分析。從本體工程學的角度考慮,MedPortal中的本體應包括上層本體、中層本體和領域本體3個層次。在上層本體,應選取本體工程學基礎型本體,如基本形式本體(basic formal ontology,BFO)[16],為多領域本體的實現提供最基本的概念與結構支撐。在中層本體層,考慮導入信息部件本體(information artifact ontology,IAO)[17]、生物醫學調查本體(ontologyforbiomedical investigation,OBI)[18]與通用醫學科學本體(ontology for general medical science,OGMS),為上層本體與精準醫學相關的領域本體之間的承接架構橋梁。在領域本體,資源庫中的本體圍繞精準醫學研究的需求,涉及的本體包含兩個方面:一方面是高質量的參考本體(reference ontology),以 OBO foundry為基礎,選取符合其規范的國際參考本體,如基因本體(gene ontology,GO)[19]等;另一方面是臨床醫學的醫療與實踐和相關生命科學研究領域的專業本體和受控詞匯表,圍繞美國國立醫學圖書館的統一醫學語言系統(Unified Medical Language System,UMLS)[20]進行選取。
BioPortal框架本身支持多種格式本體資源上傳,包括OWL、OBO、UMLS和SKOS 4種格式。在實際操作層面,具體本體的上傳過程如下:
1)上傳前利用Protégé5.1.0 軟件和測試機進行本體檢測,如出現無法解析的錯誤,則根據提示進行本體文件修正。
2)完整填寫上傳本體名稱、簡稱、版本、來源組織和簡述等本體元數據信息,以便用戶檢索。
3)對于超大本體(文件大小超過200 MB),采用壓縮格式上傳。
4)針對超大本體手工控制,增加數據處理所需內存,增加數據解析和映射建立的CPU占用時間。
MedPortal的本體檢索(search)、術語映射(mappings)、本體注釋(annotator)和本體推薦(recommender)的高級功能[9],可以通過 REST API、以Web Service的方式實現。在此基礎上,利用Python的urllib2與json包實現了數據的輸入、輸出和遠程調用,并封裝好腳本供用戶使用。
尿蛋白質生物標志物數據庫(Urinary Protein Biomarker Database)是一個經人工編審的數據庫,從蛋白質組學和小規模生物學實驗的文獻中,提取匯總了尿蛋白質生物標志物方面的研究結果[21]。在數據庫的建設過程中,為了實現尿蛋白質生物標志物相關的人類疾病名稱的標準化,提升信息檢索效果,并引導用戶數據瀏覽,構建了以尿蛋白質生物標志物相關的疾病為核心的應用型本體。該本體可涵蓋目前已知的尿蛋白質生物標志物相關的人類疾病,并具有良好的疾病分類。目前,與疾病相關的參考本體主要有human disease ontology(DO)、international classification of diseases 10-clinical modification(ICD10CM)和 national cancer institute thesaurus(NCIT)。考察后發現,3個本體的術語均無法滿足本數據庫需求,DO擁有相對良好的分類框架,但其標準術語對本數據庫需求的疾病覆蓋不足。因而,選定DO為該應用型本體的基礎框架,設計了如下流程:
1)從PubMed中收集所有尿蛋白異常相關文獻,人工識別相關疾病的所有詞匯。
2)利用上述Python腳本,調用MedPortal檢索功能API接口,檢索上述詞匯在DO中的覆蓋,確定DO涵蓋的詞匯及其DO代碼;通過同樣方式,確定其他詞匯在ICD10CM與NCIT中的對應詞匯與代碼。
3)通過MedPortal術語映射功能已經建立的語義映射網絡,將上述ICD10CM與NCIT疾病詞匯使用DO的標準名稱進行表示;根據標準化的疾病詞匯,利用 Protégé5.1.0對 DO 進行抽提,形成 OWL格式文件。
截至撰稿時,MedPortal共存儲42個本體,本體術語總量為1 143 288個。表1為MedPortal存儲本體資源的分類列表。MedPortal本體資源庫中的內容覆蓋了上層本體、中層本體和領域本體。
MedPortal提供了本體數據使用的工具。圖1顯示了本體資源瀏覽頁面,用戶可以通過左側過濾器來迅速定位感興趣的本體。圖2是對目標本體內容的顯示頁面,用戶可以在該頁面中對本體內術語進行檢索,瀏覽本體的具體信息,對本體內術語之間的關系進行可視化顯示。
MedPortal還提供本體資源使用的高級功能,主要包括本體術語檢索、本體注釋、本體術語映射和本體推薦(recommender)4個功能,表2總結了上述4個功能和應用。如圖3所示,利用MedPortal中的數據注釋功能,對來源于PubMed的一段文摘,使用用戶指定的本體進行詞匯的提取注釋。
通過文獻檢索,查詢到了與尿蛋白質生物標志物相關的疾病名稱138個,其中與DO存在映射關系的有49個,在ICD10CM和NCIT中又分別查到了66和23個詞。使用MedPortal本體映射功能API,找到并導出了DO與ICD之間1 026對映射關系、DO與NCIT之間3 019對映射關系。借此最終建立了以DO為基礎框架的、涵蓋尿蛋白質生物標志物數據庫中疾病名稱的應用型本體,該本體包含術語160個、對象屬性(Object property)15個、公理(axiom)4 858條,實現了對數據庫中與尿蛋白質生物標志物相關疾病名稱的術語標準化。

表1 MedPortal核心本體資源列表Tab.1 Core ontology resource list

圖1 MedPortal中本體瀏覽頁面(左側為過濾器,用戶可以根據本體的類型、格式和種類對本體進行篩選;右側是對應的本體名稱和簡介)Fig.1 Ontology browsing page in MedPortal(Filters on the left enable users to filter ontologies based on their types,categories and formats,while the right column lists the filtered ontology names and descriptions)

表2 MedPortal 4項高級功能及應用Tab.2 Four advanced functions and applications
上述本體的建立,在數據庫建設中實現了數據庫詞匯與MedPortal相對應詞匯的關聯,用戶可以方便地瀏覽到疾病的定義與評論(comment)等,而圖4顯示了該數據庫中的本體引導用戶瀏覽數據庫信息的界面。尿蛋白質生物標志物數據庫可通過http://122.70.220.102/biomarker進行訪問(正式域名網址http://updb.bmicc.cn即將開始使用)。

圖2 MedPortal中本體的可視化和內容顯示:用戶可以根據自己需求,展開某個術語的下一級子節點,并調整圖形結構。(a)左側為人類表型本體(HPO)的本體樹形顯示,右側為目標術語Variable expressivity(ID為HP:0003828)的詳細內容,該內容包括術語的定義(Definitons)、術語的使用注意事項(comment)和本體間的互鏈(database_cross_reference)等;(b)左側為HPO的樹形結構,右側為該本體自根節點All到術語Variable expressivity一級節點的可視化顯示Fig.2 Ontology visualization and content display in MedPortal.Users can expand the nodes and adjust the graph structure according to their own needs.(a)The left side of the page displays the tree structure of human phenotype ontology(HPO).And the right side lists details of a target term “variable expressivity”(ID:0003828),including its definitions,comment and database cross reference,etc;(b)The left side displays the tree structure of HPO.And the right side visually displays the path from term “variable expressivity” to root
本體作為生物醫學數據標準化的一種重要手段,在數據整合與復用的過程中起著日益重要的作用[22]。在本研究中,使用 NCBOBioPortal框架,建設了本體存儲和應用平臺 MedPortal。2015年,ClémentJonquet等利用BioPortal系統建立了法國農業領域的本體資源庫AgroPortal,為多個農業、環境等方面項目提供了本體支持[23-24]。與BioPortal和AgroPortal相比,MedPortal針對性地篩選存儲了精準醫學領域的本體,并提供了 Python腳本訪問MedPortal API,實現了對大規模數據的自動化批量處理。

圖3 MedPortal的數據注釋功能。(a)數據注釋功能界面:輸入要注釋的文本后,選擇本體并指定參數,進行數據注釋;(b)數據注釋結果:展示匹配到的本體術語、本體、匹配類型、原詞匯所在文本位置等Fig.3 Data annotation module in MedPortal.(a)Data annotation page:input a text,select ontologies and specify parameters for data annotation;(b)Excerpts of data annotation results:display the corresponding classes,ontologies,annotation types,term contexts,etc.
不同類型的用戶可以使用MedPortal平臺提供的多樣化本體信息服務。首先,本體庫是一類重要的知識庫。領域本體作為一個專業領域的知識模型,明確了領域內的術語、同義詞、術語的定義、術語使用的評論和術語之間的關系。領域本體的構建者往往是該專業領域的權威,他們根據本體構建的原則對術語進行了嚴格的定義和描述。通過MedPortal平臺,用戶可以方便地查詢或獲取這些信息(見圖2)。其次,MedPortal是促進本體重利用的重要工具。跨本體間術語的一致性是保證本體重復使用的重要原則,這種一致性包括術語的名稱、定義和網絡統一資源標識符(uniform resource identifier,URI)。通過 MedPortal,用戶可以輕松地根據術語的名稱和含義等,查詢到該術語所在的本體及其詳細信息,幫助其重利用本體中已有的術語。此外,還MedPortal構建了跨本體間的術語映射關系,為精準醫學數據整合提供了術語標準使用的便捷工具和標準語義網絡支撐。通過數據注釋功能,很方便地實現了實驗元數據內容和文獻數據的本體術語注釋;該平臺建立的術語語義映射網,可以直接支撐數據整合。美國Stanford大學BioPortal的開發團隊,利用該平臺的數據注釋功能,對UniProt、dbGaP、Reactome和 PharmGKB 等重要生物信息數據庫進行本體術語注釋,建立整合的資源索引,為用戶準確發現目標數據服務[25]。因而,MedPortal本體資源存儲與應用平臺為擁有不同需求的用戶提供著多方面基于本體的數據服務。

圖4 MedPortal對生物醫學信息數據庫支撐示例(此圖為尿蛋白質生物標志物數據庫頁面,左側為與尿蛋白異常相關疾病的應用型本體,該本體利用MedPoral本體數據庫和相關工具建設,用戶可以在此本體引導下進行數據瀏覽和檢索。用戶如果對具體疾病感興趣,還可以點擊目標疾病名稱,瀏覽本體中對疾病的描述)Fig.4 Example of MedPortal support for bioinformatic database(This figure shows the Urinary Protein Biomarker Database.The left side of the page displays the applied ontology of urinary protein abnormalityrelated diseases,which is constructed using MedPortal ontology repository and toolkit so that users can browse and retrieve data with the ontology leading the way.If users are interested in a specific disease,they can also click the name of the disease to view the description in the ontology)
通過本研究建立的本體資源庫和應用平臺,已經具備為國內生物醫學信息研究和實踐服務的能力。下一步,將計劃對MedPortal持續升級,保持其核心代碼的版本與NCBOBioPortal同步;也將根據精準醫學的發展,對收集的本體版本和內容進行擴展。此外,將研究MedPortal支持中文本體存儲的可能性。法國Jonquet團隊提出了在BioPortal上存儲和展示多語言本體的元數據模型[26],這將為建設支持中文的MedPortal提供借鑒。
MedPortal是一個綜合的本體信息存儲和應用平臺,提供了訪問本體數據及使用本體進行數據標準化的工具,用戶可以通過頁面或編程訪問。隨著我國精準醫學研究計劃的深入,勢必會有大量數據產生,對這些數據進行標準化,提升數據質量,將成為數據再利用過程中一項重要工作,而MedPortal的資源和工具在其中會扮演重要角色。
[1] 賀林.新醫學是解決人類健康問題的真正鑰匙——需“精準”理解奧巴馬的“精準醫學計劃”[J].遺傳,2015,37(6):613-614.
[2] Collins F S,Varmus H.A new initiative on precision medicine[J].New England Journal of Medicine,2015,372(9):793-795.
[3] Servant N,Roméjon J,Gestraud P,et al.Bioinformatics for precision medicine in oncology:principles and application to the SHIVA clinical trial[J].Frontiers in Genetics,2014,5:152-152.
[4] Pesquita C,Ferreira J D,Couto F M,et al.The epidemiology ontology:an ontology for the semantic annotation of epidemiological resources[J].Journal of Biomedical Semantics,2014,5(1):1-7.
[5] Huang Jingshan,Fernando G,Strachan H J,et al.OmniSearch:a semantic search system based on the Ontology for MIcroRNA Target(OMIT)for microRNA-target gene interaction data[J].Journal of Biomedical Semantics,2016,7(1):1-17.
[6] Mate S,K?pcke F,Toddenroth D,et al.Ontology-based data integration between clinical and research systems[J].Plos One,2015,10(1):e0116656-e0116656.
[7] Smith B,Ashburner M,Rosse C,et al.The OBO Foundry:coordinated evolution of ontologies to support biomedical data integration[J].Nat Biotech,2007,25(11):1251-1255.
[8] Ong E,Xiang Zuoshuang,Zhao Bin,et al.Ontobee:A linked ontology data server to support ontology term dereferencing,linkage,query and integration[J].Nucleic Acids Research,2016,45(Database issue):D347-D352.
[9] C?té R,Reisinger F,Martens L,et al.The Ontology Lookup Service:bigger and better[J].Nucleic Acids Research,2010,38(Web Server issue):W155.
[10] Whetzel P L,Shah N H,Noy N F,et al.BioPortal:ontologies and integrated data resources at the click of a mouse[J].Nucleic Acids Research,2009,37(suppl_2):170-173.
[11] Salvadores M,Alexander P R,Musen M A,et al.BioPortal as a dataset of linked biomedical ontologies and terminologies in RDF[J].Semantic Web,2013,4(3):277.
[12] Whetzel P L,Noy N F,Shah N H,et al.BioPortal:enhanced functionality via new web services from the National Center for Biomedical Ontology to access and use ontologies in software applications[J].Nucleic Acids Research,2011,39(suppl 2):W541-W545.
[13] Vemonet.Importing UMLS To Virtual Appliance[EB/OL].https://www.bioontology.org/wiki/index.php/Importing_UMLS_To_Virtual_Appliance.
[14] Horridge M,Bechhofer S.The OWL API:a Java API for working with OWL 2 ontologies[C]//Patel-Schneider P F.Proceedings of the 6th InternationalConference on OWL:Experiences and Directions(OWLED 2009).Chantilly,VA,United States;Hoekstra R,Patel-Schneider P F,2009:47-56.
[15] Graybeal.NCBO Virtual Appliance[EB/OL].https://www.bioontology.org/wiki/index.php/Category:NCBO_Virtual_Appliance.
[16] Arp R,Smith B.Function,role,and disposition in Basic Formal Ontology[J].Nature Precedings,2008.
[17] Ceusters W,Smith B.Aboutness:Towards foundations for the information artifactontology [C]//Proceedingsofthe 6th International Conference on Biomedical Ontology(ICBO).Lisbon:ICBO2015 Program Committee,2015:47-51.
[18] Bandrowski A,Brinkman R,Brochhausen M,et al.The Ontology for Biomedical Investigations[J].Plos One,2016,11(4).
[19] Consortium T G O.Gene Ontology Consortium:going forward[J].Nucleic Acids Research,2015,43(Database issue):1049-1056.
[20] BodenreiderO.The Unified Medical Language System(UMLS):integrating biomedical terminology[J].Nucleic Acids Research,2004,32(suppl 1):D267-D270.
[21] Shao Chen.Urinary Protein Biomarker Database:A useful tool for biomarker discovery[J].Advances in Experimental Medicine& Biology,2015,845(845):195-203.
[22] Lapatas V,Stefanidakis M,Jimenez R C,et al.Data integration in biological research:an overview[J].Journal of Biological Research-Thessaloniki,2015,22(1):1-16.
[23] Jonquet C,Dzalé-Yeumo E,Arnaud E,et al.AgroPortal:A proposition for ontology-based services in the agronomic domain[C] //XXIV Plant and Animal Genome Conference.San Diego:The Plant & Animal Genome Organizing Committee,2016:P0343.
[24] Jonquet C,Toulet A,Arnaud E,et al.Reusing the NCBO BioPortal technology for agronomy to build AgroPortal[C]//International Conference on Biomedical Ontology and BioCreative(ICBO BioCreative 2016).Corvallis:ICBO and BioCreative,2016:D203.
[25] Jonquet C,Lependu P,Falconer S,et al.NCBO Resource Index:Ontology-based search and mining of biomedical resources[J].Web Semantics:Science,Services and Agents on the World Wide Web,2011,9(3):316-324.
[26] Jonquet C,Emonet V,Musen MA.Roadmap for a multilingual BioPortal[C]//Proceedings of the Fourth Workshop on the Multilingual Semantic Web. Portoroz:MSW4 Program Committee,2015:15-26.
MedPortal:A Biomedical Ontology Repository and Platform Focused on Precision Medicine
Guo Jingwen Yang Sheng Shi Furen Shao Chen Zhang Lulu Wang Heng?Yang Xiaolin?
(Institute of Basic Medical Sciences,Chinese Academy of Medical Sciences,School of Basic Medicine,Peking Union Medical College,Beijing100005,China)
In the past decade,ontology has been widely used in biomedical data analysis,search,integration and reuse.As ontology itself is a specific type of data,the amount of ontologies has also increased rapidly.In order to promote the integration of precision medicine data sets and provide ontology resource service for domestic users,we constructed MedPortal,an ontology repository and platform.Reusing NCBO BioPortal technology,we constructed MedPortal software framework.We selected precision medicine-related ontologies and built MedPortal ontology repository.Further,we modified some original code in order that MedPortal could run smoothly in the new network environment.Now MedPortal ontology repository has been successfully constructed.So far,42 biomedical ontologies have been imported into MedPortal,mappings among which have also been created.Several ontology services including term search,ontology mapping,and data annotation are provided through websites and REST API,accessible at:http://medportal.bmicc.cn.MedPortal will be of help to biomedical data integration.
biomedical ontology;MedPortal;database;ontology mapping;ontology annotation
R318 文獻標志碼:A 文章編號:0258-8021(2017)05-0557-08
10.3969 /j.issn.0258-8021.2017.05.007
2017-02-10,錄用日期:2017-04-19
國家國際科技合作專項(2014DFB30030)
?通信作者(Corresponding author),E-mail:yangxl74@gmail.com;wangh@ibms.cams.cn
(致謝:美國Stanford大學生物醫學信息研究中心 John Graybeal、Jennifer Vendetti和 Michael Dorf,法國 Montpellier大學 Vincent Emonet,在 MedPortal本體數據庫的建設過程中提供了寶貴的幫助與支持,在此一并致以衷心的感謝!)