朱 彥 徐靜雯
(中國中醫科學院中醫藥信息研究所 北京 100700) (長春中醫藥大學醫藥信息學院 長春 130117)
如何從海量數據中獲取高價值的知識是當前生物醫學大數據研究領域最大挑戰之一。語義標準化是打破“信息孤島”,實現多源數據的無歧義融合,確保數據用戶群體有效共享、使用的有效途徑,也是當前研究難點和熱點之一。本體作為支持異構信息語義層面的標準化和互操作、實現智能分析處理的有效手段[1],已經在生物醫學數據分析、檢索、整合、共享與再利用等場景中發揮越來越重要的作用[2]。目前中醫藥信息標準化尤其是術語標準化工作已取得一定成效,陸續發布各級術語、編碼、范疇框架等標準,并開發詞表、術語集等知識組織系統。以此為基礎,關于中醫藥領域本體的研究與開發逐漸成為中醫藥語義標準化研究的熱點之一。筆者對近10年來中醫藥領域本體研究進行文獻調研、篩選和統計,梳理中醫藥領域內現有本體研究進展、本體主題分布情況,對當前中醫藥本體研究仍存在的不足進行回顧和思考。在此基礎上提出現有本體研究的關鍵問題和重點方向,結合生物醫學本體研究最新進展和趨勢,提出“中醫藥本體集”的倡議,以期形成開放、共享的中醫藥領域基礎資源,為中醫藥多源數據整合和智能分析處理提供支持。
2.1.1 知識組織系統內涵 目前在中醫藥標準化領域已構建和發布涵蓋各子領域的術語標準、語義分類框架,開發了一些術語集產品。這些不同結構和受控程度的研究成果,在知識組織系統(Knowledge Organization Systems, KOS)視角下會更清晰。知識組織系統是對人類知識結構進行表達和有組織闡述的各種語義工具的統稱,是對重復性術語和概念的統一規定,包括分類法、敘詞表、語義網絡、概念本體及其他情報檢索語言與標引語言[3]。而本體作為知識組織系統的新興高級形式,用人和計算機分別可以理解的自然語言和邏輯語言描述某一領域內的實體及實體之間的相互關系,從而提供對某領域內事物本質的統一認識[4],見圖1。

圖1 知識組織系統類型分布情況[3]
2.1.2 中醫藥領域內現有典型知識組織系統分類 這些傳統的知識組織系統為中醫藥領域本體構建提供了豐富的術語資源和模型參考,研究者以此為基礎開展諸多子領域的本體建設及應用研究工作。對中醫藥領域內現有典型的知識組織系統進行分類梳理,見表1。

表1 中醫藥和現代生物醫學領域典型的KOS統計

續表1
當前科學數據開放共享已成為全球共識,其對于減少重復建設、提升科學數據應用價值具有重要意義[24]。由于版權等利益因素影響,傳統標準大多以收費紙質出版物形式發布。中醫藥信息標準主要是由計算機使用,紙質版信息標準尤其是術語標準給術語推廣應用帶來阻力。針對此問題,術語標準發布格式逐步改善,近期發布的中醫病證分類等國家標準采用Word和Excel格式,能極大方便標準的推廣使用。如果以紙質版配合數據庫格式或者萬維網本體語言(Web Ontology Language,OWL)等本體開放格式進行發布,將進一步方便使用與共享[25]。
2.3.1 概述 FAIR原則已成為科學數據管理的國際準則[26],該原則倡導科研活動產出的數據在開放共享過程中努力實現數據可查找(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可復用(Reusable)。這4個目標層層遞進,其中可互操作最為關鍵。本體作為一種特殊數據也需要實現可互操作,尤其是語義層面的互操作,才能充分發揮對異構知識與數據整合分析的關鍵作用。
2.3.2 與已有標準、術語集或領域本體的復用和協調 本體提供對某領域內事物本質的統一認識,其本質決定需要對領域內現有語義標準、術語集或其他權威領域本體進行協調、復用或映射,強大的語義表達能力可支持其實現這一目標。《中華人民共和國藥典》和國家標準因面向需求不同,同樣的術語其概念的粒度和內涵可能存在差異,本體模型通過不同層級的概念模型,能有效協調此類語義差異,支持不同來源和標準下的數據集成與分析,見圖2。術語集或本體之間實現語義層面互操作最高效的方法是直接引用或復用。在構建本體過程中應首先考慮參考復用相應周圍本體以實現知識的復用和共享,盡量確保同一術語不出現在多個本體中,即確保正交性(orthogonality)[27]。未來科學大數據發展方向是實現不同領域不同電子信息的互通互用。在本體方面需要以一致方式開發,盡量使用通用頂層本體并復用周圍領域本體,這也是本體構建的原則之一。

圖2 使用本體模型協調不同標準示例
2.3.3 頂層本體或框架研究 在本體構建過程中頂層本體提供領域本體所需的先輩術語,進而提供公共總體框架。中醫藥領域頂層本體是在語義層面總結中醫藥知識的基本概念框架,是中醫藥領域本體與通用頂層本體連接的基礎[28]。高成勉、包含飛和周強[29]提出一系列本體構建原則,并對中醫頂層本體構建以及應用進行初步探索,以期實現中醫、西醫及其他領域知識的共享互通。參照統一醫學語言系統(Unified Medical Language System,UMLS)中醫藥學語言系統語義網絡框架國際標準化組織(International Organization for Standardization,ISO)標準技術規范[30]為中醫藥頂層實體及關系提供上層框架。龍海、賈李蓉和朱玲等[31]嘗試將中醫臨床術語系統頂層分類與基本形式化本體(Basic Formal Ontology,BFO)進行比較和映射。Long H、Zhu Y和 Jia L等[32]將中醫藥語言系統(Traditional Chinese Medicinc Language System,TCUMLS)語義網絡框架基于通用形式化本體(General Formal Ontology,GFO)進行映射和本體化。基于本體論領域頂層概念梳理辨析研究方面,主要在中藥子領域有少量研究。如劉麗紅、賈李蓉和朱彥等[33]基于本體論的概念建模方法明確中藥子領域核心概念內涵和關系,初步完成中藥子領域核心概念語義框架構建。上述研究為后續研究帶來重要啟示。一方面,領域中的頂層本體能對中醫藥領域本體構建提供參考和指導,但同時需要對其哲學基礎進行深入研究和辨別,考察其與中醫藥概念的適用性,尤其是涉及陰陽、五行等哲學層面的相關概念;另一方面,還需要加強基于本體論對中醫藥領域內頂層概念的梳理研究,現有教材和國家標準中的中醫藥頂層概念往往是復合性的,需要仔細梳理辨析,借助本體論和邏輯學等工具將其拆解并明晰其間的區別和關系,形成初步語義框架,進而支持中醫藥領域頂層本體的最終形成。
現有主流本體語義OWL基于描述邏輯(Description Logics,DLs)進行形式化語義表達,實現知識的可計算性,從而支持本體邏輯推理和數據驗證等功能[34]。如使用OWL語言對藥典附錄中的“黑老虎根”和“廣西海風藤”不同概念的內涵進行形式化表達,計算機能自動推斷出兩者的層級關系,見圖3。現有研究對形式化定義的技術實現進行了一些探索,然而中醫藥核心概念的形式化定義尤其是全等關系的定義工作仍處于探索階段。現有ICD-11在傳統醫學中醫疾病和證候部分未見其特征屬性和擴展定義的規則。究其原因,一方面由于缺少頂層本體的指導以及中醫藥領域頂層概念的梳理和定義,直接影響下層概念準確定義;另一方面,制定基于描述邏輯的定義,需要中醫藥領域專家以及計算機、邏輯學等交叉背景的專家協作。

圖3 形式化定義支持自動推理示例
以最成功的本體——基因本體(Gene Ontology, GO)為例,其最寶貴的組成部分在于基于GO的注釋數據庫和與之配套的分析方法和工具[14,35-36]。現有本體應用研究在針對臨床應用方面主要聚焦基于專病的臨床診療知識表達,以支持輔助決策;文獻數據應用主要是利用本體進行知識分類和映射,增強檢索功能。從本體構建到應用主要還是使用成熟技術棧,包括本體編輯工具Protégé、SWRL規則語言、本體操作框架Jena、RACER和Pellet推理機等,二次開發應用系統。后續還要面向實際應用需求加強類似支持本體的語料注釋系統[37]、診斷系統[38]、副作用預測方法[39]等相關應用研究,構建注釋數據庫、分析算法和應用工具系列集合,在實踐中驗證所構建本體的合理性和完備性,不斷驅動其更新和完善。
3.1.1 國外 開放式生物與生物醫學本體工場(The Open Biological and Biomedical Ontologies (OBO) Foundry)[40]作為當前影響力最大的生物醫學本體開發國際社區提出一系列本體開發原則,全面支持開發具有互操作性并可以方便應用于大數據標準化的本體體系[41]。目前OBO Foundry庫中已有兩百多個本體,術語總量超過200萬。
3.1.2 國內 為加速國內生物醫學本體研究,完善本體共享和使用,國家人口與健康科學數據中心于2017年牽頭成立“中國生物醫學信息本體聯合工作組(OntoChina)”[42],希望通過廣泛協作將先進的本體構建理念和模式引入國內,建設服務于國內生物醫學信息相關領域的本體資源,促進生物醫學本體在科學研究和健康產業的應用。OntoChina引入并翻譯基本形式化本體[43]、科學研究本體(Ontology for Biomedical Investigations,OBI)、關系本體(Relation Ontology,RO)、通用醫學本體(Ontology for General Medical Science,OGMS)、人類表型本體(Human Phenotype Ontology,HPO)等,并通過MedPortal平臺供免費瀏覽和下載使用。筆者牽頭組織并翻譯了麻省理工學院(Massachusetts Institute of Technology,MIT)出版社Barry Smith等撰寫的BFO本體著作。該著作是國內第1部系統介紹BFO及其本體構建理論、方法和技術的書籍。筆者團隊借鑒OBO Foundry本體開發原則和可擴展互操作性本體的方法嘗試構建第1個基于頂層本體BFO的傳統中藥本體(Traditional Chinese Drug Ontology,TCDO)[5],并通過復用物種分類本體和植物解剖本體,實現與現代生物醫學知識體系的互聯互通。
為了更好地推動中醫藥領域內本體研究與落地應用,對近年來中醫藥領域本體的研究進行回顧和思考,總結學習成功經驗,針對不足和問題,提出共同構建中醫藥本體集(TCM Ontology Set,TCM-OS)的倡議。最終目標是成為中醫藥信息化領域語義標準化的基礎資源。借鑒OBO Foundry等先進的本體理論、方法和技術,構建可互操作、語義表達規范的中醫藥領域本體集合。該本體集具有統一的中醫藥領域頂層本體,模塊化的子領域本體,并兼顧生物醫學知識融合。共同研究、開發和推廣基于本體的數據庫和算法工具,以開放共享模式聯合相關領域(中醫藥、計算機、哲學、邏輯學等)學者、專家共同參與研發,企業參與驗證和推廣應用。學術應用免費開放使用,商業應用靈活授權以支持持續的學術研究。依托OntoChina和行業學會推動中醫藥領域本體研究社區建設。
隨著科學研究進入“大數據+大科學=大發現”的數據驅動時代,中醫藥研究呈現出多源異構數據、多學科、多層次、多環節的整合研究趨勢。高質量、可互操作的本體能提供人機可讀的規范語義標準共識,被認為是實現異構知識與數據整合分析解決方案的關鍵性環節之一。當前生物醫學本體研究發展迅速,中醫藥領域本體研究更是方興未艾,機遇與挑戰并存,應廣泛開展國內與國際合作,共同研究開發中醫藥本體集,以期為提升中醫藥領域本體的整體研究水平,推動中醫藥信息化建設和科學研究提供更有力支持。