于彤 崔蒙 李海燕 等

[摘要] 中醫藥學語言系統是一個采用本體方法構建的大型術語系統。“中醫藥學語言系統語義網絡框架”已于2014年成為國際標準化組織(ISO)的一項正式的技術規范,如何實施這一技術規范成為一個重要的問題。本研究采用語義網技術,根據該技術規范構建中醫藥領域的頂層本體,并進一步實現了用于本體發布的網絡服務。該本體對中醫藥領域最基本的語義類型和語義關系進行了精確描述,可被用于構建符合規范的術語系統和知識庫,為ISO技術規范的推廣應用提供了一種便捷、可靠的方式。
[關鍵詞] 中醫藥學語言系統;本體;標準化;語義網
[中圖分類號] R2-03 [文獻標識碼] A [文章編號] 1673-7210(2016)02(a)-0089-04
Research on the application of ISO technical specification “semantic network framework of traditional Chinese medicine language system”
YU Tong CUI Meng LI Haiyan LIU Jing YANG Shuo JIA Lirong
Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China
[Abstract] Traditional Chinese medicine language system is a large-scale ontology for traditional Chinese medicine (TCM) domain. In 2014, international organization for standardization (ISO) published a technical specification named “semantic network framework of traditional Chinese medicine language system”, how to implement this technical specification remains to be an important problem. This study utilizes semantic web technologies, to translate the content of this specification into an upper-level ontology, and to establish a web service for the ontology. This ontology accurately describes the fundamental semantic types and semantic relations in TCM domain, which can be used to construct standardized language systems and knowledge bases, and provides a convenient and reliable way for the application of this technical specification.
[Key words] Traditional Chinese medicine language system; Ontology; Standardization; Semantic web
近年來,本體(ontology)因其強大的知識表示和推理能力成為構建中醫藥術語系統的一項新興技術[1]。作為一項代表性工作,中醫藥學語言系統(traditional Chinese medicine language system,TCMLS)是根據中醫藥領域的語言特點及學科體系特色,采用本體的設計理念和方法研制而成的大型術語系統[2]。TCMLS的語義網絡框架(以下簡稱“TCMLS-SN”)定義了中醫藥領域最基本的語義類型(semantic type)和語義關系(semantic relation),為TCMLS的構建提供了必要的參考和約束[3]。
經過中醫藥工作者的反復論證與修改,TCMLS-SN已于2014年7月成為國際標準化組織(ISO)的一項正式的技術規范:“ISO/TS17938 health informatics-semantic network framework of traditional Chinese medicine language system(中醫藥學語言系統語義網絡框架)”[4]。它為TCMLS中的所有概念提供了一體化的概念框架,對于TCMLS的規范化和國際化具有重要意義[5]。新興的語義網(semantic web)技術[6]為該規范的實施提供了理想的技術平臺。下面討論ISO技術規范在語義網環境中的實施方法,闡述本體的構建過程以及配套的網絡服務。
1 ISO技術規范在語義網環境中的實施
在這一ISO技術規范中,列舉了中醫藥領域中的96種語義類型和58種語義關系,并對它們進行了定義和說明。其中,“中醫藥語義類型”[7]是在語義層面上對中醫藥領域概念進行分類的語義類型系統,它為中醫藥領域概念提供了一個系統性的分類架構;“中醫藥語義關系”[8]則是對中醫藥概念之間的語義相關性的表征,它用于將中醫藥領域概念關聯起來,構成一張大型的復雜語義網絡。ISO技術規范為中醫藥術語系統的規范化加工和處理提供了依據,將在中醫藥術語系統的質量保證和國際推廣工作中發揮關鍵作用。
在ISO技術規范發布之后,如何實施該技術規范成為一個重要的問題。在中醫藥領域,已建成了TCMLS、中醫臨床術語系統[9]、中醫古籍語言系統[10]等許多大型的術語系統,它們都不完全符合ISO技術規范。為了實現這些系統的規范化,需要對它們進行審校和修訂。單靠領域專家進行人工作業,工作量很大且難免出現疏漏,術語系統規范化的操作成本很高。若能基于機器推理等技術手段,實現半自動甚至自動化的規范性檢測和規范化工具,輔助領域專家進行審校和修訂工作,則可顯著提升術語系統規范化的效率。本體能使計算機“理解”領域知識并具備一定的推理能力[11],為實現上述技術策略奠定了基礎。
ISO技術規范有利于中醫藥領域的術語系統的規范化,使術語系統可以彼此兼容。然而,ISO技術規范以自然語言描述,機器無法直接識別和處理。為解決這個問題,可將ISO技術規范“翻譯”為一個計算機可理解的頂層本體,再基于本體推理方法實現半自動的規范性檢測機制,并將這套機制嵌入術語加工系統中發揮實際作用。基于本體的技術方案可提升術語審校工作的自動化水平,縮短術語系統的更新周期,提升術語系統之間的兼容性。
語義網為實現上述思路提供了理想的技術手段[6]。萬維網之父Tim Berners-Lee于2001年提出了語義網的理念,認為它將是一部人類與機器都能理解的“數據百科全書”,其中蘊含著極其豐富且相互關聯的數據資源,能顯著提升機器的數據處理能力[12]。經過十余年的發展,語義網建設取得了長足發展,制訂了RDF、OWL、SPARQL等一系列基礎性規范,使語義網從一個構想發展為一套完整的技術體系[13]。語義網在生物醫學領域的本體工程、數據集成和知識管理中發揮了積極的作用[14]。語義網在中醫藥領域中也得到了成功的應用,為知識建模、知識融合和知識發現提供了有效的技術手段[15]。
萬維網本體語言(web ontology language,OWL)是語義網中的一項核心技術,旨在構建內容豐富、邏輯嚴謹且能在萬維網上共享的領域本體[16]。在生物醫學領域,將傳統的本體或術語系統轉換為OWL形式的本體并在語義網上發布,已成為本體工程的一個重要趨勢[17]。OWL在中醫藥領域也得到了成功應用,為表達復雜的中醫藥知識體系提供了解決方案[18]。語義網為本體工程提供了表示語言、編輯工具及強大的推理機制,能有效支持對本體進行一致性檢測,減少本體的冗余,改進本體的質量。鑒于此,本研究采用語義網技術,根據ISO技術規范構建了中醫藥領域的頂層本體。該本體可被用于構建符合ISO技術規范的術語系統和知識庫,為建立網絡化的中醫藥術語服務平臺奠定基礎。
2 中醫藥頂層本體
近年來,本體技術在中醫藥領域中得到了成功的應用[1]。本體的構建實質上是針對中醫藥領域的概念化過程。本研究采用OWL語言來構建中醫藥頂層本體,從而對ISO技術規范中規定的頂層概念模型進行形式化表達。通過與領域專家的交流與合作,獲取ISO技術規范的確切解釋和相關領域知識,解決本體構建中涉及的知識建模問題,從而建成符合ISO技術規范以及中醫藥領域實際情況的頂層本體。
這個頂層本體對中醫藥領域中最基本的語義類型和語義關系進行定義、描述和限定。其中,語義類型對應于OWL語言中的類型(class);語義關系對應于OWL語言中的屬性(property)。該本體的主要內容包括:①對類型和屬性進行定義和描述;②建立類型的層次結構,對類型之間的關系進行描述和限定;③明確屬性之間的互逆關系,詮釋屬性的傳遞性、函數性、反函數性等性質;④對屬性的定義域和值域進行約束。
本研究采用Protégé[19]本體編輯工具構建這個頂層本體。Protégé是一個被廣泛使用的開源本體編輯工具,對OWL等語義網語言提供了完整的支持。如圖1所示,采用Protégé本體編輯工具,將技術規范的核心內容都寫入一個OWL本體之中。該過程分如下步驟:①將ISO規范中定義的語義類型加入OWL本體,并建立它們之間的層次關系。將“syndrome(證候)”等語義類型聲明為OWL class,并通過sub class of聲明父子類關系。②將ISO規范中定義的語義關系加入OWL本體,建立它們之間的層次關系。將“location of(位于...)”等語義關系定義為OWL本體中的object property,并通過sub property of定義父子屬性關系。③按照ISO規范文本添加類型和屬性的中、英文標簽和說明。④在語義類型之下建立實例(例如“中藥”下的“人參”),再使用本體中定義的語義關系將這些實例關聯起來。
在本體建成后,由領域專家評估該頂層本體的邏輯嚴謹性,從而保證本體的質量。可用Protégé等工具對該本體進行瀏覽和編輯,查看類型、屬性和實例的信息;可用OntoGraf等[20]本體可視化工具查看類型以及實體之間的語義關系;也可用Pellet等[21]推理機進行本體推理實驗。可基于該本體,進行術語系統以及領域知識庫的加工工作,所得的系統將符合ISO規范。由于ISO規范的內容體現在了OWL本體中,Protégé的工作機制就保證了數據的規范性。各方可基于該本體分別進行數據加工,并將做出的系統在網上發布。這些系統將彼此兼容,可被任何支持該ISO規范的程序“理解”和使用。
3 本體網絡服務
為促進ISO技術規范和本體的推廣使用,采用PHP編程語言搭建了本體服務網站,部署于Apache萬維網服務器中[22]。該網站包括內容概覽、本體描述、更新和擴展、主要模塊、相關標準、類和屬性列表、例子、相關參考文獻等內容,還實現了本體文件下載、語義類型展示、語義關系展示以及實例展示等功能。下面進行具體介紹:①語義類型展示:列出ISO技術規范中定義的語義類型,給出語義類型的中英文標簽、中英文定義、中英文注釋、父類、子類、實例等。②語義關系展示:列出ISO技術規范中定義的語義關系,給出語義關系的中英文標簽、中英文定義、中英文注釋、父屬性、子屬性、定義域、值域等。③實例展示:提供一個示例性知識庫,它定義了四君子湯、人參、白術等一些實例,并描述了這些實例的中英文標簽、類型、語義關系等信息,用于演示該本體的應用。
該網站面向中醫藥工作者以及信息標準研制人員提供術語和本體的訪問服務,便于用戶瀏覽TCMLS-SN的內容,并獲取中醫藥領域的頂層本體。任何人只要從網站上下載本體,用Protégé等工具打開,即可開始編輯符合ISO技術規范的語義數據;也可利用語義網上的其他工具來處理該本體,實施ISO技術規范。
4 小結
術語系統的研制是中醫藥信息標準化工作的重點之一。TCMLS是采用本體方法構建大型術語系統的一個成功范例,其設計理念和方法具有國際推廣價值。TCMLS的語義網絡框架已于2014年成為ISO的一項正式的技術規范。該技術規范不僅規范和支持了TCMLS的建設,還為中醫藥學術語系統和本體創建提供了語義標準,對中醫藥學術語信息的交換具有重要意義。本研究實質上是將ISO技術規范轉換為可計算模型的過程,其結果是一個規范化的中醫藥頂層本體。該本體及與之配套的網絡服務,為ISO規范的推廣使用提供了一種便捷、可靠的方式。
[參考文獻]
[1] 于彤,崔蒙,李敬華,等.中醫藥本體工程研究現狀[J].中國中醫藥信息雜志,2013,20(7):110-112.
[2] 賈李蓉,于彤,崔蒙,等.中醫藥學語言系統研究進展[J].中國數字醫學,2014,9(10):57-59,62.
[3] Cui M,Jia LR,Yu T,et al. Current status of traditional Chinese medicine language system [C]// International Symposium on IT in Medicine and Education(ITME2013),Xining,China,July 1921. Berlin Heidelberg:Springer,2013: 413-420.
[4] 于彤,崔蒙,李海燕,等.中醫藥學語言系統的語義網絡框架:一個面向中醫藥領域的規范化頂層本體[J].中國數字醫學,2014,9(1):44-47.
[5] 賈李蓉,于彤,李海燕,等.中醫藥語義網絡的頂層框架研究[J].中國數字醫學,2015,10(3):54-57.
[6] Horrocks I. Ontologies and the semantic web [J]. Communications of the ACM,2008,51(12):58-67.
[7] 賈李蓉,董燕,田野,等.中醫藥學語言系統中的語義類型分析[J].世界中醫藥,2013,8(5):563-565.
[8] 于彤,賈李蓉,張竹綠,等.面向中醫藥文獻的語義關系發現方法研究[J].中國中醫藥圖書情報雜志,2014,38(12):1-5.
[9] 董燕,李海燕,崔蒙,等.中醫臨床術語系統建設概況與改進措施[J].醫學信息學雜志,2014,35(8):43-48.
[10] 朱玲,尹愛寧,崔蒙,等.中醫古籍語言系統構建的關鍵問題與對策[J].中國中醫藥信息雜志,2010,17(4):98-99.
[11] Gruber TR. A translation approach to portable ontology specifications [J]. Knowledge Acquisition,1993,5(2):199-220.
[12] Berners-Lee T,Hendler J,Lassila O. The semantic web [J]. Scientific American,2001,284(5):28-37.
[13] Feigenbaum L,Herman I,Hongsermeier T,et al. The semantic web in action [J]. Scientific American,2007,297(6):90-97.
[14] Chen H,Ding L,Wu Z,et al. Semantic web for integrated network analysis in biomedicine [J]. Briefings in Bioinformatics,2009,10(2):177-192.
[15] 于彤,崔蒙,李敬華.語義Web在中醫藥領域的應用研究綜述[J].世界中醫藥,2013,8(1):107-109.
[16] Horrocks I,Patel-Schneider PF,Harmelen F. From SHIQ and RDF to OWL:the making of a web ontology language [J]. Web Semantics:Science,Services and Agents on the World Wide Web,2003,1(1):7-26.
[17] 于彤,崔蒙,楊碩,等.生物醫學本體工程進展[J].中國數字醫學,2012,7(11):3-6.
[18] 于彤,楊碩,賈李蓉,等.基于OWL的中醫證候知識建模方法研究[J].中國數字醫學,2014,9(10):76-78,81.
[19] Knublauch H,Fergerson RW,Noy NF,et al. The Protégé OWL plugin:an open development environment for semantic web applications[C]// McIlraith SA,Plexousakis D,Harmelen F. Third International Semantic Web Conference. Berlin Heidelberg:Springer,2004:229-243.
[20] Sean Falconer. OntoGraf [EB/OL]. Stanford,California,USA:Stanford University,2010 [2015-7-23]. http://protegewiki.stanford.edu/wiki/OntoGraf.
[21] Sirin E,Parsia B,Grau BC,et al. Pellet:a practical OWL-DL reasoned [J]. Web Semantics:Science,Services and Agents on the World Wide Web,2007,5(2):51-53.
[22] The Apache Software Foundation. The Apache HTTP Server Project [EB/OL]. Los Angeles,USA:The Apache Software Foundation,1999.[2015-07-20]. http://httpd.apache.org/.
(收稿日期:2015-07-28 本文編輯:張瑜杰)