朱彥慧 騰吉斯
(全國科學技術名詞審定委員會,北京 100717)
一體化醫學語言系統及其對我國的借鑒作用
朱彥慧 騰吉斯
(全國科學技術名詞審定委員會,北京 100717)
由美國國立衛生院開發創立的一體化醫學語言系統已成為世界上最全面的醫學術語系統,它包括四個組成部分:元敘詞表、語義網絡、專家詞典與相關詞典項目、支持性軟件工具,并擁有 17個語言版本。一體化醫學語言系統不僅為全球使用者搜索文獻提供便捷,也為我國電子病歷的實施提供術語學基礎。
一體化醫學語言系統,術語,電子病歷
在當前眾多的術語數據庫中,一體化醫學語言系統 (the Unified Medical Language System,UMLS)以收詞量大、涵蓋面廣、語言版本多而備受矚目。由美國國立衛生院開發以來,該系統在使用英語及其他歐洲語言的國家中使用率甚高。本文簡要介紹一體化醫學語言系統的歷史沿革、組成、應用,以及對我國術語學和生物信息學發展的借鑒作用。
當今世界,信息技術的迅猛發展和信息傳播的便捷極大提升了知識傳播的速度和數量,這使得現代醫學在發展過程中產生了大量的生物醫學文獻。然而,很多文獻在對同一概念的描述中經常使用不同的名稱,給研究者在理解與區分方面帶來了不同程度的困難。為解決此類問題,早在 1986年,具有計算機專業知識背景的醫學博士唐納德·林德伯格(Donald Lindberg)就慧眼獨具,著手研發一體化醫學語言系統[1-2],并被美國國立衛生院國家醫學圖書館納入。一體化醫學語言系統是醫生、生物信息專家、圖書管理人員、計算機專家和語言學家合作研發的數據庫系統,目的是通過發展計算機語言系統,對醫學術語和詞典進行整合,以達到信息整合的目的,從而克服兩個障礙:“一是不同機讀資源和不同人群對同一概念表達的差異,二是信息在網絡中的不同數據庫之間傳播的困難。”[3]
一體化醫學語言系統的研發歷經三個階段:1986—1988年,調查用戶需求,界定了一體化醫學語言系統的三個組成部分:元敘詞表、語義網絡及情報源圖譜,并將系統與醫學術語數據庫鏈接;1989—1991年,主要研制和發布了三款一體化醫學語言系統產品的測試版本,同時繼續開展用戶調查和一體化醫學語言系統的功能開發;1992年以后,不斷擴大詞匯量和語言版本,以使數據庫更加完善,1996年時增加了一個新的組成部分——專家詞典。目前,一體化醫學語言系統每年更新兩次,通過網絡共享和發行光碟供全球使用者免費使用。
一體化醫學語言系統由四個部分組成:元敘詞表、語義網絡、專家詞典和相關詞典項目、支持性軟件工具[4]。
1.元敘詞表 (Metathesaurus)
元敘詞表基于多種詞典、分類、編碼以及生物醫學文獻、基礎醫學、臨床醫學文獻中的詞匯,構成了一體化醫學語言系統的基礎,包含 100多萬個生物醫學概念和 500多萬個名稱[5]。例如,2009年11月發布的最新版本的詞匯來源于 100多個詞典和分類系統見 (圖 1),包括國際疾病分類—9 ( ICD—9)、國際疾病分類—10( ICD—10)、醫學主題詞表 (MeSH)、臨床醫學命名系統(SNOMED—CT)、觀測指標標識符邏輯命名與編碼系統(LO INC)、世界衛生組織不良反應術語集 (WHO—ART)、英國臨床術語 (UK Clinical Te rms)、臨床藥學標準術語(RxNORM)、基因本體(gene ontology)、人類孟德爾遺傳網 (OM IM)等[6]。這些詞匯稱為元敘詞表的“源詞匯”,它來源于英語、西班牙語、法語、德語、日語等 17個國家的語言,目前還不包括漢語。

圖 1 一體化醫學語言系統組成示意圖
從本質上說,元敘詞表對同一概念的不同名稱進行關聯,元敘詞表的一個概念至少被分配到語義網絡的一個語義類型,它對語義網絡的所有概念進行了分類。元敘詞表中的許多單詞和多個單詞組成的術語也出現在專家詞典中,該詞典工具可以確定源于元敘詞表的標準化詞匯。
2.語義網絡 (Semantic Network)
語義網絡對元敘詞表中的每個概念進行語義分類,對各個語義類型之間的相互關系進行說明。元敘詞表中的每個概念至少屬于一個語義類型,從不同的語義類型之間可以獲得“語義關系”,語義類型和語義關系構成了語義網絡。一體化醫學語言系統一共有 135種語義類型和 54種相互關系。大的語義類型包括:有機體、解剖結構、生物功能、化學物質、事件、物體、概念等。語義網絡表明了組群和概念之間的相互關系 (見圖 2)[7]。

圖 2 語義網絡組群和概念之間的相互關系示意圖
3.專家詞典和相關詞典項目 (SPEC IAL IST lexicon and associate lexicon program)
專家詞典包含了英語術語的句法信息,用于術語向元敘詞表的映射,包括普通英語詞典、MEDL INE和一體化醫學語言系統中的術語以及生活醫學術語等。每個詞條包括句法的、形式和結構的拼寫信息,詞條可以是一個單詞,也可以是多個單詞組成的術語。應用 Java程序,可以通過詞典完成對生物醫學文本變異的處理,這有利于網絡搜索和對電子病歷的搜索。
4.支持性軟件工具
一體化醫學語言系統的支持性軟件工具包括MetamorphoSys、lvg、MetaMap、知識資源服務器。MetamorphoSys是針對元敘詞表的特殊用途而定制出的應用程序,例如,可以應用它來排除其他來源的詞匯,可以從一個數據庫中挑選出一個概念和這個概念優先使用的名詞。lvg程序基于專家詞典和手工編碼的規則,產生一個既定術語的詞匯變異(例如從單數變為復數)和衍生 (例如形容詞形式變為名詞形式),并且能清除語義學上不重要的詞匯。MetaMap是一個在線工具,當給予一個文本時,它能查找出與元敘詞表相關的概念。知識資源服務器是一個在線服務器,它具有支持讀者瀏覽元敘詞表的功能。
一體化醫學語言系統為美國國家生物技術信息中心 (National Center for Biotechnology Information)的文獻檢索 (包括MEDL INE等)提供關鍵詞搜索。MEDL INE與世界上大部分生物醫學文獻鏈接,其搜索路徑可以檢索美國醫學圖書館的大多數文獻、會議資料、科研項目等。一體化醫學語言系統也為臨床試驗系統 (ClinicalTrials.gov)的使用提供搜索便捷,解決一個概念有多個名稱的問題。另外,一些醫學機構利用一體化醫學語言系統的資料庫收集醫學術語[8]。
我國醫學術語系統化建設起步晚,收詞量少,發展緩慢,而一體化醫學語言系統為我國醫學術語系統化提供了概念基礎和理論借鑒。
要建立我國的一體化醫學語言系統,首先要確立詞庫。美國一體化醫學語言系統含有 100多萬個概念,500多萬個名稱。100多萬個概念為漢語醫學術語提供了概念基礎,但 500多萬個名稱中有很多僅僅是英文次序或者語法的變化,因此要充分考慮英語和漢語的異同點,做好本地化工作。漢語化的語義網絡建設要充分考慮到漢語名詞的同名不同義和異名同義的特點,另外,還應從漢語科技文獻中補充漢語詞匯。
在西方醫學傳入我國之前,傳統中醫學的主導地位不可動搖,在我國醫學史上有著深遠的影響。西方醫學進入我國后,大量的西方醫學術語被翻譯成漢語,西方醫學術語的翻譯也同樣受到傳統中醫學的影響,漢語化的西方醫學術語帶有很強的民族特色。因此,建立我國的一體化醫學語言系統并不是一個簡單的術語翻譯問題,納入中醫學術語對該系統的漢語化建設具有重要意義。
隨著社會現代化及信息網絡化的發展,普及應用電子病歷的重要性日益凸現出來。電子病歷技術能夠實現醫療信息共享,即將以醫院為單位的醫療診斷信息通過網絡實現不同醫療機構之間的信息共享,從而更加有效地利用醫療資源。信息共享的一個重要基礎是術語的信息化,以便使表達同一概念的不同名稱能被計算機正確解讀。
[1]Medical terminologies:UMLS[DB/OL].http://www. openclinical.org/medTer mUmls.html.
[2]LindbergD A,HumphreysB L,McCray A T.The Unified Medical Language System[J].Methods Inf Med,1993 Aug,32(4):281-91.
[3]HumphreysB L.The UMLS and the web:new opportunities to link sciencitific knowledge to clinical care[EB/ OL].http://crics3.bvsalud.org/cgi-bin/crics3/.
[4]LindbergD A B,Humphreys B L.The UMLS Knowledge Sources:tools for building better user interfaces[J].Proc Annu Symp ComputApplMed Care,1990,121-5.
[5]About the UMLS[DB/OL].http://www.nlm.nih.gov/ research/umls/about_umls.html.
[6]Source Vocabularies-2009AB Release[DB/OL].http://www.nlm.nih.gov/research/umls/knowledge_ sources/metathesaurus.
[7]Kleinsorge A,W illis J,Browne,A.AM IA 2006 Tutorial T12 UMLS Overview[DB/OL].http://www.nlm.nih. gov/research/umls/pdf/AM IA_T12_2006_UMLS.pdf.
[8]UMLSApplications[DB/OL].(2009-09-23)[2010 -06-21].http://www.nlm.nih.gov/research/umls/ implementation_resources/applications.html.
The UMLS and Its Reference to Standardize Chinese Medical Terminologies
ZHU Yanhui Tengjisi
Having been deve lop ed for ove r two decades by U.S.N a tiona l Ins titute of Hea lth,w ith its17 linguis tic ve rs ions,the U nified M ed ica l Language Sys tem (UMLS)has becom e the m os t unive rsa l m ed ica l te rm inology sys tem.It inc ludes the M e ta thesaurus,Sem antic N e tw ork,SPEC IAL IST lexicon and assoc ia te lexicon p rog ram,supp orting softw a re tools.The UMLS p rovides convenience for lite ra ture re trieva l and the imp lem enta tion of the na tiona l e lec tronic m ed ica l record.
UMLS(Unified M ed ica lLanguage Sys tem),te rm inology,e lec tronic m ed ica l record
N04;R3
A
1673-8578(2010)04-0015-04
2010-05-11
朱彥慧(1972—),男,山東人,2004年北京大學醫學部博士畢業,同年赴美從事醫學研究,2006年歸國,現為全國科學技術名詞審定委員會副編審。通信方式:zhuyh@cnctst.gov.cn。