李瑩瑩 徐美蘭 任冠華 查裕忠 王志勇 鄭 杰
(浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院杭州 311113) (中國(guó)標(biāo)準(zhǔn)化研究院 北京 100191) (浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院杭州 311113) (同濟(jì)大學(xué)附屬上海市第四人民醫(yī)院 上海 200434) (浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院 杭州 311113)
面對(duì)日益復(fù)雜的醫(yī)院信息系統(tǒng),醫(yī)院健康醫(yī)療數(shù)據(jù)管理難度急劇上升。醫(yī)學(xué)術(shù)語(yǔ)作為臨床診療數(shù)據(jù)規(guī)范化管理“四統(tǒng)一”的重要一環(huán),既是實(shí)現(xiàn)語(yǔ)義互操作的基礎(chǔ),也是促進(jìn)健康醫(yī)療大數(shù)據(jù)挖掘與智能化應(yīng)用的底層支撐[1]。但現(xiàn)有醫(yī)學(xué)術(shù)語(yǔ)管理模式仍以單系統(tǒng)獨(dú)立維護(hù)與使用為主,缺乏整體統(tǒng)籌。導(dǎo)致各系統(tǒng)采用的醫(yī)學(xué)術(shù)語(yǔ)、字典和編碼體系存在同一術(shù)語(yǔ)表達(dá)不一致、同一術(shù)語(yǔ)內(nèi)涵不同、同一術(shù)語(yǔ)集版本迭代不同步等問(wèn)題[2]。關(guān)于醫(yī)院術(shù)語(yǔ)管理系統(tǒng)建設(shè)模式主要有離散管理和統(tǒng)一管理兩類[3-5]。近年來(lái)基于本體的醫(yī)學(xué)術(shù)語(yǔ)體系備受關(guān)注,例如最新的國(guó)際疾病分類與編碼第11次修訂本(International Classification of Disease V11,ICD-11)采用了本體思想[6]。現(xiàn)有醫(yī)學(xué)術(shù)語(yǔ)服務(wù)平臺(tái)可支持多類術(shù)語(yǔ)的查詢、瀏覽與映射管理,如3M HDD[7]、Ontoserver[8]、SnoChillies[9],也有圍繞特定術(shù)語(yǔ)體系的服務(wù)平臺(tái),如Snowstorm(SNOMED CT)[10]、LOINC FHIR術(shù)語(yǔ)服務(wù)器[11]。但基于本體醫(yī)學(xué)術(shù)語(yǔ)服務(wù)系統(tǒng)的研究[12-14]缺乏面向醫(yī)院實(shí)際場(chǎng)景的設(shè)計(jì)。本文提出一種基于本體的醫(yī)院醫(yī)學(xué)術(shù)語(yǔ)管理系統(tǒng)設(shè)計(jì),探討該系統(tǒng)在醫(yī)院醫(yī)學(xué)術(shù)語(yǔ)管理中的應(yīng)用價(jià)值,以期為提高醫(yī)院信息系統(tǒng)語(yǔ)義互操作性、醫(yī)療數(shù)據(jù)質(zhì)量管理與應(yīng)用水平提供參考。
術(shù)語(yǔ)管理是指支持在特定主題領(lǐng)域創(chuàng)建和管理術(shù)語(yǔ)的組織單元、流程和工具的總和,其目的是確保在整個(gè)組織內(nèi)一致地使用正確的術(shù)語(yǔ)[15],包括收集術(shù)語(yǔ)、記錄術(shù)語(yǔ)、對(duì)術(shù)語(yǔ)進(jìn)行準(zhǔn)確性審查以及術(shù)語(yǔ)分發(fā)和傳播4個(gè)過(guò)程[16]。實(shí)現(xiàn)醫(yī)學(xué)術(shù)語(yǔ)的語(yǔ)義一致性是醫(yī)學(xué)術(shù)語(yǔ)管理的核心。
2.2.1 離散管理模式 目前主流的醫(yī)學(xué)術(shù)語(yǔ)管理多為離散模式,醫(yī)療機(jī)構(gòu)從業(yè)務(wù)需求出發(fā),針對(duì)各業(yè)務(wù)系統(tǒng)搭建相應(yīng)醫(yī)學(xué)術(shù)語(yǔ)管理模塊,如醫(yī)院信息系統(tǒng)中設(shè)有診斷、手術(shù)字典以實(shí)現(xiàn)數(shù)據(jù)記錄的規(guī)范化。離散模式下系統(tǒng)術(shù)語(yǔ)管理模塊建設(shè)不受其他系統(tǒng)限制并可靈活調(diào)整,在信息化建設(shè)水平不統(tǒng)一的初期發(fā)揮了重要作用。但該模式缺乏整體統(tǒng)籌,各系統(tǒng)生成的數(shù)據(jù)無(wú)法有效互聯(lián)互通[3],導(dǎo)致后期集成化發(fā)展過(guò)程中改造成本高、難度大。
2.2.2 統(tǒng)一管理模式 隨著醫(yī)院信息系統(tǒng)的集成化發(fā)展,統(tǒng)一的醫(yī)學(xué)術(shù)語(yǔ)管理理念逐漸形成,對(duì)獨(dú)立于各系統(tǒng)的術(shù)語(yǔ)進(jìn)行統(tǒng)一組織管理,形成共享字典[4-5],實(shí)現(xiàn)子程序隨調(diào)隨用,有效避免了離散管理中的語(yǔ)義異構(gòu)問(wèn)題。目前已有部分醫(yī)療信息化廠商基于此模式進(jìn)行系統(tǒng)開(kāi)發(fā),但主要是將子系統(tǒng)字典進(jìn)行簡(jiǎn)單集合,尚未形成有效的術(shù)語(yǔ)管理模型,在術(shù)語(yǔ)應(yīng)用拓展性上存在不足。
2.3.1 有效解決語(yǔ)義異構(gòu)問(wèn)題 本體是共享概念模型明確的形式化規(guī)范說(shuō)明[17],其本質(zhì)是通過(guò)“本體”實(shí)現(xiàn)概念以及概念間關(guān)系的唯一性描述,從信息根源上規(guī)避語(yǔ)義歧義產(chǎn)生。該特性契合術(shù)語(yǔ)管理中對(duì)語(yǔ)義一致性的核心要求。現(xiàn)實(shí)場(chǎng)景中醫(yī)學(xué)用語(yǔ)具有多樣化特點(diǎn),醫(yī)學(xué)學(xué)科疾病發(fā)展產(chǎn)生了大量醫(yī)學(xué)新詞,如果簡(jiǎn)單地采用字典的結(jié)構(gòu)化錄入往往無(wú)法適應(yīng)臨床實(shí)際工作需要,但隨意輸入又必然造成語(yǔ)義歧義。通過(guò)本體這一媒介將表達(dá)相同語(yǔ)義的多個(gè)醫(yī)學(xué)術(shù)語(yǔ)標(biāo)引至同一概念下,從而能夠在用戶端提供較為開(kāi)放的輸入方式,又能在信息層面有效消歧,是一種更柔性的管理模式。
2.3.2 實(shí)現(xiàn)知識(shí)共享、重用和發(fā)現(xiàn) 對(duì)術(shù)語(yǔ)字典的編碼化管理可在形式上消除醫(yī)學(xué)術(shù)語(yǔ)語(yǔ)義異構(gòu)問(wèn)題,但其管理維度是線性、一維的,僅實(shí)現(xiàn)概念的歸一。而本體的核心是一種模型,除了明確概念還包括對(duì)概念相互關(guān)系的表達(dá),是一種網(wǎng)絡(luò)化的管理模式。這使得基于本體的管理在向下兼容詞表、分類表特性的同時(shí),還具備知識(shí)層面的拓展性。通過(guò)利用醫(yī)學(xué)本體概念模型對(duì)醫(yī)學(xué)公認(rèn)知識(shí)的邏輯抽象,能夠?qū)崿F(xiàn)醫(yī)學(xué)知識(shí)在系統(tǒng)中的共享和重用[18],例如本體中子代疾病概念通過(guò)繼承父代疾病概念的發(fā)生部位、形態(tài)學(xué)改變等用于邏輯定義概念的屬性關(guān)系,在數(shù)據(jù)分析中不需要重復(fù)建立關(guān)系,從而顯著提升醫(yī)療數(shù)據(jù)分析與處理效率。基于本體的醫(yī)學(xué)術(shù)語(yǔ)管理還具備從已有知識(shí)推理更深層次、隱性知識(shí)的能力,能夠有效支持復(fù)雜檢索與邏輯推理,為機(jī)器學(xué)習(xí)醫(yī)療數(shù)據(jù)中的知識(shí)提供可解釋性支撐。
基于本體的醫(yī)院醫(yī)學(xué)術(shù)語(yǔ)管理系統(tǒng)主要由醫(yī)學(xué)術(shù)語(yǔ)資源管理、醫(yī)學(xué)本體管理、醫(yī)學(xué)術(shù)語(yǔ)服務(wù)3個(gè)子系統(tǒng)構(gòu)成,并通過(guò)應(yīng)用程序接口(Application Programming Interface,API)將術(shù)語(yǔ)以服務(wù)化的形式賦能于醫(yī)院信息系統(tǒng)數(shù)據(jù)管理的全流程。系統(tǒng)設(shè)計(jì)強(qiáng)調(diào)從全院層面上對(duì)醫(yī)學(xué)術(shù)語(yǔ)資源的統(tǒng)一管理與調(diào)用,從源頭實(shí)現(xiàn)語(yǔ)義層面的數(shù)據(jù)規(guī)范化,提升語(yǔ)義互操作水平。設(shè)計(jì)核心是通過(guò)醫(yī)學(xué)本體管理模塊串聯(lián)術(shù)語(yǔ)資源管理與術(shù)語(yǔ)服務(wù),利用本體豐富的關(guān)系網(wǎng)絡(luò),賦予計(jì)算機(jī)更深的醫(yī)學(xué)語(yǔ)義理解能力,能夠更好地處理結(jié)構(gòu)化與非結(jié)構(gòu)化健康醫(yī)療數(shù)據(jù),從而解決統(tǒng)一管理模式中術(shù)語(yǔ)應(yīng)用的拓展性問(wèn)題,見(jiàn)圖1。

圖1 基于本體的醫(yī)院醫(yī)學(xué)術(shù)語(yǔ)管理系統(tǒng)架構(gòu)
3.2.1 醫(yī)學(xué)術(shù)語(yǔ)資源管理 醫(yī)院術(shù)語(yǔ)資源管理模塊為醫(yī)院提供多源異構(gòu)術(shù)語(yǔ)資源的統(tǒng)一管理平臺(tái)及各類術(shù)語(yǔ)向醫(yī)學(xué)本體融合的工具集。通過(guò)收錄疾病診斷編碼、手術(shù)操作編碼、藥品分類及目錄等編碼標(biāo)準(zhǔn)規(guī)范和衛(wèi)生信息標(biāo)準(zhǔn)中的值域類術(shù)語(yǔ)規(guī)范等各類醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)、外部術(shù)語(yǔ)集,形成公共術(shù)語(yǔ)資源池,滿足醫(yī)院對(duì)公共術(shù)語(yǔ)資源的查詢、瀏覽、流轉(zhuǎn)、調(diào)用以及版本維護(hù)更新需求。通過(guò)概念匹配將醫(yī)院各類醫(yī)學(xué)術(shù)語(yǔ)集映射到本體醫(yī)學(xué)術(shù)語(yǔ)模型中,實(shí)現(xiàn)術(shù)語(yǔ)的統(tǒng)一管理。概念匹配是影響整個(gè)術(shù)語(yǔ)資源整合效率的關(guān)鍵,通過(guò)建立協(xié)作審核機(jī)制,并支持引入智能文本解析技術(shù)進(jìn)行優(yōu)化,見(jiàn)圖2。

圖2 術(shù)語(yǔ)映射維護(hù)業(yè)務(wù)流程
3.2.2 醫(yī)學(xué)本體管理 醫(yī)學(xué)本體管理模塊核心是建立醫(yī)院一體化醫(yī)學(xué)本體模型,為全院術(shù)語(yǔ)管理提供統(tǒng)一語(yǔ)義模型作為頂層框架。一般可選用現(xiàn)有相對(duì)成熟的醫(yī)學(xué)本體模型為基礎(chǔ)[19],通過(guò)本體模型的維護(hù)實(shí)現(xiàn)本體術(shù)語(yǔ)導(dǎo)入、本體術(shù)語(yǔ)中概念和概念的層級(jí)關(guān)系調(diào)整、概念的屬性定義、概念中術(shù)語(yǔ)的增刪改查、概念歸一等功能,逐步完善醫(yī)院醫(yī)學(xué)術(shù)語(yǔ)本體模型。子集定制及拉取功能可從龐大的醫(yī)學(xué)本體模型中抽取目標(biāo)術(shù)語(yǔ)集,用于場(chǎng)景化數(shù)據(jù)挖掘。
3.2.3 醫(yī)學(xué)術(shù)語(yǔ)服務(wù)管理 系統(tǒng)可在定制業(yè)務(wù)管理模塊構(gòu)建與維護(hù)定制業(yè)務(wù)字典。系統(tǒng)為每個(gè)業(yè)務(wù)字典配置調(diào)用API,通過(guò)API調(diào)用實(shí)現(xiàn)不同系統(tǒng)間的字典同步與管理。本體映射維護(hù)功能支持結(jié)構(gòu)化的術(shù)語(yǔ)數(shù)據(jù)實(shí)體間的映射,可實(shí)現(xiàn)不同術(shù)語(yǔ)的對(duì)齊或者合并,包括映射項(xiàng)目的創(chuàng)建與維護(hù)、智能預(yù)映射及映射結(jié)果審核、修改、導(dǎo)出等。通過(guò)權(quán)限管理針對(duì)不同業(yè)務(wù)單元、角色進(jìn)行分級(jí)分類管理和功能開(kāi)放設(shè)置,保障術(shù)語(yǔ)資源安全性與應(yīng)用有序性。
4.1.1 ICD編碼管理規(guī)范化 ICD編碼是醫(yī)院質(zhì)量管理、醫(yī)療保險(xiǎn)費(fèi)用結(jié)算等的重要編碼體系。系統(tǒng)將ICD編碼管理從原有的單個(gè)系統(tǒng)中抽離出來(lái),從概念層面對(duì)編碼進(jìn)行統(tǒng)一維護(hù)、更新與版本映射轉(zhuǎn)換,并建立ICD編碼概念與臨床醫(yī)學(xué)術(shù)語(yǔ)概念的映射關(guān)系,各系統(tǒng)通過(guò)API調(diào)用形式實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)版本的使用與更新,從而滿足全院層面的編碼規(guī)范化要求。以手術(shù)編碼為例,系統(tǒng)將全國(guó)各地18個(gè)版本的16.2萬(wàn)手術(shù)編碼進(jìn)行了語(yǔ)義層面的概念歸一,形成2.6萬(wàn)概念量和4.8萬(wàn)ICD-9-CM-3編碼術(shù)語(yǔ)集,醫(yī)院可在此基礎(chǔ)上建立內(nèi)部統(tǒng)一的手術(shù)編碼概念集及其與醫(yī)學(xué)本體概念的映射,實(shí)現(xiàn)臨床診斷應(yīng)用與編碼的管理分離。在滿足臨床適用的診斷術(shù)語(yǔ)需求的同時(shí)能夠通過(guò)映射關(guān)系實(shí)現(xiàn)多版本間的編碼轉(zhuǎn)換。
4.1.2 醫(yī)學(xué)語(yǔ)義檢索 構(gòu)建病歷搜索引擎時(shí),針對(duì)不同醫(yī)學(xué)文本特點(diǎn)可在術(shù)語(yǔ)管理系統(tǒng)中生成相應(yīng)醫(yī)學(xué)術(shù)語(yǔ)標(biāo)注字典集,數(shù)據(jù)處理工具通過(guò)API調(diào)用標(biāo)注字典集對(duì)臨床文本進(jìn)行更精細(xì)化的實(shí)體標(biāo)注,例如利用本體模型識(shí)別病歷文本數(shù)據(jù)中的“慢阻肺”是一種疾病、“阿司匹林”是一種藥品、“艾滋病”“獲得性免疫缺陷綜合征”所表達(dá)的醫(yī)學(xué)含義相同等。患者病歷檢索系統(tǒng)通過(guò)調(diào)用系統(tǒng)的醫(yī)學(xué)本體一體化模型,可解析識(shí)別標(biāo)注后的結(jié)構(gòu)化臨床病歷數(shù)據(jù)中的屬性、關(guān)系等,實(shí)現(xiàn)基于術(shù)語(yǔ)子集、術(shù)語(yǔ)映射、術(shù)語(yǔ)關(guān)聯(lián)關(guān)系支持多條件的患者檢索和相似病歷查找等。例如查找“急性心肌梗塞”患者病歷時(shí),借助本體的同義詞關(guān)系、層級(jí)關(guān)系,將具有“急性心梗”“急性心肌梗死”“急性前壁心梗”“急性后壁心梗”“急性多壁心梗”“急性廣泛性心梗”等同樣語(yǔ)義的患者信息都檢索出來(lái)。
4.1.3 精確統(tǒng)計(jì)與醫(yī)學(xué)推理分析 基于本體術(shù)語(yǔ)管理系統(tǒng)形成的醫(yī)療數(shù)據(jù)進(jìn)入醫(yī)療數(shù)據(jù)分析系統(tǒng)時(shí),可借助本體屬性關(guān)系實(shí)現(xiàn)精確統(tǒng)計(jì),例如利用病理分型屬性關(guān)系精確統(tǒng)計(jì)診斷為“非小細(xì)胞肺癌”、病理分型為“鱗癌”,且使用了“吉西他賓”藥物的患者數(shù)量及占到所有“非小細(xì)胞肺癌”患者的比例。本體醫(yī)學(xué)術(shù)語(yǔ)形式化后的數(shù)據(jù)能夠利用本體中蘊(yùn)含的知識(shí)對(duì)醫(yī)療數(shù)據(jù)進(jìn)行邏輯推理,包括層級(jí)推理、屬性推理等,提出可輔助臨床診療或臨床管理的決策,如根據(jù)患者癥狀推理出可能的疾病,幫助醫(yī)生提高診療效率和質(zhì)量。
4.2.1 術(shù)語(yǔ)管理信息模型構(gòu)建難度大 術(shù)語(yǔ)管理既要有模型上的相對(duì)穩(wěn)定性又需要有內(nèi)容維護(hù)更新上的靈活性。這就要求在系統(tǒng)分析階段準(zhǔn)確地識(shí)別術(shù)語(yǔ)與系統(tǒng)、業(yè)務(wù)之間的相互關(guān)系,盡可能構(gòu)建出適用于多源、多形態(tài)的術(shù)語(yǔ)管理以及應(yīng)用可拓展的信息模型,確保搭建的系統(tǒng)架構(gòu)能在較長(zhǎng)時(shí)間內(nèi)滿足應(yīng)用場(chǎng)景拓展需求。建議采用敏捷開(kāi)發(fā)模式,通過(guò)快速迭代不斷優(yōu)化。在注重靈敏性的同時(shí)保證技術(shù)的標(biāo)準(zhǔn)化規(guī)范。
4.2.2 高并發(fā)應(yīng)用下對(duì)API穩(wěn)定性要求高 當(dāng)真正將術(shù)語(yǔ)及編碼服務(wù)作為醫(yī)院信息化基礎(chǔ)支撐時(shí),全院實(shí)時(shí)術(shù)語(yǔ)及編碼服務(wù)API請(qǐng)求可能將達(dá)到每秒萬(wàn)次,因此對(duì)API并發(fā)性能的考慮也是建設(shè)的要點(diǎn)和難點(diǎn)。在建設(shè)中需要結(jié)合實(shí)際規(guī)模,通過(guò)優(yōu)化接口設(shè)計(jì)、請(qǐng)求分級(jí)隊(duì)列控制、接口性能調(diào)整、服務(wù)緩存設(shè)計(jì)等方式優(yōu)化以保障API服務(wù)的穩(wěn)定性。
4.3.1 重視術(shù)語(yǔ)管理體系建設(shè) 有效發(fā)揮醫(yī)學(xué)術(shù)語(yǔ)管理系統(tǒng)效用需要管理層面的支撐。醫(yī)院在信息化建設(shè)過(guò)程中,應(yīng)建立全局性醫(yī)學(xué)術(shù)語(yǔ)管理觀念,將術(shù)語(yǔ)管理納入信息化建設(shè)評(píng)估體系中。建立醫(yī)學(xué)術(shù)語(yǔ)管理體系,逐步推動(dòng)實(shí)現(xiàn)醫(yī)院數(shù)據(jù)語(yǔ)義層面的規(guī)范化。從數(shù)據(jù)生產(chǎn)源頭解決語(yǔ)義異構(gòu)問(wèn)題,提升數(shù)據(jù)質(zhì)量,形成醫(yī)院內(nèi)醫(yī)學(xué)術(shù)語(yǔ)規(guī)范化管理的“內(nèi)循環(huán)”;形成統(tǒng)一的內(nèi)外數(shù)據(jù)、跨機(jī)構(gòu)數(shù)據(jù)交互模式,實(shí)現(xiàn)醫(yī)院之間醫(yī)學(xué)術(shù)語(yǔ)規(guī)范化管理的“外循環(huán)”。
4.3.2 多機(jī)構(gòu)協(xié)同建立醫(yī)學(xué)術(shù)語(yǔ)持續(xù)完善機(jī)制 醫(yī)學(xué)本體建設(shè)依托于醫(yī)學(xué)知識(shí)基礎(chǔ),隨著現(xiàn)代醫(yī)學(xué)知識(shí)的迭代更新,各專科領(lǐng)域的專業(yè)性更加突顯,需要高水平團(tuán)隊(duì)協(xié)同構(gòu)建,以確保術(shù)語(yǔ)模型的知識(shí)準(zhǔn)確性。醫(yī)學(xué)術(shù)語(yǔ)管理應(yīng)形成多機(jī)構(gòu)協(xié)調(diào)的可持續(xù)完善機(jī)制,減少重復(fù)投入,提高建設(shè)效率。
基于本體的醫(yī)院醫(yī)學(xué)術(shù)語(yǔ)管理系統(tǒng)能夠借助本體有效解決語(yǔ)義異構(gòu)問(wèn)題,實(shí)現(xiàn)知識(shí)共享、重用和發(fā)現(xiàn),以及醫(yī)院術(shù)語(yǔ)的統(tǒng)一管理與調(diào)用、編碼管理規(guī)范化,促進(jìn)健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)揮價(jià)值。系統(tǒng)分析中應(yīng)采用敏捷開(kāi)發(fā)模式以逐步形成穩(wěn)定適用的醫(yī)學(xué)術(shù)語(yǔ)信息模型,并通過(guò)優(yōu)化AIP接口有效減輕高并發(fā)調(diào)用需求下對(duì)接口的調(diào)用壓力。醫(yī)院在推進(jìn)醫(yī)學(xué)術(shù)語(yǔ)管理系統(tǒng)建設(shè)的同時(shí)也應(yīng)完善醫(yī)學(xué)術(shù)語(yǔ)維護(hù)與管理機(jī)制建設(shè)。