陳馮薏,俞剛
浙江大學醫學院附屬兒童醫院 信息中心,浙江 杭州 310052
浙江大學醫學院附屬兒童醫院(以下簡稱“我院”)的信息化建設可以追溯到20 世紀90 年代,架構發展受限于建設周期長,各個信息系統分別通過視圖或Web Service 的方式進行兩兩交互,造成接口混亂,基礎字典數據不統一。此外我院患者基本信息由于歷史原因數據管理較為混亂,存在同一病人多門診號,多住院號的情況,并且相關數據并缺少關聯。
近年來,國家健康衛生委員會(簡稱“衛健委”)出臺了各類文件標準推進“互聯網+醫療健康”的發展,不斷強調了加強醫院建設信息化的重要意義。國家衛健委于2018 年發布了新版的《電子病歷系統功能應用水平分級評價方法及標準(試行)》[1-2]評價標準,并要求2020 年所有三級醫院要達到4 級以上的評價。標準從3 級開始就對數據標準化有了明確的規范,要求有統一的數據字典,全院信息系統能夠數據共享,并為臨床科研工作提供數據挖掘功能。從5 級標準開始則要求醫院有統一的數據管理。因此我院從2015 年開始,投入大量的資源根據此標準開展醫院信息化建設,現我們就過程中的主數據管理平臺建設實踐做一下回顧。
我院根據電子病歷系統的評級標準,結合醫院的信息化實際情況,主要建設以電子病歷為核心,基于集成平臺和臨床數據中心的信息化架構。改造升級了電子病歷系統,新建了臨床決策輔助系統,新建了基于醫療信息平臺、主數據管理平臺、醫療大數據服務平臺、醫院門戶集成平臺的醫院信息集成平臺[3-4]。整體建設平臺建設的第一步核心內容就是——主數據管理平臺[5]的建設(梳理各系統相關的字典數據,創建主索引系統)。
主數據管理平臺搭建在獨立為Windows Server 上,通過企業服務總線(Enterprise Service Bus,ESB)的專門信息集成引擎所用消息隊列接口MQ 接口和Web Service 接口與各個業務系統關聯交互。數據管理平臺將所有的主索引、主數據信息都存儲在平臺數據庫服務器上。業務系統數據更新時同步至平臺,再由平臺下發至其他相關業務系統中。如果平臺宕機,不會影響到業務系統的數據使用,僅會影響主數據的同步。管理人員通過Web 網頁對平臺進行可視化管理。
主數據管理[6](Master Data Management,MDM)通過對核心數據的定義,并在主數據庫中實現統一存儲,實現所有相關系統的數據同步。主數據管理功能主要包括主數據存儲、主數據質量管理、主數據共享和主數據生命周期管理等。醫院的主數據包含檢驗檢查項目、收費項目、醫囑項目、藥品信息、手術編碼、診斷編碼等醫院基礎字典數據,以及各種行業標準和國家標準[7]。主數據管理實現了基礎數據的全院統一管理,實現了基礎數據的同步或匹配,規范了數據的統計口徑,提高了數據質量。
如圖1 所示,主數據管理基于面向服務框架 (Service-Oriented Architecture,SOA),將不同系統中的特定數據單元通過定義的接口聯系起來,使其可以以獨立于實現服務的硬件平臺、操作系統和編程語言進行統一和通用的方式交互[8]。其中數據管理系統包含以下幾個功能模塊:值域管理,(Object Identifi er,OID 對象標識符)管理,數據元管理,字典信息列表,版本管理。

圖1 主數據管理系統框架圖
EMPI[9](Enterprise Master Patient Index,主索引系統)是主數據管理平臺的一個功能,利用概率統計學理念,制定一套完整的標準化算法及數據匹配算法,對主索引信息進行更加準確的驗證和判斷,對患者身份信息、職工信息、科室信息完成有效識別,實現唯一性標識。主索引主要由患者主索引、職工主索引和科室主索引構成。主索引系統支持衛生信息交換標準(Health Level 7,HL7)和醫療信息系統集成(Integrating the Healthcare Enterprise,IHE)規范,通過主索引號關聯業務系統的歷史數據,最終達到所有信息的互聯互通[10],解決業務系統累積的信息孤島問題。
由圖2 知,EMPI 與各業務系統通過ESB 中接口進行集成,完成患者信息的查詢、交叉索引,患者信息新建與更新等[11]。主索引庫存儲著各個系統中同一患者,同一職工或同一科室在其他業務系統中的關聯管理。主索引應用通過臨床數據倉庫(Clinical Data Repository,CDR)對主索引號進行增刪改查與統計分析。主索引管理系統對主索引進行管理操作,支持設定合并規則參數閾值,批量導入數據、疑似患者管理。支持手工匹配、合并、拆分相關數據。

圖2 主索引系統角色架構
1.2.1 患者主索引建設
由于兒童醫院的特殊性,存在很多出生后仍未取名未取得身份證信息的患者。前一次就診可能仍未有姓名,后一次就診已有身份信息。一個有效的患者主索引匹配算法,對患者在我院整個兒童時期就診記錄的完整性,連續性尤為重要。我院的患者主索引系統匹配算法根據公式(1)計算匹配分數。對于歷史的患者數據,主要根據證件號碼、患者姓名、現住地址(由于歷史數據此字段基本不會更新,因此匹配可靠度高)、聯系人姓名、聯系人電話、聯系人證件號碼[12]進行多字段疑似數據自動匹配[13]。由于歷史患者數據完整度低,所以匹配歷史數據時相似分數設置較低。相似分數大于60 的則自動判斷為相同患者,對于高于45的數據則判斷為相似患者進行二次人工判斷解除疑似或者數據合并。部分歷史數據例如無姓名新生兒患者,聯系人信息不全或聯系人非父母則難以匹配。因此對于系統更新后的患者要求在就診時填入必要的基本信息,無身份證等證件信息的患者則要求填寫母親的姓名與身份證號,以保證之后大部分的“二無”患者(無姓名、無身份證)可以被主索引系統識別匹配。但若是“二無”的雙胞胎新生兒患者,則主索引系統將難以分辨。此外部分急診的“三無”患者(無姓名、無聯系人、無支付能力)將無法進入主索引。
相似分數=[證件號碼]×20+[患者姓名]×15+[出生日期]×10+[性別名稱]×5+[現住地址]×15+[聯系人姓名]×10+[聯系人電話]×10+[聯系人證件號碼]×10+[聯系電話]×5 (1)
式(1)中,“[]”內為匹配字段,根據匹配方法“全匹配”或“最小編輯距離”計算字段匹配值,數字則為相應字段對應的權重。
1.2.2 職工主索引建設
由于各系統工號存在管理混亂,存在不同系統間員工編碼無法直接統一,且與人事系統無關聯,所有人事基本信息更新嚴重延遲。建立一套有效的職工主索引制度,能夠規范化工號管理,所有人員信息能夠及時更新。對于職工主索引的建設,我院設計了一套全新的工號申請流程,如圖3。對于正式員工,人事系統中的數據將自動導入主索引系統。主索引系統根據設定好的規則,根據不同類型的人員自動給予不同號段的工號,并將所有工號與基本信息同步入各個相關的業務系統。相關職能科室審批通過工號申請后,于相關系統中查找對應工號并進行權限設置。對于非正式員工的工號(如實習生、規培生等),則由員工向相關科室發起申請后,職能科室手動維護信息入主索引系統,工號仍由主索引自動生成并同步至相關系統。

圖3 職工工號申請生成流程圖
我院在上線平臺前,對所有字典歷史數據與相關科室進行了梳理核對確認,保證首次導入的所有字典數據的唯一性、完整性、正確性,并確認了相關主數據的唯一維護入口和自動同步方式[14]。所有的主數據在主數據管理平臺現定義元數據,再定義主數據,經過數據質量管控后同步至所有相關系統中。此外對于每一次的數據更新,進行版本管理,以防版本回退。主數據管理平臺上線后,整理導入了所有的字典數據,數量如表1 所示。主數據除了業務系統的定時更新維護外,當國家發布各類新版本字典時需要手動去平臺內進行版本更新。對于職工主索引,整理保留了歷史醫生工號,并整理重建了護士及其他人員的工號,保證了所有人員都有自己唯一的系統工號并能操作相應的系統。整理關聯了患者歷史就診信息,但仍存在部分低質量歷史數據無法關聯。建立的患者主索引中直接合并了466010 條相同數據,判斷了868321 條疑似相同數據。患者主索引為患者全息視圖提供了數據基礎。
主數據管理平臺上線使用良好,但仍存在幾個問題。第一是如何保證維護的主數據的唯一性,重復主數據會影響數據質量,不利于數據挖掘??梢栽谄脚_上建立重復數據檢測算法,自動檢測新增數據的可信度,是否存在相似或重復數據,定期進行主數據質量維護。第二是數據安全。主數據管理平臺有獨立的數據庫存儲數據,建立一套安全高效的數據傳輸體系和數據庫訪問權限設置將有效保護數據安全。第三是新生兒患者主索引的匹配算法持續改進。基本信息錄入的完整度影響患者主索引的應用效果,如何設置更合理的基本信息采集方式,將影響新生兒患者進入主索引的概率。

表1 主數據管理平臺導入字典數量(條)
所有系統數據的整合都是基于主數據的建設管理。我院根據國家電子病歷系統評級的要求搭建了基于各項標準規范的主數據管理平臺,結合兒童醫院的特色進行了患者主索引、職工主索引以及主數據的維護流程設計,為之后的集成平臺建設、數據中心的創建打下了堅實基礎。