嚴曉明 吳 龍 陳秀娟 李 琴 劉立宇 張 軍 韋志強
(廣東省人民醫院 廣州 510080) (生命奇點(北京)科技有限公司 北京 100089)
張 帆 高云鶴 梁會營 楊小紅
(廣州市婦女兒童醫療中心 廣州 510623) (廣東省人民醫院 廣州 510080)
隨著醫院信息化的快速發展,醫院信息系統積累了大量臨床醫學數據與臨床影像數據。這些分散在不同業務系統的醫療數據是醫療活動的記錄,通過數據采集、數據建模、數據清洗等一系列數據治理工作建立基于科研主題的醫療全量數據平臺,可為醫院疾病防控、臨床輔助診斷、藥品監督以及精準醫療等多方面賦能[1],推進醫院科研高質量發展,提升醫院核心競爭力。但目前醫療數據存在重創造輕管理、重數量輕質量、重業務輕增值的現象,在服務創新、數據質量、開放共享、安全合規等方面面臨嚴峻挑戰[2]。通過整合不同業務系統醫療數據建立醫療全量數據平臺,需要構建完整的數據治理體系以及符合新時代需求的醫療數據質量監管保障機制[3]。保障機制需涵蓋元數據、主數據、數據質量管理等內容[4],其中數據治理核心之一是數據模型即數據元的管理。目前數據建模過程僅停留在建模的過程文檔中,并未形成統一的建模方法以及質量管理體系,建模過程中缺少管理工具輔助。在數據治理過程中容易出現模型定義混亂、模型變更過程缺少監管與模型標準管理等問題。本文以國際數據管理協會(Data Management Association,DAMA)數據管理體系相關理論為基礎,建設基于醫療全量數據的模型管理工具,提升數據建模效率,實現數據建模質量管理以及模型全生命周期管理,為后續數據治理奠定基礎。
隨著醫療數據量和數據應用需求的迅速增長以及數據倉庫、大數據等技術的成熟應用,信息互聯互通和大數據應用成為醫療信息化過程中的剛性需求。數據治理的重要性日益突顯,高效的數據治理被視為醫療信息互聯互通與醫療數據價值有效挖掘的重要基礎[5]。醫療信息系統多呈現碎片化特征。大數據應用往往需要將醫院中幾十個甚至上百個異構醫療信息系統產生的各類數據進行集成匯聚并進行統一建模。只有依據國家相關標準建立的數據模型才能在適應性、共用性和穩定性方面滿足物聯網、大數據、人工智能等新一代信息技術應用需求,達到國家對醫療健康信息互聯互通標準化的要求[6]。一般數據建模后的數據表結構大概有幾百個甚至幾千個,如果缺乏有效管理則可能導致以下問題:數據表、字段定義或者注釋缺失,導致字段意思含糊不清、同名不同義或同義不同名、冗余字段和表、枚舉值不一致等問題;數據模型變更合理性未得到有效控制,對變更過程缺乏記錄,無法進行追溯;業務流程發生變化時未同步修改數據模型,導致數據模型與應用系統中數據不一致;無法及時、準確地為管理者提供數據模型的全生命周期過程相關信息。因此在建設醫療全量數據平臺的數據治理過程中,為提升數據建模效率、規范數據模型標準、實現數據模型的全生命周期管理,建設數據模型管理工具十分必要。
DAMA數據管理知識體系中,數據建模被定義為發現、分析和確定數據需求的過程,用數據模型的精確形式表示和傳遞這些數據需求[7]。數據模型按照描述詳細程度的不同,每種模式可分為3層模型:概念模型、邏輯模型和物理模型。每種模型都包含一些組件,如實體、關系、事實、鍵和屬性;數據模型數據可以采用多種不同模式表示,其中最為常見的6種模式分別是:關系模式、多維模式、面向對象模式、事實模式、時間序列模式和NoSQL模式。在建?;顒又蠨AMA強調建模規劃、正向逆向建模、模型審核、模型維護等過程,需要通過持續改進來控制模型質量以及促使模型保持最新狀態。
根據DAMA體系理念,通過構建數據模型管理工具實現命名規范、數據標準管控、值域管理、縮寫管理、數據映射管理、版本管理以及模型質量管理等功能。通過管理工具持續改進模型質量,保證模型在長期工作中保持最新狀態,為數據治理奠定良好基礎。
4.1.1 概述 醫療全量數據模型管理工具基于LINUX操作系統,運用Kubernetes和Docker虛擬化技術構建大規模Hadoop集群,提供大規模高性能分布式數據存儲和在海量數據中的映射能力。系統設計遵循標準化、規范化等原則。
4.1.2 標準化和規范化 系統遵循醫療行業標準并與醫院實際數據情況相結合,建立醫院標準化數據管理規范,提供相應標準化組件功能實現模型化管理服務,降低復雜的醫療數據管理和整合成本、改善數據整體利用效果。
4.1.3 完整性和實效性 系統建設堅持完整性原則,統籌規劃、統一設計,采取有力的組織措施和嚴格的制度保障,保證數據建模、數據采集及數據使用等過程模型管理功能的完整性和實效性。
4.1.4 先進性和實用性 在設計理念、技術體系等方面要求具有先進性和成熟性,以期滿足系統在較長生命周期內具有可維護性和可擴展性。系統設計必須考慮易維護和管理性,保證系統在運行過程中能夠快速、準確地定位和排除故障。系統界面應簡單、美觀、容易理解且易于操作,方案選擇和功能設置應追求實用性,必須切合全量醫療數據模型管理的實際需求。
4.1.5 兼容原有業務信息系統 充分發揮已有系統功能,利用現有醫院數據庫的數據架構,通過數據集成和轉換快速形成對應數據模型。不僅需要支持業務系統現有數據和歷史數據的數據模型,還需支持臨床文檔結構(Clinical Document Architecture,CDA)進行數據建模與數據映射,滿足異構數據源的數據建模。
河湖健康評估 河湖健康評估是指對河湖系統物理完整性(水文完整性和物理結構完整性)、化學完整性、生物完整性和服務功能完整性及其相互協調性的評價。
4.2.1 概述 數據建模是集成醫院各臨床、運營、管理等全量數據的基礎,在以科研、患者、管理等數據維度進行整合過程中使用統一數據模型,并對數據進行質量控制、標準化管控和數據治理?;谝幏痘?、歸一化后的全量標準化數據可以構建面向數據分析的各類應用,如臨床研究、臨床輔助決策支持、智能患者服務、智能藥品研究、績效管理、運營管理等方面。按照系統功能將數據模型管理工具分為3個層次,見圖1。

圖1 系統功能架構
4.2.2 物理層 實現依據模板對數據模型增加、變更、模型轉換以及版本管理等功能??筛鶕煌瑪祿煜到y表信息生成數據模型,快速進行模型采集與管理,是數據建模的基礎。
4.2.3 邏輯層 實現對數據模型與物理模型映射配置以及查詢,由數據結構、數據操作、數據映射和數據完整性約束條件組成。
4.2.4 應用層 提供數據模型的可視化顯示、統計與查詢等功能,輔助數據模型管理人員或者數據分析人員清晰地了解數據模型整個生命周期。

圖2 數據模型管理工具功能設計
5.1.1 概述 數據模型管理包含正向與反向的建模設計、版本管理、變更控制、差異對比、導入導出等功能。方便管理人員能高效、持續管理數據模型,實現數據模型的全生命周期管理,見圖3。

圖3 數據模型的全生命周期管理
5.1.2 業務模型采集 支持自動采集業務系統的數據結構,支持源端Oracle、Mysql、SqlServer、Cache等市場中的主流數據庫,實現在數據模型管理工具中創建與源端一致的數據結構。
5.1.3 數據模型設計 支持管理模型、管理工具從物理模型到數據庫的正向建模,通過生成數據庫定義語言(Database Definition Language,DDL)在數據庫中創建數據表;支持對原有系統的逆向工程能力,可根據數據庫系統表信息生成數據模型;支持在字段中引用數據標準,在模型工具中可以全面查閱和尋找已發布的數據標準,并將其和數據字段進行綁定,實現數據模型的引標落標。
5.1.4 數據模型版本管理與變更控制 DAMA管理體系認為數據模型需要保持最新狀態,需求或者業務流程發生變更時都要對數據模型進行變更。數據模型管理工具支持對數據模型設計、提交、評審、發布、實施到消亡的全過程實現流程化的變更管理。支持數據模型可視化設計和修改,在模型變更時可自動生成差異化的DDL語句提交到測試環境中并對模型進行評審,評審通過后模型才能發布上線;提供數據模型版本化管理,可自動生成版本號以及版本變更明細信息。支持回溯任意時間點的數據模型設計狀態,實現對各系統數據模型的有效管控和治理,強化醫院對其數據模型的掌控能力。
5.1.5 數據模型差異對比 支持模型管理工具的數據模型與業務數據庫之間的模型進行自動對比,可發現設計的數據模型和實際業務數據庫中模型不一致問題。通過提供數據庫表結構差異、數據關系差異的可視化報告,輔助用戶監控數據模型的質量問題,提升數據模型設計和建模的質量。
5.1.6 數據模型導入導出 可以將模型文件(如PD、ERWin等數據DDL文件)直接導入到數據模型工具中生成數據模型;支持將模型工具中的模型導出為數據庫DDL腳本,進而在數據庫中創建已經規劃好的模型。
5.1.7 物理數據模型轉換 實現將已定義好的數據模型轉換成新數據模型的功能,支持不同數據庫模型之間的直接轉換。通過數據模型轉換功能可實現數據倉庫/數據中心等各層級數據模型的快速轉化,提高數據模型的結構一致性和建模效率。
實現邏輯模型與物理模型的映射關系配置,同時支持管理人員通過不同格式的模板維護邏輯模型與物理模型映射關系。可通過批量導入模型格式的方式將數據模型維護到管理工具中,在映射關系通過審核后進行快速配置。
5.3.1 概述 在完成數據模型設計后,需要對設計好的模型進行評審。評審過程按步驟分為邏輯模型質量審計、物理模型質量審計以及數據標準應用情況,見圖4。

圖4 數據模型質控流程
5.3.2 邏輯模型質量審計 對模型中的實體名稱與中文屬性名稱進行解析,審查名稱是否符合數據標準,自動檢查實體定義和屬性定義,對實體孤立進行審核,審查是否存在與其他沒有關系的實體。
5.3.3 物理模型質量審計 系統自動對表名稱、字段名稱進行解析,審核其英文名稱是否符合數據標準,對模型中的域進行審核,審核其是否符合標準化要求。
5.3.4 數據標準引用情況檢查 實現生成數據模型對數據標準引用情況進行詳細報告的功能,報告內容包括模型引用數據標準情況,為后續數據治理提供詳細依據。
為輔助數據模型管理人員或者決策成員清晰地了解醫院數據資產,模型管理工具提供數據模型可視化顯示功能,提供數據模型圖形化視圖,通過圖表形式展示數據表以及表間關系;實現數據模型統計功能,支持對所有數據模型進行統計分析,可展示邏輯數據模型、物理數據模型的數量及標準落地情況;實現數據模型查詢功能,支持邏輯數據模型查詢與物理數據模型查詢,可以通過表、視圖、字段等屬性進行對維度的查詢,以便管理人員更好地組織和利用數據資產。
醫療全量數據的數據模型管理工具建設,完成數據建模與數據生產工具、數據管理工具的一體化設計。在醫院建設全量數據平臺的數據建模過程中實現了模型、流程、質控、監控可視化等功能,并在建模的同時同步完成數據生產流程設計,提供一站式數據處理服務,彌補傳統建模方式對數據模型管控的缺失與不足。與傳統建模方式相比數據模型管理工具建模具有一定優勢,見表1。

表1 傳統建模方式與數據模型管理工具建模的效果差異對比

續表1
在醫院實際應用中,通過數據建模工具高效地完成20個業務系統的數據建模,轉換了49個標準數據表,涉及數據6.3億條,共管理213個實體、1 051種屬性、109個血緣關系。形成數據模型的命名管理、數據標準管控、值域管理、映射管理、版本管理以及數據質量管理等統一管理體系,達到了對數據模型全生命周期管理要求,為后續數據治理奠定良好基礎。同時數據建模工具基本上支持市場中的主流數據庫,在數據湖、科研數據庫建設等涉及數據建模的工作中都具有廣泛應用前景。