摘" 要: 為了充分發揮醫療數據價值,圍繞醫療數據匯集、存儲、管理、應用的全生命周期進行梳理,提出構建“一體化醫療數據資源體系”的醫療數據治理思路,探索醫療數據標準化、精細化、數字化管理,從而打造數據驅動型的健康醫療應用平臺,提升醫療數據的應用效能。
關鍵詞: 醫療數據; 資源體系; 數據治理; 醫療數據應用
中圖分類號:R319" " " " " 文獻標識碼:A" " "文章編號:1006-8228(2023)12-135-05
Research on the construction of integrated medical data resource system
Wang Rong1,2, Hu Dandan1,2, Jian Yipeng1,2
(1. CETC Big Data Research Institute Co.,Ltd., Guizhou, Guiyang 550022, China;
2. National Engineering Research Center of Big Data Application to The Improvement of Governance Capacity)
Abstract: To fully leverage the value of medical data, focusing on the entire lifecycle of medical data collection, storage, management, and application, the idea of medical data governance of constructing an \"integrated medical data resource system\" is proposed to explore the standardization, refinement, and digital management of medical data, so as to build a data-driven healthcare application platform and improve the application efficiency of medical data.
Key words: medical data; resources system; data governance; medical data applications
0 引言
健康醫療大數據作為具有重大發展前景的數字化生產要素,在提升醫療服務質量、精準防治疾病、輔助管理決策等方面具有較大的應用價值。但由于多模態醫療數據具備高復雜性特點,導致醫療數據標準化治理面臨諸多問題,如數據煙囪、數據質量參差不齊[1]、缺乏統一標準[2]、數據利用難度大等。因此,國家陸續發布了健康醫療大數據相關的規劃與政策,如《國家健康醫療大數據標準、安全和服務管理辦法(試行)》[3]《國務院辦公廳關于促進和規范健康醫療大數據應用發展的指導意見》[4]等,進一步規范和推動健康醫療大數據治理、融合、共享與開放應用,有力促進醫療數據治理體系的建設。
健康醫療大數據資源體系是推進健康醫療大數據應用的基礎性工程[5]。本文探討通過多個項目積累,逐步構建出一套標準的醫療數據資源體系,確保醫療數據治理在現狀評估、目標制定、流程規范建設、治理監控管理、效果評價等各環節有效落地。
1 我國醫療數據資源體系現狀
目前,國內健康領域數據資源目錄的研究主要集中在公共衛生、中醫藥以及國家醫藥衛生科學數據三個方面。其中,公共衛生領域的主要研究單位是中國疾病預防控制中心,2007年發布了《中國疾病預防控制中心信息資源管理辦法》,并組織開展了信息資源目錄編制工作。截至2022年,數據更新至2017年,共收集資源1000余項,整理信息指標超過8000個,并從中篩選了近72個有重要國計民生影響的數據庫資源,發布到中國公共衛生科學數據中心網站,免費提供數據下載和共享服務。但仍存在數據的滯后性、完整性和準確性;共享程度的不確定性等問題。
孟群[5]等分析了健康醫療大數據發展現狀,結合我國健康醫療大數據資源的整合、共享、應用需求,參考相關行業大數據資源目錄的建設成果,研制出國家健康醫療大數據資源目錄模型。健康醫療大數據資源涵蓋了公共衛生、中醫藥及國家醫藥衛生科學數據,以及臨床醫療服務數據、個人健康監測等。
2 一體化醫療數據資源體系的基本理解
2.1 基本概念
一體化醫療數據資源體系是圍繞醫療數據管理和治理需求,搭建一套集管理、方法、評價、標準、工具等體系核心能力的組合,通過統一的標準規范,將分散在不同機構以及相關部門的數據進行組織和整合,形成一體化醫療數據資源,從而持續服務于數據管治實施,促進醫療數據的開發和利用。
2.2 目標
在國家治理體系現代化的背景下,為推動技術、業務、數據的融合,我們提出基于一體化醫療數據資源體系的標準層、能力層、執行層、管理層、應用層等五大建設目標,促進醫療數據流通,保障醫療數據安全,提升醫療數據價值,助力醫療數據發展與應用的愿景。其體系框架如圖1所示。
標準層建設通過創建標準編制工作虛擬小組及構建醫療行業數據標準體系,實現數據的協同應用;能力層主要聚焦底層共性支撐工具、醫療大數據平臺、醫療業務應用平臺等建設,實現問題工具檢查和解決的系統化能力;執行層將數據治理工作落實;應用層建設確保醫療數據落地應用;管理層建設主要聚焦于醫療數據治理委員會和醫療數據治理機制建立,保障數據資源體系工作順利進行。
3 一體化醫療數據資源體系思路
在一體化醫療數據資源建設過程中將面臨一些挑戰,例如:醫療數據資源由相關機構分權管理、出現數據煙囪的問題;需要依據信息屬性對醫療信息資源進行采集、分類、加工處理和存儲,實現信息資源的有序組織等。因此,我們針對醫療信息資源分散且缺乏有效的整合、信息采集重復且交換困難、信息交換的標準和格式混亂等問題,圍繞醫療數據共享、應用的實際需求,構建一體化醫療數據資源體系,涉及數據匯集、存儲、管理、應用的數據全生命周期,確保醫療數據治理在應用的各環節有效落地。
3.1 醫療數據匯集階段
由于醫院信息系統建設時間、目標和廠商不同,采用的平臺、架構、數據庫和接口方式等均有可能各不相同,導致醫療數據匯集難度大[6]。我們通過三個步驟形成長效數據匯聚機制。首先對接入醫療數據源的合規性進行核查,包括數據庫、文件、接口等類型的數據源,如果核查通過,則配置與部署數據服務,如果核查不通過,則反饋部門修正;其次全面梳理現有的醫療數據資源,具體涉及結構化數據、半結構化數據和非結構化數據;最后根據具體調研的匯集需求,由數據治理實施專項小組使用醫療大數據平臺進行數據匯集,按照匯集機制差異化進行任務配置。
3.2 醫療數據解析階段
電子病歷中的影像、“一訴五史”、病程記錄、出院小結等非結構化數據轉化成為機器可以識別的結構化數據,是發揮醫療大數據分析、決策效能,促進智慧醫療應用和發展的基礎。為此,通過醫學數據解析處理模塊中的內置預訓練圖形識別模型、自然語言處理(NLP)抽取模型、音頻解析模型和接口解析模型,根據醫療數據類型進行結構化抽取,轉換成結構化數據。通過醫學數據解析模塊進行自動后結構化處理后,便于醫療數據存儲管理,能節省業務人員大量時間,降低醫療數據治理門檻,從而有效提升醫療數據的應用水平和效率。
3.3 醫療數據規范階段
醫療數據通過數據匯集、解析后,實現了醫療數據整合匯集和結構化。但仍存在整合后的數據質量參差不齊,表數據缺失、表關鍵字段缺失等數據缺失率高,數據種類不符、亂碼、索引號混亂等現象頻發,醫學術語不統一等問題[7]。
3.3.1 庫名和表名規范
庫名規范:按照原始數據庫、標準數據庫、主題數據庫、專題數據庫、文件數據庫、交換數據庫等六大核心醫療數據庫來統一。
表名規范:按照庫名_來源類別_系統名稱_事實表名等來統一。
3.3.2 元數據管理規范
元數據管理須規范,元數據應包括:完整的字段定義、與數據源的對應關系、不同數據來源元數據間的映射關系[8],元數據管理規范設計如表1所示。
3.3.3 雪花型架構設計規范
通過雪花型架構(見圖2)將數據的流向進行梳理、分析,字段及為最小分析維度,從而形成業務表單的數據流圖。對理解、發現和描述數據之間的脈絡、溯源數據錯誤、預測改動影響起到重要作用。
3.3.4 字段映射設計規范
我們針對醫療原始表對于同一業務屬性的描述不統一場景,如中風為腦卒中、上感應為上呼吸道感染等,通過標準規范命名規則去統一映射替換原始表數據值。標準規范命名規則包含世界衛生組織制定的國際疾病分類與代碼(ICD10/ICD9)、國際醫學術語標準化與研發組織制定的系統化醫學術語集臨床術語版(SNOMED CT)、國家中醫藥管理局及國家衛生健康委共同印發的《中醫病證分類與代碼》和《中醫臨床診療術語》等100余個醫學術語表,為醫療數據提供標準化映射的術語支持。
3.3.5 字段規范設計規范
將原始數據進行規范化操作后需明確使用術語服務的對象字段。通常這類字段內容具有表述簡單、意義明確、邏輯性強特征,而不是文宇描述性內容。實現相應字段服務步驟如表2所示。
3.3.6 主數據管理規范
主數據管理是對業務信息應用系統間多次重復使用、跨業務的數據進行集中統一管控,經數據治理后,共享給各個業務應用系統。主數據管理規范設計如表3所示。
3.4 醫療數據治理階段
數據治理是充分挖掘發揮醫療數據價值并服務于公眾的關鍵[9]。醫療數據的時間性較強,信息孤島、信息煙囪以及疾病的多發性導致存在大量的無效且冗余的數據,針對這些問題開展醫療數據治理至關重要。根據醫療數據的屬性,分為缺失數據、錯誤數據、多源數據、冗余數據等四大類數據,分別進行治理。
第一類:缺失數據可以醫療業務知識或專家經驗推測填充缺失值,以醫療同一指標的計算結果(均值、中位數、眾數等)填充缺失值;
第二類:針對格式內容(時間、日期、數值、全半角等)錯誤,采用人工收集/用戶填寫方式統一其格式;針對數據邏輯錯誤,采用去重和離群值(異常值)進行自動處理,針對屬性錯誤,通過屬性檢測進行篩選,篩選出屬性錯誤的數據;
第三類:針對多源數據應進行數據關聯性驗證。對于數據不滿足完整性約束,通過分析一體化醫療數據資源體系中數據字典、元數據和主數據之間的關系,進行修正;
第四類:對于明確為醫院運營和醫療科研非需要字段,應從數據集中刪除;對于尚不明確是否需要的字段,應保留相應字段。
3.5 醫療數據融合階段
醫療數據來源分散且廣泛,數據量大,成分和類型復雜,包含結構化、半結構化和非結構化數據且質量參差不齊,造成程度不一的的數據孤島現象[10]。這些問題可造成后期數據存儲代價大、數據分析處理成本增高、決策不準等[11-12],給數據融合帶來挑戰,也使數據預處理成為必然。將數據類型與結構各異的醫療多源數據進行有效融合,為進一步促進醫療數據分析與應用提供基礎支撐。
我們主要采用維度建模方法,以表單的方式對指標進行存儲,包括主題對象明細表、主題對象匯總表。主題對象明細表主要存儲維度屬性集合和度量/原子指標;主題對象匯總表按照指標是否去重的條件進行分類存儲;數據模型設計主要有原子指標設計,即指標統計口徑、具體算法的抽象,可以創建基礎原子指標和衍生原子指標,如住院病人醫藥費用總額和住院病人人均醫藥費用。派生指標=原子指標+時間周期+(單個/多個)修飾詞+統計粒度,如2022年A醫院骨科住院病人人均醫藥費用等,派生指標又分為3種類型:事務型指標、存量型指標和復合型指標。
3.6 醫療數據質量評估階段
數據質量管理涵蓋準確性、完整性、一致性、時效性、可信性和可解釋性等關鍵因素,其影響醫療健康信息技術發展[13]。通過對醫療原始數據庫進行事前稽核,對醫療標準數據庫、醫療文件數據庫、醫療主題數據庫進行事中稽核,最后對醫療專題數據庫、醫療交換數據庫進行事后稽核,保障醫療數據質量全流程管理。
我們通過五個步驟實現醫療數據質量評估,首先構建醫療領域的數據質量評價指標體系框架,確定醫療數據質量評價模型;其次基于醫療領域的數據質量評價指標體系,規劃數據質量評估指標體系所對應的規則;然后通過醫療領域的數據質量評估算法模型,對醫療領域的數據質量進行稽核和評估;接著確定醫療領域數據質量評價等級,對結果進行劃分;最后在醫療數據質量模塊配置稽核規則,進行實時監測分析。
3.7 數據治理機制建立階段
針對醫療數據安全挑戰,以保障醫院健康醫療的數據源和業務場景安全為需求導向,結合醫院數據安全的組織建設、制度流程、技術防護、運營管控和監管審計等要求,構建醫療數據治理機制,推進建立組織、管理、技術、運營、工具等有機融合。
大數據治理的重要環節是遵循統一標準管理,保證數據的規范性、流通性、安全性以及共享性,數據治理要構建合理、合法的治理機制和體系結構,以此減少數據在采集、共享、管理等過程中可能出現沖突的問題[14]。醫療數據內容管理需要強有力的措施[15],技術差異、監管審計和運營管控機制體系不健全、組織自身管理不到位等問題導致社會中組織的力量難以被充分挖掘,影響數據治理的效能。通過建立醫療數據治理機制,明確數據信息收集處理規范和基本原則,規范其法律邊界,以保證醫療數據治理健康發展,為醫療數據治理提供支撐。如圖3所示。
4 基于一體化醫療數據資源的應用
目前很多醫院在數字化轉型過程中都會遇到異構資源管理困難、系統軟件選型與維護困難和生產運維困難等常見困難,依托云原生架構(見圖4),既可支撐大規模醫療業務系統的運行,也可將內部醫療軟硬件體系給集中管理起來,以中臺化的運作方式,支撐醫院日常業務運營。
構建云原生架構醫療信息化系統能夠促使醫院的整體解決方案扁平化,各醫療信息化系統之間的數據不再孤立,便于醫院內部數據再利用;同時基于混合云的架構模式,醫生或患者可以通過此平臺異地獲取醫院服務器數據,便于查看檢查報告、進行診療活動;降低了搭建成本,提高了開發效率,降低了運維成本。
基于云原生架構數據庫替代Hadoop生態,構建區域健康大數據平臺(見圖5),能夠降低運維底層存儲、計算資源的復雜度,大幅降低系統搭建和運維成本,將成熟醫療數據產品采用Dass服務支撐形式,可以增強服務拓展能力,提供定制化的服務,更加個性化地貼合業務需求。
5 結束語
健康醫療大數據作為國家重要的基礎性戰略資源[4],正快速發展為新一代信息技術和新型健康醫療服務業態。通過一體化醫療數據資源體系研究與構建,完善醫療大數據治理制度體系,加強醫療數據治理關鍵技術能力建設,提高醫療數據的規范與標準化等方面能力,推進醫療數據開放、融合、共享與應用,助力“健康中國2030”戰略目標早日實現。
參考文獻(References):
[1] 姬衛東,李琳,張振,等.互聯互通背景下醫療數據治理面臨的
問題與對策[J].中國數字醫學,2021,16(11):6-11.
[2] 龍思哲.基于數據中臺的醫院信息系統數據治理方案的
探討[J].當代醫學,2021,27(29):193-194.
[3] 國家衛生健康委員會.關于印發國家健康醫療大數據標準、
安全和服務管理辦法(試行)的通知(國衛規劃發〔2018〕23號)[EB/OL].[2018-07-12].
[4] 國務院辦公廳.關于促進和規范健康醫療大數據應用發展的
指導意見(國辦發〔2016〕47號)[EB/OL].[2016-06-24].
[5] 孟群,胡建平,董方杰,等.我國健康醫療大數據資源目錄體系
建設研究[J].中國衛生信息管理雜志,2017,14(3):387-391.
[6] 張學高,胡建平.醫院數據治理框架、技術與實現[M].北京:
人民衛生出版社,2019.
[7] 徐靜,高昭昇,黃岳源,等.基于全民健康信息平臺的醫療健康
大數據治理方法及技術研究[J].醫學信息學雜志,2022,43(7):9-13.
[8] 阮彤,邱加輝,張知行,等.醫療數據治理——構建高質量醫療
大數據智能分析數據基礎[J].大數據,2019,5(1):12-24.
[9] 劉璐瑤,曹航.電子健康檔案數據治理發展方向分析[J].北京
檔案,2021(6):14-19.
[10] 彭向暉,黃文強,盧春,等.多源異構數據融合系統及方法:
中國,CN108021670A[EB/OL].[2020-12-06].
[11] 秦愛民.基于多源異構數據融合、機器學習及客服機器人的
智能運維分析系統:中國,CN109343995A[EB/OL],[2020-10-25].
[12] 黃鑫,張卓,黃偉,等.一種多源異枸數據的融合方法及
裝置:中國,CN107545046A[EB/OL].[2020-08-17].
[13] 張振,楊翠湄,徐靜,等.健康醫療大數據應用發展現狀與
數據治理[J].醫學信息學雜志,2022,43(7):2-8.
[14] 李曉輝.突發公共衛生事件中數據治理的現狀、問題及
對策[J].石家莊鐵道大學學報(社會科學版),2021,15(4):2733.
[15] 費曉璐,李嘉,黃躍,等.醫療大數據應用中的數據治理實踐[J].
中國衛生信息管理雜志,2018,15(5):554-558.
[16] 中共中央 國務院.國務院關于印發大數據發展行動綱要的
通知(國發〔2015〕50號)[Z].2015-08-30.