林志平
摘要:健康醫療大數據歷經采集、清洗加工、數據脫敏、數字標簽等過程,根據業務應用及決策分析需求劃分為不同主題域及數據資產,并且通過數據血緣分析實現數據融合處理的可追溯。健康醫療大數據是惠及千萬居民看病就醫的重要資源,它的應用發展將帶來健康醫療模式的深刻變化,有利于激發深化醫藥衛生體制改革的動力和活力,提升健康醫療服務效率和質量。
關鍵詞:健康醫療大數據;治理平臺;設計
一、數據流設計
針對數據流設計,采用Lambda架構的設計方法實現。將實時數據與離線批量數據結合,達到對大數據的處理,具體的設計如下:
健康醫療大數據數據通過事件觸發自動同步數據,數據采集通過大數據融合治理平臺的數據集成工具完成。采集源包括生產庫數據,歷史庫數據,確保大數據融合治理平臺歸集全量業務數據,保障各應用場景的應用。
二、數據模型設計
對于大數據融合治理平臺的數據模型設計,主要三方面內容:數據模型的分層、數據模型主題域的劃分、數據建模規范制定。針對大數據融合治理平臺數據模型的分層主要目標是不同的分層有不同的職責和作用,可以更方便的定位和理解數據,更快速的響應外部數據需求;其一,STG。包括原始結構化/半結構,和非結構化數據庫,數據來源包括HIS系統、LIS系統、PACS系統、全民健康信息平臺等。其二,ODS層。對于需做標準化及內容轉換的字段,保持轉換前的內容及轉換后的內容。其三,DWD層。對數據按設定的數據域進行分類,整合,清洗,形成一套標準化數據模型。其四,DWS層 。按分析對象對實體進行數據整合,輕度匯總,算法標簽,面向應用提供智能數據服務。其五,ADM層。存放面向最終業務應用的通用數據,例如描述自然屬性的標簽、描述通用行為的數據等,包括疾病庫、藥品庫、處方庫等知識庫。
數據模型主題域劃分主要包括四個主題域:當事人、診療信息、產品、事件。當事人:包括:參保人、醫療機構等。診療信息:包括醫療門診記錄、住院記錄、特殊診療信息等。產品:包括醫保類型、產品險種等實體。事件:包括結算事件、基金結算事件等實體。需要注意的是在此過程中需要建立和維護一套有效的工作流程和規范,保證不同的邏輯數據模型設計人員能夠按照統一口徑進行操作。
三、大數據融合
健康醫療大數據涉及醫療、醫保、醫藥三個領域的數據,需要對三方面的數據進行有效地融合,借助數據融合引擎,可以有效地從技術層面支撐醫療、醫保、醫藥的數據治理。其一,融合數據規則配置。融合數據規則配置用于實現多種異構數據源的質量校驗、通知、管理服務,包括數據探查、數據對比、數據質量監控、SQLScan等服務內容。其二,融合數據全景。數據全景包括全局查找數據、個人賬號管理數據和管理員配置,支持關鍵字匹配精確匹配。其三,融合數據資產管理。數據資源平臺里都有大量的數據表、API等各類數據資產,融合數據資產管理通過數據開發加工數據后,提供對整個平臺數據進行統一管控服務。根據數據資源平臺里任務的運行信息和記錄,通過分析,提供數據表、字段級別的血緣關系,包含上下游血緣、影響分析。其四,融合數據服務發布。數據服務發布旨在搭建統一的數據服務總線,幫助統一管理對內對外的API服務。
四、大數據治理
(一)數據采集匯聚
健康醫療大數據采集需求包括醫療環節動態監測、醫療質量檢查與評估、質量指標綜合分析、傳染病、免疫規劃、疾控綜合管理等數據。
1、數據調研及數據對接
數據調研基于已明確的數據需求確定數據來源系統、數據來源部門、數據存儲、數據更新、數據規模等信息的過程;在這個過程中,需要跟具體部門、具體系統、具體負責人員進行反復的對接,已收集獲取具體的信息,為后續的數據采集匯聚服務。
2、采集模式設計
采集模式按照對接方式分為:直接對接、數據庫抽取對接、第三方接口采集等幾種模式。(1)直接對接。由數據采集服務直接訪問各個服務接口或文件資源,實現與數據中心的對接或文件抽取。(2)數據庫抽取對接。對于各業務系統數據采用前置機數據抽取的方式進行數據的接入。通過可視化界面完成數據庫連接所需的參數配置,包括IP、端口、數據庫類型。(3)第三方接口對接。通過接口服務與各系統的事件來源的各個系統的對接,實現數據統一渠道接收。
3、數據采集監控與管理
提供整體運行狀態監控,最終實現運行狀態的查看與控制,包括采集基本信息、采集結果、采集數據質量、采集異常信息。對采集的基本信息進行監控,基本信息項包括由誰什么時候發起的采集。
數據采集管理,旨在確保采集的質量以及采集穩定性,而圍繞采集各個環節進行針對性的管控,實現對數據采集過程、采集結果全方位管控,數據可追溯,質量可控制。
(二)數據清洗加工及共享
對數據源中數據重復、不正確、不完整、不標準、不一致的問題,制定數據清洗加工規則,進行數據清洗加工,實現數據質量提升。
數據共享服務的核心是構建跨部門、跨業務板塊的數據資源共享和數據交換,主要包括數據資源編目、數據資源目錄管理以及數據接口服務。
數據資源編目實現對各部門共享數據的盤查,以支持信息資源的交換與共享,包括醫療、醫保、醫藥數據資源編目等。
數據資源目錄體系通過編目、編審、注冊、發布、維護、訂閱數據資源目錄內容,實現數據資源管理、發現與定位。
構建數據接口規范,規定數據訪問、接口的定義、數據格式等內容。
(三)數據脫敏及標簽
數據脫敏對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。如身份證號、手機號、卡號、姓名等個人信息都需要進行數據脫敏。
數據標簽是基于業務場景創建、用于服務內部和外部的數據服務需求,基于標簽體系進行多維度分析實現對于目標群體的精準定位,如高齡產婦群體、特定傳染病患者群體等。
參考文獻
[1]郭建. 健康醫療大數據應用中的倫理問題及其治理思考[J]. 自然辯證法研究,2020,385(03):87-92.
[2]俞成功,丁靜. 基于區塊鏈的健康醫療大數據平臺構建[J]. 電子技術與軟件工程,2020,176(06):182-185.