俞鵬飛,羅顥文,劉建模,易應萍
(南昌大學第二附屬醫(yī)院信息處醫(yī)療大數(shù)據(jù)研究中心,江西 南昌 330000)
2016年6月,國務院辦公廳發(fā)布《關于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應用發(fā)展的指導意見》[1]。同年底,國家衛(wèi)生計生委啟動健康醫(yī)療大數(shù)據(jù)中心與產(chǎn)業(yè)園建設國家試點工程,全面推動大數(shù)據(jù)應用與健康醫(yī)療行業(yè)的深度融合。目前健康醫(yī)療大數(shù)據(jù)已成為國家大數(shù)據(jù)戰(zhàn)略重要組成部分。同時,醫(yī)院是數(shù)據(jù)密集產(chǎn)生的源頭,且醫(yī)療數(shù)據(jù)、健康數(shù)據(jù)具有非常高的應用價值,通過大數(shù)據(jù)技術能夠挖掘出重大價值,為臨床診療、管理運營、醫(yī)療科研賦能。但由于數(shù)據(jù)質(zhì)量低、標準化難等問題,導致醫(yī)院數(shù)據(jù)使用效率低、難以產(chǎn)生價值。因此,建立醫(yī)院大數(shù)據(jù)平臺以及設計數(shù)據(jù)治理模型,利用數(shù)據(jù)倉庫建模理論與醫(yī)院數(shù)據(jù)平臺建設經(jīng)驗[2],起到提升數(shù)據(jù)質(zhì)量、提高開發(fā)使用效率的作用,將使得醫(yī)院數(shù)據(jù)資產(chǎn)化、促進智慧醫(yī)院建設發(fā)展[3]。為此,本文提出了一種基于大數(shù)據(jù)架構的醫(yī)院數(shù)據(jù)平臺建設方法及治理模型,分析如下。
1.1 數(shù)據(jù)種類多 不同于傳統(tǒng)臨床數(shù)據(jù)中心僅存儲臨床系統(tǒng)產(chǎn)生的原始數(shù)據(jù),大數(shù)據(jù)平臺采集的數(shù)據(jù)類型、種類更多,需要將不同系統(tǒng)數(shù)據(jù)進行集成匯聚[4]。主要包含醫(yī)囑、藥品、檢驗、手術治療等結構化數(shù)據(jù),以及病歷、護理文書、檢查病理報告等非結構化、半結構化數(shù)據(jù)、基因測序數(shù)據(jù)、醫(yī)學影像文件數(shù)據(jù)等,且需要通過自然語言處理對非結構化數(shù)據(jù)進行信息提取、結構化處理。
1.2 數(shù)據(jù)質(zhì)量不高 醫(yī)療數(shù)據(jù)質(zhì)量普遍不高,主要體現(xiàn)在完整性、規(guī)范性、整合性。一方面,醫(yī)院數(shù)據(jù)采集自各個業(yè)務系統(tǒng),為了保障業(yè)務運行效率,采用前端驗證后錄入方式較難,無法保證數(shù)據(jù)完整性。另一方面,醫(yī)院診斷、用藥等醫(yī)學術語標準多、更新快,不同醫(yī)護人員錄入習慣也不一致,導致數(shù)據(jù)未按統(tǒng)一標準錄入。同時,醫(yī)院數(shù)據(jù)質(zhì)控體系不完善,除科研需求外,醫(yī)生很難有動力完善病歷記錄,也缺乏相關意識。建立質(zhì)控點必然需要改造業(yè)務流程,使得系統(tǒng)操作更繁瑣,很難在臨床系統(tǒng)實施。
1.3 數(shù)據(jù)開發(fā)難 大部分醫(yī)院沒有統(tǒng)一的數(shù)據(jù)開發(fā)平臺,數(shù)據(jù)均以原始狀態(tài)存儲在各個系統(tǒng)數(shù)據(jù)庫中。開發(fā)一項數(shù)據(jù)應用時,需要提取多個接口數(shù)據(jù),即使醫(yī)院已經(jīng)有服務總線,數(shù)據(jù)提取、處理也要花費大量時間[5]。各應用數(shù)據(jù)開發(fā)過程相互獨立,抽取、清洗、處理過程需要重復開發(fā),結果無法重用,導致數(shù)據(jù)應用效率低,成本高。尤其是基于臨床診療數(shù)據(jù)的應用,難以形成從數(shù)據(jù)采集、存儲、整合、分析到應用的完整閉環(huán)。應用過程中,難免會出現(xiàn)數(shù)據(jù)采集不完整、數(shù)量質(zhì)量不高、信息提取準確等問題,極大降低了開發(fā)效率。
目前醫(yī)療數(shù)據(jù)存在的問題嚴重制約了醫(yī)院在智慧化建設過程中必須的數(shù)據(jù)開發(fā)能力,為了解決數(shù)據(jù)匯聚難、治理不足、開發(fā)效率低等問題,本文提出基于大數(shù)據(jù)平臺的醫(yī)療數(shù)據(jù)分層分域治理模型。首先,在匯聚層搭建數(shù)據(jù)集成框架、建立嚴格的數(shù)據(jù)質(zhì)量控制系統(tǒng),及時發(fā)現(xiàn)、解決數(shù)據(jù)質(zhì)量問題。然后建立數(shù)據(jù)分層分域模型,對醫(yī)療數(shù)據(jù)進行歸納整理,形成科研域、管理域、臨床域數(shù)據(jù),并建立了包括匯聚層、主題層、匯總層、應用層的數(shù)據(jù)模型,解決大數(shù)據(jù)平臺數(shù)據(jù)量大、數(shù)據(jù)間關系復雜、數(shù)據(jù)不一致等問題。
2.1 數(shù)據(jù)集成框架 大數(shù)據(jù)平臺數(shù)據(jù)匯聚包括對不同類型、不同來源、不同時間的數(shù)據(jù)接入。對于結構化數(shù)據(jù),按照數(shù)據(jù)匯聚的傳輸方式,可以分為文件傳輸、數(shù)據(jù)抽取、消息推送等方式。其中文件傳輸方式需要業(yè)務系統(tǒng)定時進行數(shù)據(jù)抽取,需進行業(yè)務系統(tǒng)改造;數(shù)據(jù)抽取不需要業(yè)務系統(tǒng)改造,適用場景多,需要解決的關鍵問題有多數(shù)據(jù)源適配、增量數(shù)據(jù)抽取、數(shù)據(jù)一致性審查等。我院數(shù)據(jù)匯聚采用開源ETL工具Kettle實現(xiàn)多數(shù)據(jù)源適配,通過配置不同數(shù)據(jù)庫連接,實現(xiàn)對不同數(shù)據(jù)庫進行數(shù)據(jù)抽取任務的創(chuàng)建、運行、運維,有效提高了數(shù)據(jù)匯聚效率,減少運維成本[6]。通過ETL平臺抽取的數(shù)據(jù)需要在抽取過程中完成數(shù)據(jù)脫敏、加密存儲以及一致性效驗。按照HIPAA中定義的關鍵隱私數(shù)據(jù)(姓名、身份證、聯(lián)系方式、家庭住址、生物信息等)通過加密算法計算后導入大數(shù)據(jù)平臺。數(shù)據(jù)抽取流程框架見圖1。

圖1 數(shù)據(jù)抽取流程框架
為了確保數(shù)據(jù)抽取的一致性,需要建立數(shù)據(jù)審查機制。我院分別對于歷史數(shù)據(jù)、實時數(shù)據(jù)設計不同抽取流程,并且通過記錄日志、實時警告等方式保證數(shù)據(jù)完整、正確地將接入平臺。對于實時數(shù)據(jù)采用運行較快的方法,在保障數(shù)據(jù)不缺少的基礎上,驗證數(shù)據(jù)一致性。對于歷史數(shù)據(jù)按照不同數(shù)據(jù)類型,選取邏輯檢查方法定期生成數(shù)據(jù)審查報告,確保數(shù)據(jù)一致。數(shù)據(jù)審查機制內(nèi)容見表1。

表1 大數(shù)據(jù)平臺數(shù)據(jù)匯聚審查方法
2.2 數(shù)據(jù)治理框架 除了院內(nèi)產(chǎn)生的業(yè)務數(shù)據(jù),醫(yī)療數(shù)據(jù)還包括患者的體檢數(shù)據(jù)、醫(yī)保數(shù)據(jù)、隨訪數(shù)據(jù)、家庭健康監(jiān)測數(shù)據(jù)等。為了對這些數(shù)據(jù)進行梳理,使不同模塊間耦合度降低,提高利用效率,我院建立了分層分域數(shù)據(jù)治理模型,見圖2。該模型將數(shù)據(jù)分為臨床域、科研域、管理域,由下而上建立數(shù)據(jù)源接口層、數(shù)據(jù)主題層、數(shù)據(jù)匯總層和數(shù)據(jù)應用層。

圖2 數(shù)據(jù)治理模型
數(shù)據(jù)源接口層負責組織管理多源數(shù)據(jù)匯聚,即數(shù)據(jù)的采集、轉換、存儲,采用分布式文件系統(tǒng)存儲保存加密、脫敏后的基礎數(shù)據(jù)。通過數(shù)據(jù)審查方法保證數(shù)據(jù)一致性、唯一性、正確性等要求,以盡量少的代價檢測與源數(shù)據(jù)的一致性。
數(shù)據(jù)主題層將接口層存儲的數(shù)據(jù)經(jīng)過統(tǒng)一清洗、編碼轉換、整合后形成主題域。其主要的功能是設計好主題域下模型劃分。該層次的數(shù)據(jù)模型的目標是靈活地表達業(yè)務過程,將源系統(tǒng)關系型的數(shù)據(jù)結構,按照主題劃分整合,將大概率一起使用的數(shù)據(jù)整合到統(tǒng)一主題域中。如源系統(tǒng)中醫(yī)囑信息通常包括醫(yī)囑項、醫(yī)囑記錄、醫(yī)囑執(zhí)行記錄等數(shù)據(jù)表用于記錄醫(yī)囑的不同數(shù)據(jù)信息,而在主題層則將醫(yī)囑相關數(shù)據(jù)進行主題化處理,提取事實表與維度表,建立醫(yī)囑主題等。
數(shù)據(jù)匯總層及數(shù)據(jù)應用層則面向應用進行數(shù)據(jù)處理,對相關業(yè)務來說,每次處理明細數(shù)據(jù)速度慢、代價高,在匯總層將明細數(shù)據(jù)進行有效匯總,提供臨時數(shù)據(jù)挖掘使用,同時加快應用層調(diào)用時的速度。
在應用層則形成標簽集、指標集、應用寬表提供外部數(shù)據(jù)共享。
醫(yī)療標簽集由患者畫像特征化標簽、統(tǒng)計類標簽、預測分析標簽組成,如患者基本信息、平均費用、就診頻次、疾病診斷路徑等標簽,是能夠描述患者健康信息的集合[7]。通過對患者進行標簽化特征描述,能夠方便臨床科研分析以及建立人工智能預測模型。
指標集則是面向醫(yī)院管理運營的數(shù)據(jù)服務,通過將醫(yī)院運營過程中各類統(tǒng)計數(shù)據(jù)實時產(chǎn)生相關指標,匯聚之后能夠全面反應醫(yī)院運營情況,如門診人次、住院人數(shù)、平均住院天數(shù)、傳染病診斷等。應用寬表是面向外部應用而建立多字段數(shù)據(jù)表,主要用于進行數(shù)據(jù)訪問控制、降低數(shù)據(jù)復雜度、減少數(shù)據(jù)交互及加速數(shù)據(jù)應用的作用。
通過建立醫(yī)院大數(shù)據(jù)平臺以及數(shù)據(jù)治理模型,江西省某三甲醫(yī)院已經(jīng)從院內(nèi)歷史使用及正在使用的74個醫(yī)療業(yè)務系統(tǒng)中匯聚了2006年~2020年的所有數(shù)據(jù),結構化數(shù)據(jù)總數(shù)據(jù)量達到11.4億條,非結構數(shù)據(jù)完成部分病例、檢驗檢查報告文本結構化處理。經(jīng)過數(shù)據(jù)清洗、結構化、標準化處理后,形成9.1億條標準化數(shù)據(jù)。通過建立數(shù)據(jù)分層分域治理模型,建立了15個主題域、數(shù)百患者標簽以及運營指標,支撐了醫(yī)院臨床科研大數(shù)據(jù)平臺、運營管理BI系統(tǒng)、臨床輔助決策系統(tǒng)等大數(shù)據(jù)應用。支撐醫(yī)院科研人員快速檢索歷史數(shù)據(jù),醫(yī)院管理者實時直觀了解醫(yī)院運營狀況,為臨床工作者提供智能化輔助診療。
醫(yī)療大數(shù)據(jù)已經(jīng)成為國家重要發(fā)展戰(zhàn)略,充分挖掘利用醫(yī)院數(shù)據(jù)對醫(yī)學科研發(fā)展、提高醫(yī)院運營管理效率、提高醫(yī)療質(zhì)量都有重大意義。搭建醫(yī)院大數(shù)據(jù)平臺,利用數(shù)據(jù)治理模型對數(shù)據(jù)進行匯聚、處理,能夠提升醫(yī)院的數(shù)據(jù)應用能力,發(fā)揮數(shù)據(jù)價值。但目前醫(yī)院大數(shù)據(jù)平臺發(fā)展時間較短,相關研究與應用仍不成熟,應在建設過程中不斷探索、升級,實現(xiàn)醫(yī)院數(shù)據(jù)資產(chǎn)化、智能化。