陸家發 趙群孫 唐凱 張國明 都艷 楊雪蓉
[摘要]針對全民健康信息平臺存在醫療健康數據“質量不高、應用不足”等問題,通過升級數據處理引擎、制訂數據質量評價體系、深入各數據層挖掘等措施,形成了數據標準化治理體系。該體系可提升平臺數據的完整性及安全性,有助于發揮醫療數據價值。
[關鍵詞]全民健康;信息平臺;數據質量;數據治理;質量與信息化
中圖分類號:R197.1 文獻標識碼:A
2016年10月,中共中央國務院印發《“健康中國2030”規劃綱要》,旨在推進“健康中國”建設,提高人民健康水平。2017年,國家全民健康保障信息化工程啟動,強調“以人的健康為中心”的建設理念。2022年11月,國家衛生健康委、國家中醫藥管理局、國家疾控局印發《“十四五”全民健康信息化規劃》,提出到2025年,初步建設形成統一權威、互聯互通的全民健康信息平臺支撐保障體系,基本實現公立醫療衛生機構與全民健康信息平臺互聯互通。
根據江蘇省委、省政府全面部署深化醫藥衛生體制改革、構建現代醫療衛生體系、打造“健康江蘇”的工作要求,以及人民群眾對全面建成小康社會的健康需求,江蘇省衛生健康委指導省級全民健康信息平臺完成了三期建設工作,為全省衛生健康事業發展提供了信息化支撐。隨著接人醫院以及省級統籌業務數據體量和維度的不斷增加,江蘇省已基本實現全省醫療健康數據的大集中。但由于接入醫療衛生機構數量增加,數據類型越來越多,導致數據量激增。另外,隨著業務需求日趨多元化,對采集交換的數據質量、實時性要求等也在不斷提高,全民健康信息平臺運行面臨“用數”與“找數”、“共享”與“安全”之間的矛盾。本研究立足于江蘇省全民健康信息平臺的建設實踐,以標準為抓手,以工具為支撐,以機制為保障,構建了統一的數據標準、治理等安全管理監控體系,形成了數據質量管理閉環,以期為醫療衛生數據賦能。
1全民健康信息平臺建設及問題
江蘇省全民健康信息平臺是依據國務院辦公廳《關于促進和規范健康醫療大數據應用發展的指導意見》《省級衛生信息平臺建設指南(試行)》以及健康檔案、電子病歷基本架構和數據集等一系列標準規范而建設的。經過三期建設,在全省范圍內已接入超200家三級醫院,加上13個地市累計采集數據500多億條、6 000多萬健康檔案、6.9億人次門診和5 000多萬人次住院數據。根據相關標準規范,平臺已經建成數據中心機房,制定了全省衛生醫療數據標準并搭建了數據采集系統,實現了省級健康醫療海量數據匯聚;配置的衛生服務總線系統,實現了通過注冊和查詢方式對接國家與市、區級數據平臺;開發的健康檔案瀏覽器、綜合業務管理、人力資源管理、醫療服務監管等業務功能,初步實現了數據應用于多種業務場景。
但是,江蘇省全民健康信息平臺前期以傳統“數據集成數據處理一數據使用”進行運營管理出現了瓶頸,“數據治理欠缺、數據應用低效、數據應用缺失、數據安全風險”等問題越發突出。江蘇省全民健康信息平臺前期建設存在問題主要表現在:(1)數據處理效率低。采用傳統的關系型數據庫,每天需要處理約3 000萬增量數據,數據處理效率較低。為了提高數據處理效率,除需要高規格的服務器、網絡設備等硬件支撐外,尚缺少大數據處理架構及高效的軟件處理引擎,大數據計算處理能力與效率瓶頸問題明顯。(2)數據質量參差不齊。從數據源開始,數據規則與口徑未統一,數據質量評價體系不完善,數據質量問題凸顯。(3)數據資源利用較少。未充分利用過往治理加工數據,多系統數據指標混亂,數據加工拆解能力弱,未從業務需求角度對數據進行處理,導致數據的業務場景深度應用不足,數據價值無法體現。(4)數據安全管控亟待提升。數據使用相關政策與法律法規體系尚未完全建立,數據安全共享機制難以保障。
對此,在江蘇省全民健康信息平臺第三期項目建設中,重點強調以標準管理為導向,加強數據處理算力,搭建數據管理通道,建設數據中臺以提升數據分層加工能力,探索制訂數據安全共享管理制度等建設工作,以解決數據使用與數據安全共享之間的矛盾。
2全民健康信息平臺數據治理實踐
依托江蘇省全民健康信息平臺建設成果,從問題出發,以業務需求為導向,建設數據資產管理系統,升級并完善省級平臺數據標準,確保從源頭實現數據標準統一,并搭建完善的數據質量評價體系,以保證數據質控質量。
2.1升級數據處理能力
在實際業務場景使用數據時,平臺先對數據處理需求進行分類,并綜合考慮但不限于單次數據處理的量級、數據的實時性要求、數據查詢計算并發等因素。例如,在手術病案統計分析時,對全省5 000多萬條病案首頁數據與3 000多萬條手術內容進行關聯查詢,構建關系型數據庫需耗時超過6h。在數據治理時進行多表關聯運行大量質控治理規則,需離線批處理才能實現分鐘級出結果。若采用優化聯機分析處理(Online Analytical
Processing,OLAP)查詢引擎,則秒級可出結果。另外,面向海量醫療數據,全民健康信息平臺在數據存儲方面采用了分布式文件系統,適宜橫向擴容、高吞吐量的數據訪問;數據查詢方面采用大規模并行處理數據庫,適宜快速查詢、海量寫入;數據計算層面采用流批一體計算模式,適宜不同場景的計算需求。隨著信息技術不斷更新迭代,在資源有限的情況下,既要考慮數據處理的先進性,還需注重其可維護性以及對現有平臺的改造工作量,這個過程有更多的業務與技術細節需要關注,是實現數據充分利用的基礎。
2.2構建數據質量評價體系
數據治理工作繁冗復雜,并不能直接體現應用價值。應構建數據質量評價體系,通過全鏈路管控數據質量,驅動數據質量不斷提升。江蘇省全民健康信息平臺在一、二期的數據采集應用過程中,數據質量及數據上傳及時性等方面不太理想,經常出現質量不高或及時性差等問題。
以往數據治理多以自下而上的模式實施操作,數據倉庫技術工程師在沒有明確數據需求情況下,可能花費較長時間進行數據治理,導致數據質量不符合業務運用需求,且時間成本和人力成本較高。為解決此問題,項目管理組實施了自上而下的管理模式,從業務角度出發詳細分析其對數據質量范圍與應用運行的具體要求,從而準確梳理出滿足業務需求的數據,構建數據質量評價體系,保證數據賦能價值效益有依可循。
其中,業務指標梳理是數據質量評價體系的重中之重。從業務角度看,綜合監管、公立醫院績效考核、互聯網醫院、健康檔案、單病種質量管理等均需要醫療衛生數據作為支撐。因此,首先要對業務進行拆解,一般業務已經覆蓋了大部分數據集,需要對數據進行逐一拆分;其次,在應用鏈條相關環節標明質控需求;最后,通過合規評價指標評定數據質量的最終效果。從技術實現角度看,根據業務概念數據模型通過數據血緣提出對采集模型數據質量要求,將這些信息拆解以滿足質控規則;根據在業務應用中的關聯影響對質控規則賦予權重,每天展示數據質量的可視化模型,清晰了解當前數據質量;落實數據質量整改,將一些評價指標做成預警提示,遇到上傳不及時、數據質量得分較差等情況直接將信息推進到管理員,要求其重新啟動上傳任務。
2.3完成數據分層加工
按照以往建設路徑,每當新應用需要在平臺上線,應用廠商就需進行新一輪數據治理和加工。以往,如果多個系統數據作為統計指標相互矛盾,不僅廠商搭建要花費時間,而且原本的平臺架構也會變成一個“混搭積木”。在這個過程中,業務人員梳理的規則并沒有在各個業務系統中得到統一的有效貫徹。只有夯實數據基礎設施建設,才能做好支撐,充分發揮數據的應用價值,因此構建一套完整的數據治理體系是現實需求。當前,江蘇省全民健康信息平臺已初步形成“平臺+數據+應用”模式,構建了數據治理評價標準。以數據為支撐,如監管機構需要數據管理分析,互聯網健康服務需要用戶分類,提升診療質量需要質控評價等,對這些原始數據進行挖掘加工,可最終實現數據分層建設,實現相應數據同步處理。
2.4保證數據應用合法合規
全民健康信息平臺更要關注數據安全管理。大量敏感數據都存儲在平臺數據庫中,而在這些數據使用過程中將不可避免產生數據的訪問、復制和交換等。對整個數據鏈路進行梳理,在不同數據階段對操作角色面臨的風險以及相應安全風險進行及時處理。
2.4.1數據采集階段 數據采集需要對前置機數據庫賬戶的用戶名和密碼進行限制級管理;密碼由后臺加密存儲,由管理員在系統界面維護,賬戶管理統一更新;對數據流向進行把控,根據數據淵源進行數據治理,預警非標數據源;記錄數據訪問及結構化語言安全審計日志等。
2.4.2數據治理階段 數據治理階段會面臨相關治理和運維風險,比如違規操作或越權訪問等。因此數據進入平臺后,首先要進行分級管理,不同級別數據進行不同層級管控;還要設置數據行列的訪問權限,包括數據增刪改查及行列權限配置,實現用戶訪問控制。
2.4.3數據共享階段 經過治理的數據需要供給業務應用使用,明文傳遞會帶來個人身份信息的泄露風險。在數據共享過程要實現數據的脫敏,如遮蔽、正則表達式、哈希、匿名算法等;要采用加密管理對集中存儲的共享敏感信息進行處理,使明文轉化成密文進行數據共享,即使敏感信息遭受外部攻擊或內部竊取,也能保障數據安全。
2.4.4數據應用階段 在數據應用階段,數據服務是實現業務與數據對接的關鍵。為了確保數據安全,需要采取一系列安全措施,形成“安全門禁”。包括:網關負責與身份認證對接,實現服務鑒權和信任傳遞;訪問日志收集所有接人請求的詳細信息,進行應用留痕監控;使用堡壘機和防火墻模塊,可建數據應用層的安全保障措施等。通過這些安全措施,用戶可以安全高效地訪問數據,同時也能夠保證數據的完整性。因此,必須在數據應用階段嚴格遵守數據安全相關規范和標準,以確保數據安全。
3建設效果
江蘇省全民健康信息平臺從一期建設開始至今已近10年,基本匯集了醫療健康全種類數據,并已存儲較大的醫療健康數據體量。為實現健康數據的有效利用,需要依托云計算、大數據等技術對不同主題數據進行挖掘和利用,以提升數據的潛在價值;需升級數據架構,建立圍繞數據全生命周期的全流程管理中心,實現數據的采集、治理、評價、運維、監控、加工應用和安全共享管理的標準化作業。扛蘇省全民健康信息平臺數據治理結構見圖1。
一是數據標準先行。江蘇省全民健康信息平臺已建立數據采集標準、業務主題標準及元數據,并在此基礎上建設操作數據存儲與自動化設備規范存儲的數倉,配置所需的質控規則,最終實現了質控結果的有效評價,實現了數據標準從制訂、審核、發布、修訂到應用的全流程的有效管理。
二是搭載數據治理算法。醫療數據治理需經過結構映射、術語標準化、病歷結構化、患者主索引等算法或結構化語言在可視化工作流程上靈活加載。同時,平臺提供了可視化的配置工具和展示界面,降低了數據治理的復雜程度,縮減了數據治理的工作量。
三是運行質控規則。計算質控結果,對比評價指標,展示監控信息,面向不同場景的質控可視化模型,針對數據工作流,平臺升級了更加全面和細致的監控功能。同時,針對未達到評價指標的質控數據,平臺可進行問題定位。
四是數據加工挖掘。數據加工挖掘包含運營指標生產、臨床專病變量、人群標簽挖掘等功能,可為管理應用與運營分析提供更有價值的數據。對平臺中各業務需求相同、相近的指標進行梳理,利用指標庫進行管理,保證了統計指標的規范性、一致性和唯一性。數據加工挖掘各項功能規范了數據的分析運用,提高了數據的可用價值。
五是針對平臺中業務指標采集數據質控要求設計的數據質量評價體系。按照數據治理方法,可規范數據治理加工過程,獲得真正流動運轉的數據以實現最終價值。為保障這些數據的流動性,平臺搭建了一站式數據工作運轉模式,將整個數據治理過程流程化、規范化,并將治理結果透明化。
4討論與建議
4.1優化全民健康信息平臺管理流程
隨著全民健康信息平臺數據體量增加,數據處理難度日益加大,如果平臺與系統、系統與系統之間的數據處理標準不統一,就會出現數據整合困難等問題。因此,需要搭建圍繞數據價值應用的全流程管理中心,制訂全民健康信息平臺的信息管理機制,優化數據治理流程,覆蓋數據采集、治理、評價、質控、加工應用和安全共享管理,不斷健全區域全民健康信息平臺管理體系。
4.2落實區域醫療健康信息標準規范
2020年10月,國家衛生健康委規劃發展與信息化司發布《關于加強全民健康信息標準化體系建設的意見》(國衛辦規劃發[2020]14號),提出我國衛生健康信息標準體系已制訂5大類共283項信息標準,現行的有效標準共227項,初步形成了全民健康信息化標準體系,并制定印發了省級統籌區域人口健康信息平臺和醫院信息平臺的應用功能指引,完善了衛生健康信息標準體系建設。
江蘇省衛生健康委以國內外衛生信息標準體系為依據,制訂了統一性、兼容性較高的區域標準體系,進一步細化了數據采集、存儲、分析和應用的技術標準與數據標準,自上向下推進標準規范落地,從源頭上把控數據標準規范,統一規則與口徑,使標準規范真正落實到各市、各區(縣)及各醫療機構,觸達各級業務部門,實現了標準“最后一公里”的落地實施。
4.3增強信息管理風險防范意識
醫療健康數據無論對于國家還是個人來說都是重要的敏感數據,需要嚴格保護。數據共享技術在充分發揮數據價值的同時,也會帶來一定的安全風險和挑戰,尤其是全民健康信息平臺涉及醫療健康眾多領域,面臨多樣的數據應用場景。例如,醫生在調閱患者醫療數據時如何保障數據安全?患者如何安全可控地查詢健康信息?衛生行政管理部門在應用醫療數據時如何操作才能保障數據信息安全?因此,在每個共享數據應用場景下,其所涉及的數據資源不同、數據級別不同、使用人群不同,相應的數據安全措施也有所不同,所以建立應用場景、用戶群、數據級別三位一體的數據安全保障模式已成為當下健康醫療數據共享最為關注的問題。
江蘇省全民健康信息平臺積極采取措施保障數據安全共享與應用,正在制訂圍繞數據采集、治理、共享和應用全流程的數據安全共享管理規范與數據應用策略,厘清了健康醫療數據現狀,搭建了數據資產目錄,實行了數據分類分級管理,實現了數據管理使用相關人員能夠根據數據資源分級結果與相應安全管理的策略,進而實現了安全有效的醫療健康信息共享。
5小結
以云計算、大數據、AI、物聯網和5G等為代表的新一代信息技術正在快速發展,這將進一步解決數據治理技術與數據價值應用的現實問題,為全民健康信息化建設提供重要技術支撐,有效推動健康醫療的深入變革。江蘇省全民健康信息平臺從IT跨越至DT(Data Technology,數據處理技術)的數據治理一體化能力,更加強調數據資產加工流程的體系化構建。基于區域全民健康信息平臺采集公共衛生、醫療服務、政府共享數據等多源異構數據資源,未來將更注重采集數據準則和規范的制訂,從源頭上保證數據質量。從數據采集、數據流、數據存儲、數據加工處理、數據服務、數據分析決策全流程建立運行機制,促進衛生健康數據在業務應用與業務場景上實現價值且標,也是數據治理價值的重要體現。基于江蘇省全民健康信息平臺構建的區域健康信息共享的標準規范和數據治理體系,可為省級全民健康信息平臺建設提供思路。