王 爽 胡 琪 陳曉璇 黃 瓊 鄭 靜
(深圳市衛生健康發展研究和數據管理中心 深圳 518001)
深圳市全民健康信息平臺以保障公眾健康為目標,充分利用網絡、存儲、計算等技術建立安全可控和標準統一的平臺。該平臺要采集深圳市居民全生命周期各業務領域的完整健康信息,以建立全民健康信息數據中心。數據采集內容包含6大業務領域數十個專業業務應用系統數據、各區級全民健康信息平臺上傳數據,以及市屬醫院、社區健康服務中心、社會辦醫療衛生機構數據等。結合數據量大、類型多樣復雜的特征,利用系統進行數據采集、存儲和質控,在全市醫療機構統一使用,建立全員人口信息數據庫、健康檔案信息數據庫、電子病歷數據庫3大基礎數據庫。利用系統采集和存儲居民診療信息,實現全市居民醫療健康信息完整保存,是全市健康大數據產業體系形成的重要步驟[1-5]。
目前已有數據采集系統均在特定環境下運行,采用傳統方式將影響數據采集的準確性、完整性和效率。如何設計統一的數據采集系統完成所有醫療數據采集是目前平臺亟待解決的關鍵問題[6-8]。
設計目標為:在全市建立統一數據采集系統,整合各醫療機構業務系統數據,建立3大基礎數據庫,為全民健康信息平臺中不同應用系統提供統一數據支撐服務。在此目標基礎上確定數據采集系統的范圍、內容和設計原則[9-12]。
數據采集系統須完成全市醫療衛生計生行業內部數據采集工作,采集內容主要包括醫院信息系統業務數據、社區健康服務與管理信息系統數據、深圳市衛生健康委員會直屬機構業務系統數據。
從全員人口信息數據庫、健康檔案信息數據庫和電子病歷數據庫3個維度分析需要采集的內容。全員人口信息主體包括公民身份證號碼、姓名、性別、民族、出生地、出生日期等基本信息,以及各部門業務系統在利用人口衛生計生基本信息過程中產生的其他存在共享需求的全員人口信息等。健康檔案包含個人基本信息和衛生服務記錄信息。其中,個人基本信息主要包括人口學信息、親屬信息、社會保障信息、基本健康信息、建檔信息;衛生服務記錄主要包括兒童保健、婦女保健、疾病預防、疾病管理、醫療服務等信息。電子病歷主要內容包括病歷概要、門(急)診病歷記錄、住院病歷記錄、健康體檢記錄、轉診記錄、法定醫學證明及報告、醫療機構信息7個業務領域的基本醫療服務活動記錄。
2.3.1 統籌性 在針對深圳市醫院、公共衛生機構及衛生管理機構信息數據進行采集、轉換、傳輸、質量控制和監管過程中,應結合醫療衛生機構業務系統情況,逐步推進實施。
2.3.2 統一性 根據數據集、值域表、維護說明、數據源變更報備等一系列文件,規范實施路徑,減少信息不對稱導致的額外工作量。
2.3.3 安全性 采用科學的服務器備份策略,重要數據發生變更便全量備份至運維終端一次,數據庫、應用系統重要數據每天全量備份至運維終端一次。
2.3.4 擴展性 采用VUE+Sping Boot等先進開發技術,具備良好的內部集成能力,通過單點登錄實現與上級系統的聯通性。
2.3.5 穩定性 系統前端采用VUE,后端使用Spring Boot、Redis,打包工具使用webpack gulp lessc,具備良好的系統拓展功能,能夠簡便地進行二次功能開發。
系統首先通過數據采集程序將各醫療機構業務數據采集到緩存庫,并在緩存庫中進行質量控制(以下簡稱質控),如果質控通過則上傳至深圳市全民健康平臺數據庫,如果質控不通過則通知醫療衛生機構進行數據整改,見圖1。

圖1 系統流程
3.2.1 總體程序(圖2)

圖2 數據采集程序
3.2.2 采集方式 采集方式分為兩種,一是定時采集(T+1采集),二是實時采集。因為醫療業務的特殊性,各醫療機構業務系統之間需要實時調取數據。實時數據采集可以通過兩種方式實現。第1種是根據業務需求內容,采用HL 7或Web Service等設計規范及深圳市全民健康信息平臺自身業務需求制定的數據交換標準規范,開發相應組件,依照要求實時檢索醫療機構業務系統后臺數據庫,根據相關檢索結果信息,實時反饋推送至全民健康信息平臺。第2種是全民健康信息平臺建立相應服務協議接口及數據交互方式,由各醫療機構業務系統設定事件觸發機制,當設定的事件被觸發時,可直接將所產生數據推送至全民健康信息平臺。采用提取、轉換、加載(extract-transform-load,ETL)工具實現定時數據采集。醫療衛生機構業務系統廠商方開放業務系統數據庫或數據存儲只讀權限并提供數據結構、技術支持。由采集方根據業務標準按需整合。按此種方式接入,不同業務系統采用的數據庫系統可能不同,即使數據庫相同對應的數據表和字段也可能不同,因此各醫療衛生機構要開放數據采集相關業務系統后臺數據庫或所有存儲數據只讀權限,采集方根據業務需求,針對醫療衛生機構生產數據庫進行分析整合,開發相應系統數據采集腳本,采集至中間庫數據庫,只要采集流程支持,數據清洗轉換過程可以保持不變,因此數據清洗轉換過程是較通用的模塊。
3.2.3 數據映射 各醫療衛生機構有不同的數據庫、數據格式、應用和操作平臺,確定抽取的字段形成需求表,再與各業務系統數據庫字段形成映射關系。數據采集程序根據預先定義的映射規則從醫療衛生機構數據庫中抽取相應數據。
3.2.4 數據清洗 根據深圳市全民健康數據采集標準制定數據清洗規則。清洗模塊首先過濾采集數據中的無用信息,避免讀入大量無用信息影響系統性能。這一步主要是通過設置數據屬性和條件完成性別設置、年齡設置等。在清洗完成之后,采集數據通常不會與標準數據模型相對應,仍然需要對數據進行清洗。清洗方式可分為對應清洗和自定義清洗。對應清洗有轉碼、字符截取、字符合并、常量設置、條件選擇、關聯表和對應轉化的方式。根據數據類型不同采用任意組合的方式進行清洗,在清洗完成后存入數據清洗庫。例如,“性別”0代表女、1代表男,通過轉化方式就可以將輸入值中的0或1對應轉化成女或男。自定義清洗是在清洗模塊中留有接口,通過手工編寫代碼解決特殊清洗問題,如男性患者不會出現懷孕就診記錄。數據清洗可將每個步驟清洗結果分別存儲至數據清洗庫,用以監控、比較清洗前后的數據內容,以校驗數據清洗結果準確性。根據不同清洗結果,及時修正清洗規則,達到數據清洗有據,清洗結果內容與原始內容統計分析類結果完全一致。
3.2.5 數據裝載 數據裝載模塊主要是增量裝載和整合裝載。增量裝載是數據的堆積,無須考慮數據的整體性,如醫院掛號數據。整合裝載是將數據進行整合再存入目標數據庫,如患者歷史就診記錄。在加載之前要將數據進行整合處理,一方面滿足醫療機構內跨業務的專項操作需求,另一方面動態建立醫療機構居民健康檔案全局視圖。數據整合將采集到的業務數據分門別類組織好,并按設計要求分別存儲到區域衛生資源中心,用以支持跨機構、跨級和跨業務的專線業務應用,例如新生兒隨訪、傳染病管理、婦產幼保健、慢性病管理、轉診管理、遠程醫療等。在技術層面,因為不同類型數據有不同存儲要求,所以數據裝載提供多種存儲格式,一是將數據存入關系型數據庫中,并為平臺方提供相應數據調用路徑和權限。二是數據比對和入庫,在數據裝載時,根據標準表中主鍵或者業務主鍵判斷是否已有相同記錄,決定采用更新裝載機制還是插入裝載機制。當采用插入裝載機制時,直接在目標庫中插入需裝載數據。當采用更新方式裝載時,根據醫療機構業務系統中數據庫表主鍵,結合創建時間、審核時間、修改時間等字段內容判斷數據是否需要更新操作。
數據質控程序是對采集緩存庫中的數據進行質控,如果通過則上傳至深圳市全民健康平臺數據庫。在數據質控程序中有質量分析、質量評估和質控結果展示環節,見圖3。

圖3 數據質控流程
3.3.1 質量分析 質量分析是對原始數據經過采集程序到采集存儲庫中的傳輸情況進行跟蹤,根據校驗規則對原始數據進行字段級及表級關系驗證,同時輸出數據校驗結果報表,將報表提供給各醫療機構,對不符合規則的數據進行排查。例如,醫療機構代碼必須和上傳機構一致,如果不一致則反饋給上傳機構,讓其修改重新上傳。
3.3.2 質量評估 質量評估是數據監管系統的重要組成部分,包括數據的完整性、一致性、時效性、規范性4個維度。以業務信息為基礎,將所有可監控、可計算的數據指標在質控平臺中統一管理,為每項指標作出明確定義,包括指標類型、指標名稱、計算公式、計算頻次等。數據質量管理根據需要將所有相關指標分為兩大類:原子指標、復合指標。指標類別分為監督指標、評估指標和考核指標。這些指標分類有重疊的部分,主要是根據目標不同在指標源中抽取不同的指標進行評估。
3.3.3 質控結果展示 對質控規則進行檢查,形成質控結果,對質控結果進行統計展示,為提高數據質量提供數據支撐。數據質控程序實現了端到端的全流程數據監管,可以根據現場數據情況自定義校驗規則,以構建完善的數據評分體系進而保證數據上傳的有效性和質量。具體質控內容包括完整性、關聯性、約束性、一致性、規范性和及時性。為提高數據采集質量,須提供完整的數據質量評估體系,同時建立完善的數據監控機制,對醫療衛生機構數據采集情況進行綜合展示,包括采集數量、采集成功率、質量評估結果等。
采集系統可以根據深圳市全民健康數據采集標準要求,實現數據采集、清洗、上傳等一體化服務。截至目前,已經完成全市所有醫療衛生機構對接。系統統一采集具有以下效果。一是從源頭上減少人工填報造成的數據缺失、前后不一致等情況。由于之前大部分統計數據手動填報,不同報表中同一指標會出現數據不一致的情況。現將采集的數據共享給各個系統,控制數據質量,從源頭上對數據進行規范和統一。二是有利于衛生行政部門作出科學決策和提高對醫院的監管力度。通過對醫療數據的整合與挖掘,衛生行政部門可以加強對醫院業務的管理以及制訂更利于民生的衛生政策,從而提升深圳市整體醫療水平。三是提高居民看病就醫幸福感。通過采集全市醫療數據形成居民健康檔案和電子病歷,醫生可以查看就診者歷史就診記錄,避免就診者做不必要的檢查,減輕就醫負擔,從而提高醫療資源利用效率和降低就醫費用。四是為科研工作者提供寶貴的醫療數據。這些醫療數據通過數據采集匯集到平臺,為科研工作者對疾病的管理、預防和干預等研究提供數據支持。
數據采集系統采集全市各醫療衛生機構數據,統一匯聚到深圳市全民健康信息平臺。平臺統一分析和使用這些數據,采用可視化技術將個人健康檔案、電子病歷清晰展現,為醫生或患者提供便利。數據采集系統為深圳市醫療管理、科研、教學提供重要數據源,可大幅度推進深圳市全民健康信息化水平[15-17]。但是當前數據采集系統在質控方面只做基本質控,數據采集質量較差。后期考慮通過分析當前采集數據質量問題,提出更多質控條件,從而提高數據質量,滿足平臺需求。