龍思哲 吳震天 黎鵬安 張敦明 王 毅 周 毅
(中山大學附屬第一醫院信息數據中心 廣州 510080) (中山大學中山醫學院 廣州 510080)
張武軍
(中山大學附屬第一醫院信息數據中心 廣州 510080)
2016年6月國務院辦公廳發布的《關于促進和規范健康醫療大數據應用發展的指導意見》提出,健康醫療大數據是國家重要的基礎性戰略資源,要大力推動政府健康醫療信息系統和公眾健康醫療數據互聯融合、開放共享,消除信息孤島,積極營造促進健康醫療大數據安全規范、創新應用的發展環境[1]。2021年6月發布的《關于推動公立醫院高質量發展的意見》指出,醫院應加強臨床專科建設,以專科發展帶動診療能力和水平提升;推進醫學技術創新,加強基礎和臨床研究;強化信息化支撐作用,推動大數據等新一代信息技術與醫療服務深度融合[2]。隨著健康醫療大數據價值凸顯,基于真實世界數據的臨床研究成為醫學高質量發展新動力[3]。醫院信息系統是專科、專病數據的重要來源。以往系統建設以業務流程為導向,信息標準化程度、互聯互通成熟度不足,產出數據質量難以保證,給專病數據庫的建設和臨床研究帶來巨大挑戰[4-5]。中山大學附屬第一醫院(以下簡稱中山一院)是國家衛生健康委員會部屬大型三甲綜合醫院,2017年建設的基于衛生信息交換平臺(Healhcare Information Exchange, HIE)[6]的臨床數據中心(Clinical Data Repository,CDR),已匯入2003年至今約155萬份住院病歷,包括住院病案首頁、電子病歷文書、檢查、檢驗、病理、醫囑、護理記錄、用血記錄等。2020年起啟動專病數據庫建設,通過全周期治理,逐步解決數據標準不統一、采集低效、精準度不足、質量無法核查和溯源等問題,形成長期持續、動態實時、初具規模、日趨完善的數據資產積累,構建統一化、標準化、結構化、可視化的專病數據庫,加速臨床病例資源到醫學研究資產轉化[7-8]。
目前國內尚無統一的醫學術語標準,且部分標準存在缺乏整體概念體系、結構化定義不清、覆蓋面不全等問題,為建立與需求相適應的標準化歸集體系,專病數據庫集成醫學系統命名法-臨床術語(Systematized Nomenclature of Medicine Clinical Terms,SNOMED CT),觀測指標標識符邏輯命名與編碼系統(Logical Observation Identifiers Names and Codes,LOINC(R)),中文人類表型標準用語(The Chinese Human Phenotype Ontology,CHPO),RxNorm,國際疾病分類第9次、第10次修訂本(International Classification of Disease V9,ICD-9/10)等數據標準[9],定義臨床術語本體中的重要概念類、類之間關系、類屬性及屬性分面。建立術語間關系,在相同條件下具有同義關系的術語賦予唯一代碼,實現多源數據互聯互通。
2.2.1 抽取-轉換-加載(Extract Transform Load,ETL) 應用ETL技術快速接收業務系統大量數據,減少數據采集對生產業務系統的影響,實現多個數據源的同時統一采集,避免數據轉換系統對數據源的直接操作,同時進行清洗和標準化操作,包括數據字段映射、字典轉換、跨域主索引患者主索引(Enterprise Master Patient Index,EMPI)、數據校驗等步驟。
2.2.2 交互管理 表視圖查詢方式便于接口開通和維護,數據入庫效率快,平臺主要通過其實現與院內生產系統的數據對接;Web Service對接方式較固化,傳輸安全性能較高,更多應用于隱秘性較強的數據對接通道構建;部分數據可通過備份庫在業務數據倉庫(Operational Data Store,ODS)直接還原,適用于獲取歷史數據,但增量數據同步效率受限。綜合考慮時效性、安全性、統一管理等因素,目前主要采用Web Service、消息推送進行不同類型數據的交互。
2.2.3 同步機制 數據同步時間一般根據需求分T+0、T+1、T+N等,不同模塊、類型的增量數據對接方式、對接頻率可差異化處理,如患者基線數據、基礎診療信息實時推送;檢查、檢驗、病理數據由于存在滯后或延時,考慮在實時推送基礎上增加定期遍歷搜索前一時段內該部分數據的功能,保證患者信息完整性。
專病原始數據來自多個信息系統,包括醫院信息系統(Hospital Information System,HIS)、檢驗信息系統(Laboratory Information System,LIS)、醫學影像存儲與傳輸系統(Picture Archiving and Communication System,PACS)、病案、電子病歷、手術麻醉等業務數據。通過梳理患者全診療過程產生的業務數據,形成15個標準的業務域分類和221個標準的檢索項,見圖1。標準業務域主要包括人口學信息、就診信息、診斷信息、一般檢驗、微生物檢驗、檢查報告、醫囑記錄、中醫藥方、門急診病歷、住院所有病歷、入院記錄、出院記錄、手術記錄、病案手術、生命體征,還可根據需求進行擴展,新增重癥監護、腫瘤放化療、生物樣本庫、生物信息多組學、隨訪隊列等[10]。

圖1 專病通用數據集
2.4.1 患者主索引 以往醫院患者的門急診號、住院號單獨設置,給同一患者專病數據的整合帶來困難[11],需完善院內患者主索引。完成標識字段治理,如身份證號、聯系電話等規范化處理或清洗,地址的歸一或截取,數據去冗歸一,以便EMPI判斷更精準;通過設定主索引權重和閾值,判定多條患者數據是否歸屬同一個EMPI,見圖2。針對判定失敗的患者可暫緩輪循,直至一段時間后再度執行輪循匹配,反復完善。

圖2 患者主索引設置
2.4.2 診療流程融合 梳理專病數據集-診療活動、時序邏輯-數據采集來源的對應關系,以關鍵事件的發生時間為標志,形成患者診療時間軸,實現數據邏輯有序排列。以特定展示、查詢方式回嵌業務系統,用于復診、隨訪等業務場景,見圖3。由于不同數據源的時間跨度不同,不同事件之間有復雜的時序邏輯,需分層次整合不同時間顆粒度的數據,利于在后續分析中,通過特點指標回顧或預測患者轉歸或預后,為優化專病診療路徑提供依據[12-14]。

圖3 專病診療流程融合(以腫瘤為例)
參照診斷、手術、藥品、檢查檢驗項目等數據標準和項目編碼目錄,通過自然語言的同義詞表、醫學術語的同義關聯詞表,在數據挖掘算法指導下,對文字表達不同但含義相對一致的字段信息進行歸一,為后續和上層應用提供正確且統一的信息表達。以標準表為基準,將數據實際出現的醫療詞向標準表做映射,包括機器學習加人工標注的過程。當出現標準表難以覆蓋實際數據時,由專業醫師決定是否擴充標準表。
2.6.1 后結構化 針對歷史文本類數據,運用自然語言處理(Natural Language Processing,NLP)技術分析文本隱含語義和上下文結構關系[15],發現和挖掘結構化所需的知識模塊,主要包括分詞、同義詞、主題和屬性詞關系圖譜、上下文匹配邏輯、規則庫、正則模板等[16-17]。首先,進行專病文本自主學習、自動標注,計算準確率、召回率;其次,自動標注不理想的數據元,篩選由近及遠的標準病例,由臨床醫師人工標注;再次,進行機器學習并建模,增加樣本量迭代完善標注模型;最后,標注結果人工審核,不斷迭代完善,滿足專病不同語料數據要求[18]。
2.6.2 前結構化 一般規律、有效信息的密度越高數據前結構化的價值越高、應用效果越好。主要針對病歷文書、醫技檢查報告、功能評分量表等文本的增量數據,進行前瞻性結構化采集、存儲和預處理,見表1。前結構化改造由專病科室發起,涉及檢查報告的還需聯合醫技科室共同設計模板、數據采集、運算邏輯、觸發場景等,滿足臨床科研數據精準、精細的應用要求。

表1 前結構化改造范疇
通過優化業務流程、完善接口性能,保障數據完整性;設置數據錄入規則、邏輯校驗機制等保障準確性;以患者號(住院號、門診卡號)為第1維度,就診流水號為第2維度,強化業務數據關聯性;核查字典值域范疇,完善字典版本管理,約定業務數據流向,保障數據一致性;判斷時間邏輯關系、同步機制,保障及時性。此外還有規范性、唯一性等控制指標,缺失值、無效值、重復值等異常發現與處理。
設置權限管理模塊,根據合法合規、最小需求原則為用戶分配不同的角色、用戶組,防止用戶越級操作造成數據泄露;對信息更改等重要操作進行日志自動記錄,提供用戶名、訪問記錄、IP、登錄時間、操作內容等用于回溯;針對敏感級別較高的數據采用加密或安全傳輸協議進行處理,對敏感字段的操作應有日志或報表供審核,嚴格控制對敏感數據的復制、導出等功能[19]。
3專病數據庫核心功能
根據研究目的創建科研項目,自定義研究隊列納入和排除條件;根據條件進行檢索,利用原文檢索、高級檢索及條件樹檢索進行模糊檢索或精確查詢;根據檢索到的病例對接院內患者全息展示,基于結構化內容進行視圖展示,核查圈定研究對象;從病種數據映射,自定義衍生變量,形成所需的臨床實驗觀察表(Case Report Form,CRF)數據項變量;進一步核查所篩選的數據是否符合要求,經必要的審核流程后,以多種形式導出,供后續統計分析[20]。
支持按照患者的門診、住院就診時序逐個展示單個就診次序下的患者全量診療信息,內容包括基本概覽、病歷、醫囑、檢驗、檢查、量表、護理等信息。展示患者核心指標信息及對應的疾病信息,實現患者個人畫像視圖構建,方便臨床科研人員更直接查看患者總體診療情況,輔助臨床科研入組判斷。
根據隨訪目的創建隨訪項目,自定義隊列納入和排除條件;根據患者身份證或就診卡號進行檢索,識別目標隨訪用戶;通過簽署知情同意書、授權書等將患者納入隨訪隊列進行后續隨訪計劃安排;根據隨訪隊列的研究需求制定隨訪表單,并對隨訪進行預警分析和干預;制定失訪等特殊事件的管理策略和處理流程,隨訪完成的問卷數據按權限申請導出下載,見表2。

表2 專病數據庫通用功能
截至2021年末中山一院已開展20個專病數據庫建設,入庫病例數超過50萬份,60多位專病醫師、研究助理通過專病數據庫進行真實世界數據探索,已支撐多項回顧性、前瞻性臨床研究,將推動科學研究和臨床工作的規范化、標準化、規模化,進一步提升專病臨床研究能力,反哺和促進學科發展。通過專病數據庫建設實踐,發現業務系統、集成平臺在數據標準、交互機制等方面存在的不足,需加強臨床科室、管理部門、信息部門、承建商的高效溝通協作。下一步將繼續以專病需求為導向、問題為切入點,推進數據治理的標準化、規范化、合理化落地,逐步構建基于專病數據資產的綜合治理體系。對數據庫功能進行迭代和擴展,形成院前-院中-院后的專病全程閉環管理;建立院級科研數據中心,依托多中心共享平臺完善專病區域聯盟的數據資源合規共享和多元應用,共同構建我國疾病診療規范。