連萬民 段文舟 張冬平 王博涵
(廣東省第二人民醫院 廣州 510317) (廣州知匯云科技有限公司 廣州 510000)
近年來以電子病歷為核心的醫療機構信息化建設得到大力推動,“互聯網 + 醫療健康”應用日漸廣泛,醫院診療數據、檢查檢驗數據、健康人群體檢數據、隊列隨訪數據、藥物使用數據、病理和影像數據、基因組學等健康大數據快速增長,推動醫療健康領域進入“大數據”時代[1]。基于真實世界的大數據研究分析成為當下研究熱點。然而,不少醫院院內雖然具有良好的信息化基礎,但是數據質量不高、數據開發難度較大,缺乏統一數據開發平臺[2],導致醫務人員在推動疾病診斷、治療、預后的研究和發展方面缺乏相應數據及技術支持,醫院積累的寶貴經驗無法得到高效分享,醫療證據不能得到合理應用。
腦血管病是全球性公共衛生問題。2019年全球疾病負擔課題組(Global Burden of Disease 2019,GBD 2019)數據顯示,腦血管病是204個國家和地區居民死亡和過早死亡的主要原因之一[3]。根據國家統計局數據,近年來腦血管病死亡人數一直處于高位,2017—2021年城市、農村腦血管病死亡人數占總死亡人數的平均比重高達20.86%和23.92%[4],且有逐年升高趨勢;與此同時,隨著我國人口老齡化不斷加劇,到2022年我國65歲以上人口比例已達14.86%,這一疾病負擔將日趨嚴重[5]。腦血管病以其發病率高、復發率高和致殘率高的特點成為嚴重阻礙我國社會經濟發展的重大疾病[6]。腦血管病的治療需要一體化、全鏈條干預,一般急性期在神經內科治療,病情平穩后即可進入康復理療科治療。但是,醫院信息系統常存在數據資源無法共享以及多系統、多業務存儲底層數據結構不統一等問題[7],導致神經內科與其他相關科室之間的臨床數據處于信息孤島狀態,無法充分挖掘其價值。
發達國家圍繞臨床與科研已經廣泛開展腦血管病相關數據庫建設與應用研究。例如,歐洲建立卒中數據庫對急性腦血管病患者的人口統計學特征、危險因素、卒中嚴重程度和治療效果進行研究[8],美國建立心房纖顫導管消融術后30天急性腦血管意外發生率和預測因素研究數據庫[9],均取得較好效果。因此基于全院數據治理框架,建設腦血管專病科研數據庫,利用數據挖掘與人工智能等技術掌握不同病因腦血管病發生、發展和轉歸特點,最終闡明疾病發病機制進而輔助臨床決策,對延緩病程進展、準確預測并發癥發生及死亡風險、早期治療、干預等具有臨床和社會意義[10],同時對提高人均預期壽命、降低重大慢性病過早死亡率具有重要現實意義。
2.1.1 整體架構 提高臨床數據可及性和可用性是臨床科研數據庫平臺需要解決的核心問題[11]。數據治理是提升數據質量和可利用性的重要手段。但是針對不同應用場景和數據基礎,數據治理的總體框架和核心任務則反映各自專業需求特點,各不相同[12]。因此,廣東省第二人民醫院以建設高效、靈活、方便、安全、一體化的科研專病數據庫系統平臺為目標[13],結合現有數據基礎,借鑒治理基礎層、數據加工層、價值體現層3層治理框架,進行臨床科研數據治理,通過算法、邏輯、規則、功能模塊,執行標準化、元數據與主數據管理、數據建模、數據采集、數據歸集、數據加工、數據挖掘、數據展示、質量控制等核心任務[14],見圖1。

圖1 系統整體架構
2.1.2 基本工作流程 影像存儲與傳輸系統(picture archiving and communication system,PACS)、醫院信息系統(hospital information system,HIS)、電子病歷系統(electronic medical record,EMR)、實驗室信息管理系統(laboratory information management system,LIS)等業務系統和臨床數據庫(clinical data repository,CDR)按照電子病歷數據集、國際疾病分類法(international classification of diseases,ICD)、觀測指標標識符邏輯命名與編碼系統(logical observation identifiers names and codes,LOING)、醫院信息互聯互通成熟度測評標準完成業務數據標準化,通過數據倉庫技術(extract-transform-load,ETL),根據實時性要求分別從各業務系統或臨床數據庫中抽取數據,經清洗、轉換、加載等初步加工處理形成原始病歷庫。然后通過數據映射、自然語言處理(natural language processing,NLP)、正則規則等深度加工后與結構化數據按照主題域構建科研病歷庫,再根據專病模型對數據進行邏輯歸集形成各專病庫?;诳蒲胁v庫,系統為用戶提供知識挖掘、全文檢索、復雜統計、質量管理等各種應用輸出。
2.2.1 基于標準化的專病模型 專病數據庫本質上是對多個分散異構業務系統的診療數據通過ETL進行形式和內容上的二次加工,使其符合科研數據庫的數據模型。不同專病數據庫一般采用自定義的數據模型,在對外數據共享、建立多中心專病庫時需要耗費大量資源進行對接改造和數據映射。為解決這些問題,需要引入數據標準,建立標準化的臨床數據模型、醫學術語、編碼系統[15]。廣東省第二人民醫院腦血管專病庫大部分數據來源于CDR。其中數據在進入前已遵循電子病歷數據集、ICD、LOINC、醫院信息互聯互通成熟度測評等標準規范在數據層面進行標準化。專病模型的確立與研究目的、建庫工作量和后期擴展性高度相關。健康醫療數據科學與信息學組織(Observational Health DataSciences and Informatics,OHDSI)提出的觀察醫療結果合作項目通用數據模型(observational medical outcomes partnership common data model,OMOPCDM)是一個為醫學數據標準化而設計的數據模型[16]。借鑒該模型,結合國情與項目目標對數據的需求,進行專病庫數據模型設計,就既往科研病歷報告表單(case report form,CRF)與研究課題所需數據項進行深度溝通,最終確認模型構成。再根據模型搭建專病數據庫,對數據中心以及業務系統的數據進行抽取、清洗并加載至數據庫中,對部分數據項實現標準化清洗,對關注的醫囑藥品、檢驗、診斷信息等數據進行歸一化處理,對多來源數據項進行關聯和邏輯計算。根據專病庫實時性要求,通過ETL工具實現數據自動增量,對增量流程進行監控,實現數據量統計、日志記錄、報錯智能提醒等功能。對數據溯源關系、數據處理腳本進行封裝,保證ETL流程透明化。編寫數據質量腳本進行專病數據量統計、完整度計算、多來源數據項一致性校驗,實現專病庫數據質量控制。
2.2.2 后結構化處理 為提高數據質量,專病數據庫通常會在臨床業務信息系統通過結構化模板等方式進行數據的前結構化,但是臨床表達與使用習慣等不同會導致部分數據不能實現結構化。然而臨床科研關注的數據往往包括非結構化數據,如轉科檢查和轉科病歷等醫療文書,因此需要通過NLP進行后結構化處理??紤]到傳統NLP醫生標注的工作量和成本,腦血管專病庫使用超過5萬篇電子病歷數據,基于TensorFlow框架,主要采用無監督深度學習方法訓練得到垂直領域專病語言模型。模型以改造后的BERT預訓練語言表征模型為基礎,結合相關指標信息(包括指標名稱、同義詞、數據來源等特征),自動抽取與指標相關的病歷原文,然后結合內部醫療知識庫,利用命名實體識別及關系抽取算法自動生成規則,從而完善語義規則引擎及知識庫,最終完成指標的自動提取和后結構化,見圖2。

圖2 后結構化工作流程
利用該病歷后結構化流程,所有枚舉型指標都將跳過人工標注,直接通過預訓練模型自動后結構化。模型在自動學習過程中不斷完善知識庫,持續提高效率和精度。此外,結合臨床醫學特點進行語義化分詞,將分詞后的結構以臨床醫生熟悉的??圃~匯進行存儲,便于在科研、臨床輔助過程中快速獲取關鍵病歷信息,如癥狀、特征值、陽性特征等,最大化、最快速地為科研提供臨床參考資料。
2.2.3 多維數據關聯 最大程度地從原始醫療數據中自動關聯和提取病歷數據是減輕臨床科研人員數據整理工作量的關鍵[17]。由于歷史原因,同一患者在醫院可能有多個身份標識,同時醫療數據包括文本、圖片、視頻、表格等多種數據類型,具有多維特征,在數據抽取時,容易遺漏,造成數據不完整。因此,通過建立患者主索引(enterprise master patient index,EMPI),應用特定算法將不同業務系統所提供的患者標識信息重新組織,生成同一患者的唯一標識編碼企業級患者主索引識別碼(enterprise master patient index_identity,EMPI_ID),根據此編碼能找到分布在各業務系統中的患者所有醫療信息,同時消除重復的患者數據,實現跨系統信息檢索與共享[18]。EMPI同時提供患者信息檢索服務,提供給其他應用程序訪問患者基本信息;考慮到對異構平臺的支持,消除系統平臺的環境差異性等因素,EMPI通過接口對外提供服務,例如醫院隨訪系統可以傳入患者關鍵信息(姓名、性別、出生日期、身份證號、聯系電話等),通過調用EMPI服務接口返回或生成對應的EMPI_ID,各業務系統都可以通過EMPI提供的接口來檢索相關患者用戶信息[19]。專病庫在ETL中使用患者主索引服務,通過患者姓名和身份證進行精確匹配,通過姓名、性別、出生日期、聯系方式等屬性的權重進行模糊匹配,合并患者標識,生成或獲得EMPI_ID,然后以就診時間串聯患者歷次就診記錄形成縱向時間軸,橫向以每次就診的流水號關聯各類型就診數據,最終實現患者多維數據關聯,并可通過時間軸上的鏈接調閱病歷、影像等數據,見圖3。

圖3 主索引服務
2.2.4 智能檢索 對已確定的科研主題,通過特定條件精準篩選病歷數據,建立科研隊列,對隊列數據進行分析,按臨床需求設計和生成CRF表單并導出數據,提供數據分析工具,采用統計分析方法對數據的分布狀態、數字特征和隨機變量之間的關系進行定性或定量估計和描述[20]。醫生也可通過指定檢索條件快速歸集病歷,形成臨時隊列,通過對隊列的分析總結產生新的科研課題。因此專病庫需要強大的搜索引擎,能高效實現專病庫各數據項多重組合條件的檢索和病歷文書的全文檢索??紤]到腦血管專病庫數據量和對檢索效率的要求,采用廣泛應用的Elasticsearch數據分析引擎,通過對底層開源庫Apache Lucene的封裝,實現對每個數據項的索引和搜索。首先從科研數據庫中抽取數據寫入搜索引擎Elasticsearch Index;系統建設初期使用全量抽取,之后通過增量方式進行抽數。完成索引后,當系統接收到用戶檢索條件的請求,自動匹配定義的數據元,并利用系統自身邏輯程序封裝成Elasticsearch的DSL語句;而后基于Elasticsearch的底層能力,根據DSL語句從 Elasticsearch Index中檢索。如檢索到數據,進行相關處理(如脫敏等操作)后,返回給用戶。用戶可以預覽數據和下載CRF,見圖4。相關數據結果可在智能統計平臺進行分析。

圖4 數據檢索流程
該腦血管專病數據庫于 2019年12月開始建設,2020年6月上線,其中納入近8年以腦血管病為主診斷的患者38 391例。通過數據映射,應用同義詞歸一等數據治理手段,將住院及門診不規范診斷24 706種歸一映射出主診斷為腦血管病、腦梗死、高脂血癥、腦梗死后遺癥等241種診斷。
專病庫采集數據元按業務域分為24類,共計1 188項,見表1。其中包含結構化數據747項,361項通過映射實現值域與數據字典的一致性;非結構化數據441項。
其中,對腦血管病診療核心的入院記錄、手術記錄、腦血管造影、顱腦磁共振等,需要后結構化指標441個,臨床專家團隊對每類100例報告進行標注,技術團隊經過1萬份樣本訓練后,完成以上指標的自動化采集、清洗、治理及可視化。為腦血管病等復雜疾病診療數字化提供重要參考依據。
此外,根據腦血管病診斷特點并結合臨床研究應用方便快速檢索數據的需求,令“診斷條件”按“前后循環”“血管定位”“解剖定位”“定性診斷”平鋪陳列,“影像信息”按“檢查類型”“解剖部位”“血管部位”“病變性質”“灌注成像”平鋪陳列,方便臨床科研工作人員快速定位相關患者隊列,還可以通過檢索頻次、常用檢索匹配邏輯固定成檢索項,快速鎖定隊列。目前,已建立腦梗-丘腦、腦梗-后循環等多個研究隊列,通過指定條件檢索入組病歷,為科研提供數據支持,也可以通過對隊列數據的分析研究挖掘新的科研課題。
以數據治理的理論框架為指導,通過臨床調研、專病數據模型建立、后結構化、數據抽取、智能檢索等技術實踐,建立腦血管專病數據庫,為腦血管專病科研隊列管理、臨床回顧性研究、數據建模和相關性分析提供有力數據支撐。
在數據庫建設過程中遇到一些問題需要結合具體情況制定相應解決方案。例如卒中綠色通道患者缺失較多院前急救信息,通過對院前急救系統的改造,使用平板快速錄入關鍵信息,使用患者主索引關聯就診記錄,直接從院前急救系統提取數據項。再如部分后結構化數據項經過多次標注和算法優化效果仍然不好,通過對病歷模板復雜度和醫生書寫習慣的分析,使用前結構化方式對部分模板進行改造,同時進一步優化NLP算法,在平衡醫生病歷書寫工作量、滿足科研需求的前提下提高數據準確性。在后續數據分析建模過程中,存在部分數據項為文字描述型無法進行分析,以及連續型變量中摻雜文字符號無法進行量化等問題,增加異常值處理模塊,自動分析數據項類型,將描述型變量按關鍵詞轉換為多分類變量,為連續型變量中的非數字類型賦值,滿足后續分析建模需求,節省數據準備時間。
未來,專病數據庫還將根據臨床需求擴充數據項覆蓋范圍,增加專病科研隨訪平臺,提升NLP算法性能,在數據維度、時效性和準確性方面不斷提升。同時,提升數據分析建模能力,借助患者全景、多模態數據,結合傳統logistic回歸分析、決策樹分類、深度神經網絡等人工智能分析方法,對各類數據進行相關性分析,建立智能疾病預測模型,輔助指導臨床決策。將數據轉換為科研成果,最終回歸臨床,指導實踐,提升??瓶蒲兴剑晟浦委煼桨福瑸榛颊咛峁└觾炠|的服務。