尚詩,袁駿毅,岑星星
上海交通大學(xué)附屬胸科醫(yī)院 信息中心,上海 200030
心肌病是一組異質(zhì)性心肌疾病,嚴重的心肌病會引起心血管性死亡或進展性心力衰竭。隨著人們生活條件的提高,飲食結(jié)構(gòu)發(fā)生變化,加上多數(shù)人缺乏鍛煉,造成心肌病發(fā)病率呈逐年上升趨勢,及早確診和預(yù)防顯得尤為重要。規(guī)范治療過程、評定病情程度、指導(dǎo)急性心肌梗死患者治療和用藥等有效措施的實現(xiàn),離不開對大量相關(guān)臨床數(shù)據(jù)的研究和探討[1]。醫(yī)療行業(yè)以驚人的速度生產(chǎn)和收集數(shù)據(jù),但不同的電子健康記錄以不同的結(jié)構(gòu)收集數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),使得醫(yī)生做回顧性研究時費時費力[2]。Kruse等[3]指出,利用大數(shù)據(jù)進行專病研究的分析和挖掘,有助于提高對疾病機制的理解,實現(xiàn)個性化醫(yī)療保健。本文以上海市胸科醫(yī)院為研究背景,心肌病專病數(shù)據(jù)庫(簡稱專病庫)為研究對象,明確結(jié)構(gòu)化模板和數(shù)據(jù)標準,分析數(shù)據(jù)的入庫來源和管理方式,使得醫(yī)療數(shù)據(jù)被進一步深度利用,為心肌病臨床研究提供支持。
上海市胸科醫(yī)院是集醫(yī)療、科研、教學(xué)為一體的三級甲等專科醫(yī)院,擁有海量的醫(yī)療數(shù)據(jù),但分散在不同的業(yè)務(wù)系統(tǒng)中,并且部分數(shù)據(jù)以文本的形式進行存儲,使得大量的醫(yī)療數(shù)據(jù)無法滿足科研需求。專病庫建立的目的是:① 將分散在不同系統(tǒng)的數(shù)據(jù)整合為一個邏輯完整的信息整體,實現(xiàn)跨系統(tǒng)、跨業(yè)務(wù)的協(xié)同[4];② 將文本數(shù)據(jù)結(jié)構(gòu)化,滿足醫(yī)療相關(guān)人員的需要。
采取討論的方式,對臨床醫(yī)學(xué)、流行病與衛(wèi)生統(tǒng)計學(xué)、信息技術(shù)等多學(xué)科專家針對數(shù)據(jù)集來源和結(jié)構(gòu)化模板進行需求調(diào)研。
專病庫設(shè)計過程中參照相關(guān)標準,保證數(shù)據(jù)的可用性和可靠性,設(shè)計過程中參考了國際疾病分類ICD-10、手術(shù)與操作分類ICD-9-CM-3、HL7ChinaCDA、國家標準(如行政區(qū)域代碼)、院內(nèi)標準(如科室代碼)以及心肌病相應(yīng)的字典表(如肥厚型心肌病室間隔消融治療方式)等規(guī)范[5]。
明確數(shù)據(jù)來源,字段集來源于超聲系統(tǒng)、電子醫(yī)囑系統(tǒng)、隨訪系統(tǒng)等18個院內(nèi)業(yè)務(wù)系統(tǒng),涉及門診病歷、檢查報告、出院小結(jié)等19個醫(yī)療記錄單,確保數(shù)據(jù)的可靠性。
心肌病專病庫具體設(shè)計形式為“模塊-子模塊-字段”三級數(shù)據(jù)結(jié)構(gòu),共分為患者人口學(xué)信息、就診記錄、病例信息、檢查、病理、醫(yī)囑、診斷、治療、不良事件和隨訪10個模塊,下設(shè)33個子模塊,共包含362個數(shù)據(jù)字段,每個字段對于數(shù)據(jù)類型、數(shù)據(jù)長度和可否為空等均有相應(yīng)的設(shè)定,以保證數(shù)據(jù)集的標準化和可溯性[6]。專病庫字段集來源于超聲系統(tǒng)、電子醫(yī)囑系統(tǒng)、隨訪系統(tǒng)等18個院內(nèi)業(yè)務(wù)系統(tǒng),涉及門診病歷、檢查報告、出院小結(jié)等19個醫(yī)療記錄單。數(shù)據(jù)集結(jié)構(gòu)如圖1所示。

圖1 數(shù)據(jù)集來源架構(gòu)分析
將原始數(shù)據(jù)形成醫(yī)院臨床數(shù)據(jù)中心(Clinical Data Repository,CDR),在此基礎(chǔ)上通過后結(jié)構(gòu)化、數(shù)據(jù)脫敏等治理過程,形成專病庫的數(shù)據(jù)集。專病庫采用微服務(wù)結(jié)構(gòu)的分布式網(wǎng)絡(luò)架構(gòu)[7],使得原有的單個業(yè)務(wù)系統(tǒng)拆分為多個可以獨立部署、設(shè)計、運行的組件,組件之間通過服務(wù)完成交互和集成[8]。相比于面向服務(wù)體系結(jié)構(gòu)的分布式網(wǎng)絡(luò)架構(gòu),微服務(wù)在圍繞服務(wù)的概念創(chuàng)建架構(gòu)方面提供了更清晰、定義更良好的方式[9]。在CDR的基礎(chǔ)上利用數(shù)據(jù)治理、數(shù)據(jù)質(zhì)控建立了符合疾病特點和科研需求的專病庫,專病庫系統(tǒng)架構(gòu)圖如圖2所示。

圖2 專病庫系統(tǒng)架構(gòu)圖
(1)CDR架構(gòu)。主要包括兩項:① 通過編碼映射、信息整合等操作將醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)、 放 射 信 息 系 統(tǒng)(Radiology Information System,RIS)等院內(nèi)業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)和測序平臺等產(chǎn)生的實驗數(shù)據(jù)進行匯總統(tǒng)編,打破數(shù)據(jù)壁壘,實現(xiàn)信息互聯(lián)互通;② 將數(shù)據(jù)集進行過濾抽取,確定心肌病病種數(shù)據(jù)集定義范圍。
(2)數(shù)據(jù)治理過程中利用自然語言處理(Natural Language Processing,NLP)、基于轉(zhuǎn)換器的雙向編碼表征(Bidirectional Encoder Representations from Transformers,BERT)的條件隨機場(Conditional Random Fields,CRF)模型等機器學(xué)習方法實現(xiàn)對文本數(shù)據(jù)的后結(jié)構(gòu)化處理。結(jié)構(gòu)化的數(shù)據(jù)以患者主索引(Enterprise Main Patient Index,EMPI)為唯一標識進行數(shù)據(jù)關(guān)聯(lián),通過建立脫敏算法中間映射表進行去隱私化和加密處理,得到標準化數(shù)據(jù)集。
(3)數(shù)據(jù)質(zhì)控是對數(shù)據(jù)的真實性、準確性、完整性、關(guān)聯(lián)性、一致性進行管理。以EMPI為監(jiān)測主線,六西格瑪改進模型改善監(jiān)測管理流程[10],定期生成質(zhì)量監(jiān)測報告。
(4)將通過質(zhì)控管理的數(shù)據(jù)正式入庫,形成由人口信息學(xué)、就診記錄、病歷信息等10個模塊組成的心肌病專病庫。
(5)應(yīng)用層分為數(shù)據(jù)挖掘、科研管理、科研項目執(zhí)行、智能預(yù)測4個方面。為便于科研人員和醫(yī)生后續(xù)操作,數(shù)據(jù)可選擇以SAS、SPSS形式導(dǎo)出[11],接口采用WebService格式封裝,符合微服務(wù)的封裝形式,可實現(xiàn)異構(gòu)的程序相互訪問。
專病庫的數(shù)據(jù)治理過程包括CDR建設(shè)、后結(jié)構(gòu)化處理、數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)脫敏4個方面。
(1)CDR建設(shè)。院內(nèi)于2018年完成了CDR的建設(shè),以行業(yè)標準疾病代碼、藥品字典為映射集合,通過數(shù)據(jù)清洗、設(shè)立統(tǒng)一編碼和編碼映射等處理進行信息匯集,達到信息互聯(lián)互通、數(shù)據(jù)標準化的目的。
(2)后結(jié)構(gòu)化處理。對于非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),后結(jié)構(gòu)化處理決定了醫(yī)療文本數(shù)據(jù)的可利用率和準確性[12],通過對病歷、病理等文本數(shù)據(jù)預(yù)處理、序列標注完成前期準備工作,采用BERT預(yù)訓(xùn)練的詞嵌入手段,以Bi-長短期記憶網(wǎng)絡(luò)-CRF模型作為基準特征提取模型,結(jié)果顯示多個實體標簽的預(yù)測準確率和召回率達到1,且“癥狀”這一相對其他實體類型較為復(fù)雜的命名實體取得了87.16%的準確率和72.50%的召回率,后結(jié)構(gòu)化處理過程如圖3所示。相比于其他NLP算法,BERT模型是將預(yù)訓(xùn)練模型和下游任務(wù)模型結(jié)合在一起,即在進行下游任務(wù)時仍然用BERT模型,而且BERT模型天然支持文本分類任務(wù),在做文本分類任務(wù)時不需要對模型做修改[13]。

圖3 后結(jié)構(gòu)化處理過程圖
(3)數(shù)據(jù)關(guān)聯(lián)。由于院內(nèi)業(yè)務(wù)系統(tǒng)中各編碼更新時間不同,出現(xiàn)一對多或多對一的場景,如同一藥品名稱對應(yīng)一個院內(nèi)代碼但對應(yīng)兩個醫(yī)保編碼,需要進行數(shù)據(jù)關(guān)聯(lián),將數(shù)據(jù)進行歸一化處理,根據(jù)時間順序和其他邏輯合并,通過計算信息增益的方式?jīng)Q定處理方向。
(4)數(shù)據(jù)脫敏。由于醫(yī)療數(shù)據(jù)涉及患者隱私,入庫前需進行數(shù)據(jù)脫敏處理,數(shù)據(jù)脫敏是指將數(shù)據(jù)中較敏感的信息做進一步變形、轉(zhuǎn)換和混淆的漂白處理,從而達到保護患者隱私的目的,保證隱私信息的安全性和可靠性[14]。2020年,國內(nèi)制定了《中華人民共和國個人信息保護法(草案)》,強調(diào)隱私信息保護的重要性。為更好地保留復(fù)雜語義下高敏感度的屬性值,采用對敏感屬性值進行分類加權(quán)后,使用DES對稱加密算法實現(xiàn)數(shù)據(jù)脫敏,脫敏后以EMPI或患者在醫(yī)院就診的身份號為關(guān)聯(lián)字段。
隨著醫(yī)院信息化的進一步發(fā)展,對于醫(yī)療信息互聯(lián)互通的要求隨之提高,院內(nèi)業(yè)務(wù)系統(tǒng)中建立患者身份的唯一標識顯得尤為重要。EMPI是指采用微軟特有算法和技術(shù)在信息系統(tǒng)中表達患者身份的唯一識別,是醫(yī)療數(shù)據(jù)可以共享的基礎(chǔ)。唯一標識的建立過程為:① 每個患者創(chuàng)建一個唯一標識符,作為各業(yè)務(wù)系統(tǒng)進行信息傳遞時的標志;② 與相關(guān)系統(tǒng)醫(yī)療記錄的標識之間建立映射,確保同一患者分散在不同系統(tǒng)中的醫(yī)療信息可以完整且準確地關(guān)聯(lián)、整合在一起。EMPI架構(gòu)如圖4所示。此外,EMPI還提供了搜索引擎,可以智能地協(xié)助醫(yī)務(wù)人員對患者進行有效搜索;同時,也會存儲患者屬性的部分子集,以便作為患者檢索“單一最佳紀錄”的權(quán)威來源。EMPI的關(guān)鍵組件是匹配引擎,通常配置的屬性包括姓名、生日、性別、身份證號和地址等,匹配引擎的準確性和性能是決定EMPI解決方案價值的關(guān)鍵因素。

圖4 EMPI架構(gòu)圖
質(zhì)量控制是對數(shù)據(jù)的真實性、準確性、完整性、關(guān)聯(lián)性和一致性進行管理,決定了專病庫的可用性和可靠性。由于源數(shù)據(jù)或數(shù)據(jù)拉取的問題,數(shù)據(jù)入庫前仍存在主要診斷選擇錯誤或名稱不規(guī)范、確診日期未填寫等現(xiàn)象。采用DMAIC模型改善監(jiān)測管理流程,數(shù)據(jù)質(zhì)控分為數(shù)據(jù)智能質(zhì)控、數(shù)據(jù)核查補錄、生成質(zhì)量監(jiān)測報告和數(shù)據(jù)定時更新4個方面[15]。
(1)數(shù)據(jù)智能質(zhì)控以EMPI為監(jiān)測主線,數(shù)據(jù)字典表作為參考標準,梳理數(shù)據(jù)中的名稱、編碼等規(guī)范性錯誤。后結(jié)構(gòu)化數(shù)據(jù)采用上下文聯(lián)動的方式,根據(jù)語義關(guān)系進行數(shù)據(jù)更改或填充;對于不合理數(shù)據(jù)(如性別為男但有月經(jīng)史)進行智能化更正后,同時也將業(yè)務(wù)系統(tǒng)中的源數(shù)據(jù)進行修改。
(2)數(shù)據(jù)核查補錄是人工隨機抽取少量數(shù)據(jù),與院內(nèi)系統(tǒng)中的病案首頁等業(yè)務(wù)報表比對核查,判斷是否存在數(shù)據(jù)不對應(yīng)或不合理。
(3)生成質(zhì)量監(jiān)測報告。經(jīng)過以上兩個步驟,生成心肌病入庫數(shù)據(jù)的質(zhì)量檢測報告,包括質(zhì)量匯總、完整度等評分細項,并將質(zhì)檢報告交由醫(yī)務(wù)部考量。
(4)數(shù)據(jù)定時更新。生成數(shù)據(jù)質(zhì)量問題的具體原因,做到數(shù)據(jù)可回溯,利于有關(guān)部門針對問題進行更正,避免再次發(fā)生,提高數(shù)據(jù)入庫效率[16]。
參照國際疾病分類標準,心肌病患者是指診斷名稱中包含心肌病或ICD-10診斷編碼為I42的患者,專病庫已完成自2012年1月至2021年9月心肌病患者數(shù)據(jù)的導(dǎo)入工作,共12023例。其中男性8121例,女性3902例,平均年齡(64.85±13.61)歲,診斷名稱為擴張型心肌病5511例、缺血性心肌病2152例、肥厚型梗阻性心肌病973例,占總患者數(shù)的71.83%。由于專病醫(yī)療數(shù)據(jù)的特殊性,針對專病庫的使用設(shè)定了相應(yīng)的管理機制,科研人員通過院內(nèi)OA辦公系統(tǒng)提出提取科研數(shù)據(jù)申請,經(jīng)科室領(lǐng)導(dǎo)、科教部、臨床研究中心批準后可導(dǎo)出相應(yīng)脫敏后的心肌病數(shù)據(jù),專病庫的應(yīng)用界面如圖5所示。到目前,專病庫已配合完成2項心肌病臨床研究,專病庫中提供了患者住院號、性別、年齡、診斷記錄、檢查檢驗記錄、手術(shù)記錄等患者信息和臨床數(shù)據(jù),便于研究人員做回顧性或其他臨床數(shù)據(jù)分析。基于專病庫,科研人員開始嘗試建立心肌病預(yù)后模型,如對心肌病確診前的文本數(shù)據(jù)進行分類預(yù)測,研究成果有助于對患者實現(xiàn)更為精準的差異性治療。專病庫的實現(xiàn)一方面利用機器學(xué)習方法將病歷病理等文本數(shù)據(jù)后結(jié)構(gòu)化,提高了醫(yī)療數(shù)據(jù)的收集范圍,全面發(fā)揮醫(yī)療數(shù)據(jù)的作用;另一方面簡化研究人員手工統(tǒng)計數(shù)據(jù)和預(yù)處理的操作,有利于提高數(shù)據(jù)的準確性和研究人員的工作效率,增加了時序數(shù)據(jù),可以有效避免多源數(shù)據(jù)相互矛盾的現(xiàn)象。

圖5 專病庫應(yīng)用界面
近年來,“互聯(lián)網(wǎng)+健康醫(yī)療”觀念逐漸深入,建立互聯(lián)互通、開放共享的醫(yī)療大數(shù)據(jù)平臺成為焦點。就專病庫的有效性而言,將原本大量不規(guī)律的臨床文本通過處理形成專病數(shù)據(jù)庫,為臨床研究和疾病研究提供了信息服務(wù)和數(shù)據(jù)支撐,使得醫(yī)生做回顧性研究更加方便快捷。就專病庫的優(yōu)越性而言,在院內(nèi)CDR的基礎(chǔ)上經(jīng)過后結(jié)構(gòu)化、去隱私化等處理建立了以EMPI為唯一索引的心肌病專病數(shù)據(jù)庫,EMPI使得數(shù)據(jù)更加清晰,方便研究人員通過數(shù)據(jù)將EMPI進行分類,有利于推進該病種的基礎(chǔ)學(xué)科研究。就專病庫的創(chuàng)新性而言,增加了醫(yī)療數(shù)據(jù)利用率,有利于醫(yī)生對心肌病進行風險評估并進行預(yù)后評價。
目前專病數(shù)據(jù)集處在病種擴展階段,對出現(xiàn)的原始數(shù)據(jù)中一對多或多對一的映射問題,需及時改進院內(nèi)業(yè)務(wù)系統(tǒng)。未來,隨著人工智能在醫(yī)療領(lǐng)域不斷深入,后結(jié)構(gòu)化精度不斷提高,建立依托于大數(shù)據(jù)、數(shù)據(jù)挖掘等技術(shù)面向醫(yī)生、患者、科研人員和行政管理人員的醫(yī)療大數(shù)據(jù)綜合服務(wù)平臺指日可待。