


摘要:為探索心肺血管疾病患者診療數據的采集方法,構建心肺血管疾病專病數據庫,為提高臨床醫師和科研人員提供準確全面的數據資料。本文以天津市寶坻區人民醫院心肺血管疾病患者的臨床診療數據為基礎,采用ETL的方式實現多源異構數據的抽取與轉換、數據治理、數據質控以及數據分級分類和數據安全。完成了專病數據庫的建設并投入使用,包括11個一類域,21個二類域和866個數據單元,共計19 998例患者的數據資料,并取得了較好的應用效果。心肺血管疾病專病數據庫能夠提升醫務工作者的科研效率,有效助力挖掘真實世界醫療數據的價值。
關鍵詞:ETL;心肺血管疾病;專病數據庫;科研;數據治理
中圖分類號:R-05;R563;R714.252" " " " " " " " " "文獻標識碼:B" " " " " " " " " " " " " DOI:10.3969/j.issn.1006-1959.2025.06.011
文章編號:1006-1959(2025)06-0069-05
Construction and Practice of Cardiopulmonary Vascular Disease Database Based on ETL
DOU Yifeng1, SHAN Shuxiang2
(Network Information Center1, Department of Respiratory and Critical Care Medicine2,
Tianjin Baodi Hospital, Tianjin 301800, China)
Abstract: In order to explore the collection method of diagnosis and treatment data of patients with cardiopulmonary vascular diseases, a database of cardiopulmonary vascular diseases was constructed to provide accurate and comprehensive data for clinicians and researchers. Based on the clinical diagnosis and treatment data of patients with cardiopulmonary vascular diseases in Tianjin Baodi Hospital, this paper uses ETL to realize the extraction and transformation of multi-source heterogeneous data, data governance, data quality control, data classification and data security. The construction of the special disease database has been complete and put into use, including 11 first-class domains, 21 second-class domains and 866 data units, a total of 19 998 patients' data, and achieved good application results. Cardiopulmonary vascular disease database can improve the scientific research efficiency of medical workers and effectively help to mine the value of real-world medical data.
Key words: ETL; Cardiopulmonary vascular disease; Specialized disease database; Research; Data governance
心肺血管疾病是一個世界性的公共衛生問題。我國心肺血管疾病的發病率與致死率仍高居榜首,2019年農村、城市心血管病分別占死因的46.74%和44.26%,每5例死亡中就有2例死于心血管病[1]。黨的二十大報告提出了要加快建設網絡強國和數字中國的目標。數據資產作為醫院資產的重要組成部分,在落實《“健康中國2030”規劃綱要》的精神中會發揮越來越重要的作用。全球數據總量預計在2025年增長到180 ZB以上,其中大約30%的數據量由醫療健康行業產生。建設心肺血管疾病專病數據庫有利于充分獲取臨床醫療數據對臨床醫師決策的支持度,以及探究不同生命體征及檢查檢驗結果對心肺血管疾病診斷的影響程度[2-4]。目前,專病數據庫建設所面臨的主要問題包括跨平臺間協同成本高,導致院內各信息系統之間存在數據孤島;缺乏有效的數據權屬流程追溯技術手段,數據管控性較差;缺乏突破集中化大數據分析的關鍵技術,技術平臺短缺;后結構化的電子病歷數據本質上是一種類結構化的數據,關鍵指標內容不標準、不全面、不規范。本文以我院ESB[5,6]集成平臺建設為依托,以患者主索引建設[7,8]為主線,利用Rhapsody v6.3和Kettle v5.2軟件,建立了心肺血管疾病專病數據庫。
1專病數據庫設計
目前,基于真實世界數據的臨床研究成為醫學高質量發展的新動力,臨床研究專病數據庫對于支撐臨床研究,促進醫院高質量發展的重要性也日益凸顯[9-11]?;贓TL的心肺血管疾病專病數據庫的建設旨在滿足多學科多維度多層次的科研需求,為臨床診療和決策管理提供有力的數據支撐。在專病庫建設前期,邀請了一線臨床專家、科研人員與數據工程師等組成團隊,參考了國際疾病分類標準第10版,確定了數據采集范圍為我院出院診斷是I00-I02急性風濕熱、I05-I09慢性風濕性心臟病、I10-I15高血壓病、I20-I25缺血性心臟病、I26-I28肺源性心臟病和肺循環疾病以及I30-I52其他類型的心臟病的出院患者。
數據的覆蓋廣度和深度是專病數據庫建設的關鍵,它從根本上決定了專病庫的使用質量和應用效率。因此,經過團隊專家的討論,結合《信息安全技術健康醫療數據安全指南(GB/T 39725-2020)》中關于健康數據分類的建議,設計了由11個一類域,21個二類域和866個數據單元的組成的專病庫。數據主要來源于院內自研的醫院信息系統(HIS),電子病歷系統(EMR),實驗室系統(LIS),放射影像系統(PACS)等7個業務系統,涉及的醫療表單包括住院病案首頁,病程記錄,入院記錄,出院記錄,檢查報告單,檢驗報告單,住院醫囑單等21種,見表1。同時,為滿足數據提取時的可溯源性和可擴展性,每個數據單元包含主鍵、所屬類域、所屬系統、所屬分類、編碼、名稱、字段類型、字段長度、取值范圍、是否可空、是否有效、備注、擴展字段等13項屬性特征。
2基于ETL的可持續數據治理
數據治理[12-15]存在于信息系統全生命周期,數據治理工作融入日常業務流程。圖1展示了我院數據治理的實施路徑,通過可靠高效的數據治理實現構建開放、共享、可用、可控的數據服務體系,將被動治理轉變為主動治理,夯實智慧醫院運行基礎,提升數據資產價值,實現醫院高質量發展。
2.1數據抽取與轉換" 首先,專病庫的建設需要解決業務系統數據庫表結構識別,字段內容識別和標準數據字典轉化工作,借助Kettle工具通過傳統ETL技術完成[16-18]。在此階段完成后,部分對照關系明確,前期結構化采集的數據可以寫入專病數據庫。這部分可以通過映射完成轉換數據,主要包括患者人口學信息、就診記錄、檢驗報告、醫囑記錄,以及檢查報告、手術記錄、治療記錄中的時間、項目名稱、執行科室等字段。其次,需要通過結構化算法從自然語言文本中抽取和轉化一部分數據,這部分工作需要用自然語言處理算法工具實現,專病數據庫需要處理來自多個系統的數據,包括 EMR 系統中的主訴癥狀、手術史和家族史,RIS 系統中的腫瘤部位和最大直徑,以及病理系統中的腫瘤病理學分型和病理分化程度等字段。一些字段需要利用臨床規則工具進行邏輯計算,例如:ASA分級、體重指數、就診年齡和住院天數。
2.2數據處理" 在ETL的過程中對數據資料進行轉化處理是提高專病數據庫數據質量的重要步驟[19,20]。主要包括對殘缺數據、錯誤數據和重復數據進行數據規約、數據整理和數據集成。心肺血管疾病專病數據庫中對于人口統計學信息、檢查、檢驗等結構化數據來說,參考個人信息基本數據集、衛生信息數據模式描述指南和衛生信息數據元值域代碼等國家衛生行業標準的規范,結合院內現有數據標準進行映射轉換,以改進由于不同業務系統中使用的代碼定義不標準的問題。對于非結構化數據和半結構化數據,采用基于自然語言處理的模型,如監督學習、遷移學習、強化學習等方法進行醫學命名實體屬性的解析與獲取。
2.3數據質控" 在數據集成過程中設置數據完整性檢查,避免關鍵信息缺失。設定數據標準規則監督,減少不規范數據的產生。建設多源數據質控平臺,監測醫療數據的一致性、關聯性、及時性等質控問題。依托我院質控數據庫系統和360全景電子病歷系統,建立定期溝通機制,成立專項支撐組,實地調研質控需求,每月和臨床科室進行需求研討會,討論高質量科研數據治理和信息化對臨床科研的輔助,并指派專員跟進落實;同時,每月向臨床科室主任發布數據質控報告,督促臨床一線從源頭完善數據質量,并通報高質量數據整改升級情況;針對重點項目組建由信息技術、臨床研究、數據統計等專業人員參與的專項支撐組,加強信息與臨床合作的深度,提升數據服務成效;組織信息化專業骨干,主動深入臨床科室,利用深度學習等技術助力臨床攻關。通過建設監控大屏,實時動態展示數據抽取的過程,見圖2。
2.4數據分級分類與數據安全" 有關健康醫療大數據應用發展的指導意見和法規中,強調了建立數據開放共享支撐服務體系和數據安全管理責任制度等,以及制定數據分類分級保護制度和指南,確定核心數據、重要數據和一般數據目錄,提出相應保護的管理要求和技術措施,提升數據安全和個人信息保護能力?;诖?,專病庫在設計上運用了脫敏和加密的方式,對于患者身份信息、聯系方式、家庭地址等信息采取半加密的方式進行展示,在獲取病案記錄和藥品費用等方面也進行了臺賬和日志的記錄。同時,我院信息系統均已通過《安全等級保護制度2.0》的三級等保要求。
考慮到患者數據的隱私安全問題,我院設立了隱私安全控制的三原則。首先是政策規范制度保障,以《天津市寶坻區人民醫院醫療質量安全核心制度》為基礎制定信息安全提取與控制管理制度,建立患者診療信息保護制度,使用患者診療信息應當按照法律法規和相關文件規定,合法、依規、正當、必要、遵循醫學倫理的原則,保護患者隱私,禁止出售或未經授權向他人或機構提供患者的診療信息。其次是建立員工授權管理制度,根據醫療管理部門授權情況,不同員工對患者診療信息的使用權限不同。嚴格規范不同授權管理等級用戶的患者診療信息調閱和使用權限,確保患者診療信息在授權范圍內使用。最后是加強數據審計和監管,出現極端情況如數據泄露時,可以第一時間溯源并將影響控制在最小范圍。
3應用效果
天津市寶坻區人民醫院心肺血管專病數據庫已于2023年7月投入使用,已完成超過1億條臨床診療數據的清洗。通過專用服務器設定定時任務,建立常態化的增量入庫管理機制,根據患者出院結算和病案歸檔的狀態設定每月20日執行作業任務,并設定短信和郵件報警雙重保障機制,便于及時發現和解決問題。截至2023年12月,已納入19 998余例患者臨床診療信息數據,其中男性患者10 477例,女性患者9521例,患者平均年齡為(66.61±26.23)歲,平均住院日為4.38 d,本市患者占比為96.15%,醫保類型患者占比96.42%。
目前,專病數據庫支持完成4項科研課題申報,研究者利用專病數據庫中涉及到的患者人口統計學信息和臨床診療數據,構建計算智能和機器學習預測模型,通過模型輸出輔助臨床醫生進行事前診斷決策,事后進行多因素分析和生存分析。有針對性的支持了高質量論文的撰寫,為科研工作人員提供了清洗好和結構化后的數據,使其操作起來更加便捷,獲取數據更加及時有效,大大減少了數據整理所需要的時間,據不完全統計,專病庫上線前心肺相關學科的醫師獲取符合自身研究方向的科研數據要去翻閱病歷、匯總和整理數據,平均要5天的時間才能完成,現在專病庫上線后時間減少到2小時,只需要明確知道想要什么樣的數據,從數據庫提取即可。
4總結及展望
本文基于ETL構建的心肺血管專病數據庫已經在我院試運行,對于我院構建心肺血管相關疾病患者的用戶畫像奠定了良好的數據基礎。同時,專病庫在單病種數據質量控制,申報科研基金項目,參與國際、國內多中心臨床研究,支持論文成果產出等以真實世界研究數據為基礎的研究方面會發揮出越來越重要的作用。未來,我們將繼續完善專病數據庫相關信息,加強數據分級分類治理,提高數據共享的充分性,探索形成一套標準的數據處理框架體系,通過集成多個算法,以醫療數據反哺臨床醫療,更大程度的發揮醫療數據的價值。
參考文獻:
[1]馬麗媛,王增武,樊靜,等.《中國心血管健康與疾病報告2021》概要[J].中國介入心臟病學雜志,2022,30(7):481-496.
[2]張弘政,劉迷迷,李琳,等.基于通用數據模型的健康醫療大數據平臺數據治理研究[J].醫學信息學雜志,2022,43(6):2-7,13.
[3]費曉璐,李嘉,黃躍,等.醫療大數據應用中的數據治理實踐[J].中國衛生信息管理雜志,2018,15(5):554-558.
[4]袁駿毅,潘常青,李榕,等.基于臨床數據中心的冠心病專病數據庫的構建與實現[J].中國衛生信息管理雜志,2022,19(5):707-712.
[5]秦宇.基于ESB的醫院信息集成平臺的實現與應用[D].南京:東南大學,2018.
[6]劉健,宋波.基于ESB下的醫療信息集成平臺的構建思路探索[J].中國新通信,2019,21(23):63.
[7]王毅豪,尚詩,袁駿毅,等.基于企業級患者主索引構建高脂血癥專病科研數據庫研究[J].中國醫學裝備,2022,19(7):116-120.
[8]李言飛,張業武,張睿,等.面向全人群的患者主索引方案設計和管理模式研究[J].中國衛生信息管理雜志,2022,19(2):217-221.
[9]李菁,劉晶璟,張敏揚,等.面向獨立醫學實驗室的醫學數據治理模式探索[J].中國數字醫學,2023,18(7):96-100.
[10]韓嘯,谷宗運,趙士博,等.基于圖像分類技術在醫學影像數據治理過程中的研究與應用[J].中國醫療設備,2023,38(4):78-83.
[11]徐靜,高昭昇,黃岳源,等.基于全民健康信息平臺的醫療健康大數據治理方法及技術研究[J].醫學信息學雜志,2022,43(7):9-13.
[12]黃永剛,于永強,李韜,等.綜合性醫院老年患者醫療數據治理及應用[J].中國老年學雜志,2021,41(15):3370-3373.
[13]閆宣辰,姚進文,陳耀龍.甘肅省健康醫療大數據治理的實踐與探索[J].甘肅醫藥,2020,39(11):1026-1030.
[14]王壘,郭鵬飛,楊遠,等.原發性肝癌大數據建設初步探索[J].中華肝膽外科雜志,2019,25(9):695-698.
[15]劉莉,司莉.科學數據治理實踐:內容體系與發展趨勢[J].情報理論與實踐,2023,46(12):175-182.
[16]張懿.基于Kettle集群的ETL管理系統的設計與實現[D].濟南:山東大學,2018.
[17]陳健,左秀然,楊國良.基于KETTLE的醫院多源異構數據集成研究及分析[J].中國數字醫學,2018,13(3):35-37.
[18]崔友洋,崔有文.基于ETL-Kettle的中藥飲片企業商業智能研究[J].產業與科技論壇,2014,13(22):47-50.
[19]李楊,劉洋,賀瑞心,等.基于Hadoop醫學數據平臺的數據清洗[J].電腦編程技巧與維護,2020(1):121-122.
[20]趙曉婧,黃政.構建醫院數據中臺的應用研究[J].中國醫學工程,2022,30(11):44-47.
收稿日期:2024-01-25;修回日期:2024-02-18
編輯/肖婷婷