□ 吳燕秋 WU Yan-qiu 黃偉 HUANG Wei 劉慧鑫 LIU Hui-xin 馬敏 MA Min 王天兵 WANG Tian-bing④
Objective To elaborate the experience and effect of automatic collection and integration of heterogeneous multisource data, screening of patients with trauma, establishment of a unified standard trauma data model, and data intelligent processing in the development of hospital trauma database. Methods The patients with trauma characteristics were screened from the medical data of the hospital through combining ICD codes and diagnosis names. A unified standard trauma data model was formulate for scientific research and quality control. The data of trauma patients were processed with intelligent method. Results The trauma database in the study included nearly 20,000 cases of trauma inpatients from January, 2012 to November, 2020; and 191 structured data sets were established. The database developed the functions of case retrieval,whole disease course view and data set export. Conclusion The development of the trauma database can help produce standardized, structured and high quality data of trauma inpatients automatically and consecutively, thus improving the efficiency of trauma research and enhancing the medical quality control of trauma in the hospital.
隨著對臨床科研的重視,以臨床研究為目的的專病數據庫與日俱增,國內已有不少醫院建立了自己的專病數據庫。金濤等[1]對國內外疾病數據庫的建設情況進行了歸納總結:早期建立的數據庫大多為單一數據庫,未與醫院信息系統(HIS)連接;之后有基于Web的數據庫系統,但這些數據庫主要是基于現有的HIS或電子病歷系統,數據源單一、維度不夠豐富、數據結構化程度不高,且存在元數據一致性和規范性差等缺陷,導致數據庫整體呈現重復建設、利用率低等弊端[2]。隨著人工智能技術在醫療領域的發展,國內一些醫院基于標準化、結構化的疾病數據模型,建立了智能??萍膊靃3-5]。美國、歐洲、日本等國家在疾病數據庫領域起步較早,已經建立了不同疾病的國家級數據庫,包括美國麻省理工學院與貝斯以色列女執事醫療中心聯合研發的重癥監護醫學信息數據庫(MIMIC)和美國國家創傷數據庫等。MIMIC數據庫是一個多參數、智能化的重癥監護數據庫,它涵蓋了來自不同人群的ICU患者住院全程的臨床數據資料,已運轉10余年,并對全球的醫學研究者免費開放,為全世界急重癥疾病研究提供了海量的數據支持,也為急危重癥的真實世界研究(RWR)提供了數據基礎[6]。早在1982年,美國外科醫師協會(ACS)開始牽頭創傷數據庫的建設研究,至今,美國國家創傷數據庫已成為全美最大的創傷登記數據庫,從全美成百上千家創傷登記中心采集病例數據,為創傷疾病研究與發展奠定基礎。
數據是當今時代智能醫療的核心所在,臨床研究需要大量高質量、結構化、標準化的數據作為基礎。鑒于當前開展創傷疾病臨床研究面臨的數據獲取困難、標準不統一、數據非結構化等問題以及創傷醫療質量控制的實際需求,本文采集并整合了醫院多個信息系統的臨床數據,從中篩選出符合創傷疾病特征的患者數據集,使用人工智能技術進行數據加工與深度處理,建立了結構化、標準化的創傷專病數據庫,為創傷疾病研究和醫療質量控制提供了高質量的數據支撐。
1.自動采集多源異構數據。本文通過開放醫院多個信息系統的數據庫訪問接口,使用人工智能技術,自動、持續性地采集其中的結構化、半結構化、非結構化數據。使用ETL(Extract-Transform-Load)技術將數據從多個不同的數據源經過抽取、轉換、加載至目標數據庫[7]。具體開放的信息系統及采集的數據信息內容見表1。

表1 醫院臨床業務信息系統數據采集內容
2.篩選創傷疾病患者。國際研究通常使用ICD-10-CM編碼來識別研究人群,美國國家創傷數據庫對入庫的創傷特征患者的篩選也是基于ICD-10-CM編碼,其納入了ICD-10-CM 編 碼 范 圍 在 S00-S99,T07,T14,T20-T28,T30-T32,T79。A1-T79.A9中的患者數據集,并排除編碼 為 S00,S10,S20,S30,S40,S50,S60,S70,S80,S90的患者數據集。然而基于前人的研究發現,在中國僅僅使用ICD編碼來識別研究人群并不準確,主要原因包括兩點:(1)我國的ICD編碼有多種版本,并沒有一個統一的標準。僅僅使用某一種ICD編碼標準并不能全面篩選符合創傷特征的目標患者;(2)在醫院的臨床業務信息系統中,很多數據是文本形式(非結構化數據)的形式存儲,部分診斷名稱與ICD編碼對應的診斷名稱并不完全一致。僅僅使用ICD編碼來篩選會遺漏實際符合創傷特征的患者就診數據。
2.1 根據ICD編碼和診斷名稱初步篩選。根據國家衛生健康委員會醫政醫管局醫院質量監測系統研究中心發布的《住院病案首頁數據采集接口標準》中使用的北京版、全國版RC020-ICD-10診斷編碼,初步定義創傷特征診斷的ICD編碼在如下范圍內:S00-S99,T00-T14,T20-T31,T79,T90-T95,V01-V99,W00-W64;并結合常見創傷疾病診斷名稱可能包含的關鍵詞,包括“活動受限”、“多發傷”、“骨折”等創傷疾病相關癥狀和“挫傷”、“扭傷”、“擠壓”等創傷疾病相關病因等,見表2,通過算法層層循環迭代,并結合人工標注判斷,對全院臨床業務信息系統中采集的患者數據集進行了初步篩選。
2.2 精確篩選嚴重創傷疾病患者。根據《國家衛生健康委辦公廳關于印發國家創傷醫學中心及國家創傷區域醫療中心設置標準的通知》(國衛辦醫函[2019]700號)文件的《附表1:嚴重創傷病種》和《附表2:嚴重創傷并發癥》中的疾病名稱和疾病分類代碼,精確篩選符合附件要求的嚴重創傷疾病患者。

表2 用于初步篩選的常見創傷疾病診斷名稱包含的關鍵詞
3.設計并建立創傷住院患者統一標準數據集模型。數據集模型的設計與建立有助于建立數據標準,規范數據內容。早在2006年,美軍就根據數據采集需求和創傷傷員救治流程建立了聯合戰場創傷系統(JTTR)標準化框架結構,使得不同救治機構使用統一的數據記錄流程表[8]。本文參考了美國國家創傷數據庫的數據集模型,依據國內創傷患者實際診療流程,并根據《關于進一步提升創傷救治能力的通知》(國衛辦醫函[2018]477號)文件的《附件3:創傷中心醫療質量控制指標》中的16項指標,制定了創傷住院患者統一標準數據集模型,見表3,包括9個模塊,14個分組,191個字段,且對每個模型定義了數據格式、字段長度、值域、內容約束等,制定了統一的規則處理標準,為創傷住院患者數據的標準化、規范化收集與利用,創傷中心醫療質量控制和未來跨機構數據共享奠定了堅實的基礎。

表3 創傷住院患者數據集模型各模塊及其內容描述、字段數量
4.數據處理與加工。數據深度加工主要是將創傷住院患者的原始數據映射到統一的標準數據模型上,再通過人工智能等技術手段,對數據進行自然語言處理,數據歸一和結構化處理的過程[9]。
4.1 模型映射與重構。根據制定的創傷患者統一標準數據集模型,將入庫的創傷住院患者的原始數據映射到統一標準的數據模型上,并按照制定的標準數據類型和清洗規則等對數據內容進行重構,且對現有數據中存在的不完整、不準確和不標準的“臟”數據進行清洗,見圖1。
4.2數據歸一、標準化處理。由于醫生書寫病例的個人習慣與表達不一,醫院原始信息系統中存在大量文字表達不同,但含義相對一致的信息。文本通過對原始數據進行總結、歸納,按照數據集模型對數據進行了歸一、標準化處理。例如,將“導尿”、“保留導尿”、“留置尿管”、“尿管接無菌袋”、“導尿管留置”等相關文字表達都歸一處理為“護理記錄”模塊中“導尿”字段中的信息。
4.3 數據結構化。為了進一步提高數據的可利用性,形成臨床科研所需的研究變量,本文使用自然語言處理技術對原有的文本病歷數據等大量非結構化數據進行了結構化處理,將這部分數據在一定程度上變成可二維展現的數據。例如,對入院記錄的既往史等文本中的“吸煙”“飲酒”等字樣進行智能識別,將“病史”模塊中“當前吸煙”“當前飲酒”等字段的值域填充為“是”或“否”。
本文建立的創傷專病數據庫共納入了2012年1月至2020年11月近2萬余名創傷住院患者的診療數據,并形成了191個結構化數據集。目前有25名臨床醫生應用本數據庫進行了臨床研究。該數據庫能夠為醫生提供全流程自助式科研工作,功能包括:支持全文查詢、單一條件查詢和多條件組合查詢,能夠方便快捷地篩選出符合研究要求的目標患者及其相關數據;以時間軸形式展示入庫創傷患者的歷次住院記錄,當醫生制定檢索條件定位到目標研究人群時,可以點擊查看患者的全病程診療數據;此外,還可以excel格式導出醫生感興趣的目標患者的結構化數據集。
本文將分散在醫院各個信息系統中的創傷住院患者的多源頭治療方案、用藥情況、治療效果等診療數據全面整合起來,構建疾病和診斷、癥狀、用藥、手術等關鍵要素的關聯關系,建立了創傷專病數據庫。醫院創傷專病數據庫的建立能夠自動、持續性地生成標準化、結構化的創傷住院患者診療數據,促進開展高質量、高效率的創傷疾病研究[10],助力創傷醫療質量控制。下一步,可望在全國范圍內推廣創傷專病數據庫的標準化建設,從而建立國家級創傷數據庫,為開展基于大數據的多中心創傷疾病臨床研究以及建立基于數據導向的創傷救治質量控制體系提供強大的數據支持。