摘 要 目的:以兒童過敏性疾病臨床診療數(shù)據(jù)為基礎建立專病數(shù)據(jù)庫,為開展多學科診療提供數(shù)據(jù)支撐,更大程度地發(fā)揮信息技術在推動臨床診療水平提升、醫(yī)學科研進步等方面的作用。方法:基于2013年1月—2018年7月在上海市兒童醫(yī)院就診的過敏性疾病患兒臨床診療數(shù)據(jù),通過提取—轉(zhuǎn)化—加載技術,統(tǒng)一清洗后存儲為臨床業(yè)務數(shù)據(jù)。將原業(yè)務系統(tǒng)中的結(jié)構化指標進行映射和歸一化處理,人工標注非結(jié)構化內(nèi)容,并利用自然語言處理技術進行后續(xù)結(jié)構化數(shù)據(jù)處理,最終建立數(shù)據(jù)模型,構建兒童過敏性疾病專病數(shù)據(jù)庫。結(jié)果與結(jié)論:該專病數(shù)據(jù)庫包含16個條目、60個字段共6個主題數(shù)據(jù)模塊,完成了對333 029例過敏性疾病患兒臨床診療數(shù)據(jù)的采集和標準化,可為后續(xù)以數(shù)據(jù)庫為基礎的專科管理和輔助決策提供支撐,實現(xiàn)海量臨床數(shù)據(jù)的存儲、挖掘和分析。
關鍵詞 兒童 過敏性疾病 專病數(shù)據(jù)庫 大數(shù)據(jù) 信息化
中圖分類號:TP392; R195.4 文獻標志碼:C 文章編號:1006-1533(2024)09-0014-05
引用本文 紀和雨, 于廣軍. 兒童過敏性疾病專病數(shù)據(jù)庫的建設與展望[J]. 上海醫(yī)藥, 2024, 45(9): 14-18.
基金項目:上海市科委“科技創(chuàng)新行動計劃”(22511101600)
Construction and prospects of a special disease database for allergic diseases of children
JI Heyu1, YU Guangjun2,3
(1. Ruijin Hospital, Shanghai Jiao Tong University School of Medicine, Shanghai 200025, China;
2. the Second Affiliated Hospital, The Chinese University of Hong Kong, Shenzhen, Shenzhen 518172, China; 3. Shanghai Children’s Hospital, School of Medicine, Shanghai Jiao Tong University, Shanghai 200062, China)
ABSTRACT Objective: To establish a special disease database based on clinical diagnosis and treatment data of pediatric allergic diseases so as to provide data support for multidisciplinary diagnosis and treatment and maximize the role of information technology in promoting the improvement of clinical diagnosis and treatment level and medical research progress. Methods: Based on the clinical diagnosis and treatment data of children with allergic diseases in Shanghai Children’s Hospital from January 2013 to July 2018, the clinical data was uniformly cleaned and stored using the extract-transform-load technology. The structured indicators in the original business system were mapped and standardized, while the unstructured content was manually labelled. Natural language processing technology was then applied for post-structured governance to create a specialized disease data model, which was used to build a dedicated pediatric allergic disease database. Results Conclusion: The special disease database consists of 6 thematic data modules, including 16 items and 60 fields. We have achieved the collection and standardization of clinical diagnosis and treatment data for 333 029 children with allergic diseases, and further explored the distribution of diseases. The establishment of a special database for pediatric allergic diseases has enabled the storage, mining, and analysis of massive clinical data in the real world, providing support for the subsequent expansion of database based specialized management and decision-making assistance.
KEY WORDS children; allergic diseases; special disease database; big data; informatization
過敏性疾病是由于變應原對機體的刺激作用,進而產(chǎn)生免疫異常反應而引起的。我國的過敏性疾病患病率高達40%左右,且仍呈上升趨勢[1-2]。過敏性疾病可能是終身性的,但其發(fā)生與發(fā)展具有一定規(guī)律,稱為“過敏進程”[3-4]。兒童常見的過敏性疾病有哮喘(幼兒時期稱為喘息)、過敏性鼻炎、過敏性結(jié)膜炎、濕疹、食物過敏等,涉及呼吸科、耳鼻喉頭頸外科、皮膚科、眼科、變態(tài)反應科等多個臨床學科[5]。
1 建設兒童過敏性疾病專病數(shù)據(jù)庫的臨床需求
兒童過敏性疾病往往不是單獨存在,而是多種過敏性疾病同時出現(xiàn)在同一患兒身上,故常導致多臟器和多系統(tǒng)受累[6-7]。多學科診療如何應用于疑難疾病的診斷與治療是近年來醫(yī)學界討論的熱點之一[8-9]。將多學科診療應用于過敏性疾病的診療,對于提升醫(yī)院整體臨床診療水平、改善患兒生活質(zhì)量具有重要意義。因此,在信息化、互聯(lián)網(wǎng)、人工智能等新技術的幫助下,多學科診療這一新型臨床診療模式便成為提升過敏性疾病診療水平的重要突破點之一。
隨著醫(yī)院信息化建設的不斷深入,大量重要的臨床數(shù)據(jù)都積累在醫(yī)院信息化系統(tǒng)中,如何利用這些數(shù)據(jù)服務于循證醫(yī)學和臨床科研是各級醫(yī)療機構面臨的挑戰(zhàn)和重要的研究方向。醫(yī)療信息化的傳統(tǒng)建設模式是以醫(yī)院信息系統(tǒng)(hospital information system, HIS)為核心,以科室為單位構建信息系統(tǒng),其缺乏統(tǒng)一的數(shù)據(jù)采集標準,也沒有相應的數(shù)據(jù)存儲規(guī)范或指南,導致大部分數(shù)據(jù)以非結(jié)構化方式呈現(xiàn),數(shù)據(jù)質(zhì)量低下,臨床資料搜集和整理工作仍主要依靠人工,效率不高,數(shù)據(jù)難以再利用,不能在臨床和科研工作中發(fā)揮應有的作用。上海市兒童醫(yī)院在梳理過敏性疾病業(yè)務流程的基礎上,通過挖掘、分析海量病歷數(shù)據(jù),以信息化手段為依托,構建了過敏性疾病專病數(shù)據(jù)庫[10-11],以期為開展多學科診療提供數(shù)據(jù)支撐,更大程度地發(fā)揮信息技術在促進臨床診療水平提升、醫(yī)療科研進步等方面的作用。
2 兒童過敏性疾病專病數(shù)據(jù)庫的設計與實現(xiàn)
2.1 數(shù)據(jù)處理
篩選上海市兒童醫(yī)院2013年1月—2018年7月的病歷數(shù)據(jù),納入標準為臨床診斷為哮喘(喘息)、過敏性鼻炎、濕疹的門診及住院患兒。數(shù)據(jù)來源包括醫(yī)院的電子病歷(electronic medical record, EMR)、HIS、實驗室信息管理系統(tǒng)(laboratory information management system, LIMS)、影像存檔與通信系統(tǒng)(picture archiving and communication system, PACS)、護理系統(tǒng)等,結(jié)果共納入333 029例患兒的數(shù)據(jù)。通過提取—轉(zhuǎn)化—加載技術對醫(yī)院各子信息管理系統(tǒng)中的異構數(shù)據(jù)進行預處理,完成數(shù)據(jù)匯集。然后再經(jīng)過映射、清洗等過程,對數(shù)據(jù)進行再審核、再校驗,以提高數(shù)據(jù)的準確性和一致性。通過自然語言處理技術,對非結(jié)構化的數(shù)據(jù)進行結(jié)構化處理。最后,對患者相關信息、醫(yī)生相關信息等隱私信息進行脫敏處理,完成專病數(shù)據(jù)庫的數(shù)據(jù)處理。
2.2 數(shù)據(jù)集建立
數(shù)據(jù)集是專病數(shù)據(jù)庫信息模型的頂層設計,代表了數(shù)據(jù)庫中數(shù)據(jù)的精度和廣度,決定了專病數(shù)據(jù)庫建成后的可用性、可擴展性和未來潛在應用價值。本專病數(shù)據(jù)庫經(jīng)對多種來源數(shù)據(jù)進行整合,以患者為中心,建立了人口學信息、就診信息、診療過程信息、實驗室檢查信息、臨床輔助檢查信息、隨訪信息6個主題數(shù)據(jù)模塊,共包括16個條目及各條目記錄的60個字段內(nèi)容(表1)。


2.3 數(shù)據(jù)生產(chǎn)
本專病數(shù)據(jù)庫數(shù)據(jù)來源HIS、EMR、LIMS、PACS等中除結(jié)構化數(shù)據(jù)外,還有大量的文本信息。為此,利用自然語言處理技術,結(jié)合醫(yī)學人工標注、醫(yī)學圖譜等,建立適用于本專病數(shù)據(jù)庫的自然語言處理模型,對檢查檢驗報告和病歷文本進行結(jié)構化數(shù)據(jù)轉(zhuǎn)換。表2列出了部分字段如癥狀及體征、實驗室檢查、用藥情況、其他輔助治療等對應的數(shù)據(jù)項。本專病數(shù)據(jù)庫嚴格按照該數(shù)據(jù)項的內(nèi)容對文本信息進行標注和提取,從而實現(xiàn)數(shù)據(jù)的規(guī)范化、結(jié)構化。
2.4 數(shù)據(jù)庫建立
如上所述,通過利用提取—轉(zhuǎn)化—加載技術對數(shù)據(jù)進行采集、映射、清洗和脫敏處理,并將它們存儲到SQL Server數(shù)據(jù)庫中,然后再利用自然語言處理技術和其他方法實現(xiàn)非結(jié)構化數(shù)據(jù)的結(jié)構化,最終建立了過敏性疾病專病數(shù)據(jù)庫,其整體架構見圖1。
3 專病數(shù)據(jù)庫中患兒分布情況

本專病數(shù)據(jù)庫共納入333 029例患兒數(shù)據(jù),患兒的平均年齡為3.04歲,男性占59.3%。全部患兒中,濕疹196 080例,占58.9%;哮喘/喘息92 937例,占27.9%;過敏性鼻炎21 661例,占6.5%。有22 351例(6.7%)患兒罹患≥2種過敏性疾病,其中1 294例(5.8%)患兒罹患3種過敏性疾病。在罹患多種過敏性疾病患兒中,哮喘/喘息伴濕疹最為常見(13 711例,61.3%),其次是哮喘/喘息伴過敏性鼻炎(3 797例,17.0%)和過敏性鼻炎伴濕疹(3 549例,15.9%)。在0~1歲患兒中,濕疹是最常見的過敏性疾病類型;在2~5歲患兒中,過敏性鼻炎是最常見的過敏性疾病類型(表3)。


4 小結(jié)與展望
隨著健康醫(yī)療大數(shù)據(jù)時代的加速到來,基于大數(shù)據(jù)技術的專病數(shù)據(jù)庫將成為臨床數(shù)據(jù)資源開發(fā)與利用的重要形式,成為醫(yī)務人員開展真實世界研究的有力工具。上海市兒童醫(yī)院以數(shù)據(jù)治理理論為指導,通過數(shù)據(jù)處理、清洗、結(jié)構化處理等技術實踐,建立了兒童過敏性疾病專病數(shù)據(jù)庫,其中包含大量的真實世界數(shù)據(jù),既可為基礎研究和臨床科研提供思路和素材,同時又是數(shù)據(jù)挖掘、人工智能與機器學習的基礎。
未來,對于本兒童過敏性疾病專病數(shù)據(jù)庫,一方面可以根據(jù)臨床需要擴大數(shù)據(jù)項覆蓋范圍,通過在醫(yī)聯(lián)體內(nèi)推廣專病數(shù)據(jù)庫建設,將分散在不同醫(yī)聯(lián)體單位、不同醫(yī)療信息系統(tǒng)中的海量臨床信息規(guī)范集成起來,形成可深度挖掘、綜合利用的兒童過敏性疾病診療大數(shù)據(jù),為開展相關多中心臨床研究提供強大保障;另一方面可以借助人工智能分析方法,如決策樹分類、深度神經(jīng)網(wǎng)絡等,對數(shù)據(jù)庫數(shù)據(jù)進行相關分析,建立起能輔助臨床決策、完善治療方案的智能型疾病管理模型,為患者提供更為優(yōu)質(zhì)、高質(zhì)的診療服務。
參考文獻
[1] 劉書楠, 陳宏翔, 熊鷹, 等. 常見過敏性疾病的健康促進措施[J]. 重慶醫(yī)學, 2024, 53(1): 149-154.
[2] 黎軍, 李芳, 劉書楠, 等. 社區(qū)及區(qū)縣婦幼保健院過敏性疾病防治重慶共識[J]. 重慶醫(yī)學, 2022, 51(24): 4141-4148; 4154.
[3] 姜楠楠, 向莉. 濕疹→食物過敏→哮喘?“過敏進程”面臨挑戰(zhàn)[J]. 中華臨床免疫和變態(tài)反應雜志, 2022, 16(1): 106-107.
[4] 楊雨怡, 曾琳, 周薇, 等. 生命早期影響過敏進程的因素[J]. 中華臨床免疫和變態(tài)反應雜志, 2022, 16(1): 84-89.
[5] 紀和雨, 沈力, 王淼, 等. 基于上海市某兒童醫(yī)院過敏性疾病患兒照顧者對多學科診療的認知和需求的調(diào)查與分析[J]. 中國醫(yī)院, 2020, 24(1): 32-34.
[6] Vassilopoulou E, Skypala I, Feketea G, et al. A multi- disciplinary approach to the diagnosis and management of allergic diseases: an EAACI Task Force [J]. Pediatr Allergy Immunol, 2022, 33(1): e13692.
[7] 李榮, 陳儀婷, 呂佳駿, 等. 上海市學齡兒童過敏性疾病流行現(xiàn)狀及相關因素分析[J]. 中國學校衛(wèi)生, 2021, 42(8): 1251-1256; 1260.
[8] 圣孟飛, 周姜平, 宋寶香, 等. 腫瘤多學科診療工作管理體系構建的實踐與探索[J]. 中國醫(yī)院管理, 2021, 41(11): 48-50.
[9] 姜立, 文政偉, 高國棟, 等. 公立醫(yī)院實施多學科診療模式的SWOT分析[J]. 中國醫(yī)院管理, 2017, 37(8): 30-31.
[10] 崔陶, 陳悅悅, 梅玲, 等. 盆底功能障礙性疾病專病數(shù)據(jù)庫的建設與應用[J]. 中國數(shù)字醫(yī)學, 2022, 17(9): 66-72; 99.
[11] 徐金銘, 陳浩宇, 楊斌, 等. 尿路結(jié)石專病數(shù)據(jù)庫建設及應用[J]. 中國數(shù)字醫(yī)學, 2023, 18(6): 102-106; 113.