999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MIMICⅢ數據庫特征分析及對構建共享中醫數據集的啟示

2019-12-11 06:43:56周蜜果張平竇丹波馮佳劉寧遠成福春朱亮
中國中醫藥圖書情報雜志 2019年6期
關鍵詞:數據庫信息研究

周蜜果,張平,竇丹波*,馮佳,劉寧遠,成福春,朱亮

·專題論壇·

MIMICⅢ數據庫特征分析及對構建共享中醫數據集的啟示

周蜜果1,張平2,竇丹波2*,馮佳1,劉寧遠1,成福春1,朱亮1

1.上海中醫藥大學附屬岳陽中西醫結合醫院,上海 200437;2.上海中醫藥大學附屬曙光醫院,上海 201203

本文對重癥監護醫學信息集市Ⅲ(MIMICⅢ數據庫)的數據構成和特征內容進行分析,梳理了研究者基于該數據庫的研究主題分布、代碼知識庫的共享模式及腳本內容、隱私數據的處理和多層保護機制,認為MIMICⅢ數據庫的技術和管理模式適用于類似醫療信息的處理,如注重隱私的處理、對于主索引的確立及各類代碼的統一、促進源代碼的共享等,對構建共享中醫數據集具有參考意義。

MIMICⅢ數據庫;代碼共享;中醫數據集

隨著醫院信息系統的不斷完善,醫療數據的獲取和再利用的效率成為醫療健康大數據的焦點,醫生和科研人員通過對這些信息的檢索整合,可以獲得科研成果或者用于臨床決策支持。中醫科室基于實際業務建立了大量的??茢祿瑪祿馁|量直接影響到數據的使用效果。本文旨在通過對國際通用度較高的醫學信息數據庫的數據特征及運行模式進行研究,為構建中醫數據集提供參考,使其能更好地、有針對性地支持臨床數據挖掘及臨床決策。

1 MIMICⅢ數據庫概況

2003年,美國貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center,以下簡稱“醫療中心”)、麻省理工(MIT)、麻省總醫院(MGH)和英國牛津大學的急診科醫生、重癥科醫生、計算機科學專家等共同建立了一個數據庫,該數據庫在建立之初的名字為Multiparameter Intelligent Monitoring in Intensive Care Ⅱ,簡寫為MIMICⅡ。2016年9月,MIMICⅡ數據庫升級為MIMICⅢ數據庫,并改名為Medical Information Mart for Intensive Care,直譯為重癥監護醫學信息集市,簡寫仍然是MIMIC。

目前MIMICⅢ數據庫最新的版本是1.4(V1.4),包含了2001年6月-2012年10月在醫療中心住院的38 645名成年個體(非新生兒)和 7 875名新生兒(出生至28天)的58 000余次住院臨床診療信息。這些資料被整理成了26張CSV格式(以純文本的形式存儲表格數據,包括數字和文本)的表格供研究者查詢[1],為流行病學的分析性研究、臨床決策的發展及醫學電子設備的研發提供了更多樣的方法和思路[2]。

2 MIMICⅢ數據庫內容

2.1 MIMICⅢ數據庫的表結構

MIMICⅢ數據庫有26張表格,其中5張為輔助字典表(包括醫療項目、診斷、手術操作、指標項目、實驗室項目對應代碼),余下21張都是患者住院期間的各項臨床數據,其中檢驗記錄表(Chartevents)是內存最大的一張表格,達到30多個G,由于數據量過大,這一張表在導入數據庫時被拆分為18張。在研究中,較為常用的MIMICⅢ數據庫的信息主要有以下幾類。

2.1.1 基本信息 患者的人口統計學資料(如性別、種族、婚姻狀況等),以及出入院、病區轉換等基本信息。年齡沒有直接記載,但可以通過出生日期和入院日期之差計算得出。這些基本信息可用于研究初期,在樣本中篩選出類似性質的患者供下一步分析。

2.1.2 診斷及手術信息 使用國際疾病分類(International Classification of Diseases, ICD)中ICD_9標準編碼,記錄患者診斷、診斷分組、手術操作記錄信息。表1是根據信息中的第一診斷配合患者年齡分組得出的一個簡單示例。

表1 不同年齡段患者第一診斷為肺炎或吸入性肺炎的人數(人)

2.1.3 實時記錄的生理指標 例如,信息數據結構化存儲可以實時記錄心率、動脈血壓、肺動脈壓及體液出入量平衡等情況(見圖1)。

圖1 MIMICⅢ數據庫中測量記錄的血壓等信息數據結構化存儲

2.1.4 影像學檢查結果、醫囑、全面的實驗室檢驗結果 例如,血生化、血常規、動脈血氣、尿常規、微生物檢查等。除了影像學檢查結果是以文本描述的形式存儲,其他實驗室檢驗結果均是結構化的數據。

2.1.5 患者用藥記錄信息 每位患者用藥的開始及結束時間、藥品名稱、規格單位、藥品類型(主、輔)、用藥劑量、用藥強度及給藥途徑。

2.1.6 護理病程記錄信息 以文本形式詳細記錄患者病情病史、入院后的治療診斷過程、在院出院用藥情況、檢查結果描述、患者狀態描述及出院指導等內容。

在實際研究中,為了減少臨床記錄中錄入錯誤、采樣率變化、數據丟失等情況的發生,根據需求會對數據進行預處理,例如,在膿毒血癥患者心率、血壓晝夜生理節律性研究中,剔除了在重癥加強護理病房(Intensive Care Unit, ICU)住院時間不足2 d或有效數據長度不夠48 h的患者記錄、使用心臟起搏器的患者以及在整個ICU數據記錄中丟失長度超過4 h的患者記錄、不同時具有心率和血壓測量數據的患者記錄[3]。

2.2 研究主題分布

MIMIC數據庫自建立以來,受到各國研究人員關注,圍繞其發表的論文逐年增長,研究主題主要分布在以下幾個方面:⑴ICU患者預后、死亡率預測及其相關影響因素分析。⑵ICU患者基本生命體征信息的研究,如王劍等[3]通過對膿毒血癥患者心率和血壓晝夜變化幅度差異進行研究分析,發現死亡組和存活組之間的心率和血壓晝夜變化幅度存在顯著性差異,可進一步研究晝夜節律性與臨床干預措施的關聯性,為患者治療提供決策支持。⑶探究某些因素是否是某些疾病的影響因子。⑷關于MIMIC數據庫介紹或數據處理方法的研究,包括數據集的獲取、使用方法、結構特征的描述、研究方法的介紹等,幫助廣大科研工作者快速高效地了解數據庫。⑸預測某種疾病的發病率或死亡率。Dunitz M等[4]利用該數據庫研發了一種實時算法,通過將感染性疾病患者進行危險分層,在患者發展為膿毒性休克前進行危險歸類,可有效預測高乳酸血癥和循環衰竭的發生,提高分診的效率和準確度。⑹范圍較廣的其他類研究,包括探究不同測量方法的效果及差異,以及用于多參數數據D/A回放的系統開發,可對多參數數據進行波形回放等。

通過研究主題的分布統計可以看出,數據庫中的大部分數據已在相關研究中被使用,但仍有很多信息有待各領域結合各自的專業進行深度挖掘,開拓更多研究選題,例如,對其中的文本數據(影像報告、護理病程記錄)進行分析,構建可利用的知識庫,也可以有效輔助臨床決策[5]。

2.3 MIMIC代碼知識庫

MIMICⅢ數據庫的默認數據軟件支持系統為PostgreSQL,也支持其他主流的數據庫系統,如MySQL,Oracle,SQL Server等。PostgreSQL作為一款功能強大的數據庫系統,可以運行在所有主流操作系統上,不僅擁有強大的可靠穩定性,支持大多數的數據類型,可存儲二進制大對像(包括圖片、聲音和視頻),多平臺語言的兼容能力和可擴性,最關鍵的是它完全開源,可以自由獲取,并免費授權允許用戶在各種開源或是閉源項目中使用,因此非常適合作為自由研究的數據庫開發平臺。

在GitHub平臺(https://github.com/MIT-LCP/mimic-code)MIMIC版塊下,有供全球研究者免費下載的代碼包,其中有各種腳本內容,包括索引的速度測試、數據庫的建立、數據特征(人口統計數據,器官衰竭評分、疾病嚴重程度評分、治療持續時間)、可執行文檔提取分析數據的實例等。研究者可以通過這些代碼看到其他人的研究方法和結果,也可以上傳自己的腳本,或者對已有腳本進行改進,在平臺的管理下向全世界分享自己修改后的代碼包[6]。如圖2所示。

圖2 GitHub平臺——MIMIC代碼分享模塊

例如,膿毒癥是ICU中常見的、且治療費用高昂的疾病,以前被定義為全身性炎癥和感染同時存在,但最近被重新定義為由宿主對感染的反應失調引起的危及生命的器官功能障礙。Seymour CW等[6]通過交叉參考抗生素使用和微生物學評估請求,確定疑似感染的患者。新的研究者采用類似的方法,將入ICU不久有過申請微生物培養的情況定義為疑似感染,在膿毒癥3.0標準下將膿毒癥定義為與器官衰竭相關的感染懷疑,在缺乏更精確的標志物的情況下,這個定義即是膿毒癥實際發作的代表,它作為起始時間的近似值,可用于開發決策支持工具[7]。

Angus DC等[8]提供膿毒癥標準的腳本是通過診斷代碼和操作代碼,確定相關患者的感染、顯性膿毒癥、器官衰竭、機械通氣情況的有無,除了顯性膿毒癥之外,感染如果與器官衰竭或機械通氣同時存在,則判斷為膿毒癥(見圖3~圖5)。相比于已發表的論文,這些腳本可以更直觀地看到研究者利用數據的方法和結果,為想要進行類似科研數據分析的人提供了方向,能以更有意義的方式管理、分析、解釋和呈現這些數據。

圖3 GitHub平臺——膿毒癥研究腳本及對應文獻

圖4 GitHub平臺——膿毒癥標準部分腳本內容1

圖5 GitHub平臺——膿毒癥標準部分腳本內容2

3 對于構建中醫共享數據集的啟示

MIMICⅢ數據庫在臨床數據庫建設和基于數據庫開展臨床研究方面都走在了前沿,相比較而言,我國在這方面的工作尚處于起步階段[7],特別是中醫藥行業,缺乏權威的、對公眾開放及共享交流的高質量數據集。MIMICⅢ數據庫的運行機制,對于構建共享中醫數據集具有重要的借鑒及啟示作用。

3.1 注重隱私的處理

數據的分享增加了醫療隱私泄露的風險,而數據的挖掘會進一步形成對醫療隱私保護更大的威脅[9]。MIMICⅢ數據庫包含ICU患者的真實醫療數據,面對全球研究者,為了給予患者應有的保護和尊重,必須在隱私保護方面慎之又慎。

首先,要獲取MIMICⅢ數據庫的使用權限,必須要通過必要的培訓課程學習(針對數據研究人員的課程),通過相應的倫理學考試。其次,申請者要在生物醫學研究資源網站PhysioNet(網址:http://www.physionet.org/)上進行信息注冊后正式提交申請,同時提供之前完成課程培訓的報告,申請獲得批準后,將收到從PhysioNetWorks下載數據庫說明的電子郵件。由于是人工審核,可能需要1周左右的時間;若申請中有任何不完整、不正確或無意義的信息,都可能會造成延遲批準或者不批準。如此繁雜的獲取過程就是數據的第一重保護。

獲得訪問權限后,約40 G流量的數據庫下載也是一個頗具挑戰的過程,下載完成后,在搭建好的數據庫管理平臺上使用SQL腳本建立起一個完整的MIMIC數據庫表結構,并導入相關數據,大約占用100 G的空間。

最終,數據庫本身對患者數據隱私保護完全符合健康保險可移植性和責任法案(HIPAA, Health Insurance Portability and Accountability Act。該法案對醫療信息的電子交換進行了詳細規范。網址:https://www.hippa.com/)的要求,采用算法對患者數據進行預處理,包括利用模式識別算法去標識化、日期移位及格式轉換等,識別并移除患者的受保護健康信息。例如,圖6中,2196、2153就是將日期的年份在一定偏移量規則下,經過平移后得到的結果,即日期移位。這些日期仍然可用于年齡或住院天數等計算分析,同時也保護了患者的隱私。這些技術本質上適用于任何醫療文本及患者相關敏感信息的處理,值得在構建中醫共享數據集的過程中加以學習借鑒[10]。

圖6 MIMICⅢ數據庫中的日期移位記錄示例

3.2 對于主索引的確立及各類代碼的統一

MIMICⅢ數據庫用于區別患者個體的字段共有3個:subjects_id,hadm_id和icustay_id。其中,subjects_id是患者身份的唯一標識,即1個subject_id對應1名患者。hadm_id是患者每次住院的身份識別號,1名患者可能多次住院,因此1個subjects_id會對應多個hadm_id,但1個hadm_id只能對應1個subject_id。icustay_id與hadm_id類似,表示患者進入ICU的編號,1個hadm_id可以對應多個icustay_id。在利用MIMICⅢ數據庫進行研究時,需要運用SQL語言對多個數據庫進行連接,連接的基礎一般就是上述3個字段[1]。

診斷、手術操作、藥品、檢查項目、指標等各項信息在外界都有不同的體系標準,各自代碼都不同,MIMICⅢ數據庫以字典表的形式,給這些代碼提供了內部的統一管理,在數據分析挖掘過程中按照這些字典表的指引,能夠更高效地鎖定指標的具體內容。

3.3 促進源代碼的共享

MIMICⅢ數據庫不僅提供數據本身,更重要的是提供基于該數據庫的相關研究數據腳本的共享。通過該數據腳本,可以重現該研究使用的實際數據,供后來研究者評估。而且,可以對該腳本不斷地深化改進并發布,從而使面向主題的研究更加深入與準確。

當然,若要構建實際的中醫共享數據集,除了以上幾點可以參考以外,我們也可以圍繞專病??频慕ㄔO,構建主題更加鮮明的數據集,如針灸療法評價數據集、推拿療法評價數據集、皮膚病數據集、婦科病數據集等。在各類數據集的構建過程中,核心應圍繞著中醫的理、法、方、藥以及臨床療效,對數據進行標準化與結構化處理,以提高數據檢索的效率與準確性。

[1] 胡志德.如何利用重癥醫學數據庫MIMIC開展研究[EB/OL]. (2018-06-25)[2019-04-26].http://www.sohu.com/a/237697470_373785.

[2] 李開源,馮聰,賈立靜,等.MIMIC數據庫在急診醫學臨床研究過程中運用的思考[J].中華危重病急救醫學,2018,30(5):494-496.

[3] 王劍,張政波,王衛東,等.基于重癥監護數據庫MIMIC-Ⅱ的臨床數據挖掘研究[J].中國醫療器械雜志,2014,38(6):402-406.

[4] DUNITZ M, VERGHESE G, HELDT T. Predicting hyperlactatemia in the MIMIC Ⅱ database[J]. Conf Proc IEEE Eng Med Biol Soc, 2015:985-988.

[5] 陳靜,李保萍.MIMIC-Ⅲ電子病歷數據集及其挖掘研究[J].信息資源管理學報,2017(4):29-37.

[6]SEYMOUR CW, LIU VX, IWASHYNA TJ, et al. Assessment of clinical criteria for sepsis: for the third international consensus definitions for sepsis and septic shock (sepsis-3)[J]. Journal of the American Medical Association, 2016, 315(8):762-774.

[7] JOHNSON A E W, STONE D J, CELI L A, et.al. The MIMIC Code Repository: enabling reproducibility in critical care research[J]. Journal of the American Medical Informatics Association, 2018,25(1):32-39.

[8] ANGUS DC, LINDE-ZWIRBLE WT, LIDICKER J, et.al. Epidemiology of severe sepsis in the United States: analysis of incidence, outcome, and associated costs of care[J]. Critical Care Medicine, 2001,29(7):1303-1310.

[9] 王強芬.大數據時代醫療隱私層次化控制的理性思考[J].醫學與哲學(A),2016,37(5):5-8.

[10] 鄭西川.臨床科研大數據應用系列3:基于MIMIC-Ⅲ數據集的 患者數據隱私保護技術及啟示HIT專家網[EB/OL].(2018-09-12) [2019-04-26].https://www.hit180.com/33205.html.

Characteristic Analysis on MIMICⅢ Database and Its Enlightenment to the Construction of Shared TCM Data Set

ZHOU Mi-guo1,ZHANG Ping2, DOU Dan-bo2*, FENG Jia1, LIU Ning-yuan1, CHENG Fu-chun1, ZHU Liang1

(1. Yueyang Hospital of Integrated Traditional Chinese and Western Medicine, Shanghai University of Traditional Chinese Medicine, Shanghai 200437, China; 2. Shuguang Hospital, Shanghai University of Traditional Chinese Medicine, Shanghai 201203, China)

This article analyzed the data composition and characteristic content of Medical Information Mart for Intensive Care Ⅲ (MIMICⅢDatabase), and combed the research topic distribution of researchers based on the database, sharing model of code knowledge base, content of the script, processing of private data, and layer protection mechanism, and believed that the technology and management mode of MIMICIII Database was suitable for the processing of similar medical information, such as privacy-oriented processing, the establishment of main indexes and unification of various codes, and the promotion of source code sharing, which showed reference significance for building a shared TCM data set.

MIMICⅢDatabase; code sharing; TCM data set

10.3969/j.issn.2095-5707.2019.06.001

R197.324;G353.1

A

2095-5707(2019)06-0001-05

(2019-07-19)

(2019-09-09;編輯:魏民)

周蜜果,張平,竇丹波,等.MIMICⅢ數據庫特征分析及對構建共享中醫數據集的啟示[J].中國中醫藥圖書情報雜志, 2019,43(6):1-5.

上海市高水平大學建設《中醫藥標準化引領戰略》(A1-U18205010501)

周蜜果,E-mail: 175427833@qq.com

竇丹波,E-mail: doudanbo@126.com

猜你喜歡
數據庫信息研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 超清人妻系列无码专区| 毛片视频网址| 成人噜噜噜视频在线观看| 亚洲精品制服丝袜二区| 国产第八页| 免费黄色国产视频| 国产美女91呻吟求| 免费在线不卡视频| 亚洲妓女综合网995久久| 日韩AV无码一区| 全裸无码专区| 亚洲国产清纯| 久久人搡人人玩人妻精品| 国产乱子伦手机在线| 综合网天天| 久久a毛片| 伊人激情久久综合中文字幕| 扒开粉嫩的小缝隙喷白浆视频| 美女被操91视频| 又粗又大又爽又紧免费视频| 欧美精品v日韩精品v国产精品| 五月婷婷导航| 白丝美女办公室高潮喷水视频 | 亚洲第一视频网站| 91九色最新地址| 99久久无色码中文字幕| 91福利免费视频| 国产精品亚洲欧美日韩久久| 欧美在线视频a| 欧美在线精品一区二区三区| 97在线视频免费观看| 亚洲爱婷婷色69堂| 国产91小视频| 狠狠干欧美| 亚洲中文字幕av无码区| 国产国语一级毛片在线视频| 麻豆精品在线播放| 日韩大片免费观看视频播放| 精品一区二区无码av| 亚洲区第一页| 深夜福利视频一区二区| 亚洲三级a| a毛片在线| 亚洲综合色区在线播放2019| 在线高清亚洲精品二区| 欧美日韩国产成人高清视频| 日本91在线| 男女男精品视频| 亚洲国产天堂久久九九九| 一级毛片免费观看不卡视频| 国内精品一区二区在线观看| 青青久久91| 亚洲中文精品人人永久免费| 无码av免费不卡在线观看| 久久亚洲日本不卡一区二区| 日韩精品一区二区深田咏美| 亚洲欧美自拍中文| 精品无码视频在线观看| 国产精品午夜福利麻豆| 久久综合干| 国产亚洲精品无码专| 麻豆精品久久久久久久99蜜桃| 色吊丝av中文字幕| 国产精品免费久久久久影院无码| 国产成人一区| 在线视频亚洲欧美| 夜夜爽免费视频| 毛片免费观看视频| 亚洲精品午夜无码电影网| 国产91九色在线播放| 亚洲毛片一级带毛片基地| 亚洲Va中文字幕久久一区 | 91成人精品视频| 亚洲三级电影在线播放| 色综合a怡红院怡红院首页| 日本日韩欧美| 国产精品无码AV中文| 中文字幕人妻av一区二区| 99re精彩视频| 久久五月视频| 精品综合久久久久久97| 亚洲一区二区约美女探花|