999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MIMIC數據庫智能挖掘研究概述

2020-01-10 06:49:58張家艷鄭建立鄭西川
計算機技術與發展 2020年1期
關鍵詞:深度數據庫方法

張家艷,鄭建立,鄭西川,夏 濤

(1.上海理工大學,上海 200093;2.上海交通大學,上海 200233)

0 引 言

數據挖掘也稱作數據庫的知識發現(knowledge discovery in databases,KDD)[1],目的是從大量的數據中抽取出有價值的知識。醫院數字系統普及產生大量醫療數據,挖掘分析這些醫療數據能夠發現相關規律。Ghassemi[2]等使用數據挖掘發現在入院前服用血清素攝取抑制劑或血清去甲狀腺素攝取抑制劑的ICU住院病人比一般病人有更高的住院死亡率。

近年來,隨著機器學習、深度學習的興起,將這些算法用到醫學領域,能改善挖掘結果。Wu C運用決策樹可視化方法發現了老年焦慮病人的影響因素[3]。但數據集過少時,用人工智能技術挖掘結果有時并不理想。深度學習適合數據量和數據維度比較大的情況[4],以至于業界流傳一句話為得數據者得天下。而醫療領域,由于醫學數據的私密性,研究人員更難獲取大量的醫學數據。為解決數據量少的問題,文中研究的數據集為由貝斯以色列女執事醫療中心和麻省理工大學計算生理實驗室和飛利浦共同支持的重癥監護醫學信息集(MIMIC-III)。MIMIC包含了在2001年到2012年間53 423個進入重癥監護病房的成年病人(年齡在16歲以上),以及在2001年到2008年間的7 870名新生兒的數據[5]。

對擁有龐大數據集的MIMIC數據庫進行挖掘,人工智能技術便能發揮巨大的優勢。文中旨在介紹圍繞MIMIC數據庫的內容和研究、深度學習及機器學習在MIMIC數據庫挖掘研究的應用領域和不足。

1 MIMIC數據庫簡介

最近發布的MIMIC版本是MIMIC-III(medical information mart for intensive care),version1.4,它是在MIMIC-II基礎上的擴展。MIMIC-II包括在2001到2008年之前幾乎所有進入貝斯以色列女執事醫療中心重癥監護病房的成年患者[6]。在數據庫數據整合進MIMIC數據庫之前,需依據美國的HIPAA標準進行去身份化處理[7],進行結構化數據清洗和數據轉換。每個病人的住院日期隨機轉換成了2100年到2200年期間。在HIPAA規則下,這些病人出現在數據庫中的年齡都超過了300年。

MIMIC-III是一個由26張表組成的關系數據庫。表通過標識符連接,通常會有ID后綴。例如:SUBJECT_ID是指一個單獨的病人。像備注、實驗室測試和液平衡等事件信息都存儲在事件表中,例如OUTPUTEVENTS表包含了與患者輸出相關的所有測量值,而LABEVENTS表中包含了一個患者實驗室測量結果。前綴有‘D_’的表是字典表,包含標識符的定義。具體可查看http://mimic.physionet.org/mimictables。

MIMIC數據庫免費開放給大眾,但在獲取數據庫之前需簽署數據使用協議,完成相應題目。在2012年末,已經超過500個用戶得到批準使用。獲取MIMIC關系數據庫的兩個工具為:基于網上的QueryBuilder和可下載的虛擬機(VM)鏡像[8]。QueryBuilder可以讓使用者使用結構化查詢語句(sql)在電腦或者移動端的web瀏覽器查詢自己想要的數據,查詢后的結果數據集以CSV的形式輸出。但為了防止用戶過度消耗QueryBuilder上的共享資源,MIMIC-III,v1.4數據庫系統設置每次查詢僅返回前5 000行數據,查詢中運行時間不得超過15分鐘,超過了將顯示超時,且不返回結果。具體可查看官方文檔[9]。由于MIMIC數據庫使用者的增多和QueryBuilder的一些限制,官網提供了可供下載的虛擬機(VM),讓用戶在自己的計算機上運行關系數據庫副本。

2 圍繞MIMIC數據庫的數據挖掘

自MIMIC開始發布至今,人們圍繞數據庫做了不同主題的挖掘研究,也采用了各種挖掘方法對MIMIC數據庫進行研究,下面分別對這些方法進行介紹。

2.1 傳統的數據庫挖掘研究方法

開始人們采用統計分析的方法對MIMIC數據庫的數據進行挖掘研究。采用像Simplified Acute Physiology Score (SAPS)[10]、Acute Physiology and Chronic Health Evaluation (APACHE)[11]、Sequential Organ Failure Assessment (SOFA)[12]等重大疾病計分系統和它們的改進版本來預測結果。SAPS和SOFA的AUROCs能達到0.658(±0.1)和0.633(±0.09)[13]。相對于未加處理的ICU數據,SAPS和SOFA達到的效果還是比較可取的。

2.2 采用機器學習方法對MIMIC數據庫挖掘的研究

隨著機器學習的出現,機器學習被用于挖掘研究。機器學習是計算機科學的人工智能領域,該方法能夠讓計算機自己學習相關特征[14]。在機器學習模型中,每個模型都有其適合的場合。支持向量機最原始的目的就是用于二分類,在二分類問題中,K. M. D. M. Karunarathna[15]比較了幾種機器學習模型的優劣,結果支持向量機比其他模型有更高的精度。G. Khalili-Zadeh-Mahani等[16]對五種分類技術進行比較,發現在下消化道出血患者中,支持向量機方法有較好的靈敏度和類別加權精確度。Aya Awad等[17]引入集成學習方法,使用了集成學習隨機森林、預測決策樹、概率貝葉斯和基于規則的射影自適應共振理論模型,發現隨機森林具有更高的精確率。這些機器學習模型的表現都要優于傳統方法。Joshua Parreco等[18]將梯度提升決策樹與傳統方法進行比較,發現機器學習方法的AUCs最大。Aya Awad等[17]提出方法的結果優于如SOFA等標準計分系統。表1對上述研究人員所推崇的模型的挖掘結果進行了詳細的展示。

2.3 采用深度學習方法對MIMIC數據庫挖掘的研究

隨著信息時代來臨,數據量變得越來越大,傳統的淺層機器學習方法已無法更好地處理大數據,深度學習就此產生。深度學習模仿了生物神經系統間的信息交流,利用人工神經網絡來抽取簡單的特征。

與現有的機器學習模型相比,大多數深度學習得到的結果都比較好。文獻[4]將自歸一化神經網絡(SNN)、SAPS、SOFA、LR計分、隨機森林、廣義加性模型、貝葉斯自適應回歸樹、超學習方法的預測結果進行比較,最后發現SNN的AUROC是所有模型中最高的。文獻[19]引進一個新的深度學習模型叫做GRU-D,最后得到的AUC分數是所有模型中最高的。Gehrmann等[20]研究人員比較了卷積神經網絡(CNNs)和其他常用模型的概念抽取方法。在大多數任務中,CNN表現都優于概念抽取方法,在F1-score中上升了26,在ROC曲線中上升了7%。S. Nemati等[21]采用了深度強化學習的方法,從回顧性數據學習到的序列模型算法的結果比臨床指南期望的結果更好。表2對每個模型的預測任務和結果進行了展示。

表1 機器學習模型應用評估

表2 深度學習模型評估

2.4 采用結合模型的方法對MIMIC數據庫挖掘的研究

單個模型都有各自的缺點,結合模型綜合了這些模型的優點來避免模型的缺點。Sanjay Purushotham等[22]將multilayer feedforward network (FNN)和recurrent neural networks (RNN)兩種深度模型相結合,該方法比其他方法的預測結果要好。J.Venugopalan等[23]結合了邏輯回歸和前饋神經網絡模型的靜態模型和條件隨機域的暫態模型,組合模型的結果比單個模型的表現要好。表3展示了這些組合模型的評估結果和任務。

表3 組合模型應用評估

2.5 其 他

目前,除了采用上述方法對數據庫數據進行挖掘分析之外,還有一些其他的方法。Alharbi等[24]通過過程挖掘模型得到比較好的結果。文獻[25]引進存活主題模型更好地顯示了病人狀況。文獻[26]提出了一種暫態數據挖掘方法,運用SW-MATFD挖掘者挖掘重癥監護領域的臨床數據。Z. He等[27]采用ICD-9-CM編碼算法,對老年人口進行分類。關聯規則能夠在大量的數據中發現有趣的關聯關系,轉化成供人決策的知識。C. Cheng等[28]首次在ICU中將關聯規則運用到CDSS(clinical decision support system)中。

3 圍繞MIMIC數據庫的挖掘應用

3.1 死亡率預測

現存文獻中,對MIMIC進行數據挖掘的一個常見應用領域就是預測死亡率,包括住院死亡率、入院初期死亡率等。

預測ICU病人死亡率能夠改善醫生治療效果。文獻[15]中通過識別病人死亡的獨立因子來預測ICU病人的死亡率。文獻[17]預測了入院初期的24小時內的死亡率。J. Venugopalan[23]也通過處理混合的暫態數據和靜態數據來預測ICU病人死亡率。

3.2 優化藥物用量

在臨床中,有些藥物的用量有著嚴格的要求,一旦取量不精確,將會導致無法預計的后果。一些研究人員挖掘研究MIMIC數據庫數據得到優化的推薦用量。S. Nemati等[21]通過對大量電子病歷數據中樣品劑量試驗和相關結果進行學習,得到一個優化的肝素劑量策略。該推薦肝素用量的結果比臨床指南期望的結果更好。

3.3 電子病歷提取語義分析

將MIMIC出院小結里的語義信息提取出來,有利于下一步的臨床決策。Gehrmann等[20]對和醫療狀況相關的各種短語進行識別和突出。Sanjay Purushotham[22]也采用了其他方法進行ICD-9code分類預測。文獻[29]對病例信息進行分析,發現病人積極情感,從而監控病人心理健康狀況。Alharbi等[24]對病例信息進行處理,發現一些不易發現的隱藏過程。

3.4 其 他

除了上述應用方面,還有一些方面會圍繞MIMIC挖掘研究。文獻[23]對ICU病人進行了再入院預測。文獻[19]引入了一個新的學習模型來處理多元時間序列缺失值的問題。醫生關注的不只是患者的死亡率,還有出院率,文獻[25]采用了一種模型來預測病人的出院率。M. Dunitz等[30]開發一種實時的算法將感染性病人分成不同的風險類別來進行感染性休克研究。Z. He[27]研究發現老年人口患的并發癥和現在臨床研究相對較少的矛盾,從而指導人們花更多的精力開展這方面的研究。

4 工作進展

由于對MIMIC數據庫的挖掘研究改善了醫療服務,但這些數據畢竟是國外的,有些并不一定適合國內人群體質,在對MIMIC數據庫進行充分的學習研究及參考相關論文之后,采用某三甲醫院數據中心的數據參考MIMIC數據庫建庫的技術手段建立數據倉庫。

在建立數據倉庫之前,首先需要分析數據倉庫的主要用途,確定相應的表結構。目前已經確定了大致的表結構。具體會進行進一步的分析完全確定。確定結構之后,就會對醫院的數據進行抽取、清洗、轉換,進入數據倉庫。

數據抽取的工作難點主要在于醫院數據中心數據庫比較多,數據庫下面的表也比較多,而且有些數據庫沒有相應的數據字典,對于有些字段的含義就只能靠猜測加驗證,從如此龐雜的表中找到所需要的數據是一個費時的過程,還需要將得到的數據抽取轉換出來。目前確定的數據抽取工具是kettle,該工具是一款國外開源的etl工具,使用比較方便。

在建好數據倉庫之后,會對數據庫進行相應的挖掘研究,以期發現一些隱藏的醫學信息。

5 結束語

MIMIC數據庫包含著豐富的臨床信息,對其進行挖掘研究,發現其中隱含的疾病關系,能夠改善醫療質量。文中簡要介紹了MIMIC數據庫,描述了現今對MIMIC數據庫進行挖掘研究的方法以及在醫學各個領域的應用,其中著重描述了基于人工智能技術機器學習及深度學習對MIMIC數據庫進行挖掘研究。

目前機器學習、深度學習對MIMIC數據庫信息的挖掘分析研究的領域比較廣泛,比如各種疾病的預測、對缺失數據的處理、提取電子病歷的語義信息等等。尤其是近年來的論文中,已經很少有研究人員采用傳統的計分系統去發現數據庫中的醫學數據規律。一大批的研究人員都采用人工智能的方法進行挖掘研究,也取得了相對可觀的結果,技術手段也相對越來越成熟。

雖然將人工智能技術(機器學習、深度學習等)用于MIMIC數據庫挖掘分析已經碩果累累,但是從技術上看,也都存在各自的缺陷。首先機器學習對于小數據集會比較好,對于大規模的數據集,最好使用深度學習。其次由于深度學習對于深層網絡的不可解釋性,很難調整深層網絡來得到一個較好的結果。在文獻[26]中,在一些測試數據集中得到的結果反而不如統計機器學習得到的結果好。而且從應用上看,挖掘分析主要集中于死亡率預測和電子病歷提取語義分析相關的方面,集中領域比較單一,挖掘應用的廣度和深度不夠,沒有充分應用MIMIC數據庫的豐富資源。

然而機器學習和深度學習方法的結合模型能夠結合各個模型的優點,得到更好的結果,具有較大的發展潛力。但是現今結合模型在MIMIC數據庫挖掘研究應用還較少,研究的領域還比較窄。在將來的工作中,首先可以在MIMIC挖掘研究中更多地使用結合模型。其次應該擴大應用領域,而不僅僅關注死亡率預測那幾個方向,大膽應用到醫療的其他領域。最后,應該注重挖掘研究的深度,發現更多的隱含信息。

猜你喜歡
深度數據庫方法
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产欧美性爱网| 精品伊人久久久香线蕉| 欧美一区福利| 亚洲国产中文精品va在线播放 | 欧美成人综合视频| 欧美三級片黃色三級片黃色1| 在线观看免费国产| 免费又黄又爽又猛大片午夜| 91在线中文| 亚洲大尺度在线| 亚洲国产AV无码综合原创| 在线国产资源| 国产亚洲高清视频| 亚洲精品第五页| 乱人伦视频中文字幕在线| 亚洲综合九九| 国产黑丝一区| 2022国产91精品久久久久久| 看av免费毛片手机播放| 中文字幕首页系列人妻| 国产欧美一区二区三区视频在线观看| 91久久精品国产| 日韩在线永久免费播放| 久久精品国产电影| 成人免费黄色小视频| 亚洲第一页在线观看| 国产第一页亚洲| 玩两个丰满老熟女久久网| 试看120秒男女啪啪免费| 国产在线八区| 九九热这里只有国产精品| 精品国产成人av免费| 国产97视频在线| 狠狠色狠狠综合久久| 日本不卡视频在线| 午夜少妇精品视频小电影| 日韩经典精品无码一区二区| 国产成人精品在线1区| 国产人碰人摸人爱免费视频| 最新亚洲人成网站在线观看| 中文成人在线视频| 日韩免费无码人妻系列| 欧美精品三级在线| 无码中文字幕精品推荐| 国产精鲁鲁网在线视频| 亚洲一区二区三区国产精华液| 2021国产精品自产拍在线| 亚洲日韩精品欧美中文字幕| 99这里只有精品免费视频| 亚洲综合专区| 欧美日韩第三页| 国产嫖妓91东北老熟女久久一| 亚洲无码熟妇人妻AV在线| 女人av社区男人的天堂| 久久久久人妻一区精品色奶水| 久久这里只有精品2| 欧美va亚洲va香蕉在线| 精品无码国产自产野外拍在线| a国产精品| 老司机精品久久| 91口爆吞精国产对白第三集| 欧美一道本| V一区无码内射国产| 久久99精品久久久久纯品| 亚洲天堂网在线视频| 91亚洲视频下载| 91国内外精品自在线播放| 国产乱子精品一区二区在线观看| 国产无人区一区二区三区| 一级爆乳无码av| 国产偷国产偷在线高清| 四虎国产精品永久一区| 国产在线精彩视频二区| 国产手机在线小视频免费观看| 欧美亚洲香蕉| 国产永久在线视频| 看你懂的巨臀中文字幕一区二区 | 在线观看的黄网| 色婷婷在线影院| 国产你懂得| 免费激情网址| 成人国产一区二区三区|