張心怡,張六一
(湖南師范大學醫學院護理系,湖南 長沙 410013)
MIMIC(Medical Information Mart for Intensive Care)數據庫是由麻省理工學院計算生理實驗室和英國牛津大學的急診科醫生、計算機科學專家等共同建立的大樣本重癥監護數據庫[1]。MIMIC數據庫已經推出多個版本,目前最新的版本是MIMIC-Ⅲ1.4(V1.4),其中包含2001 年6 月-2012年10 月在醫療中心住院的38 645 例成年個體和7875 例新生兒(出生至28 d)的58 000 余次住院臨床診療信息、手術操作及患者住院期間的各項護理記錄等[2]。國外應用MIMIC 數據庫在臨床數據庫的建設和基于數據庫信息挖掘開展臨床研究方面發展迅速且日益成熟,而我國尚處于起步階段[3]。資料詳細、樣本量大的病例數據庫對臨床研究具有重要的推動作用,國內目前缺乏資料齊全的臨床數據庫。因此,本研究基于PubMed 數據庫,分析2010 年1月-2020 年12 月MIMIC 數據庫研究的相關文獻,應用文獻計量學方法總結MIMIC 數據庫的研究熱點,旨在為國內深入開展MIMIC 數據庫的相關研究提供參考。
1.1 資料來源 以MIMIC 數據庫為主題詞,擴展檢索PubMed 數據庫中2010 年1 月-2020 年12 月發表的相關文獻。檢索策略:"MIMIC-Ⅲ"[All Fields] OR"MIMIC-Ⅱ"[All Fields] OR "MIMIC database"[All Fields]AND2010[PDAT]:2020[PDAT],運用EndNote X7 進行查重,無重復文獻。
1.2 方法 ①下載與導入文獻題錄,PubMed 將電子版出版在2020 年,紙質版出版在2021 年的文獻也納入,這類文獻的年代視為2020 年進行統計分析。將所有文獻題錄以Note First 格式導出,得到一個XML 格式文件,將文件導入書目共現分析系統[4](BICOMB 2.0);②提取與統計主題詞,在BICOMB 2.0中提取并統計“主要主題詞+副主題詞”;③選取高頻主題詞,基于Donohue JC 高頻詞與低頻詞分界公式[5],同時結合專業知識選取高頻主題詞,生成詞篇矩陣和共現矩陣;④繪制樹狀圖,將詞篇矩陣txt文件導入SPSS 22.0 進行系統聚類分析,聚類方法選擇組間連接法,以二分類資料Ochiai 為度量標準,生成高頻主題詞的聚類樹狀圖。
2.1 MIMIC 數據庫研究發文數及年代分布 2010 年1 月-2020 年12 月以MIMIC 數據庫為主要主題詞的相關文獻共334 篇,其中2010 年10 篇,2011 年4篇,2012 年8 篇,2013 年7 篇,2014 年16 篇,2015 年25 篇,2016 年29 篇,2017 年29 篇,2018 年49 篇,2019 年77 篇,2020 年80 篇。
2.2 發表期刊及國家分布 10 年間共有91 種期刊發表了MIMIC 數據庫相關文獻,其中發文量第1 的是Conference Proceedings IEEE Engineering in Medicine and Biology Society,共 發 表35 篇,占13.78%;第2 是Journal of biomedical informatics,共發表14 篇,占5.51%;第3 是AMIA Annu Sympo-sium Proceedings,共發表11 篇,占4.33%。期刊來源國家中,排在前3 位的分別是美國、英國、荷蘭。其中,美國期刊共發表142 篇,占54.33%;英國期刊共發表55 篇,占20.47%;荷蘭期刊共發表28 篇,占7.87%。我國期刊共發表18 篇文獻,占5.12%,排第4 位。
2.3 第一作者分布 2010 年1 月-2020 年12 月發表的MIMIC 數據庫相關文獻第一作者共有246 名,發文量≥2 篇的作者共44 名,累計占34.94%,其中發文最多的作者是來自美國的臨床醫生Zhang Z,主要研究方向是急危重癥醫學,發文7 篇,占2.76%;位居第2 的作者是來自加拿大的公共衛生實驗室的Lee J,主要研究方向是重癥疾病微量元素與中毒間的關聯,發文6 篇,占2.36%;第3 的作者是來自美國計算生理實驗室的Lehman LW,主要研究方向是ICU 患者死亡率指標預測,發文5 篇,占1.97%。
2.4 高頻主要主題詞分布 提取主要主題詞共321個,以出現頻率≥4 次的主要主題詞為高頻主要主題詞,共產生30 個高頻主要主題詞,見表1。

表1 高頻主要主題詞分布表(n,%)
2.5 共詞聚類分析 運用SPSS 22.0 軟件對生成的詞篇矩陣進行聚類分析,生成聚類樹圖,見圖1。結合樹狀圖、主題詞詞義、代表性文獻總結出6 個研究類團:①MIMIC 數據庫介紹、數據處理方法的研究,由15、18、9、24、26、3、19 號主題詞組成;②ICU 患者預后、死亡率預測分析,由11、23、7、10、21、6 號主題詞組成;③ICU 患者基本生命體征、護理信息的研究,由20、28、1、8、16、25 號主題詞組成;④探究某些因素是否是某些疾病的影響因子,由14、30、29、4 號主題詞組成;⑤范圍較廣的其他類研究,由2、5、27 號主題詞組成;⑥預測某種疾病的發病率或死亡率,由13、22、12、17 號主題詞組成。其中縱軸數字表示高頻主要主題詞的序號,橫軸數字表示高頻主要主題詞之間的距離。

圖1 高頻主題詞聚類樹狀圖
3.1 研究現狀 文獻計量結果顯示,近10 年MIMIC數據庫的相關文獻整體趨勢是逐年增加,這可能是由于近年來MIMIC 數據庫信息資源豐富,受到各國研究人員關注,圍繞其發表的論文逐年增長。2010年1 月-2020 年12 月的文獻來源期刊歐美國家占較大的比例,其中PubMed 收錄的我國期刊發表的相關文獻占總文獻的第4 位,表明我國對MIMIC 數據庫相關研究的參與度也較高。通過研究主題的分布統計可以看出,MIMIC 數據庫中的大部分數據已在相關研究中被使用,但其中對護理病程記錄的文本數據進行分析的研究還較少,可進行深度挖掘,開拓更多研究。
3.2 研究熱點 本研究運用共詞聚類分析法,結合有關文獻與專業知識,提煉出PubMed 數據庫中MIMIC 數據庫相關研究的6 個研究熱點。
3.2.1 MIMIC 數據庫介紹、數據處理方法的研究 有研究[1]報告了MIMIC-Ⅲ數據庫是對廣泛使用的MIMIC-Ⅱ數據庫的更新,是一個由26 個表組成的關系數據庫,其中包含與大型三級護理醫院重癥監護病房收治的患者有關的信息。另有研究[6]通過MIMIC 數據庫觀察和描述418 例ICU 中呼吸機相關性肺炎患者的臨床特征,提取相關信息,總結了疾病診斷常見病原體和常用的抗生素,并提出在臨床治療過程中應注意無菌操作,密切監測患者抗生素使用情況。另有研究證明深度學習法[7]、應用開放源代碼自然語言處理系統[8]、時間切片Cox 回歸法[9]能有效挖掘臨床數據并進行分析。我國也有研究介紹MIMIC 代碼庫以及數據庫的申請、導入、結構關系及查詢[10],但關于數據挖掘分析方法的研究較少。
3.2.2 ICU 患者預后、死亡率預測分析 ICU 患者死亡風險很高,預測患者的死亡率至關重要[11]。Layeghian Javan S 等[12]從MIMIC-Ⅲ數據庫中提取79 例膿毒血癥患者臨床數據,放入機器學習模型,發現機器學習技術在膿毒癥患者的預后系統中具有很高的潛力,尤其是集成算法。國內外多項基于機器學習方法預測ICU 患者死亡率的研究也得到證實[13,14]。數學模型有助于提高準確性,Jain SS 等[15]使用MIMIC-Ⅲ數據庫獲取慢性阻塞性肺疾病急性加重患者的合并癥,合并癥指數和人口統計學等數據,開發了3 種預測死亡率的模型,應用于臨床實踐可降低醫療成本并改善臨終護理。總之,國外關于ICU患者預后、死亡率預測分析的研究較多,國內研究較少,可參考國外研究成果開發適合預測我國患者預后、死亡率的方法。
3.2.3 ICU 患者基本生命體征、護理信息的研究MIMIC-Ⅲ數據庫中有大量常規醫院護理期間獲得的數據,這些都是臨床數據的來源。Vincent JL 等[16]對MIMIC-Ⅲ數據庫中2001-2012 年休克的患者進行回顧性分析,結果發現,低血壓發作與較高的死亡率有關。范勇等[17]基于MIMIC-Ⅲ數據庫分析發現收縮壓在低血壓時,無創血壓所對應的死亡率明顯高于有創血壓。Luo Y 等[18]應用MIMIC 數據庫進行回歸性隊列研究,發現ICU 患者的晝夜心率變化與短期和長期死亡率呈正相關,尤其是對病情相對較重的患者,其與王劍等[19]的研究結果一致。Ding EY 等[20]根據MIMIC-Ⅲ數據庫中的護士評估Braden 評分、生命體征信息、診斷代碼等訓練了一系列機器學習算法,可有效對初入ICU 的患者自動進行醫院獲得性壓瘡風險評估。研究者根據MIMIC 數據庫中患者的基本生命體征數據,可發現與死亡率、疾病預后、疾病診斷等的相關影響因素。而關于護理病程記錄、護理信息的研究較少,今后可大量開展這一領域的研究。
3.2.4 探究某些因素是否是某些疾病的影響因子Li S 等[21]從2001-2012 年在MIMIC-Ⅲ數據庫中回顧性分析ICU 成人膿毒血癥患者體重指數(BMI)對膿毒血癥患者短期和長期死亡率的影響,結果發現肥胖影響膿毒血癥患者的生存率。Hsu DJ 等[22]應用MIMIC-Ⅱ數據庫分析血液動力學穩定呼吸衰竭患者動脈置管與死亡結局之間的關系,結果發現,動脈置管留置28 d 不影響死亡率。Wang B 等[23]從MIMIC-Ⅲ數據庫中探討血清鈣對重癥急性腎損傷患者死亡率的關系,發現低濃度鈣離子是重癥急性腎損傷患者死亡率的獨立預測因子。還有研究探討紅細胞分布寬度對ICU 重癥患者死亡率[24]、重癥急性腎損傷患者預后[25]、心源性休克患者死亡率[26]的影響。王帥等[27]采用MIMIC 數據庫內連續有創收縮壓同脈搏傳導時間進行研究,經過數據分析,脈搏傳導時間和收縮壓呈線性相關性,可以作為血壓測量方式和衡量動脈僵硬度的指標。
3.2.5 范圍較廣的其他類研究 Zhang S 等[28]從MIMIC-Ⅲ數據庫獲得3519 例ICU 社區獲得性肺炎患者信息,應用于預測患者臨床結局的模型,結果發現,關該模型具有更高的特異性,但該模型在預測患者30 d 死亡率方面僅比其他系統略好。通過參考MIMIC-Ⅲ數據庫的體系結構模型,Wang J 等[29]建立適用于我國的急救數據庫;周蜜果等[30]構想創建中醫共享數據集。另有學者從MIMIC 數據庫中提取患者信息,開發創建基于Android 的血壓測量模塊[31]和基于改進的整體平均經驗模態分解算法的呼吸頻率測量儀[32]。但該領域關于各類模型的比較研究還較少,越來越多的學者參考MIMIC 數據庫的結構和數據開發適合我國患者的數據集,為我國醫學臨床研究提供便利。
3.2.6 預測某種疾病的發病率或死亡率 Calvert JS等[33]應用MIMIC-Ⅱ數據庫開發膿毒癥預警算法,可在系統性炎癥反應發作時至少提前3 h 預測膿毒癥,提高了早期識別高危患者的可能性。另有研究[34]從MIMIC-Ⅱ數據庫中提取低血壓和正常血壓患者數據,建立患者低血壓風險預測系統,以預測低血壓發作,極大的幫助識別重癥患者。Taoum A 等[35]使用MIMIC-Ⅱ數據庫提出數據融合算法,可實時監測急性呼吸窘迫綜合征患者的心率、呼吸、外周動脈血氧飽和度和平均氣道壓,預測急性呼吸窘迫綜合征的發作。馮靖杰[36]在MIMIC 數據庫上進行十折交叉驗證,可為心血管疾病的初步診斷和篩查提供一定的指導,以及預測急性心肌梗死患者院內死亡的風險。
綜上所述,MIMIC 數據庫相關研究熱點共有6個研究類團,分別為關于MIMIC 數據庫介紹或數據處理方法的研究,關于ICU 患者預后、死亡率預測分析,關于ICU 患者基本生命體征、護理信息的研究,探究某些因素是否是某些疾病的影響因子,范圍較廣的其他類研究,預測某種疾病的發病率或死亡率。近年來基于各版本的MIMIC 數據庫已經開展了很多項臨床數據挖掘研究,而國內外針對護理病程記錄、護理相關信息等的研究還較少,今后可根據護理領域數據開展更多研究;還可借鑒MIMIC 數據庫運行機制構建符合我國國情的臨床醫學數據集,輔助臨床決策。