劉瑞
(河南科技大學第一附屬醫院 血液科,河南 洛陽 471000)
隨著智能化和信息化的快速發展,醫學科學技術水平也在不斷的提升,重癥監護室(intensive care unit,ICU)成為醫學研究人員關注的熱門話題。ICU 主要分為綜合ICU、??艻CU(如:燒傷ICU、心血管外科ICU、新生兒ICU 等)和部分綜合ICU,部分綜合ICU 介于綜合ICU 和??艻CU之間(如:外科ICU、內科ICU、麻醉科ICU 等),其中綜合ICU 收治危重癥患者[1-3]。當前國內外關于ICU 死亡風險預測的研究中,傳統方法大多使用Logistic 回歸模型來預測ICU 患者的死亡風險[4],但是針對ICU 患者數據指標間的無規律性、可交互性和非線性關系等,這些方法在處理效果上仍存在值得改進的地方。而隨著醫療信息化[5-6]和醫療大數據[7]時代的到來,ICU 患者的相關診療信息通常動態地存儲在醫院科室的計算機患者個人數據庫系統中。這為研究人員進一步開發更加準確高效的死亡風險預測模型,提供了可靠的大數據保障。隨著新一代人工智能[8]技術的快速發展,傳統的機器學習方法已經被深度學習技術所超越,因此,通過將深度學習方法與ICU 死亡風險預測相結合,構建一種新型智能化的死亡風險預測模型,成為醫療領域亟待解決的關鍵問題之一[9-10]。筆者通過調研相關文獻發現,LIPTON等[11]研究人員提出的卷積神經網絡(convolutional neural network,CNN)作為一種高效的深度學習方法,廣泛地應用于醫學和生物信息學領域[12]。因此,本文首先通過運用國際上大型重癥醫療數據庫重癥監護醫學信息市場(Medical Information Mart for Intensive Care Ⅲ,MIMIC-Ⅲ)作為數據源,其次提出一種基于深度學習方法的ICU 患者住院死亡風險預測模型,最后與傳統的簡化急性生理評分(Simplified Acute Physiology Score Ⅱ,SAPS-Ⅱ)系統的預測性能進行分析比較。
本文的數據來源是選取麻省理工大學計算生理學實驗室、哈佛大學貝斯以色列迪康醫學中心和飛利浦醫療合作建立的MIMIC-Ⅲ大型重癥醫療患者數據庫,該數據庫主要由生理波形數據庫和臨床數據庫構成[13]。MIMIC-Ⅲ數據庫是在MIMIC-Ⅱ數據庫的基礎上,進一步增加了2008 年至2012 年的相關醫療數據,提高了臨床數據的類型。MIMIC-Ⅲ數據庫通過精準的去隱私技術處理,目前對全球科研人員免費開放使用,已經成為開展重癥醫學領域臨床研究的重要資源。筆者從該數據庫中選取約3 億多條結構化數據和6 萬例ICU患者的臨床信息,作為研究深度學習方法在ICU患者死亡風險預測的數據源。
1.2.1 數據清洗 數據清洗是提高數據挖掘質量的一種有效手段,本文首先去除MIMIC-Ⅲ數據庫中的各個表格中的缺失數據、格式和內容錯誤的數據、邏輯錯誤的數據和不需要的數據,然后進行關聯性驗證,從中提取出SAPS-Ⅱ模型中用到的12 項生理參數(體溫、氧合指數、心率、收縮壓、尿量、血清尿酸氮、膽紅素、白細胞計數、血清鉀、血清鈉、血清碳酸氫鈉、格拉斯哥昏迷評分)、年齡、入院類型(計劃手術,非計劃手術,無手術)、是否合并艾滋病、轉移癌和血液系統惡性腫瘤的所有相關變量。
1.2.2 數據變換 數據變換是對數據進行規范化和統一化處理,達到適用于挖掘的目的。在MIMIC-Ⅲ數據中,由于各類型變量都是以原始值的形式存儲,同一生理變量也存在多種不同的單位形式,所以首先需要將變量的單位進行統一化。如果MIMIC-Ⅲ數據庫中變量只有唯一的取值,則直接使用該變量的原始值。考慮到ICU 患者的各項生理參數指標,可能會存在多次重復測量現象,因此本文主要提取患者進入ICU 后的48 h 內各項生理參數變量的最大值、最小值和平均值。
在深度學習方法中卷積神經網絡作為一種經典的有監督前饋神經網絡[14]。從結構上看,卷積神經網絡是由卷積層、池化層和全連接層構成。卷積層的作用主要是通過卷積核來實現對MIMIC-Ⅲ數據庫特征進行提取,其中每一層的輸出是對多輸入特征進行卷積,其模型表達如下。

本文研究中所用的卷積神經網絡算法和數據分析主要由軟件R3.6.1 版本中的卷積神經網絡包實現[15]。通過將MIMIC-Ⅲ數據庫中的樣本數據集隨機劃分為訓練數據集和測試數據集,其中訓練數據集占3/4、測試數據集占1/4,數值變量用均數±標準差(±s)表示,分類變量用頻率表示。運用卷積神經網絡包預測的變量來源于SAPS-Ⅱ模型中各個變量的原始值,若存在重復變量,則包括最大值和最小值,輸出值為每個ICU 患者的住院死亡的可能性(概率)。各指標分別在訓練集和測試集中進行比較,由于數據類型的不同,因此數值變量的平均值采用獨立樣本t檢驗,分類變量的構成比采用χ2檢驗。
在訓練數據集中利用卷積神經網絡建立模型,分別從準確率、靈敏度、特異度、約登指數、召回率等5 種指標進行比較。為了避免實驗過程種存在的偶然誤差,通常計算3 次結果的平均值,來比較模型的性能。使用配對t檢驗評價所構建的卷積神經網絡模型的5 次結果之間的差異是否具有統計學意義。將訓練好的卷積神經網絡模型,運用測試數據集進行驗證,結果如表1 所示,這表明卷積神經網絡模型在模型性能上均高于SAPS-Ⅱ評分模型。

表1 兩種方法在測試集上預測效果
隨著大數據時代的到來,運用深度學習的方法,來預測ICU 患者住院死亡風險程度是醫護人員和患者家屬關注的焦點,同時也為早期發現和治療ICU 患者提供了準確的科學方法。在過去的研究中,傳統的危重癥病情評分系統主要是采用Logistic 回歸模型進行預測,本文使用的MIMIC-Ⅲ數據庫是醫學領域中一種流行的數據庫,該數據庫包含臨床上病人的上萬種特征,因此針對高維度的特征,需要選擇合適的預測變量來建立ICU患者死亡風險模型,本文所選擇的預測變量均來源于SAPS-Ⅱ評分模型中包含的特征變量。本文所提出的卷積神經網絡模型和SAPS-Ⅱ模型在預測準確度上分別為75.77% 和74.00%,同時卷積神經網絡模型在靈敏度上為71.56%,明顯高于SAPS-Ⅱ模型的70.54%。
本文提出的卷積神經網絡模型與傳統的SAPS-Ⅱ模型相比,在性能上具有更明顯的優勢,因此更適合預測ICU 患者死亡風險。隨著新一代互聯網和人工智能技術的到來,醫療大數據也越來越受到醫護研究人員的認可,通過借助計算機,運用卷積神經網絡模型來智能化地構建住院死亡風險預測系統,不僅可有效輔助醫生進行臨床診斷決策,而且也提高了醫護工作人員的工作效率。