999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的心血管疾病風險預測模型

2019-10-11 08:57:30安瑩黃能軍楊榮陳先來
中國醫學物理學雜志 2019年9期
關鍵詞:模型

安瑩,黃能軍,楊榮,陳先來

1.中南大學信息安全與大數據學院,湖南長沙410083;2.中南大學計算機學院,湖南長沙410083;3.中南大學湘雅醫院,湖南長沙410078

前言

心血管疾病是一種嚴重威脅人類健康的常見慢性疾病,在城鄉居民總死亡原因中高居首位[1]。準確預測心血管疾病的發病風險對防范心血管疾病的發生有著重大意義。盡管臨床上血管造影術可以準確地診斷出心血管疾病,但是血管造影術不僅比較昂貴而且對身體具有創傷性。此外,臨床上也常用心電圖和一些評分指數來預估心血管的風險,但這些方法需要醫生或者執業人員具備豐富的理論知識和實踐經驗。近年來,一些研究人員提出利用機器學習等算法對患者電子病歷中的風險因素進行建模,從而實現心血管疾病的風險預測。由于這類方法不僅對身體沒有創傷性,而且是相對廉價的,因此它已逐漸成為當下一個具有重要現實意義的挑戰性課題。

在基于電子病歷的心血管疾病風險預測研究中,最大的挑戰是如何通過有效的表征學習方法來實現患者畫像的準確描繪。電子病歷通常包含豐富的患者就診信息,比如診斷、醫囑、檢查檢驗、生命體征、人口學等數據。傳統患者畫像的表征方法通常需要大量的人工干預,它們的性能往往受限于研究人員的經驗以及特定的電子病歷系統,導致其可擴展性和泛化性較差。最近幾年,受自動特征學習相關研究成果的鼓舞,很多研究人員成功利用稀疏編碼的方式實現了特征表達,比如獨熱編碼(One-Hot)[2]和詞袋模型(Bag of Words,BoW)[3]。然而,這些稀疏編碼的方式通常無法捕獲特征之間的語義性以及電子病歷數據中的時序性。近些年,隨著深度學習在理論上的突破以及其在生物、金融等眾多領域的成功應用,很多研究人員也試圖利用深度學習來處理電子病歷數據的表征學習。Nguyen等[4]提出將患者的電子病歷數據(診斷、藥物治療以及手術記錄)表示成一串按時間先后順序排列的序列,并且利用卷積神經網絡(Convolution Neural Network,CNN)對其進行患者的表征提取。但是在時序學習(Temporal Learning)相關任務中,CNN相對來說只能捕獲局部特征信息,并且需要假設一份電子病歷中的數據是嚴格按時間順序排列的。與之相比,基于循環神經網絡(Recurrent Neural Network,RNN)的相關算法,比如長短期記憶神經網絡(Long Short Term Memory,LSTM),通過不同“門限”來捕捉有用的信息而舍棄沒用的信息,從而可以更好地處理帶時序性的電子病歷數據。Ma等[5]利用雙向循環神經網絡(Bidirectional Recurrent Neural Network,Bi-RNN)進行電子病歷的表征學習,并利用多種關注機制(Attention Mechanism)方法提升模型的表征學習能力和可解釋性。盡管該方法已經能有效提升風險預測模型的性能,但是它忽略了電子病歷中各數據之間的差異性。相對地,Kim等[6]提出利用相互獨立的模塊對不同種類的數據(診斷和藥物治療)分別進行表征學習,來提高風險預測的準確性。但實際上,每一種藥物治療的方式在臨床上都有與之對應的某一種或多種疾病。盡管該模型實現了有效的風險預測,但是它忽略了疾病和藥物治療兩者之間的關聯性,因此,預測性能受到了一定的影響。

為了解決以上的問題,本研究提出一個基于RNN 和關注機制的心血管風險預測模型(Risk Prediction Model for Cardiovascular,RPMC)。RPMC可以自動從高維、異質、時序的電子病歷數據中抽取高質量的表征,用來準確地實現心血管疾病的風險預測。由于關注機制和LSTM的引入,模型不僅能有效增強模型對時序數據的學習能力,還具備一定的可解釋性。此外,考慮到不同數據之間的差異性和關聯性,模型中不僅存在多個獨立的模塊負責不同數據的表征學習,還存在一個模塊負責融合后數據的特征提取。最后,RPMC結合各個模塊學到的表征實現心血管疾病的風險預測。本研究主要的貢獻點可以歸納為以下3 點:(1)提出一個端對端、易操作、無需醫務人員輔助、魯棒的心血管疾病風險預測模型RPMC;(2)將RNN 和關注機制的結合,從而使得RPMC 不僅能自動而準確地從高維、異質、時序的電子病歷數據抽取潛在的表征,同時還具備良好的可解釋性;(3)有效地融合多種不同質的電子病歷數據,使用多個子模塊進行表征學習,從而使得RPMC不僅能充分考慮到數據之間的差異性,還能考慮到他們之間潛在的關聯性,最終提高心血管疾病風險預測的性能。

1 相關研究

1.1 風險預測

在醫學領域中,風險預測是一個具有前瞻性和重大現實意義的研究任務。臨床上常見的風險預測任務主要有:疾病發病風險預測[4,6]、死亡率預測[7]、再入院風險預測[8]等。在早期的心血管疾病風險預測模型中,很多研究員通過利用隊列研究的方法來跟蹤患者的狀況,從而實現風險預測。Everett等[9]對1 821 位心血管疾病患者進行隊列研究,結果表明端前腦鈉素能有效提高臨床上心血管疾病的風險預測能力。此外,Welsh等[10]也利用隊列研究的方式發現了更多有助于心腦血管疾病風險預測的醫學指標。這些基于隊列研究的方法能實現較準確的風險預測,同時還具備一定的醫學參考價值和可解釋性。但是,這類方法通常需要耗費大量的人力、物力和時間。它們通常基于某一權威的評分標準來進行預測,導致其性能在很大程度上取決于研究員的醫學背景和經驗。隨著醫院信息化程度的不斷提高,來自醫院信息系統的電子病歷數據因其提供了極為豐富、完整的患者醫療記錄而受到研究人員的關注。因此近年來出現大量基于電子病歷的心血管疾病風險預測模型。Huang 等[11]基于患者電子病歷數據中的特征,利用回歸的方法進行特征學習并能有效提高心血管疾病的風險預測。Jiang等[12]利用電子病歷數據中的特征,構建了一個高效的再入院風險預測模型。這些方法的提出不僅有效提高了現有、海量的電子病歷數據的利用率,還在相關任務上取得顯著的效果。但是,由于電子病歷數據包含的特征信息種類繁多,維度龐大,并具有一定的時序性,所以如何對電子病歷數據進行表征學習成為這類風險預測任務的主要挑戰。

在很多現有的心血管疾病風險預測模型中,特征工程通常需要大量人工干預。比如,Pike等[13]根據Framingham 風險評分(Framingham Risk Score,FRS)等標準,從電子病歷中抽取出相關的特征,并比較各評分標準的風險預測能力。Kennedy 等[14]在FRS 的基礎上引入了額外的電子病歷特征,并實證其具備更好的心血管疾病風險預測能力。這類方法通常都是根據相關的評分標準或權威的文獻資料,針對性地從電子病歷數據中抽取相關特征。它最大的不足是往往受限于研究人員相關的專業背景和實際經驗,同時特征的抽取過程摻雜大量的人力、物力,并不能完全高效地利用海量的電子病歷數據。最近幾年,很多研究員提出不同的基于機器學習相關方法的心血管疾病風險預測模型[11,15]。這類方法不僅能自動地學習出重要的特征信息,而且還能提高電子病歷數據特征的利用率,從而實現高效的風險預測。但是,它們通常無法捕獲電子病歷數據中的時序信息。為了解決這些問題,很多研究人員利用深度學習來進行電子病歷的特征學習工作,并取得了巨大成功。Nguyen等[4]成功利用CNN捕獲電子病歷數據中的特征信息(包括時序信息),并準確地實現了再入院的風險預測。此外,Ma等[5]利用RNN以及多種關注機制進行電子病歷數據的時序特征提取,不僅有效提高模型的準確度,還增強模型的可解釋性。Kim等[6]針對不同種類的電子病歷數據,分別利用多個獨立的RNN 模塊進行特征學習,并有效提高風險預測的準確性。盡管這些方法大大提高風險預測的準確性,但是它們并沒有充分考慮電子病歷數據中的多樣性與關聯性。

1.2 深度學習

近幾年,深度學習在理論和應用上都有驚人的突破。深度學習通過組合低層的數據特征形成更加抽象的高層特征,從而發現數據中潛在的、難以被人發現的分布式特征表示[16]。目前,有兩種常見的深度學習算法被廣泛應用于電子病歷和影像數據的特征學習,即CNN和RNN。CNN是一類具有深度結構的前饋神經網絡,它通過卷積層和池化層的相關計算完成特征學習,具備平移不變性,因而在圖像處理方面有著先天的優勢,比如醫學圖像分割[17]、圖片分類[18]等。但是,CNN只能捕獲局部的信息,在處理長時間依賴的時序學習任務上略有不足。相比之下,RNN 是一類具有記憶功能的深度神經網絡,能很好地捕捉數據中的時序信息。因而,RNN 被廣泛應用于自然語言處理等時序學習任務中[19]。為了增強單向RNN的學習能力,Bi-RNN通過同時從兩個方向學習數據的時間依賴信息,從而更全面地捕獲數據中上下文的信息[20]。

此外,為了增強模型的可解釋性,關注機制被廣泛應用于深度學習模型中。關注機制通過計算出一個上下文向量,來捕獲序列數據中更多的潛在信息。它不僅能有效提高模型的學習能力,而且還能增強模型的可解釋性,尤其是在時序學習[5]、機器翻譯[19]等任務中,基于關注機制的深度學習模型能明顯優于不帶關注機制的模型。

綜合已有心血管疾病風險預測模型的優勢和不足,本研究提出的模型RPMC 利用雙向長短期記憶神經網絡(Bidirectional Long Short Term Memory,Bi-LSTM)以及關注機制等方法負責電子病歷數據的表征學習。考慮到電子數據中的多樣性與關聯性,RPMC 不僅分別利用多個獨立的模塊來負責不同性質數據的表征學習,同時也單獨提供一個獨立的模塊負責融合后數據的表征學習。從而,RPMC 能高效、全面地捕獲電子病歷數據的特征信息,實現更準確的疾病風險預測。

2 風險預測模型

2.1 數據描述

本研究所使用的實驗數據來源于中南大學湘雅醫學大數據平臺建設項目組整理而成的湘雅醫學數據集[21]。目前,該數據集涵蓋湘雅3家附屬醫院近10年的電子病歷數據。在湘雅數據集中,每一個疾病編碼都遵循第10版國際疾病分類(ICD10)的標準,每一個實驗室指標都遵循湘雅醫院的規則,并且有特定的正常值參考范圍。

本研究所使用的湘雅子數據集共包含322 900位患者的電子病歷數據,其中24 615 位是心血管疾病的患者。RPMC 旨在利用患者的歷史數據預測其在接下來一年中患有心血管疾病的風險。因此,每位患者的歷史數據(不包含心血管疾病編碼)構成觀測窗口,而接下來一年的數據構成預測窗口。RPMC從觀測窗口中的電子病歷數據捕獲特征,并利用預測窗口生成分類標簽(二分類,1 表示高風險,而0 表示非高風險)。

在該數據集上,患者每次醫院就診以7個工作日為單位進行聚合,即將同一患者間隔時間小于一周的不同就診記錄視為同一次醫療就診。為了保證樣本數據有足夠的電子病歷信息,少于6次醫療就診的患者被排除在外,從而使得觀測窗口中至少包含5次醫療就診,而預測窗口至少包含1次。為了確認患者在觀測窗口之后1年中心血管疾病的患病情況,如果患者有過心血管疾病診斷歷史,并且在第一次被診斷有心血管疾病之前至少包含5次醫療就診記錄,同時第一次被診斷為心血管疾病的就診時間距離上一次就診時間≤1年,則該患者被標記為高風險樣本;如果患者在觀測窗口中最后一次醫療就診后至少1年未診斷出心血管疾病,則被標記為非高風險患者。

除了診斷編碼序列數據,RPMC還利用實驗室指標數據。根據數據統計結果,出現頻次少于100 次,以及缺失率高于90%的實驗室指標均被剔除在外。此外,為了增強心血管疾病風險預測的準確性,RPMC還結合部分人口學數據,包括年齡、性別、患者類型,就診次數和手術史。

經過上述的數據篩選過程,最終得到的實驗數據集總共包含146 296 位患者,其中20 450 位屬于心血管疾病高風險患者。具體的統計信息如表1所示。

2.2 數據表示

表1 最終數據集的簡單描述Tab.1 A brief description of the final data set

為方便心血管疾病風險預測模型的描述,數據集中醫學編碼的集合(包括診斷編碼、實驗室指標)被表示成D={d1,d2,…,dM},其中M是編碼的總數量,任意一個元素dj表示一個醫學編碼。 令P={p1,p2,…,pN}表示數據集中的患者集合,其中N為患者總數,任意一個元素pn表示一個患者。對于任意患者pn,其電子病歷數據可以被表示成一個醫療就診序列其中T(n表)示第n個患者的總就診次數,表示患者pn的第i次就診記錄,是由一個或多個醫學編碼組成的無序集合。為了將每次就診記錄Vi轉化成深度模型RPMC輸入數據的格式,Vi被表示成一個一維向量xi,其中每個維度代表唯一的一種醫學編碼dj。對于二元醫學變量,如診斷編碼等,只有兩種取值(如果Vi包含dj則xi中相應位置為1,否則為0)。此外,對于一些有多種取值的醫學編碼,比如具有連續型取值范圍的實驗指標數據,則采用如下的賦值策略:如果實驗指標的數值在給定的正常值參考范圍之內,則xi中相應位置為1;如果實驗指標的數值不在給定的正常值參考范圍之內,則xi中相應位置為2;否則,xi中相應位置為0。

如圖1所示,每個患者的電子病歷數據都能表示成一條序列。序列中,每個片段代表一次醫療就診記錄,即Vi,包含一個或多個診斷編碼和實驗室指標。很顯然,圖1給出的是一個心血管疾病高風險患者的案例,因為在預測窗口中,該患者出現有心血管疾病的ICD10 編碼(心絞痛,I20)。假設HIS 系統中總共只有9 種不同編碼(不包括心血管疾病相關編碼):I10、E78、H30、K81、WBC、PDW、FBG、HDL和BP,其中前4個為疾病編碼,后5個為實驗室指標,那么,每次就診記錄Vi都可以被表示成一個向量,其維度為9。比如,在片段1 中患者被診斷為I10 和E78,同時實驗室指標WBC處于正常取值范圍內,PDW的取值偏離正常范圍,那么該片段V1可以被表示成一個9維的稀疏向量x1=[1,1,0,0,1,2,0,0,0]。此外,x1也可以被拆分成兩部分:診斷編碼向量[1,1,0,0]和實驗室指標向量[1,2,0,0,0],以便RPMC 分別對兩者單獨進行訓練。

在人口學數據中,每一個特征使用One-Hot的方式組織。如圖2 所示,年齡被拆分成7 個階段(“0-18”、“18-30”、“30-45”、“45-60”、“60-75”和“75+”),性別包括兩個特定的值(男和女),患者類型包含3種不同的類別(門診、急診和住院),就診次數被離散成6個片段(“6-12”、“12-18”、“18-24”、“24-30”、“30-36”和“36+”),手術史包括兩種狀態(“S”和“NS”,分別代表有、無手術史)。需要注意的是,前3個人口學特征(年齡、性別、患者類型)都有一個額外的維度(Unknown,“UK”),表示數據缺失的情況。

2.3 模型架構

如圖3所示,RPMC包含4個輸入模塊,即診斷編碼序列、診斷編碼+實驗室指標序列、實驗室指標序列和人口學數據。首先,4種數據分別通過嵌入層的相關技術生成4 個嵌入向量v1、v2、v3和v4;然后,分別利用4 個基于關注機制的雙向長短期記憶神經網絡模塊(Attention-based Bi-LSTM,A-LSTM)負責相應嵌入向量的表征學習,并得到相應的4個表征向量h1、h2、h3和h4;最后,拼接4 個表征向量,并用于softmax層進行預測。

圖1 患者序列數據生成示意圖Fig.1 Diagram of sequence data generating process

圖2 人口學數據向量化Fig.2 Vectorization of demographic data

在嵌入層中,除了人口學數據模塊使用的是詞袋模型之外,其他模塊所使用的方法都是Med2Vec[21]。Med2Vec 利用線性整流單元(Rectified Linear Unit,ReLU)來獲取患者就診記錄的嵌入向量。ReLU是神經網絡中常見的激活函數,計算公式如下:

其中,Wv∈Rm×M是一個用來衡量每個醫學變量重要程度的權重矩陣,m是嵌入向量vt的大小。

2.4 Bi-RNN

RNN 是一類用于處理序列數據的神經網絡,它能高效地從序列數據中捕獲潛在、深層的語義信息。但是,單向的RNN只能從一個方向捕獲序列信息,比如前向循環神經網絡(forward RNN)在推斷當前節點的狀態時,只考慮節點之前的信息,而忽略節點之后的信息。因此,為了保證模型能充分考慮節點的上下文信息,RPMC利用Bi-RNN對嵌入向量進行表征學習。

如圖4所示,Bi-RNN由一個前向RNN和一個后向RNN 組成,能充分利用當前狀態之前和以后的特征信息。前向RNN負責從序列的前端向后端的表征學習任務,而后向RNN 正好相反。最后,Bi-RNN 將兩個單向的RNN 所學到的隱藏層特征信息進行融合,得到隱藏層的最終狀態。對于兩個單向RNN 輸出的融合方式,常見的有拼接(concatenate)、elementwise 等操作。在RPMC 中,采用的方法是拼接,因為它通常能取得較好的效果。此外,為了克服梯度消失的問題,RPMC實際采用的是Bi-LSTM。

2.5 關注機制

為了增強Bi-LSTM 的表征學習能力,RPMC 利用關注機制(Attention Mechanism)來幫助模型捕獲更多的上下文信息。如果只單純利用Bi-LSTM來捕獲心血管風險中的時序特征信息v1,v2,…,vt,將有可能忽略掉輸入的序列數據x1,x2,…,xt中的一些重要信息。然而,RPMC利用關注機制能學到一個額外的上下文向量ct,這個上下文向量不僅能有效增強模型的預測能力,還能提高模型的可解釋性。計算ct方法如式(2)所示:

圖3 心血管疾病風險預測模型概覽圖Fig.3 Framework of risk prediction model of cardiovascular diseases

圖4 A-LSTM的網絡結構圖Fig.4 Network of Bi-LSTM based on attention mechanism(A-LSTM)

其中,hi表示第i個隱藏層節點的狀態,αti是一個用來衡量當前狀態各元素權重的向量,其計算方法如式(3)和式(4)所示:

在式(3)中,∈R2p和bα∈R都是由模型負責學習的參數,分別代表權重矩陣和偏移向量。根據式(4),RPMC 利用softmax 函數得到一個權重向量αt,其中每個元素分別表示與之對應的隱藏層節點在心血管疾病風險預測任務中的重要程度。接著,將隱藏層狀態向量ht和上下文向量ct拼接,得到最終表征向量如式(5)所示:

其中,Wc∈Rr×4p是由模型負責學習的權重矩陣。最后將輸入到softmax層,參與相關計算,如式(6)所示,可以得到類別的概率分布:

2.6 優化目標

為了得到模型參數,RPMC使用預測值與真實值之間的交叉熵作為損失函數,如式(7)所示:

其中,yi是患者實際的類別標簽,1表示心血管疾病高風險患者,而0表示心血管疾病非高風險患者。y?i是RPMC預測出來的類別分布,其中概率值最大的類別為RPMC的最終預測結果。模型采用的優化算法是小批量隨機梯度下降算法,由基于TensorFlow 和Python 3.5的深度學習框架Keras 2.2.2負責參數的自動計算和更新。

3 實驗結果與分析

3.1 基準模型

為了驗證Bi-LSTM以及關注機制在時序學習中的優勢,首先進行對比實驗的基準方法有:邏輯回歸(Logical Regression,LR)算法、序列最小優化(Sequential Minimal Optimization,SMO)算法、隨機森林(Random Forest,RF)算法、梯度提升決策樹算法LightGBM和Bi-LSTM。其中,Bi-LSTM屬于時序模型,它能捕獲電子病歷中的時序信息,而其他4 種基準方法是非時序模型。因此,在這4 個非時序模型中,都采用BoW 模型來表示每個患者的電子病歷數據。此外,為了更好地融合不同類型的數據(診斷編碼序列和實驗室指標序列),RPMC 提出利用多個A-LSTM 網絡分別對它們進行表征學習。本文還將RPMC與3種最新的深度學習方法(Deepr[4]、Dipole[5]和R-MeHPAN[6])進行性能對比,以進一步證明本研究提出方法的有效性。

3.2 評價指標

在本研究所使用的數據集中,正負樣本高度不平衡,比例約為1:6.15。為了客觀真實地評估預測模型在不平衡學習問題上的性能,所用到評價指標包括:精準度、召回率、F1值和AUC值。以下是各指標的計算公式:

其中,真正例、假正例和假反例是根據混淆矩陣計算得來。在心血管疾病風險預測任務中,真正例表示被RPMC 正確預測出的心血管疾病高風險患者數目;假正例表示被RPMC預測成為高風險,而實際上是非高風險患者的數目;假反例表示被RPMC 預測為非高風險,而實際上是高風險患者的數目。

3.3 模型實現

最終用來實驗的數據集被分為3個子集,分別為訓練集、驗證集和測試集,三者比例為0.7:0.1:0.20。每個預測模型都采用小批量的訓練方式,批量大小為1 024。同時為優化模型參數,每個模型迭代100次。此外,為防止過擬合,各模型都采用系數為0.001的二范式正則化方法和早停策略。對于所有基于RNN 的預測模型,都統一采用三層隱藏層的網絡結構,且各層神經元的個數分別為256、256、128。

3.4 結果分析

3.4.1 時序模型的優勢如表2 所示,在基于電子病歷的心血管疾病風險預測任務上,時序模型Bi-LSTM 和A-LSTM 的各項指標基本都優于其他4種非時序模型(邏輯回歸、SMO 算法、隨機森林和LightGBM)。比如,在只利用診斷編碼序列數據的情況下,Bi-LSTM 的性能可達到0.703 9 的召回率、0.654 5 的F1 值和0.779 8 的AUC,這明顯優于其他4種中表現最好的LightGBM。之所以Bi-LSTM 和A-LSTM 能夠在心血管疾病風險預測中取得突出的性能,是因為基于LSTM的模型將患者的電子病歷數據表示成一個帶時間順序的序列,并且能夠從中抽取患者疾病發展過程中的時序性特征。

同時,綜合3 種不同數據的結果來看,不同類型的數據對心血管疾病風險預測的性能有比較大的影響。基于診斷編碼序列數據的預測結果普遍比基于實驗室指標數據的要準確。原因之一是實驗室指標數據相比診斷編碼序列要更稀疏。然而,將兩部分數據進行融合之后模型的風險預測結果相比單獨使用這兩種類型數據的預測結果有了顯著的提升。當僅使用實驗室指標數據時,Bi-LSTM 的性能只能達到0.603 1 的F1 值和0.758 7 的AUC。然而,在融合后的數據集上,Bi-LSTM的F1值和AUC分別提升至0.673 1和0.795 4。

表2 心血管疾病風險預測模型實驗結果Tab.2 Performances of various models for risk prediction of cardiovascular diseases

此外,A-LSTM在3個數據上的性能都明顯優于Bi-LSTM。以基于融合數據的預測模型為例,相比Bi-LSTM,A-LSTM將心血管疾病風險預測的性能從0.630 5 的精準率、0.722 0 的召回率、0.673 1 的F1 值和0.795 4的AUC提升到了0.637 1的精準率、0.733 3的召回率、0.681 8的F1值和0.803 2的AUC。這充分表明,關注機制能有效提高心血管疾病風險預測模型的性能,也證明通過關注機制所得到的上下文向量能幫助模型捕獲更多潛在的特征信息。

從4 種非時序模型在心血管疾病風險預測任務上的性能來看,隨機森林和LightGBM明顯比其他兩種表現突出。主要是因為隨機森林和LightGBM 屬于集成學習框架,分別屬于裝袋和提升類模型,具備更好的學習能力和泛化能力。

3.4.2 RPMC的優勢如表3所示,相比其他3種深度學習模型,RPMC在心血管疾病風險任務上取得了突出的性能。這表明RPMC 能更好地融合不同類型的電子病歷數據,因為它充分考慮不同類型數據之間的差異性和關聯性。從表中結果可以看出,Deepr 的表現相比其他3 種較差。原因之一是Deepr 是基于CNN的風險預測模型,而相比RNN而言,CNN在電子病歷時序學習中只擅長捕獲局部信息。另外一個原因是Deepr 假設每次醫療就診記錄中的醫療事件都是有時間順序的,事實上在門診部門,一次醫療就診過程持續的時間只有少數幾天,期間的醫療事件在EHR中有時并沒有嚴格按照時間順序進行組織和記錄。此外,多個實驗室指標通常是同時檢測的,并無先后關系,所以Deepr并不是最適合這類醫學電子病歷的模型。

值得注意的是,模型R-MeHPAN 在心血管疾病風險預測任務上明顯比Dipolel表現得好。Dipolel將不同類型的數據融合在一起進行模型的訓練,而R-MeHPAN將不同類型的數據分開進行各自的表征學習。這表明,在該實證數據集上兩種類型的數據(疾病編碼序列和實驗室指標序列)之間存在比較大的差異,而且這些差異對心血管疾病的風險預測有很大幫助。

表3 基于數據融合的心血管疾病風險預測模型的實驗結果Tab.3 Performances of data fusion-based risk prediction models of cardiovascular diseases

此外,向心血管疾病風險預測模型中加入人口學數據之后,各深度模型的性能普遍都有所提高。以性能提升最突出的Dipolel為例,人口學數據的加入使得它的性能從0.602 3 的精準率、0.732 1 的召回率、0.660 9 的F1 值和0.780 3 的AUC 提升至0.631 4的精準率、0.784 3的召回率、0.699 6的F1值和0.801 1的AUC,各指標分別提升0.029 1、0.052 2、0.038 7 和0.020 8。這表明,人口學數據對心血管疾病風險預測的準確性有很大幫助。同時,從表3 中還可以看出,RPMC始終是表現最突出的預測模型。

總之,RPMC在心血管疾病風險預測任務上的突出性能表明,RPMC能將不同類型的電子病歷數據有效地結合,不僅能充分考慮到它們之間的差異性,還同時能捕獲到他們之間潛在的關聯性。

3.4.3 模型可解釋性分析由關注機制算出的權重矩陣,能夠用來衡量每個患者中每次醫療就診對心血管疾病風險預測的重要程度。因此,可以有效增強心血管疾病風險預測模型RPMC 的可解釋性。對每一位患者,關注機制都會算出一個權重向量,選取權重最大的一次就診記錄作為后續統計分析的依據。

如圖5所示,根據所有患者最重要的就診記錄集合統計得到關注機制中出現頻次最高的前10種疾病診斷編碼。該結果表明,糖尿病和高血壓對心血管疾病風險預測有著突出的影響,這和臨床上的研究結果基本一致[22]。值得注意的是,表中有5種診斷編碼是以字母“E”開頭的。根據ICD10的分類標準,字母“E”開頭的疾病都屬于內分泌、營養和代謝疾病種類。已有研究表明,患有代謝綜合癥狀的個體發展成心血管疾病的風險是其他人的兩倍左右[23]。根據已有文獻的相關結果表明,癲癇和心血管疾病的風險因素(如糖尿病、高血壓和高膽固醇等)有著密切的關聯[24]。從圖5的分析結果也可以明顯看出,癲癇(G40)的出現頻次排在第5 位,說明其對心血管疾病風險預測具有顯著的作用。此外,診斷編碼K75 和K29在ICD10分類標準中屬于消化系統疾病種類,對心血管疾病風險預測也有著重要的幫助。Klimenko等[25]在醫學上證實消化系統的狀態對心血管總體的膽固醇水平有很大影響,而膽固醇是臨床上公認的心血管疾病高風險因素之一。

圖5 關注機制中出現頻次最高的前10種疾病診斷編碼Fig.5 Top 10 frequent diagnosis codes obtained by attention mechanism

4 結語

在基于電子病歷的心血管疾病風險預測任務中,A-LSTM 是一個非常合適的表征學習方法,它完全端對端,不需要人工干預,同時又能捕獲潛在的時序信息。RPMC 分別利用3 個A-LSTM 對患者的電子病歷進行表征學習,能充分考慮不同數據類型之間的差異性和潛在關聯性。通過多組實驗的比較和多個角度的分析,RPMC在心血管疾病風險預測任務上均獲得了相對最佳的性能。

在接下來的工作中,將融入更多類型的電子病歷數據,比如臨床文本、醫囑信息以及影像數據等。此外,還將進一步驗證和優化RPMC 的可擴展性和泛化性,以便其能有效處理其他更多的臨床問題。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美精品成人一区二区视频一| 99精品国产自在现线观看| 久久久久国产精品嫩草影院| 亚洲精品无码不卡在线播放| www.精品国产| 宅男噜噜噜66国产在线观看| 久久久精品国产SM调教网站| 有专无码视频| 久久精品亚洲中文字幕乱码| 欧美成人一区午夜福利在线| 毛片久久久| 欧美精品亚洲日韩a| 18禁影院亚洲专区| 1024国产在线| 播五月综合| 中日韩欧亚无码视频| 成人a免费α片在线视频网站| 成人久久精品一区二区三区| 一区二区三区国产| 国产jizzjizz视频| 亚洲欧美另类日本| 久久99国产综合精品1| 伊人久久大线影院首页| 一级毛片中文字幕| 97人妻精品专区久久久久| 国产主播在线一区| 亚洲色大成网站www国产| 综合色区亚洲熟妇在线| 国产女同自拍视频| 91精品国产91久无码网站| 日韩免费毛片| 91无码人妻精品一区| 人与鲁专区| 中文无码日韩精品| 亚洲第一成网站| 男女男免费视频网站国产| 国产第二十一页| 成人噜噜噜视频在线观看| 野花国产精品入口| 精品久久久久无码| 亚洲一区二区三区国产精品| 久久99精品久久久久纯品| 亚洲精品桃花岛av在线| av大片在线无码免费| 成人字幕网视频在线观看| 九九香蕉视频| 精品国产Av电影无码久久久| 国产精品一区在线麻豆| 一级香蕉视频在线观看| 国产成人做受免费视频| 欧美综合激情| 久久精品无码国产一区二区三区 | 欧美午夜视频在线| 亚洲精品国产首次亮相| 国产高清在线观看91精品| 中文一级毛片| 久久久精品无码一区二区三区| 国产99在线观看| 无码人中文字幕| 亚洲全网成人资源在线观看| 香蕉在线视频网站| 国产精品高清国产三级囯产AV| 亚洲国产成人无码AV在线影院L| 国产精品偷伦在线观看| 91国语视频| 又黄又爽视频好爽视频| 67194在线午夜亚洲| 久久视精品| 亚洲人成色77777在线观看| 国产精品美人久久久久久AV| 欧美日本在线播放| 青青操视频在线| 爽爽影院十八禁在线观看| 中文字幕日韩久久综合影院| 免费啪啪网址| 真实国产精品vr专区| 国产美女无遮挡免费视频网站 | 国产欧美日韩18| 国产欧美精品专区一区二区| 欧美有码在线| 宅男噜噜噜66国产在线观看| 国产精品开放后亚洲|