999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構圖嵌入學習的相似病案推薦①

2020-11-13 07:12:30王亦凡李繼云
計算機系統應用 2020年10期

王亦凡,李繼云

(東華大學 計算機科學與技術學院,上海 201620)

患者病案包括臨床中患者本人對自己健康狀況的描述以及醫療人員對患者的客觀檢查結果以及對患者的病情的分析、診療的記錄.通過比較患者病案的相似程度可以為醫生提供具有較高可信度的病案參考.隨著醫院和診所中的臨床病案數據的不斷積累,如何充分利用這些記錄是相當重要的,許多研究使用臨床醫療病案來協助醫生進行臨床決策和預后[1].

相似病案是包含相同臨床意義的醫療實體,具有相似屬性的病人的病案.目前,部分研究將相似病案衡量任務視作具有不同醫療實體的臨床文本多分類問題[2–4].部分研究通過提取病案中的隱藏信息并依據醫療代碼進行對齊,以便衡量各個組成部分的距離[5],從而對相似病案進行度量.這樣的度量有助于精準醫療中不同種類的患者細分[6],作為醫生診療的參考.在本文中,我們將醫療實體定義為與患者治療相關的醫療專有名詞.如果某一患者病案中的兩個醫療實體共同出現,我們就認為這對醫療實體存在某種關系.我們利用基于異構圖嵌入的方法來學習病案表示,通過計算患者病案表示的余弦相似度可以獲取相似病案.

以上的方法通過對患者病案中的醫療實體標簽化或者根據醫療實體對應的醫療代碼進行距離度量,但它們丟失了患者病案中的細節信息.比如僅保留關鍵的疾病分類分期分型信息,而丟失了疾病分布位置以及發展情況這些判斷依據.

醫療實體網絡研究中僅僅考慮了單一醫療實體的影響,忽略了同一醫療實體在不同患者病案場景下的含義可能不同的問題.在患者病案的場景中,病史中存在某種疾病(病史關系)和診療中發現某種疾病(病癥關系)是截然不同的情況,可能是長期存在某種病癥,也可能是疾病復發導致.

針對同一醫療實體在不同患者病案場景下具有不同含義這一問題,本文提出構建基于醫療實體和實體關系的患者病案異構圖嵌入模型.通過學習醫療實體及其不同類別的關系表示,提升相似病案的推薦效果.

1 相關工作

1.1 圖嵌入學習

網絡結構一般包括諸多節點和邊,用于反映事物之間的復雜關系.采用圖嵌入的目的是為了學習網絡中高維向量的低維表示,圖嵌入學習主要應用于節點分類和推薦算法等任務中.網絡表示學習采用低維向量表示網絡中的節點,盡可能地學習網絡中的潛在信息.傳統的網絡表示學習算法主要關注于網絡的結構信息.相關研究工作包括:DeepWalk[7]使用隨機游走來學習潛在的嵌入,將Word2Vec 算法應用于圖中.Node2vec[8]采用通過隨機游走實現深度遍歷和廣度遍歷之間的平衡.LINE (Large-scale Information Network Embedding,大規模信息網絡嵌入)[9]定義了二階相似度來保持圖的結構.GF (Graph Factorization,圖因式分解)[10]將結點內積視作邊權來優化節點向量,達到降維的效果.Struc2vec[11]考慮空間結構的相似性.雖然這些算法一步步地完善節點的潛在結構表示,但僅僅利用網絡中的結構特點,學習到表示向量缺乏對下游任務的支持與擴展.圖嵌入學習的結果對下游任務的效果有較大的影響.現實世界中廣泛存在著異構的網絡,包括不同類型的節點或不同類型的邊.充分利用這些異構信息有助于提高表示向量的表征能力.

目前基于異構網絡的算法主要包括基于矩陣分解的方法以及基于神經網絡的方法.CMF (Coordinate Matrix Factorization,坐標矩陣分解)[12]通過矩陣分解獲取實體與類別之間的潛在聯系,構建更多關系矩陣.KGCN (Knowledge Graph Convolutional Networks,知識圖卷積網絡)[13]通過圖卷積神經網絡對物品之間的不同關系進行建模,提高推薦的多樣性.目前異構圖的研究主要著眼于不同類型節點或者不同類型的邊,同時考慮它們的研究較少.

多數生物醫學網絡上的圖嵌入學習都著眼于藥物[14],蛋白質和疾病之間的關聯.在生物醫學領域內的圖嵌入研究目前主要基于同種類型的關系.GameNet[14]將藥物相互作用知識和患者醫療記錄進行融合,實現對藥物組合的推薦.實際上,醫療領域內醫療實體存在不同類型的關系,而同構網絡學習算法不可以直接應用于這樣的圖網絡中.因此,將患者病案引入醫療網絡,將患者病案與醫療實體的不同關系作為補充信息,可以提升患者病案推薦的效果.

1.2 相似病案

病案數據是我國主要的臨床醫療數據之一.基于醫療數據的相似性比較是醫療數據的預測以及預測建模中的研究方向之一[1].SimSVM[2]使用與新患者相似的臨床記錄對化療后的患者的生存情況進行分類.標準醫療編碼如ICD-10 可以用于概念層次的相似度比較,醫療概念層次模型可以應用于判斷住院天數是否長期,并且針對不同年齡層次進行住院天數的細分[3].在獲取了相似醫療數據后,醫生就可以進行病程的比較,也有助于預測和推理等下游任務[15].雖然這些方法都是基于臨床的診療過程進行研究,但是診療過程中由于臨床中存在事件的先后次序,因此數據之間存在著依賴關系,需要考慮此種關系的影響.

本文將相似度比較按照數據抽取及建模方法分為如表1所示的3 種類型,從醫療數據中提取特征,對醫療數據進行距離度量或者學習醫療數據的表示.PSF (Patient Similarity evaluation Framework,患者相似度評估框架)提出了具有臨床意義的患者距離評價方法,并將有監督方法和無監督方法進行融合來評判心力衰竭診斷的結果[16].PSDML (Patient Similarity Measuring using Deep Metric Learning,基于深度度量學習的患者相似度比較)利用ICD-10 編碼來優化腦卒中疾病的監督距離,并進行kNN (k-Nearest Neighbor,k 最近鄰)分類[17].卷積神經網絡可以用于學習患者臨床記錄表示[18].

表1 醫療數據相似性比較框架

盡管這些方法在各自的疾病領域內具有較大的提升.然而這些方法需要對不同領域疾病進行不同處理[19],并且忽略了現實世界中醫療數據的依賴性,需要我們對實體之間的復雜關系進行建模,學習高維數據的表示.

2 問題描述

為了準確描述面向診療過程的患者病案表示問題,我們對以下概念進行定義.

定義1.患者病案:對于患者,患者病案可以定義為醫療實體以及其關系的集合Pi=.病案中的醫療實體列表經過融合函數就可視作患者的表示.融合函數可以為簡單的算數平均函數或者使用attention機制的加權平均函數.其中e1代表某一醫療實體,n代表存在n個醫療實體.

定義2.醫療實體:患者病案中存在的具有臨床診療意義的醫療術語視作一個醫療實體.

定義3.醫療實體的關系:給定患者病案Pi的病案,假設存在T={t1,t2,···,tk}代表病案與醫療實體的關系類型,若存在醫療實體e,那么該病案與e存在二元關系t=(Pi,e),t∈T.

根據以上概念,可以構建醫療實體網絡,采用圖嵌入算法對醫療實體及其關系進行建模,得到患者病案的低維向量表示,患者病案相似度可以根據患者病案表示計算得到.

定義4.患者病案相似度:給定一個患者病案Pi,可以通過計算其余患者病案表示和患者病案Pi的余弦相似度,得出該患者病案和其余患者病案的相似度分數列表Si={si,1,si,2,···si,i?1,si,i+1···},其中si,1代表患者病案Pi和患者病案P1的余弦相似度,Si代表患者病案Pi對應的余弦相似度分數集合.

3 病案表示模型

針對同一醫療實體在不同患者病案場景下具有不同含義這一問題,本文在關系建模中引入病案節點,將病案節點與臨床醫療實體節點劃分為二部圖,構建基于醫療實體和實體關系的患者病案異構圖嵌入模型,如圖1所示.

圖1 基于隨機游走的病案表示學習

本文將患者病案的表示視作醫療實體經過某種融合函數的結果,由于每個醫療實體包含了一個節點信息(醫療實體)和一些帶有類型屬性的邊(醫療實體關系),我們需要學習醫療實體及其關系的表示.

3.1 醫療實體表示

醫療實體表示可以通過構建醫療實體的共現來獲取.如圖1(a)圖所示,對于存在于同一病案的不同醫療實體,我們將他們視作共現,病案中每個醫療實體兩兩之間包含了共現關系,可以構建出醫療實體網絡,如圖1(b)所示.通過隨機游走的方法獲取醫療實體的序列,采用skip-gram 進行更新,可以獲得醫療實體的表示,如圖1(c)下圖所示.在實際醫療場景中,醫療實體存在不同含義,本文把不受醫療場景影響的實體表示記為醫療實體的公共表示,而受到其影響的實體表示記為基于關系的實體表示.為了建模這種醫療實體與患者病案的關系,本文在圖中引入了患者病案節點.

3.2 醫療實體與患者病案

引入病案節點后,病案與醫療實體構成的醫療網絡變為異構圖網絡,包含異構的節點,即病案節點與醫療實體節點類型不同,以及異構的邊,即兩種節點之間可以通過不同的關系連接.醫療實體與患者病案的關系類型不同,我們可以分別為每個關系類型學習一個表示,如圖1(c)上圖所示.關系之間并不是完全獨立的,因此需要對相互之間的影響進行建模.

對于每個醫療實體,為每種類型的關系提出一個公共表示和基于關系的表示,如式(1)所示.其中ei,e代表醫療實體的公共表示,ei,r代表醫療實體關系的表示.

醫療實體的公共表示不受醫療實體關系的類別變化的影響.在異構邊條件下,需要分別對醫療實體的關系表示進行學習,通過聚合鄰居節點獲取關系t下的醫療實體表示,經過k次聚合后,此時對應的醫療實體表示如式(2)所示.

其中,j代表相鄰的節點,N是相鄰節點的個數,σ是激活函數,ωk是需要訓練的參數.由于我們不知道醫療實體關系的聯系,利用self-attention 建模不同醫療實體關系之間的權重,依據上述公式,醫療實體ei基于關系的表示如式(3)所示.

其中,t為醫療實體的關系類型.對于任意t類型,隨機游走序列中的節點e,假設它的位置為i,我們將ei?b,···,ei?1,ei+1,···,ei+b視作它的鄰居節點.其中,b是窗口大小的一半.

為了建模異構的病案節點和醫療實體節點,我們預先設置序列的隨機游走模式,比如醫療實體-病案-醫療實體,獲取隨機游走的轉移概率.因此,給定醫療實體的序列,我們的目標是最小化如式(4)所示的目標函數.

對于每一個邊,如式(5)所示,由醫療實體ei生成醫療實體ej的條件概率可利用Softmax 函數獲得.

其中,e′是醫療實體上下文的向量表示.最后,通過負采樣來近似目標函數,如式(6)所示.

其中,σ是Sigmoid 函數,可以表示成σ(x)=1/(1+exp(?x))的形式.

由于我們的模型是基于隨機游走的方法,假設我們有T個關系類型的子網絡和E個節點,模型的時間復雜度為O (TE).模型的內存復雜度是O ((d+dt·T)·E).

3.3 患者病案表示

最終我們從醫療網絡中可獲取醫療實體節點和患者病案節點兩類節點的表示.患者病案表示對病案中所有醫療實體的節點表示經過算術平均或者加權平均計算獲取.如果直接采取患者病案節點作為患者病案的表示會丟失醫療實體之間的共現信息.此外,采用這種方式,我們不僅可以獲取患者病案的全局表示,還可以根據不同的醫療實體關系獲取不同醫療場景下的患者病案表示.由于患者病案是不定長的醫療實體集合.通過融合函數對不同醫療實體表示進行處理,便可以獲取同一維度的患者病案.通過醫療實體獲取患者病案表示的公式如式(7)所示.

其中,g函數可以為簡單算數平均或者加權平均函數.給定一個患者病案Pi,推薦任務的目標是推薦給醫生個有序的病案列表.為了完成這個任務,對于患者病案Pi以外的患者病案均計算出一個分數,這個分數值是衡量患者病案Pi,和其他患者病案之間的相似度.最后將相似病案推薦給當前的患者.患者病案之間的相似度分數定義如式(8)所示.

最后,根據相似性分數的相對大小排序,就實現了基于患者病案表示的相似病案推薦.

圖2 病案表示的建模流程

4 實驗

本節主要介紹實驗,包括實驗的數據集、評測指標、實驗結果以及結果分析等多個方面的內容.將未考慮醫療實體關系類型的圖嵌入算法和所提出的方法進行對比.選取圖嵌入算法中具有代表性的方法,包括基于隨機游走的DeepWalk 算法、基于矩陣因式分解的GF 算法以及基于神經網絡的LINE 算法.

圖2展示了本文提出的患者病案表示方法的建模主要流程.首先,確定醫療實體的標注標準并進行人工標注.使用Bi-LSTM-CRF 模型對數據集進行訓練,以便從病案中提取醫療實體.其次,通過圖嵌入算法學習患者病案對應的不同種醫療實體關系以及學習不同關系的相互作用.最后,將病案中醫療實體列表經過融合函數作為患者病案表示.

4.1 實驗數據集

本文的患者病案數據是來自于某三甲醫院的真實世界數據.由于真實世界數據并非為了研究而特意收集,存在大量的冗余以及缺失的字段,存在完整性問題,并且難以獲取結構化的數據信息,醫療場景下的患者病案存在大量的醫療術語,并且患者病案的表述因人而異.

目前國內針對患者病案尚沒有通用的框架,難以適應不同源的數據.我們采用命名實體識別技術對患者病案進行信息抽取,便于從自由醫療文本中獲取醫療實體以及其關系.原始醫療數據消除敏感性信息后,如表2所示.經過Bi-LSTM-CRF 模型的訓練后,能夠自動獲取病案中的醫療實體信息.表2中加粗字段為輸出對應的醫療實體.

表2 患者病案樣例

首先通過關鍵字從數據中選取乳腺疾病的患者.經過人工標注,數據集中包含1002 個患者以及285 146個醫療實體.將其中80% 的數據作為訓練集,20%的數據作為測試集,并設計了如表3所示的醫療實體分類.

表3 醫療實體分類

4.2 評價方法

患者最終的臨床診斷可以用來評價患者表示學習模型的效果.根據出院的診療結果以及病理結果將患者分類.遵循乳腺疾病發展規律,依據診斷的嚴重程度進行劃分.對于患者病案,本文在實驗中使用ROC 和F1 作為相似任務中常用的評價標準.值越高,相似病案的推薦效果更好.本文采用DeepWalk 作為基準方法,實驗結果如表4所示.

表4 患者表示學習結果

從實驗結果可以看出我們的方法對于患者相似度衡量的結果優于現有的算法,證明了該方法的有效性.

4.3 參數敏感性

患者病案表示模型中實驗參數對實驗結果有重要的影響,因而需要對參數敏感度進行分析.本文同時對于向量維度、隨機游走步數、類型維度對實驗結果的影響進行探討,并對實驗結果的可能因素進行分析,實驗結果如圖3所示.

從圖3中可以看出選擇的參數均對結果有一定的影響.患者病案表示模型基于隨機游走,因此需要充分考慮對于隨機游走過程中的步長和步數,這里本文選取20 作為步長和10 作為步數.步數是對一個節點的不同鄰居進行反復學習的數目,進而獲取完整的節點信息,如果節點較為稀疏或造成一定的過度學習.一般來說,步長越長,可以學習到更遠的結構信息,從而把握全局的結構.在實際中,遠處鄰居對節點表示影響不大,所以步長不宜設置過大.由于更大的維度可以容納更多的信息,起初隨著維度的增大可以產生更好的結果.但是當維度到達某一階段后,對于結果產生了負面的影響,這可能是由于高維信息增加了模型的復雜度,并且考慮到高維信息會導致下游任務耗費更多時間,因此選擇100 維作為表示維度.對于類型維度而言,本文設置其大小為30,增加外部類型信息可以擴充信息量,進而提高模型的準確率.但類型維度過高會造成對于補充信息的過分依賴,反而忽視了原本的主要表示信息.

圖3 參數敏感性

5 總結

本文提出了一種面向醫生的患者病案推薦算法,通過在醫療實體網絡引入患者病案節點,將患者病案對應的不同種醫療實體關系進行建模,通過異構圖嵌入方法獲取了在患者病案相似度衡量中更為優越的病案表示,最大程度地利用了數據當中的信息,并基于此實現了患者病案推薦.本方法在各個評價指標上均有上升.在真實世界中,由于醫療實體的數目繁多,難以全部涵蓋于模型中,因此存在冷啟動的問題.下一步,將會考慮利用時間因素進行建模,對患者入院后的醫生的每個診斷后進行在線學習,提高實時性能.

主站蜘蛛池模板: 91麻豆精品国产91久久久久| 人妻无码中文字幕一区二区三区| 亚洲国内精品自在自线官| 日本五区在线不卡精品| 中文字幕乱码二三区免费| 亚洲成人一区二区| 国产男人的天堂| 欧美97色| www.99在线观看| 日韩av电影一区二区三区四区| 国产丝袜无码一区二区视频| 亚洲91精品视频| 人妻丝袜无码视频| 精品三级网站| 92午夜福利影院一区二区三区| 91偷拍一区| 国产又黄又硬又粗| 精品视频第一页| 伊在人亚洲香蕉精品播放| 中文字幕 日韩 欧美| 日韩不卡免费视频| 亚洲精品国产日韩无码AV永久免费网 | 色综合天天操| 精久久久久无码区中文字幕| 丁香婷婷久久| 人人妻人人澡人人爽欧美一区| 黄片一区二区三区| 久久免费精品琪琪| 亚洲一区黄色| 国产视频大全| 中文字幕波多野不卡一区| 免费观看三级毛片| 99热这里只有精品在线观看| 日韩欧美国产精品| 午夜精品影院| 青青草国产免费国产| 国产一在线| 亚洲三级影院| 人妻丰满熟妇AV无码区| 67194亚洲无码| 免费国产小视频在线观看| 亚洲精品男人天堂| 欧美精品一二三区| 亚洲男人的天堂在线| 狠狠做深爱婷婷久久一区| 亚洲欧美精品一中文字幕| 在线人成精品免费视频| 欧美日韩理论| 亚洲一区二区三区国产精华液| 欧美综合中文字幕久久| 特级精品毛片免费观看| 国产精品视频观看裸模| 欧美亚洲欧美区| 美女免费黄网站| 亚洲成a人片在线观看88| 欧美性天天| 欧美人与牲动交a欧美精品| 国模粉嫩小泬视频在线观看| 97成人在线视频| 欧美日本二区| 性视频一区| 色AV色 综合网站| 99ri精品视频在线观看播放| 欧美笫一页| 国产福利影院在线观看| 日韩a在线观看免费观看| 在线看AV天堂| 1024国产在线| 亚洲欧美日本国产专区一区| 欧美在线视频不卡第一页| 中文字幕有乳无码| 中国一级特黄大片在线观看| 欧美精品二区| 亚洲国产天堂在线观看| 欧美激情网址| 99这里精品| 色偷偷综合网| 国产白丝av| www欧美在线观看| 欧美一区二区人人喊爽| 婷婷99视频精品全部在线观看| 香蕉精品在线|