999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于位置降噪和豐富語義的電子病歷實體關系抽取

2021-10-12 04:39:24李麗雙袁光輝劉晗喆
中文信息學報 2021年8期
關鍵詞:語義模型

李麗雙,袁光輝,劉晗喆

(1. 大連理工大學 計算機科學與技術學院,遼寧 大連116024;2. 遼寧省腫瘤醫院(中國醫科大學腫瘤醫院) 重癥醫學科,遼寧 沈陽 110042)

0 引言

電子病歷文本中含有豐富的臨床醫學信息,從中抽取實體之間的關系是一項重要任務,可以為臨床數據庫的構建、醫學知識圖譜生成和臨床輔助決策等提供數據支持。目前,電子病歷文本中實體關系抽取的研究大多數是句子級的,主要研究從電子病歷中抽取疾病、檢查和治療這幾類實體間的關系。

應用于電子病歷領域的實體關系抽取方法主要有三種。早期,研究者使用的是基于規則的方法。例如,Harkema等[1]提出一種上下文算法,該算法首先獲取出現在上下文中的詞法線索,然后依據此詞法線索推斷臨床報告中提到的臨床條件狀態,對于包含給定條件的臨床報告,該算法取得了很好的效果。基于規則的方法主要依賴專業人員制定的規則抽取信息,但實際運用中研究人員往往難以歸納出所有的語法和規則,所以性能一般較差。隨著機器學習技術的不斷發展,利用淺層機器學習技術進行電子病歷文本實體關系抽取的方法[2-5]逐漸增多。這些方法主要依賴于手工構建的一些特征,如詞匯、語境、詞位置信息、塊標記等。例如,Rink和Harabagiu[3]采用SVM的方法,首先利用詞匯、標記和相關領域的語料資源構建特征,然后將構建的特征用SVM進行實體關系分類,該方法在 2010年i2B2/VA關系分類的挑戰賽中取得了最好成績?;跍\層機器學習的方法,過于依賴人工構建的特征,且這些特征需要外部自然語言處理工具生成,如詞性標注和句法分析工具等,因此,模型性能受外部因素影響較大。相比之下,基于深度學習的方法可以利用模型自動學習特征的構建,且在電子病歷關系抽取任務中取得了較好的性能。例如,He等[6]先利用電子病歷領域語料訓練得到詞向量,然后將詞向量送入多窗口的卷積神經網絡(Convolutional Neural Networks,CNN) 提取特征,最后結合添加了類別約束的損失函數訓練模型,在2010 年 i2B2/VA 關系抽取語料上F1值達到了69.7%。Raj等[7]提出了一種基于雙向長短時記憶 (Bi-directional Long-Short Term Memory,BiLSTM)和多層池化的模型,模型首先利用BiLSTM 編碼句子信息,對編碼后的信息以最大池化的方式抽取實體相關詞特征,然后將池化后特征送入CNN 模型抽象出更高維特征,并對此高維特征再次以最大池化的方式過濾,最后將過濾后的特征送入全連接層做分類,在2010年i2B2/VA關系抽取語料上F1值為 64.38%。

基于深度學習的方法雖然能夠自動學習構建特征,但是構建特征的質量容易受到詞向量的影響,而電子病歷領域由于可用訓練語料缺少且文本半結構化,文本所含專業詞匯較多等領域特性,使病歷文本的語義不能有效表達。例如,“ID-afebrile, no wbc, started on Azithromycin for COPD flare”,類似的病歷文本會使詞向量訓練難度增大,過多的專業詞匯也使得通用領域的詞向量不能被有效使用。因此,當前的深度學習模型應用在電子病歷領域的效果并不是很好。

Li等[8]和Luo等[9]通過引入 MIMIC-III[10]臨床醫學數據擴充詞向量的訓練語料,在一定程度上緩解了語料不足問題,但由于醫學領域知識的豐富性,病歷文本中的醫學實體仍不能被有效地表示。事實上,實體之間關系的判斷往往不依賴于某些專業詞匯及實體本身的語義,而是取決于實體所在上下文中與實體相關的常用詞。例如,“Her pain was under good control with PO pain medications and she was deemed suitable for discharge”。其中,“Her pain”是“problem”類型的實體,“PO pain medications”是“treatment”類型的實體,實體之間的關系類型是 TIP(treatment 改善了 problem),通過關鍵詞“was under good control”就可準確判斷出上述實體之間的關系。綜上所述,如何找出與實體相關的常用詞,從而引入通用領域語料的豐富語義,是解決電子病歷領域詞表示匱乏的更好方法。

實體在句子中的位置信息對實體關系的判斷至關重要。目前,對實體位置信息的利用方法主要有兩種: ①根據實體位置找到實體邊界對句子分段,如Zeng等[11]和Li等[12]等; ②構造每個詞與實體的相對位置向量,如 Cai等[13]和Gehring等[14]等。根據實體位置對句子分段的方法使用實體位置信息的粒度過粗,不能在詞粒度上使用;第二種方法實現了更細粒度上實體位置信息的利用,但詞相對位置向量引入了自身所包含的噪聲信息。位置向量由多維特征組成,其與詞向量的生成是獨立的,直接與詞向量結合后會產生噪聲,影響模型對詞語義的識別。一個詞的位置向量衡量的是該詞在距離上與實體的相關程度,因此位置向量可以由詞向量線性表示,即可以將位置向量轉化為詞向量的權重分數,從而降低位置向量噪聲對詞向量的影響。然而,在一句話中,距實體相同位置的詞因為其本身詞義和上下文環境的不同,與實體的相關程度是不同的,距離信息不能直接轉為詞權重。

基于上述問題,本文提出一種基于位置降噪和豐富語義的電子病歷實體關系抽取模型。模型首先將位置向量與電子病歷領域語料訓練的詞向量拼接送入BiLSTM,利用BiLSTM將位置信息與詞語義信息融合;然后對融合后的信息通過注意力機制計算詞與實體的相關度作為詞的權重,再將權重與大規模通用領域語料訓練的詞向量結合,從而實現位置向量降噪和通用領域語料豐富語義的引入;最后采用CNN提取相關詞特征進行實體關系類別的判斷。在2010年i2B2/VA關系抽取語料上的實驗結果表明,本方法可有效地引入外部語料的豐富語義并降低位置向量噪聲對模型的影響,F1值為76.47%,達到了目前先進水平。

1 方法

本文提出一種基于位置降噪和豐富語義的實體關系抽取模型,模型架構如圖1所示,主要包括以下部分。

圖1 模型架構

(1) 輸入層: 預處理后的電子病歷領域語料。

(2) 嵌入層: 轉換輸入層語料為向量表示。

(3) 注意力層: 計算每個詞到實體的向量投影,然后將此投影向量與實體向量模的比值作為詞與實體的相關分數,最后將詞與兩個實體的相關分數做乘積得到該詞的最終權重,通過此權重實現位置向量降噪和通用領域語料豐富語義的引入。

(4) 特征編碼層: 利用CNN 和映射層提取相關詞特征。

(5) 輸出層: 根據提取到的特征判斷實體關系類別。

下面介紹模型的實現細節。

1.1 輸入層

輸入層為預處理后的電子病歷文本語料。在病歷文本中,一句話可能包含多個實體,每個實體可能參與多個關系,例如,“cxr no focal consolidation or edema, old biapical scarring ABG 7.34/79/74 U / A negative”,其中,“cxr”和“ABG”是“test”類型的實體,“edema”和“old biapical scarring”是“problem”類型的實體,實體“cxr”與實體“edema”的關系是“TeRP”(測試顯示出醫療問題)。為了能夠更準確地判斷每一個實體可能與其他實體存在的關系,本文在實體類型的約束下將實體兩兩配對,分別對每一組實體進行關系識別。進一步考慮,電子病歷中的實體大部分是由多個單詞組成的,且實體語義對實體關系的判斷影響不大,因此本文將實體直接替換成實體類型,這樣也便于計算跟實體相關的詞的權重。例如,上句話替換“cxr”與“edema”后為“Test no focal consolidation or problem, old biapical scarring ABG 7.34/79/74 U / A negative”,將替換后的句子作為模型的輸入。

1.2 嵌入層

嵌入層的作用是將輸入層的語料轉換為向量表示,共包含兩種表示方式。第一種是將電子病歷領域語料訓練的詞向量和位置向量拼接,用于詞的注意力權重計算。詞向量的訓練采用Word2Vec[15]的方法, 位置向量由不同頻率的正弦和余弦函數生成[16],如式(1)、式(2)所示。

其中,PE為位置向量編碼矩陣,pos表示詞與實體相對位置,p為位置向量的維度,l表示位置向量的位置,奇數位置添加余弦變量,偶數位置添加正弦變量。雖然領域語料訓練得到的詞向量語義表示不夠豐富,但是詞向量之間的語義關聯性更高,更容易獲取詞之間的依賴關系。這里將位置向量和詞向量結合是為了學習到詞在位置上與實體的關聯信息。設原句子序列中詞的嵌入向量表示分別為X={x1,x2,…,xi,…,xn},xi∈Rd+2p為句子中第i個詞的嵌入向量表示 (i∈[1,n]),n為句子長度,d表示詞向量的維度。第二種嵌入向量表示方式是采用來自網絡爬蟲獲得的通用領域語料訓練的詞向量(840B標記,2.2M詞匯),用于詞特征提取。設原句子序列中的詞向量分別表示為S={s1,s2,…,si,…,sn},si∈Rk為句子中第i個詞的向量表示(i∈[1,n]),k表示詞向量維度,n表示句子長度。

1.3 注意力層

注意力層計算句子中每個詞與兩個實體之間的語義相關度,找出與實體相關的常用詞。首先將電子病歷領域語料訓練的詞向量和位置向量拼接送入BiLSTM,編碼句子信息。BiLSTM由三個門控單元組成,可以有效減弱長序列的梯度消失和爆炸,學習長距離詞之間的依賴信息。ht(f)和ht(b)表示t時刻BiLSTM的前向和后向輸出,ht= [ht(f),ht(b)]作為最終輸出。

ht(f)=BiLSTM(ht-1,xt)

(3)

ht(b)的計算方式同ht(f),區別是ht(b)的計算方向是反向的,得到ht之后對BiLSTM的隱藏層輸出通過注意力機制計算詞與實體的相關度。衡量兩個向量相關度的計算方式有余弦相似度、皮爾遜相關系數等,本文基于余弦相似度先計算出詞與實體隱層輸出向量的余弦夾角,并在此基礎上考慮向量的模大小,使用詞對應的隱層輸出向量到實體對應隱層輸出向量的投影與后者模的比值作為詞與實體的相關分數,總體計算如式(4)、式(5)所示。

(4)

αt=ft(1)*ft(2)

(5)

通過上述的注意力機制,綜合詞語義信息和詞與實體的相對位置信息,將之轉化為詞權重,再將詞權重與不含位置信息的初始詞向量相乘,得到加權的詞向量,這樣既不會改變詞向量的分布,又可以有效利用位置信息,以權重的方式實現位置向量降噪。此時的權重也標識了詞對實體關系判斷的貢獻度大小,權重大的詞對實體關系判斷貢獻度比較大,且一般是常用詞匯,可以用通用領域語料訓練的詞向量表示,由此可引入通用領域語料的豐富語義。設原句子序列中的詞權重分別表示為α={α1,α2,…αi,…αn},αi為一個實數,表示第i個單詞的權重,用式(6)計算特征編碼的輸入:

U=S·α

(6)

其中,“·”表示詞向量與其對應的詞權重相乘,S為通用領域語料訓練得到的詞向量,U即為特征編碼部分的最終輸入。

1.4 特征編碼層

1.5 輸出層

輸出層的作用是將批正則化后的隱藏層β作為最終特征表示送入全連接層做分類。輸出結果y屬于c(c∈C) 種類型的概率P(y=c),如式(9)所示。

P(y=c)=softmax(Wβ·β+bβ)

(9)

其中,Wβ和bβ為權重矩陣和偏置,全連接層的激活函數為softmax,C為實體關系類別的集合,之后取最大概率的標簽c作為最終類別。

2 實驗

2.1 實驗數據集

實驗所用的數據集采用的是2010年i2B2/VA臨床關系抽取語料,原始數據集共包含871份標注語料,本文使用的是部分數據集,共426 份,其中,訓練集170份,測試集256份。數據集關系類別說明如表1所示。

表1 數據集關系類別說明

2.2 實驗設置

在本文的模型中,優化方法為Adam,使用交叉熵損失函數,為了更好地訓練和驗證模型,和大多數方法一樣,本文把訓練集和測試集放在一起做了五折交叉驗證。電子病歷語料訓練的詞向量維度是200,位置向量維度是50,BiLSTM單向隱層大小為128,通用領域語料訓練的詞向量維度是300,CNN采用一維卷積,有四個窗口,窗口大小從1到4,通道數為64,隱藏層大小為32,batch為128,學習率為0.001。

2.3 實驗結果與分析

為了驗證所提出方法的有效性,本文做了多個對比實驗。

2.3.1 消融實驗

此模塊的設計,必須充分調研各類用戶的可能需求情況,利用關系數據庫系統技術中的視圖原理,設計出不同用戶的不同數據處理模式即子模式。同時,在具體各子模式中對數據的查詢與處理過程,還可以利用關系數據庫系統中提供的諸如數據統計、求和、求最大值、求最小值等函數功能以及關系數據庫合并等算法來實現對已有數據、知識的重組,對關聯知識的挖掘等增值服務功能。

如表2所示,模型基線是將專業領域語料訓練的詞向量拼接位置向量做輸入,然后將BiLSTM的輸出直接送入CNN提取特征,這里的專業領域語料是指i2B2/VA臨床關系抽取語料。

從表2中結果可以看出:

表2 消融實驗F1值 (單位: %)

(1) 加入位置向量降噪后,模型性能提升了 2.5%。位置向量降噪的實現是利用注意力機制將 BiLSTM的隱層輸出轉化為權重,然后將該權重應用于對應的專業領域語料訓練的詞向量(不含位置向量),最后將加權的詞向量送入CNN提取特征。模型效果提升的主要原因是BiLSTM的隱層輸出中包含著位置向量噪聲,將其送入后續模型提取詞特征時,位置向量噪聲會影響模型對詞語義特征的提取,從而降低模型的性能。而采用注意力機制將權重與專業領域語料訓練的詞向量結合后,模型只對添加權重后的詞向量做語義識別,不會受位置向量噪聲的影響,即使權重存在一定的偏差,也不會改變詞向量的語義特征分布,而且后續詞特征提取的模型可以減弱權重偏差帶來的影響,因此模型取得了更好的結果。

(2) 語義引入后,模型F1值提升了3.47%,語義引入是將權重與對應的通用領域語料訓練的詞向量相結合。這里選用通用領域語料的原因有兩個: ①通用領域可用訓練語料比較充足; ②我們的目標是根據注意力機制選出的常用詞匯來判斷實體關系類別,通用領域語料訓練得到的常用詞匯的語義表示更加精確。雖然通用領域語料不能表示專業領域的某些專業詞匯和符號,但是經過注意力機制的選取,與實體關系判斷相關的常用詞將被賦予更高的權重,因此模型可以提取到用于實體關系判斷的豐富語義特征。圖2顯示了添加注意力機制后每個詞的注意力權重分布,顏色的深淺表示注意力權重的大小。以第一句話為例,其中,“problem”和“treatment”表示處理后的實體,關鍵詞“was”和“control”被賦予的權重最高,而通過這兩個關鍵詞,模型就可以很好地判別出兩個實體的關系類型為“TrIP”。

圖2 注意力權重分布

2.3.2 位置向量噪聲分析

消融實驗中添加了位置向量降噪的模型,雖然性能較基線模型有所提升,但是并不能直觀地從實驗結果中觀察出位置向量是否含有噪聲,為了驗證位置向量噪聲的存在性及其對模型性能的影響,本文做了以下實驗,結果如表3所示。

表3 位置向量噪聲實驗F1值 (單位: %)

首先,假設位置向量不含有噪聲,那么將注意力層得到的權重與含有位置向量的語義特征結合時,模型性能就不會因受到位置向量的影響而降低,所以,本文將注意力層得到的權重分別與專業領域語料訓練的詞向量、專業領域語料訓練的詞向量拼接位置向量、BiLSTM隱層輸出結合,以觀察模型性能。從表3的結果可以看出,位置向量含有噪聲且會降低模型性能。

(1) 當權重與BiLSTM 輸出結合時,模型性能最差,主要原因是BiLSTM在處理專業領域語料嵌入時,會將詞向量和位置向量融合到一起,形成隱藏層輸出,對于加權后的隱藏層輸出,其不僅自身包含位置向量噪聲信息,由此計算得到的權重也會存在一定的偏差,將之送入CNN提取詞特征時,由于位置向量已經與詞向量交互融合,模型對詞語義特征的提取會受到位置向量噪聲的影響,因此最終性能較差,F1值為70.22%。

(2) 當權重與專業領域語料嵌入結合時,模型性能有所提升。嵌入向量由專業領域語料訓練的詞向量和位置向量拼接而成,拼接后的向量前半部分仍是詞向量的真實語義,且詞向量與位置向量的相對位置是固定的,在CNN(一維卷積)模型的訓練下,可以減弱后半部分位置向量對詞語義特征提取的影響,因此模型性能更好,F1值為 71.90%。

(3) 權重直接與專業領域語料訓練的詞向量結合時模型效果最好,此時模型只提取加權后的詞特征,不會受到位置向量的影響,F1值提升到73.00%。

綜上可知,位置向量本身存在一定的噪聲,將之直接運用于模型中時會降低模型性能。

2.3.3 BERT對比實驗

BERT[17](Bidirectional Encoder Representation from Transformers)是一種預訓練模型,其輸出也可以被看作一種具有豐富語義的詞向量。如表4所示,我們做了兩組基于BERT的對比實驗。

表4 BERT對比實驗F1值 (單位: %)

第一組實驗結果只用了BERT模型,將BERT對應兩個實體位置的輸出向量拼接,然后對拼接向量做分類。第二組實驗是用BERT輸出替換本文模型中通用領域語料訓練的詞向量,由此我們的模型可以引入BERT的豐富語義。從實驗結果可以看出: ①只使用預訓練模型BERT也可以取得很好的結果,最終F1值為82.03%; ②我們的模型在引入BERT的豐富語義后可以取得更好的結果,因為BERT輸出的詞向量是一種動態詞向量,每個詞的語義不是固定不變的,在不同的句子中有不同的含義,這樣的表示更貼合句意。此外,用來訓練BERT的語料更加豐富,所以其可以取得比通用領域語料訓練的詞向量更好的結果。

2.4 與現有結果的比較

本文將實驗結果與相關工作做了對比,除Luo等[9]用的是全部數據集外,其他模型與本文所用數據集相同且用了五折交叉驗證(表5)。

表5 對比實驗結果

由表5所示,本文提出的方法性能最優,模型F1值達到76.47%。Raj等[7]使用不添加任何額外特征的詞向量,通過 LSTM 和 CNN 結合并以最大池化的方式提取特征,最終F1值為 64.38%。Tang等[19]引入位置向量,將位置向量和詞向量拼接,然后送入改進的長短時記憶網絡,再經過多層注意力機制判斷實體關系類別,最終F1值為 71.16%。Luo等[9]在添加位置向量的基礎上引入 New York Times[18]和 MIMIC-III 語料訓練詞向量,使用分段 CNN 模型提取實體關系特征,在全部數據集上測試,最終F1值達到74.20%。與之相比,Li等[20]也利用了位置向量并引入 MIMIC-III 語料訓練詞向量,然后使用最短依存路徑信息捕獲實體相關上下文,使模型學習到語法特征,最終F1值達到74.34%。

本文模型利用詞與實體相對位置信息生成位置向量,通過注意力機制提取位置與詞的關聯信息,再將之以權重的方式與初始詞向量相結合,從而實現了位置向量降噪。在實現位置向量降噪的基礎上,本文進一步引入通用領域語料訓練的詞向量,豐富電子病歷文本的語義表示,模型的F1值達到76.47%,取得了當前的最優水平。

3 結論

電子病歷領域的關系抽取任務對醫療知識圖譜的構建、臨床輔助決策、智能醫療問答等都有不可或缺的作用。在實體關系抽取任務中,位置向量有助于實體關系類別的判斷,但也包含噪聲信息,本文提出一種位置降噪方法,在利用位置信息的同時降低了噪聲對模型性能的影響。而對于一些專業領域語料,由于詞語義表示匱乏,本文提出了利用通用領域語料豐富語義的方法,豐富了詞語義表達,在2010年i2B2/VA關系抽取語料上取得了目前最好的結果。綜上所述,本文提出的方法改善了電子病歷領域實體關系抽取的性能。

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: h视频在线播放| 国产va在线| 亚洲综合色吧| 欧美国产精品不卡在线观看| 思思热在线视频精品| 亚洲日本中文字幕乱码中文| 亚洲免费人成影院| 91区国产福利在线观看午夜| 久久免费观看视频| 日本高清成本人视频一区| 精品91视频| 国产91特黄特色A级毛片| 风韵丰满熟妇啪啪区老熟熟女| 精品久久久无码专区中文字幕| 高h视频在线| 99热这里只有精品在线播放| 日韩精品毛片| 亚洲看片网| 亚洲欧美自拍视频| 国产在线一区视频| 97久久超碰极品视觉盛宴| 天天爽免费视频| 免费看美女毛片| 国产欧美在线观看视频| 波多野结衣视频网站| 青青青草国产| 国产精品手机在线观看你懂的| 91无码人妻精品一区| 人妻一本久道久久综合久久鬼色| 亚洲第一视频网| 无码 在线 在线| 欧美在线伊人| 亚洲国产成人麻豆精品| 国产乱人视频免费观看| 香蕉eeww99国产在线观看| 亚洲日韩第九十九页| 91小视频版在线观看www| 国产在线视频福利资源站| 91福利在线观看视频| 国产日本欧美亚洲精品视| 国产乱子伦精品视频| 99re热精品视频国产免费| 在线精品视频成人网| 97久久超碰极品视觉盛宴| 中文字幕欧美日韩| 夜夜爽免费视频| 成人福利在线免费观看| 精品自窥自偷在线看| 无码AV高清毛片中国一级毛片 | 午夜精品福利影院| 天堂网国产| 亚洲一区国色天香| 人妻中文字幕无码久久一区| 精品国产免费观看一区| av无码久久精品| 男女猛烈无遮挡午夜视频| 四虎影视8848永久精品| 99热6这里只有精品| 久久鸭综合久久国产| 91欧洲国产日韩在线人成| 成人小视频网| 久久 午夜福利 张柏芝| 狠狠色成人综合首页| 国产超碰一区二区三区| 日韩不卡高清视频| 亚洲综合久久一本伊一区| 日韩毛片免费| 国产精品一区在线麻豆| 一区二区日韩国产精久久| 中国一级特黄视频| 国产精品私拍在线爆乳| 日韩成人在线网站| 中文字幕无码中文字幕有码在线| 国产av无码日韩av无码网站| 成人a免费α片在线视频网站| av一区二区三区在线观看| 欧美专区日韩专区| lhav亚洲精品| 国产亚洲欧美在线中文bt天堂| 最新国产在线| 91成人在线观看视频| lhav亚洲精品|