融合雙向GRU與注意力機制的醫療實體關系識別

2020-06-18 03:42:14張志昌張瑞芳張敏鈺

計算機工程 2020年6期

張志昌,周侗,張瑞芳,張敏鈺

(西北師范大學計算機科學與工程學院,蘭州 730070)

0 概述

電子病歷(Electronic Medical Records,EMR)是醫務人員使用電子醫療系統產生的文字、符號、圖表、圖形、數據和影像等數字化信息,并將其進行存儲的醫療記錄[1]。隨著EMR的大量使用,人們對其認識也逐漸完善,它不僅包括患者的一些臨床信息,如檢查結果、臨床診斷以及不良反應等,還包括豐富的醫療實體[2]。如何在非結構化的病歷文本中抽取有價值的醫療信息,建立可用于臨床決策支持的醫療知識庫,成為自然語言處理(Natural Language Processing,NLP)領域的研究熱點。實體關系抽取是NLP信息抽取技術中的基本任務,也是構建知識庫和知識圖譜的關鍵方法[3]。從EMR文本中挖掘醫療實體以及實體間的語義關系,對于推動EMR在醫療健康服務中的應用具有重要意義。實體關系抽取最早被消息理解會議(Message Understanding Conference,MUC)[4]評測會議引入,直至2010年,I2B2/VA在NLP挑戰臨床記錄中提出關于英文EMR的醫療實體關系抽取[5],使得EMR中的醫療實體關系抽取成為了研究熱點。但在中文EMR方面,公開的評測以及研究成果相對較少,已有的關系抽取方法依賴于機器學習算法,且需要構建大量的手工特征。近年來,在不依賴手工特征條件下,神經網絡方法在關系抽取任務中取得了較好的性能,但是常見的關系抽取是以句子作為單獨的處理單元,沒有考慮到EMR語料庫中部分語料的實體關系標簽標注錯誤,影響分類效果。

本文提出一種雙向門控循環單元(Gated Recurrent Unit,GRU)和雙重注意力機制結合的深度學習方法。該方法構建一個雙向GRU和雙重注意力機制結合的實體關系抽取模型,利用雙向GRU學習字的上下文信息,獲取更細粒度的特征。通過字級注意力機制提高對關系分類起決定作用的字權重,利用句子級注意力機制學習更多語句的特征,降低噪聲句子的權重,以有效解決標簽標注錯誤問題,提高分類器效果。

1 相關研究

目前,大多數關于實體關系抽取的方法是在開放域上進行的,如新聞報道、博客以及維基百科等[6]。在開放域上進行關系抽取研究的最大難點在于語料內容沒有固定的結構,早期的實體關系抽取研究是基于有監督學習的方法,如基于特征工程、核函數以及條件隨機場[7]的方法。文獻[8]在MUC-7評測會議中,對原始數據進行統計并提取特征來進行實體關系抽取,實驗過程中取得了較高的F1值。文獻[9]利用支持向量機的方法進行關系抽取,這類方法依賴于人工構建手工特征,需要標注大量的訓練語料,耗時耗力,且泛化能力差。針對此局限性,文獻[10]提出遠程監督的思想,通過將文本與大規模知識圖譜進行實體對齊,有效解決關系抽取的標注數據規模問題。文獻[11]首先使用循環神經網絡來解決關系抽取問題,利用句法結構得到句子的向量表示并用于關系分類,但沒有考慮到實體在句子中的位置和語義信息。文獻[12]利用卷積神經網絡進行關系抽取,采用詞向量和詞位置向量作為輸入,通過卷積、池化得到句子表示,使得在關系抽取過程中考慮到句子中的實體信息。文獻[13]提出一種基于最短依存路徑表示文本的深度學習方法,能夠準確地抽取實體關系。

醫療領域的關系抽取與開放域的關系抽取有所不同,EMR是一種半結構化的文本數據,包含大量的專業術語、縮略詞等。2010年,I2B2/VA評測引入了英文EMR的信息抽取任務[5],定義了三大類醫療實體關系:1)醫療問題和治療的關系;2)醫療問題和檢查的關系;3)醫療問題和醫療問題的關系。文獻[14]使用支持向量機作為分類器,并引入外部字典和豐富的特征提升關系識別精度。文獻[15]通過基于規則的方法從中草藥相關文章中抽取關系,并用于構建關系數據庫。文獻[16]從病歷中計算疾病和癥狀的共現程度來抽取兩者的關系。文獻[17]采用兩階段方法,將長短期記憶(Long Short Term Memory,LSTM)網絡和支持向量機相結合,抽取藥物之間的影響關系。

2 方法描述

給定一個句子集合S={x1,x2,…,xn},其中xi為句子集合S中的第i個句子。實驗模型主要分為句子編碼和句子級注意力機制兩部分。

2.1 句子編碼

句子編碼模型如圖1所示,將任意給定的一個句子xi={c1,c2,…,cn}通過雙向GRU編碼處理,字級注意力機制計算產生每個字的權值,并把雙向GRU的輸出向量表示成一個句子向量。

圖1 句子編碼模型

2.1.1 向量表示

1)字向量表示:字嵌入是將句子中的字映射成一個低維稠密的向量,從而更好地刻畫字的屬性。給定一個含有n個字的句子xi={c1,c2,…,cn},實驗用word2vec工具訓練生成字向量,每個字均被映射為向量表示,向量維度為dw。

2)位置向量表示:在關系抽取任務中,位置嵌入用相對位置的低維向量表示,最早被文獻[12]引入實體關系抽取任務中。在圖2所示標注的句子中,當前字“引”與醫療實體“感冒”“發燒”之間的相對位置分別為2和-2,每個相對位置分別對應一個位置向量,維度為dp。

圖2 當前字與醫療實體的相對位置

2.1.2 雙向GRU層

GRU是循環神經網絡的分支,也是LSTM的變體,GRU在保持LSTM效果的同時使其結構簡單,且計算簡便,由于其在序列處理上的出色表現而被廣泛應用于自然語言處理任務中。GRU結構如圖3所示。

圖3 GRU結構

zt=σ(Wzxt+Uzht-1+bz)

(1)

rt=σ(Wrxt+Urht-1+br)

(2)

(3)

(4)

(5)

其中,zt和rt分別為GRU的更新門和重置門,更新門是控制上一時刻的狀態信息傳遞到當前時刻的程度,重置門是控制上一時刻的狀態信息被遺忘的程度。Wz,Wr,Wh和Uz,Ur,Uh分別為神經元當前時刻的輸入權重和循環輸入的權重,bz,br,bh為偏置向量。首先,實驗通過上一時刻的隱藏狀態信息ht-1和當前時刻的節點輸入xt來獲取2個門控的狀態。得到門控信號之后,利用重置門來獲取遺忘后的狀態ht-1?rt,?表示哈達馬積對應元素相乘;然后,將其與當前時刻的輸入xt相加并通過非線性函數tanh激活;最后,用更新門對當前節點的輸入選擇記憶。

GRU采用“門”結構來克服短時記憶的影響,不僅可以調節流經序列的信息流,還可以改善RNN 存在的“梯度消失”問題。為了能夠有效利用上下文信息,實驗采用雙向GRU結構,雙向GRU對每個句子分別采用前向和反向計算得到2個不同的隱藏層狀態,然后將2個向量相加得到最終的編碼表示。

2.1.3 字級注意力機制

注意力機制模仿了生物觀察行為的內部過程,是一種通過增加部分區域的注意力來獲取關注目標更多細節信息的機制。注意力機制可以快速提取數據的重要特征,減少對外部信息的依賴,捕獲語言中的長距離依賴性,被廣泛應用于自然語言處理任務中。本文通過引入字級注意力機制來判斷每個字對關系分類的重要程度,并有效提高模型精確率。

通過雙向GRU得到每個字的輸出向量ht,輸入到全連接層并獲得其隱藏表示ut,通過Softmax函數計算歸一化權重向量αt,最后得到句子向量表示。字級注意力機制權重計算如下:

ut=tanh(htWt+bt)

(6)

(7)

(8)

其中,Wt表示當前時刻神經元的輸入權重,T表示序列長度,uw表示隨機初始化的上下文向量,通過反向傳播更新上下文向量。St表示編碼后的句子向量。

2.2 句子級注意力機制

目前,很多用來構建知識庫的方法均需要標注好的訓練語料,人工標注的語料因為標注人員不同而導致語料噪聲。在實驗標注的語料庫中,相同的實體對和實體類型在不同的語料中被標注為不同的關系標簽,影響模型效果。常見的關系抽取方法是以句子作為單獨的處理單元,若僅使用字級注意力機制時,則只考慮到當前的句子信息,而對于含有同一實體對的其他句子,還需要通過句子級注意力機制學習實體共現句的上下文特征,為每個句子學習注意力權重,來提升分類器效果。正確標注的句子將獲得較高的權重,而錯誤標注的句子會得到較低的權重,隱式摒棄一些噪聲語料,如圖4所示。

圖4 句子級注意力機制模型

(9)

通過計算句子特征向量與目標實體關系的相似度來得到句子的注意力權值。句子特征向量與目標實體關系向量的相似度越高,則正確表達實體關系的可能性越大,注意力權重也越高。句子特征向量目標實體關系的相似度計算如下:

(10)

ei=xiAr

(11)

其中,ei表示句子特征向量xi與預測關系向量r的匹配分數,A表示加權對角矩陣。最后,通過Softmax層對實體關系向量進行輸出。

3 實驗結果與分析

3.1 數據集

中文EMR中包含大量的醫學知識和臨床信息,由于標注人員醫學領域知識的限制以及病歷中包含患者的隱私,使得EMR在語料構建上存在一定的困難。本文依據I2B2/VA Challenge醫學關系標注規范,且在專業人員的指導下,制定自己的中文EMR標注規范。在EMR的文本片段中,醫學實體語義關系主要存在于治療、疾病、檢查和癥狀等實體之間,如表1所示,包含5個粗粒度類別和15個細粒度類別,表2所示為標注語料示例。

表1 醫療實體關系類型及其描述

表2 中文電子病歷醫療實體關系

本文以甘肅省某二級甲等醫院提供的不同臨床科室的EMR為分析對象。首先,對已校對的EMR文本進行簡單的去隱私處理,然后,從不同臨床科室隨機挑選一定量的EMR文本進行人工標注。本文總共使用1 200份EMR文本對實體關系抽取進行研究,其中800份EMR作為訓練集,200份EMR作為開發集,200份EMR作為測試集。

3.2 評價指標

本文利用精確率P、召回率R和F1值對中文EMR實體關系分類效果進行評價,具體計算公式如下:

(12)

(13)

(14)

其中,TP表示對當前類別識別正確的數目,FP表示對當前類別識別錯誤的數目,FN表示應該識別為當前類別但是沒有被識別的數目,TP+FN表示該類別下所有正實例的總數目,TP+FP表示識別出來屬于當前類別的總數。分別計算各個類別的精確率P和召回率R,然后以F1值作為各個類別整體的評價指標。

3.3 實驗設置

選擇目前的主流模型LSTM作為基線實驗,分別和SVM模型、CNN模型、BiLSTM-Attention模型和BiGRU-Dual Attention模型進行對比。

1)SVM模型:該模型在SemEval-2010評測任務中表現最好。文獻[18]利用各種手工制定的特征,用SVM作為分類器,實驗取得了較好的F1值。

2)CNN模型:該模型被文獻[19]使用,采用CNN編碼句子向量,將編碼后的結果最大池化,利用Softmax函數輸出結果。

3)BiLSTM-Attention模型:該模型由文獻[20]提出。利用雙向LSTM抽取上下文信息,結合注意力機制對詞賦予不同的權重,判斷每個詞對關系分類的重要程度,提高對分類有貢獻的詞權重,有效提高模型效率。

4)BiGRU-Dual Attention模型:該模型由本文提出,使用雙向GRU和雙重注意力機制結合來抽取實體關系,通過隨機搜索調整在開發集上的超參數,超參數如表3所示。

表3 BiGRU-Dual Attention模型超參數

模型實驗中字向量維度為100,位置向量的維度為5,Batch Size大小為50,Epoch Num設置為10,使用Adam優化器進行訓練,學習率為0.000 5,其中L2正則化值為1,Dropout比率為0.5。在本文中,將Dropout比率與L2正則化結合起來以防止過度擬合。

3.4 實驗結果

本文提出基于雙向GRU和雙重注意力機制結合的實體關系抽取模型,將擅長學習長期依賴信息的雙向GRU加入到句子編碼階段中,然后用字級注意力機制提高對關系分類有決定作用的字權重,最后用句子級注意力機制獲取更多語句的特征,增大正確標注的句子權重,同時減小錯誤標注的句子權重。在訓練過程中,使用相同的數據、批次大小及迭代次數,分別對SVM模型、CNN模型、LSTM模型、BiLSTM-Attention模型和本文模型進行訓練,記錄訓練過程中最高的精確率P、召回率R和F1值,具體數據如表4所示。

表4 不同模型進行中文電子病歷實體關系識別時的性能比較

3.5 實驗分析

根據上述表4中的數據,可以看到本文提出的基于雙向GRU結合雙重注意力機制的實體關系抽取方法相比其他方法效果較好,F1值達到了82.17%。表4中的學習方法可以分為傳統機器學習方法和深度學習方法,從實驗結果可以看出,深度學習方法普遍優于傳統機器學習方法,這是由于傳統機器學習方法依賴于大量的手工特征,而EMR中文本語料較長,且結構性差,傳統機器學習方法無法從病歷文本中獲得包含的語義和長距離信息。本文提出的BiGRU-Dual Attention模型相較于傳統的機器學習算法有明顯地提高,同時相較于目前主流的BiLSTM-Attention模型,F1值提高了3.97%。在表4中,可以看出精確率P和召回率R均得到了大幅提高,這說明本文提出的方法改善了錯誤標簽的問題,同時在對細粒度特征分析中,結果發現F1值也提升了很多。雙向GRU和注意力機制的影響分析如下:

1)雙向GRU的影響分析。本文模型在句子編碼階段加入雙向GRU結構,能夠很好地學習字的上下文信息,并提供豐富的特征。由表4可以看出,LSTM的關系抽取模型比普通卷積的效果更好,然而GRU作為LSTM的變體,它可以像LSTM 一樣,既具備記憶序列特征的能力,又善于學習長距離依賴信息。EMR文本語料較長,存在許多長依賴語句,卷積神經網絡僅靠滑動窗口來獲得局部信息,不能學習到長依賴特征。雙向GRU結構卻可以學習到豐富的上下文特征,且效果更佳。

2)注意力機制的影響分析。本文模型中通過加入注意力機制,來判斷每個字對關系分類的重要程度,提高分類效果,并且引入句子級別的注意力機制,增大正確標注的句子權重,同時減小錯誤標注的句子權重。本文實驗設計對比了LSTM模型、BiLSTM-Attention模型以及BiGRU-Dual Attention模型的實體關系抽取效果。其中,BiLSTM-Attention模型只使用字級注意力機制,BiGRU-Dual Attention模型使用了字級注意力機制和句子級注意力機制。從表4的實驗結果可以看出,加入注意力機制的方法均高于未加注意力機制的方法,其中BiLSTM-Attention模型的F1值比LSTM模型的高3.49%,說明加入字級注意力機制有助于實體關系抽取準確率的提升。此外,由表4中數據可以看出,BiLSTM-Attention方法的F1值比本文方法要低許多,這可能是因為本文使用的句子級注意力機制學習更多的語句特征,降低錯誤標注語句的權值,減少噪聲句子影響。

3.6 方法驗證

實驗將本文方法與Mintz、 MultiR、 MIML 3種傳統的遠程監督方法相比較,具體數據如圖5所示。

圖5 本文方法與傳統遠程監督方法的結果對比

由圖5可知,本文方法的精確率P、召回率R、F1值均高于其他3種傳統的遠程監督方法,這是因為本文提出的方法不需要人工構建特征,能夠準確學習到句子的語義信息,直接從原始字中自動學習特征,減少錯誤傳播。另外,本文方法除了從更多的語句中學習特征,還加入字級注意力機制和句子級注意力機制,有效緩解標簽錯誤問題。

4 結束語

針對已有實體關系抽取方法存在的標簽標注錯誤問題,本文提出雙向GRU和雙重注意力機制結合的實體關系抽取方法。利用雙向GRU學習字的上下文信息,獲取更細粒度的特征信息,通過字級注意力機制提高對關系分類起決定作用的字權重,同時加入句子級注意力機制學習更多的語句信息,有效解決標簽錯誤問題。通過在人工標注的數據集上進行實驗對比,證明了本文方法能有效提升實體關系抽取效果。下一步將對實體識別和實體關系進行聯合抽取。