











關鍵詞: 異構圖注意力網絡; 實體關系聯合抽取; 藥物不良反應; 關系重疊; 知識發現
DOI:10.3969 / j.issn.1008-0821.2024.09.006
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 09-0071-11
藥物不良反應是指藥物在正常用法和用量下出現的與用藥目的無關的有害反應, 是一項重要公共衛生問題[1] 。隨著醫藥行業的快速發展, 各類治療藥物不斷推陳出新, 大量藥物受限于上市前臨床實驗的研究范圍[2-3] , 其藥物不良反應往往在上市后的大范圍應用過程中才被發現, 對患者及社會帶來了極大危害。隨著藥物上市, 自發呈報系統用于在臨床實驗后檢測未報告的藥物不良反應, 盡管近年來報告數量和質量穩步提升, 但仍然存在覆蓋面小、報告缺失、數據不完善以及時間滯后等問題, 大量的潛在藥物不良反應信息被忽略和遺漏[4] 。因此,針對生物醫學文獻[5] 、在線健康社區[6-8] 和電子病歷[9] 等文本數據的深入分析是完善藥物信息和監測上市藥物安全性的重要補充, 對于系統分析藥物警戒和潛在藥物重定位具有重要意義[10] 。
藥物不良反應實體關系聯合抽取是藥物信息提取和安全監測的關鍵環節, 旨在發現非結構化醫學文本中藥物不良反應相關實體之間的潛在關系, 以生成<實體,關系, 實體>三元組的形式[11-12] 。三元組是廣泛應用于醫藥知識圖譜構建[13] 、知識發現[14]以及醫學問答[15] 等多個領域的知識表示方式, 早期的藥物不良反應實體關系三元抽取研究主要基于流水線方法[16] 。流水線方法將藥物不良反應實體關系三元組抽取任務分解為實體識別和關系抽取兩個獨立的子任務, 并將識別出的實體輸入到關系抽取任務中進行分類。該方法簡單靈活, 但很容易產生誤差傳遞、實體冗余和交互缺失等問題[17] 。因此,一些學者提出了實體與關系聯合訓練的方法[18] , 并取得了顯著進展。然而現有研究大多不能有效解決同一句子包含多個重疊關系三元組的情況, 且針對中文藥物不良反應實體關系抽取任務缺乏醫療健康領域知識。
基于此, 本文提出了基于異構圖注意力網絡的藥物不良反應實體關系聯合抽取模型(MF-BERTHeterogeneousGraph Attention Network, MF-HGAT),該模型利用微調BERT(Bidirectional Encoder Repre?sentations from Transformers)和嵌入矩陣令字符與關系建模為異構圖節點, 并通過迭代融合異構圖注意力網絡消息傳遞機制增強語義節點表示, 進而在節點表示更新后進行關系提取, 該方法不僅可以進一步提升藥物不良反應實體關系聯合抽取效果, 挖掘潛在藥物不良反應知識, 同時對完善現有藥物不良反應監測體系、推動醫藥健康領域知識組織和知識服務的發展具有重要意義。
1相關研究
1.1 藥物不良反應實體關系抽取
從醫學文本中提取藥物不良反應實體關系是藥物警戒和藥物重定位的關鍵任務, 近年來受到了不同研究領域學者的極大關注。目前, 學界開展了一系列基于藥物不良反應實體關系抽取的公開挑戰賽,包括2018 年自然語言處理(Natural Language Process?ing, NLP)臨床挑戰賽(n2c2)[19] , 藥物、適應癥和藥物不良事件挑戰賽(MADE 1 0)[20] 以及2017年文本分析會議(TAC)[21] 。早期的藥物不良反應實體關系三元組抽取大多采用流水線方法[16] , 這類方法首先通過實體識別提取出臨床文本中藥物不良反應相關實體, 然后利用分類方法對候選實體對進行關系分類, 以挖掘潛在藥物不良反應關系。Martinez J L 等[22] 構建藥物不良反應字典實現實體識別, 通過結合詞匯和語義特征的支持向量機(SupportVector Machine, SVM)實現關系抽取。Gu X 等[23] 將雙向長短期記憶神經網絡(Bidirectional Long Short-Term Memory, BiLSTM)與基于字符嵌入和詞嵌入的條件隨機場(Conditional Random Field, CRF)結合識別藥物不良反應實體, 利用基于對抗訓練的分段卷積神經網絡(Convolutional Neural Network, CNN)進行關系提取。Dandala B 等[24] 和Christopoulou F等[25] 通過BiLSTM-CRF 從臨床電子健康記錄中抽取藥物不良反應相關實體, 并構建基于注意力機制的BiLSTM 以提取藥物不良反應和適應癥關系。流水線方法簡單靈活, 分別優化和改進了實體識別和關系抽取兩個獨立的子任務。盡管如此, 該方法也存在明顯的局限性: 首先, 流水線方法會產生誤差傳遞問題, 實體識別任務的預測誤差會直接傳播到關系抽取任務中, 進而影響部分關系抽取預測效果;其次, 產生實體冗余問題, 實體識別任務未經關系信息約束便抽取出大量實體, 導致無關聯的實體對冗余, 增加了關系分類的錯誤率; 最后, 流水線方法還存在交互缺失問題, 忽略了兩個子任務間的內在聯系與相互依賴, 各子任務的有用信息難以被充分利用[17] 。為了實現全局信息理解, 緩解錯誤信息的積累與傳播, 一些學者提出了聯合抽取的方法。Wei Q 等[26] 將藥物不良反應實體關系三元組抽取任務轉化為序列標記任務, 構建BiLSTM-CRF 聯合抽取模型端到端地識別藥物不良反應實體和關系。Chen L 等[27] 結合知識庫和混合深度學習, 從臨床文本中聯合提取藥物不良反應實體關系。El-AllalyE D 等[28] 提出一種基于Transformer 的加權圖卷積神經網絡(Graph Convolutional Network, GCN), 通過N 級序列標記對不同層次的實體關系進行建模,以抽取藥物不良反應實體關系。
盡管已有研究較好地提升了藥物不良反應實體關系聯合抽取效果, 但大多研究在抽取實體前忽略了實體間可能存在的關系信息, 導致大多數提取的實體不能構成有效的藥物不良反應三元組。此外,目前深度學習方法通常將句子映射為單一表示, 無法解決藥物不良反應三元組重疊問題。如何有效挖掘醫學文本實體關系深層語義信息, 是藥物不良反應實體關系聯合抽取任務亟待解決的問題。
1.2異構圖神經網絡
傳統的深度學習方法在提取歐氏空間數據特征方面取得巨大進展, 但在處理非歐空間數據的表現尚不理想。為了分析復雜的圖結構數據, Gori M等[29] 提出了圖神經網絡模型(Graph Neural Network,GNN), 該模型可從非歐空間的圖結構數據中根據目標節點的鄰域信息進行特征提取與學習, 進而充分表征目標節點, 有助于刻畫實體間關系等抽象概念。在此基礎上, Kipf T N 等[30] 將卷積運算推廣到圖結構數據中, 提出了圖卷積神經網絡模型(GraphConvolutional Network, GCN)。隨著注意力機制受到廣泛關注, Velicˇ kovic' P 等[31] 將注意力機制應用于包含一種節點和邊的同構圖中, 構建了圖注意力網絡模型(Graph Attention Network, GAT), 該模型通過為不同的鄰居節點分配不同的權重, 強化了圖神經網絡的表示能力, 具備更好的預測性能和泛化性, 但尚未應用于包含多種類型節點或邊的異構圖中。近年來受異構信息啟發, Wang X 等[32] 在異構圖中引入注意力機制, 提出了異構圖注意力網絡模型(Heterogeneous Graph Attention Network, HGAT)。該模型可以有效捕獲和建模異構圖中各種類型節點和邊的深層語義信息, 在自然語言處理任務中應用廣泛, 如文本分類[33-34] 、實體識別[35] 和情感分析[36] 等。Linmei H 等[33] 和Yang T 等[34] 將HGAT應用于短文本分類, 通過異構信息網絡對短文本進行建模, 并利用多粒度的雙級注意機制捕獲關鍵信息, 解決了短文本的語義稀疏性問題。Zhou L 等[35]引入單詞詞性(Part-of-Speech, POS) 信息構造HGAT, 通過注意力機制聚合來自不同類型鄰居節點的信息, 解決了嵌套命名實體識別問題。Lu G等[36] 利用HGAT 進行方面級情感分析, 通過交互式注意力網絡對句子序列表示進行編碼, 更好地捕獲異構上下文情感信息。鑒于HGAT 在通用領域的優異表現, 一些學者將HGAT 引入生物醫藥領域處理藥物關系等復雜異構數據。Jing X 等[37] 引入疾病信息構建藥物—疾病異構圖, 利用HGAT預測藥物與疾病節點的關系。Long Y 等[38] 在充分整合藥物數據源的基礎上構建藥物—病毒異構圖,通過注意力增強的HGAT 預測潛在的藥物病毒。Tanvir F 等[39] 構建了包含藥物、化合物和不良反應等生物醫學實體的異構信息網絡, 使用端到端的HGAT 在藥物相互作用預測上取得優異結果。然而目前研究大多僅關注粗粒度的實體識別和關系抽取獨立任務, 尚且缺乏利用異構圖注意力網絡來進行藥物不良反應實體關系聯合抽取任務的研究。
通過現有研究分析可知, 實體關系重疊是影響三元組抽取效果的重要因素, 引入異構圖注意力網絡模型可有效增強實體及關系語義表示, 解決藥物不良反應實體關系重疊問題。在已有研究基礎上,本文基于異構圖注意力網絡構建了MF-HGAT 模型,該模型將關系信息作為先驗知識引入為異構圖節點,通過迭代融合異構圖注意力網絡消息傳遞機制獲得更適合關系提取任務的節點表示, 從而有效提升藥物不良反應實體關系聯合抽取效果。
2基于異構圖注意力網絡的實體關系聯合抽取模型
2.1模型構建
為了解決藥物不良反應實體關系重疊問題, 基于關系先驗知識和圖注意力網絡語義表征優勢, 本文構建了基于異構圖注意力網絡的實體關系聯合抽取模型。該模型結構如圖1 所示, 主要分為嵌入層、異構圖層和關系提取層。首先在電子病歷、在線健康社區和醫學文獻語料上對BERT 進行預訓練, 遷移學習醫療健康領域知識; 其次在嵌入層通過微調BERT 令不良反應報告文本中的字符編碼為向量, 利用關系嵌入矩陣將關系嵌入為向量以構建圖模型的輸入; 然后在異構圖層通過迭代融合異構圖注意力網絡消息傳遞機制將字符和關系節點進行語義融合, 通過字符節點聚合所有關系節點信息,并利用更新后的字符節點表示更新關系節點; 最后將更新后的字符和關系節點表示輸入關系提取層,進行藥物不良反應關系提取。
2.2嵌入層
2.2.1 BERT 字符節點向量表示
BERT 是由谷歌發布的一種基于Transformer 架構的雙向動態預訓練語言模型[40] 。相較于Glove、Word2vec 等靜態嵌入方法, BERT 通過預訓練獲得的向量表示可充分挖掘不同語境下的動態語義信息,利用微調可有效增強模型的領域適應性和靈活性,降低藥物不良反應相關實體一詞多義帶來的歧義影響。鑒于BERT 強大的知識遷移和語義表征優勢,本文使用中文BERT-Base-Chinese 在嵌入層令藥物不良反應文本字符編碼為向量, 并在大規模醫學外部語料上進行預訓練和微調, 獲得適合藥物不良反應實體關系聯合抽取的MFBERT 預訓練模型。對于給定訓練集中的句子, 本實驗通過MFBERT 對上下文信息進行編碼, 將MFBERT 的最后一個隱藏層中的所有token 嵌入設為字符節點, 如式(1) 所示:
3實驗流程與結果分析
3.1實驗流程
藥物不良反應實體關系聯合抽取實驗的具體流程如圖2所示。
首先從海量的藥物不良反應報告中篩選不良反應描述信息; 其次在數據預處理基礎上進行實體標注和關系標注以生成藥物不良反應實體關系抽取數據集; 然后將數據集劃分為訓練集、測試集和驗證集, 并采用多種深度學習模型和基于不同醫學知識遷移BERT 的異構圖注意力網絡模型開展系列實驗; 最后利用精確率(Precision)、召回率(Recall)和F1 值(F1-Measure)作為評估指標, 對各組實驗實體關系聯合抽取效果進行對比和評價, 驗證異構圖注意力模型的有效性。
3.2實驗數據
本實驗數據來源于江蘇省藥品不良反應監測中心2010—2017 年不良反應報告, 經人工篩選標注10 000條不良反應文本。參照藥物不良反應事件n2c2 2018 數據集[19] 構建標準, 共標注藥品、適應癥、不良反應、時間和劑量5 類實體, 藥品—適應癥, 藥品—不良反應, 藥品—時間和藥品—劑量4類關系。為了確保數據集的標注質量, 使用Docca?no 工具進行三輪人工標注, 具體示例如圖3 所示。
標注得到的Kappa[41] 值為0.81, 標注一致性良好。本實驗藥物不良反應數據集實體關系類型分布如表1 所示。
3.3實驗環境配置
本文實驗環境是CPU 型號為Intel i5, GPU 型號為Nvidia GTX 2080 Ti, 內存32GB, 顯存11GB,操作系統為Windows 10 的服務器。實驗模型采用Python3.6.5 和Pytorch 深度學習框架的1.14 版本,表2 給出了實驗模型的各超參數值, 該模型在訓練集和測試集上均取得了良好的實驗效果。
3.4實驗設計
為驗證異構圖注意力網絡和外部醫療健康領域知識遷移在藥物不良反應數據集上的三元組聯合抽取效果, 共設計3 組實驗, 每組實驗均采用十折交叉驗證來評估模型效果, 按8∶1 ∶1將數據集劃分為訓練集、驗證集和測試集。具體實驗設計如下:
實驗一: 探究基準模型在藥物不良反應實體關系聯合抽取任務上的效果, 驗證異構圖注意力網絡模型有效性。將微調的FTBERT-HGAT 模型與主流聯合抽取模型OneRel[42] 、CasRel[43] 、TPlinker[44] 和GPLinker[45] 進行對比, 驗證異構圖注意力網絡模型效果。
實驗二: 探究外部醫療健康領域知識遷移對藥物不良反應實體關系聯合抽取的影響。在實驗一微調FTBERT-HGAT 模型基礎上, 通過BERT 在不同醫學外部語料上預訓練以遷移不同醫療健康領域知識, 分析不同外部醫療健康知識對實驗的影響。
實驗三: 驗證MF-HGAT 模型在CHIP-2020 中文醫學文本實體關系抽取數據集上的最優(Stateof-the-Art, SOTA)效果。比較MF-HGAT 和主流實體關系聯合抽取模型在CHIP-2020 數據集上醫學三元組抽取效果, 驗證MF-HGAT 模型有效性。
3.6實驗結果及分析
3.6.1實驗一: 異構圖注意力網絡模型有效性分析
為探究基準模型在藥物不良反應實體關系聯合抽取任務上的效果, 驗證異構圖注意力網絡模型有效性。分別對OneRel[42] 、CasRel[43] 、TPlinker[44] 、GPLinker[45] 4 種基準模型進行對比實驗, 并比較BERT 和微調BERT(FTBERT)對藥物不良反應實體關系三元組抽取效果的影響, 結果如表3所示。
從表3 可以發現, 在準確率、召回率和F1 值方面, 基于BERT 的異構圖注意力網絡模型BERTHGAT的準確率、召回率和F1 值分別為91.76%、87.62%和89.64%, 較其他基線模型OneRel[42] 、CasRel[43] 、TPlinker[44] 、GPLinker[45] 均有明顯提升,表明基于異構圖注意力網絡的BERT-HGAT 更適用于藥物不良反應實體關系三元組抽取任務。進一步分析發現, 主要原因在于已有基線模型較少關注實體和關系之間固有的語義聯系與融合, 而BERTHGAT模型引入關系信息作為先驗知識, 通過迭代融合異構圖注意力網絡的消息傳遞機制令字符節點聚合所有關系信息, 并利用更新后的字符節點表示進一步更新關系節點, 使得節點的表示通過迭代增強更適用于藥物不良反應實體關系抽取任務。此外,鑒于此時BERT 尚未針對本文任務進行微調, 字符向量尚未充分適應藥物不良反應實體關系抽取任務的特定要求, 本文利用部分數據集對預訓練的字符向量進行微調以進一步提升實驗效果。微調得到的FTBERT-HGAT 模型F1 值達到90.32%, 較初始BERT 提升了0.64%, 表明針對藥物不良反應實體關系聯合抽取任務微調后的BERT 較好地發揮語義表征優勢, 進一步提升藥物不良反應三元組抽取效果。
3.6.2 實驗二: 不同外部醫療健康領域知識遷移對比實驗及分析
為探究不同外部醫學知識遷移對藥物不良反應實體關系三元組抽取的影響, 根據表3 可知, 微調的FTBERT-HGAT效果最優, 然而該模型中的字符節點表示模型FTBERT 僅在通用領域維基百科語料上訓練, 缺乏醫療健康領域知識, 在中文醫藥健康領域實體關系抽取任務中表現欠佳。基于此, 本文選取同等規模的電子病歷、在線健康社區和醫學文獻語料對BERT進行預訓練并微調, 以實現外部醫療健康領域知識遷移。其中, EMR 語料來自江蘇省某醫院的電子病歷(Electronic Medical Records)數據, 其內容結構化且質量較高; OHC 語料來自在線健康社區(Online Health Community),“好問康”網站醫患問答記錄與“三九健康藥物網” 藥物評論, 其口語化表述與噪聲較多, 但醫生答復包含豐富的專業知識且語義關聯性較強; ML語料來自藥物疾病醫學文獻(Medical Literature)[46],其包含大量專業術語且表述方式較為嚴謹; 3份語料經過刪除用戶隱私信息和數據清洗后, 最終保留10萬條語句; MF 語料來自以上3種源領域并微調。實驗結果如表4 所示。
由表4 可知, 在電子病歷、在線健康社區和醫學文獻語料上預訓練并微調后的EMR-FTBERT、OHC-FTBERT 和ML-FTBERT 對實驗效果均有提升, F1 值分別達到90.82%、90.94%和91.46%, 較表3 中FTBERT-HGAT 分別提升了0.5%、0.62%和1.14%, 表明通過BERT 進行外部醫學領域知識遷移可有效提升藥物不良反應實體關系聯合抽取的效果。進一步分析發現, 在醫學文獻語料上, 預訓練的ML-FTBERT對實驗效果提升明顯, 而電子病歷和在線健康社區語料預訓練的提升幅度較小, 主要原因在于醫學文獻相較于其他領域語料包含更豐富的醫療健康領域知識。此外,在3 種醫學語料基礎上, 預訓練和微調的MF-HGAT模型實驗效果最優,F1值較表3中最優模型FTBERT-HGAT提升了2.43%, 達到92.75%, 表明融合多領域醫療健康知識可進一步提升實驗效果。
3.6.3 實驗三: SOTA效果驗證
實驗一與實驗二給出了本文構建的MF-HGAT在自構建藥物不良反應數據集上的實驗效果, 為了驗證MF-HGAT模型泛化能力與SOTA 效果, 本文將MF-HGAT 模型與CHIP-2020中文醫學文本實體關系抽取數據集[47] 的現有方法進行比較分析,結果如表5所示。
從表5可以看出, 本文提出的MF-HGAT 在CHIP-2020中文醫學文本實體關系抽取數據集上的聯合抽取效果最優, 在P、R 和F1 值上均優于主流聯合抽取模型。進一步分析發現, 主要原因在于MF-HGAT 模型融合多領域外部醫學語義特征,引入關系先驗知識, 并通過迭代融合異構圖注意力網絡消息傳遞機制增強節點表示, 實現了藥物不良反應關系信息和醫療健康領域知識的多語義特征融合, 在CHIP-2020醫學文本實體關系抽取數據集上達到SOTA效果。
3.7實例分析
為了更清晰地呈現MF-HGAT模型在藥物不良反應重疊三元組抽取上的效果, 本文選取MFHGAT和CasRel模型測試集上的部分預測結果, 具體實例如表6所示。其中, 第一例是包含一個三元組的簡單例子, MF-HGAT 和CasRel模型均可進行準確抽取; 第二例和第三例是包含多個重疊三元組的復雜實例, CasRel模型未能提取出以藥物不良反應和時間為尾實體的三元組, 而MF-HGAT模型能夠提取出所有的三元組, 表明融合外部醫療健康知識和關系語義信息可有效解決藥物不良反應重疊三元組抽取問題, 從而進一步提升藥物不良反應實體關系抽取準確性, 驗證了異構圖注意力網絡在藥物不良反應實體關系聯合抽取任務中的有效性。
4結語
藥物不良反應實體關系聯合抽取是藥物不良反應監測和醫療領域知識組織的關鍵環節。為解決傳統流水線抽取中誤差傳遞、實體冗余和交互缺失問題, 提升重疊三元組抽取效果, 提出了一種基于異構圖注意力網絡的藥物不良反應實體關系聯合抽取模型MF-HGAT。該模型利用BERT 預訓練進行外部醫學語料資源知識遷移, 并通過迭代融合異構圖注意力網絡消息傳遞機制令字符及關系節點進行語義融合, 生成更適合關系提取任務的節點表示。在自構建藥物不良反應數據集上的實驗結果表明, 與基準方法相比, MF-HGAT模型可以解決藥物不良反應三元組抽取中關系重疊問題, 挖掘潛在藥物不良反應知識, 進一步推動醫藥健康領域知識組織和知識服務研究進展。
然而, 本研究也存在一定的局限性。首先, 實驗僅探究了部分藥物不良反應實體關系抽取, 未拓展研究細粒度藥物不良反應事件抽取; 其次, 本研究模型僅引入關系信息作為先驗知識, 尚未考慮融入其他先驗知識進一步提升實體關系抽取的效果。因此, 后續研究將著眼于構建細粒度高質量藥物不良反應實體關系數據集, 并繼續探索更優的圖神經網絡模型,嘗試引入實體主體信息等其他先驗知識,進一步增強藥物不良反應知識的表示能力, 進而提升實驗效果。