融合實體-語句特征信息的中醫醫案實體識別研究

2024-09-22 00:00:00王豐陳根浪吳創

軟件工程 2024年9期

關鍵詞：特征融合;命名實體識別;BERT;中醫

中圖分類號：TP391 文獻標志碼：A

0 引言（Introduction）

中醫醫案中蘊含著中醫專家豐富的診療經驗和理論，因此有效提取醫案中的草藥、癥狀、證、劑量等信息[1]對于后續探尋診療規律[2]、構建診療模型[3]具有重要意義，是傳承中醫學的重要實踐方式。

在中醫領域，命名實體識別（Named Entity Recognition，NER）被用于提取癥狀、中藥等實體信息，是中醫知識圖譜構建的重要技術之一。中醫命名實體具有復雜、長度不確定等特點，并且存在許多嵌套實體，因此中醫實體識別更具挑戰性。考慮到中藥之間的配伍關系和癥狀的共現性，本文提出了一種中醫實體融合識別方法。該方法將每個實體向量和語句向量相融合，獲得帶有全局特征信息的實體向量，進一步將實體向量和語句向量進行連接以獲得融合后的特征向量。本文使用多組基于BERT（Bidirectional Encoder Representation fromTransformers）的模型進行了實驗與測試。實驗結果表明，本文提出的方法在中醫醫案的實體識別任務上的精確率有顯著提高，可為中醫醫案的實體識別提供有益的參考。

1 相關工作（Related work）

命名實體識別是中醫領域信息提取的關鍵任務，也是中醫數據挖掘和構建中醫輔助診斷系統的重要步驟。醫學命名實體識別方法可分為基于規則和領域詞典的字符匹配的方法、基于機器學習的方法和基于深度學習的方法。

早期的實體識別方法主要依賴專家構造語法和語義規則，根據規則進行模式匹配來完成對實體的抽取。中醫師們利用醫學字典和專業人員的臨床專業知識構建模板和規則。ZINGMOND等[4]通過研究醫學語料庫中的規則，并結合處理醫學文本報告的自然語言處理方法，構造了一個文本處理器。FRIEDMAN等[5]設計了一種通用自然語言文本處理器，用于提取醫學報告中的臨床信息。這類方法存在準確性過度依賴模板質量和可移植性的問題。

機器學習方法將實體識別任務轉換為字符（Token）級別的多分類問題或是序列標注問題，在構造標注數據的同時，通過學習將不同字符映射成為不同標簽。例如，隱馬爾可夫模型、支持向量機、條件隨機場（Conditional Random Field，CRF）模型等常見的機器學習算法均被廣泛應用于實體識別。高佳奕等[6]將條件隨機場模型應用于中醫實體識別，在名老中醫臨床肺癌醫案實體識別任務中取得了滿意的效果。任宋潔[7]使用條件隨機場模型對藥品說明書進行實體識別。這些方法雖然減少了對人工構建模板的需求，但是仍然需要大量的特征工程。

深度學習方法避免了煩瑣的特征工程，采用向量化表示以及神經網絡式的傳導求解探索隱藏的語義信息。DENG等[8]構建了雙向長短期記憶遞歸神經網絡并結合條件隨機場模型識別中醫藥專利中的實體，并取得了良好的效果。在Transformer提出后，兩段式訓練被廣泛應用。雙向Transformer編碼器的BERT預訓練語言模型則提升了詞向量的語義表征能力，使其在命名實體識別上有較大的性能提升。何濤等[9]使用BERT模型配合條件隨機場模型從電子病歷中提取實體，并驗證了BERT-CRF模型應用在中文實體識別中尤其是在中醫實體識別任務上的有效性。

2 模型架構（Model architecture）

2.1 模型概述

本文提出的模型整體架構如圖1所示。在輸入文本序列添加特殊標記[CLS]和[SEP]后，經由BERT模型的嵌入層對輸入序列進行編碼，生成語義向量表示。虛線框是本文提出的融合模塊，將實體向量Hn 和語句向量H 相乘，獲得的融合向量H'n 包含了單個實體與語句環境的特征信息，之后將添加語義信息后的融合向量H'n 與原始語句向量H 連接，得到保留上下文實體關系的融合特征向量。該方法可以捕捉實體之間的依賴關系并提取出更豐富的語義特征。條件隨機場模型負責對融合向量進行解碼，計算得分最高的標簽，可以獲得最佳的訓練標簽序列。下文將詳細介紹模型的每一模塊。

2.2BERT預訓練模型

BERT模型的輸入表征如圖2所示。輸入由詞嵌入向量（Token Embedding）、分段嵌入向量（Segment Embedding）和位置嵌入向量（Position Embedding）組成。文本數據被轉換為向量，并且為每個句子的開頭和結尾添加特殊標志[CLS]和[SEP]，經過詞嵌入后的向量被轉換成一個768維的向量。分段嵌入層使用兩種向量表示法為句子對中的兩個句子分配不同的向量表示，用于區分兩個句子的前后順序。位置嵌入層為每個位置學習一個代表序列順序信息的向量和一個大小為（512×768）的查找表用于表示序列中各個位置的特征。3個嵌入層的向量按元素相加得到BERT編碼層的輸入。

BERT預訓練模型的實現基于多層雙向Transformer編碼器且采用掩碼語言模型用于預訓練，生成融合上下文信息的深層雙向語言表征。本文實驗選擇使用中文維基百科相關語料的預訓練BERT-base-Chinese模型，其結構為12層編碼器，每層有12個端口，向量維數為768維。

2.3 融合層

在中醫文本中，實體之間存在一些固定的上下文信息。例如，前人把單味藥的應用同藥與藥之間的配伍關系稱為藥物的“七情”，例如“桂枝配白芍”二藥配伍，一溫一寒，一斂一散，針對衛強營弱，可調和營衛。“柴胡配黃芩”二藥配伍，具有較好的和解少陽、疏散肝膽郁熱的作用。藥物配合使用，藥與藥之間會發生某些相互作用，有的能增強或降低原有藥效，有的能抑制或消除毒副作用。在癥狀描述中，患者的某些癥狀往往伴隨產生，如“鼻涕多、鼻塞”“久咳多痰”等通常會伴隨某種疾病出現。為了更好地適配中醫醫案文本的藥物配伍關系和癥狀的共現性，獲得更豐富的實體間特征，本文提取文本中的單個草藥實體和其他實體，并將草藥實體放入中藥處方語境中。同樣，將癥狀實體放入其經常出現的語境中進行實體融合，使得實體不僅具有自身的特征，還具備文本中其他實體的語境特征。因此，與單個實體向量相比，融合向量擁有更多關于每個實體與整個語句之間關系的特征信息。融合模塊的具體算法流程如下。

3 實驗（Experiment）

3.1 數據預處理

實驗選取了4000多份患者的臨床病歷，經過數據清洗和冗余處理等預處理步驟，保障了數據的可靠性。結合特定領域的知識以及專家的見解對數據進行標注并構建了一個中醫語料庫，其中包括20 400個草藥實體和26072個癥狀實體。

考慮到中醫實體具有很強的領域專業性，需要制定規范的標注策略以更好地確定實體之間的差異性，保證標注數據的完整性。標注規范描述如下。

（1）同一中藥材采用不同的炮制方法會產生不同的功效，因此標注上要進行區分。例如：生麥芽具有回乳消脹的功效;炒麥芽有健胃消食的作用。

（2）癥狀中存在大量嵌套實體，因此對嵌套的癥狀要進行區分。例如：舌紅苔白和舌紅苔白厚膩表示不同癥狀。

（3）專業的中醫師在描述癥狀時存在一定的口語化特點，部分癥狀描述可能會采用縮寫形式，因此對癥狀描述的差異性要進行標注上的區分。例如：手心萎黃和手黃。

本文數據集采用BMES（Beginning Middle End Single）標注方法，具體格式如表1所示。其中：B代表實體的起始位置，M代表實體的中間位置，E代表實體的結束位置，S代表單一實體，O代表非實體部分。數據按6∶2∶2的比例分為訓練集、驗證集和測試集。

3.2 實驗環境

本實驗基于Pytorch框架構建神經網絡模型，具體實驗環境配置如表2所示。

3.4 實驗參數

實驗中使用BERT 預訓練模型為12層Transformer網絡，隱藏層狀態的維數為768，BERT預訓練模型的學習率為1e-5，CRF層的學習率為1e-3，以30輪迭代訓練的最優結果作為最終訓練結果。實驗參數如表3所示。

3.5 結果與分析

將實體識別抽象為序列標注問題后，本研究首先使用Softmax函數對融合層的輸出向量進行分類，以獲取訓練好的標注序列。考慮標簽的預測相對獨立，實體識別的準確率是將實體包括邊界作為整體計算，因此將Softmax函數替換為條件隨機場模塊，確保標簽之間的約束性。在癥狀實體的精確度上，添加Softmax函數在BERT模型后的表現略好于條件隨機場模塊，而F1分數和召回率則稍差。在中藥實體方面，添加條件隨機場模塊在P、R、F1三個指標上的表現更勝一籌。不同模型的實驗結果對比如表4所示。

在BERT-CRF模型的基礎上，加入雙向長短期記憶遞歸神經網絡（Bi-directional Long Short-Term Memory，BiLSTM）獲取上下文特征信息。BiLSTM 通過其門控結構控制神經元的傳輸，從而學習中藥和癥狀文本中存在的上下文關系。加入上下文特征后，訓練結果并未得到顯著改善。本文分析認為BiLSTM可能忽略了局部特征，因此加入了空洞卷積神經網絡（Iterated Dilated Convolutional Neural Network，IDCNN）模塊。空洞卷積在不使用池化損失信息的情況下擴大了感受野，使每個卷積輸出都包含更大范圍的信息。然而，添加空洞卷積神經網絡結構和雙向長短期記憶遞歸神經網絡并未對實體識別效果帶來明顯的提升。

為了使模型能夠更好地獲取中醫上下文特征信息，本文提出了實體特征融合的結構，添加特征融合模塊后的中藥實體識別效果提升顯著，這主要得益于中藥之間的配伍關系更加密切。由于本文的特征融合方法更好地關注到了上下文特征信息，在中醫語料上實體識別效果優于其他方法。與BERT-CRF模型相比，中藥實體識別F1分數提高了1.44百分點，癥狀實體提高了0.14百分點。與BERT-IDCNN-BiLSTM-CRF模型相比，中藥實體識別F1分數提高了2.83百分點，癥狀實體提高了4.67百分點。

4 結論（Conclusion）

本研究通過融合BERT預訓練模型提取的語句特征向量和實體特征向量，更有效地捕捉到了中醫實體之間的特征信息。將融合向量輸入條件隨機場模塊，在標簽序列預測過程中降低了非法序列的發生概率，從而提高了標簽預測的準確性。實驗結果表明，本文提出的方法在對中醫命名實體識別的效果上優于其他方法。未來的研究將進一步完善數據集和方法，以提高對相似文本實體的準確識別率。

作者簡介：

王豐（1999-），男，碩士生。研究領域：中醫智能化技術及應用。

陳根浪（1978-），男，博士，教授。研究領域：大數據及人工智能，生命健康領域。

吳創（1998-），男，碩士生。研究領域：中醫智能化技術及應用。

軟件工程2024年9期

軟件工程的其它文章: 基于對抗訓練和片段級別的雙向情感三元組抽取模型; 放牧策略對土壤與植被的影響及土壤濕度預測研究; 基于連續小波變換和殘差神經網絡的房顫預測研究; 花式紗線條干檢測的視覺傳感器標定方法研究; 基于圖卷積網絡和有效自注意力的3D腹部器官圖像分割方法; 二分圖中高效計算top-n maximal α-biclique的方法研究